詞語解釋
UTF-8(8 位元 Universal Character Set/Unicode Transformation Format)是針對Unicode 的一種可變長度字符編碼。它可以用來表示 Unicode 標(biāo)準中的任何字符,而且其編碼中的第一個字節(jié)仍與 ASCII 相容,使得原來處理 ASCII 字符的軟件無需或只作少部份修改后,便可繼續(xù)使用。因此,它逐漸成為電子郵件、網(wǎng)頁及其他儲存或傳送文字的應(yīng)用中,優(yōu)先采用的編碼。
UTF-8 使用一至四個字節(jié)為每個字符編碼:
128 個 US-ASCII 字符只需一個字節(jié)編碼(Unicode 范圍由 U+0000 至 U+007F)。
帶有變音符號的拉丁文、希臘文、西里爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及它拿字母則需要二個字節(jié)編碼(Unicode 范圍由 U+0080 至 U+07FF)。
其他基本多文種平面(BMP)中的字符(這包含了大部分常用字)使用三個字節(jié)編碼。
其他極少使用的 Unicode 輔助平面的字符使用四字節(jié)編碼。
對上述提及的第四種字符而言,UTF-8 使用四個字節(jié)來編碼似乎太耗費資源了。但 UTF-8 對所有常用的字符都可以用三個字節(jié)表示,而且它的另一種選擇,UTF-16編碼,對前述的第四種字符同樣需要四個字節(jié)來編碼,所以要決定 UTF-8 或 UTF-16 哪種編碼比較有效率,還要視所使用的字符的分布范圍而定。不過,如果使用一些傳統(tǒng)的壓縮系統(tǒng),比如 DEFLATE,則這些不同編碼系統(tǒng)間的的差異就變得微不足道了。若顧及傳統(tǒng)壓縮算法在壓縮較短文字上的效果不大,可以考慮使用 Standard Compression Scheme for Unicode(SCSU)。
因特網(wǎng)工程工作小組(IETF)要求所有因特網(wǎng)協(xié)議都必須支援 UTF-8 編碼。[1] 互聯(lián)網(wǎng)郵件聯(lián)盟(IMC)建議所有電子郵件軟件都支援 UTF-8編碼。所有主要的電子郵件軟件中,只有 Eudora 不支援 UTF-8 編碼。[1]
掃碼付費即可復(fù)制
XJSP | 光纜 | 子網(wǎng) | 無線CDMA | cdma系統(tǒng) | 中國普天信息產(chǎn)業(yè)股份有限公司 | PHY | 杭州縱橫通信股份有限公司 | 誤塊率 | 超寬帶 | 移動用戶 | 天翼通 |