可變寬度編碼

字符编码方案

可變寬度編碼是一種字符編碼方案,其中藉由不同長度的代碼,對字符集(符號庫)進行編碼以表示文字,通常使用於計算機中。[1][a]最常見的可變寬度編碼為多字節編碼,它使用不同數量的字節(或稱八位字節)來編碼不同的字符。(有些作者,尤其在微軟文檔中,使用「多字節字符集」這一術語。但這樣實屬用詞不當,因表示大小是編碼的屬性,而非字符集的屬性。 )

在早期的微型計算機冒險遊戲中,有時為將英文文本打包成更少的字節,使用每個字符少於一個字節的早期可變寬度編碼。然而,因與磁帶不同,它允許隨機訪問,允許按需加載文本的磁盤的產生與計算機內存的增加和通用壓縮算法的運用,使這些技巧在很大程度上已經過時。

多字節編碼多為因增加字符數量而不致破壞與已存在的限制之間的向後兼容性而產生。例如,若每個字符以一個字節(8比特)存儲,則最多可編碼256個可能的字符;故為了編碼數量超過256個的字符,顯而易見的選擇則是每個編碼單元使用兩個及以上數量的字節,如兩個字節(16比特)可編碼65536個可能的字符,但這樣的改變將會破壞與已存在之系統的兼容性,故可能根本便不可行。

註釋

  1. ^ The concept long precedes the advent of the electronic computer, however, as seen with Morse code.

參考文獻

  1. ^ Crispin, M. UTF-9 and UTF-18 Efficient Transformation Formats of Unicode. 2005-04 [2022-09-23]. doi:10.17487/rfc4042. (原始內容存檔於2022-10-05) (英語).