基本拉丁字母 (Unicode區段)

基本拉丁字母Basic Latin),又稱C0控制字元及基本拉丁字母C0 Controls and Basic Latin),是Unicode標準下的首個Unicode區段,亦是唯一一個在UTF-8下,以單一位元組編碼的區段。此區段包含ASCII編碼下所有字母英語ISO basic Latin alphabet控制字元。該區段的範圍為U+0000..U+007F(共128個字元),包含C0控制字元、ASCII標點符號規約符號ASCII數字英文字母中的大寫小寫字母,以及一個控制字元。

C0控制字元及基本拉丁字母
C0 Controls and Basic Latin
範圍U+0000..U+007F
(128個碼位)
平面基本多文種平面BMP
文字拉丁字母(52個)
通用(76個)
應用
符號系列
已分配128個碼位
33個控制或格式
未分配0個保留碼位
來源標準ISO/IEC 8859 · ISO 646
註釋[1][2]

基本拉丁字母區段內的字元Unicode標準的1.0版本起一直沿用至今,多年來未曾對此作出任何增減。[3]該區段在1.0版本的名稱為ASCII[4]

字元表

下表列出基本拉丁字母包含的所有字元[5]

字元表
碼位 顯示 描述 縮寫
C0控制字元
U+0000 空字元 NUL
U+0001 報頭開始字元 SOH
U+0002 正文開始字元 STX
U+0003 文字結束字元英語End-of-text character ETX
U+0004 傳輸結束字元 EOT
U+0005 詢問字元英語Enquriry character ENQ
U+0006 確認訊息字元 ACK
U+0007 響鈴字元英語Bell character BEL
U+0008 退格鍵 BS
U+0009 水平製表符 HT
U+000A 換行 LF
U+000B 垂直製表符 VT
U+000C 換頁符英語Form feed FF
U+000D 回車字元 CR
U+000E 移出字元 SO
U+000F 移入字元 SI
U+0010 數據傳送換碼 DLE
U+0011 裝置控制符1 DC1
U+0012 裝置控制符2 DC2
U+0013 裝置控制符3 DC3
U+0014 裝置控制符4 DC4
U+0015 否定確認訊息字元 NAK
U+0016 同步空閒 SYN
U+0017 傳輸塊結束字元英語End-of-Transmission-Block character ETB
U+0018 取消字元英語Cancel character CAN
U+0019 媒體結束字元 EM
U+001A 替代字元 SUB
U+001B 跳脫字元 ESC
U+001C 檔案分隔符 FS
U+001D 分組符 GS
U+001E 記錄分隔符 RS
U+001F 單元分隔符 US
ASCII標點及符號
U+0020   空格 SP
碼位 顯示 描述
U+0021 ! 嘆號[註 1]
U+0022 " 引號[註 2]
U+0023 # 井號
U+0024 $ 比索符號
U+0025 % 百分號
U+0026 & &符號
U+0027 ' 撇號
U+0028 ( 左括號
U+0029 ) 右括號
U+002A * 星號
U+002B + 加號
U+002C , 逗號
U+002D - 連字暨減號
U+002E . 西文句號
U+002F / 斜線號
ASCII數字
U+0030 0 數字0
U+0031 1 數字1
U+0032 2 數字2
U+0033 3 數字3
U+0034 4 數字4
U+0035 5 數字5
U+0036 6 數字6
U+0037 7 數字7
U+0038 8 數字8
U+0039 9 數字9
ASCII標點及符號
U+003A : 冒號
U+003B ; 分號
U+003C < 小於號
U+003D = 等號
U+003E > 大於號
U+003F ? 問號
U+0040 @ @符號
碼位 顯示 描述
大寫拉丁字母
U+0041 A 大寫拉丁字母A
U+0042 B 大寫拉丁字母B
U+0043 C 大寫拉丁字母C
U+0044 D 大寫拉丁字母D
U+0045 E 大寫拉丁字母E
U+0046 F 大寫拉丁字母F
U+0047 G 大寫拉丁字母G
U+0048 H 大寫拉丁字母H
U+0049 I 大寫拉丁字母I
U+004A J 大寫拉丁字母J
U+004B K 大寫拉丁字母K
U+004C L 大寫拉丁字母L
U+004D M 大寫拉丁字母M
U+004E N 大寫拉丁字母N
U+004F O 大寫拉丁字母O
U+0050 P 大寫拉丁字母P
U+0051 Q 大寫拉丁字母Q
U+0052 R 大寫拉丁字母R
U+0053 S 大寫拉丁字母S
U+0054 T 大寫拉丁字母T
U+0055 U 大寫拉丁字母U
U+0056 V 大寫拉丁字母V
U+0057 W 大寫拉丁字母W
U+0058 X 大寫拉丁字母X
U+0059 Y 大寫拉丁字母Y
U+005A Z 大寫拉丁字母Z
ASCII標點及符號
U+005B [ 左中括號
U+005C \ 反斜線 [A]
U+005D ] 右中括號
U+005E ^ 揚抑符
U+005F _ 下橫線
U+0060 ` 重音符
碼位 顯示 描述
小寫拉丁字母
U+0061 a 小寫拉丁字母A
U+0062 b 小寫拉丁字母B
U+0063 c 小寫拉丁字母C
U+0064 d 小寫拉丁字母D
U+0065 e 小寫拉丁字母E
U+0066 f 小寫拉丁字母F
U+0067 g 小寫拉丁字母G
U+0068 h 小寫拉丁字母H
U+0069 i 小寫拉丁字母I
U+006A j 小寫拉丁字母J
U+006B k 小寫拉丁字母K
U+006C l 小寫拉丁字母L
U+006D m 小寫拉丁字母M
U+006E n 小寫拉丁字母N
U+006F o 小寫拉丁字母O
U+0070 p 小寫拉丁字母P
U+0071 q 小寫拉丁字母Q
U+0072 r 小寫拉丁字母R
U+0073 s 小寫拉丁字母S
U+0074 t 小寫拉丁字母T
U+0075 u 小寫拉丁字母U
U+0076 v 小寫拉丁字母V
U+0077 w 小寫拉丁字母W
U+0078 x 小寫拉丁字母X
U+0079 y 小寫拉丁字母Y
U+007A z 小寫拉丁字母Z
ASCII標點及符號
U+007B { 左大括號
U+007C | 豎線
U+007D } 右大括號
U+007E ~ 波浪號
控制字元
U+007F 刪除符[註 3]
A 字元U+005C(\)在日/韓語字體中或會顯示成日元(¥)或韓圜符號(₩),皆因這些字體錯誤地視Unicode(尤其是UTF-8)為一款傳統字元集,並將反斜線取代成這些符號。[6]

子標題

「C0控制字元及基本拉丁字母」區段內包含六個子標題。[5]

C0控制字元

「C0控制字元」(C0 Controls,於1.0版本中稱為C0 ASCII控制符)乃繼承自ASCII及其他7位元及8位元編碼系統。C0控制字元的別名乃基於ISO/IEC 6429:1992標準而取。[5]

ASCII標點及符號

此子標題乃指標準標點字元、簡單數學運算子,以及比索符號($)、百分號、&符號、下劃線和管道符號等符號。[5]

ASCII數字

「ASCII數字」(ASCII Digits)子標題包含標準歐式數字字元1-9及0。[5]

大寫拉丁字母

「大寫拉丁字母」(Uppercase Latin alphabet)子標題包含26個標準、無附加符號的大寫拉丁字母。[5]

小寫拉丁字母

「小寫拉丁字母」(Lowercase Latin alphabet)子標題包含26個標準、無附加符號的小寫拉丁字母。[5]

控制字元

「控制字元」(Control Character)子標題僅包含「刪除」字元。[5]

符號、字母與控制符數量

下表列出C0控制字元及基本拉丁字母區段中,各子標題的字母、符號與控制符數量。

子標題名稱 符號數量 字元代碼範圍
C0控制字元 32個控制字元 U+0000..U+001F
ASCII標點及符號 33個標點符號與符號 U+0020..U+002FU+003A..U+0040U+005B..U+0060U+007B..U+007E
ASCII數字 10個數字 U+0030..U+0039
大寫拉丁字母 26個無附加符號的大寫拉丁字母 U+0041..U+005A
小寫拉丁字母 26個無附加符號的小寫拉丁字母 U+0061..U+007A
控制字元 1個包含「刪除」字元的控制字元 U+007F

區塊

C0控制字元和基本拉丁字母
C0 Controls and Basic Latin[a]
Unicode Consortium 官方碼表 (PDF)
  0 1 2 3 4 5 6 7 8 9 A B C D E F
U+000x NUL SOH STX ETX EOT ENQ ACK BEL  BS   HT   LF   VT   FF   CR   SO   SI 
U+001x DLE DC1 DC2 DC3 DC4 NAK SYN ETB CAN  EM  SUB ESC  FS   GS   RS   US 
U+002x  SP  ! " # $ % & ' ( ) * + , - . /
U+003x 0 1 2 3 4 5 6 7 8 9 : ; < = > ?
U+004x @ A B C D E F G H I J K L M N O
U+005x P Q R S T U V W X Y Z [ \ ] ^ _
U+006x ` a b c d e f g h i j k l m n o
U+007x p q r s t u v w x y z { | } ~ DEL
  1. ^ 截至Unicode版本 15.1

變體

部份字元若跟從變體指示器(variant indicators),則會以標準化變體的定義生成。

區段內亦有一個為字元「0」定義、帶有短對角斜線的變體0︀U+0030 DIGIT ZERO U+FE00 VS1)。[7][8]

12個字元可透過U+FE0E VS15U+FE0F VS16以生成繪文字變體。[9][10][11][12]它們均為鍵帽英語Keycap基底字元(base characters),如#️⃣(U+0023 NUMBER SIGN U+FE0F VS16 U+20E3 COMBINING ENCLOSING KEYCAP)。VS15版本是「文字樣式」,而VS16版本則為「繪文字樣式」。[8]

繪文字可選變體
U+ 0023 002A 0030 0031 0032 0033 0034 0035 0036 0037 0038 0039
基本碼位 # * 0 1 2 3 4 5 6 7 8 9
基本+VS15+鍵帽 #︎⃣ *︎⃣ 0︎⃣ 1︎⃣ 2︎⃣ 3︎⃣ 4︎⃣ 5︎⃣ 6︎⃣ 7︎⃣ 8︎⃣ 9︎⃣
基本+VS16+鍵帽 #️⃣ *️⃣ 0️⃣ 1️⃣ 2️⃣ 3️⃣ 4️⃣ 5️⃣ 6️⃣ 7️⃣ 8️⃣ 9️⃣

歷史

以下與Unicode相關的文件記錄了在基本拉丁字母區塊中定義特定字元的目的和過程:

參見

注釋

  1. ^ 縮寫為EXC
  2. ^ 縮寫為QUO
  3. ^ 縮寫為DEL

參考資料

  1. ^ Unicode character database. The Unicode Standard. [2016-07-09]. (原始內容存檔於2017-09-25) (英語). 
  2. ^ Enumerated Versions of The Unicode Standard. The Unicode Standard. [2016-07-09]. (原始內容存檔於2016-06-29) (英語). 
  3. ^ The Unicode Standard Version 1.0, Volume 1. Addison-Wesley Publishing Company, Inc. 1990. ISBN 0-201-56788-1. 
  4. ^ 3.8: Block-by-Block Charts (PDF). The Unicode Standard. version 1.0. Unicode Consortium. [2022-05-17]. (原始內容 (PDF)存檔於2021-02-11) (英語). 
  5. ^ 5.0 5.1 5.2 5.3 5.4 5.5 5.6 5.7 Unicode 6.2 code charts (PDF). The Unicode Standard. [2013-04-01]. (原始內容 (PDF)存檔於2018-07-04) (英語). 
  6. ^ Michael S. Kaplan. When is a backslash not a backslash?. Sorting it all Out. Microsoft. 2005-09-17. (原始內容存檔於2010-06-12) (美國英語).  亦可於 http://archives.miloush.net/michkap/archive/2005/09/17/469941.html頁面存檔備份,存於網際網路檔案館) 查閱。
  7. ^ Beeton, Barbara; Freytag, Asmus; Iancu, Laurențiu; Sargent, Murray. L2/15-268: Proposal to Represent the Slashed Zero Variant of Empty Set (PDF). 2015-10-30 [2022-05-17]. (原始內容 (PDF)存檔於2016-10-21) (英語). 
  8. ^ 8.0 8.1 UTS #51 Emoji Variation Sequences. The Unicode Consortium. [2022-05-17]. (原始內容存檔於2022-03-31) (英語). 
  9. ^ Edberg, Peter. L2/11-438: Emoji Variation Sequences (Revision of L2/11-429) (PDF). 2011-12-22 [2022-05-17]. (原始內容 (PDF)存檔於2022-06-10) (英語). 
  10. ^ Pournader, Roozbeh. L2/15-301: A proposal for 278 standardized variation sequences for emoji (PDF). 2015-11-01 [2022-05-17]. (原始內容 (PDF)存檔於2022-03-31) (英語). 
  11. ^ UTR #51: Unicode Emoji. Unicode Consortium. 2020-02-11 [2022-05-17]. (原始內容存檔於2019-05-01) (英語). 
  12. ^ UCD: Emoji Data for UTR #51. Unicode Consortium. 2021-08-26 [2022-05-17]. (原始內容存檔於2022-03-28) (英語).