中文標準交換碼
中文標準交換碼(Chinese Standard Interchange Code,簡稱CSIC),是中華民國國家標準11643號,簡稱CNS 11643,舊名通用漢字標準交換碼(Chinese Ideographic Standard Code for Information Interchange,簡稱CISCII),是中華民國政府為中文資訊處理制定的字元編碼方案,與許多學術圖書館系統採用的中文資訊交換碼同屬於中文交換碼。中文標準交換碼基于ISO 2022定义,和ASCII相容,其EUC版本為EUC-TW。
别名 | 中文標準交換碼 |
---|---|
语言 | 繁體中文 |
标准 | CNS 11643 |
分类 | ISO 2022、雙位元組字元集、中日韓統一表意文字 |
编码格式 |
|
其他相关编码 | 大五碼、中文資訊交換碼 |
簡介
编辑1980年9月,行政院國家科學委員會集合編碼專家、學者在溪頭舉行會議,建立國家中文資訊標準交換碼的編碼原則,並報請行政院核定。隔年,行政院函令國科會、教育部、中央標準局及主計處電子處理資料中心組成專案作業小組,推動編碼工作。經多次會商,於1983年10月底完成「通用漢字標準交換碼」的試用版,試行二年。試用期滿後,國科會與主計處電資中心邀集相關單位與業者組成技術小組,檢討試用結果,並根據檢討結果修訂編碼原則予以重編。1986年8月4日由經濟部中央標準局(後改名為標準檢驗局)正式公佈,取名「通用漢字標準交換碼」,其內容包括第一字面、第二字面共13,051字[1]。
1980年代萬「碼」奔騰,業界使用各種不同的字符編碼,如大五碼、王安碼、IBM 5550碼、公會碼、電信碼[2]、倚天碼等;CNS11643與大五碼字數相同(大五碼有13,053字,但有兩個重碼)。藉由此國家標準交換碼的公布與使用,做為各種不同內碼間的橋梁,使得不同的內碼也可以互相溝通和交換,資料可共享。
為因應各界對擴大中文字元集的需求,中央標準局於1990年委託資訊工業策進會進行擴編。CNS 11643於1992年使用至第七字面,共48,027字,並更名為「中文標準交換碼」。2003年,標準檢驗局委託中文數位化技術推廣基金會再次擴編,於2004年推出新版的CNS11643,將編碼空間由原先規定的十六字面增加到八十字面,並使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面[3][4]。
「CNS11643中文交換碼全字庫」為1999年時,由主計處電資中心委託中文數位化技術推廣基金會建置,用以解決中文碼查詢、轉碼與缺字問題。為配合2012年的行政院組織改造,全字庫改由研考會辦理,自2014年又由繼承研考會業務的國家發展委員會管理。2022年8月27日數位發展部成立後,網站管理機構調整為數位部[5]。全字庫目前已收納10萬8,800多個文字及符號。若扣除第八和第九字面中的非漢字字元以及第一字面中的符號、注音、部首、漢字構件等字元,以有倉頡碼屬性的字來計算,大約有9萬6,600多個漢字[6][7]。
版本
编辑年份 | 標準名稱 | 更改 |
---|---|---|
1983 | CNS11643-1983 | 通用漢字標準交換碼試用版推出,包括13,053字及441個符號,12月推出的大五碼,字集與字序與交換碼試用版完全相同,僅字碼定義不同。 |
1986 | CNS11643-1986 | 通用漢字標準交換碼正式版發行,包括13,051個字(刪除2個重複字,調整20個字順序)與441個符號,其餘均與試用版相同。 |
1988 | CNS11643-1986 | 增加第十四字面使用者加字區交換碼,共增加6,148字。 |
1989 | CNS11643-1986 | 再增加第十四字面使用者加字區交換碼,共增加157字。 |
1992 | CNS11643-1992 | 擴充第3至7字面,增加部首和數字符號,並更換名稱為中文標準交換碼,總共包括48,027個字與684個符號。 |
2002 | CNS14649 | 國際標準ISO 10646/Unicode的中文版「CNS 14649廣用多八位元編碼字元集」推出,包括中、日、韓、越等20,902個漢字,及全球使用的字元。 |
2004 | CNS11643-2004 | 編碼架構擴充至八十字面。 |
2008 | CNS11643-2008 | 擴充版發行,增加了戶政用字與異體字等。 |
編碼格式
编辑CNS 11643遵循ISO/IEC 2022所規定的七位元94個圖形字元多位元組延伸編碼格式[4],以2個位元組 (byte)為中文碼編碼單位,以十六進位制之文數字表示,並且避開控制碼所在的範圍。字面字集之排列,大抵以使用頻率為次序,第一字面以常用字為主,第二字面以次常用字為主,第三字面以部分罕用字及較常用異體字為主,其後的字面大多以罕用字、異體字、教育部閩客語用字及戶政、役政、地政等機關用字為主。在每一字面中,依先筆畫後部首排列順序來編訂字碼(每一字面均以文字筆畫總數為第一次序,筆劃數同則按照部首為次序,部首同再按照筆順為次序)[8]。
CNS 11643採用多字面編碼結構,並藉助ISO/IEC 2022所規定的逸出順序(escape sequence)和調用控制符切換字面。因此,同樣的正規字元碼在CNS 11643的不同字面會代表不同的漢字(例如:第1字面字元碼454A為中文字「日」,而第2字面的454A是中文字「碇」)。CNS 11643在新版中規定了延伸字元碼,作為任一字元的唯一字元碼。中文標準交換碼延伸字元碼是在正規字元碼前,附加該字元所屬字面的字面指示碼[4]。
終結字元
编辑目前 CNS11643 的1~7 字面之終結字元(最後字元、最終位元組) [F] 已獲國際標準組織 ISO 正式登記為 47 至 4D ,亦可使用於字集之指定[8][9]。依據ISO 237之規定,各國的國家標準若要成為國際間之中文資訊交換標準,必須向國際標準組織申請註冊,並由國際標準組織正式公佈,如此全球各國即可依國際標準公佈之終結字元進行資料交換。
CNS 11643-1992所包括的七個字面,每個字面均分別向ISO秘書處歐洲計算機製造商協會申請相對應之終結字元。經由資訊工業策進會之協助申請,1993年2月1日CNS 11643第一、第二字面正式獲得終結字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式獲得終結字元:49 - 4D。
CNS字面 | CNS暫用終結字元 | ISO正式終結字元 |
---|---|---|
第一字面 | 30 | 47 |
第二字面 | 31 | 48 |
第三字面 | 32 | 49 |
第四字面 | 33 | 4A |
第五字面 | 34 | 4B |
第六字面 | 35 | 4C |
第七字面 | 36 | 4D |
最新版本
编辑2021年版CNS 11643字面配置如下:
- 第一字面:字碼區間2121h至4243h為符號區(2009年在4242h新增歐元符號€,4243h新增國字〇);字碼區間4421h至7D4Bh,共編入中文字5,401個;字集來源除教育部「常用國字標準字體表」所列4,808字外,並優先收編國中、國小教科書中常用字587字及異體字6字。另外在2009年,在字碼4244h至4254h,增補閩南語用拉丁符號17個[10]。
- 第二字面:字碼區間由2121h至7244h,故編入中文字7,650個;字集來源除教育部「次常用國字標準字體表」所列6,330字外,並篩選編入教育部「罕用國字標準字體表」表中使用頻率較高之1,320字。
- 第三字面:字碼區間2121h至6246h,共編入中文字6,148個;字集來源為1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面前段;字碼區間6448h至672Ah為247個美國與香港提報字[11]。
- 第四字面:字碼區間2121h至6E5Ch,共編入中文字7,298個;字集來源除1988年6月行政院主計處電子處理資料中心暫編之使用者加字區第14字面後段171字外,並加入戶役政及其他使用單位、ISO/IEC 10646-2:2001漢字集、資訊業次常用字7,127字。
- 第五字面:字碼區間2121h至7C51h,目前編入中文字8,603個字;字集來源為未編入前4個字面之教育部罕用字。
- 第六字面:字碼區間2121h至647Ah,共編入中文字6,388個;字集來源為未編入前5個字面,且筆畫在14畫或以下之教育部異體字。
- 第七字面:字碼區間2121h至6655h,共編入中文字6,539個;字集來源為未編入前6個字面,且筆畫在15畫或以上之教育部異體字。
- 第八字面:編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字。
- 第九字面:字碼區間2121h至3557h,編入ISO/IEC 10646:2003 基本多文種平面中,未收錄到原CNS 11643版本中的非漢字;字碼區間7455h至7E7Eh,編入戶政字。
- 第十字面:編入ISO/IEC 10646:2003未收錄到原CNS 11643版本中的CJK Extension B漢字。
- 第十一字面:編入未收錄到原CNS 11643版本中的CJK Extension B, C, D漢字與地政字、教育部閩南語及客家語母語用字。
- 第十二字面:為戶政字,字碼區間6249h至627Eh,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
- 第十三字面:為戶政字。
- 第十四字面:為戶政字,字碼區間4B6Dh至6D79h,編入未收錄到原CNS 11643版本中的CJK基本區、CJK Extension A、CJK Extension C和CJK基本區急用漢字。
- 第十五字面:字碼區間2121h至6D39h,共編入中文字6,831個戶政、役政用字;字碼區間6D3Ah至7E3Ch,編入未收錄到原CNS 11643版本中的CJK Extension C漢字。
- 第十六字面:私人造字區。
- 第十七字面:2014年起開始使用,屬於內政部戶政、地政等字。
- 第十九字面:2014年起開始使用,屬於教育部異體字。
- 第二十四字面:2021年起開始使用,2121h為醫藥用字;2122h至2123h為元素、化學、符號用字。[12]
- 第18、20至23、25至80字面保留供未來使用。
與大五碼關係
编辑大五碼為資訊工業策進會與臺灣十三家資訊業者簽約,共同為「五大軟體專案」所設計的中文字符編碼。該字符編碼於1983年12月推出,共收錄13,053個漢字(有兩字重複編碼,故實際上只有13,051個字)、408個符號、33個控制字元[13],其字元的範圍與順序都和1983年10月推出的「通用漢字標準交換碼」試用版相同,但碼位不同。「通用漢字標準交換碼」在1986年推出正式版,刪除試用版的2個重複編碼字,調整了20個字的順序。
大五碼後來成為繁體中文社群最常用的電腦漢字字集標準,然而所涵蓋的字數不敷實際需求,造成廠商各自增刪,衍生成多種不同版本。2003年中文數位化技術推廣基金會接受經濟部標準檢驗局委託,召集國內業者代表、專家和學者,就大五碼字元表的原始版本和業界主要版本予以重整,稱為Big5-2003[14]。重整後的版本,去除了重複編碼,並新增7個中文字,以及370個符號,包括30個數字符號、24個部首、14個罕用符號、268個日本假名,以及34個表格符號[13]。其成果最後收錄至CNS 11643的附錄之中[15]。
比較
编辑中央標準局所公佈的《通用漢字標準交換碼》(後更名為《中文標準交換碼》,CNS11643)与1984年发布的业界事实标准五大碼 (Big5) 有些许共同之处:两者都使用國字標準字體表为基础,但是《中文標準交換碼》所定义的码位更符合國字標準字體表所选定的字形。國字標準字體表本身并未定义字形的码位,而是依赖于其他标准将字形赋予码位。
其中,五大碼与现在的《中文標準交換碼》有部分收字差异:
國字 | 字表序號[17] | CNS11643 | Big5收录异体 | 備註 |
---|---|---|---|---|
U+5F5E彞 | A01266 | 1-7641 | C255,U+5F5D彝 | |
U+53C4叄 | B00287 | 3-3455 | 五大碼未收录 | |
U+564D噍 | B00439 | 3-4B43 | 五大碼未收录 | |
U+36B7㚷 | B00635 | 3-2847 | 五大碼未收录 | |
U+5B0E嬎 | B00715 | 3-4B5F | E955,U+5B14嬔 | CNS11643 第二字面 2-565F 疑似誤收 U+5B14嬔 字,但是显示为无点的 U+5B0E嬎 |
U+5C14尔 | B00760 | 3-223F | 五大碼未收录 | |
U+3BA3㮣 | B01783 | 3-4167 | 五大碼未收录 | |
U+7934礴 | B03027 | 2-662B | F2A1,U+7921礡 | 疑似 Unicode 統合時錯誤對應到統合漢字 U+7921礡 上 |
U+7DF5緵 | B03452 | 3-4E2B | EDDB,U+7E4C繌 | CNS11643 第二字面 2-5E48 疑似誤收 U+7E4C繌 字 |
U+9638阸 | B05531 | 4-2833 | 五大碼未收录 | |
U+9C0C鰌 | B05989 | 3-5D76 | 五大碼未收录 |
參看
编辑資料來源
编辑- ^ 余保倫. 與文字共舞-中文數位化發展簡介 (PDF). 中華民國統計資訊網. [2022-12-16]. (原始内容存档 (PDF)于2022-12-16).
- ^ 陳冠州. 電信碼. 國家教育研究院樂詞網. 1995-12 [2024-04-29]. (原始内容存档于2024-04-29).
- ^ 存档副本. [2015-03-28]. (原始内容存档于2015-04-02).
- ^ 4.0 4.1 4.2 曾士熊. 認識中文字元碼:十、中文標準交換碼(CNS 11643). [2022-12-16]. (原始内容存档于2022-05-28).
- ^ 全字庫中文標準交換碼. 全字庫介紹. [2022-12-16]. (原始内容存档于2022-12-16).
- ^ 全字庫現況. [2022-12-16]. (原始内容存档于2023-01-27).
- ^ 全字庫中文標準交換碼 - 中文碼現況. [2022-12-17]. (原始内容存档于2022-12-17).
現有字數:現行全字庫中,戶政與地政部分用字經檢查為認同字,因而刪除該碼位資料,但仍保留該碼位的位置,現有字數即去除這些被認同掉的字碼,所計算得到的總字數……全字庫第八字面和第九字面所儲存的是拼音文字,所以沒有注音、倉頡等屬性資料碼位個數
- ^ 8.0 8.1 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14).
- ^ 附錄1﹕中文字碼處理說明 (PDF). [2022-12-17]. (原始内容存档 (PDF)于2022-12-17).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-14).
- ^ 存档副本. [2021-12-12]. (原始内容存档于2022-07-10).
- ^ 13.0 13.1 曾士熊. 認識中文字元碼: 九、Big5和Big5E. [2022-12-17]. (原始内容存档于2022-05-28).
- ^ 認識全字庫>中文碼介紹. [2022-12-17]. (原始内容存档于2021-05-14).
- ^ 謝東翰. 預覽「Big5 2003」. [2022-12-17]. (原始内容存档于2022-12-17).
- ^ 次常用國字標準字體表 - 字嗨!. zi-hi.com. [2023-04-25]. (原始内容存档于2021-05-14).
- ^ 国家教育研究院. 教育部异体字字典. [2021-05-14]. (原始内容存档于2021-05-15) (中文(臺灣)).