用户:Liangent/sptest
Liangent/sptest | |
空格是行文为防止混淆或有特定用途的空位。中文传统无标点,字与字之间亦无空格,但空格有特定用途,如每段起首须缩入两个字位[1],尊称前要留空一格等等。
中文排版
编辑在使用中文电脑初期,文书处理及网页编辑工具大多改自英文软体,与BIG5编码并不完全相容;英文字为1byte、BIG5中文字是2byte,假使边界或断行排版没设定好,不足容纳中文字时会造成该字或整段乱码,因此比照英文排版在各字间加半形空格(多出1byte缓冲)以避开程式错误。
及至中文文书和网页编辑软体发展成熟后,不再产生乱码情形,也就无须在字间加空格。现今仅少数香港媒体新闻网页,如香港电台仍沿袭早期排版方式[2]。
Unicode定义
编辑Unicode 定义了大量空格符号,列表如下:
编码 | 不换行 | 用于 URL | HTML | 名称 | 区域 | 显示 | |
---|---|---|---|---|---|---|---|
U+0020 | 空格 | 基本拉丁 | ] [ | ||||
正常半形空格,同 ASCII 字元 0x20 | |||||||
U+00A0 | ✓ | | 不换行空格(No-Break Space) | Latin-1 Supplement | ] [ | ||
同 U+0020,但不换行 | |||||||
U+1680 | ✓ | 欧甘空格(Ogham Space Mark) | 欧甘字母 | ] [ | |||
用于分隔欧甘文字。 | |||||||
U+180E | ✓ | 蒙古文元音分隔符(Mongolian Vowel Separator,MVS) | 蒙古文 | ][ | |||
作用近似 U+00A0 No-Break Space。用于蒙古文时宽度通常为普通空格三分之一。 | |||||||
U+2002 |   | En 空格(En Space)或 Nut | 一般标点 | ] [ | |||
与 en 同宽(em之一半)。 | |||||||
U+2003 |   | Em 空格(Em Space)或 Mutton | 一般标点 | ] [ | |||
与 em 同宽。 | |||||||
U+2004 | Em 三分之一空格(Three-Per-Em Space)或 Thick Space | 一般标点 | ] [ | ||||
em 之三分之一宽 | |||||||
U+2005 | Em 四分之一空格(Four-Per-Em Space)或 Mid Space | 一般标点 | ] [ | ||||
em 之四分之一宽 | |||||||
U+2006 | Em 六分之一空格(Six-Per-Em Space) | 一般标点 | ] [ | ||||
em 之六分之一宽。电脑字型有时与 U+2009 等同。 | |||||||
U+2007 | ✓ | 数字空格(Figure Space) | 一般标点 | ] [ | |||
用于分隔数字之定位符,与单一数字同宽 | |||||||
U+2008 | 标点穴格 | 一般标点 | ] [ | ||||
与同字型之窄标点同宽,即句号或逗号(西方语文)之宽度[3] | |||||||
U+2009 |   | 窄空格(Thin Space) | 一般标点 | ] [ | |||
em 之六分之一(有时设计成五分之一)宽。建议用作SI 单位数字之千位分隔符。与 U+2002 至 U+2008 不同,其宽可根据排版调整[4] | |||||||
U+200A | 发宽空格(Hair Space) | 一般标点 | ] [ | ||||
窄于窄空格(thin space) | |||||||
U+200B | 零宽空格(Zero Width Space,简称“ZWSP”) | 一般标点 | ][ | ||||
U+200C | ✓ | ‌ | 零宽不连字(Zero Width Non Joiner,简称“ZWNJ”) | 一般标点 | ][ | ||
U+200D | ✓ | ‍ | 零宽连字(Zero Width Joiner,简称“ZWJ”) | 一般标点 | ][ | ||
U+202F | ✓ | 窄式不换行空格(Narrow No-Break Space) | 一般标点 | ] [ | |||
U+205F | 中数学空格(Medium Mathematical Space,简称“MMSP”) | 一般标点 | ] [ | ||||
用于数学方程式。em 之 18 分之 4 宽[5]在数学排版领域,空格宽度通常以十八份之几的方式给定;4/18 em 可用于数个情况,例如数式 a + b 中 a 与 + 及 + 与 b 之间[6] | |||||||
U+2060 | ✓ | ✓ | 文字连接符(Word Joiner) | 一般标点 | ][ | ||
同 U+200B,但该处不能换行。Unicode 3.2 新增,以代替 U+FEFF 字元废止之零宽不换行空格功能 | |||||||
U+3000 | 表意文字空格 | CJK 符号及标点 | ] [ | ||||
与 CJK 文字同宽(全形) | |||||||
U+FEFF | ✓ | ✓ | 零宽不换行空格(Zero Width No-Break Space) = 位元组顺序记号(Byte Order Mark,简称“BOM”) | Arabic Presentation Forms-B | ][ | ||
主要用作位元组次序标记字元。原来之不换行指示功能于 Unicode 3.2 起废止,代之以 U+2060。 |
Unicode 在“控制图像(Control Pictures)”区域亦提供一些具像字元用来代表空格:例如 Symbol For Space ␠ (U+2420)、Blank Symbol ␢ (U+2422) 和 Open Box ␣ (U+2423)。有些文书处理软件如 Microsoft Word 会使用 interpunct · 代表半形空格。
注释
编辑- ^ 沿自1919年胡适、周作人、钱玄同等向中华民国教育部提出《请颁行新式标点符号议案(修正案)》[1][2]
- ^ 天文台明日考慮需否發三號強風信號. 香港电台. 2012-07-21 [2012-07-22] (中文(香港)).
- ^ Character design standards - space characters. Character design standards. Microsoft. 1998–1999 [2009-05-18].
- ^ The Unicode Standard 5.0, printed edition, p.205
- ^ General Punctuation (PDF). The Unicode Standard 5.1. Unicode Inc. 1991–2008 [2009-05-13].
- ^ Sargent, Murray III. Unicode Nearly Plain Text Encoding of Mathematics (Version 2). Unicode Technical Note #28. Unicode Inc: 19–20. 2006-08-29 [2009-05-19].