Sky Watch

中英混排规范

之前的某篇文章说到中英混排时,中文和英文之间应该加空格,实际上中英混排还有其他很多要素。这里我试图列举一下我平时经常遇到的情况。

中英文/数字之间的空格

有很多语言使用空格分词,英语就是最常见的一种。中文和这些语言的字母之间应该加上空格。比如在下面的例子中,

他就是a piece of shit.

由于 “a” 和前面的中文之间没有空格,看上去 “a” 像是中文的一部分。

他就是 a piece of shit.

这样就好多了,可以清楚地看到 “a” 是一个单词。同理,中文和阿拉伯数字之间也应该有空格。

标点符号的处理

在中英混排中,标点符号是个巨坑。要填好这个坑需要讨论很多种情况。

句号逗号问号叹号冒号破折号

这几种是最简单的标点,但就已经非常纠结了。它们的用法类似,所以放在一起讨论。首先是最显然的情况:标点符号两边是同一种语言,直接使用那种语言的符号。但是如果两边分别是中文和英文该怎么办?我以前的办法是标点符号跟着它前面的语言走,比如:

  • 拉完发现又没纸了,fml.
  • Fml. 拉完发现又没纸了。

但是我后来发现一个问题,如果在很多中文标点中夹杂着这样一个英文标点,由于它后面的空白很短,很容易顺便把这个标点忽略掉。比如

我去炸学校,天天不迟到,一拉弦,赶快跑,fml, 是个哑炮。

看上去 “fml” 明显离后面的「是」更近。这样做的另一个问题就是如果文章里有很多这样的情况,文章就会显得很乱。所以我现在倾向于除了两边都是英文的情况以外,全部都用中文标点,干净整洁又清楚,虽然有时候看起来比较怪。

引号和括号

这是个真正的坑。在电脑上,英文的引号有弱鸡无方向引号和正常有方向引号。原则上文章里出现的引号都应该是有方向的,但是如果你不用中文输入法的话,按键盘打出来的引号都是弱鸡引号,而且人类么,你懂的,都懒。好在现在的操作系统里一般都默认打开自动转换引号的功能,所以比以前好一些了。(Linux 有么?不清楚。)

你以为这就是引号的全部问题了?Naive!原则上,中英文的引号应该是不一样的,就好像中英文的逗号一样,但是由于某些诡异的原因,中英文的引号居然是相同的字符??为了个毛线啊???黑人问号.jpg……这样就尴尬了,虽然我很想用中文引号,但是居然没的选……好在中文还有另一套引号:「」,这种引号宽度正确,还有逼格,最适合我这样的闷骚青年。所以我现在的做法是如果引号里面是中文,就用中文方引号;如果里面是英文,就用英文引号。但是注意这种方案是不符和国标的,国标规定这种方引号只在竖排时使用。

你以为这就是引号的全部问题了?Naive!如果引号里面前面是英文,后面是中文,怎么办?如果引号外面前面是英文后面是中文怎么办?如果是「中文左引号中文英文右引号英文」怎么办?如果是「中文左引号英文中文右引号英文」怎么办?和前面那种情况的处理方法是不是应该一样?对于这些情况,我的做法一般是:看心情……

你以为这就是引号的全部问题了?Naive!引号还会改变其他标点符号的使用。比如按照我的规则,我这样写:

拉完发现又没纸了,fml。我只好发推求救。

但是有引号时,明显这样比较好,吧………………:

「拉完发现又没纸了,fml.」我只好发推求救。

对比

「拉完发现又没纸了,fml。」我只好发推求救。

好像差不多一样难看…………

书名号

英文没有书名号,其它和引号一样。

间隔号

间隔号就是中文里用来分隔老外姓和名的那个玩意,比如「安娜・卡列尼娜」。严格来讲间隔号是个纯粹的中文排版问题,因为英文里不需要这个符号,而且也不会出现一边中文另一边英文的情况,但是我对于这个符号现在的使用情况很不爽,所以在这里一块吐槽了。

在我从小到大读过的所有书里,包括国标的文档,这个符号都是个「全角」符号,和一个中文字符一样宽,但是不知道为什么在使用 Unicode 的时候大家都不约而同地用了 0x20270xb7 这亮个字符。这尼玛是什么精神啊???这玩意叫 hyphenation point 和 middle dot 啊,谁规定这丑了吧唧的玩意就是间隔号啊???如果真有人这么规定了,为什么这货不是全角符号啊????Unicode 里规定这玩意的 East_Asian_Width 是 ambiguous???谁他妈 ambiguous 啊????Ambiguity 哪来的啊?????说好的漂亮的间隔号呢?????自己看:

Thus, William Shakespeare is signified as 威廉·莎士比亞 or 威廉·莎士比亚 (p Wēilián Shāshìbǐyà), George W. Bush as 喬治·W·布殊 or 乔治·W·布什 (p Qiáozhì W. Bùshí), and the full name of the prophet Muhammad as 阿布·卡西木·穆罕默德·本·阿布杜拉·本·阿布杜勒-穆塔利卜·本·哈希姆 (p Ābù Kǎxīmù Mùhǎnmòdé Běn Ābùdùlā Běn Ābùdùlè-Mùtǎlìbǔ Běn Hāxīmǔ).

这玩意怎么看啊????眼睛不疼么?????为什么会有人用这个破符号啊?????我一般都遵循日本的规范,用 0x30fb (katakana middle dot)。这是一个全宽的字符,写出来是这样的:

Thus, William Shakespeare is signified as 威廉・莎士比亞 or 威廉・莎士比亚 (p Wēilián Shāshìbǐyà), George W. Bush as 喬治・W・布殊 or 乔治・W・布什 (p Qiáozhì W. Bùshí), and the full name of the prophet Muhammad as 阿布・卡西木・穆罕默德・本・阿布杜拉・本・阿布杜勒-穆塔利卜・本・哈希姆 (p Ābù Kǎxīmù Mùhǎnmòdé Běn Ābùdùlā Běn Ābùdùlè-Mùtǎlìbǔ Běn Hāxīmǔ).

这样多好看啊!!!妈的气死我了!