【百道网薛学彦专栏】英汉两种文化中的字体使用通常遵守一些约定,如宋体对等于 serif 字体,通常用于正文;黑体对等于 sans-serif,通常用于标题;程序代码通常使用非比例字体等。Windows 平台上“宋体”和“黑体”诞生的那天就决定这个洋玩意儿给汉语文化带来的字体使用问题。
电子书格式可以按照页面排版特征分为“固定版式页面”格式和“可变版式页面”格式。
固定版式
(fixed layout)是指版心、字体、字族等不可更改,其页面元素的值均和原始值一样。这种格式继承自传统的“桌面印刷”概念,它表现形式多样、视觉效果和用户体验都较好,适合幼儿、摄影杂志等电子书制作,但制作成本较高。可变格式
(reflowable)是指版心、字体等的值可以根据硬件或者软件环境不同而改变的格式,这种格式继承自传统 “文字处理”的概念,表现形式相对单一,适合较多文本内容的出版,制作成本较低。
从电子书和硬件的关系看,固定版式的电子书使用要求有相应的硬件环境和软件环境,制作方面具有专业性特点,受众面小,内容错误通常可以经过“三校”消灭在出版前状态。个人(除程序员)一般没有能力制作和出版这种类型的电子书。而可变格式的技术核心来自标记语言,和标记语言有着天然的联系,其制作加工明显具有草根化特点,所以,正如
HTML有很多问题一样,这类电子书内容也通常带有更多文本特征和内容方面的错误。
下面就可变格式电子书制作过程中应该注意的内容进行简单讨论。
1、格式转换
一些电子书服务机构提供简易的格式转换功能,供制作电子书的个人使用。就我国多数用户而言,
WPS/WORD等格式的文档比较普遍,
PDF也拥有一些用户。前者属于文字处理范畴,转换不会受到版心等因素的影响。若源文档中问题较少的话,转为可变电子书格式后的问题也相对较少
。PDF是一种桌面印刷概念的文档,虽然看上去有“行”、“段”等信息,其实转换后这些信息会消失,造成页面版式混乱。桌面印刷系统文档格式均不适合转换。
从样式、电子书文本特征统一性等角度来讲,即使
WORD等较容易转换的文档也还有很多事情要做,代码臃肿自然也是大问题。所以,制作电子书最好不要开始于这些本来带格式的文档,而最好先把这些文档转换为
HTML文档或者文本文档,进而进行电子书制作。
HTML文档源有明显的优越性,但也会出现问题:
1)编码 编码是
HTML文档编辑过程一个非常重要的概念,也容易被忽视。编码对含有汉语等非英语符号的页面显得必要,因为编码错误轻则导致页面乱码,重则会使编辑工作前功尽弃。
2)标点符号 若
HTML中使用
word-break的
break-all值,会造成标点符号出现在行首,违反排版规范,这种错误网页上十分普遍。值得程序员注意的是,汉字排版允许标点符号溢出版心右侧,即出现在右边界之外。汉语行文中的省略号使用是另外一种常见的错误。汉字中省略号是由六个中圆点构成,宽度为两个汉字宽。假如
HTML不对内容进行字体设置,默认的字体可能是某种西文字体,这时,中圆点的上下位置和西文中的句点位置相当,导致错误。其它错误相对简单,这里不赘述。
3)背题 因为
HTML中没有版心的概念,一个页面的内容被视为一页
(page),自然不出现“背题”的错误。但基于这种技术的电子书在手持设备上必然会出现背题错误。普通用户解决这个问题尚有难度,可能要从软件设计的角度去解决,用户要最大可能地使用
HTML中和标题相关的标签标记标题,以减少错误发生。
4)通用样式 很多个人在制作电子书时,通常使用网络搜索到的资源,这时,就要考虑到修改源文档中的样式,代替以自己设计的通用样式,使整个电子书的样式保持一致。
5)垃圾代码 不少网站的网页中都隐藏不少垃圾代码,这些代码多的可以占到文档的 10% 或者更多。垃圾代码会影响文本特征的一致性,降低数字出版质量。
6)回车 标记语言中有表示段落的标签
,另外还有一个
的标签。顾名思义,后者的语义是
break,就是对行文强行中断。但是,两种看上去都是“回车”的标签,意义不同,用法不一样。不少网站的页面(包括大型网站)均出现两者不分的现象。
2、字体问题
汉字有“宋仿楷黑”四大字体,英语有“衬线体”
(serif)、“非衬线体”(或“无衬线体”,sans-serif)和“等宽字体
”(mono-spaced font)等几种字体,前两种英文字体为比例字体(
proportional font),后一种为非比例字体
(non-proportional font)。英汉两种文化中的字体使用通常遵守一些约定,如宋体对等于 serif 字体,通常用于正文;黑体对等于
sans-serif,通常用于标题;程序代码通常使用非比例字体等。
Windows平台上“宋体”和“黑体”诞生的那天就决定这个洋玩意儿给汉语文化带来的字体使用问题。宋体字符集中半角符号区的字符看上去是一种 serif 字体,但表现为等宽,黑体字符集中半角符号区的字符看上去是一种sans-serif 字体,但也表现为等宽字体,这使英汉混排排版结果中的英文字体看上去十分丑陋,不符合英文表现习惯。同样,西方的
bold、italic两种样式也不适合汉字排版,当宋体遇到bold 样式修饰时,也丑陋无比。汉字行文通常没有“斜体”样式(美术字除外)。
3、空格和缩进
汉语中几乎没有空格的概念,而空格在英语中十分普遍:两个单词之间就有一个空格。“段首空格”在英文中被称为“缩进”(indentation),但缩进不是空格的概念。
北大方正书版系统中对“段落控制符”的解析是:该符号后面的“段”一定是被空了两个汉字宽的缩进距离,系统没有使用空格;同样,英文排版中的缩进,应该使用数值,而不是使用空格。
HTML通常配合margin 使用
text-indent表示缩进。
“不间断空格”和普通空格表现形式一样,但作用和性质不同于普通空格,前者不具备断行功能。现在,汉语中千分符使用不间断空格,这样的排版结果就不会使一组位数超过 4 个数字分到两行。
另一个问题是汉语和西文混排时的字符间距问题。北大方正书版系统会自动在汉字和西文字符之间拉开一点距离,而解析
HTML的软件则没有这样的功能。所以,制作电子书一定也要注意这种全角和半角字符之间的间距。本人习惯在制作网页或电子书时,在半角和全角之间添加一个普通空格。
4、电子书和硬件的兼容
电子书制作完成后,需要在各种设备或者流行软件中对电子书进行测试,对兼容性不好的部分进行修改,以迎合大部分流行软件的解析技术。
Android平台下的
Aldiko软件对
epub格式中的表格支持较差。
5、元信息内容的完整性
epub 电子书格式有丰富的元信息描述方法,对这些内容,不少制作者会略去,一些软件虽然能够检测到一些元信息缺失错误,但尚有不少元信息不能被检测到。所以,电子书制作者应该加强元信息的完善和丰富,使得电子书管理、查询等更加方便和科学。
6、封面设计
封面是电子书一个非常重要的元素,它不仅要能够代表电子书的内容和性质,还应注意封面字体大小、字体风格等。一个良好的封面往往能够更吸引读者的眼球,使一本电子书从众多的电子书目录中得到关注。
封面的大小要考虑流行手持设备的分辨率,保证在这些流行设备上给人一种好的视觉感受。尺寸较小的图片会在某些设备上造成模糊的视觉效果,尺寸太大会影响电子书文档的大小。
封面图片要保持原始图片的高宽比例。不少电子书会同时定义 100% 的高度和宽度,这样的好处是图片确实撑满了设备屏幕,但当设备屏幕比例和图片比例不一致时,会导致图片变形,给读者较差的视觉感受。一种较好的方法是定义其中的一个边,或者定义高,或者定义宽。
7、小结
随着手持设备的普及,电子书也逐渐成为大众化的一种资源,它有接近纸质图书、阅读体验较好、能够查询、可以随时使用字典、减少阅读干扰等好处。但是,电子书制作的草根化倾向,使很多电子书质量遭到批评,除了上述问题需要讨论,也肯定还有其它方面的问题。出版是一种特殊的标准化工作,数字出版亦如此。提高电子书质量,满足大众阅读的需要,是非常重要的一项数字出版工作。
电子书质量和编辑角色直接相关,传统编辑工作者要理解和消化和电子书制作相关的技术和流程,要对文本特征有良好的识别能力,要了解制作工具的功能,更要了解代码的语义和用途,这样才能真正制作出用户满意的电子书。