《辞源》第三版修订工作始于2007年,用时长达8年。其间,恰逢我国数字出版从兴起转向兴盛之际,毫无疑问,纸质版和数字版都要出,但二者是分步实施还是一气呵成,纸质版电子印刷数据是否与数字出版接轨,这是一个无法回避的问题。
“一气呵成”的数字出版策略
单从数据层面讲,电子印刷相对传统铅字排版印刷只是载体改变,目的还是“印刷”呈现,而数字出版则是全新的理念。
数字出版是建立在计算机技术、存储技术、显示技术、网络技术和流媒体技术等高新技术基础上,在内容的编辑、制作、发行、传播等出版全过程中,将所有信息都以统一二进制代码的数字化形式存储。其核心是“一字一码”,这个编码在全球范围内是唯一的,即国际标准编码。
为了实现数字出版,项目组最终确立了纸、电一气呵成的出版策略。从电子印刷迈向数字出版,意味着转变观念、调整工作模式和技术创新。《辞源》修订工作原本就时间紧、任务重,这种策略的调整无疑雪上加霜。为此,专门成立了字形组,对《辞源》用字进行全面整理。
为了在短时间内实现这一跨越,字形组在主编指导下,制定了较为科学的技术路线和实施方案,从摸清情况、制定原则和技术实现3个层面,分6个步骤对《辞源》用字进行整理,为实现《辞源》第三版从电子印刷迈向数字出版打下基础。
《辞源》用字面临挑战
修订人员以2010年《辞源》纪念版为基础,利用其纸质版和电子印刷数据,对《辞源》用字进行彻底清理,从中提取出用字16000余个,并且摸清了《辞源》的用字状况。《辞源》初版于1915年面市,距今已百年,由于历史沉积和印刷技术条件所限,其用字存在一字多形、新旧并存等现象,这是呈现层面的问题;电子印刷数据则存在一码多字、多字一码等情况,这是印刷平台系统底层的问题。2010年版《辞源》的电子印刷平台是以国家编码标准GB2312的6763汉字为核心编码,繁体字和集外字均通过切换字库来实现,这是权宜之计。同时,该平台为了排版印刷的方便,开放了自造字功能,导致一个编码对应多个汉字和多个汉字对应一个编码的现象频出。这样的数据无法实现有效的信息检索、准确的信息传递和直接的信息交换,是实现数字出版的最大障碍。
《辞源》的字形原则
《辞源》是“阅读古籍用的工具书和古典文史研究工作者的参考书”,它的主要功能是“用来解决阅读古籍时遇到的关于语词典故和有关古代名物典章制度等知识性疑难问题”。按照这个功能定位,字形组根据10亿字古籍语料库的用字频率,并参照《康熙字典》和《中华大字典》等权威工具书,确立了其字形原则。
依据《辞源》的字形原则,从字样、字位、字种三个层面对其用字进行规范,对一字多形、一字多码、多码一字等问题进行归一化处理,并从部首、部件乃至笔画层面对字形进行细致入微的规范,确保字库的字体形态符合《辞源》的功能定位,也确保字库在整体风格上的一致性。
原始数据跨平台移植
数字出版的基本要求是一个汉字应有一个唯一编码。基于国际编码标准ISO10646框架的计算机平台,可以满足《辞源》“一字一码”的需求,而且能实现有效的信息检索、准确的信息传递和直接的信息交换。因此,对《辞源》印刷平台编码方式的梳理,并将其用字与国际编码标准对接,是实现数字出版最基础,也是最必要的工作。
《辞源》用字与国际编码标准对接后,采取技术手段将1000多万字的原始数据一次性从封闭、不可对外交换的平台,移植到基于国际编码标准、可交换的开放平台,避免了繁琐的人工修改,以及用字上的不一致等问题,移植后的数据可直接用于数字出版。
总体来讲,《辞源》的用字整理工作具有里程碑意义。首先,它不仅解决了《辞源》用字在表面呈现上的规范一致性,而且还彻底解决了底层编码的标准统一性,后者则是数字出版的重要基础。其次,它实现了印刷数据与数字出版的无缝对接,做到了纸、电同步出版,尤为重要的是,确保了不同出版形式在内容上的完全统一,这也是《辞源》数字版的主要特点。最后,它也为实现电子印刷数据的跨平台移植,探索了一条切实可行的技术途径。
事实说明,《辞源》纸质版与数字版“一气呵成”的出版策略是正确的、可行的,不但没有影响纸本正常出版,更有利地推进了数字版的出版进程,降低了数字出版的成本。可以说,此次的用字整理工作,是《辞源》从电子印刷迈向数字出版的基石。
[时间:2016-03-11 作者:王晓明 来源:中国社会科学报]