Should We Be Using ISO 12083
早在1996年的时候就有人问到这个问题:“是否要使用ISO12083?”,当时California新闻大学开始计划在网络上出版图书。直到现在,这仍然是许多人要问的问题,在此简要介绍一下什么是ISO 12083,是否应该使用它,如何使用等问题。
一、什么是ISO 12083
ISO 12083 是国际标准化组织(ISO)、国家信息标准化组织(NISO)和美国国家标准协会(ANSI)联合制订的一个标准,它代表了一组标准的普通标记语言(SGML),可以用来标记电子图书、论文等,本文主要是针对制作电子图书而言的。
对图书而言,ISO 12083是一种DTD(Document Type Definition——文本类型的定义),也就是用一组标记符和特定规则来标记一本书,使其结构和内容能为计算机所读取,使用时作者作出的标记(如表示引用方括号)会被某些相应标记符代替(如
或 正文和在引文中表示的格式是不同的。这种复杂性决定了,只有一些高精度的排版软件才能处理ISO 12083文件,同时也需要极其熟练的操作人员。而现实中我们需要的文件是简单的,能为Quark Xpress这样的桌面排版系统处理的。 ,引文中的段落标作 [时间:2001-02-23 作者:必胜网 来源:必胜网]
当然,上述工作几乎所有的文字处理软件都可以完成,但不同的是,SGML是非专有性的,所以使用SGLM标记的文件可以被任何一台计算机读取,而不论用户使用的是哪一种文字处理软件。而一般的文字处理软件是专有性的,读者使用文件时,软件必须是文件生成时所用的软件。可见,SGML在电子出版中有其特定优势,那么明确来说,问题不应是我们是否该使用ISO 12083,而是具体在何处应该使用它。在使用简单的内部DTD结构时,SGML是进行电子存档的不错选择,这也是最先采用ISO 12083 的一些出版社使用SGML的一个主要用途,将当前出版的图书制作电子拷贝,以备日后出修订本,CD-ROM时使用。
然而,我们还希望实现电子出版,即将图书内容在Web服务器上发布以供公众使用。这时,SGML就明显的不足了,因为SGML支持不限量的DTD组,即无限多组标记符和规则,这使得能够读取SGML文件的软件庞大而昂贵。因此,如果网上所有文件都使用一组简单统一的标准,其优点是显而易见的。也正是因为这一点,ISO 12083的市场份额正受到HTML语言这一简单得多的标准的强烈冲击。
事实上HTML也是SGML的一种形式,但它只允许一组DTD,它可以被Netscape,微软的IE Web浏览器等软件读取。但是HTML的规则过于简单,不足以全面地标记一本图书,另外它也没有足够的标记符去替代书中包含的所有内容。可见,作为读者来说,他们希望使用一组HTML这样简单的语言,这样对其硬软件要求就不会那么高。而作为出版者,则希望使用像SGML这样全面而数确的语言。XML语言试图同时满足这两种相矛盾的需求,但事实上它还是无法解决其间的矛盾,XLM比SGML简单,但也支持不限的DTD组,所以支持XML的软件仍是相当庞大的。
二、两组独立的标记符——HTML和SGML
一个好的解决办法是,存档时使用SGML,出版时使用HTML,从SGML文件向HTML文件的转换虽然也需要庞大的软件支持,但这一过程会由出版者来完成。出版者可以先将SGML文件翻译成HTML文件再发布到Web服务器上,也可以直接使用PynaWeb软件在发布同时完成上述转换。而无论使用哪一种方式,读者都只需要使用一个Web浏览器就可以读取HTML文件了。
那么,我们可以使用HTML语言出版,使用SGML语言作电子存档,但是网络图书怎样才能到读者手中呢?图书在网上出版了,并不意味着读者就会去下载或阅读它,因为网上的信息太繁杂,读者往往使用搜索引擎等工具,根据一定的关键字去寻找的所需的内容,所以出版时还要确保网络图书能被搜索到,也就是要使用某一种统一方式作出标识,如所有图书的题目都标上
对于同时以印刷物和电子出版物形式出版的作品来说,ISO 12083有另一个不足,一本图书的结构是复杂的,通常分为部、章、节、引用等等,在SGML文件中,某一元素的意义不仅受标记符的限定,还决定于其在正文中所处的位置,或者说同一标记符在不同位置代表的意义有所不同,如标记符
三、更多组标记符和规则的应用
由上文可见在排版标记符与存档标记符之间也有矛盾。那么同样需要有一组专门用于排字的标记符,ISO 12083用于电子存档,而另一组用于排版,为此一些出版社规定了一组排版符,这组符号是线性安排的,每一段落都用一个标记符给出格式化所需的全部信息,而不需再细究其它信息,如正文中的段落标作
在编辑过程中使用哪一组标记符是另一个问题。SGML语言的编辑软件复杂而昂贵。一般的出版社不可能给每个人都配置如此昂贵的编辑软件。另一方面,出版社既不希望将用于排版的那些带有复杂标记的稿件交给编辑,也不希望交给他们的是一点也没标记过的原稿,因为文字编辑的一部分工作就是找出是否有标记错误的地方并予改正。所以在编辑过程中,同样需要一组标记符,一些出版社的编辑标记符与印刷稿的编辑符号类似,如
四、各环节所用标记符一览
以某家出版社的出版流程为例,总结一下电子出版物编辑——排版——存档——出版发行的全过程。首先,从作者处得到的是以不同文字处理软件编写的稿件,这些稿件还须作出一定的标记,格式化后才能为我们所用。在各个不同环节中,所用的标记有所不同。
1.编辑标记符
出版社在将原稿送交文字编辑前,先在社里给原稿加上编辑标记符,之后,编辑的工作与编辑印刷稿类似,编辑的文字处理环节只是修改原稿内容,而不改变标记符本身,但不同的是,这里的文字编辑还有一项任务,就是检查原稿上的标记符标得是否正确并做出更正。总的来说,一组编辑标记符要满足两点,一是便于文字编辑使用,二要能够自动转换成排版标记符。这里,那些编辑印刷稿的传统编辑符只需稍加修改,就可以很好地满足以上要求。
2.排版标记
在完成文字编辑后,出版社会将编辑标记符转换为排版标记符。这时文本的所有格式还是通过标记符来体现,这些标记符的作用就和Quark Xpress规格下的标记符一样,美编对图书的格式进行设计,然后用各种排字标记符体现这种格式,这种Quark软件就将相应格式加插过来。在排版过程中,我们看不到排版的标记符,当我们把格式化完的Quark文件再转换回来时,就又可以看到它们了,并可以将它们自动转换成存档标记符。一组规范的排字标记符也需要满足两点要求:一要全面,是一组线性排列而不是网状排列的标记符,二是要能自动转换成存档标记符。
3.存档标记符
排版之后,出版社又将排字标记符转换为存档标记符,以把文件驻存在相应的Web服务器上。驻存在Web服务器上的图书应该能够分成好几部分,如部、章、节等,因为读者并不一定想进入整部作品,而只是挑选其中自己感兴趣的部分。另一方面图书的内容应该容易被搜索到,因为读者往往会先找找书中是否有自己感兴趣的内容。这些要求决定了存档标记符要完全结构化,一部图书很容易按结构分块,而且所有的标记符要有一个规范,其规定的标记名称要被广泛认可,这样才容易被搜索到。ISO12083符合以上要求,因此可以作为存档标记符使用。但ISO 12083仍有一点不足,即不够广泛,无法对图书中所有元素作出标记,所以常常要修改原文DTD去适应整体标准。
4.出版标记符
将图书驻存在Web服务器上后,并不意味着一本书就出版了,还必须被下载到用户计算机上被阅读,读者接受的文件应使用一组简单的出版标记符,它可以方便地转换成读者在屏幕上所看到的格式,这组标记符应简单,名称规范,可以为任何Web浏览器读取,HTML语言正好满足这一要求。
五、结论
到此,开篇的问题就该有答案了。我们应该使用ISO 12083标准,但不是在编辑——排版——存档——出版发行的整个过程,在电子存档和驻存到Web服务器的过程中,可以使用ISO 12083,但对于编辑、排版等环节,就该有其它更合适的标准了。所以说在整个网络图书出版中所需要的不只是ISO 12083一组标准,而是四组标准符号的综合运用与转换。