SGML和PDF,为什么我们两者都需要(上)
(SGML and PDF——Why We Need Both)
·SGML ,the Standard Portable Generalized Markup Language,标准通用标记语言。
·PDF,Portable Document Format,Adobe Acrobat的可移动文件格式。
SGML和PDF是图书和期刊出版商用以制作印刷和电子出版物的两种技术,它们针对点各有不同而又相互补充,大多数出版商应综合运用这两种技术,因为这样会使整个出版过程更流畅,而且更有利于资源利用。
一、基本介绍
出版商从印刷物出版转入电子出版后有一个普遍误区,那就是认为电子出版时SGML和PDF只能选其一。事实上,这两种技术是相互补充的,真正了解它们各自的特点,就能更好地把它们结合起来,加以使用。首先应该从电子出版步骤入手,逐一环节分析。
(一)SGML和PDF一种偶然情况下的综合
当传统出版商扩大到电子出版领域后,他们的普遍作法是将人工标好的内容、表格和HTML语言格式的文本样本发布到站点上出网络版,同时将稿件以PostScript文件形式传送给印刷商出版。殊不和右这时就已经实现了SGML和PDF的综合,因为HTML是SGML的衍生物,而PostScript是PDF的源头。但这种情况下的综合是完全偶然的,出版商还并没有意识到各自价值所在。
当出版商已经为印刷版提供了PostScript文件,再准备出电子版时,出版商乐意选择PDF文件格式,因为PDF是PostScript的一个副产品,无论是从PostScript向PDF转换还是使用PDF文件都很便宜而且快捷。所以在这一阶段,出版商很容易下结论:“PDF已经能够实现向电子版的转换,干嘛还要用SGML呢?”
(二)SGML使文件结构化、易改编
随着电子出版物数量和复杂性的增加,出版商需要一种方式来组织和管理它们,这时SGML的好处就凸现出来了,因为SGML语言是一种结构性很强的语言,并通过这种结构来组织内容,所以SGML不仅能够帮助出版商组织PDF文件,还可以帮助读者在众多文件中寻找自己需要的信息,所以即使读者最终需要的是PDF格式,他们也得需要SGML作为搜索信息的工具。
同时,随着技术的进步,出版商的电子文档随时有可能被淘汰,当新的XML语言为一般浏览器所接受后,过去的HTML文件就会过时,这种情况下多数出版商不得不回过头来,给这些电子文件重新编码、结构化。无疑这会带来大量的资金投入,出版商需要寻找一种途径,减小这种损失,此时如果选择SGML语言,可以把这种技术更新带来的损失减少到最小。
当今电子出版虽然发展迅猛,并抢占了部分印刷出版物的市场,但事实上多数人还是亲睐印刷媒体。印刷版的出版物是许多人想要的,而为屏幕显示制作的文件格式很少适于印刷,因此电子出版和印刷出版的文件格式之间需要一定转换。如果使用SGML可以减少这种转换成本,因为SGML可以使排版过程更加自动化。
由此可见,整个出版流程首先由SGML开始,它可以用以生成HTML(或XML)和PDF,HTML(或OCML)用于网络出版,PPF格式的电子页面用于印刷(无论是批量印刷还是按需印刷)。这样一种理想的工作流程也许不会立即被认识到,但实际的工作以验会让出版商逐渐靠近它,出版商对SGML和PDF认识越透彻,就越能找到合理利用它们的方式。
(三) SGML生成结构,PDF生成页面
总的来说,SGML和PDF是两种相互补充的技术而不是相排斥的,它们的本质区别可以用一句话来描述:SGML是关于文件结构和意义的语言,它与页面的表现形式基本无关。相反,PDF是关于页面表现形式的,而与文件结构和意义基本无关。明白这一点是有效利用这两种技术的关键。
下面,本文将分别对SGML和PDF作详尽的介绍,描述各自的基本特征,对比它们的优缺点,并分析如何更有效地利用它们。
二、关于SGML
我们常遇到这样的情况,某一文件无法被其它系统读取而只有沿原路返回。因为不同系统,不同平台、不同软件都使用着自己的专有标记符,它们是无法被其它系统理解的。所以随着计算机系统的增多,实现不同系统间的信息交换越来越重要。
通常实现这种信息交换有两种不同方向:水平方向和垂直方向。水平方向即直接将文件从个人传向个人,从系统传向系统。垂直方向即允许许多人共同编写,改编某一文件或文件的一部分, 即多人共同操作。
水平交换是最常见的方式。这种方式几乎对所有文件都有效,从系统到系统,每一次都按接收文件系统的要求对文件进行一次改编。比如说,用某一文字处理软件编写的文件,必须通过排版系统生成电子页面,用电子出版系统生成电子版本,这些系统互不兼容,所以各个系统下的工作都要分别完成,其间想要重复使用数据几乎是不可能的。即使在今天,用于一处的文件再到别处使用,都要经过大量的转换,代价是高昂的。
另一种交换方式——垂直方式,允许不同的人共同使用同一文本,即文件可以以不同方式反复使用。比如说,作者在编写别克车的维修手册时,就可以直接选取雪佛兰车维修手册的相同部分,而无需重新编写。
(一)SGML,将结构从表现形态中独立出来
SGML语言的设计思想是不描述文件的表现形式而只描绘出其逻辑框架,具体方法就是将文件的结构从整体形态中独立出来,而把文件最后的表现形式留给最后的显示系统去完成。通过这种方式,当文件从一个系统转到另一个系统或文件的一部分在其它部分加以使用时,就无需对它们再重新编码了。
1986年,SGML语言成为一种国际标准(ISO8879),SGML没有限定专有标记符,相反每一个用户/用户群都可以按需生成自己的标记符。这一原则很有用,SGML既允许把标题标作
来表示摘要,所以浏览器会把摘要当作方括号的引用来处理,文章摘要就无法和摘录区分开了。又如HTML只规定了到
六级标题,对于那些层次很多的文章,可能就不够用了。
当然这也并不是说HTML就没有用,事实上,HTML相当有用。SGML是一种存档格式,而HTML是一种输出格式,SGML可以转换成HTML格式,所以你即使想把摘要显示成方括弧引用的形式,SGML存档文件也能明白它是摘要而不是摘录。
(九)XML:综合SGML和HTML
认识到HTM局限性和SGML的复杂性以后,人们尝试去建立一套克服上述缺点的新标准,于是有了XML和SGML一样,XML也允许用户决定自己的标记符,不同的是,它不需要DTD,事实上多数时候XML和SGML还是一致的,但在某些方面XML有所简化。如SGML有时允许一些文本中“标码最小化”而省去最后的结束标记符,而XML不支持这种省略,所以XML文件的编写和使用要明确一些,自然也就简单些了。XML的另一个原则,就是允许出版商以任何一种有意义的途径来标记其文件,而无需限制一组特定标记符或DTD。
那么既然有了XML,为什么出版商还需要DTD呢?试想,如果编辑将摘要标作,而另一个编辑把它标作 ,另一个标作 ,这些情况在XML文件中都是合法以的,但仅作出这样的标记,而不作任何注释,最后的混乱可想而知。
XML改进了信息标记和结构化的方式,它的两个相关技术XL和XSL,会改进信息超级链接和显示的方式,但必须明确SGML仍是真正的核心。出版商在建立了SGML文档后,必要时可以方便地转换成XML格式,从而扩大SGML的适用性。
[时间:2001-03-13 作者:必胜网 来源:必胜网]