SGML和PDF,为什么我们两者都需要(下)
(SGML and PDF——Why We Need Both)
三、关于PDF
当SGML作为最强大的信息交换技术而不断发展之时,Adobe系统发展了另一种交换技术PDF,这是一种完全不同的方式。事实上最初的PDF仅是 Adobe Acrobat的一个附属技术。Acroba和SGML产生的目的一样,但SGML主要服务于“主流世界”,即大公司、大组织,而Acroba则是为了满足PC机个人用户的需要,用于与顾客、供应商等伙伴交换文件。
(一) PDF、共享页面形式而不是信息与结构
有了Acrobat,使用Word软件在Mac机上生成的文件,可以将最后生成的Acrobat页面在PC机上用 Word Perfect运行,SGML认为最好的方式是让文件接收者按自己环境来决定如何运行和格式化这些文件。而Adobe认为文件发出的得希望接收者看到的文件与最初生成时的形式一样----一页一页、一行一行、一字一字,而且包含所有图形、表格、等式、空白和所有颜色,为了实现这一点,Adobe继续带来了Acrobat附属技术PDF,它是PostScript的副产品。在图形世界中,PostScript是描述电子页面的标准方式,但在PostScript和PDF之间有着本质不同,PostScript是一种编程语言,PDF是一种页面描述格式。
作为一种编程语言,PostScript功能很强大,它可以对各种应用程序作全面解释,还可以以各种方式产生可视页面。但是在读取PostScript文件时,只能从头到尾按顺序来,因为第一页的某一程序说明可能到了第51页还有用,所以就不能把第51页摘出来单独读取。
而PDF就不同了,作为一种页面描述格式,每一个页面都是独立的,因为PDF给出了显示这一页面需要的所有信息,因为不需要像PostScript那样复杂的计算机选择,PDF码要一致和可预见得多。当页面由Quark、 Penta 、PageMaker、 Xyvision几种不同系统生成时,PostScript对它们的描述相当不同,而产生的PDF格式却基本相似。
PDF这种一致性的原因在于一个叫做Distiuer的PostScript转换盛开个非常标准的PDF页面描述.
(二)描述页面的表现形式
PDF格式包含了描述页面最终表现形式所需的全部信息。如果接收者的计算机上有所需字模就会直接使用它,如果没有,则会选取主机上的两种字模套用去代替原字模,当然这种效果有时不尽人意,所以最好将所需字模一同嵌套在产生的PDF格式中。
除了字模以外,PDF中还包括其它一切可视元素,如:空白、图形、颜色、版面布局等,由于PDF是一个矢量技术,所以PDF文件在显示时的文字图形效果会相应调整为输出设备的分辨率标准,在屏幕上显示分辨率为72dpi,用激光打印机打印时为300或600dpi,用高分辨率的照排机输出则可高达2540dpi,等等。
(二)PDF:可视的交流结构
在SGML中,那些人们所习惯的结构特征要被翻译成计算机语言的逻辑结构,不会那么直观。许多为SGML文件写过DTD的人都会感到,一些结构关系,原本在页面上一目了解,但要用文字来描述就太麻烦了,而且还要面对许多模棱两可的问题,这个方括号与那个方括号,用法是否一致?可能一个指的摘要,一个指的摘录,那么如何加以区分呢?这就必须对文件全面细致地分析。
相比之下,PDF就没有这种麻烦了,因为PDF是一种可视的交流结构。在PDF页面上,所有结构特征都直接表现出来,比方说一级标题比二级标题明显得多。脚注放在页面的下角,文中一提到某一数据或图表会紧随着文后出现……而且这些结构特征很多是在传统媒体中已经约定俗成了的,读者能一目了然。这一点对那些注重页面形式的出版商极有吸引力。
(三)PDF:印刷的标准格式
Acrobat将上述优势带入了印刷领域。事实上很快印刷商就选择PDF取代了PostScrip。原因有很多:其一,PDF文件交付给印刷时麻烦会少一些,因为Dfistiuer程序会提示文件潜在的一些问题,如丢失了字模,图像等;其二,对于带有复杂图像的页面来说,PDF文件比相应的PostScrip要小许多。其三,还有一个重要原因就是PDF的每个页面都是独立的,那么就能够将全部页面分成多组,平行处理,Adobe的 Extreme技术正是这样运作的,将PDF文件分成多组文件流,通过多个RIP(the Raster Image Processer)用以将PS或PDF码转换成供印刷用的黑白点阵,同时处理,这样就大大减少了工作时间。PostScrip的最新版本PostScrip3,允许
PDF直接在RIP中处理,而无需先转换成PostScrip,这一点在过去的版本中都要求。
由于上述原因,印刷商发现无论是以激光打印机,排版机还是DocuTech这样的数字化出版方式输出,PDF都是保存排版印刷页面的最有效格式。
(四)有了PDF,为什么还要用SGML?
既然说PDF对于电子出版是如此简单,又是印刷的标准格式,为什么还要用到SGML呢?一个很直观的原因是印刷页面的格式很少能在屏幕上工作好,所以需要对页面重新格式化以适应屏幕显示的需要,这显然很不便利,如果用SGML,则会方便许多。
更重要的原因则在于,PDF包含的结构信息太少,Acrobat也提供一些导航特征: Thumbhail Views, bookmark很容易生成,全文可以通过 Acrobat的 Catalog软件进行索引,可以用 Boolean搜索所有PDF文件,甚至还可以在 Acrobat文件间建立超级链接,但是这些工作通常要人工完成,如果工作量较多的话,成本就太高了。而PDF所提供的一些 metadata,如编入关键字、修改日期、作者名等等,由于无法自动生成,所以现实中通常都被忽略了。
由于SGML和PDF的本质区别就在于SGML关于结构,PDF关于页面描述,所以两者很大程度是互补的。上述PDF的缺点,正可以通过SGML得到弥补,因此,有了PDF,仍有必要用SGML。
(五)PDF是一种专有技术
PDF和SGML还有另一个关键区别。SGML是一个独立、通用的标准,而PDF是一个专有性标准。SGML可以通过任何软件在任何平台上运用。而PDF为Adobe公司开发并所有,PDF页面必须通过 Adobe公司的 Acrobat Reader 软件浏览(V了在这一软件是免费的,并适用于Macitosh、 Windows 和Unix系统);要通过 PostScrip生成PDF文件要购买 Acrobat Distiller作为一个独立程序或其它应用程序的一部分使用;要生成书标,加插超级链接需要 Acrobat Catalog等等。虽说以上软件定价合理而且使用简单,但它毕竟没有SGML那样自由。
在描述完(PDF)之后,有必要指出SGML所提供的结构是必要的。很多期刊出版商都有体会,PDF是向订户提供电子页面的最佳形式,但这些页面往往要伴以SGML标题,用以导航,帮且读者找到自己想看的那些页面。即使不用SGML标题,也会有HTML或XML标出“点击这儿,下载PDF”字样,而这些HTML、XML的最佳来源还是SGML存档。
一、总结:SGML和PDF,都在何处使用
看了上述内容,可以清楚地知道SGML和PDF各自优点所在,你一定不会再认为它们是互相冲突了,相反它们互相补充各有其用武之地,这里总结一下它们都有何处使用。
SGML:
1.如果你计划出一系列书或期刊,它们结构清晰,重复性大,请使用SGML。虽然在第一本书或期刊上下的功会会很多,但这样一个结构化的工作流一旦形成,其后的工作基本上就是重复性的了,从而降低成本。
2.如果计划以多种媒体出版,如印刷,CD-ROM,Web等,请使用SGML,因为它可以大大减少媒体间的转换工作,从而降低成本。
PDF:
1.如果要生成排版页面,请使用PDF,它可以很好地将图书和期刊页面传送给印刷商,它可以方便地实现校样的电子传递,同时它也是给Internet用户提供排版页面以供浏览或本地印刷的最佳形式。
2.如果仅制作CD-ROM出版,请选择PDF,它需要附加工作和成本很少,是最经济和有效的方式。
注:在以下几个站点可以得到关于SGML和PDF更多的信息
www.adobe.com 关于PDF最完整,最新消息
www.sil.org/sgml/sgml.htm SGL相关信息最佳来源
www.xml.com XML相关信息最佳来源
[时间:2001-03-13 作者:必胜网 来源:必胜网]