科技丛书的电子保存和出版


  ——三个案例:ACM数字图书馆、网络PFC丛书、D-Lib杂志
(Preservation of Scientific Serials:Three Current Examples)

编者按:
  当前科技知识越来越多地以电子形式保存和传播,但是当前的计算机和网络系统还无法很好地实现信息的长期保存,因此,有必要考虑如何更好地以电子形式保存科技信息,使它们同样成为子孙后代的精神财富。

  本文目的不是空泛地地讨论信息保存的一些基本问题,而是选取了三个实例,ACM数字图书馆、网络RFC丛书,D-Lib杂志,从它们各自的内容、管理、技术等方面入手,讨论科技丛书电子存档的一些现实问题,希望能给有关人士一些借鉴。

一、三个实例
(一)ACM数字图书馆
  ACM——the Association for Computing Machinery是一个专业团体,专门出版有关计算机领域研究状况的期刊杂志。ACM很早进入了电子出版领域,先是在1993年ACM将其属下期刊的文章、学报等内容做成了数据库,所有信息用SGML标记。之后ACM又考虑将其以前出版的信息也转换成电子形式,于是将其1985年之后的出版物也进行了转换。事实上当前ACM数字图书馆上的信息已经可以上溯到1948年ACM成立的时候了。

  ACM的大部分电子信息主要是在1997年上传到互联网上,它有一个专门的网络接口,通过这个接口读者可以根据作者名、关键字和主题分类来搜索并浏览所需文章。但是这个ACM数字图书馆只能通过ACM获取,为了方便,ACM正和一家私人公司谈判,希望借其私人网络镜像所有出版物,这样可以大大减少读者登录时间,尤其是对那些北美地区以外的读者。但这种镜像仅为了执行方便,并没保存的目的。

  在实现这种电子保存、电子出版的同时,ACM仍旧会出印刷版,这些印刷版的内容直接转自其SGML数据库,不会太麻烦。但目前的情况是,自从人们可以在线获取ACM数字图书馆后,其印刷版的需求急剧下降,因此ACM协会决定当印刷版需求降到不足以保本时,不再出版印刷版,那么据估计在未来的5到10年后,ACM下属的绝大多数期刊不会再以印刷版出现。

(二)网络RFC丛书
  RFC,Request for comment,最初的意思是“征求评论”,但现在这一意思显然不确切了。当前这一系列约有2,700篇RFC,内容可以上溯到30年以前,具体包括TCP/IP协议、互联网邮件、万维网的组成及其它更多的技术标准。

  RFC从末以印刷媒体形式出现,是初它是以FTP形式传递,最近则是利用了网络。RFC文章大多数是纯文本而没有图像和其它格式,只有很少一些PostScript版本的有图像。另外这些文章中有各种自动生成的索引,除了号码、类目、作者名录、篇名之外不提供别的netodata。

  RFC背后的机构设置比较复杂,它是IETF(Internet Engineering Task Force,因特网工程任务组)的官方出版物,但具体的出版工作却交给了ISOC(Internet Society,因特网组织),RFCS的编辑则来自南加州大学的信息科学学院。

(三)D-Lib杂志
  D-Lib杂志是一份月刊,专门登载有关数字图书馆研究和发展的文章,诞生于1995年7月,目前已是数字图书馆有关信息的一个基本来源。

  D-Lib杂志的开发工具都是一些最基本的网络技术:文章使用的是HTML格式,图像和其它内容也是使用当前的标准网络格式。这样的目的是让读者可以用标准的网络浏览器浏览这些文章。最近D-Lib杂志还运用了新的metadata手段,给每篇文章加上了DOI,相关文件还会包含简单的metadata。

  在D-Lib杂志中,链接是自动工作的,这样就存在问题了,因为在出版之后内部链接还可以认真加以维护,但对外部链接就无法进行检查了,一段时间以后其中一些链接就会受损,而其相应的参考就无法使用了。

  最初,D-Lib 杂志是由DARPA提供资金赞助,由CNRI出版。当前这一杂志由Cornell在学的两名成员编辑,由CNRI出版。

二、启示
  前面分别对三个实例进行了详细介绍,下面是就科技丛书电子出版的几个重要问题进行讨论,及得出的启示。

(一)关于内容的选择
  前面说过将科技信息,以电子形式存储很大的原因,是为了长时间的保存与传递,那么首先要决定的就是那些信息值得长期保存,无疑在科技领域这些信息应该是一些基本的,能够经得起时间考验的信息,而不是瞬息万变的东西。但当前在信息选取上就存在一种误区,认为那些传统的受欢迎的刊物提供的信息就是最基本的,最值得保存。事实并非如此,大众化的东西很多泛而不专,而且科技信息的基本来源未必就得是传统刊物,像网络RFC丛书、NASA的图片库、D-Lib杂志和电子出版期刊都是比较新的出版物,但它们在各自领域都是基本的信息来源。

(二)信息存储的三个层次
  信息存储分为三个层次:标签存储、路径存储和内容存储。

  标签是对整个出版物的整体面貌的说明,这一层次的存储也是最为重要的,因为它说明了一个时候电子存储技术的水平,对于后代来说,了解我们这个时代的技术面貌无疑和了解其中的内容同样有趣。

  第二个层次是要为读者提供获取这些信息的途径,它包括一些基本资料和有效的路径系统。ACM数字图书馆和D-Lib杂志都支持着相当复杂的站点,这些站点上有索引,搜索引擎和各种metadata,及其它实际文章之外的信息。

  最后才是具体内容的存储,这一层次相对来说倒次要一些了,因为如果仅存储内容,那么整个就成了一个大书库,却没有进入的途径和使用工具了。另外内容的存储相对要简单一些,不像前两层次那么复杂。

(三)稳定性
  要实现信息的长期保存,除了技术因素外,还得确保组织这一工作的机构的稳定性,试想如果主办机构改组或破产,原来的信息活动该何以维持。在本文中的三个案例,其组织的稳定性各有不同:

  ACM数字图书馆无疑是最稳定的,只要ACM协会存在,它就能得以发展。另外ACM作为专业组织,已经将数字图收馆作为了自己的一个重要资产,所以其后即使ACM破产或被收购,ACM数字图书馆也将作为一份资产而保留下去。更何况ACM的运营情况很好,约有80,000雇员及相当丰厚的资产,已经有50年历史的ACM仅以现有条件就可以维系100年。而这一切无疑决决定了ACM数字图书馆在科技信息保存上的稳定性。

  而RFC丛书则不然,其主办机构对其计划基本是短期的,RFCS当前虽然运作得很好,但显然这种情况不会长期不变。尤其是IETF工作组是非正式性的,这种形式虽然使其能够取得很好的成绩,但也因此决定了它无法开展一些长期项目。

  另外一些开放性丛书的组织稳定性则变化很大,以JEP(Journal of Electronic Publish,电子出版期刊)为例,其主办机构密执根大学出版社的初衷是打算长期办下去,但是为其提供经济资助的SAIC并没有这种长远计划。CNRI出版D-Lib杂志同样如此,如果没有了DARPA 的资助,就不得不搁浅。

(四)版权
  在ACM数字图书馆中,大多数作者都将版权转交给了ACM,即使一些作品ACM还没有获取版权,它也已被授权以各种形式存储并出版它们。在版权法及相关政策有任何变化时,ACM总是试图确保自己的行为合法化。

  ACM在版权的有这一点上并大多数出版社都开通,但它不会允许复制整个图书馆的内容。RFC丛书和D-Lib杂志也都允许复制其内容,至少为了非商业目的。

  RFC通常被当作公共文件,RFC的作者授予了ISOC和IETF相当多的权利,ISOC持有文件版权,同时这些文件也基本不加限制地提供给用户使用。

  D-Lib杂志文章的版权仍归作者所有,但作者允许CNRI出版和保存其作品,D-Lib杂志是公开的,无权限限制,允许读者以任何非商业性目的使用。整个D-Lib网站的内容已经镜像在全球的几个站点上。

  事实,上述三种版权情况的区别在现实中非常明显,但每一种情况下,出版商都有权存储所有材料,包括与其它非商业组织合法对信息进行长期保存。

(五)存储技术和标准
  在存储技术和标准上,ACM、RCF、和D-Lib各有不同,有的很简单,更新时只需一些小的变动,有的则很复杂。

  ACM数字图书馆是其中唯一使用SGML这一标准的标记系统的,这一系统在技术上很复杂,而且用了各种不同格式(SGML、PDF和HTML)。使用SGML就必然在信息存储上带来许多特殊问题,这些困难也促使一些ACM成员使用一些能直接代表数据的语言(TEX)。ACM使用一个相关的数据库来存储内容信息和metadata。
与ACM相反,RFCS使用的则是最简单的技术,每一篇RFC都是一份单纯的ASCII码文件,RFCS文章的版面布局很仔细,一些简单的描述性metadata很容易从文本中提取出来。

  D-Lib杂志使用的技术也相当简单,它不使用Javascript 和Java appplets,也尽量避免HTML中那些复杂的成份,因此,即使网络浏览器不再支持当前各种格式的版本了,D-Lib杂志中的内容也不会丢失。

  在三个例子中,metadata对整个保存工作并不是至关重要的,但一些最关键的metadata还是要嵌套在文件中,另外这些描述性的metadata如果需要的话也很容易生成,保存一些结构性的metadata相对重要一些。在ACM数字图书馆中,有一个纲要的数据库来管理整个图书馆,这里最关键的是保存路径而不是内容本身。D-Lib杂志和其它网络出版物一样,相当依赖各种超级链接,因此总是在目录结构上保存内容。

参考站点
  当然,保存科学丛书的电子模式不必拘于一格,以上三个例子只是给出一些参考信息。以下提供一些参考站点地址,可以为您提供更多相关信息。
  ACM数字图书馆:http://www.acm.org/dl/
  D-Lib杂志:http://ww.dlib.org/
  RFCS:http://www.ietf.org/rfc.ntml
  密执根大学出版社,电子出版期刊:http://www.press.umich.edu/jep/

  另外一些站点还有:
  http://www.aridne.ac.uk/
  http://ww.prism.cornell.edu/
  http://www.firstmonday.dk/
  http://www.cisp.org/imp/
  http://www.rlg.org/preserl/diginews/

[时间:2001-04-03  作者:必胜网  来源:必胜网]

黄品青微站