数字化存档的最佳例证(一)


  (Best Practices for Digital Archiving)

编者按:
  在进入数字化时代后,各种新技术使信息的的传递和存储变得迅速而快捷,但随之也带来了新的问题。由于技术的更新,一些过去产生的电子信息往往由于技术淘汰而丢失,因此做好重要信息的数字化存档是一个重要任务。本文正是针对这一问题展开的,以ICSTI(国际科技信息协会)的有关研究为对象,以信息循环的各个阶段为线索,通过对十八个重点实例的深入研究,分析并总结了数字化存档现存的一些问题及解决之道。

一、 数字化存档简介
  顾名思义,数字化存档就是将信息以数字化形式实现电子存储以供日后使用。但从实际运用的目的来看,很大一个目的就是为了防止信息,因技术更新而丢失,所以本文对数字化存档的周期作了一个界定,研究的是数字化信息的长期存档问题。

  近几十年电子技术的发展可谓突飞猛进,作者、出版商,甚至图书馆员,博物馆员都已经淘汰了纸与笔,而习惯运用电子手段来生成信息内容。但作为技术的使用者他们往往无法认识到技术深层次的问题,因为他们关注的是信息生成和传递的速度,难易程度这样一些眼前问题,而忽略了信息能否长期保存。事实上,这一问题非常关键,因为在电子模式下,信息的存储不同于在纸或微缩胶片上那样稳定,信息内容极易被损坏或更改。另外数字化存储媒体周期短,与这一媒体密切联系的各种硬件,软件技术处于时刻更新状态,而且每一种数字化存储模式都有相应的硬、软件技术支持,出了这一专有环境就无法使用。可见,从长远和实用的角度来看,都需要找到一种能够长期存储信息,并能广泛使用这些信息的方式,这正是数字化存档要解决的问题。

  数字化这种新模式的出现,也必然带来产业结构、工作分工的变化。以出版业为例,在传统的印刷环境下,信息的生成、传递、存储往往可以由出版商独立完成。但现在就不同了,当技术在出版中充当越来越重要的角色时,出版商恐怕就无法独立承担这一责任了,尤其是数字化存档,需要的不仅是昂贵的系统配置,还需要培养技术熟练的操作人员,这一切即使出版商有能力支付,恐怕也不会运作顺当,何况从投资学原理上讲这也不是明智的选择。所以在新的数字化模式下,出版商往往会寻求新的技术合作伙伴,来进行数字化信息的生成、传递和存档工作,这种角色转换不仅可以减少出版商投资,而且还可能提高产品质量。

二、ICSTI研究的背景及其方法
  ICSTI,(国际科技信息协会,the International Council for Science and Technical Information),是加拿大一个科技信息组织,其成员包括国家图书馆、研究机构、出版商和书目数据库编写者。ICSTI于1999年三月开始了一项有关数字化存档的调研,其目的在于促进数字化存档技术和实践的发展,并让更多的人意识到数字化存档的重要性。基于同样的宗旨,CENDI工作组(CENDI,美国联邦政府的一个科技信息管理工作组)的成员随后也加入了这一研究。

  在ICSTI和CENDI的领导下,研究围绕一些有代表性的项目展开,通过和专家的接触来调研这些项目。在接触的超过30个项目中,有18个作为有代表意义的项目被送了出来,它们分别来自6个国家,其中9个来自美国,2个来自英国,加拿大、澳大利亚、瑞典和芬兰各有一个,另外四个则来自国际组织。这18个项目性质各有不同,有政府科技项目,有国家存档,还有一些是国家图书馆,出版商及研究机构开展的项目。

  在调研这些项目过程中,项目工作人员们提出了各种问题,包括当前出现的存档模式和一些不错的尝试。在探讨中,研究人员关注点第一放在对实践策略上,其次才是技术本身。

  为了研究目的,研究人员将数字化存档定位于长期存档,而目其本是针对那些主要以电子形式生成与传递的信息,对于这些信息数字化版本才被当作是基本存档。另外这次研究中不包括那些从其它媒体转换过来的数字化材料,除非转换后数字化版本成为基本版本。

三、信息循环各个阶段的数字化存档
  信息循环的各个阶段无非就是信息的生成、存档信息的选取等,在各个阶段性工作中,数字化存档的特点、偏重都有所不同,下文将分别阐述。

(一)信息生成
  信息生成就是生产信息产品的过程。所有项目的负责人都一致认为这过程实现长期存档的初始阶段,也就是说在这一阶段就要意识到存档的重要性,因为即使控制得再细心,如果没考虑到存档数字化信息也可能丢失。而且在信息生成阶段的操作直接影响着最后的数字化存档和保存,决定了这些工作的难易程度和可靠性。

  另外,从调研项目的经验来看,创作人员也应该参与到数字化存档工作中,强化几点认识对创作人员是极重要的。首先,创作人员要明白数字化存档对数字化信息,保存和使用的重要性。因为创作人员更了解信息内容本身,哪些最重要,哪些次之,创作人员的这些认识和估计对存档选择是一个很大的指示,所以建议创作人员提供这样的保存指导。虽然这种指导无法取代具体的存档选择标准,但它会是一个很好的补充。

  第二点就是要认识到如果在信息生成阶段就充分考虑到格式、标准、对metadata的描述问题,其后存档工作的效率会提高不少。以美国ORNL(Oak Ridge国家图书馆)项目为例,它们为数字文件提供生成向导,对软件及文件格式都作了特定限制,这样长期,短期的信息管理都方便多了。

  另外大多数项目负责人都认为最好在信息生成阶段就生成metadata,或在编目阶段进行,然而只有对于那些数字项目才能在生成阶段就完成metadata,大多数项目中的metadata必须随着数据流,通过测量和追踪来产生。这些产生的metadata包括位置、仪器类型、和其它有关内容。

  对于小一些的数据组或图像这样的文件,它们的metadata则主要是随后人工完成的,显然只靠在信息生成阶段产生metadata是不够的,也有一些供应商在文字处理器和数据库产品中加入了XML和RDF结构,这使metadata作为项目原始生成一部分简单多了。

[时间:2001-04-23  作者:必胜网  来源:必胜网]

黄品青微站