(Best Practices for Digital Archiving)
(一)存档选择和收集
这一阶段决定对哪些信息进行存档,以及存储的范围和深度。与传统媒体不同,对电子载体上信息的选取并没有一个固定的法则,但是有相关的向导可以依循,这些向导可以帮助决定以下几方面:
(1)选择存档对象
加拿大国家图书馆和澳大利亚国家图书馆都肯定了选择向导的重要性。因为网络上的内容纷繁复杂,因此需要通过向导确定一个选取的原则,像加拿大国家图书馆的原则就是选择有研究价值和文化继承性的内容。澳大利亚国家图书馆的PANORA项目,只存档澳大利亚的互联网出版内容,但同时它也指出不可能对所有这些内容都存档,所以它也规定了相应的向导来加以选择。
(2)确定存档范围
另一个与对象选取直接相关的问题就是确定范围。因为并不是一个数字化作品的全部环节都值得存储,尤其是针对一些庞大、复杂的互联网站点来说,全盘存储可能完全不必要,所以更需要对范围时行界定。
还是以澳大利亚国图书馆的PANDORA项目为例,对于一个站点上一级或下一级的链接是否选取,完全取决内容的需要。PANDORA的作法是将站点内容分成若干部分,然而分别与向导要求作对比,凡是符合要求的就存档,反之剔除。当然如果整个站点内容都有价值,也会予以全部保存。
(3)对链接的存档
在电子出版中广泛使用着超级链接,所以还需确定这些链接及其内容是否随原文一起存档。对于这一问题,各个项目回答各有不同。
大多数项目中都保存了链接(URL域名或其它标志符),但并不保存链接所指向的内容。以美国医学院为例,它保存了所有嵌套在原文文本中的链接及参考资料,但并不保存链接的内容,除非这些内容也是原文中的一部分,或者本来就是要被存档的。同样,美国能源部科技信息办公室也是这样操作的,保存链接,但会剔除超出存档项目的外部链接内容。
略微不同的是加拿大国家图书馆,除了保存链接外,如果链接内容与存档文本在同一服务器上,它也会予以保存。在18个项目中,只有两个非常例外,它们既保存外部链接也保存相关内容,相当这与这两个项目的特殊目的有关,如其中一个项目就是要保存互联网的一个全部缩影,所以它把有关内容全部囊括进来。
(4)更新存档内容
在对数字化信息进行存档的同时,这些信息往往还在不断更新,像一些长期站点,需要对存档信息进行更新。那么更新的周期和范围如何确定呢?这需要在存档内容和完整性、准确性与成本消耗间找到一个平衡点,因为显然,内容更新、存档内容增加带来的是存档费用的上升。澳大利亚国家图书馆的作法是在“出版”项的每一个自动收集程度中加入了选项表格,选项包括:开/关、周、月、季、半年、每九个月一次、每年,具体选择哪一个更新周期取决于预期的更改程度及整个站点的稳定性。
(二)收集渠道
对于相关网络信息的收集,有两条基本渠道:手选和机选。在澳大利亚国家图书馆的项目中,所有站点都由人工浏览并加以选择,工作人员会跟踪这些站点在存档之前的持续性。相反,瑞典的国家图书馆——皇家图书馆则采用机选自动方式,它所主持的Kultruarw项目定期通过一个自动装置来搜集材料。而无需加以价值判断。这些信息收集装置会遍布瑞典的各个所知站点上寻找信息,当然还包括国外站点上有关瑞典的信息,如旅游信息及瑞典儿品的网上外文译本。虽然是自动收集,皇家图书馆还是设置优先选择期刊,固定文件,HTML页面,而参考、用户网络组、ftp存档、数据库则退后考虑。
芬兰国家图书馆,赫尔辛基大学的EVA项目使用的技术也与瑞典相似,但是EVA项目在实行自动收集时会遵循向导指示。为了不使服务器超载,EVA对同一站点两次采集间的时间间隔作了限定。虽然这一限制是为了项目利益起见,EVA的开发者还是认为其机制不够完备、灵活,他们希望对具体的时间限制更为明确,落实到各个URL站点层面上。但是要实现这种灵活性要求为此建立一个数据式的应用程序,并且可以由图书馆员加以修改。
(三) 数字化存档文件的识别和编目
一旦确定了数字化存档的对象,就有必要对其加以识别标志并编目。识别标志为寻找这些对象提供特定线索,并可链接要与其相关其它对象上。以metadata形式存在的编目会提供相关的结构、接入等信息。
所有的存档项目都会使用一些形式的metadata来描述,管理和保存存档对象。在项目开发过程中一些常见的问题有,这些metadata是如何生成的,生成标准是什么,它们的应用层次如何以及在何处存储这些metadata。
在调研的18个项目中,大多数是在编目阶段完全或部分生成metadata的,然而当前人们越来越认识到人工生成metadata是数字化存档过程中的一个障碍,所以越来越趋向于自动生成机制。其中一个已尝试这一操作的是美国环境保护组织开展的存档项目,它直接从数字元素这一层次上衍生出metadata,另一个项目DITT也在metadata的自动生成系统上进行投资。
在选定的18个项目中,使用了各种各样的metadata格式。大多数国家图书馆采用传统的图书馆编目标准。像在澳大利亚国家图书馆的PANDORA项目中,电子文件完使用MARC编目,但同时针对网络信息也采用一些新的简化格式。EVA项目中使用的是一种类似Dublin Core的格式,预计以后一种像Dublin Core这样简化的格式将直接从出版商处获,并运用于metadata,这样就不再需要广泛使用图书馆编目了。
这18个项目在从数据到metadata的过程中,使用的内容标准更是种类繁多。国家图书馆倾向于使用传统标准如AACR2,有一些地区已有的信息标准,如经度、纬度标准,很容易编入到metadata内容标准中来。但同时要指出,为了长期存储需要对于一些特殊元素,仍需要专门功夫,尤其是一些非文本数据,如图像,视频与多媒体。
Metadata的运用层次取决于数据类型及预期的访问需求。数据组通常在文件层或收集层编目。电子期刊的文章可以分别加以编目,有时都不用在文章及期刊标题层次上考虑metadata。另外在考虑主页时会比较麻烦,因为必须确定metadata运用在哪一些次的页面上。
在调研的18个项目中,metadata文件通常都是独立于存档文件单独存储的图书馆会把这些文件放在“公共访问”目录下,出版商由可能把它们放在书目或引言数据库中。但也有一些例外,如对标题、作者等信息作了标签的电子期刊,这类信息可以和文件存在一起,同时又可以摘取出来作目录。
在对数字化存档的讨论过程中,有一个普遍关注的问题,那就是需要能在不同的metadata格式间转换和使用。对于这一问题,ISO顾问组开发的OAIS(开放性存档信息系统,Open Archival Information System)参考模型作了尝试,它给每一个存档对象按其类型都添入了特定的metadata。
对于那些并非直接将数字化材料拷贝到存档中来的情况,材料在网络上从一个服务器到另一个服务器或从一个目录到另一个目录,这种转换带来URL域名的变化有很多后患,因为URL域名表示了信息的位置,当这种标识信息变化后,会导致源文件和链接文件不持续性。
虽然潜在一些问题,大多数存档还是继续使用URL来指明数字化对象的位置。然而也有一些项目作了改变,如OCLC存档使用的是PURL,
[时间:2001-04-23 作者:必胜网 来源:必胜网]