(Best Practices for Digital Archiving)
(五)存储媒体和格式的转换
在信息循环过程中,存储常被当作一个背动的阶段,但存储媒体和格式并不是一成不变的,一旦改变原先的信息可能就会永远丢失了。对于这一问题,大多数组织的作法是定期地进行媒体和格式的转换,一般以三年至五年为一个周期。但这种转换费用很昂贵,而且常常会面临数据丢失,质量下降这样一些问题。所以一旦要进行这种转换,做好检查工作至关重要。
在媒体和格式转换中,要求最准确的是数据中心的工作。Oak Ridge国家实验室的大气辐射跟踪中心计划每4到5年就进行一次技术更新,每一次更新时,数据将会运用新的技术保存,这一过程大概每次需要6至12个月。
(六)存储技术
存储要确保在存档过程不但要管理和保存好文件的内容,还要管理和保存好内容的结构形式。实现这一点就得充分考虑技术因素在内。
据这些项目的负责人估计,有关硬/软件的转换周期在2到10年,而一些新的数据库,文字处理器可能2到3年就更新一次,一些小的或级、版本变化就频繁了。虽然与此同时,技术供应商总会提供一些文件转换的途径,但事实上并不能解决硬/软件变化带来的根本问题。尤其是对一些运用了原软件中各种复杂功能的信息文件,很可能因此失去原文件中的许多特征。
鉴于硬/软件更新所带来各种麻烦,一般项目都选择使用主流技术,但这只能保证相对稳定性以及确保一些后续服务,解决不了根本问题,信息结构形式的丢答仍是一个令头痛的问题。
对此,在格式上,各个项目都运用了一些方式来保存结构形式信息。对于期刊文章,大多数项目使用TIFF、PDF或HTML文件,其中TIFF使用得最多,TIFF图像是用户所看到的实际格式,但是其中嵌套的参考信息并不是实际存在的超级链接。
在出版系统从专有格式转换到SGML格式多年以后,一些大型出版商使用的是HTML/SGML美国宇航协会使用的是非常完备的SGML格式,它们从各种不同的格式和产品转换而来。在储存时出版商实际会把SGML再转换成简单一些的HTML,另外在转换路径上还会提供PDF版本。对于纯电子文件,PDF是最合适的格式,它是PostScript文件格式的一个翻版,但是依赖于专有的编码技术。由于这种专有性就决定了使用PDF会对长期存储造成影响,也无法成分公共标准。
在文本环境下保存信息的结构形式就已经很困难了,而在多媒体环境下则更是难上加难。因为多媒体文件是多种硬、软件技术、内容的紧密结合。对此,调研对象中也有项目作出了尝试,一个是美国国防部的DITT项目,他们为此开发了管理多媒体文件的模形和软件,另一个是圣地亚哥的加利福利亚大学,他们开发的存档模形允许不同层次和类型的metadata,来针对各种不同数据类型的存储。
存储的另一个关键问题是存档版本该使用哪种格式,要把原始格式转换标准格式来存储。对这点,不同项目有不同的选择,AAS和ACS都是选择SGML标记的ASCII格式,因为这样的格式中立于各种媒体,用途广泛而且可以定期更新,更新成本也很少。
(七)存档访问
对于存档访问,上文提到的都是如何保持信息的长久性,访问的持续性。要确保数字化存档信息,一直能被访问,必须考虑到访问机制,权限管理,安全管理三方面。
由于数字化环境中的各种技术都处在变化中,用户访问显示的技术都在变化,今天还是通过网络访问,明天就不知换作了什么机制。所以要做的是随着访问技术的变化,不断向读者提供新的访问途径,当然与些同时,原来的访问途径应该可以继续使用。
在存档访问上的另一个麻烦在于如何管理好各种权利,存档文件具有什么权利?不同的用户群分别享有什么权利?信息作者还保留着什么权利?而访问机制又如何通过适当的metadata还正确管理好这些权利。这些问题体现到管理中来包括根据情况提供或限制访问权限,在信息的版权和安全标准改变访问权限标准。
安全和版本控制问题同样影响着数字化存档。在数字化环境下,信息和复制和篡改都太容易,以致于很多时候难以区分眼前的信息究竟是原始信息还是“偷来的信息”。针对这些问题,关键在于通过metadata管理好文件副本,并使用水印,数字化标记等防伪符。
一、结论
在科学领域,各种不同数字化存档都正实践或酝酿着,本文正是对其中一些极具代表性例子的考查,分别从信息循环的各个阶段,论述了数字化存档的有关事宜,其中的很多都是实践经验的归纳,或是一些实例操作中的有益尝试,如一些项目中的文件存储标准,信息采集原则等,是对其它存档工作的一个很好借鉴。同时在这些项目中暴露的一些问题,也是以后数字化存档工作中有待注意的。当然,随着技术的更新,数字化存档的方方面面还会有所变化,更多的经验会随之而来,希望本文和以上实例,能起到抛砖引玉的作用。
[时间:2001-04-23 作者:必胜网 来源:必胜网]