大模型时代,古籍数字出版如何应对挑战

古籍数字出版

  近几年,从国家政策方面的支持、行业对古籍数字化工作的重视,以及用户对古籍产品的需求变化来看,古籍数字出版迎来了非常好的发展机遇。同时出版行业中古籍数字出版案例不断涌现,数字出版成果也越发丰富。

  但机遇与挑战并存,尤其是在数字化时代下,人工智能、云计算、大数据等新技术的快速发展和广泛应用,促使中华书局古联(北京)数字传媒科技有限公司(简称“古联公司”)不断思考古籍数字出版如何才能获得更好的发展。我们认为,古籍数字出版在当下主要面临四大挑战。
 
  挑战一,降低古籍数字化的成本
 
  要完成高质量的古籍数字出版工作,有几个难点亟需突破。
 
  一是完成古籍图像到文本的高质量转化。图像质量和古籍用字的复杂性是影响古籍数字化质量的最主要因素。目前很多古籍数字化机构都开发并利用基于人工智能技术的古籍OCR系统来识别古籍文本,速度和质量较手工录入和传统OCR而言有了很大提升。古联公司在籍合网上也发布了基于人工智能的古籍OCR系统。
 
  当然,古籍OCR直接输出的质量离正式出版的标准还有很大差距。我们目前的解决方案是通过自己在线众包的平台招募校对,开展文字编校工作。另外,我们也在开发基于语义的OCR识别辅助系统,借助上下文对模糊字、不在识别字库中的疑难字给予用户提示,提升识别效率。
 
  二是对古籍的基本整理。古籍整理是进一步利用古籍文献的必由之路。古籍数字化的过程本身就具有古籍整理的特点。古籍图像到文本的转化,涉及到模糊字、疑难字的识别,对异写字的规范等工作。随着人工智能的兴起,古籍的标点、繁简的转换等基础工作可以实现由计算机初步处理。不少平台都能提供类似的服务,中华书局也是将OCR识别、标点、繁简转换集成到“古籍智能整理平台”上为学术界提供服务。标点、专名标引的识别率目前已经达到了较高水平。去年底,随着ChatGPT系列大模型的发布,我们也看到了古籍整理智能化进一步的发展前景。经过测试,构建古籍领域的大模型可以更好地完成古籍数字化整理工作。除了能够提升现有OCR、标点、专名标引、繁简转换的质量以外,还可以完成更多任务,比如古籍的自动注释、翻译等,目前在学界和业界都有初步成果问世。
 
  挑战二,整理成果不足以满足要求
 
  目前已经整理出版的古籍与中国存放的古籍数量差距十分巨大。对于专业性、学术性的古籍整理和古籍出版工作来说,客观规律决定了其必然需要较长的整理出版周期。虽然古籍整理、出版工作可以借助计算机和人工智能技术,但它并不能彻底替代专家的工作。
 
  在这种情况下,我们提供了一种解决方案。现在在籍合网上,我们采用与专家合作的方式联合进行古籍整理,完成之后直接以数据库的形式进行发布。
 
  这样做有两大优点:第一,有专家参与整理,其学术质量更有保障;第二,省去纸书出版环节,可以明显提升出版速度。而且以数据库的形式发布还可以随时随地进行在线修改,非常灵活。这是我们今后一个时期内古籍数字化发展的一大方向。
 
  挑战三,加强资源聚合能力
 
  古籍数字化成本高,基于整理的古籍出版成果具有知识产权,大规模的聚合资源存在非常高的难度,但是古籍数字化,特别是数据库产品,资源量是体现其产品价值的重要因素。以收录整理本资源最多的《中华经典古籍库》为例,经过10年的发展,通过商业合作,汇聚了23家出版社、近7000种古籍整理作品。但对于用户来讲,这还远远不够。
 
  因此,建立一个基于国家战略的古籍资源平台成为迎接这个挑战的必要举措。在“2021-2035年国家古籍工作规划”中,古籍数字化工程专栏的第一个任务就是“国家古籍数字化资源总平台建设”,其定位是“依托已有平台和资源,聚合古籍数字化成果,连接各类古籍书目、影像、全文数据资源, 建设覆盖全国、统筹利用、统一接入的‘一站式’古籍数字资源枢纽体系,打造权威性、公益性国家古籍数字资源中心”。目前该平台已经于今年正式启动建设,预计明年上线时将对接30个古籍数据库和古籍数字化工具,并且会持续更新,不断吸纳“国家古籍数字化工程”成果,为读者提供公益化古籍资源服务。
 
  挑战四,产品需求需要创新
 
  目前的古籍数字出版主要以古籍数据库为主,面向专业用户提供服务。数据库对于专业市场来说属于相对成熟的商业模式,但古籍类数据库因为成本高、版权复杂、受众面小等原因,盈利能力非常有限。这就需要我们做出一些调整。
 
  第一,可以利用新的人工智能技术更新和扩展古籍数据库的服务功能,方便更多读者使用。经过测试,未来三个方向有望实现研发突破:古籍题要生成、语义检索和自动分类。古籍的自动题要可以帮助读者快速了解一本古籍或者一个章节的主要内容;语义检索可以按照用户的需求检索古籍里的内容;自动分类可以根据用户所需要的角度,或者按照现代学科分类,将古籍里的内容聚合、排列,生成个性化的数据集合。这三个功能本质上都是为了降低数据库的使用难度,扩大受众面,增加潜在用户群。
 
  第二,要对古籍内容进行再创造和转化。这里要声明的是,对于古籍内容的再创造实际上已经脱离了古籍数字出版的范围。我们认为的古籍数字出版还是基于古籍本身所做的数字化工作,包括图像、文本、音频等内容都是直接来源于古籍。但是我们做古籍整理、古籍数字化的目的是为了更好地利用古籍,提炼里面中华优秀传统文化的内容,为今日所用。中华书局在做的中国古代先贤数字人算是其中的一种探索。苏东坡数字人在2022年底问世,2023年春节登上中国诗词大会舞台与嘉宾互动,今年在长沙、苏州分别开展了线下数字人参与的宋韵文化展。基于人工智能对话的苏东坡数字人也在研发当中。可以看到随着科技的发展和商业模式的创新,从古籍里提炼中华优秀传统文化元素进行创造性转化与创新性发展,还有更大的发展空间。
 
  古籍是传承中华优秀传统文化的重要载体,如何让中华优秀传统文化成为现代精神生活的一部分?我觉得一定要做好两个基础性工作,一是坚持做好古籍整理出版,二是加速开展古籍数字化。从内容到形式,都要做好中华优秀传统文化的现代化工作,二者密不可分。

[时间:2023-11-15  来源:出版商务周报]

黄品青微站