易观智库数据显示,2015年我国大数据市场规模达到105.5亿元,同比增长近40%,预计未来3到4年,中国大数据市场规模增长率将保持在30%以上。而对于中国大数据产业自主化提升的路径,分析人士认为,国内产业界将聚焦多方式并行的路径,实现并行与赶超。近段时间,国内相关厂商密集布局大数据基础设施、产业基地、数据中心等,助推大数据国产化落地。9月初,国产芯片企业紫光集团旗下紫光股份与美国西部数据组建新的公司“紫光西部数据公司”,紧随其后,阿里巴巴集团在河北张北的数据中心正式启动,为阿里巴巴在我国北方最重要的基础设施和阿里云对外服务的最大核心地域节点之一。国内两大公司密集布局大数据相关产业,表明国内大数据产业正迎来快速壮大、成果快速落地的关键阶段。就出版传媒企业来看,大数据也开始步入实践阶段,或提供知识服务、或升级学科专业、或优化业务流程,一时风起云涌。
维度1 发挥产业数据优势
虽然过去十年间分析技术已取得多次重大突破,分析技术终端及平台数量激增,但与过去相比,企业分析解决方案开发及部署模式仍未发生变化。特别是前些年,大数据对于业内业外而言,还多是空谈概念,鲜有真正的实践或项目。令人关注的是,在利用大数据技术真正创造价值的行业内,大数据市场正呈现出不断细分的趋势,且这一趋势已逐渐明朗。
出版业如何构建一个适合的管理体系,使数据采集与管理、数据标准与清洗、数据挖掘与应用顺畅实现,从而提升数据价值,创造利益,是很多单位必须要面对和解决的难题。因此,出版业必须进行前瞻性思考,以数据即资产的角度重新审视工作、数据,应该清醒地认识到,信息系统建设发展到一定阶段,数据资源将成为战略资产,而有效的数据治理才是数据资产形成的必要条件。化学工业出版社的相关负责人温强在与记者交流时谈到,该社与北京师范大学合作成立了数据治理实验室,初步方向即通过销售数据去库存。此外,化工社还正通过知识服务模式的不断创新,采用迭代开发的形式进行平台升级,进而实现动态化、智能化的知识服务,这项工作在未来也势必和大数据息息相关。
在挖掘产业数据优势方面,中国林业出版社颇具代表性。该社社长金旻介绍,根据自身对生态、林业、土壤、气候等领域的资源聚集而部署了多个大数据项目:国家濒危野生植物大数据建设包含了我国濒危野生植物的物种特征、地理信息、物候信息、应用信息等。系统与遥感系统、地理信息系统、全球定位系统结合,可以对物种进行精确地位置管理。通过物种数据的变化,推导环境的影响及今后的发展趋势,为濒危植物管理提供决策依据。国家重点保护野生动物大数据建设包含了我国濒危野生动物的物种特征、地理信息、物候信息、应用信息等。其与“3S”技术结合,了解动物运动轨迹、生活习性、生存状况,进而为濒危动物管理提供决策依据。此外,还有国家森林防火大数据。通过建立国家森林火灾大数据系统,建立地理信息数据模型,结合森林资源大数据,采用“3S”技术,配合无人机技术,共享数据,可以实时掌控森林火灾状况,控制森林火灾。
再以医学出版为例,医学大数据的分析挖掘基础是对医学内容的处理,需要建立统一的疾病诊断编码、健康医学术语、检验检查编码、药物编码、信息接口规范等。人民卫生出版社在医学名词规范化建设领域有较大优势,且其近年数字化项目建设过程中也积累了部分相应的资源和建设应用经验。人卫社希望更加深入和广泛地开展标准建设研究,服务健康医学大数据的应用并希望能够融入国家大数据标准体系,同时也可配合出版标准规范类图书和数字产品用于指导健康医学信息采集、创建、共享、利用等全部流程。大数据作为数字出版转型升级的核心基础层建设,也是人卫社重要的战略性资产。人卫社目前正在多个方面开展工作:用户大数据建设;资源大数据建设;图书“一书一码”,全面开展线下用户线上转换,建立出版社、作者、读者之间的联系,获取用户学习行为及对知识的需求;加大以吸引用户、增加用户粘度为首要功能的互动型服务平台建设。人卫社希望通过内容数据、用户数据、需求数据、平台数据等不同维度大数据的整合联动,成为智育内容、智慧平台、智能服务的基石和原动力。
维度2 提供特色数据服务
由于移动互联网、电子商务、社交媒体的快速发展,出版社面临的数据呈现指数级增长的变化,数据量的飞速增长带来了大数据技术和服务市场的繁荣发展。专业出版社作为知识内容和数据资源的提供者,在大数据环境下,能够为终端用户提供怎样的服务,成为各位同仁思考的问题。
在知识服务领域,掌握了大量专利文献数据的知识产权出版社有不少开拓性的尝试。日前上线的DI Inspiro中国知识产权大数据与智慧服务系统即充分运用大数据技术,在国内首次实现专利、商标、法律文书、标准和科技期刊等多种数据资源之间的整合、关联、挖掘、处理和应用。该社相关负责人刘化冰谈到,DI Inspiro全面整合国内外最全面的专利、商标、期刊、标准和裁判文书等知识产权相关的大数据资源,实现了大数据资源检索、化学结构检索、生物序列检索、统计分析、智能聚类、自定义数据加工、机器翻译、语义分析、知识图谱等多项先进的信息化技术,填补了国内高端知识产权信息数据库平台的空白。无独有偶,不久前,人民法院出版社与北京国双科技有限公司签署战略合作协议,意欲在“法信——中国法律应用数字网络服务平台”项目展开合作。通过独有的法律知识导航体系(法信大纲)和领先的裁判剖析与同案智推大数据引擎,对海量法律条文、案例要旨、法律观点、裁判等法律知识资源进行深度加工、分类聚合、串联推送,进而为用户提供高效、精准的一站式法律解决方案和案例大数据智推服务。
又如在语言服务领域,中国对外翻译出版有限公司突破传统的语言服务市场,向容量更大、附加值更高的大数据市场迈进,以全新“译见”产品布局企业级市场。“译见”跨语言大数据平台作为中译公司“十三五”规划的重点之一,整合了机器翻译、语义分析、智能采编、数据挖掘等十余种当前最先进的自然语言处理、大数据和人工智能技术,是传统搜索技术的智能升级,也是下一代的互联网信息服务平台。回顾中译语通自2013年成立以来,先后推出了“译云”“译库”等主要产品,随后对当前大数据发展大趋势与大环境的分析,并从机器翻译的视角,提出“跨语言大数据”概念与推出“译见”产品。
中译语通CEO于洋介绍说,2015年6月份首先对基本概念进行了可行性验证,10月份正式推出了跨语言大数据这一全新的概念,2016年发布跨语言大数据平台“译见”,并进入应用阶段。据了解,“译见”在社会安全、导向管理、行业服务等多个层面都将有很好的应用方式,政府机构、企业用户都能应用译见获取大数据分析报告。例如,为政府提供大数据资文、政策分析、经济数据分析等服务,服务政府了解国内外动态,应对突发事件提供决策支撑;为企业提供资讯分析、技术分析、商情报告等服务,为企业发展战略制定、商业预判、生产经营提供有力的解决方案。
除了上述已有的大数据项目实践外,另一些特色出版传媒企业意欲对此展开部署。譬如在艺术品服务市场领域,荣宝斋电商平台明确了“当代传统书画”和“文房及其衍生品”两块主要业务,初步搭建形成“内容+交易+社区”的业态布局。电商平台的发展正在成为荣宝斋实体的补充和延伸。未来,其将按照互联网规律创新业务,挖掘大数据价值,建立当代艺术家价格指数。基于已积累的交易数据,对比雅昌的二级市场价格指数,将打造当代艺术家一级市场价格指数,基于荣宝斋品牌和真实交易数据,将该价格指数打造成业界权威指数。
维度3 数据升级专业学科
在“互联网+”行动计划等国家战略部署的有力推动下,未来我国数字出版将有更为广阔的发展空间。专业学科作为教育出版的一个重要组成部分,也在积极寻求“互联网+”的新模式,众多出版企业开始思考传统出版如何与互联网融合,让产品更易于被用户接受。
将大数据融入特色学科的教学上,一些出版企业开始布局。日前,中国地图出版集团推出“考A啦”,使中图版地理教材基于这一平台为教师提供更多优质、有效的数字地理教学资源以及教育新思路和新方向,从而更好地为地理课堂教学服务。据介绍,现阶段我国中学地理教育使用的教学媒体大多为书本教程、地理挂图以及PPT等传统教学方式,形式陈旧、更新速度慢、资源共享性差,在一定程度上影响了中学地理教学活动的开展。更为重要的是,由于整个教学过程缺乏智能电子终端的介入,教师无法从用户端便捷地收集学生的学习数据,不利于教师掌握学生的学习情况开展个性化教育。而“考A啦”数字化智能平台上线之后,其核心的大数据统计分析系统,将根据学生实际的答题表现,包括不同类别、不同考点题目回答的正确率、答题时间、答题难度等数据,利用大数据算法,实时监测学生对某个难度习题的适应情况,不间断地对学生学习程度、能力、潜力和强弱项等进行有针对性的综合分析,并实时调整学生学习情况的等级分类,以此作为教学资源和测评题库智能推送的依据。特别是该系统使学生能根据自身情况定制个性化的学习计划,掌握学习进度数据,从而形成一套更加系统、科学、客观、准确的学生评价系统。学校、老师通过该系统的分析结果能准确了解个体、群体的学习情况,进行更有针对性的教学安排。
此外,近年随着教育政策的改革足球教材迎来生机。大数据在该领域的运用也开始显现。不久前亮相的京师小将校园智能足球教学系统是由北师大音像电子出版社联合简极科技有限公司,将教育资源、教育内容、教学研究等出版社传统内容优势与新兴物联网、智能硬件、大数据等的互联网技术相结合,面向全国推出的自主创新产品。该系统为全国首套也是目前国内自有技术中唯一能够采集人球互动数据的系统,有助于实现中小学生科学化、系统化的足球教学与体育运动模式。而且,简极科技与北师大音像电子出版社还委托中国教育国际交流协会装备分会发起1500万的校园足球大数据援建项目。该项目将面向校园足球发展次发达地区,通过校园足球大数据和荷兰皇家青训体系的援建,帮助次发达地区校园足球的科学成长,推动全国校园足球运动均衡发展。据悉,校园足球大数据项目共包括三个层次,底层为中小学校学生日常训练数据,包括进球、失球、传球、触球次数、控球时间等;中层为四级联赛数据,包括赛事场次、区域参赛人员记录、赛程安排记录、赛场各项数据、赛事记录等;顶层为校园足球整体数据,包括中小学生个人数据、教练数据、学校校园足球数据、区域校园足球数据,实现数据的纵向与横向比较。而这些数据的反馈都将利于足球教材的编订、修改,如果该模式进展顺利,将成为专业学科运用大数据的典型案例。
[时间:2016-10-26 作者:刘志伟 来源:中国出版传媒商报]