随着存储介质价格的降低,越来越多的公司都把录音带和录像带等资料存储成音频和视频文件,这使日后寻找某个特定的内容就象查询某个文件一样方便、快捷。
文本的搜索引擎技术已经出现了十年,图象处理技术也有几年的历史了,但是如何查询一个以每秒钟30次在变化的图象和文本呢?新的检索工具解决了这个难题。它的关键是将每一个音频或视频文件分成很多的小段,而且给每一个小段分配一个指针。这样就可以进行轻松检索查询了。
那么如何制作一个几百小时长的录像的索引呢?要是在以前,可能需要公司的全体员工参与,并只能用手工完成。幸运的是,制造商们提供了一种先进的技术,能够自动地检索音频和视频信息,这使员工的工作量将至少减少一半。(虽然他们对多媒体的资源管理系统的研究还只是刚刚起步!)
自动检索软件可以对音频和视频信息流进行扫描,生成可检索的信息流内容标记(也可以是情节串联图或小图标)。大多数的软件都是通过尽可能多地探测元数据(描述真实数据的信息)来实现上述功能的。在音频和视频信息中,元数据包括时间代码、副本、闭路字幕和主体结构。主体结构的产生过程是:软件将视频信号中由于剪裁、衰弱、擦除和其它原因引起的变化扫描记录下来,然后把新结构的“快照”作为该视频段的主体结构。
国外有很多公司都提供这种音频和视频的自动检索软件。这些软件都使用了一种“基本内容处理”技术。这种技术通过对音频信息流进行分析,不但能够将说话声、音乐声和欢呼声区分开来,而且可以识别音量上的明显变化。Virage公司生产的多媒体目录和分析软件(例如Video Cataloguer)使用了先进的多媒体分析算法将元数据从视频信息中摘取出来。IBM公司的Query By Image Content(QBIC)技术能够对颜色和纹理上的变化进行识别。所有的工作都依赖于后台的数据库系统,包括Oracle和Informix;IBM公司还生产了使用他们自己的DB/2数据库的端到端自动检索软件。各公司的相关产品构成了该公司的一整套多媒体管理系统软件,每套软件的最高价格高达25000美元。
现有技术
美国的SportsLine公司使用了Magnifi公司的Enterprise Server(企业服务器),自动检索体育录像和该公司在CBS SportsLine网站上的内容。体育迷只需通过关键字进行查询,就可以观看简短的比赛录像了。Magnifi公司的软件根据每个公司实现检索的不同方式,每隔一个小时就对贴到网站上的新内容进行一次检索,并每隔两个星期就对整个网站的内容重新检索一次。因为网站中包含的数据量非常庞大,而且内容的更新速度很快,所以要求检索的速度也足够快,这样才能保证在给定的时间内对所有的内容进行查询。
Magnifi公司的软件让SportsLine公司赚了大钱。道理很简单:更容易查询意味着更多的人可以访问该站点而且可以浏览更多的网页,相应的,广告客户就会更愿意支付较多的广告费用,吸引了更多的广告商。
通过元数据进行视频检索,就可以在公司的网站上查询到相应的录像片段,但是别的录像内容也会被自动地加载。举例来说,如果用户想要查询有关滑雪的录像,并且输入了象“高山”这样的关键字,软件就会在找到滑雪录像的同时,加入一些高山的风景录像。音频检索也会出现同样的情况,而且由于公司有自己的广播电台和大量的音频资料,情况更加严重。
PBS Video是一家向各个学校销售美国历史档案教学录像的公司,他们公司面对的最大难题就是如何让顾客从300小时长的录像里找到他们所需要的东西。短期的解决办法是一个人工制作的写在纸上的索引(很不准确),各位老师可以通过活页标签找到需要的录像带及其播放顺序。但是制作和更新这样的活页标签需要花费大量的金钱,而且顾客对此也不很满意。
为了弥补这个不足,PBS Video配置了Excalibur 公司的Screening Room系统。该系统(目前正处于Beta测试阶段)可以将用户自动地连接到PBS网站上。它使PBS提供了一个连接更多信息的、更强大的、最新的索引。而且它在索引中添加了同步在线副本、篇章目录和纲要,这样就可以方便老师找到确切的录像段位置。
音频和视频的自动检索软件还可以帮助用户节省费用。在数字化世界里进行模拟大众传媒通常会带来负经济效益。因为你即使投入再多的钱来对它进行数字化和管理,也不会实现节省费用、提高质量、减少生产周期和广泛推广的目的。但是, 对音频和视频信息进行数字化却是完全不同的情况。模拟的音频和视频信息只能在录音机和录像机上进行录制和播放。但是数字的音频和视频信息却可以在计算机上进行录制和播放,这就意味着他们可以通过Internet进行传播。而且,随着Internet上各种信息的逐渐增多,进行音频和视频检索将变得越来越重要。另外,由于访问元数据的技术不断在进步,对数字化音频和视频的检索将变得更加容易。
但这并不是说一些组织再也不应该将音频和视频检索应用到模拟大众传媒中。公司将通过为大型的离线储存系统建立数字标记(比如模拟录像带档案)来大体上实现ROI。相对来说,对档案建立索引的费用是比较低的,特别是相对于数字化或修改档案本身。虽然档案的内容是离线的,但数字化的索引使对档案里的资料进行访问变得非常简单。
对经常使用的资料,应该尽快的建立音频和视频索引。而且有现成的工具,为公司的音频和视频数据建立卡片目录,同时把用户和公司职员已经习以为常的数据库和搜索引擎有效的结合起来。这样,如果你投资50000美元建立公司信息索引,很可能使系统里的音频和视频资料称为极具吸引力的内容,到那时就可以证明你当初的选择是正确的。另外,由于目前市场上大多数的产品都是标准的组件,而且和多数不同的查询引擎和数据库兼容,所以你在音频和视频检索上的投资是相对安全的。
随着服务器处理能力和网络带宽的增加,视频将逐渐往DVD和按需视频系统方向发展。一旦有了适当的索引,不管是什么媒介或格式,所有的东西都变成可查询的内容了。
最新技术
通过自动检索,我们可以查询到储存在公司磁盘驱动器上的音频文件。由于使用了语音识别技术,检索软件可以将音频文件转换成文本格式。举例来说,如果你想要查询上司去年的讲话记录,你只需在关键字查询里输入“97年第一季度销售预测”就行了,因为文本和语言之间已经作了对应转换。
这种新技术在检索视频文件时将变得非常有用。因为CEO的股东会议录音资料没有闭路字幕,而且根本不含任何的产品介绍。不过它们确实是可以听见的。目前的语音识别技术只能相对精确地识别格式单一的语音资料,对非系统的格式、多样的录音资料的精确性就要弱一些。
但是事实上检索时不需要百分之百的精确性。在一个两分钟长的录象中,只要能识别出六、七个单词,象“克林顿”、“莱温斯基”、“口供”、“犯罪”等,能唯一的代表该段录象就行了。很多制造商,包括Virage公司,都将实时语音识别技术列为重点研究对象。
视频检索最大的优点是能够准确的将众多不同对象的视频区分开来。虽然早就有了基本的形状识别算法,但是有用的对象识别技术才出现短短几年,还不到十年。进行对象识别的标准方法是为每一个对象建立一个模型——这是一个巨大的工程,因为对象的数量几乎是无穷大而且每一个对象都有多重属性。
另外还有一种技术——图案识别技术(模式识别技术),比对象识别技术更加先进。Chroma Graphics公司发明了一种图象识别技术,它可以通过对象的样品进行识别,而不需要为每一个对象进行编程。不过目前该技术还没有投入实际使用。例如,你想要查询苹果的录象,你只需要在程序中加入一些苹果的图象即可。就象一个小孩知道现实中的水果和书本图片中的水果是同一事物一样,该程序也可以通过提供的样本找到苹果的录象。
[时间:2000-11-20 作者:必胜网 来源:必胜网]