吕理哲:报纸赚钱少 非战之罪

印刷吕理哲报纸

  Google不生产新闻,却变成了美国最大的媒体公司,Google一家公司的营收超过全美国1382家报社的营业额,问题出在“大数据”的基本建设和因特网的互动能量。

  媒体的功能是为大众整理并提供信息,绝大部分的媒体不针对这样的服务向阅听人收费,他们利用聚集的阅听人数目(发行量)吸引广告主来付钱登广告。报纸、电视、地铁站的墙壁,网络上的文章、音乐和影片都有聚集阅听人的能力,都是媒体。
  
  今天的媒体和以往不同,主要是因为互联网不但可以用来提供信息,还能和阅听人双向沟通,和传统媒体单方向提供信息的效益,有了明显的差异。其中搜索引擎这种不生产内容的媒体,倒是把天下所有的内容当成自己的材料,就成就了谷歌一家搜索引擎在2012年内做到的营收,居然比美国1382家报纸加起来的营收还要多。

  报纸为你报导新闻,除了你买报纸为报社增加一份发行量以外,报社无法从读者这一端得到任何回馈。但是谷歌(Google)除了帮助大家去找你要的信息以外,同时利用你的搜索,收集到了珍贵的大数据(big data)。

  什么是“大数据”?

  2009年,谷歌旗下几位工程师在著名的《自然(Nature)》发表了一篇论文,解释了谷歌如何运用每天储存超过30亿笔民众搜的关键词,再加以运用,精确预测出美国那几州即将在接下来的冬天爆发流感。

  几个星期后,一种结合禽流感和猪流感菌株的新病毒H1N1跳上了所有媒体的新闻头条,美国疾病管制局(CDC-Center of Decease Control & Prevention)为了应付这种蔓延迅速的流感,要求全国的医生一碰到新流感病例,就必须立刻通报,以避免类似1918年西班牙流感的危机,当时可是5亿人受到感染,千万人送命的大灾难。

  人们从身体觉得不舒服到自己认为可能感冒了,可能已经过了几天以后才会去看医生,经过层层通报关卡才会到达疾病管制局。病毒面对面传染不会有层层关卡,何况疾病管制局一个礼拜汇总一次,可以想象疾病管制局只能记录,根本就无法掌控病毒蔓延的真实情况。

  谷歌先挑出美国人最常使用前五千万个搜寻关键词,再与疾病管理局2003~2008年之间的流感传播数据比对;总共用了四亿五千万个不同的数学模型去测试分析,最后这套软件系统找出45个关键词,用前几年的数据放进数学模型里面去运算,结果竟然和2007年和2008年疾病管制局统计的全美国流感真实数据十分符合。

  不需要动用任何医疗资源,不用去访问医院,更不用采集流感检体,谷歌这套系统就可以掌握美国流感疫情和疾病管理局一样,差别在于实效,谷歌系统几乎及时跟着疫情发展,管制局的记录得等一两个礼拜,收集到全国医生的回报汇总以后。

  谷歌不是只理出民众得到流感后身体不适时,会用那些关键词到网络上去搜寻,就能预知流感传播的时间和地区,而是从几千亿笔的大数据找出和流感的相关性和在各地区出现的频率,建立数学模型去预测。

  重点在于数据量的庞大,没有大数据,即使你有谷歌工程师的才华,也无法在疾病管制局发布流感数据以前,知道你住的城市什么时候会发生流感疫情。

  这就是传统报纸媒体的基础建设中找不到的机会,报社有订户的个人资料,只能用在送报或是催缴报费,无法像谷歌这种数码媒体,即使没有用户的个人数据,也能因为庞大的数据量中找出各种社会现象的变化,如果大数据应用得当,看来就要改变许多领域的面貌,像流感预测这样的公共领域只是其中一个例子。

  1990年左右,IBM开始开发Candide英法语翻译系统,可惜因为收集大量数据的成本太高而作罢。今天我们可以看到谷歌利用大数据创造了超过60国语言的翻译系统,其中有14种语言可以用语音输入。可以想象IBM当时收集数据的难度,,谷歌既有又不断增加的大数据可以预测流感,当然可能将这种能量应用到各种商业领域上去,报纸得派业务员去拉广告,谷歌甚至可以找到产品的客户以后才去向厂商争取广告业务。

  传统报纸不会消失,但是说到赚钱就无法和新电子媒体相比,这是基础建设的根本差异,非战之罪。

[时间:2013-08-21  来源:崭新资讯]

黄品青微站