自2002年推出以来,Google News已成为Web上最大的新闻内容聚合器。在去年9月《大西洋月刊》的一篇文章中,Google News的主管曾说该网站收集的新闻来源超过5万个,每周的独立访客超过10亿。该网站完全由计算机生成,每天都会收集和展示从全球数千个新闻来源的头条新闻。
Google甚少透露相关的算法和规则,只是说为了保证显示的内容质量会定期调整新闻排名。据信,Google自2003年以来已经三次调整了排名算法。
Computerworld 在美国专利办公室网站查询时碰巧发现了Google去年的一项专利申请—《改进新闻文章排名的算法与系统》,专利申请号为20120158711。通过对申请文档的分析,从中可以了解到Google对新闻故事排名的一些指标。这些指标决定了哪些新闻可以被放在Google News的显著位置。
专利申请中运用了超过12项指标来对其他网站的新闻文章进行排名。包括新闻网站定期产生的新闻数量、新闻来源的平均长度、新闻来源新闻报道的重要性、突发新闻得分、使用模式、舆论意见、流通量、相关新闻组织的员工数量、新闻来源的办事处数量、新闻报道的广度、新闻中使用的原创命名实体的数量、国际多样性、甚至还包括写作风格。
以下就是部分算法规则
用原创文章数或原创句子数来衡量新闻来源的质量
用“故事规模得分”确定某组织一周、一个月或更长时间撰写的原创文章的重要性。比方说,如果D是关于哥伦比亚航天飞机失事的文章,而相关主题的其他不同文章还有500篇,那么这个故事的规模就是500
突发新闻得分的计算是通过衡量新闻来源发布重大事件的速度来确定的
而新闻机构(尤其是未受广泛引用的那些)制作高品质、原创内容的能力,则可以通过故事提及人物的数量等来衡量
哥伦比亚大学新闻学院的教授Sree Sreenivasan称,技术世界有很多不透明的地方。此项专利申请可以让人了解像Google这样的公司是如何选择在线内容并对其排名的。他指出,Google用来判断新闻来源质量的某些指标,跟编辑用来确定某出版物是否值得信任是一样的。
比方说员工数量和受众多样性。故事长度也是一个好指标。尽管乍一看似乎Google对量的重视程度要高于质。但事实上许多高品质的媒体现在制作的内容都比以往要多。这反映了当前新闻业的现实。
由于此前Google对新闻文章的热度评定经常引起媒体公司的争议,这份文档也许能澄清部分事实。不过,Google在电子邮件回复中称专利申请不代表产品就是这么做的。