编者按:本文来自微信公众号“InfoQ”(ID:infoqchina),作者:凌敏、核子可乐,36氪经授权发布。
在网络搜索领域,元数据或将逐步取代 AI。
元数据又称中介数据、中继数据,是用来描述数据的数据(Data that describes other data)。
元数据最大的优势在于,它具有良好的开放性。利用元数据,你可以轻松编写一款面向 OpenGraph 标签的解析器,既不需要 AI 模型也不需要云计算,就能轻松了解页面中包含哪些内容。此外,元数据的获取门槛也并不高,无需大量交互或协同即可快速获取。
软件工程师 Cal Paterson 认为,在网络搜索领域,元数据正逐步取代 AI。准确来说,当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义,真正在背后起作用的,其实是元数据。当搜索引擎找到目标页面后,网站管理员需要提供丰富的元数据,来帮助搜索引擎快速理解页面内容。
以谷歌搜索引擎为例,谷歌一直爬取整个互联网体系页面,但过去的事实证明,即使是 20 个简单的网站,谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说,常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。
因此,在 2005 年的时候,谷歌推出了 Sitemaps 标准,允许网站管理员直接提交页面列表。有了 Sitemaps 标准,任何一个站点有更新,就会自动通知谷歌,方便谷歌进行检索,大大减轻谷歌的爬取负担。不过,即便多数网站都提供站点地图文件,谷歌面对如此庞大的、包含页面链接的 XML 文件,还是需要借助专门的工具来帮助互联网管理员调试具体问题。
比如,谷歌会通过添加一段元数据的方式,从两个相似页面中准确判断出到底谁才是真正的原始页面,以便谷歌不被链接所误导,从而在搜索结果中显示正确的页面。
此外,谷歌在对页面作者进行识别时,也会用到元数据。此前,谷歌上线了 Google+,并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃,谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据,以此处理谷歌主要搜索结果集以外的内容(例如向 Android 用户展示的新闻报道)。而对于其他数据,谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。
虽然谷歌当前掌握文本分析功能,但与其他搜索引擎相比,谷歌的核心优势并不在于更强的自然语言处理能力,而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。
例如,PageRank 真正关注的并不是页面的实际内容,相反,它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大,就证明前者的优势地位越强。而这,仍然是在依靠元数据的力量。
不过,元数据也并不是“万能神药”,只有元数据内容完全正确时,搜索引擎才能充分利用它分析内容。当前,有很多中立第三方提供元数据,例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况,PageRank 的工作原理也是以此为基础。
很明显,在网络搜索领域,当前的 AI 还没那么智能。那么,在响应搜索查询、返回文档内容方面,AI 的表现怎么样呢?答案依旧是否定的。
当前,AI 虽然可以从维基百科右侧信息框里提取结构化数据,但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。
在搜索结果方面,AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家,他们特别懂得如何利用谷歌算法,为自己的网站积累人气。用户要想得到自己真正想要的搜索页面,只能采用更复杂的办法进行查询,比如在搜索时加上网站名等等。
虽然谷歌声称“网络管理员应该放弃元数据,专注于内容本身”,但这种喊口号的方式并没有真正解决问题,只会误导用户,让用户以为当前的搜索引擎可以解决很多问题,元数据扮演的只是辅助角色。但实际上,不只是在网络搜索领域,在一些发展更快的领域中,元数据的作用也比 AI 明显。
以政府对网络活动的监控为例,执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容,而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理,很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定,但实际上,自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说,只要移动应用与卫星导航配合良好,我们就会有这种“智能化”的体验。
人们朝着增强 AI 的目标一路狂奔,看上去一切美好。但拧巴的是,数据科学家们费尽心力打造的 AI 模型一旦公布,人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候,一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界,就是如此魔幻。
参考链接:
https://calpaterson.com/metadata.html