与被捧上天的 AI 相比，元数据可能更重要

转载时间：2021.09.23（原文发布时间：2021.05.10）

165

转载作者：36氪企服点评小编

阅读次数：165次

编者按：本文来自微信公众号“InfoQ”（ID:infoqchina），作者：凌敏、核子可乐，36氪经授权发布。

在网络搜索领域，元数据或将逐步取代 AI。

元数据正逐步取代 AI

元数据又称中介数据、中继数据，是用来描述数据的数据（Data that describes other data）。

元数据最大的优势在于，它具有良好的开放性。利用元数据，你可以轻松编写一款面向 OpenGraph 标签的解析器，既不需要 AI 模型也不需要云计算，就能轻松了解页面中包含哪些内容。此外，元数据的获取门槛也并不高，无需大量交互或协同即可快速获取。

软件工程师 Cal Paterson 认为，在网络搜索领域，元数据正逐步取代 AI。准确来说，当前的 AI 无法支持搜索引擎查找各类内容、切实理解内容含义，真正在背后起作用的，其实是元数据。当搜索引擎找到目标页面后，网站管理员需要提供丰富的元数据，来帮助搜索引擎快速理解页面内容。

以谷歌搜索引擎为例，谷歌一直爬取整个互联网体系页面，但过去的事实证明，即使是 20 个简单的网站，谷歌的页面爬取效果都堪称“惨不忍睹”。也就是说，常规的爬取网站方式根本驾驭不了无穷无尽的网络资源。

因此，在 2005 年的时候，谷歌推出了 Sitemaps 标准，允许网站管理员直接提交页面列表。有了 Sitemaps 标准，任何一个站点有更新，就会自动通知谷歌，方便谷歌进行检索，大大减轻谷歌的爬取负担。不过，即便多数网站都提供站点地图文件，谷歌面对如此庞大的、包含页面链接的 XML 文件，还是需要借助专门的工具来帮助互联网管理员调试具体问题。

比如，谷歌会通过添加一段元数据的方式，从两个相似页面中准确判断出到底谁才是真正的原始页面，以便谷歌不被链接所误导，从而在搜索结果中显示正确的页面。

此外，谷歌在对页面作者进行识别时，也会用到元数据。此前，谷歌上线了 Google+，并鼓励网站管理员提供当前页面作者的 Google+ 个人资料。而随着 Google+ 项目被废弃，谷歌转而从 Facebook 的 OpenGraph 规范当中读取元数据，以此处理谷歌主要搜索结果集以外的内容（例如向 Android 用户展示的新闻报道）。而对于其他数据，谷歌则选择解析 JSON-LD 元数据标签、“微格式”乃至其他指标。

虽然谷歌当前掌握文本分析功能，但与其他搜索引擎相比，谷歌的核心优势并不在于更强的自然语言处理能力，而在于其善于使用元数据——他们会根据反向链接判断代理的知名度。

例如，PageRank 真正关注的并不是页面的实际内容，相反，它的办法更加简单粗暴——哪个页面在其他页面中的链接使用量大，就证明前者的优势地位越强。而这，仍然是在依靠元数据的力量。

不过，元数据也并不是“万能神药”，只有元数据内容完全正确时，搜索引擎才能充分利用它分析内容。当前，有很多中立第三方提供元数据，例如公共记录或者多个不相关数据点的加权累计等等。谷歌在搜索引擎结果页面中展示维基百科数据就属于这种情况，PageRank 的工作原理也是以此为基础。

AI 神话快编不下去了

很明显，在网络搜索领域，当前的 AI 还没那么智能。那么，在响应搜索查询、返回文档内容方面，AI 的表现怎么样呢？答案依旧是否定的。

当前，AI 虽然可以从维基百科右侧信息框里提取结构化数据，但其带来的“边栏提取”与“零点击结果”反而让维基百科原始页面的访问量大大下降。

在搜索结果方面，AI 整理出的结果基本是由商业网站上那些博眼球的劣质“标题党”组成。这些网站的作者往往是设计页面元数据的专家，他们特别懂得如何利用谷歌算法，为自己的网站积累人气。用户要想得到自己真正想要的搜索页面，只能采用更复杂的办法进行查询，比如在搜索时加上网站名等等。

虽然谷歌声称“网络管理员应该放弃元数据，专注于内容本身”，但这种喊口号的方式并没有真正解决问题，只会误导用户，让用户以为当前的搜索引擎可以解决很多问题，元数据扮演的只是辅助角色。但实际上，不只是在网络搜索领域，在一些发展更快的领域中，元数据的作用也比 AI 明显。

以政府对网络活动的监控为例，执法机构更倾向于跟踪往来邮件、语音呼叫或者聊天消息等元数据内容，而不是采用 AI 模型去逐一分析民众在说些什么。同样的道理，很多人以为自动驾驶汽车会读取路标来计算特定道路的限速规定，但实际上，自动驾驶系统大多会结合当前 GPS 坐标直接查询限速规定。也就是说，只要移动应用与卫星导航配合良好，我们就会有这种“智能化”的体验。

人们朝着增强 AI 的目标一路狂奔，看上去一切美好。但拧巴的是，数据科学家们费尽心力打造的 AI 模型一旦公布，人们就会不断利用元数据让其推理过程更可靠、更具可解释性。有些时候，一个标记甚至可以抵得上 AI 模型计算半个小时。这个真实世界，就是如此魔幻。

参考链接：

https://calpaterson.com/metadata.html

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

[免责声明]

资讯标题：与被捧上天的 AI 相比，元数据可能更重要

资讯来源： 36氪官网