编者按:本文来自“文因互联”(微信公众号ID:wenyinx3b),作者鲍捷,文因互联CEO,36氪经授权发布。
Tim 的一生有两个伟大的贡献(当然,他还有很多其他的贡献):一、互联世界的文档,即万维网(Web)的发明及其规模化的努力,包括 W3C 的工作;二、互联人类知识的努力,包括语义网(Semantic Web)、互联数据(Linked Data)、开放数据(Open Data)、知识图谱(Knowledge Graph)等。第一个贡献已经广为人知,第二个贡献还在发展中,知道的人不多。但是我以为,第二个贡献将会是比第一个贡献更大的贡献。
Tim 也是一位伟大的思想家。他总是从全人类的角度去思考技术问题。普通的设计师从 user 的角度思考问题,伟大的设计师从 human 的角度思考。而 Tim Berners-Lee 是从 humanity 的角度去设计。 可以毫不夸张地说,Tim Berners-Lee 是当今人类神经系统的总设计师。他的工作,在推动历史的进程。他领先于大多数的工业领袖至少十年在进行布局和推动。他又善于组织和影响,对于学术界和欧美政府的最高层,他都能施加影响一步步地推进具体的实施。
Tim 说过,Web 从来不仅是技术的发明,更多的是一种社会的创造。无论是 HTTP 还是 PageRank,无论是 Wiki 还是 Facebook,人的因素是主导因素。开放、交流、合作,新一代的 Web 的技术,必然还是要以人的需要、长处、局限、价值为出发点。技术只是一小部分,社会模式的变迁才是最根本的。
在 RPI、MIT 和 W3C 工作期间,笔者有幸近距离和 Tim 一起工作。 Web 和 Semantic Web 是如何兴起的?Web 的未来是什么?我们遇到的困难和可能的出路是什么?今年1月笔者曾在人民大学做了一次演讲。本文基于这次演讲,简单回顾了 Tim 当年对 Web 的设想,和 Web 从文档互联走向知识互联的历程,并对未来做了一些猜想。
什么是杀手级应用?Wikipedia 上的定义说,杀手级应用就是说它能够使这个应用或技术,从小众走向大众,极大地提高它的使用人数的应用。
随便举几个杀手级应用的例子: ATM 机,跟 Web 和人工智能没关系,但是我们可以想一想,这是什么技术的应用?数据库技术和网络技术。若我们抽象地向我们的外婆解释,什么是数据库?什么是网络?她根本听不懂;但是如果你说这有一个机器,你把一张塑料卡片给它,它把钱给你,可能就听懂了。这就是杀手级应用。
那还有什么样的杀手级应用?Visicalc 有多少人听说过?70 年代末兴起了电子表格技术,电子表格技术是什么?从纯技术角度,可以说电子表格没有解决什么实质性问题,电子表格能解决的所有问题,数据库都能够解决。70 年代初已经有数据库了,那到了 70 年代末为什么又有了电子表格呢?我们想,一个只有初中文化水准的文员,他能够用好数据库吗?那么在 70 年代末兴起的这个电子表格,它要解决的不是面向机器的问题,是面向人的问题,他把原来只有极少数的写 SQL 能够享受到的对数据管理的快乐,让千千万万只有中学文化水平的人,也能够用到。这是电子表格的意义,所以后来有了 Excel。现在电子表格已经成了百亿级的一个大产业。
那么再看另外一个,这个是什么?
这是世界上第一个图形界面的浏览器。第一个 Web Server 是 1990 年 Tim Berners-Lee 在 CERN 写出来的,那个时候已有一个浏览器,但是那浏览器是命令行的浏览器( line by line 的 browser),那种浏览器是只有非常少数的人可以用的。到了 1992 年的时候,另外一个工程师写出来这个浏览器 Erwise,图形界面基于 X-window 的。到了 1993 年的时候,有了 Mosaic 后来演变成了 Netscape,这也是一个杀手级应用。
我们想一下,实际上 Internet 并不新,60 年代就已经有 Internet;超文本也不新,80 年代就已经有了超文本,但为什么一直到了 1994 年(那年全球也只有 3000 个网站),Web 才真正成为一个现象级的工具?因为在这之前没有这样的杀手级应用。Browser 就是这样的杀手级应用,所以说我们看 1993 年有了 Mosaic,1994 年就有了 Amazon,这不是偶然的,这都是杀手级应用对一个领域带来的冲击。
当我们回来看 Web 本身,它也是一个杀手级应用,实际上 Web 是因特网( Internet) 的一个应用,但现在在大众媒体上,可能大家不会区别。大家都说“互联网”,大家谈互联网的时候,通常实际上在谈万维网(Web)。那么底层的从数据链路层,到 IP 层,到传输层到表现层,大家在日常的媒体中是不会看到这些区别的,Web 只是最上面的这么一些协议:HTTP,HTML,URI。这三个协议构成了 Web的基础。
Web 本身是怎么产生的?实际上这些技术在 Tim 发明 Web 十几年之前都已经有了。为什么到了 1991 年的时候,才出现 Tim Berners-Lee 这个人把它们汇总在一起呢?
这个我们现在看到的是号称是世界上第一个 Web Page。这是在大概 1990 年圣诞节的时候, Tim Berners-Lee 在他自己的个人电脑上写的。当时这个 Web 只有他自己那一台电脑在看。从他写了第一个 Web 页面,到后来欧洲原子能组织内部,他花了差不多一年时间,说服所有人来用 Web。大部分人都不相信那个东西有什么价值。后来他又足足花了两年的时间,到全世界各地去做路演,才有非常少的人相信这个东西是有价值的。
TED 上有一个演讲——我是怎么拒绝 Tim Berners-Lee 的,就是有一个人在一个会议上,遇到了 Tim Berners-Lee,Tim Berners-Lee 告诉他,你现在做的东西(百科全书应用)很好,你应该把这个百科全书应用和因特网结合在一起。他很困惑,他说我为什么要把这个东西和因特网结合在一起,这会有任何价值吗?(相关TED Talk 链接:Ian Ritchie 我是怎么拒绝 Tim Berners—Lee ? ;Tim Berners-Lee ) 这不是一个偶然的例子,如果你去看《Weaving the Web》这本书的话,书里讲了很多。
一个新的技术在刚刚诞生的时候,都是不完备的,绝大多数人在那个时候,是没有办法理解这个技术能带来怎样颠覆性的价值。Web 是这种,Semantic Web 是这样,知识图谱也是这样,所以我们在这个发展的过程中,经历了很多被人瞧不起,被人认为没价值的日子。这本书我强烈地推荐大家每个人都去看一看,不仅仅是研究 Web 的人要看,我认为这本书对于人工智能的研究,对于互联网的工程师、产品经理、运营经理,也是有很大的意义的。
我看完这本书就思考一个问题,什么叫知识?知识是怎么产生的,如果我们想构造一个知识的互联的网络,或者知识的管理的网络,最重要的事情是什么?Tim Berners-Lee 的答案就是互联、开放和自由。这本书也有中文版 《编织-万维网之父》,这本书已经绝版了,在淘宝上有卖的。
Tim Berners-Lee 在这本书里,讲了他在1990 年的时候——实际上 是1989 年——在一个 proposal 里面讲了三件事情,当时他很乐观,他认为给他六个月时间,他可以把这些事情都干了。事实是已经过去 25 年了,这些事情还没有做完。这三件事情是什么呢?
第一件事情就是一个互联的文档的 Web,一个 Document Web,这件事情他确实做完了,然后之后又花了 15 年时间去完善。
第二件事情叫 Semantic Web,我们每一个文档背后实际上都承载着人的知识。我们如何让这个文档不仅仅被人来阅读,而且也可以被机器来阅读呢?知识是什么,知识是一种结构,当我们有一种机器可读的结构的时候,我们实际上就有了一个知识的网络。
从 1999 年开始,他开始力推 Semantic Web。到了 2001 年的时候,他和 Jim Hendler,Ora Lassila 一起,在《科学美国人》上面发了这篇文章阐述了一个理念,如果我们有了结构化数据,用知识去标注的网络应用的能力话,我们能够实现怎样神奇的一些应用。实际上他描述的很多东西,我们现在已经实现了,比如像 Siri,IBM Watson, 就是 Tim Berners-Lee 在十几年前就已经描述的一些设想。当时认为是科幻,现在已成现实。
他 proposal 的第三部分,说我们有了知识以后还要怎么样?最重要的是人,Web 在往前走的每一步,它核心的思考,它真正能够带来的知识和最有价值的数据,不是机器,而是人产生出来的。所以如何让机器、人、知识能够关联在一起,这是 Tim Berners-Lee 最主要的思考。他在设计里面提出来,我们不但要能够读这些数据,更重要的是我们能够让人非常容易地去创造这些数据。当时还没有 Wiki 这个概念,但他描述了这样一个系统,实际上就是一个 Semantic Wiki 系统。
我们花了25年的时间,大概实现了他的第一个目标,然后第二个目标实现了一半。所以 Web 只走完了上半场,还有下半场要走。
我们在剩下的 25 年时间内,从现在起到 2040 年,要实现另外一半目标。在《科学美国人》这篇文章里面,Tim Berners-Lee 再一次表达了他充分的乐观。我们刚才提到了,他第一次说花六个月时间就可以实现那个 proposal,最后证明他把这个任务的困难程度低估了一个数量级。同样,在这篇文章里,他再次低估了这个任务的复杂程度,他认为我们十年之内就能实现 Semantic Web ,但事实上没有做到。到了 2007 年、2008 年的时候,整个行业的人就已经发现,可能我们要花 30 年的时间,才能实现这个梦想,在 2007 年感觉 30 年后很远,但现在已经到 2017 年了,我们发现其实这个估计是挺靠谱的一件事情,我们下面细说为什么这个估计是靠谱的。
这是我从 W3C 的前语义网技术负责人 Ivan Herman 的一个 slides 里面偷来的。他是 2010 年讲的,在 2005 年的时候,他认为这个技术已经发展到什么程度呢?就是在前面这种 Innovator 这种层面,到了2010年的时候,他认为已经到了 Early Adopters ,他这个估计应该说是对的。
这样一个曲线对于正常的学科的发展是没有问题的,大家肯定也在其他地方看到过的,叫技术成熟度曲线。一般情况下,一开始一个技术没有什么人知道,过了一段时间之后,大家觉得这个技术太牛逼了,然后到了一个顶点;后来顶点过去以后,到达低谷,觉得你是骗子,大家开始失望,没有人投资了;经过一段时间的冬天,然后后来发现其实也不全然是欺骗,还是有合理的因素的,慢慢往回爬,最后爬到一个 majority,到成熟市场,通常“正常”的技术是这么来爬的。那么对于”正常”的技术,到了这个阶段的时候,就是一次冬天回去之后,往上爬的这个阶段,杀手级应用就会出现了。
但是我们知道人工智能技术不是“正常技术”,人工智能的技术的成熟曲线是这个样子的,差不多每过十年,我们要被人骂一次,我们是骗子。
那么具体来看,对于知识图谱技术,我们已经被人骂了几次。实际上其实这个曲线前面还有几次,我就没有画了,其实从 60 年代开始就有了。我们就从 80 年代开始讲,那时候我们有一大堆叫 Lisp Machine,当时是认为如果我们有了 Lisp,如果我们有了 Prolog,我们可以把整个人类所有的知识都建模。有个公司叫 Cyc,它就是努力想把整个人类的知识全部用逻辑表达出来。到了 80 年代末的时候,日本人被忽悠得很厉害,说我们要有五代机。所以这个时候就产生了很大的一个泡沫,果不其然到了90年代中期的时候,大家说骗子。那个时候的博士生是非常悲摧的。
然后到了 90 年代末,慢慢地又开始往前跑了,当时 Guha 在苹果发明了 RSS,后来 1997 年的时候在苹果发明出来了 RDF。后来到了 1999 年的时候,RDF 成为了行业标准,然后DARPA(美国国防高级研究计划局) 成立了 DAML 工作小组。到了 2000 年前后的时候有了 OWL,整个语义网有了这样一种新希望。大家又开始觉得太厉害了,人类又要毁灭了,但事实证明又不是。所以大概从 2003 年、2004 年往后走,大家发现这个技术没有想的那么牛逼,很多问题解决不了。所以开始往下走。到了 2010 年的时候,虽然我们已经做了非常多的很好的工作,比如 Freebase 这样的工作,但当时基本上 Semantic Web 毕业的博士生找不到本职工作。
到了 2012 年的时候,突然又开始加速往前跑,以谷歌的知识图谱(Knowledge Graph)的发布作为一个标志。但实际上如果我们抛开媒体对我们的报导,跟这个行业真正的发展其实是没有什么关系的,这个行业的技术是一直往前走的,哪怕在“低谷”的这个阶段,也是有非常多的扎实的工作,在不断地推进。像 DBpedia 这样的系统在 2006 年、2007 年做出来的时候,大多数人压根认识不到它的价值。后来 Watson 发现只有用这个技术,才能够把最后 10个百分点的 precision 提高上去,没有其他任何技术能够做到,这时候这个技术才进入了媒体。但在进入媒体之前大量的工作,一直都在水下酝酿。
这个是 Nova Spivack (Twine、Bottlenose的CEO) 在 2008 年的时候做的一个预测,在 2008 年大家已经发现了,这个 Tim Berners-Lee 的预测是不准的,我们低估了这个任务的困难程度。所以他把 Web 分为 Web 1、2、3、4,Web 2 就是 Social Web,当时发现 Social Web 已经很成功了。他认为到了 2020 年的时候,我们能够实现 Semantic Web。那么现在我们在 2017 年,还有三年时间到 2020 年,我们能实现 Semantic Web 吗?好像也不能,所以他也低估了这个问题的困难程度。他认为 Web 4.0 是 Intelligent Web,我认为这个设想还是比较靠谱的,但是对于 Semantic Web 这个规划,还是有点乐观了。
这件事情其实要分为两步来走,要把这个分成 Data 和 Intelligence 两件事情分开来讲。我刚才提到的一个低潮里,不仅仅是那些小公司在这个低潮里面活不下去,大公司也活不下去。并不是说这些大公司垮台了,谷歌、雅虎当时都有很多 Semantic Web Activities,表现是大部分的这些这种项目最终都失败了。比如说谷歌在 2008 年、2009 年,Rich Snippets 这个项目无疾而终——当然到后来有一部分演化成了 Schema.org ,所以不是完全的失败。这样的项目还有非常非常多,包括当时的标准化的努力,RDF 和 OWL 从某种程度上来说是成功的。但是从 2007 年、2008 年到 2010 年的 RIF 和 OWL2,可以说是不成功的。当时的大部分的这些公司最后也都完蛋了,像 Hakia,Powerset,Twine,这些当时这种网红级的公司,最后也基本上没有一个能活到 2010 年之后的,所以在这个时候大家是很被鄙视的。
但是到了 2012 年前后的时候,我们又实现反弹了。实际上很多工作在 2009 年、2010 年就已经开始,比如 2009 年的时候,在 Tim Berners-Lee 推动下,我们有了开放政府数据。2006 年的时候,我们有了互联数据,也是 Tim Berners-Lee 推动的。2010 年的时候我们有了图数据库,我们终于在 RDF 数据库之外,有了另外一个选择。到了2010 年、2011 年是两个标志性的项目,一个是Siri,一个是 IBM Waston 。打了两剂强心针,大家发现这东西真的有用。
到了 2011 年的时候,Palantir 实现了 2.5 亿美元的收入。以前从来没有一个用语义技术的公司,能够做到这一点。大家发现这个东西不仅是技术上有用,在经济上也有用了。Palantir 是一个本体编辑器。现在它的年收入是 20 亿美金。
2012 年的时候这是最大的一件事情,谷歌把 Freebase 给买了之后,改了一个名字叫 Knowledge Graph。谷歌的示范效果是显而易见的。大家一看谷歌用了,所有人都跟着用,微软有了Trinity,当时搜狐、百度国内一堆互联网公司,每一家都开始搞 Knowledge Graph。
2013 年的时候美国这边有了 Kensho,一个金融的知识图谱的应用,到了 2015 年的时候,知识图谱这个词开始变为媒体的宠儿了。2016 年的时候,中国市场上出现各种对话机器人,智能音箱,我觉得可能有上百家,这个背后都是要用到知识图谱。这一块最早应该是 2012 年的时候,出门问问。这样的公司也非常非常多。
所以我们现在可以看到知识图谱技术,已经在过去的五年当中,完美打了一个翻身仗。但是冰冻三尺非一日之寒,就是说我们能够从被人鄙视到大家都觉得这个技术有一点用,实际上是这十几年背后整个领域不懈的努力,才有了今天这一点点的成绩。我们今年看到的知识图谱,实际上是许许多多的上千个各种不同的项目,在过去十几年里面,不停实验,最后留下的一点点精华。
比如说上图,Bestbuy 的商品元数据。其实目前这一堆截图,都是我在 2008 年到 2010 年截下来的。但当时做的很多事情,中国现在还没有。其实在每一个领域,我认为在这里面,在中国如果把这个模式复制过来都是有机会的。Bestbuy 它每一个商品描述页,这是我们人看到的页面,那么这是机器看到的页面,它背后有一个 Ontology,叫 GoodRelations。
这个是 Facebook,这是我们大家能够看到的页面,它背后的 Metadata 是什么呢?这个是 Open Graph。这个是LinkedIn, 他的背后有 Microformat 的 Metadata。这个是 SlideShare, 这个背后是 RDFa 格式的 Metadata。这是 IMDb,这背后是另外一种 Microformat 的 Metadata。
这是 Sig.ma,它实际上是一个 Semantic Data Aggregation 的 Portal,目前这个网站已经下线了。对网上能够找到的每一个实体(entity),比如说人、公司,这每一个都是实体,它把每一个实体的数据做了一个聚合,当时这上面有我的一个页面,图例是关于我个人简历的一个聚合。
我们不仅有各种所谓直接创造出来的语义数据,还有各种通过现有的数据,映射过来的数据。
这是我们当时在 RPI 做的一个工作。就是有大量的政府的数据,他们基本上是用电子表格(spreadsheet)的方式来发布的,我们在上面做了各种规划整理的工作,把它变成了 RDF 的格式,然后提高了数据质量。这是它当时的原始的数据格式,就是在美国政府 Data.gov 这个网站上面,美国各个部门,从联邦政府开始,强制公开数据的发布。然后这上面的数据,大部分都是很脏的数据,它背后的各种数据集,基本上是未经整理的。所以在 RPI,我们就做了这样一个整理。Jim Hendler 是领导者,他发挥了对白宫的影响力。丁力是第一个项目经理。Tim Berners-Lee 影响了英国首相,推动了英国类似的项目。
这是 Open Link 这个公司,他们发布的数据库叫 Virtuoso,是它的一个应用,可以把数据库数据变成 RDF。后来在 W3C,也有一个标准叫 R2R,就是 Relational Database to RDF这样一个标准,规范的是我们如何把现在大量已经存在的结构化数据放到网上来。讲一句题外话,当初 Tim Berners-Lee 在发明 Web 的时候,大多数人不相信这个东西有用,他做了两件事情,第一个是他把 FTP 映射到 Web上来了,第二个是他把 CERN 的电话号码本映射到Web 上来了,就是充分地利用现有的数据来 bootstrap 一个新技术。所以刚才提到的从 Excel,从电子表格到结构化数据,把它放在网上,是我们赶超的一些小技巧。我们(文因互联)现在做的,把股转书里面的那些 PDF 文件里面的数据放在网上,其实也是类似的。
这是我今天早上刚刚截的知乎上面的页面。左边是人看到的知乎的页面,右边是机器看到的知乎的页面,这是什么?其实这是 HTML5 的一些 Semantic Annotations。
所以我们看到的绝大多数的网页,只要你用心看看它的 HTML 源代码,你都可以发现背后的 Semantic Metadata,所以从数据的角度来说,Semantic Web 其实是已经实现了。
我就举个更具体的小例子吧,这四个哥们,是我在 MIT 的时候认识的,2010 年的1月份,我们有一个叫 Linked Data Entrepreneurship Program,也是 Tim Berners-Lee 组织的,就是一些学生做一些培训,在三天之内教他们RDF 是什么样子等等,然后让他们去找一个应用,自己去做一些小例子。然后这四个哥们,就做了一个菜单的应用,他说我能不能帮助餐馆,把他们点菜的菜单给放到网上去。听起来好像是个很简单的主意,但他们执行得非常好,这四个人也很有企业家的素质,他们很快就拿到了投资,最后融到了 400 万美元的风投。他们做了两年之后,把这个公司给卖掉了,卖了 8000 万美元,这是我亲眼看到的一个用语义技术来创造财富的例子。
当然这样的例子还有很多,在美国做 Semantic Search 的公司还有 200 家,在每一个垂直领域里都有,这上面列的是一些大公司,但实际上小的公司比这多得多,要多一个数量级。所以我们回过头来看,在 2007 年的时候 Gartner 做了这个预测,他预测到 2017 年,majority of Web pages are decorated with some form of semantic hypertext。这个确实我们已经做到了。
这个翻身的过程中,Tim Berners-Lee 起到了巨大的作用。2006 年的链接数据,2009 年的政府开放数据,W3C 一直发挥的社区引导作用,都是 Tim 直接领导的结果。可以说,除了他,也没有第二个人在领域出现执行偏差的时候,能够发挥这么大的影响力来实事求是地纠正。他不断地总结,在他的 Design Issues 里,不断反思 Web 发展的一些原则性问题。这些思考通常指导着之后多年的实践。
好,通过这些例子我们学到了什么?在之前的 15 年当中,我们经历了被人鄙视的阶段,我们也在最近五六年里面打了一个翻身仗。那我们现在应该反思一些基本的问题,
第一个问题,就是设计和总结的问题,其实这也是工程领域里可能是一个通用的规则,就是一个有用的有实践价值的系统,通常是总结出来的,而非设计出来的。当在 2001 年的时候,我们去设想基于逻辑的一整套的表现方式的时候,我们是跟现实脱节的。所以那一套东西被现实无情地打脸了。2006 年之后我们从数据出发(在 Tim Berners-Lee 的引导之下 ),自下向上,我们看现实世界能有什么样的数据。Wikipedia 上的 infobox,这是人类现在已经有的行为,我们就把这个 infobox 里面的一些半结构化的数据提取出来变成 DBpedia,DBpedia 后来被应用到其他产品里面去,提高了问答系统的效率,这是自底向上由我们总结出来的,而不是谁一开始设计出来的。好的东西都是总结出来的而不是设计出来的。
第二,面向Semantic,还是面向Web?这也是一个典型的学派之争。在 Semantic Web 这个领域里面有面向Semantic和面向Web这两个学派,Jim Hendler 有一个很著名的演讲叫 Two Towers,一个是 Semantic Tower,另一个是 Web Tower。到底什么是新的东西?Frank van Harmelen 说:The novel part of the Semantic Web is not the Semantics, but the Web。只有 Web 是我们加入这个领域的,什么是 Web?Web 就是互联,就是资源的互联和流通,而不是知识表现。如果我们现在去看知识图谱的话,观察的重点不应该是所谓的分布式表示、机器学习、深度学习,也不应该是所谓的逻辑表达,这些都很重要,但不是这个领域最关键的问题。这个领域最关键的问题是,如何能够让知识在网络上流动起来,如何让人能够更方便的去应用知识、去表达知识,这才是最重要的,人才是这个领域最重要的东西。这就是 Web,Web 是人不是机器。
第三个就是面向方法,还是面向问题? Semantic Web 或者知识图谱,到底是一堆 formulas 还是 questions?我们到底是拿着锤子去找钉子,还是我们现在已经有一个需求。我们要的需求是什么,是钉子吗?不是,我们的需求是墙上的洞,这才是我们的需求。所以我们要面向需求去解决问题,而不是面向我们现在的方法来解决问题。当我们在面向问题的时候,我们发现要解决任何一个问题,都不是一种方法能够解决掉的。我们回去看 Siri 或者 Watson 的整个架构里面,是用了人工智能的多种方法,综合在一起取长补短才解决了这个问题的,没有任何一种单独的方法,无论是统计的方法,深度学习的方法,或者逻辑的方法,可能解决我们现在面临的问题。只有三种方法综合起来之后才可能。我经常会遇到有人会问我这个问题,他说:我现在要做一个知识图谱的应用,该不该用图数据库。问这个问题本身是第一个危险信号,我是不是该用图数据库是第二个危险信号。如果要从这种角度来问问题的话,那么这个项目 90% 会失败,因为它不是从问题出发,而是从方法出发。这是我们一定要避免的风险。
第四个就是面向大问题还是小问题。我们一开始想的其实都是一些大问题,语义搜索是一个很大的问题。当然我们一开始讲设想,就像 Tim Berners-Lee 在《科学美国人》那篇文章里面所设想的问题,实际上是非常大的问题,作为一个领域的规划这是必要的。但是当我们在实践的时候,我们难以从很大的问题入手。我最近也跟一些公司的人聊过,他们的这种项目大部分最后都是干了两年、三年之后无疾而终,包括我同一期的那些同学们、同事们就是在 2006 年、2007 年、2008 年毕业的那帮博士们,他们进了公司之后,大部分当然是转行了,但有少部分很幸运的,去到一些公司,它们说我们有个 Semantic Web Group,然后我进去做了,两年或者三年之后,这个组就解散掉了,为什么?你想一个企业,它一个 VP 升职的期限是多少?两年到三年。他两年到三年之内不成功,必须滚蛋。如果是一个大项目,它不能够为这个企业的主营业务上创造收入的话,是不可能持续下去的。国内也有一个非常大的一线互联网公司,要做金融知识图谱。去年年初的时候,从券商招了一个朋友过去,很兴奋说有 30 个人做这件事情,到了年底的时候,回来很沮丧地说,这个项目解散了,只剩下5个人,做不了。因为一年之内没有办法创造收入。那么当我们开始去做一个大的项目,面向一个大问题的时候,我们就会不可避免地遇到这种创新者的窘境。Semantic Web 技术是一个颠覆性技术,它很难从一个大的通用的系统开始,它一定是从非常小的,从几个人就可以做的事情开始,所以我们要面向小任务,而不是大任务来做。
最后一点,如何赢得人心?我从学术界出来进入企业界的时候,我感受到的最大的刺激是什么?就是钱的多少。当我们在学校里面的时候,比如说我们花很长的时间写个 proposal,成功率是多少,在美国的自然基金委员会项目是二十分之一,能拿到多少钱?30万美元,才两百多万人民币,现在国内的一个刚毕业的小孩,他可能一个天使项目就一千万人民币了。这个区别在哪里?我觉得一些科学家在某种程度上来说,缺少了 show 的能力,All business is show business。我们这种 Semantic Web 或者知识图谱这种领域,不是一个完全的科学的领域,而是一个应用的领域。如果我们不能够面向 VC, Funding Agency,或者大众解释清楚,用一些好的项目来做好 PR 的话,这个领域是不可能发展起来的。当初 IBM Watson 在开始做的时候,实际上他们玩了很多小花招,比如说他们做出来之后,他们找谁去做测试呢?国会议员,他们请国会议员来跟他们的系统来一起进行 PK,然后赢得了国会议员。实际上这是个非常好的 PR。Tim Berners-Lee 当初推广 Web 上花的力气,要比他开发 Web 多多了。他后来推广语义网,去 TED 大喊“Raw Data Now!”,也是充分发挥了“show”的能力。要向 Tim 学习。
这是上面我思考的五个问题。其实还有更多的问题,因为整个领域往前发展,虽然已经过去25年了,但未来还有很漫长的路,从 Tim Berners-Lee 一开始的设想,到我们最终把它实现,这种互联整个世界的知识的愿望,可能还要经过一代人的时间,等到今天的很多年轻人的孩子也像你们这么大的时候,我们能够实现这个愿望。
我把 Web 从 1990 年开始的 50 年的历史,分为 5 个阶段,或者说五代,如下图。
前面这 2.5 代 Web,我们可以说已经实现了。就是第一代的 Web,文档的 Web;第二代的 Web,社会 Web;还有半个 Data Web,现在以知识图谱的方式。
这里我要稍微吐一点槽,我觉得 Social Web 这个词,中文里头把它翻译成社交网络是不对的。因为 Social 反映的是社会,它不仅仅是社交关系,而是整个社会生活的映射,它不仅仅是人和人之间谁认识谁这样一种关系。这是 Web 从文档走向真实社会的第一步。后面这 30 年时间,我们都将不断地深化这个过程。
过去的这几年,大家听到的最多的一个词是大数据。大数据和 Web 的结合,就产生了这样一个 Data Web。我们的数据已经多到了人力完全没有办法处理的程度,所以说我们才需要用机器来帮助我们提高效率。比如说今日头条是什么,今日头条就是文档的过滤,文档的分发,这个是我们要用机器来做的。我们最近也在和一些社区合作,用人工智能的技术,来帮助社区进行管理,进行各种社区的信噪比的提升。所以这是机器可以帮助我们很好地完成的,比如说像搜索,谷歌和百度现在都有他们的 Semantic Search。又比如说像动作代理的形成,Siri 就是这种。还有智能音箱也是这样一种个人代理,像 Amazon 的 echo。在金融上,我们可以有自动化报告、智能投顾。所有这些东西都是在有了结构化数据之上,我们可以进行的一些自动化。
再下面一步,我们自动化之后就是智能化,在自动化这个层面上,我们用比较学术化的话来讲,就是我们可以处理好这种实体的,属性查找和短程关系的查询,在这个层面上,是 2020 年之前我们能够完成的事情。但是我们想真正做好长程关系的查找,包括规则的建模,包括策略的建模,包括真正的所谓语义级的这种自然语言级的问答,我觉得两三年时间,三四年时间肯定是不够的,肯定还要十几年的时间,到 2030 年的时候,可能能实现这一点。那到了这一点我们就有了 Intelligent Web。我们现在做金融应用,我们的设想就是到了 2030 年的时候,真正的那些高级的分析师,他们一半以上工作都可以被机器取代了。
最后一步就是走到了 2040 年的时候,我把它称为 Meme 的网络,实际上也就是 Tim Berners-Lee 讲的社会机器,就是把整个人类社会的知识能够互联在一起存在。
这里涉及到一个概念叫 Social Machine,这个概念是 Tim Berners-Lee 1999 年的时候提出来的。这个概念是说,我们用机器和人在一起构成一个系统,人擅长做什么呢?人擅长做有创造性的工作,机器擅长做那种机械性的,反复的简单重复劳动。我们把人和机器在一起构造成一个完整的系统,叫 Social Machine。上面这本书是 Tim 的好友、我的导师 Jim Hendler 写的新书《Social Machines》,具体阐述了他的思考的落地。在长期,文因互联就是一家致力于实践 Social Machine 的公司。
这个图总结了我上面所说的,在我看来 Web 分为五个阶段,对应于 Tim Berners-Lee 讲的三件大的任务上。Tim Berners-Lee 大概 30 年前就开始思考这些问题。从他的规划来看,从他当时的 proposal 开始可能要花 50 年的时间,到 2040 年,把整个这样一个愿景实现。
Web 是一个伟大的征程。Tim Berners-Lee 获得图灵奖,不仅是他个人的荣誉,也是对万维网、语义网界千千万万科学家和工程师的认可。Web 的下半场,互联世界的知识,有可能取得比过去 25 年更大的成绩。互联、开放和自由的精神终将冲破一切障碍,融合全人类为一体。
1994 年,Tim Berners-Lee 离开欧洲到美国去建立 W3C。他说:“我知道我必须到互联网的引力中心去”。今天,这个引力中心正在向中国转移。Web 的下半场,中国无疑将发挥更大的作用。