计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。
简单地讲,当时无论是做语音识别、机器翻译、图像识别,还是自然语言理解的学者,分成了界限很明确的两派,一派坚持采用传统的人工智能方法解决问题,简单来讲就是模仿人,另一派在倡导数据驱动方法。这两派在不同的领域力量不一样,在语音识别和自然语言理解领域,提倡数据驱动的派比较快地占了上风;而在图像识别和机器翻译方面,在较长时间里,数据驱动这一派处于下风。
这里面主要的原因是,在图像识别和机器翻译领域,过去的数据量非常少,而这种数据的积累非常困难。图像识别就不用讲了,在互联网出现之前,没有一个实验室有上百万张图片。在机器翻译领域,所需要的数据除了一般的文本数据,还需要大量的双语(甚至是多语种)对照的数据,而在互联网出现之前,除了《圣经》和少量联合国文件,再也找不到类似的数据了。
在20世纪90年代互联网兴起之后,数据的获取变得非常容易。从1994年到2004年的10年里,语音识别的错误率减少了一半,而机器翻译的准确性提高了一倍,其中20%左右的贡献来自方法的改进,80%则来自数据量的提升。虽然在每一年,计算机在解决各种智能问题上的进步幅度并不大,但是十几年量的积累,最终促成了质变。
数据驱动方法从20世纪70年代开始起步,在八九十年代得到缓慢但稳步的发展。进入21世纪后,由于互联网的出现,使得可用的数据量剧增,数据驱动方法的优势越来越明显,最终完成了从量变到质变的飞跃。如今很多需要类似人类智能才能做的事情,计算机已经可以胜任了,这得益于数据量的增加。
全世界各个领域数据不断向外扩展,渐渐形成了另外一个特点,那就是很多数据开始出现交叉,各个维度的数据从点和线渐渐连成了网,或者说,数据之间的关联性极大地增强,在这样的背景下,就出现了大数据。
大数据的时效性其实不是必需的,但是有了时效性可以做到很多过去做不到的事情,城市的智能交通管理便是一个例子。在智能手机和智能汽车(特斯拉等)出现之前,世界上的很多大城市虽然都有交通管理(或者控制)中心,但是它们能够得到的交通路况信息最快也有20分钟滞后。如果没有能够跟踪足够多的人出行情况的实时信息的工具,一个城市即使部署再多的采样观察点,再频繁地报告各种交通事故和拥堵的情况,整体交通路况信息的实时性也不会比2007年有多大改进。
但是,在能够定位的智能手机出现后,这种情况得到了根本的改变。由于智能手机足够普及并且大部分用户开放了他们的实时位置信息(符合大数据的完备性),使得做地图服务的公司,比如Google或者百度,有可能实时地得到任何一个人口密度较大的城市的人员流动信息,并且根据其流动的速度和所在的位置,很容易区分步行的人群和行进的汽车。
由于收集信息的公司和提供地图服务的公司是一家,因此从数据采集、数据处理,到信息发布中间的延时微乎其微,所提供的交通路况信息要及时得多。使用过Google地图服务或者百度地图服务的人,对比六七年前,都很明显地感到了其中的差别。当然,更及时的信息可以通过分析历史数据来预测。一些科研小组和公司的研发部门,已经开始利用一个城市交通状况的历史数据,结合实时数据,预测一段时间以内(比如一个小时)该城市各条道路可能出现的交通状况,并且帮助出行者规划最好的出行路线。
仔细推敲英语中bigdata这种说法,我们不得不承认这个提法非常准确,它最重要的是传递了一种信息——大数据是一种思维方式的改变。现在的数据量相比过去大了很多,量变带来了质变,思维方式、做事情的方法就应该和以往有所不同。这其实是帮助我们理解大数据概念的一把钥匙。在有大数据之前,计算机并不擅长解决需要人类智能来解决的问题,但是今天这些问题换个思路就可以解决了,其核心就是变智能问题为数据问题。由此,全世界开始了新的一轮技术革命——智能革命。
在方法论的层面,大数据是一种全新的思维方式。按照大数据的思维方式,我们做事情的方式与方法需要从根本上改变。
要说清楚大数据思维的重要性,需要先回顾一下自17世纪以来一直指导我们曰常做事行为的先前最重要的一种思维方式一一机械思维。今天说起机械思维,很多人马上想到的是死板、僵化,觉得非常落伍,甚至「机械」本身都算不上什么好词。但是在两个世纪之前,这可是一个时髦的词,就如同今天我们说互联网思维、大数据思维很时髦一样。可以毫不夸张地汫,在过去的三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。今天,很多人的行为方式和思维方式其实依然没有摆脱机械思维,尽管他们嘴上谈论的是更时髦的概念。
那么,机械思维是如何产生的?为什么它的影响力能够延伸至今,它和我们将要讨论的大数据思维又有什么关联和本质区别呢?
不论经济学家还是之前的托勒密、牛顿等人,他们都遵循着机械思维。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然后再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。
后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:
第一,世界变化的规律是确定的,这一点从托勒密到牛顿大家都认可。
第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚。这一点在牛顿之前,大部分人并不认可,而是简单地把规律归结为神的作用。
第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践,这种认识是在牛顿之后才有的。
这些其实是机械思维中积极的部分。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者可预测性)和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似地,当我们给物体施加一个外力时,它就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。没有这些确定性和因果关系,我们就无法认识世界。
从牛顿开始,人类社会的进步在很大程度上得益于机械思维,但是到了信息时代,它的局限性也越来越明显。首先,并非所有的规律都可以用简单的原理描述;其次,像过去那样找到因果关系已经变得非常困难,因为简单的因果关系规律性都被发现了。另外,随着人类对世界认识得越来越清楚,人们发现世界本身存在着很大的不确定性,并非如过去想象的那样一切都是可以确定的。因此,在现代社会里,人们开始考虑在承认不确定性的情况下如何取得科学上的突破,或者把事情做得更好。这也就导致一种新的方法论诞生。
不确定性在我们的世界里无处不在。我们经常可以看到这样一种怪现象,很多时候专家们对未来各种趋势的预测是错的,这在金融领域尤其常见。如果读者有心统计一些经济学家们对未来的看法,就会发现它们基本上是对错各一半。这并不是因为他们缺乏专业知识,而是由于不确定性是这个世界的重要特征,以至于我们按照传统的方法——机械论的方法难以做出准确的预测。
世界的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。
反映出在信息时代的方法论:谁掌握了信息,谁就能够获取财富,这就如同在工业时代,谁掌握了资本谁就能获取财富一样。
当然,用不确定性这种眼光看待世界,再用信息消除不确定性,不仅能够赚钱,而且能够把很多智能型的问题转化成信息处理的问题,具体说,就是利用信息来消除不确定性的问题。比如下象棋,每一种情况都有几种可能,却难以决定最终的选择,这就是不确定性的表现。再比如要识别一个人脸的图像,实际上可以看成是从有限种可能性中挑出一种,因为全世界的人数是有限的,这也就把识别问题变成了消除不确定性的问题。
首先我们必须承认世界的不确定性,这样我们就不会采用确定性的思维方式去面对一个不确定性的世界。当我们了解到信息或者说数据能够消除不确定性之后,便能理解为什么大数据的出现能够解决那些智能的问题,因为很多智能问题从根本上来讲无非是消除不确定性的问题。对于前面提到的大数据的三个特征,即数据量大、多维度和完备性。在这个基础之上,我们就能够讲清楚大数据的本质。
先谈谈数据量的问题。在过去,由于数据量不够,即使使用了数据,依然不足以消除不确定性,因此数据的作用其实很有限,很多人忽视它的重要性是必然的。在那种情况下,哪个领域先积攒下足够多的数据,它的研究进展就显得快一些。具体到机器智能方面,语音识别是最早获得比较多数据的领域,因此数据驱动的方法从这个领域产生也就不足为奇了。
关于大数据多维度的重要性问题,可以从两个角度来看待它。第一个视角是「互信息」,为了获得相关性通常需要多个维度的信息。比如我们要统计「央行调整利息」和「股市波动」的相关性,只有历史上央行调整利息一个维度的信息显然是不够的,需要上述两个维度的信息同时出现。第二个视角是所谓的「交叉验证」,我们不妨看这样一个例子:夏天的时候,如果我们感觉很闷热,就知道可能要下雨了。也就是说,「空气湿度较高」和「24小时内要下雨」之间的互信息较大。但是,这件事并非很确定,因为有些时候湿度大却没有下雨。不过,如果结合气压信息、云图信息等其他维度的信息,也能验证「24小时内要下雨」这件事,那么预测的准确性就要大很多。
最后,我们从信息论的角度来看看数据完备性的重要性。在大数据时代,在某个领域里获得数据的完备性还是可能的。比如在过去把全国所有人的面孔收集全是一件不可想象的事情,但是今天这件事情完全能做到。当数据的完备性具备了之后,就相当于训练模型的数据集合和使用这个模型的测试集合是同一个集合,或者是高度重复的。在这种情况下,就不会出现覆盖不了很多小概率事件的灾难。
这样数据驱动才具有普遍性,而不再是时灵时不灵的方法论。
由此可见,大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变带来质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。
今天,各个搜索引擎都有一个度量用户点击数据和搜索结果相关性的模型,通常被称为「点击模型」。随着数据量的积累,点击模型对搜索结果排名的预测越来越准确,它的重要性也越来越大。今天,它在搜索排序中至少占70%~80%的权重,也就是说搜索算法中其他所有的因素加起来都不如它重要。换句话说,在今天的搜索引擎中,因果关系已经没有数据的相关性重要了。
当然,点击模型的准确性取决于数据量的大小。对于常见的搜索,比如「虚拟现实」,积累足够多的用户点击数据并不需要太长的时间。但是,对于那些不太常见的搜索(通常也被称为长尾搜索),比如「毕加索早期作品介绍」,需要很长的时间才能收集到「足够多的数据」来训练模型。一个搜索引擎使用的时间越长,数据的积累就越充分,对于这些长尾搜索就做得越准确。微软的搜索引擎在很长的时间里做不过Google的主要原因并不在于算法本身,而是因为缺乏数据。同样的道理,在中国,搜狗等小规模的搜索引擎相对百度最大的劣势也在于数据量上。
当整个搜索行业都意识到点击数据的重要性后,这个市场上的竞争就从技术竞争变成了数据竞争。这时,各公司的商业策略和产品策略就都围绕着获取数据、建立相关性而开展了。后进入搜索市场的公司要想不坐以待毙,唯一的办法就是快速获得数据。
比如微软通过接手雅虎的搜索业务,将必应的搜索量从原来Google的10%左右陡然提升到Google的20%〜30%,点击模型估计得准确了许多,搜索质量迅速提高。但是即使做到这一点还是不够的,因此一些公司想出了更激进的办法,通过搜索条(Toolbar)、浏览器甚至输入法来收集用户的点击行为。这种办法的好处在于它不仅可以收集到用户使用该公司搜索引擎本身的点击数据,而且还能收集用户使用其他搜索引擎的数据,比如微软通过旧浏览器收集用户使用Google搜索时的点击情况。
这样一来,如果一家公司能够在浏览器市场占很大的份额,即使它的搜索量很小,也能收集大量的数据。有了这些数据,尤其是用户在更好的搜索引擎上的点击数据,一家搜索引擎公司可以快速改进长尾搜索的质量。当然,有人诟病必应的这种做法是「抄」Google的搜索结果,其实它并没有直接抄,而是用Google的数据改进自己的点击模型。这种事情在中国市场上也是一样,因此,搜索质量的竞争就成了浏览器或者其他客户端软件市场占有率的竞争。虽然在外人看来这些互联网公司竞争的是技术,但更准确地讲,它们是在数据层面竞争。
很多时候,落后与先进的差距,不是购买一些机器或者引进一些技术就能够弥补的,落后最可怕的地方是思维方式的落后。西方在近代走在了世界前列,很大程度上靠的是思维方式全面领先。
机械思维曾经是改变了人类工作方式的革命性的方法论,并且在工业革命和后来全球工业化的过程中起到了决定性的作用,今天它在很多地方依然能指导我们的行动。如果我们能够找到确定性(或者可预测性)和因果关系,这依然是最好的结果。但是,今天我们面临的复杂情况,已经不是机械时代用几个定律就能讲清楚的了,不确定性,或者说难以找到确定性,是今天社会的常态。在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
大数据思维和原有机械思维并非完全对立,它更多的是对后者的补充。在新的时代,一定需要新的方法论,也一定会产生新的方法论。
在有大数据之前,我们寻找一个规律常常是很困难的,经常要经历「假设——求证——再假设——再求证」这样一个漫长的过程,而在找到规律后,应用到个案上的成本可能也是很高的。但是,有了大数据之后,这一类问题就变得简单了。
比如通过对大量数据的统计直接找到正常用电模式和纳税模式,然后圈定那些用电模式异常的大麻种植者,或者有嫌疑的偷漏税者。由于这种方法采用的是机器学习,依靠的是机器智能,大大降低了人工成本,因此执行的成本非常低。在美国有大量类似的报道,在各种媒体上都可以看到。
在大数据出现之前,并非我们得不到信息直接的关联性,而是需要花费很长的时间才能收集到足够多的数据,然后再花费更长的时间来验证它,这也是过去大部分传统的企业对于细节数据的收集和处理不是很重视的原因,相比之下他们更看重经验和宏观数据。但是到了大数据时代,这些企业的观念也在慢慢转变。
亚马逊的优势在于它拥有顾客全面的信息。比如张三上周买了一台数码相机,之前他还购买了几个玩具,同一个地址的李四前两天买了婴儿用的浴液。那么可以联想到张三和李四是一家人,他们有个出生不久的婴儿,张三买数码相机或许是为了给孩子照相。他们或许会对在线冲印照片(并做成贺年卡),或者电子相框有兴趣。如果将他们的地址和美国个人住宅信息网站zillow.com联系起来,很容易了解到他们的住房价值,进而估计出他们的收入。这些条件是沃尔玛不具备的。亚马逊的第三个优势在于它的任何市场策略都能马上实现,比如它能够随时捆绑商品,并且随时调整价格进行促销;而美国所有的实体店,调整价格都需要在晚上关门之后进行,因此即使它们数据挖掘的速度和亚马逊一样快(当然这是不可能的),在市场上的反应也跟不上亚马逊这样的电商公司。
前面的几个例子无一不是先从大数据找到普遍规律,然后再应用于每一个具体的用户,并且影响到每一个具体的操作。以抓毒品种植和偷漏税为例,警察局或者税务局首先需要根据大数据了解用电或者纳税普遍的模式,然后要准确地估算出每一个地址正常的模式,这样就能够发现每一个异常的情况。
对于互联网公司的那些应用也如此,那些公司可以对每一个用户提供不同的服务,甚至做到每一次的服务都不相同。比如电商公司在用户浏览打印机或者电动牙刷时,如果发现他们在阅读产品介绍和评价,那么可能用户尚未完成购买,推荐相应的产品给用户是合理的;而当用户完成购买后,再搜索或浏览这些产品,推荐给用户打印机墨盒或电动牙刷头等耗材,就比推荐那些耐用产品本身更合理了。经常在亚马逊上购物的人对这一点会有体会,不仅不同的人看到的网页内容是不一样的,而且同一个人今天和昨天看到的内容也是不一样的,尤其是在完成一些购买行为之后。这种精细到每一次交易,甚至每一次内容展示的服务,在过去是想都不敢想的,但是靠大数据今天这已经变成了可能,而且它还代表着未来商业的趋势。
通过这件事我们也能进一步体会大数据完备性的特点。在过去,统计学家们一直试图寻找好的采样方法,以便在有限的样本中找到覆盖尽可能全的规律,但是在大数据时代,这些努力都不需要了,因此样本集可以等于全集。另外,我们还可以从这个案例中看到大数据时效性的特点。对于新的、过去没有见过的情况,Google的服务器反应是非常及时的,即在第二次就能把新鲜的数据提供给用户使用,这在大数据时代之前也是做不到的。
Google在数据上的优势,是大学和各个研究所并不具备的。即使是全球著名的汽车公司,包括丰田、大众和美国通用,也不具备如此多的数据。因此,它们虽然在自动驾驶汽车研制方面早起步几十年,但是很快就被Google超越。另外,计算机学习「经验」的速度远远比人快得多,这也是大数据多维度的优势,因此Google自动驾驶汽车的进步才能如此快。这并非说明Google的科研能力超过了过去那么多大学、研究所和公司的总和,反而是体现出大数据的威力,以及采用大数据思维的重要性。
让我们谈谈金风公司的故事。在和我进行了多次关于大数据时代商业模式的探讨后,该公司决定向IBM学习,在商业模式上做根本性的转变,主营业务从风力发电机的制造,转变成发电设备的运营和服务。当然,并非什么公司想做服务就能做得好并赚到钱,金风公司有底气转型,源于其在宏观上对全球风能市场的了解,在微观上对每一台风能发电机运营细节的了解,加上通过大数据对发电机可能出现的问题的分析,能够比一般工程公司更有效地维护发电机。至于发电机的生产,该公司只负责研制,然后将设备制造交给其他公司去做。这样一来,金风公司就在风力发电领域成功地复制了IBM服务的模式。大多数亚洲制造企业虽然在全球市场上占的份额不小,但是通常竞争的手段就是压低利润降价,最后把整个行业变得都没有利润。金风公司转型的做法,或许能给这些企业一些启发,当然如果没有大数据这样的机遇,这种转型是非常困难的。
与金风公司面临类似情况的还有诸多的电器生产厂商。这些电器无论是高端的还是低端的,厂家只能赚到一次钱,而且由于亚洲制造业同行相互压价,利润也不可能很高。为了解决利润的问题,一些对新技术敏感的公司想到了利用大数据和移动互联网来改变商业模式。
与前两次工业革命类似,虽然信息革命的代表产品是计算机处理器,但是并不需要每一家公司都生产处理器,甚至不需要每一家公司自己开发软件。今天大部分公司使用的处理器只有两个系列,即英特尔x86系列(加上AMD兼容产品)和英国ARM公司设计的RISC(精简指令集)处理器,因此计算机实际上可以被看成是一种资源,而大部分公司需要做的只是使用好这些资源而已。
我们回顾过去是为了展望未来。今后,由大数据引发的智能革命也将是以一种与前面几次技术革命类似的方式展开,如果我们用两个简单的公式来概括的话,那就是:
现有产业+大数据=新产业
现有产业+机器智能=新产业
摩尔定律和安迪-比尔定律到了智能手机时代照样适用,我们就不赘述了。
通过上述对历次技术革命中商业模式变迁的分析,我们可以得到这样三个结论:
首先,技术革命导致商业模式的变化,尤其是新的商业模式的诞生。其次,生产越来越过剩,需求拉动经济增长的模式变得不可逆转。同时,单纯制造业的利润越来越低,那些行业越来越没有出路。相反,人们对服务的需求越来越强烈。
在it时代,唱主角的公司逐渐从制造设备的IBM、爱立信、诺基亚和惠普等公司,变成了提供软件和服务的微软、甲骨文和Google等公司。最后,商业模式的变化既有继承性,又有创新性。工业革命导致了产品需要靠推销才能卖出去,第二次工业革命导致了广告业的兴起,推销的方式从展示变成了做广告,而这两者之间是有联系的。作为创新的一方面,第二次工业革命导致了商业链的出现;到了信息时代,商业链得到了发展,这是继承性的一面;而服务业的重要性突显,这是其创新性的一面。