编者按:过去4年,大家无疑已经注意到大范围的日常技术在质量方面已经取得了巨大突破。这背后基本上都有深度学习的影子。到底什么是深度学习?深度学习是如何发展到今天的?这一路上它都经历了哪些关键时刻?Roger Parloff的这篇深度学习简史可以让我们全面了解。鉴于篇幅较长,我们分上下两篇刊出,这是下篇。
人工智能革命:为什么深度学习会突然改变你的生活?(上)
Hinton是这样解释神经网络的基本思路的。假设一个神经网络正在解析一幅有几只鸟在里面的摄影图像。“那么输入就是像素的形式,而第一层单元就会检测边缘。边缘的一边是黑的,另一边是亮的。而下一层神经元则会对第一层发送过来的数据进行分析,学会检测“像棱角这样的东西,也就是两个边缘合成了一个角度。”比方说,这些神经元的其中一个可能会对鸟嘴的角做出强烈响应。
下一层“可能会寻找更复杂的结构,比如围成圆圈的一组边缘。”这一层的神经元可能会对鸟的头部做出响应。再高一层的神经元可能会在类似头部的圆圈附近检测鸟嘴状的角。Hinton说如果发现的话“这可能是鸟头相当好的线索。”每一个更高层的神经元都会对更复杂抽象的概念做出响应,直到最顶层相当于我们“鸟类”概念的其中一个神经元给出答案。
然而,要想学习的话,深度神经网络需要的不仅仅是按照这种方式在各层间传递消息。它还需要想办法看看自己是否在顶层获得了正确的答案,如果没有的话,就要向下返回消息,以便低层的类神经元单元可以调整自己的激活状态来改进结果。学习就是这样发生的。
1980年代早期时,Hinton正在对此问题进行攻关。同样在努力的还有一位法国的研究人员,他的名字叫做Yann LeCun,当时他刚在巴黎开始自己的毕业设计。LeCun无意间发现了Hinton1983年的一篇论文,里面谈的正是多层神经网络。LeCun 回忆道:“那些术语都没有正式提及,因为在当时要是提到‘神经元’或者‘神经网络’的话论文都很难发表。所以他用一种比较含糊的方式写了那篇论文,好通过评委审查。不过我认为那篇论文超级有趣。”2年后2人见面并一拍即合。
深度学习史的关键时刻,1989至1997:1)1989年,当时在贝尔实验室的法国研究学者Yann LeCun开始了一种神经网络的基础性工作,这种神经网络后来成为了图像识别的关键;2)1991年,德国研究学者Sepp Hochreiter和Jürgen Schmidhuber开创了一种带记忆功能的神经网络,后来证明这种神经网络用于自然语言处理尤其出色;3)1997年,IBM的深蓝超级计算机用传统AI技术击败了国际象棋世界冠军卡斯帕罗夫。
1986年,Hinton与两位同事写出了一篇原创性的论文,他们在论文中给出了错误修正问题的算法解决方案。LeCun说:“他的论文基本上奠定了第二波神经网络浪潮的基础。”此文再次点燃了对该领域的兴趣。
1988年,师从Hinton攻读完博士后之后,LeCun跑到了贝尔实验室,此后10年,他完成的基础性工作至今仍为大多数的图像识别任务使用。在1990年代,当时还是贝尔实验室子公司的NCR把一台采用神经网络的设备给商用化了,该设备在银行得到了广泛应用,据LeCun说,它可以识别支票上的手写数字。与此同时,两位德国的研究学者,现在在林茨大学的Sepp Hochreiter以及瑞士AI实验室主任Jürgen Schmidhuber独立做出了一种不同的算法,这一算法在20年后的今天成为了自然语言处理应用的关键。
尽管取得了所有这些跃进,但到了1990年代中期,因为受制于当时的计算能力,神经网络又再度失宠,被其他更高效的机器学习工具抢走了风头。这一情况持续了将近10年,直到计算能力又提升了3到4个数量级以及研究人员发现了GPU加速的秘密之后才开始改观。
深度学习史的关键时刻,1990年代至2011年:1)1990年代中期,神经网络被其他机器学习技术抢走了风头;2)2007年,李飞飞创立了ImageNet,开始汇编一个带标记图像多达1400万的数据库用于机器学习研究;3)2011年,微软引入神经网络来进行语音识别;4)IBM的Watson用AI击败了2位Jeopardy智力竞赛冠军。
但还缺了一样东西:数据。尽管互联网充斥着各种数据,但大部分数据——尤其是图像数据——都没有标记,而标记是训练神经网络之需。幸好有斯坦福AI教授李飞飞的适时介入。她在一次接受采访时说:“我们的愿景是大数据将改变机器学习的运作方式。数据驱动学习。”
2007年,她推出了ImageNet,这个免费数据库涵括了超过1400万张带标签的图片。2009年ImageNet上线,次年她创立了一项一年一度的竞赛来激励并发布计算机视觉方面的突破。
到了2012年10月,当Hinton的两位学生赢得该项竞赛时,情况已经变得了然:深度学习来了。
深度学习史的关键时刻,2012至2013年:1)2012年6月,Google Brain发布了“猫实验”的结果,它的一个神经网络在观察了1000万张不打标签的YouTube图像之后,自我训练出识别猫的本领;2)8月,Google引入神经网络进行语音识别;10月,Hinton的2位学生设计的神经网络以绝对优势赢得了ImageNet竞赛胜利;3)2013年5月,Google用神经网络改进了照片搜索功能。
此时公众也多少听说过一点深度学习的事情了,不过原因是另一个事件。2012年6月,Google Brain发布了一个略为怪异的项目的结果,这个项目也就是现在俗称的“猫实验”。实验结果在公众当中引起了有趣的共鸣,一下子在社交网络中流行起来。
这个项目实际上探索了深度学习的一个悬而未决的问题,即所谓的“无监督学习”。目前商用的几乎所有深度学习产品采用的都是“有监督学习”,这意味着神经网络是利用带标签数据(比如ImageNet汇编的那些图像)来训练的。相反“无监督学习”模式下,神经网络拿到的是不带标签的数据,它要通过观察来寻找重复模式。研究人员将来肯定想掌握无监督学习,因为到那时候机器就可以通过目前无用的海量数据来自行了解世界——也就是说几乎仅凭一己之力来弄懂世界,就像婴儿一样。
深度学习史的关键时刻,2014至2016年:1)2014年1月,Google以6亿美元收购了DeepMind,一家结合了深度学习与强化学习的初创企业;2)2015年12月,微软的一个团队利用神经网络在ImageNet挑战中胜过了人类;3)2016年3月,DeepMind的AlphaGo利用深度学习以4胜1负的战绩击败了围棋世界冠军李世石。
在猫实验中,研究人员给一个大规模的神经网络(超过1000台计算机组成)展示了从YouTube视频随机截取的的1000万张未打标签的图像,然后就让软件自己折腾。等一切尘埃落定时,他们检查了最高层的神经网络,发现其中一个对猫的图片做出了强烈响应。当时是Google Brain项目领导的吴恩达说:“我们还发现一个神经元对人脸做出了非常强烈的响应。”
但是结果也令人困惑。比方说,“我们并没有发现有神经元对车做出强烈响应,还有大量神经元我们没法分配英语单词。所以这事儿挺难的。”
这次实验引起了轰动。但无监督学习仍然没有解决——这个挑战被留给未来。
不奇怪的是,迄今为止大部分商用的深度学习应用都是Google、微软、Facebook、百度以及Amazon这样的大公司的——这些公司掌握了深度学习计算必须的海量数据。许多公司在试着开发更现实且有帮助作用的“聊天机器人”,一种自动化的客服代表。
深度关注深度学习的四大巨头
2011年Google推出了聚焦深度学习的Google Brain项目,并在2012年中引入神经网络用于语音识别产品,2013年3月,他们招来了神经网络的先驱Geoffrey Hinton。现在Google进行中的相关项目超过了1000个,范围涵括搜索、Android、Gmail、照片、地图、翻译、YouTube以及无人车。2014年,Google收购了DeepMind,今年3月,其深度强化学习项目AlphaGo击败了围棋世界冠军李世石,这是人工智能的一次里程碑事件。
微软
2011年上半年,微软把深度学习引入到自己的商用语音识别产品里面,其中包括了Bing语音搜索以及X-Box语音命令。该公司的搜索排名,照片搜索、翻译系统等现在都用上了神经网络。Lee说:“很难用语言表达出它所产生的普遍影响。”去年微软赢得了一项关键的图像识别竞赛胜利,今年9月,微软实现了有史以来最低的语音识别错误率:6.3%。
2013年12月,Facebook聘任法国神经网络创新者Yann LeCun来领导其新的AI研究实验室。Faebook利用神经网络来翻译每天超过40种语言的约20亿帖子,并称它的翻译每天有8亿用户使用。(约一半Facebook用户不讲英语)Facebook还利用神经网络进行照片搜索和组织,目前还在攻关一项功能,替视力受损者生成未标记照片的语音标题。
百度
2014年5月,百度挖来了Google Brain项目负责人吴恩达领导自己的研究实验室。百度的语音识别、翻译、照片搜索以及无人车项目都利用了神经网络。在中国这个移动优先且汉语难以输入的国度里,语音识别是关键。百度称,过去18个月语音接口的使用量已经增加到原来的3倍。
像IBM、微软这样的公司也在帮助商业客户在自身业务中采用有深度学习支持的应用——比如语音识别接口和翻译服务,而像AWS这样的云服务则提供了廉价的GPU驱动的深度学习计算服务——比如Caffe,Google的TensorFlow,以及Amazon的DSSTNE,这些给创新过程起到了润滑剂的作用,因为基于开放发表的规范做法,许多研究人员不等同行评审通过就马上在一个数据库上发布结果了。
许多最令人兴奋的深度学习应用尝试发生在医疗领域。A16Z负责生物投资的Vijay Pande说,我们已经知道神经网络非常擅长图像识别,“而医生做的很多事情都跟图像识别有关,无论是放射科、皮肤科、眼科等等都得看片。”
深度学习与医疗
初创企业Enlitic利用深度学习分析X光照片、CT以及MRI扫描结果。其CEO Igor Barani实前加州大学放射肿瘤学教授,他说在检测和区分肺结节是良性还是恶性方面,Enlitic的算法表现比4位放射科医生都要好。
Merck 试图利用深度学习加速药物发现,旧金山初创企业Atomwise也有相同的想法。神经网络能检查3D图像(这些图像里面有成千上万的分子可能可以成为药物的候选),并且预测它们在阻断病原体机制的适合度。这些公司正在利用神经网络来改进人所做的事情;有的甚至能做人所不能为。27岁的计算生物学博士Gabriel Otte创办了Freenome,旨在通过血样诊断癌症。它会在血液中检查死亡后被细胞喷出的DNA片段。他利用深度学习让计算机找到脱细胞DNA与某些癌症之间的关联。Otte说:“我们看到了一些此前癌症生物学家尚未归类的新颖特征。”
当A16Z正在考虑是否对Freenome进行投资时,A16Z的Pande给Otte提供了5份盲样,其中2份是正常的,而另外3份则是癌性的。结果Otte 5份都答对了。于是他们决定进行投资。
放射科医生一生可能会看成千上万张X光片,但计算机的观看量却可以百万计。Pande说:“计算机能更好地解决这一图像问题并不难以想象,因为它们消化吸收的数据比人多太多了。”
其潜在优势不仅仅是精确度更好分析更快,还包括分析的大众化。随着技术成为标准,最终所有病人都将受益。
当深度学习以尚未想到的方式集成到其他人工智能技术的整个工具箱时,我们也许就能感受到它的最大影响。比方说,Google得到DeepMind通过结合深度学习和强化学习就已经取得了令人吃惊的结果。这两者结合的产物AlphaGo在今年3月击败了围棋世界冠军李世石,被广泛认为是人工智能里程碑式的成就。AlphaGo跟1997年击败国际象棋冠军卡斯帕罗夫的IBM深蓝不一样,它既没有决策树方面的编程,也没有如何评估棋盘位置的方程式,或者是假定的规则。DeepMind CEO Demis Hassabis 说:“AlphaGo基本上是靠左右手互搏和观察职业棋局来下棋。”(训练期间AlphaGo跟自己下了100万盘棋)
游戏也许看起来像是一种人为设置。但Hassabis认为同样的技术可以运用到现实世界问题上。实际上,今年7月Google报告称,通过利用类似AlphaGo的技术,DeepMind把Google数据中心的能效提升了15% 。Hassabis说:“数据中心可能有120个不同的变量。你可以改变风扇、打开窗户、改变计算机系统,这些都是耗电的地方。你从传感器、温度计等获得数据。这就像围棋一样。通过试错,你可以学会怎么走才对。”
“所以这是很好的。你每年可以节省上千万美元,而且对环境也很好。全球的数据中心消耗了大量电能。现在我们打算进一步铺开。甚至应用到国家电网这种规模。”
聊天机器人当然也不错。但那只是一个很酷的app罢了。