以保密为文化传统的苹果一贯不喜欢对外公布自己的研究成果。但不久前在机器学习的顶级大会NIPS上,苹果AI团队的负责人Russ Salakhutdinov宣布,公司已经允许自己的AI研发人员对外公布论文成果。这则消息刚刚宣布没多久,苹果就发表了自己的第一篇论文,题目叫做《通过对抗训练从模拟与无监督图像中学习》,论文描述了如何利用计算机生成的图像而不是真实图像改进算法识别图像能力的训练。此举一方面可以提高苹果在AI界的存在感,同时如果其研究成果出色的话,也能在学术界赢得同行认可,并吸引到AI方面的人才。
在机器学习研究方面,训练AI的图像识别能力需要有标签化的图像作为训练样本。标签化图像的来源一般有两种。一种是利用现实世界的图像。真实世界的图像数据则需要人工对计算机能看到的所有东西——比如树木、猫狗、人、汽车等都打上标签,显然这是件非常耗时耗力的事情。用来训练AI识别图像的标签图像数据库ImageNet就是耗费了大量人力用数年时间才建成的。另一种是利用合成图像(比如视频游戏里面的图像)。因为合成图像本身已经标签化并且经过注释,所以训练神经网络往往要比利用真实世界的图像更有效。但合成图像有一个问题,那就是算法学到的东西并不能总是适用于现实世界场景,导致神经网络从合成图像学到的东西很难泛化到真实图像上面。
为了改进利用合成图像数据训练的效果,苹果的研究人员采用了模拟+无监督的学习法来提升模拟图像对现实的仿真程度。他们利用了名为生成对抗网络的一个新版本,让两个神经网络相互对抗,最后产生照片级的图像。
模拟+无监督(S+U)学习。目标是得到一个改善合成图像真实性的模型。通过向神经网络提供未打标签的真实数据与合成图像进行对比,经过调优后生成的新的合成图像会吸收真实图像的一些特征,从而变得更为逼真。
论文作者包括Ashish Shrivastava、Tomas Pfister以及 Josh Susskind等。其中 Susskind是Emotient的联合创始人,这家AI初创企业可通过面部表情评估人的情绪,今年早些时候已经被苹果收购。
正如开头所述,苹果的第一篇AI论文标志着这家看重保密的公司迈出的一大步。在开源和开放成为主流的今天,随着各大巨头都在纷纷开放自己的机器学习技术来吸引人才、打造生态体系,苹果过去的文化显然已经不能跟上整体的步伐,及时作出改变是可喜的调整。