专访悉尼大学教授陶大程博士：弱人工智能时代，如何让机器准确识别一个人？

转载时间：2021.06.24（原文发布时间：2016.12.09）

289

转载作者：36氪企服点评小编

阅读次数：289次

如果说你是这两年才闻及人工智能一词，那么只能证明你Out了。因为早在1956年，以麦卡赛、明斯基、罗切斯特和申农等为首的一批年轻科学家，就已经共同研究和探讨用机器模拟智能的一系列问题，并首次提出了“人工智能”这一说法，也标志着“人工智能”这门新兴学科的正式诞生。

但很遗憾，人工智能发展了这么多年，今天依然处于弱人工智能的阶段。值得幸运的是，支撑人工智能的大数据，清晰的领域界限，顶尖的AI科学家和科技公司，都在推动着人工智能进程的快速发展。

近日，36氪就采访到悉尼大学教授陶大程博士。作为人工智能和信息科学领域国际知名学者，陶博士已当选为欧洲科学院院士、电气与电子工程师学会(IEEE)会士，并获得澳洲国家科学最高荣誉尤里卡奖。他所研究的两大领域是机器视觉与机器学习，研究的问题包括大规模图像数据的检索与分类、人脸识别与动画、精细化分类、人体姿态估计、行为分析、事件检测、多视角学习、多任务学习、标签噪声模型、矩阵分解、特征工程等。

不再需要设置密码，指纹便可以解锁手机；不必携带银行卡，刷脸即可完成支付；无需键盘提交问题，说出来，答案就告诉你。人工智能的目的是为了更好地服务人类。其中最重要的一环便是，如何让机器准确识别一个人。

“刷脸”时代还有多远？

手机 “刷脸”支付、“刷脸”开机等各种“刷脸”服务，其核心技术便是计算机视觉领域颇为大热的人脸识别。最早的人脸识别是以图像里面人脸器官的尺寸作为特征进行匹配。后来出现了众多基于表观的特征，又引入了一些统计的方法，例如主成分分析、变形模板和后来的线性判别分析等。2007年左右发布的LFW数据库包含有大量自然真实场景下的人脸图像，传统特征和分类器的方法不再奏效。但随着深度学习技术和大数据的引入，LFW数据库上的人脸识别准确率目前已经可达到99%以上。

那么现有的人脸识别技术是否已经攻克了所有核心问题呢？

陶博士简析了近年来很多与人脸识别相关的国际比赛，包括测试人脸识别算法在监控场景下性能的PaSC比赛，和测试人脸识别算法进行海量人脸检索性能的Megaface比赛。比赛的结果表明现有的人脸识别算法在特定应用上仍需要进一步提升，才能够满足实际需求。

但是这并未打击我们对这一问题的研究信心。通过参加国际比赛，各科技公司和高校不断地展示自己的技术实力，同时也对人脸识别的研究起到了非常大的导向作用。例如，比赛结果可以帮助很多研究团队快速分析最新的研究问题和方法，及时调整研究方向和手段，使得这个领域可以以更快的速度发展。值得一提的是，陶博士的团队在2016 年获得了PaSC的冠军，在另一国际比赛ActivityNet（大规模活动识别挑战赛）中亦收获冠军。

人体姿态估计发展这么多年，为何依然普及难？

谈及人体姿态估计，陶博士表示这是一个很传统的话题，目前研究成果不是很乐观，一方面技术成本高昂，对硬件设备高度依赖，导致难以得到推广，另一方面达不到高精度的识别。

回顾人体姿态估计的发展史，目前工业界，尤其是电影制作行业，最常见的技术是Motion capture（动作捕捉），也就是通过穿戴多个关键点传感器，并记录其对应三维空间坐标来实现捕捉人体的动作姿态。但是，目前使用Motion Capture系统的成本非常昂贵，而且需要穿戴特殊装置才能使用，因此该技术难于得到推广。

近些年来，通过获取场景中的深度信息来估计人体姿态也有一定的进展，但该技术也依赖于硬件设备例如深度摄像机 Kinect或者双目摄像机，而且深度信息的获取易受环境因素影响（如光照等）；由于以上技术对硬件设备高度依赖，因此无法处理普通摄像机拍摄的视频。例如当我们需要通过估计Michael Jackson视频的姿态来辅助舞蹈训练，由于这些视频都是通过普通单目摄像机录制的，因此无法直接使用上述的那些方法。

在陶博士看来，人体姿态估计最大的技术难点在于如何去捕捉这些关节点的局部外观信息，以及如何通过学习他们之间的空间关系进行建模来实现精确定位。

因为就目前来看，人体姿态估计的方法主要是通过精确定位人体活动关节点的位置来估计人体的当前姿态，例如肩关节、髋关节。但是由于人的着装会变化，身体形态也会变化，偶尔还有遮挡的情况，这些因素都带来了极大的挑战。

在今年的刚结束的与Imagenet联合举办的COCO人体关键点定位比赛，Mean AP 在标准集的评估最高只有60.5%。值得一提的是，在这次比赛当中，陶博士的团队提交了一个快速模型的结果并获得第三的名次（仅次于CMU和谷歌）。赛后他们提交了正常模型的结果，在标准集的评估获得了61.8%的Mean AP。

多视角学习，让你不再重蹈“盲人摸象”

人体的很多特征都可以被用来进行个人身份的识别，包括指纹、虹膜、人脸以及步态等。然而哪种特征能够最好地帮助机器准确识别一个人呢？

在陶博士带领团队研究的过程中，他发现描述一个物体、一个事情的时候，可能需要多个角度来描述，这个就类似于盲人摸象，不同的角度会得出不同的结论。如果所有盲人能够进行有效的沟通，把所有的结论综合到一起，就有可能得到一个大象的完整刻画，这就是为什么要进行多视角学习。

“多视角学习的目的就是把这样多种不同类型的信息融合在一起：既要避免融合后的信息缺失，又要去除不同类型信息中的冗余和噪声，有效帮助机器更准确全面的去理解、处理我们的问题”，陶教授告诉36氪。

他同时表示，因为有不同类型的传感器，不同类型的特征，每个传统器或者每一个特征对于一个事件或者物体的刻画，实际上都是局限的。

“如果能够把这些信息有效的整合在一起，就能够给出一个物体或者一个事件合理、有效的刻画”，陶博士说。

陶博士的团队用理论分析表明组合多个视角将为完好空间的学习带来足够的信息。同时，借用鲁棒统计的知识，使得算法能够增强对野点的鲁棒性。“我们提出了一个新的多视角稳定性的定义，并在多视角稳定性和函数空间复杂度的基础上分析了算法的泛化能力。我们发现多视角之间的互补性能够有利于改善算法的稳定性和泛化性”，陶博士这样概括他们团队取得的最新进展。

但是所获取的、所采集到的数据可能会有噪声或损坏情况，这将导致不同的视角信息是不完整的或者是受干扰的。

为了让这种学术上的概念更容易理解，陶博士举了这样一个例子：