UMass和Adobe联合发声：你以为的魔法，不只是你以为

转载时间：2022.04.28（原文发布时间：2020.06.02）

转载作者：36氪企服点评小编

阅读次数：56次

编者按：本文来自微信公众号“将门创投”（ID:thejiangmen），36氪经授权发布。

From: Arxiv

编译：Iris

如果你是个漫画家，是否幻想过画上的主角会变成真人，就像韩剧《W》中的那样，与你展开一场奇幻浪漫之旅？也许你是个魔法迷，一定体验过环球影城的霍格沃茨城堡，骑着扫把飞快穿越过长长的走廊，而墙上画像中的人物真的在朝你挤眉弄眼、与你对话。

这一切听起来“就像是一场梦，醒来还是很感动”?BUT！爱搞事情的马萨诸塞州大学（UMass）和Adobe研究院联合开发的MakeltTalk真能让你画的静止作品动起来，让静态的人物开口说话！

Knock Knock! 叩开动态世界的大门

今天要介绍的主角：MakeItTalk，能将单一输入的面部图像和音频进行分析，根据人物说话的频率来生成动图。这个动图甚至能应用于多种你所意想不到的静态物体身上：电池插座、梵高自画像、小巫师的海报……只有你想不到，还没有MakeltTalk无法动态化的图像。

UMass和Adobe联合发声：你以为的魔法，不只是你以为

哈利波特在朝你念咒

UMass和Adobe联合发声：你以为的魔法，不只是你以为

这样太萌了吧！

UMass和Adobe联合发声：你以为的魔法，不只是你以为

Hey! 梵高想和你谈谈

UMass和Adobe研究院已经找到让二维和3D图片开口说话的方法，那就是利用MakeltTalk通过分离影像和音频之间的关系数据集，分别根据音频内容模拟嘴唇附近的肌肉运动和根据影像来和音频同步，从而创建一种直接映射，构成人物的说话神态和动作。

UMass和Adobe联合发声：你以为的魔法，不只是你以为

MakeltTalk模型架构

这种方法的关键在于将输入音频信号中的内容和人物面部表情动态分离出来，以产生与说话节奏和嘴形相对应的头部动画。它还有一个至关重要的组成部分，那就是对面部表情符号加以预测，模拟出人物的下一步表情动作。

研究团队使用的方法步骤如下：

• 引入一种新型深度学习模型来预测面部动作符号，从语音信号捕捉和模拟嘴唇、下巴、眉毛、鼻子和头部姿势；

• 在动力学的基础上，解码语音内容和说话人的动作；

• 提出两种图像合成方法，分别用于矢量化的卡通图像和真实的自然人脸图像，经过训练的数据库会被递归，进入下一轮的动作模拟；

• 最后，为头部动画模拟的数值评估提出一套定量指标。

对于矢量化的图像，团队采取基于德劳内三角剖分(Delaunay triangulation)的换脸方法，在预测面部运动特征点后，给出一个二维动态图像。

UMass和Adobe联合发声：你以为的魔法，不只是你以为

德劳内三角剖分二维换脸动态化例图

左：动态化前；右：动态化后

而针对现实真人图像，团队则采用图像转换网络(Image2Image Translation)将真人面部图像和预测得到的特征点直接动态化，尽量不丢失原图特征，使动图更立体真实。

团队首先提取了说话角色的动态模型，它最大化了同一说话人不同话语之间的嵌入相似性，同时最小化了不同说话人之间的相似性。利用单层MLP将动图维数从256降至128，可以提高面部动画的泛化效果，以进一步调整每帧的标识度。更具体地说，在训练过程中，语音信息会被逐步调整，以匹配头部运动和面部表情动态。

图像输入源作为s参数，音频输入源作为p~t参数，以长短期人工记忆神经网络(LSTM)为框架，团队得出了这样的模拟计算公式：

UMass和Adobe联合发声：你以为的魔法，不只是你以为

值得一提的是，与语音内容模块相比，动态模块更多地依赖于帧数捕捉，以产生更自然的头部动作和面部表情。这是因为音素通常只持续几十毫秒，但头部的运动，例如头部从左向右摆动，可能持续一秒钟或几秒钟，比这长好几个数量级，因此准确的帧数捕捉至关重要。

为了准确捕获动态帧，团队采用了一个自主意识网络(Self-aware Animation)，自注意层能输出加权组合学习帧，时间轴分配给每个帧的权重是通过一个兼容函数来计算的，多层感知机制(MLP)可以具象出每帧的结束点，给出每帧的最终标记yt。在这个步骤，团队给出的公式如下：

UMass和Adobe联合发声：你以为的魔法，不只是你以为

经过大量数据喂养，MakeltTalk产出的动图已能够应用于多种途径：电影配音、视频会议、快速静图动态化……这一次，让你喜欢的画作真切地动起来与你交谈，这样的魔法，不再只是在美梦中才能捕捉。就像下图所展现的，有了电影剧照和MakeltTalk，美国队长系列游戏在制作上或许会少走一些繁复程序，而有了一张名人gif，让他直接空降Zoom给你开会也不是不可能。

UMass和Adobe联合发声：你以为的魔法，不只是你以为