AI 合成“独家仿真语音”，机器推销电话未来能以假乱真了

转载时间：2021.10.24（原文发布时间：2018.04.08）

228

转载作者：36氪企服点评小编

阅读次数：228次

编者按：接到过骚扰电话或者是拨打过客服电话吗？里面那生硬而死板的腔调是否让你顿时兴致全无？Y combinator支持的创业公司Voicery正在使用人工智能为品牌合成属于自己的独家语音，这种语音的效果听起来就像是真人发出的，而不是机器那冰冷的声音。它的成功在于其演讲学习能力，而非将读音简单地机械重组。尽管这一技术一经推出便炙手可热，但有关各方也在担忧其在法律和伦理层面可能引发的风险。本文作者Katharine Schwab，原文链接AI Is Giving Brands Eerily Human Voices。

AI 合成“独家仿真语音”，机器推销电话未来能以假乱真了

总部位于旧金山的初创公司Voicery虽然建立不过几个月，但首席执行官兼联合创始人Bobby Ullman表示，他已经收到了数百家公司的请求，这些公司都有兴趣开发属于自己的品牌语音。Voicery如此炙手可热，是因为它能够提供大多数公司可能在五年前还不知道的东西：定制的数字语音，而且效果听起来就像是真人而不是电脑发出来的。

Ullman是一名计算机科学家，曾在Palantir工作，他的联合创始人首席技术官Andrew Gibiansky在机器学习方面颇有经验，并在中国百度公司进行语音识别工作。这对搭档是儿时的朋友，他们把类似的想法向Y Combinator提了出来，然后在硅谷加速器项目的帮助之下，Voicery诞生了。

与你现在可能听到的客户服务电话中死板的语音不同，Voicery的人工合成语音拟人化十足，能够传达精心设计的情感，可以作为公司品牌的延伸。随着我们与公司之间的互动越来越多地从视觉上向口头上转移——多亏了Echo、Google Home以及其他自动客服系统——一个公司的声音、语调以及节奏都成为了品牌的新代言。

演讲学习而非读音重组

语音可以是一种强大的品牌，比如说Allstate里Dennis Haysbert的低沉语音就很具有标志性。不过，当Alexa讲笑话时，你可能会感觉她的发音古怪至极，毕竟想要合成语音（模仿人类的语言）用它们那死板的、机器式的节奏来传达人类讲话时的真实的情感还是有些强人所难。大多数的电脑语音还是使用被称为“衔接模型”的旧的语音合成方法，它需要一个配音演员录制200小时的演讲，然后把所有演讲获得的语音碎片化，最后重组成任何你需要说重新复述的语句。

Voicery的产品工作原理与上述不同。它只需要配音演员几个小时的演讲，就可以训练一个深度的神经网络来模仿这位配音演员的声音。整个过程，从表演到让他们阅读一系列的短语，实际上都是在训练电脑，这个大约需要花费两周的时间。而创建一个合成语音的神经网络模型只需要花费四天的时间。目前，Voicery有三种现成的合成语音，它们来自配音演员或公共领域的有声读物。

目前看来这一技术是相当了不起的。在Voicery的网站上，你可以做一个测试，在测试中你需要分辨出哪些声音是人的，哪些声音是机器的，猜对以后会有礼品相赠。我试了一试，结果表明，我有三分之一的概率无法分辨出那些声音到底是人工智能的还是人类的。

温情脉脉，情感充沛，富有魅力

对于那些希望确保自己的品牌在何时何地都保持同样风格的公司来说，这种技术带来的福音可谓是巨大的。你想想，如果你打电话给保险公司索赔时，电话的另一端的声音不是单调死板的而是亲切可人的，你会是什么感受？万一这声音还有可能是Allstate的Dennis Haysbert的，你会是什么感受呢？

“丰田在我们这里定制了自己的品牌语音”，Ullman表示，“以后自动驾驶汽车就会有声音、情感和性格了。这对你跟车之间的互动有很重要的意义。从现在到将来，我们在做一件里程碑式的事业。”

对于那些想要与用户建立起亲密关系的公司来说，语音的可信度和魅力性比你想象的重要得多。如果一个健康追踪公司的客户服务功能所发出的声音在鼓励你时听起来更像是朋友在一旁加油，而非计算机那冷冰冰的声音，也许你会对这个品牌有格外的好感。

与此同时，计算机化的语音限制了表达个性或多样性的空间。即使是Google Assistants和苹果的Siri的女性声音也缺乏太多的情感节奏，给人以“拒人千里之外”的感受。尽管不乏使聊天机器人和语音界面具有个性的尝试和努力，但计算机语音的合成质量还是无法使客户心满意足。

由于Voicery的技术合成的声音与真实的声音相差无几，除了广告以外的其他媒体总算可以在音效上有所改善了——比如自动播放的有声读物、制造更多的媒体音频甚至让电影配音变得更容易。“从书面到语音这个过程中你没法长时间听下去最主要的原因就是计算机的声音不仅死板而且无聊”， Ullman表示，“而我们现在的新技术，使得语音听起来更加真实，也更加愉悦。这项技术正在创造一个新的市场，它可以改变人们消费媒体的方式。”

谁的声音会被合成？

就像其他可以制作假视频的人工智能一样，对于初创公司应该合成什么样的声音存在伦理方面的争议。研究人员已经通过剪辑奥巴马入主白宫前后共八年时间里的真视频和真音频炮制出了假视频和假音频。Ullman打算为Voicery可以合成什么样的声音方面划一条不可逾越的红线。Ullman说:“随着这些技术工具的飞速发展，你必须关注道德问题，人们要保持对自己和语音的所有权，这个非常重要。”

到目前为止，该公司只与配音演员合作，这些演员会被告知他们的声音将被用来做什么。Voicery表明自己不会从媒体或电影中截取人们的声音（就像上述那位研究人员对奥巴马所做的那样），一部分原因在于这些声音的质量不够好，另一部分原因是该公司认为这种行为是不道德的。Voicery在自己的网站上声明，如果没有经过同意，它将永远不会合成和模仿他人的声音。

Voicery下一步将扩展业务，以满足它所面临的各种需求。最终，Ullman希望Voicery能够在各种语言中建立成百上千个现成的语音库——使之成为为任何需要使用合成语音的人服务的平台。除了这个语音库，他们还将与其他公司合作，创造出专属于某家公司的yuyin：这个B2B服务将是他们的主营业务。

就像人们在为聊天机器人构建起幽默的性格和独特的个性一样，Voicery的技术展示了声音是如何以全新的方式将自己嵌入到品牌中的。因为毕竟，当计算机从屏幕上走进我们生存的空间之中时，我们会希望有除了感觉或语音以外的其他方式跟它们进行互动。

原文链接：https://www.fastcodesign.com/90166206/the-future-of-branding-synthetic-voices-that-sound-100-human

编译组出品。编辑：郝鹏程。

本文来自翻译, 如若转载请注明出处。

[免责声明]

资讯标题： AI 合成“独家仿真语音”，机器推销电话未来能以假乱真了

资讯来源： 36氪官网