理工男是这个星球上的一个神奇物种,他们经常会被贴上低情商、木讷、耿直等标签。比如浙江大学计算机科学与技术学院的学生焦云皓,就在打游戏是的时候无情地对同学说了一句“你这样的水平如果是其他人,我才不带他玩呢”,然后顺利被同窗了16年的同学拉黑了……
但是理工男的脑洞一旦开起来也是无人可挡。比如被拉黑的焦云皓百思不得解,最终痛定思痛,下决心对“聊天杀手”这样的现象进行研究。接着,神奇的事情出现了:他开发出了一套基于AI技术的智能对话分析系统ConverNet。这个系统的功能定位也非常简单粗暴:
拒做聊天杀手,友谊天长地久。
拒绝做聊天杀手:理工男是怎么操作的?
ConverNet建立在深度学习神经网络之上,通过对大量文字聊天数据进行分析,试图从其中找到对话终结、聊不下去的原因。为了能够给ConverNet找到足够的学习数据,焦云皓在导师的帮助下找到了两个公开的海量数据库:Reddit-Treads和Movie Dialogs。这两个数据库分别以讨论组式的群聊内容和对白式的一对一聊天内容为主。在这些内容中,ConverNet着重针对两种聊天终止场景进行分析。一种是单聊中的聊着聊着没有话说,另一种则是群聊中某人发言之后出现冷场。
ConverNet的运行原理是对大量对话数据进行编码,寻找到聊天中断的“断点”,再利用LSTM神经网络单元对这些对话数据进行理解和特征提取,为那些被中断的尬聊对话提取共同特征。最终实现对对话是否会因尬聊而中断的概率预测。
在学习了一共接近20万组对话之后,ConverNet已经基本掌握了一些“聊天杀手”的特征,在测试中实现了80%的预测准确率。通过ConverNet人们还把握了一些尬聊规律,比如在单聊场合中,大段发送长文字可能会终结聊天,但在群体讨论时长文字反而会刺激群聊的积极性。
这套系统的首位受益人是焦云皓的老爸。经过分析,他的老爸总是大段大段地发送消息,与其他人显得格格不入;后来改发发表情包和短句子,结果聊天冷场的情况就少多了。
多场景应用:不止于让聊天继续
这个创意如果只停留在实验室里,充其量只能被看做是一场关于AI的人机交互的一种猎奇。我们需要看重的,更应该是它在现实应用场景中落地的可能。
既然是聊天系统,那么其首要落地场景应该集中在社交软件当中,如陌陌、探探等主打陌生社交的产品,用户的主要诉求基本都是通过沟通拉近彼此的关系。
在这类产品中光把两位用户匹配到对话场景中仅仅是个开始,帮助用户好好聊天才能更深入的满足用户诉求。在这时 ConverNet就可以发挥作用,在软件中植入对话实时指导功能。当用户编辑好要发送的内容的时候,系统可以自动根据聊天的场景给出具体的指导意见。
比如,当你输入“发个自拍看看”这种典型尬聊语句的时候,软件就会弹出“有百分之××的用户在发送该句的时候对话终止,确定要发送吗”的提示,然后给出获取照片的可能性方式。在这个过程中,ConverNet既能在很大程度上保证聊天的继续,也在一定程度上培养用户自身的语言表达习惯。
此外,将ConverNet落地于PUA(Pick up Artist)群体也是一个不错的选择。既然有那么多人愿意掏钱学习如何与异性交流,何不如利用ConverNet这类分析系统对聊天内容的正反案例进行分析,寻找搭讪过程中成功与失败的原因。甚至可以摸索出男女之间在不同的交往阶段的语言使用风格,掌握不同性格的个体在各个阶段的语言亲密度。比如什么时候可以说一些有吸引力的话,什么时候又需要保持一定的距离。在AI的帮助下,有的放矢地进行交流。到故事的最后,ConverNet在手,妹子我有。
不光是PUA,一切需要沟通艺术的地方都可以让AI发挥功效:销售、公关、客服……对于一切不会说话、说话磕巴、说话招人烦的人类,都可以对其整体对话数据进行分析,再作具体的针对性补短。
当然,想做到这一地步,需要涉及复杂的人类情感,AI必须要学习更多的数据、掌握强力的算法才有可能实现。
如果这些能够实现,便可以将ConverNet系统的运行逻辑迁移到智能家居场景当中,或许我们可以寻找到优化人机交互的新路径。
利用智能音箱作为接口,对家用电器进行唤醒是当下智能家居领域的一个基本操作。但在更多层面上,这种交互是一种单向的命令式交互,家居产品智能被动性接受指令,无法实现反向的主动参与。在这种情况下,用户跟智能家居就很难产生持续的交流意愿。
智能音箱可以通过不断地对用户语料的抓取分析,将语言字数与情绪、语言速度与情绪、语调高低与情绪进行结合,着重搜集任务未完成时的对话中断。然后,根据以上几个方面进行特征分析提取,再进行自我改进,以取得更优质的人机交互体验效果。
从梦想到现实:技术仍是亟待突破的壁垒
美好的东西总是令人向往,但前提是,这套ConverNet系统要解决以下几个问题。
首先是学习样本的数量不足。目前,ConverNet的数据学习数量只有二十万条左右,而在社交平台上,每天会有亿万组的对话产出。与之相比,二十万条的数据学习量只是九牛一毛。这样小范围数据上的准确率是否真的有应用价值,其实是存有争议的。
其次是对文本数据学习本身的局限。对于ConverNet来说,目前的模型完全是基于英语文字的学习。可在实际应用场景中,往往是文字+语音+表情包的综合打法,汉语中还会出现同音字替代、颜文字等复杂的情况。这些细节的变化很有可能会造成模型整体训练难度的增加。
最后还有隐私问题,想实现所谓的对用户对话是否会造成聊天终结的预测,一个必备前提就是对用户聊天内容进行分析。即使利用上端侧AI计算和内容脱敏,也难免会让用户有种隐私被AI“视奸”的毛骨悚然之感。
实际上,要达到让Convernet在日常中发挥实际作用的目的,除了解决以上几个方面的问题,还要考虑到语言发生的环境、语气问题等,并且通过多种算法的综合运用来协调处理一句话里包含的种种要素。从某种程度上来说,以前人类用AI是弥补智商,而现在更多的是弥补情商。这个技术难点,无疑需要较长的时间来克服。
而梦想到现实的距离,就是不断克服技术壁垒的过程。人机交互的实质性飞越,或许可以从好好聊天开始。让聊天继续,也就存在了让梦想继续的可能 。