2016年,人工智能AlphaGo战胜人类围棋冠军李世石,被业界视作是第三次人工智能产业浪潮的开始。在神经网络及深度学习等新方向出现后,AI产业迎来了前所未有的新革命。
而到了2021年,这轮AI浪潮中的诸多技术已经完成广泛的产业落地。例如,AI视觉及语音识别技术已经进入我们的日常生活——我们早已习惯在微信上使用语音转文字,或是在电商App上搜图购物。但直至今日,AI最初的命题——人机对话,却仍然是一个前沿话题。
1950年,人工智能之父图灵发表了《机器能思考吗》的经典论文,并提出了此后被称作「图灵测试」的新概念——人类向机器随机发问,如果人类无法判断回答者是机器还是人类,就说明了机器具有了与人类相当的思考能力。
通过图灵测试,自此成为了划分强弱AI的分水岭。而图灵测试关注的核心,则是AI的人机对话能力。如今,尽管人类尚未制造出通过图灵测试的强AI,但在一定范围内能听懂、会思考、可互动的智能人机对话技术,已经开始在产业界落地,并运用于智能客服等领域,帮助人类完成一部分话务员的工作。
在像人类一样思考的道路上,AI仍然只是个小学生。但AI眼下在人机交互方面的能力,已经足以让其成为辅助人类工作的利器。在智能人机交互这个前沿方向,中国科技企业的探索还在继续。
智能人机交互的探索道路,远不如外界想象中的容易。
如今,业界公认,智能人机交互是整个AI产业的一颗明珠。极高的技术门槛,让智能人机交互成为了AI领域最前沿的交叉学科之一。
以智能语音对话为例,其涉及多个AI前沿领域。要想实现智能人机交互,AI需要先将人类的语音转换为文字,再理解文字的内容,给出对话策略,生成对话文字,最后再将文字转换为语音。全流程涉及语音识别、知识图谱、自然语言处理(NLP)、对话管理、文字语音转换(TTS)等多项AI技术。
一个成熟的智能人机交互产品,不能在上述任何一个环节出现明显短板,否则,也会影响产品最终的用户体验。
如此之高的技术难度,对AI从业者而言是一个巨大的挑战。但AI从业者们一直在直面挑战。因为智能人机交互拥有着极为广阔的市场前景。
例如,基于智能人机交互技术的智能客服可以帮助一部分话务员工作,为用户提供热线咨询服务。其中,政务便民服务热线就是智能客服落地的绝佳场景。
以往,政务便民服务热线存在一些问题。数据分析机构「零点有数」此前发布的《全国政务热线运行质量年度评价报告(2011-2020)》指出,2020年,政务热线接通率仅为68.43%,接通率在95%以上的热线只有72条,占比仅为20.87%。
限制政务热线服务水平的一大原因,在于智能化水平的不足。传统的人工服务模式需要投入大量人力且效率不高。而AI则可以成为人工话务员的有效补充。
而这一趋势,也得到了国家政策层面的支持。日前发布的“十四五”规划纲要指出,要提高数字政府建设水平,将数字技术广泛应用于政府管理服务。而2020年12月,国务院办公厅也下发了《关于进一步优化地方政务服务便民热线的指导意见》,指出要加强12345热线能力建设,拓展互联网渠道,加强智能语音等智能化应用,方便企业和群众反映诉求建议。
今年2月,大同市人民政府就在京东科技的支持下,上线了新一代的12345热线。该热线基于京东人机交互平台「言犀」的技术能力,大同市民呼入电话后,当人工客服溢出时,客服机器人可以直接对常规问题提供智能解答,并自动下发工单,将问题反馈给对应的委办部门来处理;而对于较复杂的问题,智能客服机器人会转交给人工坐席来回答。此外,大同12345热线还具备智能回访功能,拨打过12345热线的市民,会接到由智能客服拨出的回访电话。
而在新一代大同12345热线的建设过程中,京东科技也遇到了不小的挑战。
第一个挑战是来自方言。大同位于山西北部,隶属于晋语区,大同话与普通话之间的差异并不算小。
拨打12345电话的大同市民中,有一部分市民特别是中老年人,很多只习惯说大同话。如果客服机器人不能听懂当地方言,就很难服务好所有市民。为此,京东智能政务热线专门开发了一个口音适配的模型和算法,可以用最少的代价、最快速的方式对大同本地的口音进行识别。目前,大同12345热线已经能够听懂使用大同话咨询的高频问题,并提供针对性的解答。
大同12345智能热线的第二个挑战,来自于对话中的情感感知与表达。 “大家认为人机交互主要就是理解用户语言,其实这是一个比较肤浅的看法。双方对谈包含着情感的理解,说话要有同理心,不仅仅是理解和生成对话,也需要理解对方的情绪变化。这些对于AI的模型就有更高的需求。” 京东集团副总裁、京东科技集团智能客服产品部负责人、京东人工智能研究院常务副院长何晓冬对36氪表示。
为此,京东智能客服团队通过训练让AI 学习人在生气、失望、愤怒、焦虑等情绪下的说话方式,并根据七种不同的情绪做了精细粒度情绪识别模型,能够对每一种情绪的高中低浓度进行更细致的检测,最后形成整个情绪检测矩阵,从而更好地感知用户的情绪。大同12345热线的智能客服机器人在与市民交流时,当在市民的声调和语气中检测到特别的情感变化,会在交流过程中加入更多安抚性的话语,实现更具同理心的服务体验。
大同12345的智能化改造获得了显著的效果。在引入京东智能政务热线后,大同12345的响应率、解决率、满意率均出现了明显的提升。
官方数据显示,大同12345传统人工坐席日均受理量约2500件,最高日受理量为4000件。在热线智能化以后,大同12345目前的日均呼入总量为5269通,高峰呼入总量超7000通,其中,高峰部分全部由AI接待。目前,大同12345日均有效诉求3340件,其中1188件由AI完成。大同12345高峰时期的市民排队现象基本消失。
事实上,智能人机交互的用武之地不止在政务热线市场。在几乎所有客服及泛客服场景,智能人机交互都可以派上用场。因此,智能人机交互也成为了几乎所有科技巨头的共同研究领域。
2018年,Google推出了AI客服行业解决方案Contact Center AI;2019年,Google再次推出了面向中小企业的AI客服产品CallJoy,月费仅39美元。而Facebook、Amazon也都在近些年推出了类似的产品及解决方案。
显而易见,智能客服可以解放大量人力,直接提升商家的运营效率。而智能客服带来的市场空间也极为广阔。36氪旗下数据服务平台鲸准此前发布的《中国智能客服行业研究报告》显示,中国客服软件当前存量市场规模在100-150亿元,而未来的AI智能化市场空间有望达到500-800亿元,其中,智能客服机器人的市场空间在200-300亿元。
而在国内,互联网企业在智能人机交互领域的积累不可小觑。特别是电商企业,往往都具备成熟的智能客服解决方案。而这也与智能人机交互的产品设计流程有关。
早年,智能客服尚未普及时,电商行业流行使用技术门槛较低的「客服机器人」。这类机器人大多基于关键词和模版匹配技术。例如,在电商客服机器人中,如果用户询问「帮我查查快递」,则会发出规则关键词「查快递」,客服机器人会自动给出商品的物流信息。但当用户使用「帮我看看我的东西到哪了」一类的复杂提问方式,客服机器人就无能为力了。
而进入AI时代后,智能客服的对话能力获得了极大的提升。这既离不开AI底层技术的发展,也离不开大量数据的喂养。其中,两类数据最为重要:一类是用户与人类客服之间的对话语料,可以帮助智能客服建立准确的问答;另一类则是说明书、产品手册等商品信息,它可以培养AI形成知识图谱的能力,让智能客服对商品更「专业」,给用户满意的回答。
不难看出,在互联网行业,京东等科技企业是为数不多具备以上两类资源的。在积累了大量语料信息后,京东很早就在自有电商平台上线了“京东智能情感客服”,并在近年开始将自己的智能人机交互能力输出给包括政务、零售、金融、教育等领域的合作伙伴,帮助全行业实现客服领域的智能交互。
在未来,智能人机交互将走向何方?
多模态,是一个行业内公认的发展方向。所谓多模态,即AI可以通过多个感知维度,如视觉、语音、文字等识别信息,感知用户的需求。在传统的AI客服产品中,用户与AI之间使用文字或语音这一单模态的方式互动。而在现实世界中,面对面的客户服务往往是多模态的,人工客服的表情、动作和语言,都可以影响到用户对服务的感知。
因此,多模态也被视作是智能人机交互领域的一个前沿方向。而在部分场景中,这一技术也可以直接提升用户的体验。例如,在银行等重度交易场景,人工服务仍然是行业首选。而相比冷冰冰的AI语音,客户往往更想看到一个能说会动的AI虚拟人。
而在传媒领域,近年来的两会中已频频出现虚拟AI主播的身影。据了解,每日经济新闻今年在全国两会期间就与京东科技合作,利用人工智能技术,依据真人形象,合成出形象和声音“完全真实”的财经主播,替代传统主持人对“两会”内容进行24小时滚动播报,以AI应用重构了媒介的生产环节。
何晓冬还透露,京东科技目前也在研发适用于直播带货场景的AI虚拟形象,AI可以自动读取说明书、产品手册,自动挖掘卖点,自动撰写推销话术,并生成虚拟形象和语音,完成AI直播带货。
「这将改变整个商业规则。等到多模态技术成熟时,许多商业模式都可以被打开,并为我们带来许多意想不到的机会。」何晓冬表示。
而在未来,智能人机交互的远期目标,也许是变革整个人机交互领域的交互形态。
早年,计算机行业使用打孔纸带作为编程工具;而键盘的出现,让用户可以使用命令行控制计算机;此后,图形界面与鼠标的出现,让计算机开始普及;而现在,iPhone带来的触摸屏革命,让智能手机成为人手一台的随身计算机,人人上网的时代最终到来。
「人机交互的每一次变革,都带来了十倍以上的用户量增长,并伴随着巨大的产业潜力释放。」何晓冬指出,「如果说过去的五年是AI在学术领域的爆发,那么爆发带来的红利未来五年将会在产业上实现。」
而到那时,AI将再一次丰富人机交互的外延——用户不再需要键盘、鼠标、触摸屏这样的交互工具,而是开始使用手势、语音这样最自然的交互模式。当交互无处不在,计算和服务也将变得无处不在。