机器人究竟要达到哪些要求,制作方才能有资格称其为一台“情感机器人”?
对于这个问题,我们先举一个反例。
那个曾经在2015年一推出就造成巨大轰动,甚至据称可以因此而改变机器人行业的软银机器人产品Pepper,就被自己的“爸爸”软银称作称是“世界第一台情感机器人”。
记得当时在召开产品发布会时,孙正义是这么夸耀的:
“Pepper可以读懂人类的感情,也可以自主做出行动。”
然而在发售的两年间,Pepper的境遇却急转直下:
第一, 经过用户的“检验”,它不仅不能“读懂人类感情”,甚至连正常的交流都做不好。由于只是预置程序在“操控”Pepper的行为,它的对话单调又无趣,话题有限,新奇感很快被用户挖掘一空。
第二, 价格高达1万多人民币但却没那么有技术含量(不够智能)的Pepper,在中国可以分分钟被强大的“华强北”给替代;而每月仅1000多台的产能也着实负担不了Pepper的高昂成本。因此,前几天爆出生产Pepper的软银机器人控股公司负债高达2.74亿美元的消息其实并不令人惊讶。
现在,它只能被派往各种酒店门口去当“门面”,做一些短暂的可以吸引眼球的简单任务。
因此,根本原因在哪儿?
在随便一个消费级机器人都习惯把自己称为“智能助手”与“智能管家”的当下,大多数产品愈发衬托出这个市场里应用技术的“低端”与“盲目”。
而到底什么才是情感机器人,我想可以引用《科学美国人》杂志科技撰稿人Andrew Moore在去年对情感智能的定义来阐述:
“更好的摄像头、语言处理技术,再加上与机器视觉及面部分析技术相关的更强大的算法,可以颠覆我们与机器的交互方式。”
在采访Emotech这家声称做出了情感机器人Olly(上图)的英国创业公司之前,“情感机器人”这个词汇的出现再次引起了我们的疑虑。
它是否真的如字面意义上“能识别出我们在对话过程中的情绪波动”?还是说,它真的可以“读懂”人心?
作为Emotech的创始人,同时也是一位资深前端设计师,庄宏斌一上来就“否决”了我的说法——把“不智能的东西”当作“智能”是欺骗,但把智能的东西看的过于智能,就只是“脑洞”。
“机器不可能100%了解到你目前的心情是怎样的,也不可能精确地洞察你的情绪。我相信,目前连人类都不可能把这一点做的很好。
换言之,庄宏斌所指的“情感识别”,不是说所有微妙的情感机器人都能立即识别出来,而是先把一些比较关键的情感识别出来,从用户明显的情感波动中寻找其长期的习惯与喜好。
为了更好地描述Emotech想要实现的目标,庄宏斌用了“Emotion”与“Mood”这两个在心理学中具有微妙差异的英文词汇来描述Olly的阶段性任务与场景效果:
“在心理学中,Emotion的产生是有原因的,但其持续时间不长,很快就被另一种emotion替代掉,譬如你今天丢了100块,你可能很沮丧;而Mood的产生没有原因,并且持续时间更长,譬如,你可能一到雨天就莫名多愁善感。
针对这两种情绪,在短时间内,Olly通过摄像头及图像识别技术,是完全可以识别你的Emotion的;而想实现Mood,就需要用户不间断地长时间使用,有足够的数据让Olly进行不间断训练,才能逐渐掌握你的‘个性’和生活规律。
换言之,从本质上来看,庄宏斌给“情感机器人”Olly下的定义,就如同我们从今日头条与各种智能音箱品牌那里看到的广告词和想法差不多:
你让它呆在身边越久,它就越了解你的喜好,根据用户的态度和习惯来“察言观色”。
“举个例子,在Olly逐渐了解你以后,如果你性格很活泼,那么它可能会时不时跟你开个玩笑,会用更丰富的语言及词汇回应你;如果你是那种比较内向,话少的人,它可能会花更长时间去了解你,根据你的面部表情及姿态来回应你。”
但是,就像我们上面提到的,虽然这些产品的根本道理都大同小异,但要贴近“情感”这一说法,仅仅达到“语义”上的训练远远不够,语音识别、语义处理、图像识别三者缺一不可。
换句话说,作为人工智能创业公司,Emotech的产品要想在竞争激烈的智能助手”市场脱颖而出,就必须搭载更好的摄像头与麦克风、更加强大的内核算法,以及拥有庞大的数据与训练量。庄宏斌也对这个说法表示认同:
“情感识别必须要进行综合判断才能得出一个更精确的结果,不要说用户的语言组织习惯、面部表情以及你的任何手势,就是你说话的声线长短高低我们也是要进行识别判断的。”
从目前Emotech能够公开的资料显示,在Olly身上,摄像头与麦克风阵列是基本配置,但由于Olly目前处于非发售期,因此庄宏斌并没有透露关于硬件的具体参数。
而在软件方面,Emotech的确具备一个相对优越的条件——触手可及的学术与研发资源,而且质量极高。
在很多创业公司,甚至连科技巨头都在为稀缺的AI人才挖墙脚、打官司、涨薪水时,庄宏斌正在以自己的母校伦敦大学(UCL)为中心,集结了一批来自牛津、剑桥、UCL、帝国理工以及美国普林斯顿等著名大学的顶尖科学家。
当然,如果你对大神级AI团队Deepmind略有了解,就会清楚其CEO哈克比斯及很多软件工程师与庄宏斌带领的AI团队几乎是“同门关系”(都毕业于UCL)。
其中,“脑神经科学”是Emotech确立软性优势的关键技术元素。我们都知道,人工智能终极目标是要模拟一个和人脑功能一致的人工智能体,因此,”脑科学”成为很多AI巨头在研发过程中不可忽视的重要学科。
而Emotech独立研发的AI系统与操作平台(具体信息没有透露),正是由Zafeirios Fountas等为Emotech工作的英国脑神经科学家开发的。
在这里不得不提一下Zafeirios Fountas这位科学家的背景与有意思的经历。他在5年前就加入了帝国理工大学的计算机神经动力学研发小组,也曾在一场类似于“图灵测试”的比赛中获得第二名。
不过不同于传统的只靠文字来辨别的图灵测试比赛,Zafeirios参加的是一场基于游戏环境的类脑智能测试,在这个游戏系统中,有人类玩家,也有机器人玩家扮演的角色,而比赛的要求就是需要测试者根据这个角色在游戏中的表现与行动效果,来判断它是人类还是机器。
总的来说,相比单纯的文字聊天,庄宏斌认为这一类型的测试更偏向行为与控制决策,更接近一个机器人产品在现实场景中与用户进行互动的模拟效果:
“Zafeirios在这个比赛中得了第二名,他研发的类脑引擎非常了不起,而这些要得益于脑神经科学与计算机科学的交叉与融合。”
在采访过程中,庄宏斌似乎对各种交叉学科情有独钟,譬如他并不认为AI研发就要求工程师一定只盯着机器学习、深度学习,一些看起来不相关的学科也有可能会在不经意间打破人工智能的开发瓶颈,譬如“认知心理学”这门学问:
当然,具体的人脑与计算机算法的运作机制肯定是不一样的,但是概念模型与元素却是完全可以映射在一起的。在核心算法的研发过程中,‘认知心理学’也是Emotech在训练算法模型时重点应用的知识模块。与脑神经科学一样,作为分析人类情感与性格的一项重要学科,认知心理学中的一些方法论也被我们拿来融入到了这个系统中。”
而这种在学科上的交叉运用与多样化处理,也影响了Emotech的团队配置。一个30多人的AI团队,80%都是由科学家与工程师组成,这似乎在行业内比较常见;但我们却很难想象这个研发团队中,除了语音识别专家、视觉处理专家,还有物理学家、语言学家、心理学家以及其他来自不同行业的专家。
“Emotech做视觉的是一位来自牛津的科学家,在来我们公司之前就收到了特斯拉、Google等所有你能想到的大公司的offer;还有我们的硬件与软件平台工程师,在苹果曾做了10年主设计师;还有我们的机械工程师,曾参与做过第一代iPad。
当然,我可能跟行业内的其他人有点不同,我更喜欢团队的扁平化与多样性,我更喜欢让不同背景的人聚集在一起,而不单单只是在AI领域有建树的人。因此我们团队还有物理学家、心理学家,甚至还有参与过设计《疯狂原始人》与《银河护卫队》的知名动画设计师,这样大家可以在交流中碰撞出更多火花。
我不太喜欢综合性的人才,我们要找的是与众不同的人,他要在一个领域内非常拔尖。AI这个事情,远不止跟计算机科学有关就足够了,我们在研发AI的过程中,看到了其他学科对人工智能带来的影响,也因此想做出真的与众不同的东西。”
学术氛围浓厚,从学校直接搬资源,多样化的学科联动促进研发。
如果说Olly在CES上获得的四项创新大奖是让Emotech声名鹊起的开始,那么以上三个“标签”则是Emotech吸引各路公司,甚至行业巨头来“谈合作”“讨技术”的重要筹码。
截止目前,据庄宏斌透露,除了顶级玩具厂商,一些汽车厂商与软件公司也闻风而动,无一例外,他们看中的是Emotech的技术资源:
“我们每天都收到很多想谈合作的邮件,当然,我们肯定会有技术方面的合作,特别是汽车软件行业,对我们神经网络技术的需求很迫切,但Olly仍然是我们近期想实现技术落地的唯一产品。”
实际上,36氪在与英国及法国科技创业公司的接触中,也感受到了他们在学术资源及底层算法方面确立的独有优势,而这与庄宏斌谈到的创业环境差异有很大的关系:
如果谈到‘落地’,大概哪里都比不上美国与中国的速度,中国与美国比较类似的一点是做事比较快,如果一个趋势或者风口一出现,资源就会迅速聚集,一批创业公司就会出现。但如果说到研究,我觉得英国是一个鲜少能让人沉下心来做研究的地方。
其实,英国在移动互联网方面,比较难看到大公司,因为他们的底子更偏人文,譬如伦敦是以特色文化及金融闻名世界的。但人工智能是一个特例,因为它不是你念个大学,有钱就能去做的。
那些一直在默默做研究的高校,其实积累了很多的资源。你看Deepmind就是从UCL等学校出来的,特别是在脑神经科学、统计学、数学方面,形成了相互联动,因此整体形成了自己的学术优势,所以才成长为顶级的人工智能研发组织。
技术是有了,我们来谈谈数据的问题。
建立独有的算法模型,当然需要大量的数据供给。针对数据来源问题,庄宏斌非常坦诚,除了用公开视频网站的资源及无版权纠纷的网络图片进行训练外,Olly目前其实已经在许多用户的家中进行了长期测试。换言之,这些数据的质量更高,可以让Olly进入更精准的调试过程。
“当然,我们肯定会对那些公开数据进行筛选与调整,不过就像人与人要相处一段时间才能熟悉起来一样,每一个出厂的Olly只有在跟自己主人的接触过程中,才能变得更加智能。”
但Emotech遇到的问题之一同样来自于数据,而这个问题并不是Emotech一家的问题——怎样在训练模型的过程中不触犯用户的隐私。
“其实大家都会遇到,但你知道欧洲在保护隐私方面非常严格,因此我们不能把所有数据上传至云端进行训练,然后再传回来,必须要对一些数据进行筛选与分类。不过这样的好处便是,用户绝对不必担心他们的个人信息遭到泄漏。”
而另一个问题则是目前机器人市场不得不面对的最大瓶颈——成本与回报之间的平衡,硬件与软件配置之间的平衡。
庄宏斌把这个问题归为一个“工程性问题”。一方面,硬件的成本过高,不仅会涉及到回报率,年轻白领用户是否能承受也是个问题;而另一方面,硬件成本一压低,在性能上以及算力方面就要做出牺牲。这些问题都是不可回避的,需要从多个维度去寻找解决方案。
“我们的目标受众很明确,是年轻的喜欢科技的白领人群,因此Olly的定价需要考虑他们的收入水平与承受范围。但是,我们在考虑怎样让Olly做一个远场的脸部识别时,也要考虑硬件配置。的确,我们的产品可以有很强大的运算能力,但在配置上面又要控制住。”
或许也正是综合了对这些问题的考虑,Emotech基本瞄准了中国这个庞大的硬件市场,也在深圳找到了可以合作的硬件厂商,在Olly未发售前,就正式加入了争夺中国智能助手市场这块蛋糕的大军。虽然其投资人之一刘炯曾表示,Emotech的对标产品是像Echo及Google Home这样的大厂牌产品,但我们仍然需要对这类智能产品抱有谨慎及综合考量的态度。
无论如何,唯一能够检验Emotech与其智能产品的终究是用户体验与市场。而庄宏斌虽然没有透露Olly的成本与具体测试信息,但我们还是得到了一个重要的提示:
“肯定不会比iPhone8贵,但比iPhone智能多了。”