编者按:本文来自微信公众号“量子位”(ID:QbitAI),作者 郭一璞,36氪经授权发布。
从上海,到北京,每个城市都在搞垃圾分类。
干垃圾、湿垃圾、有害垃圾,猪不能吃、猪能吃、猪吃了会死……你是不是还在为这些垃圾分别是什么而苦恼呢?
要是能自动给垃圾分类就好了。
Alphabet X,就是之前孵化了无人车的Google X,终于造出了垃圾分类机器人。
这些机器人可以把垃圾分类、把分错类的垃圾放到正确的地方,还能在办公室里游走捡垃圾。
比如,放错地方的矿泉水瓶,机器人可以捡起来放到正确的地方去:
放错地方的易拉罐,也要让它和别的罐罐在一起:
他们在Alphabet公司的办公室测试后,发现这台机器人可以显著降低垃圾造成的污染,将本能回收利用却被送去垃圾填埋场的垃圾占比从20%降到不到5%。
想让机器人学会垃圾分类,需要用到感知、移动和操作,借助计算机视觉技术进行感知以及帮助机器人前行的自动驾驶能力都是业界熟悉的,但如何学会在复杂环境中用“手”拉开柜子、打开抽屉、捡走垃圾则是必须要让机器自行学会的操作。
因此,Alphabet X用到了三个方法来让机器人学会灵活用“手”。
第一种是跟人类学习,模仿人类的动作和做法。
这里就用到了Play-LMP算法,它在没有特定数据集训练的情况下,让机器人跟人类的演示学习,最终实现平均成功率85.5%。
学出来的成绩,大概是这样的,左边是任务要求,右边是执行过程:
和其他机器人学习是通过无模型的强化学习,让许多个机器人共享经验。
具体的实现方式是这样的:
让机器人学习借助门把手开门这个技巧,一起学习的每个机器人都装了一份神经网络,并且他们每台机器人都连到了一个中央服务器上。
每个机器人开始对着这个门和门把手琢磨,摸索着考虑怎么开。
这个过程中,每个机器人每一步的行动和结果都被传输到背后的中央服务器上,中央服务器里的神经网络就开始借助这些传输来的经验,迭代改进神经网络。
这样整个过程就好像司令部派了几个士兵出去侦查,再把每个士兵送回来的线索汇总,形成整体的作战思路,再告诉士兵们应该如何如何行动。
所以改进之后,机器人们就都学会了开门这项技能。
机器人要捡垃圾,必须学会灵活的使用自己的“手”来抓东西,要不断的练习,有大量数据来训练模型才可以。
现实世界里,机器人一天只能练习5000次抓取,数据量是远远不够的。
而借助随机到规范适应网络(Randomized-to-Canonical Adaptation Networks,简称RCANs),在云中模拟训练的数据就可以用在模型的实际训练中,这样机器人抓物体的成功率就提升到了70%。
之后,再结合5000次在现实世界抓取的数据,对模型进行微调,成功率就到了91%。
这个过程,相当于在真实世界抓了58万次的结果,一下子省了99%的练习次数。
这样,原来需要花3个月的时间来训练机器人学习抓取,现在只要不到一天就可以了。
另外,这篇论文也发了今年的CVPR。
现在的机器人领域内,虽然有不少成熟的机器人,但它们都是技能专精、价格昂贵的。
他们在工厂流水线上这种单一而结构化环境里,用非常高的效率处理某一项任务,但无法在每天情况都不一样、复杂而非结构化的生活环境中解决洗衣做饭这些麻烦的任务。
Alphabet X的最终目标是造出可以在日常生活中使用的机器人,比如它可以在家里叠叠被子洗洗碗,在办公室里端茶倒水取外卖……每天都会用到,所以这个项目也因此被叫做Everyday Robots。
不过,其难度可想而知。
美国国家公路交通安全管理局给出了这张示意图。
横轴左侧是执行专精的任务,右边是日常的多种复杂任务;纵轴下半部分是在结构化的环境中,上半部分是在非结构化的环境中。
显然,右上角那种在各种复杂环境都能随机应变、十八般武艺样样都行的机器人,人类创造它的难度要远远高于左下角只会在流水线上固定位置完成固定任务的工业机器人。
而在右上方象限内,就有正在发展中的自动驾驶汽车,Everyday Robots,要比自动驾驶的难度更上一个量级。
最后,关于这个垃圾分类机器人的三种学习方式,相关的论文、技术博客链接如下。
跟人类学习Learning Latent Plans from Play作者:Corey Lynch, Mohi Khansari, Ted Xiao, Vikash Kumar, Jonathan Tompson, Sergey Levine, Pierre Sermanethttps://learning-from-play.github.io/
跟其他机器人学习https://ai.googleblog.com/2016/10/how-robots-can-acquire-new-skills-from.html
在云端学习Sim-to-Real via Sim-to-Sim: Data-efficient Robotic Grasping via Randomized-to-Canonical Adaptation Networks
作者:Stephen James, Paul Wohlhart, Mrinal Kalakrishnan, Dmitry Kalashnikov, Alex Irpan, Julian Ibarz, Sergey Levine, Raia Hadsell, Konstantinos Bousmalishttps://arxiv.org/abs/1812.07252
如果你也在做类似的研究,不放复制链接参考一下~