编者按:本文来自微信公众号“将门创投”(ID:thejiangmen),作者:VentureBeat;编译: Shelly,36氪经授权发布。
近日,来自微软、加州大学伯克利分校和诺丁汉大学的研究人员开发了一种将游戏应用于协作AI系统基准测试的方法,该方法可以在简化版的《胡闹厨房(Overcooked)》游戏中进行演示。虽然该款游戏开发的初衷并不一定是作为基准测试存在,但它完全可以但此大任!
深度强化学习系统是AI中功能最强大的系统之一,尤其是在机器人领域。但是,在现实世界中,这些系统也会遇到许多在开发过程中没有预见的情况。
来自微软、加州大学伯克利分校和诺丁汉大学的研究人员在完善协作AI系统的路上又迈出了一步,他们开发了一种将测试范例应用于人与AI协作的方法,该方法可以在简化版的《胡闹厨房(Overcooked)》游戏中进行演示。
《胡闹厨房(Overcooked)》是一款由鬼镇游戏公司(Ghost Town Games)开发,由Team17发行的烹饪模拟游戏。游戏场景是充满障碍和危险的厨房,玩家的任务是,通过多人合作或多角控制,挑战厨房里的各种关卡,在尽可能短的时间内完成客人的点单,烹饪菜品进行交付。
《胡闹厨房》于2016年发行了Microsoft Windows、PlayStation 4、Xbox One三个平台版本,2017年发行了Nintendo Switch版本。续作《胡闹厨房2》于2018年推出。这款游戏广受好评,曾在第13届英国游戏学院奖中获4项提名,最终获得最佳英国游戏奖和最佳家庭游戏奖。
游戏支持本地多人合作模式,最多支持四个玩家各自操纵一个角色完成关卡,或者对决比拼分数高低。同时,游戏允许单人玩家切换操纵两个角色来完成游戏,但暂时没有在线多人模式的计划支持。
《胡闹厨房》开发者邓肯曾谈到:“我认为厨房始终是一个很适合比喻游戏合作性的最佳例子,厨房十分需要团队合作、时间管理、空间意识以及相互呼喊,这样才能做好协调。”这也间接为测试协作型AI系统提供了良好的平台。
研究团队认为,尽管《胡闹厨房》开发者的初衷并不一定是把它用作基准测试,但它完全可以担此大任,包括测试很多突发状况。比如说,在游戏中,系统必须应对这样的情况:如果玩家苦于思考上菜顺序或暂时离线,以致迟迟没有给客人上菜,该怎么办?
根据游戏的反馈,玩家会较快地尝试那些高效管理厨房的角色,虽然有时会陷入僵局,但仍会慢慢尝试调整。较高的游戏等级会使玩家被分配到更多的工作任务,从而避免玩家所控制的角色在游戏回合中出现站着没活干的情况。
研究人员测试环境的屏幕截图
在游戏中,厨房里还会有各种机关试图阻碍角色的操作进度。食材提取区、切备区、煮制区、送菜窗口和餐具清洗区会被分隔到不同的地方,玩家角色需要在这些区之间花费时间移动或者相互传递。这促使玩家做好沟通协调,与此同时,AI系统的问题也更容易暴露。
为此,研究人员探索了许多提高系统稳健性的方法,包括使用各种其他协作系统来训练系统。比如说,在《胡闹厨房》的实验过程中,研究人员会观察这种情况:如果有厨师(玩家操控的角色之一)端着菜走来,那么其他几个协作系统是否能够识别何时该走开,以及在厨师无所事事一段时间后何时该结账。
根据研究人员的说法,目前的深度学习系统并不是非常强大——至少按照《胡闹厨房》的测试结果来看是这样的。研究人员表示,他们测试的所有系统,在这款电子游戏中的得分都没有超过65%,这表明,《胡闹厨房》可以作为将来非常有用的一项AI协作测试指标。
研究人员在一篇描述该项工作的论文中强调道:“我们的主要发现是,各种协作系统的优劣还不能简单通过《胡闹厨房》的奖励金来判定,我们对特定技术的结论尚为初步。”
他们表示,针对《胡闹厨房》的测试有望延伸到AI协作之外的其他领域,以后还会探索元学习(meta learning),以便训练系统适应它所搭档的人类玩家。
总的来说,《胡闹厨房》灵活机动,它作为基准测试的好处是显而易见的,在改善系统的稳健性方面尤为如此。
https://venturebeat.com/2021/01/15/researchers-propose-using-the-game-overcooked-to-benchmark-collaborative-ai-systems/
https://www.google.com/url?sa=i&url=https%3A%2F%2Fstore.steampowered.com%2Fapp%2F448510%2FOvercooked%2F&psig=AOvVaw16PBo0W77oTDXIJ1GqfRGk&ust=1611467927404000&source=images&cd=vfe&ved=0CAIQjRxqFwoTCNiowf-vse4CFQAAAAAdAAAAABAH