不久前,在北大承办ACM-ICPC(国际大学生程序设计竞赛)全球总决赛期间,上演了一场人机协作及人机对抗的《星际争霸》赛。
这是来自智能决策公司启元世界的一款基于《星际争霸Ⅱ》的AI测试。游戏规则很简单,截取了《星际争霸》中抢夺水晶矿的场景:一个人类玩家和一个AI队友搭档,同对面的两个AI对手PK,哪一方能在规定时间内更快地采集到更多的的水晶矿,就算胜出。
这个小游戏背后是一整套机器理解人类意图的复杂流程,以及在竞合博弈中的实时分析能力。
“比如我往左边采矿,我的机器人可能就会去采集其他方向上的水晶矿,或者去阻拦和干扰对手,为我争取时间。它会实时观察我的操作,以及对手的操作特征和策略,然后选择配套的策略去采集。”启元世界CEO袁泉告诉36氪,这和去年AlphaGo在乌镇和古力的人际配对赛颇为相似,不再单纯强调人机对抗。通过下围棋、打星际训练AI,是为了让机器未来辅助人类完成更复杂的任务。
说到这里不得不提及2016年凭借AlphaGo引发AI学术界和业界轩然大波的DeepMind,继围棋之后,这家公司的研究目标就转向了《星际争霸Ⅱ》,甚至将人工智能研究环境向研究者和业务爱好者及玩家开放。
在DeepMind的号召下,过去一年,美国有一批AI公司和开发者,饶有兴趣地研究在《星际争霸》场景中的人机对战和人机协作。
1998年出品了初代版本的《星际争霸》在游戏史上地位长盛不衰,但为什么AI研究者都把目光投向它?显然不是为了娱乐,或者提升游戏性能那么简单。
“《星际争霸》是所有即时战略、夺财游戏的始祖。一方面需要玩家的微操能力,同时又强调宏观决策能力,玩家在资源有限的情况下如何平衡发展?是花资源发展高科技,还是出兵种对抗?碰到非常聪明手速又很快的对手攻过来,还考验你如何运队。”
袁泉觉得,《星际争霸》正好涵盖了人工智能的几个核心问题:如何在有限的视野和不完全的信息下做决策?如何平衡短中长期的发展策略?如何处理多智能体之间的合作和博弈……
相对于围棋棋盘19乘19限定场景,《星际争霸》的场景更加开放、复杂,也因此更贴近人类在现实生活中做决策的环境,更具挑战。
这意味着,用AI人机协作打《星际争霸》,能帮助人工智能开发创造基准,推进关于决策智能的研究。
那么《星际争霸》环境中的AI是如何训练的呢?
刚进入游戏环境的AI就像新生的婴儿,和人类观察世界的方式相似,它会首先注意到环境中的物体,观察自己的人类队友和对手如何运动、协作,找到信息量最大、能帮助自己达到目标的对象去学习。
“我们会给机器设定目标和激励措施,比如最短时间内采集最多矿产就会得到更多的分数,然后机器就会通过学习,来决定自己的最优走位和策略,”让袁泉感到的意外的是,机器在没有看到示范的情况下,自发使用了阻挡对手的策略。
不过跟人类不同,机器的决策智能是基于理性判断和计算力的。打一场《星际争霸》或者Dota,AI的背后是成百上千台机器的算力支持。因此机器在搜索信息上的速度和广度会远超人类。而人类的决策过程,除了依据理性分析的一面,还包含感性层面的本能和经验。
“目前这个阶段,决策智能能做的就是立足于机器的长处,一步步消化和吸收脑认知科学和决策科学理论的新的成果,把人擅长的宏观层面的规划推理与创造力,和机器擅长的理性分析推演的能力结合,一步步往前走。”袁泉告诉36氪。
AI的理性决策也能给人类启发,就比如2017年柯洁在乌镇与AlphaGo大战时,曾使用过三·3的开局手法来迅速抢占角部实地。这是AlphaGo的棋路,以往却少有人类棋手使用。
当然,人们最关心的还是下围棋、打《星际争霸》之后,AI的决策智能究竟能为人类做些什么?
你可能会意外,其实早在2011年之前,机器就已经在一些企业级的应用场景辅助人们做决策了。
举例来说,银行信用卡中心会用大数据和机器学习的技术做精准营销。通过分析信用卡客户过去几个月的消费记录,譬如你经常活动在哪些区域,喜欢去哪些餐馆消费,机器会预测两周后的某天当你再次出现时应该给你推荐哪些附近的商场、店铺。只不过当时这种基于机器的个性化推荐还没引起太大关注,一方面因为O2O还没有如今这么火,另一方面,跟美国的用户习惯不同,中国用户似乎对来自电子邮件的广告并不大感兴趣。
从2006年至2012年,袁泉一直在IBM中国研究院做这类企业级落地场景的研究,直至2012年进入阿里后,他创建了淘宝推荐算法团队,那一年手机淘宝的累计用户量是1亿,成为了早期训练决策智能的大数据样本。
当时电商行业恰好开始推崇“千人千面”的用户分析和营销手法。每天,淘宝后台的算法会根据用户的点击、购买、时长,成交等等行为数据,来猜测你喜欢什么,到底要买什么。每个用户的画像,都包含着几万个标签。在机器的眼中,你可能迷恋韩版连衣裙,也可能是个豹纹控。
当机器把依据这些数据预测的推荐商品推到离你最近的首页,就完成了一次辅助决策。
继银行之后,电商、游戏、广告等很多行业都开始出现机器辅助决策的案例。
根据场景的重要性差异,机器既可以为人类做辅助决策,也可以做替代决策。譬如在L4、L5无人驾驶中AI可以协助人类做辅助决策,在王者荣耀、吃鸡这类游戏场景,机器也可以直接替代决策,作为人机对战的角色出现。
“使用游戏帮助人工智能程序学习如何采取最佳行动是非常明智的,这可以模拟变量众多的复杂环境。游戏领域之外的很多技术问题都非常相似,通过改进算法,(人工智能)程序一旦达到某种突破就可以将这些工具应用于现实。”DeepMind研究员奥里奥尔·温亚尔斯此前对外表示。
DeepMind在2016年底曾公布过一个成果:用AI技术辅助决策,帮助一家数据中心的电费降低了40%。
启元世界在北大的AI人机协作挑战赛结束时,公布了结果:209局赛事中,人机协作的A队获胜102场,胜率48.8%。两个AI协作的B队,获胜83场,胜率39.7%。平局24场,概率11.5%。
“用新一代强化学习技术做出的AI,相对于传统的机器学习技术已经有了不小的改进,原来那种用游戏中内置AI打微操比赛,碰上黄金段位选手是九死一生;而启元世界的新一代AI,和黄金选手的微操对战中是胜负各半”,袁泉说。
在这场赛事结束后,CMU Teper商学院教授张凯夫提出了一个有趣的问题——当人工智能在部分场景中个体能力上超越人类后,AI能否进一步增强人的能力,AI是否会比人类更有合作精神和协同意愿?更能顾全大局甚至自我牺牲?
未来可期。