棋类大师 AlphaZero 无师自通，“通用人工智能”加速到来？

转载时间：2021.10.28（原文发布时间：2017.12.18）

转载作者：36氪企服点评小编

阅读次数：96次

编者按：本月初，在刚刚结束的NIPS 2017大会上Google的DeepMind团队介绍了其最新的泛化强化学习算法AlphaZero。这种算法不仅会从零开始学会下围棋、国际象棋和将棋等，而且只需学习不到一天的时间就能击败击败了李世石的AlphaGo，击败顶尖国际象棋程序Stockfish以及顶水平的级将棋程序 Elmo。国际象棋大师尼尔森说：“我一直在猜想如果一个比我们出色的物种登陆地球，然后向我们展示他们是如何下国际象棋的话会是什么样的。我感觉现在我知道了。”但在《Deep LearningPlaybook》作者Carlos E. Perez看来，这是他提出的复杂的逻辑思维可以通过直觉机器来完成的直接证据。AlphaZero的横空出世，跨越了实现通用人工智能的一道巨大鸿沟——“语义鸿沟”。Perez认为，这是AGI的一个极其难以实现的里程碑事件，而且它到来之快已经远远超出了专家的估计。

现代文明以及披上技术的外衣导致了我们自身直觉的衰退。我们当中有很多人已经意识不到它的价值甚至完全忽略了它的存在。作为负责计算的基础，直觉很容易会被视为离经叛道的做法而被摒弃。这种不合常规导致了许多研究人员忽视了它的潜能。

直觉思维是一种神圣的天赋，而理性思维是忠实的仆人。我们建立的社会却尊崇仆人，把天赋凉到了一边。

——阿尔伯特·爱因斯坦

我所从事的人工智能研究是围绕着一个想法进行的，即先进的认知机器会利用直觉作为其智能的基础（参见：“人工直觉”）。我们自己人类的思想为通用智能提供了充足的证据。从根本上来说，人是直觉机器，我们的理性（以及意识）本身只是一种构建在基于直觉的机器基础之上的模拟（参见“认知堆栈”）的层叠模拟。这与笛卡尔著名的“我思故我在”形成了鲜明对比，笛卡尔的说法意味着我们的理性思维是我们跟其他生物不同之所在。我们因此产生了需要（由逻辑机器推动的）逻辑和方法论的认识偏见。这确实是怀旧范的AI（GOFAI）试图以形式逻辑为出发点解决智能问题失败了几十年的原因。

对于基于直觉的机器，其中一个反直觉的预言是“逻辑思维怎么能从直觉机器里冒出来呢？”自2012年以来，我们已经看到了深度学习技术取得了令人难以置信的进展。深度学习网络就是直觉机器。这些系统学习通过利用归纳来进行推理（或做出预测）。深度学习系统已经能够执行通常是给生物大脑准备的任务。大家所熟知的对于传统计算来说难以执行的任务，比如面部和语音识别，就可以由这些机器来执行，而且做得比人还要好。

然而，深度学习网络无法执行长除法等逻辑任务。人们不应该指望能够教动物（比如说你的狗）学会加减法，更不用说乘法了。然而，人类的大脑却能够解决各种逻辑问题。那么我们就不得不问，穴居人会乘法吗？我们先进的逻辑认知能力是天生吗？还是说这是由于我们先进文明的结果而学会这种能力的？

要实现更普遍的人工智能需要跨越一道巨大的鸿沟，这道鸿沟就是所谓的“语义鸿沟”。我们如何才能把深度学习（近乎符号）系统与逻辑（符号）系统的能力融为一体呢？

人类思维能够进行逻辑推理这样的壮举。如果我们的机制都是基于直觉的话，那我们的思维是怎么做到的呢？在此我打算做个假设，假设我们没有任何天生的逻辑机制。智人在我们存在于地球的短时间内演进出这种机制是不大可能的。因此，为了消除语义鸿沟，我们需要仅仅使用直觉的机制来加以弥合。这意味着我们不需要将逻辑要素跟直觉要素进行融合。我们只需要直觉组件即可。

因此，我们需要提供复杂的逻辑思维可以通过直觉机器来完成的充分证据。

AlphaZero带给人的革命性启示就在于此。AlphaZero是DeepMinds Go围棋程序的最新版本。我之前写过有关AlphaGo Zero（不是AlphaZero）的文章，里面谈到了它是如何从零开始学会掌握围棋游戏的（无需人类知识的情况下）。西方人从来都没有下过围棋，根本就不能理解它。所以DeepMind的AlphaGo Zero所取得的成就被埋没了。我们不明白这项成就的重要性。然而，围棋已经被认为是一种直觉游戏。所以，一台直觉机器（基于深度学习）能够掌握这个游戏多少算是不足为奇的。

不过令人吃惊的是DeepMind的新化身（AlphaZero）还会下国际象棋。这对于许多人来说当然不会感到太吃惊，因为从1996年IBM的DeepBlue击败了卡斯帕罗夫以来，国际象棋游戏就已经被计算机“搞定”了。对于外行来说，AlphaZero只用了几个小时就能从零开始掌握国际象棋未必算什么特别。AlphaZero只下了100盘就击败了最好的国际象棋程序（Stockfish）也不算什么。

真正值得注意的是AlphaZero在干掉其更逻辑化的对手中是怎么下棋的。为了让你有所了解，下面我引用一下来自国际象棋圈的人对此的一些印象。

它用“类型B”，也就是类似人的方式而不是暴力破解手段来实现香农和图灵所梦想的那种机器象棋。

——加里·卡斯帕罗夫

我一直在猜想如果一个比我们出色的物种登陆地球，然后向我们展示他们是如何下国际象棋的话会是什么样的。我感觉现在我知道了。

——Peter Heine Nielsen（尼尔森）

它的下法不像人，也不像程序。而是用第三种方式，几乎是外星人的下法。

——Demis Hassabis（DeepMind创始人，他国际象棋也玩得很好）

对于那些知道国际象棋怎么下的人来说，最好是看看AlphaZero和Stockfish的比赛。你将会看到一个基于直觉的系统是如何干掉一个用逻辑来思考的对手的（也就是不会拒绝能取得优势的开局棋法的玩家）。

AlphaZero玩的是一种非常不同的国际象棋游戏。为了获得对对手的位置优势，它愿意牺牲一些棋子。它玩的是一种国际象棋柔道，利用对手渴望取得立竿见影来实现自己的意图。它让对手陷入了国际象棋里面的“强制被动（zugzwang）” 局面，也就是不管你怎么下都会导致更糟糕的结果。它玩国际象棋似乎拥有更全局的视野，所有棋子都在以高度协调的方式进行移动。 AlphaGo zero玩的是，最大限度发挥了自身创造力的游戏，而逻辑性思维的对手的眼光却无法超越短期的利益。它下的国际象棋不仅是无法想象的，这在过去是要被放到显著位置供众人景仰的。

那篇关于AlphaZero的论文在最近结束的NIPS 2017大会上进行了介绍。这篇论文非常短，主体只有7页的篇幅。这篇论文为AlphaZero确定下法而对棋局位置评估的内容范围之大提供了有趣的详细描述。