Nueva Zelanda
Español
compartir

真雀神来了?微软亚研推出超级麻将AI,还上了专业十段水平

生活autor: 机器之心
真雀神来了?微软亚研推出超级麻将AI,还上了专业十段水平
resumen麻将无疑是我国最家喻户晓,老少咸宜的一项棋牌游戏。

麻将无疑是我国最家喻户晓,老少咸宜的一项棋牌游戏。近年来,随着人工智能在围棋、德州扑克、Dota、星际争霸等众多游戏中获得亮眼的成绩,AI 在麻将领域却一直缺少跨越性的突破。

最近,由微软亚洲研究院开发的麻将 AI 系统 Suphx 成为首个在国际知名专业麻将平台「天凤」上荣升十段的 AI 系统,这是目前 AI 系统在麻将领域取得的最好成绩,其实力超越该平台公开房间顶级人类选手的平均水平。

hougarden

其实今年 Dota 与星际争霸那样的游戏突破,更多的是一种综合能力,不仅有策略,同时还有操作和执行层面的能力。而麻将等棋牌游戏更多是纯智力与策略,因此它的突破更困难一些。微软亚洲研究院副院长刘铁岩表示:「可以说 Dota 这类游戏更「游戏」,而麻将这类棋牌游戏更「AI」。」

微软 Suphx 麻将 AI 有多强

日本在线麻将竞技平台「天凤」因其完善的竞技规则、专业的段位体系,成为了业界知名的高水平专业麻将平台。平台目前有全球近 33 万名麻将爱好者参与,其中不乏大量的专业麻将选手。

微软亚洲研究院开发的麻将 AI 系统 Suphx(Super Phoenix,意为「超级凤凰」)于 2019 年 3 月登陆天凤平台,在 AI 被允许参与的公开竞技房「特上房」与人类选手展开了 5000 余场四人麻将对局。6 月,Suphx 成功晋级十段,成为特上房中段位最高的选手之一,也是首个达到天凤十段的 AI 系统。

hougarden

天凤平台通过计算稳定段位(Stable Rank)来衡量玩家的实力水平,在经过多场对局后依然能保持高而稳定的段位是非常不易的。在 5000 余场对局中,Suphx 的稳定段位超过了 8.7,是一个极高的数字。

hougarden

下棋打牌玩麻将

从围棋到德州扑克,再到麻将 AI,这几年机器学习已经在「拼智力」这条路走了很远。

以前围棋的难主要体现在状态空间非常复杂,19×19 的棋盘上每一个位置都有「黑、白、无」三种状态,这样的复杂度差不多是 10^172。2017 年,AlphaZero 利用蒙特卡洛树搜索 和深度强化学习,成功解决了包括围棋在内的多个完美信息游戏。

既然完美信息博弈已经难不倒智能体了,那么该探索探索不完美信息了。在 NIPS 2017 的最佳论文中,「冷扑大师」提出了一种新型子博弈求解技术,它在一对一无限注德州扑克中打败了顶尖人类选手。在今年 7 月份,冷扑大师的进化版「Pluribus」在六人不限注徳扑上打败了职业玩家,并通过限制搜索深度而大大降低算力需求。

不过德州扑克每个人只有两张隐藏手牌,它的隐藏信息并不是很多。那么机器学习能不能挑战隐藏信息更多的游戏,运气程度更大的游戏?从桥牌到麻将,微软已经在非完美信息博弈上做了很多研究,这一个维度还有很多值得探索的问题。

如下展示了不同游戏的两种复杂度,其中信息集数目表示游戏可观察状态的多少,而信息集平均大小则表示隐藏性的多少。

hougarden

刘铁岩博士表示:「如果我们沿着不可见的隐藏信息维度,再极致化地推演游戏的发展,就会发现目前的游戏 AI 技术还有很大的发展空间,需要更多全新的技术。」

从完美到不完美信息博弈

当博弈是完美信息时,只要算力足够多,那么肯定就能通过搜索的方式找到最优的策略。

我们可以利用搜索树来理解这一过程,例如棋手每一步棋可以看作选择一个子节点,那么整盘棋一定可以表示为某条路径,现在 AI 要做的就是选择能带来胜利的路径。如下是最为经典的一种搜索树,AI 在每一个状态都希望最小化对手的最大收益。

hougarden

刘铁岩博士说:「即使是围棋那种状态空间非常复杂的游戏,只要在搜索过程中加一些指导、做一些剪枝,就能在有限算力的情况下找到很好的决策。」

现在再看看德州扑克与麻将等不完美信息博弈,它们和围棋有很大的不同。因为参与者互不知道对方的底牌是什么,所以 AI 基本上没法向前推演。尤其是在参与者只知道几张牌,周围缺失信息远远超过已知信息时,模型差不多只能靠「预测」。对于这样的游戏,核心技术就不再是树搜索,而是需要在某种预测的指导下做决策。

「完美信息博弈与不完美信息博弈,它们最基本的指导思想有着很大的差别。」刘铁岩博士说,「在信息不完全的情况下,更重要的是去做预测而不是简单地搜索。」

除了底牌和对方手牌不可见以外,麻将的游戏顺序也存在很大的不确定性。想象一下,象棋围棋都是一手一手轮着来,然而麻将天生就有「吃碰杠」,它会随机打乱游戏的顺序。这种情况下,麻将的游戏树是很不规则的、且动态变化的,我们无法判断什么时候搜索就跳到了另一个区域,因此传统的树搜索就很难真正起作用。所以我们需要新技术来做预估和预测。

这样看来,尽管围棋或麻将对于人类而言只是玩法不一样,但完美信息与不完美信息对强化学习智能体的影响还是非常巨大的。

麻将 AI 都能怎么做

既然麻将与围棋 AI 在本质上有很多不同,那么以前这个任务都是怎样解决的?早期的麻将 AI 会人为地把领域知识编码到游戏 AI 的程序里。后来随着深度学习、强化学习的流行,人们开始研究利用它们来自动学习和强化游戏 AI 的能力。微软的 Suphx 就是基于深度强化学习,同时还发明了很多针对非完美信息博弈的新技术。

但是这里有一个问题,前面都是从博弈论的角度讨论围棋和麻将,而如果我们要使用博弈论与强化学习解决麻将游戏,那么它们之间的关系又是什么样的?

刘铁岩博士表示,博弈论是一个比较广的概念,现实中有很多策略都是通过博弈论设计的。一般规则比较简单的游戏可以推导出最佳策略,只要智能体按照策略来玩游戏就不太可能会输。比如说在德州扑克的 2 人博弈中,我们可以通过纳什均衡推导出最佳策略。

但是对于更复杂的麻将,博弈论一般只能作为框架来指导智能体做自我博弈,或者作为指引来设计各种奖励项函数。博弈论主要提供设计思想,没办法提供建模能力,因此我们需要强化学习这种可计算的方式找到更好的解决方案。

Suphx 是如何打造的

前面已经介绍过非完美信息博弈的难点,然而除了非完美信息,麻将的状态空间和奖励机制都非常复杂。比如说奖励机制,因为一轮游戏包含 8 局,每一局得分通过和牌牌型与番数计算,最后 8 局的总分才会最终影响段位奖惩。而和牌牌型与番数的计算规则非常复杂,因此怎样给智能体分配奖励就非常重要了。

hougarden

因为麻将每一次洗牌都会有不同的牌面,所以智能体还要学会将以前的打牌经验与本局的牌面联系起来,从而调整策略。研究团队让 Suphx 在推理阶段根据本轮的牌局来动态调整策略,对缩小了的状态子空间进行更有针对性的探索,从而更好地根据本次牌局的演进做出自适应的决策。

简单而言,自适应决策会令智能体进行大量的学习后,在离线推理过程中还根据实际情况调整打牌策略,这样才能适应不同的初始牌面。

也就是说在自我博弈的过程中,先知教练是可以「窥探」到底牌的,它要在近乎完美信息的情况下决定如何出牌。然后再据此为指导,去训练看不到底牌的 AI 智能体。这样会引导智能体根据目前的牌局「预测」对手的手牌和底牌可能是什么样的,并作出更正确的决策。

3. 针对麻将复杂的牌面表达和计分机制,研究团队还利用全盘预测技术搭建起每局比赛和 8 局终盘结果之间的桥梁。这个预测器通过精巧的设计,可以理解每局比赛对终盘的不同贡献,从而将终盘的奖励信号合理地分配回每一局比赛中,以便对自我博弈的过程进行更加直接而有效的指导,并使得 Suphx 可以学会一些具有大局观的高级技巧。

那么麻将的随机性呢

麻将与其它棋牌游戏有一个很大的差别,麻将拥有大量的随机性,例如每次初始的牌面、摸到的牌、吃碰杠打乱的顺序等等。Suphx 很大一部分工作都在建模这些随机性,前面介绍的先知教练与全盘预测也都是在处理这个问题。

在训练过程中,麻将的这种随机性是不可控的,如果智能体一开始就从非完美信息出发,那么它是完全不知道该怎么制定策略的。这种随机性会令智能体在训练过程中产生很大的波动,在稍微不同的可观测信息下获得很大不同的策略。所以先知教练会间接地让智能体在完全信息的指导下进行训练,从而在一定程度上消除这些随机性,以便学习到更加鲁棒的策略。

虽然先知教练可以消除训练过程的随机性,但是真正对弈的时候会产生新的随机性,因为当局的牌面和底牌都会焕然一新,是训练过程中没有见过的。自适应决策则尝试利用以前的通用学习结果,并快速地适应当前牌局,从而抵抗底牌变化带来的随机性。总体来说,Suphx 几乎所有核心技术,都在尝试处理不完美信息带来的随机性。

Suphx 需要数学基础

如果读者们想要试试麻将 AI,那么注意了,可能你需要的数学基础要比一般的机器学习还强一些。刘铁岩博士表示,在整个游戏 AI 中,有以下数学知识非常重要:

  • 统计学知识:需要对麻将中的大量随机性进行估计与建模;

    很多机器学习算法工程师并不太了解博弈论,但做麻将 AI 确实需要一些跨界知识。例如机器学习是一种纯统计的方法,我们看重的是模型平均效果,而博弈论更看重最差的情况,它们两者间的世界观都有一些不同。

    其实像 AlphaGo,它几乎是由纯机器学习团队构建的,而冷扑大师的德州扑克团队关注更多的是博弈论。所以对于他们的研究或论文,风格是非常不同的。

    因此,对于麻将,我们既无法通过纯机器学习来建模,又无法通过博弈论处理这么复杂的博弈。只有结合两者,才能为 Suphx 提供足够强大的基础。


转载声明转载声明:本文系后花园转载发布,仅代表原作者或原平台态度,不代表我方观点。后花园仅提供信息发布平台,文章或有适当删改。对转载有异议和删稿要求的原著方,可联络[email protected]