2019年6月22日天鳳十段に到達した麻雀AIの「ⓝSuphx」(Twitter:@MSuphx)。これまでその開発者は明かされていなかった。
しかし、その開発元が中国・北京にある「Microsoft Research Asia (MSRA)」であることが発表された。
▼2019年8月29日の世界人工知能会議で発表された
#Microsoft announces that it has developed the world’s most powerful #AI system for #Mahjong so far. This system called #Suphx has reached Level 10 and has played against human contestants 5000+ times, demonstrating remarkable thinking skills. #WAIC2019 https://t.co/PNkun44Pcg pic.twitter.com/j44ZoMBpVZ
— The Paper (@thepapercn) August 29, 2019
▼日本マイクロソフト株式会社の発表
【麻雀 #AI「Microsoft Suphx」が人間のトッププレイヤーに匹敵する成績を達成】
— 日本マイクロソフト株式会社 (@mskkpr) August 29, 2019
マイクロソフトリサーチアジアが開発した麻雀 AI が人間最強レベルのプレイヤーに匹敵する成績を達成。今回の成果は推論と意思決定レベルの向上により、金融投資など複雑応用が期待されます。https://t.co/ZB837hwnH2 pic.twitter.com/0zNKpivzaX
麻雀AIとしてこれまで天鳳を打っていた「爆打」「NAGA」も十段到達実績は無く、初の十段到達AIとなった「ⓝSuphx」。特上卓での成績は圧巻の安定段位8.740を誇っている。
▼麻雀 AI Microsoft Suphx が人間のトッププレイヤーに匹敵する成績を達成
マイクロソフト社による発表が上記記事にまとめられている。当記事ではその一部を要約する。
なぜ天鳳を利用したか?
明確な対局ルールと強さを具体的に示す段位システムがあること、更に、2006年の開設以来すべての対戦記録や牌譜(麻雀の自摸や打牌などの動作、点数の得失などの記録)など、AI の学習にとって有用なデータを公開しており、AI の可能性を検証するのに最適な環境が整っていること。MSRA は、こうした天鳳の特長に着目し、2019年3月、Suphx を天鳳に参加させました。オープンなゲームルームである「特上卓」に参加したSuphxは、今までに5,000 回以上、人間のプレイヤーと対局を重ね、本年6月にAIとして初めて十段を達成した。
他のゲームとの違い
チェス、碁、テキサスポーカー、将棋などと比較して、麻雀はより複雑で、多くの情報がプレイヤーに隠されている。麻雀 AI の開発にあたっては、大きく以下のような課題がある。
巨大な状態空間
52 枚のカードしか扱わないテキサスポーカーと比較して、麻雀の牌は 136 個あり、その場合分けには明らかに巨大な状態空間を必要とする。そして、麻雀では、4 人のプレイヤーの順番は固定されておらず、誰かが「鳴く」ことにより、自摸(ツモ: 牌を一枚取得する)の順番が突然変わる。また、他の 3 人のプレイヤーの配牌や自摸により、状況は大きく変化する。これらの特性により、麻雀では、AlphaGo などのボードゲームで一般的に使用されているモンテカルロ木探索を直接使用することができない。
不完全情報ゲーム
チェスや碁は、プレイヤーが対戦相手の盤上の動きをすべて見ることができる「完全情報ゲーム」だが、麻雀は多くの情報が隠されている「不完全情報ゲーム」。より具体的に言えば、各プレイヤーには 13 個の手牌と 84 個の自摸があるが、把握できる情報はそれぞれ自分の手牌と捨牌しかなく、他のプレイヤーの手牌やまだ自摸られていない牌の情報は知り得ない。つまり、120 牌以上の未知の情報があることを意味する。このように、不明瞭な情報が非常に多いため、麻雀 AI の開発は非常に困難。ランダム性が高いため、プレイヤーは、対戦相手の牌や山の牌など、見えていない牌を推測しなければならず、ゲームの結果に対する運の要素を排除することができない。これは、AI の学習にとって大きな課題となります。
複雑な報酬メカニズム
報酬のメカニズムも複雑です。「天鳳」で採用されている日本の麻雀のルールでは、特定の牌の組み合わせである「役」がなければ上がることができず、数多くの「役」があり、点数計算も複雑。1 回のゲームは およそ 8 局から成り、8 局後の総得点で報酬が決まる。ゆえに、麻雀の熟練者は戦略的に負けることもある。たとえば、8 局目で第2位のプレイヤーと大差を付けている時には、わざと第4位のプレイヤーに振り込んで第2位のプレイヤーの得点獲得を阻止し、最終的なスコアを最大化することがある。これは、麻雀 AI の戦略構築におけるもうひとつの課題であり、時間の経過を考慮した攻撃と防御を取り込むことが必要。
不完全情報ゲームにおける AI のブレイクスルー
AI にとって、麻雀などの「不完全情報ゲーム」は、碁やチェスなどの完全情報ゲームよりも困難であり、その点では、AI のアルゴリズム開発のための理想的環境を提供する。麻雀における複雑な推論と偶発的なゲームのプロセスは、「完全情報ゲーム」と比較して、人間が住む複雑な現実世界との類似性が高いと言える。
MSRA の副所長であり、機械学習グループの責任者 ティエヤン リュウ (Tie-Yan Liu) 博士は「Suphx が多くの麻雀愛好家にとって助言者や友人のような存在になり、人間の麻雀の技術習得を支援してくれるようになることに期待しています」と述べている。将来的には、Suphx が、天鳳位のプレイヤーと対局し、推論と意思決定のレベルをさらに向上することが期待されている。これは同時に、ゲーム AI の研究による人工知能分野全体のイノベーションも推進する。人工知能が人間の生活に深く入り込んで支援し、より複雑な現実の課題を解決してくれることにもつながるでしょう。」とコメントし、「Suphx」が今後人工知能開発の発展に大きく貢献する可能性を示唆した。
今後のSuphxの更なる進歩からも目が離せない。
▼ⓝSuphxが十段を達成!麻雀AIは人類を超えたのか?!?!-天鳳公式ブログ
関連記事
▼マージャンで生きる人たち 第14回 麻雀AI開発者 水上直紀
▼麻雀AI「ⓝSuphx(Super Phoenix)」が天鳳十段に到達!