99精品在线观看-99精品在线免费观看-99精品在线视频观看-99精品这里只有精品高清视频-99九九精品国产高清自在线

x

比 AlphaGo 更復(fù)雜,最強(qiáng)日本麻將 AI 是怎么煉成的?

2019-09-03 09:37:49 觀察者網(wǎng)
點(diǎn)擊關(guān)注->創(chuàng)芯網(wǎng)公眾號(hào),后臺(tái)告知EETOP論壇用戶名,獎(jiǎng)勵(lì)200信元
“我突然想起了一句話,神仙怎么打都是對(duì)的。”“這個(gè) AI 的牌效不是一般鳳凰(有一定實(shí)力的玩家)能摸清的,人名字就是 super phoenix(超級(jí)鳳凰)。”“感覺 ai 的打法都不太能被推理完全,這種基于訓(xùn)練的對(duì)某種特征做出的反應(yīng)對(duì)于人類來說就是迷啊…”

這些評(píng)論來自于 B 站上一個(gè)系列的視頻,視頻主角是一個(gè)名為 Suphx(意為 Super Phoenix)的麻將 AI。2019 年 6 月,有創(chuàng)作者開始制作 Suphx 牌譜的視頻。上傳到 B 站后,引起了不少麻將愛好者的討論。
 

在多數(shù)評(píng)論里,Suphx 被稱為“最強(qiáng)日麻人工智能”。

事實(shí)上,不止是國內(nèi)的 B 站,當(dāng)時(shí) Suphx 的聲名已經(jīng)傳遍了日本麻將界。
 

神秘的最強(qiáng)日麻 AI
 

2019 年 3 月起,Suphx 獲批進(jìn)入專業(yè)麻將平臺(tái)“天鳳”。短短四個(gè)月內(nèi),Suphx 在該平臺(tái)瘋狂對(duì)戰(zhàn) 5760 次,成功達(dá)到十段,從而在日本麻將界聲名大噪。
 

麻將在中國群眾基礎(chǔ)深厚、普及率高,有“國粹”之稱,但民間流行的麻將規(guī)則不一,且競(jìng)技化程度相對(duì)較低,而日本麻將擁有世界上競(jìng)技化程度最高的麻將規(guī)則。天鳳則是業(yè)界知名的高水平日本麻將平臺(tái)。它吸引了全球近 33 萬名麻將愛好者,其中不乏大量的專業(yè)麻將選手。
 

天鳳平臺(tái)規(guī)定,只有獲批準(zhǔn)的 AI 才可以進(jìn)入“特上房”參與對(duì)戰(zhàn),目前在該房間可以達(dá)到的最高段位是十段。另一個(gè)房間是“鳳凰房”,最高段位是十一段,僅對(duì)七段以上的人類付費(fèi)玩家開放,目前不允許 AI 參與游戲。
 

除了 Suphx,還有另外兩個(gè) AI 也獲準(zhǔn)進(jìn)入“特上房”比賽,分別是“爆打”和“NAGA25”。目前,Suphx 是唯一一個(gè)達(dá)到“特上房”最高段位的 AI
 

由于單局麻將存在著很大的運(yùn)氣成分,所以天鳳平臺(tái)會(huì)通過“穩(wěn)定段位”來衡量一位玩家的真實(shí)水平。在 5760 場(chǎng)比賽過后,Suphx 的穩(wěn)定段位超過了8.7,不僅高于爆打和 NAGA,還超越了頂級(jí)人類選手(十段及以上)的整體穩(wěn)定段位。
 

 

這些成就意味著,Suphx 在四個(gè)月內(nèi)成長為了最強(qiáng)日麻 AI。日本麻將的愛好者和專業(yè)參賽選手,紛紛尋找著它背后的開發(fā)者,但一無所獲。
 

 

(Suphx 的官方社交賬號(hào)上,只有簡單的介紹)直到 8 月 29 日世界人工智能大會(huì)舉行,Suphx 的身世才被公諸于世。當(dāng)天上午,微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負(fù)責(zé)人沈向洋博士對(duì)外宣布,Suphx 是微軟亞洲研究院的工作成果,由劉鐵巖博士帶隊(duì)研發(fā)。
 

劉鐵巖博士是微軟亞洲研究院副院長,長于深度學(xué)習(xí)、增強(qiáng)學(xué)習(xí)、分布式機(jī)器學(xué)習(xí)等領(lǐng)域。他的團(tuán)隊(duì)曾發(fā)布了微軟分布式機(jī)器學(xué)習(xí)工具包(DMTK)、微軟圖引擎(Graph Engine)等開源項(xiàng)目。
 

 

(微軟亞洲研究院副院長劉鐵巖)對(duì) AI 來說,為什么麻將比圍棋、德州撲克更難?
 

“2017 年中旬,我們一個(gè)研究團(tuán)隊(duì)跟我說要做麻將 AI。我也不知道能不能成,因?yàn)橄啾认笃濉濉⒌轮輷淇耍閷⒌碾y度更高。而且,他們打麻將水平都不怎么樣。”微軟全球資深副總裁、微軟亞太研發(fā)集團(tuán)主席兼微軟亞洲研究院院長洪小文對(duì) PingWest 品玩表示。
 

麻將的難,在于其屬于“不完美信息游戲”(Imperfect-Information Games),讓計(jì)算機(jī)擅長的搜索能力無法直接發(fā)揮,且具備復(fù)雜的獎(jiǎng)勵(lì)機(jī)制。
 

不完美信息游戲,是指游戲中信息暴露程度低。“圍棋、象棋等棋類游戲,對(duì)局雙方可以看到局面的所有信息,屬于完美信息游戲(Perfect-Information Games);而撲克、橋牌、麻將等游戲,雖然每個(gè)參與者都能看到對(duì)手打過的牌,但并不知道對(duì)手的手牌和游戲的底牌,屬于不完美信息游戲”。
 

在日本麻將中,每個(gè)玩家有 13 張手牌,另外還有 84 張底牌。對(duì)于一個(gè)玩家而言,他只知道自己手里的 13 張牌和之前已經(jīng)打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌。所以,最多的時(shí)候一位玩家未知的牌有超過 120 張。
 

為了更好地解釋不完美信息游戲,劉鐵巖打了個(gè)比方:“如果把圍棋這樣的(完美信息)比賽比喻成一顆游戲樹,那像麻將這樣的比賽就是很多樹組成的森林,參與者并不知道自己在哪棵樹上。”
 

對(duì)于完美信息游戲,通常可以用“狀態(tài)空間復(fù)雜度”和“游戲樹復(fù)雜度”來衡量其游戲難度。
 

所謂“狀態(tài)空間復(fù)雜度”,即游戲開始后,棋局進(jìn)行過程中,所有符合規(guī)則的狀態(tài)總數(shù)量。“例如棋類游戲中,每移動(dòng)一枚棋子或捕獲一個(gè)棋子,就創(chuàng)造了一個(gè)新的棋盤狀態(tài),所有這些棋盤狀態(tài)構(gòu)成游戲的狀態(tài)空間”。
 

計(jì)算狀態(tài)空間復(fù)雜度最常用的一種方法是,包含一些不符合規(guī)則或不可能在游戲中出現(xiàn)的狀態(tài),從而計(jì)算出狀態(tài)空間的一個(gè)上界(Upper Bound)。例如在估計(jì)圍棋狀態(tài)數(shù)目上界的時(shí)候,允許出現(xiàn)棋面全部為白棋或者全部為黑棋的極端情況。
 

游戲樹復(fù)雜度(GTC)代表了所有不同游戲路徑的數(shù)目,是一個(gè)比狀態(tài)空間復(fù)雜得多的衡量維度,因?yàn)橥粋€(gè)狀態(tài)可以對(duì)應(yīng)于不同的博弈順序。
 

微軟亞洲研究院的博客舉了一個(gè)例子:下圖中,兩邊的井字棋游戲都有有兩個(gè) X 和一個(gè) O,屬于同一狀態(tài)。但這個(gè)狀態(tài)可能由兩種不同的方式形成,形成路徑取決于第一個(gè) X 的下子位置。
 

 

(井字棋游戲中統(tǒng)一狀態(tài)的不同形成過程)在完美信息棋牌游戲中,不管是狀態(tài)空間復(fù)雜度,還是游戲樹復(fù)雜度,圍棋都遠(yuǎn)遠(yuǎn)超過其他棋牌類游戲。
 

而對(duì)于不完美信息游戲而言,衡量游戲難度的維度更加復(fù)雜,需要在狀態(tài)空間復(fù)雜度的基礎(chǔ)上引入一個(gè)新概念“信息集”。
 

舉例而言,在撲克游戲中,玩家 A 拿了兩張 K,玩家 B 拿了不同的牌對(duì)應(yīng)不同的狀態(tài);但是從 A 的視角看,這些狀態(tài)是不可區(qū)分的。
 

“我們把每組這種無法區(qū)分的游戲狀態(tài)稱為一個(gè)信息集。”劉鐵巖介紹道。
 

完美信息游戲里所有信息都是已知的,每個(gè)信息集只包含一個(gè)游戲狀態(tài),因此它的信息集數(shù)目與狀態(tài)空間數(shù)目是相等的。
 

而不完美信息游戲中,每個(gè)信息集包含若干個(gè)游戲狀態(tài),因此信息集數(shù)目通常小于狀態(tài)空間的數(shù)目。
 

與信息集數(shù)目匹配的,是信息集的平均大小。這個(gè)概念指的是在信息集中平均有多少不可區(qū)分的游戲狀態(tài)。
 

據(jù)微軟亞洲研究院博客,信息集的數(shù)目反映了不完美信息游戲中,所有可能的決策節(jié)點(diǎn)的數(shù)目,而信息集的平均大小則反映了游戲中每個(gè)局面背后隱藏信息的數(shù)量。當(dāng)對(duì)手的隱藏狀態(tài)非常多時(shí),傳統(tǒng)的搜索算法基本上無從下手。
 

 

(圍棋、德州撲克、橋牌和麻將的信息集數(shù)目和信息集平均大小對(duì)比)圍棋和德州撲克的信息集平均大小遠(yuǎn)遠(yuǎn)小于橋牌和麻將。AI 在圍棋和德州撲克上的成功很大程度依賴于搜索算法,因?yàn)樗阉骺梢宰畲蟪潭鹊匕l(fā)揮計(jì)算機(jī)的計(jì)算優(yōu)勢(shì)。
 

橋牌和麻將中,由于信息集平均大小比較大,存在著較多隱藏信息,難以直接采用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。
 

此外,日本麻將有著復(fù)雜的獎(jiǎng)勵(lì)機(jī)制。日麻一輪游戲共包含 8 局,最后根據(jù) 8 局的得分總和進(jìn)行排名,來形成最終影響段位的點(diǎn)數(shù)獎(jiǎng)懲。玩家的段位越高,輸?shù)舯荣惡罂鄣舻狞c(diǎn)數(shù)越多,因此有時(shí)麻將高手會(huì)策略性輸牌。
 

劉鐵巖舉例道:“比如,A 玩家已經(jīng)大比分領(lǐng)先第二名的情況下,在底 8 輪時(shí)就會(huì)相對(duì)保守,確保自己不會(huì)輸。”這為構(gòu)建高超的麻將 AI 策略帶來了額外的挑戰(zhàn),AI 需要審時(shí)度勢(shì),把握進(jìn)攻與防守的時(shí)機(jī)。
 

Suphx 是如何解決難題的?
 

項(xiàng)目一開始,劉鐵巖團(tuán)隊(duì)用了一些“基線(Baseline)的解決辦法”——嘗試用 AlphaGo 和德州撲克上的方法解一解看看怎么樣。
 

“麻將的種種特點(diǎn)決定了,很難直接利用 AlphaGo 等棋盤游戲 AI 常用的蒙特卡洛樹搜索算法。”劉鐵巖強(qiáng)調(diào),“這激勵(lì)我們要想出新的點(diǎn)子。”
 

在一年多的摸索期,劉鐵巖團(tuán)隊(duì)基于深度強(qiáng)化學(xué)習(xí)技術(shù),并且引入三項(xiàng)新技術(shù)來提升強(qiáng)化學(xué)習(xí)的效果。深度強(qiáng)化學(xué)習(xí)是深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的結(jié)合。這項(xiàng)技術(shù)集合了深度學(xué)習(xí)在感知問題上強(qiáng)大的理解能力,以及強(qiáng)化學(xué)習(xí)的決策能力,通常用于解決現(xiàn)實(shí)場(chǎng)景中的復(fù)雜問題。
 

在深度強(qiáng)化學(xué)習(xí)的基礎(chǔ)上,針對(duì)非完美信息游戲的特點(diǎn),劉鐵巖團(tuán)隊(duì)嘗試用“先知教練”技術(shù)來提升強(qiáng)化學(xué)習(xí)的效果。
 

先知教練技術(shù)的基本思想是在自我博弈的訓(xùn)練階段,利用不可見的一些隱藏信息來引導(dǎo) AI 模型的訓(xùn)練方向,使其學(xué)習(xí)路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼 AI 模型更加深入地理解可見信息,從中找到有效的決策依據(jù)。
 

然而,在訓(xùn)練模型階段采用的先知教練技術(shù),在真正的實(shí)戰(zhàn)中是沒有的,這意味著訓(xùn)練和實(shí)戰(zhàn)間存在著一個(gè) Gap(差距)。
 

劉鐵巖對(duì) PingWest 品玩表示:“我們不能夠保證一定把那個(gè) Gap 給抹掉,比如說它在訓(xùn)練階段能夠看到不該看到的東西,實(shí)戰(zhàn)中它是永遠(yuǎn)看不到的。這個(gè)信息的 Gap 我們是控制不了的,但是作為先知教練可以引導(dǎo)麻將 AI 不會(huì)走的太偏太遠(yuǎn),會(huì)沿著我們想走的大方向走,。這個(gè)能保證訓(xùn)練過程的平穩(wěn)性,對(duì)深度強(qiáng)化學(xué)習(xí)是非常重要的。”
 

針對(duì)信息集平均大小比較大這個(gè)特點(diǎn),研究團(tuán)隊(duì)引入了自適應(yīng)決策,對(duì)探索過程的多樣性進(jìn)行動(dòng)態(tài)調(diào)控,讓 Suphx 可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能。
 

另外,對(duì)于日本麻將復(fù)雜的獎(jiǎng)勵(lì)機(jī)制,劉鐵巖團(tuán)隊(duì)加入了全盤預(yù)測(cè)技術(shù)。
 

“這個(gè)預(yù)測(cè)器通過精巧的設(shè)計(jì),可以理解每輪比賽對(duì)終盤的不同貢獻(xiàn),從而將終盤的獎(jiǎng)勵(lì)信號(hào)合理地分配回每一輪比賽之中,以便對(duì)自我博弈的過程進(jìn)行更加直接而有效的指導(dǎo),并使得 Suphx 可以學(xué)會(huì)一些具有大局觀的高級(jí)技巧。”劉鐵巖解釋道。
 

總體而言,Suphx 使用的是深度強(qiáng)化學(xué)習(xí)這個(gè)大框架,但又加入了一些創(chuàng)新的技術(shù)點(diǎn):先知教練、自適應(yīng)決策和全盤預(yù)測(cè)。
 

 

在 2019 年 3 月上線 Suphx 平臺(tái)之前,背后這一整套技術(shù)已經(jīng)有了雛形,同時(shí)進(jìn)行了大量的自我博弈。
 

“Suphx 在線上對(duì)戰(zhàn)了 5760 場(chǎng),但在線下自我博弈將近 2000 萬場(chǎng)。”劉鐵巖對(duì) PingWest 品玩表示,“雖然自我博弈學(xué)到的信號(hào)數(shù)量很多,但是學(xué)到更多的是在自己身上怎么提高。5760 場(chǎng)里面我們學(xué)到別人打法的風(fēng)格、以及實(shí)戰(zhàn)中遇到的困難應(yīng)該如何解決。”
 

劉鐵巖透露,研究團(tuán)隊(duì)計(jì)劃過一段時(shí)間會(huì)有一篇比較深入的科學(xué)論文跟大家分享, “在那里面大家會(huì)看到更多的細(xì)節(jié)”。
 

Suphx 背后的技術(shù)可以用在什么地方?
 

AI 進(jìn)化的過程中,游戲 AI 一直相伴相生。1949 年開始,就有科學(xué)家研究算法,讓計(jì)算機(jī)下國際象棋。雙陸棋、國際跳棋、國際象棋、圍棋等棋盤類游戲,都有人機(jī)對(duì)戰(zhàn)的蹤影。
 

1997 年 5 月 11 日,國際象棋 AI 深藍(lán)在正常時(shí)限的比賽中,首次擊敗了等級(jí)分排名世界第一的棋手。這一天成為了人機(jī)對(duì)戰(zhàn)的里程碑。
 

在洪小文看來,游戲 AI 對(duì)解決現(xiàn)實(shí)問題有著重要的研究意義:“現(xiàn)實(shí)世界更加復(fù)雜,而游戲均有一個(gè)清晰的規(guī)則、勝負(fù)判定條件和行動(dòng)準(zhǔn)則。如果不定規(guī)則,大家各做各的,就無法交流。研究也是這樣的,將問題切成小問題,小問題里面規(guī)則定清楚,再往前走。”
 

麻將這一類不完美的信息游戲,正是現(xiàn)實(shí)生活中許多問題的映射。洪小文舉例道:“追女朋友、企業(yè)經(jīng)營、投資,都有大量的你不知道的隱藏信息。”
 

雖然 Suphx 面世不久,背后的技術(shù)還沒有全部應(yīng)用到實(shí)際問題中,但部分技術(shù)已經(jīng)在做嘗試。
 

“我們和華夏基金以及太平資產(chǎn)合作,做了一些實(shí)盤投資的嘗試, 取得了非常好的效果。”劉鐵巖告訴 PingWest 品玩,“我們用歷史交易數(shù)據(jù)訓(xùn)練的 AI 模型,到真正市場(chǎng)上會(huì)面臨完全不一樣的數(shù)據(jù),所以要?jiǎng)討B(tài)地適應(yīng)實(shí)際場(chǎng)景并做出改變,這個(gè)和 Suphx 里面的自適應(yīng)決策是一脈相承的。”
 

盡管落地是研究的最終目標(biāo),但洪小文認(rèn)為,純粹的好奇心對(duì)研究人員來說更加寶貴:“做這項(xiàng)研究的時(shí)候,他們有沒有想過未來可以怎么應(yīng)用?八成是沒有想,也不應(yīng)該想,以好奇心驅(qū)動(dòng)的研究是推動(dòng)整個(gè)科研發(fā)展的基石。最明顯的例子是,基礎(chǔ)數(shù)學(xué)很多研究在當(dāng)時(shí)都不見得有應(yīng)用。”
 

有意思的是,天鳳平臺(tái) CEO 角田真吾在被問到“為什么會(huì)歡迎 AI和人類對(duì)弈”時(shí),給出了和洪小文幾乎一樣的措辭——純粹出自于人類的好奇心


免責(zé)聲明:本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn),轉(zhuǎn)載目的在于傳遞更多信息,并不代表EETOP贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)聯(lián)系我們,我們將在第一時(shí)間刪除!

關(guān)鍵詞: AlphaGo AI

  • EETOP 官方微信

  • 創(chuàng)芯大講堂 在線教育

  • 半導(dǎo)體創(chuàng)芯網(wǎng) 快訊

全部評(píng)論

主站蜘蛛池模板: 久久综合九色综合国产| 一级片一级片一级片| 免费观看a级片| 国产精品成人在线| 麻豆传媒入口直接进入免费| 中文字幕亚洲欧美一区| 亚洲免费黄色| 国产毛片a| 99久久综合狠狠综合久久aⅴ| 免费精品国产日韩热久久| 亚洲国产欧美一区| 日本aaa级片| 亚洲国产精品一区二区久久| 国产福利一区二区在线观看| 国内精品久久久久久西瓜色吧| 337p粉嫩大胆噜噜噜鲁| 午夜网站在线播放| 欧美一做特黄毛片| 国产在线观看免费不卡| 95视频在线播放| 欧美成人a级在线视频| 亚洲国产日产韩国欧美综合| 999宝藏网| 中日韩欧美视频| 欧美r级限制禁片在线观看| 国产在线综合视频| 国产黄大片在线观看视频| 成人免费观看国产高清| 国产亚洲精品日韩香蕉网| 久久久久在线| 亚洲国产一| 亚洲偷图色综合色就色| 久久久精品久久| 在线免费视频一区二区| 国产xxx免费观看| 黄色片免| 国产精品福利久久香蕉中文| 三级网址在线| 婷婷 综合| 综合在线视频| 1024.1024亚洲 国产 图片|