久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      最強日本麻將AI是怎么煉成的?

      “我突然想起了一句話,神仙怎么打都是對的。”

      “這個AI的牌效不是一般鳳凰(有一定實力的玩家)能摸清的,人名字就是super phoenix(超級鳳凰)。”

      “感覺ai的打法都不太能被推理完全,這種基于訓練的對某種特征做出的反應對于人類來說就是迷啊…”

      這些評論來自于B站上一個系列的視頻,視頻主角是一個名為Suphx(意為Super Phoenix)的麻將AI。2019年6月,有創(chuàng)作者開始制作Suphx牌譜的視頻。上傳到B站后,引起了不少麻將愛好者的討論。

      在多數(shù)評論里,Suphx被稱為“最強日麻人工智能”。

      最強日本麻將AI是怎么煉成的?

      事實上,不止是國內(nèi)的B站,當時Suphx的聲名已經(jīng)傳遍了日本麻將界。

      神秘的最強日麻AI

      2019年3月起,Suphx獲批進入專業(yè)麻將平臺“天鳳”。短短四個月內(nèi),Suphx在該平臺瘋狂對戰(zhàn)5760次,成功達到十段,從而在日本麻將界聲名大噪。

      麻將在中國群眾基礎深厚、普及率高,有“國粹”之稱,但民間流行的麻將規(guī)則不一,且競技化程度相對較低,而日本麻將擁有世界上競技化程度最高的麻將規(guī)則。天鳳則是業(yè)界知名的高水平日本麻將平臺。它吸引了全球近33萬名麻將愛好者,其中不乏大量的專業(yè)麻將選手。

      天鳳平臺規(guī)定,只有獲批準的AI才可以進入“特上房”參與對戰(zhàn),目前在該房間可以達到的最高段位是十段。另一個房間是“鳳凰房”,最高段位是十一段,僅對七段以上的人類付費玩家開放,目前不允許AI參與游戲。

      除了Suphx,還有另外兩個AI也獲準進入“特上房”比賽,分別是“爆打”和“NAGA25”。目前,Suphx是唯一一個達到“特上房”最高段位的AI。

      由于單局麻將存在著很大的運氣成分,所以天鳳平臺會通過“穩(wěn)定段位”來衡量一位玩家的真實水平。在5760場比賽過后,Suphx的穩(wěn)定段位超過了8.7,不僅高于爆打和NAGA,還超越了頂級人類選手(十段及以上)的整體穩(wěn)定段位。

      最強日本麻將AI是怎么煉成的?

      這些成就意味著,Suphx在四個月內(nèi)成長為了最強日麻AI。日本麻將的愛好者和專業(yè)參賽選手,紛紛尋找著它背后的開發(fā)者,但一無所獲。

      最強日本麻將AI是怎么煉成的?

      (Suphx的官方社交賬號上,只有簡單的介紹)

      直到8月29日世界人工智能大會舉行,Suphx的身世才被公諸于世。當天上午,微軟全球執(zhí)行副總裁、微軟人工智能及微軟研究事業(yè)部負責人沈向洋博士對外宣布,Suphx是微軟亞洲研究院的工作成果,由劉鐵巖博士帶隊研發(fā)。

      劉鐵巖博士是微軟亞洲研究院副院長,長于深度學習、增強學習、分布式機器學習等領(lǐng)域。他的團隊曾發(fā)布了微軟分布式機器學習工具包(DMTK)、微軟圖引擎(Graph Engine)等開源項目。

      最強日本麻將AI是怎么煉成的?

      (微軟亞洲研究院副院長劉鐵巖) 對AI來說,為什么麻將比圍棋、德州撲克更難?

      “2017年中旬,我們一個研究團隊跟我說要做麻將AI。我也不知道能不能成,因為相比象棋、圍棋、德州撲克,麻將的難度更高。而且,他們打麻將水平都不怎么樣。”微軟全球資深副總裁、微軟亞太研發(fā)集團主席兼微軟亞洲研究院院長洪小文對PingWest品玩表示。

      麻將的難,在于其屬于“不完美信息游戲”(Imperfect-Information Games),讓計算機擅長的搜索能力無法直接發(fā)揮,且具備復雜的獎勵機制。

      不完美信息游戲,是指游戲中信息暴露程度低。“圍棋、象棋等棋類游戲,對局雙方可以看到局面的所有信息,屬于完美信息游戲(Perfect-Information Games);而撲克、橋牌、麻將等游戲,雖然每個參與者都能看到對手打過的牌,但并不知道對手的手牌和游戲的底牌,屬于不完美信息游戲”。

      在日本麻將中,每個玩家有13張手牌,另外還有84張底牌。對于一個玩家而言,他只知道自己手里的13張牌和之前已經(jīng)打出來的牌,卻無法知道別人的手牌和沒有翻出來的底牌。所以,最多的時候一位玩家未知的牌有超過120張。

      為了更好地解釋不完美信息游戲,劉鐵巖打了個比方:“如果把圍棋這樣的(完美信息)比賽比喻成一顆游戲樹,那像麻將這樣的比賽就是很多樹組成的森林,參與者并不知道自己在哪棵樹上。”

      對于完美信息游戲,通??梢杂?ldquo;狀態(tài)空間復雜度”和“游戲樹復雜度”來衡量其游戲難度。

      所謂“狀態(tài)空間復雜度”,即游戲開始后,棋局進行過程中,所有符合規(guī)則的狀態(tài)總數(shù)量。“例如棋類游戲中,每移動一枚棋子或捕獲一個棋子,就創(chuàng)造了一個新的棋盤狀態(tài),所有這些棋盤狀態(tài)構(gòu)成游戲的狀態(tài)空間”。

      計算狀態(tài)空間復雜度最常用的一種方法是,包含一些不符合規(guī)則或不可能在游戲中出現(xiàn)的狀態(tài),從而計算出狀態(tài)空間的一個上界(Upper Bound)。例如在估計圍棋狀態(tài)數(shù)目上界的時候,允許出現(xiàn)棋面全部為白棋或者全部為黑棋的極端情況。

      游戲樹復雜度(GTC)代表了所有不同游戲路徑的數(shù)目,是一個比狀態(tài)空間復雜得多的衡量維度,因為同一個狀態(tài)可以對應于不同的博弈順序。

      微軟亞洲研究院的博客舉了一個例子:下圖中,兩邊的井字棋游戲都有有兩個X和一個O,屬于同一狀態(tài)。但這個狀態(tài)可能由兩種不同的方式形成,形成路徑取決于第一個X的下子位置。

      最強日本麻將AI是怎么煉成的?

      (井字棋游戲中統(tǒng)一狀態(tài)的不同形成過程)

      在完美信息棋牌游戲中,不管是狀態(tài)空間復雜度,還是游戲樹復雜度,圍棋都遠遠超過其他棋牌類游戲。

      而對于不完美信息游戲而言,衡量游戲難度的維度更加復雜,需要在狀態(tài)空間復雜度的基礎上引入一個新概念“信息集”。

      舉例而言,在撲克游戲中,玩家A拿了兩張K,玩家B拿了不同的牌對應不同的狀態(tài);但是從A的視角看,這些狀態(tài)是不可區(qū)分的。

      “我們把每組這種無法區(qū)分的游戲狀態(tài)稱為一個信息集。”劉鐵巖介紹道。

      完美信息游戲里所有信息都是已知的,每個信息集只包含一個游戲狀態(tài),因此它的信息集數(shù)目與狀態(tài)空間數(shù)目是相等的。

      而不完美信息游戲中,每個信息集包含若干個游戲狀態(tài),因此信息集數(shù)目通常小于狀態(tài)空間的數(shù)目。

      與信息集數(shù)目匹配的,是信息集的平均大小。這個概念指的是在信息集中平均有多少不可區(qū)分的游戲狀態(tài)。

      據(jù)微軟亞洲研究院博客,信息集的數(shù)目反映了不完美信息游戲中,所有可能的決策節(jié)點的數(shù)目,而信息集的平均大小則反映了游戲中每個局面背后隱藏信息的數(shù)量。當對手的隱藏狀態(tài)非常多時,傳統(tǒng)的搜索算法基本上無從下手。

      最強日本麻將AI是怎么煉成的?

      (圍棋、德州撲克、橋牌和麻將的信息集數(shù)目和信息集平均大小對比)

      圍棋和德州撲克的信息集平均大小遠遠小于橋牌和麻將。AI在圍棋和德州撲克上的成功很大程度依賴于搜索算法,因為搜索可以最大程度地發(fā)揮計算機的計算優(yōu)勢。

      橋牌和麻將中,由于信息集平均大小比較大,存在著較多隱藏信息,難以直接采用AlphaGo等棋盤游戲AI常用的蒙特卡洛樹搜索算法。

      此外,日本麻將有著復雜的獎勵機制。日麻一輪游戲共包含8局,最后根據(jù)8局的得分總和進行排名,來形成最終影響段位的點數(shù)獎懲。玩家的段位越高,輸?shù)舯荣惡罂鄣舻狞c數(shù)越多,因此有時麻將高手會策略性輸牌。

      劉鐵巖舉例道:“比如,A玩家已經(jīng)大比分領(lǐng)先第二名的情況下,在底8輪時就會相對保守,確保自己不會輸。”這為構(gòu)建高超的麻將AI策略帶來了額外的挑戰(zhàn),AI需要審時度勢,把握進攻與防守的時機。

      Suphx是如何解決難題的?

      項目一開始,劉鐵巖團隊用了一些“基線(Baseline)的解決辦法”——嘗試用AlphaGo和德州撲克上的方法解一解看看怎么樣。

      “麻將的種種特點決定了,很難直接利用AlphaGo等棋盤游戲AI常用的蒙特卡洛樹搜索算法。”劉鐵巖強調(diào),“這激勵我們要想出新的點子。”

      在一年多的摸索期,劉鐵巖團隊基于深度強化學習技術(shù),并且引入三項新技術(shù)來提升強化學習的效果。深度強化學習是深度學習和強化學習的結(jié)合。這項技術(shù)集合了深度學習在感知問題上強大的理解能力,以及強化學習的決策能力,通常用于解決現(xiàn)實場景中的復雜問題。

      在深度強化學習的基礎上,針對非完美信息游戲的特點,劉鐵巖團隊嘗試用“先知教練”技術(shù)來提升強化學習的效果。

      先知教練技術(shù)的基本思想是在自我博弈的訓練階段,利用不可見的一些隱藏信息來引導AI模型的訓練方向,使其學習路徑更加清晰、更加接近完美信息意義下的最優(yōu)路徑,從而倒逼AI模型更加深入地理解可見信息,從中找到有效的決策依據(jù)。

      然而,在訓練模型階段采用的先知教練技術(shù),在真正的實戰(zhàn)中是沒有的,這意味著訓練和實戰(zhàn)間存在著一個Gap(差距)。

      劉鐵巖對PingWest品玩表示:“我們不能夠保證一定把那個Gap給抹掉,比如說它在訓練階段能夠看到不該看到的東西,實戰(zhàn)中它是永遠看不到的。這個信息的Gap我們是控制不了的,但是作為先知教練可以引導麻將AI不會走的太偏太遠,會沿著我們想走的大方向走,。這個能保證訓練過程的平穩(wěn)性,對深度強化學習是非常重要的。”

      針對信息集平均大小比較大這個特點,研究團隊引入了自適應決策,對探索過程的多樣性進行動態(tài)調(diào)控,讓Suphx可以比傳統(tǒng)算法更加充分地試探牌局狀態(tài)的不同可能。

      另外,對于日本麻將復雜的獎勵機制,劉鐵巖團隊加入了全盤預測技術(shù)。

      “這個預測器通過精巧的設計,可以理解每輪比賽對終盤的不同貢獻,從而將終盤的獎勵信號合理地分配回每一輪比賽之中,以便對自我博弈的過程進行更加直接而有效的指導,并使得Suphx可以學會一些具有大局觀的高級技巧。”劉鐵巖解釋道。

      總體而言,Suphx使用的是深度強化學習這個大框架,但又加入了一些創(chuàng)新的技術(shù)點:先知教練、自適應決策和全盤預測。

      最強日本麻將AI是怎么煉成的?

      在2019年3月上線Suphx平臺之前,背后這一整套技術(shù)已經(jīng)有了雛形,同時進行了大量的自我博弈。

      “Suphx在線上對戰(zhàn)了5760場,但在線下自我博弈將近2000萬場。”劉鐵巖對PingWest品玩表示,“雖然自我博弈學到的信號數(shù)量很多,但是學到更多的是在自己身上怎么提高。5760場里面我們學到別人打法的風格、以及實戰(zhàn)中遇到的困難應該如何解決。”

      劉鐵巖透露,研究團隊計劃過一段時間會有一篇比較深入的科學論文跟大家分享, “在那里面大家會看到更多的細節(jié)”。

      Suphx背后的技術(shù)可以用在什么地方?

      在AI進化的過程中,游戲AI一直相伴相生。1949年開始,就有科學家研究算法,讓計算機下國際象棋。雙陸棋、國際跳棋、國際象棋、圍棋等棋盤類游戲,都有人機對戰(zhàn)的蹤影。

      1997年5月11日,國際象棋AI深藍在正常時限的比賽中,首次擊敗了等級分排名世界第一的棋手。這一天成為了人機對戰(zhàn)的里程碑。

      在洪小文看來,游戲AI對解決現(xiàn)實問題有著重要的研究意義:“現(xiàn)實世界更加復雜,而游戲均有一個清晰的規(guī)則、勝負判定條件和行動準則。如果不定規(guī)則,大家各做各的,就無法交流。研究也是這樣的,將問題切成小問題,小問題里面規(guī)則定清楚,再往前走。”

      麻將這一類不完美的信息游戲,正是現(xiàn)實生活中許多問題的映射。洪小文舉例道:“追女朋友、企業(yè)經(jīng)營、投資,都有大量的你不知道的隱藏信息。”

      雖然Suphx面世不久,背后的技術(shù)還沒有全部應用到實際問題中,但部分技術(shù)已經(jīng)在做嘗試。

      “我們和華夏基金以及太平資產(chǎn)合作,做了一些實盤投資的嘗試, 取得了非常好的效果。”劉鐵巖告訴PingWest品玩,“我們用歷史交易數(shù)據(jù)訓練的AI模型,到真正市場上會面臨完全不一樣的數(shù)據(jù),所以要動態(tài)地適應實際場景并做出改變,這個和Suphx里面的自適應決策是一脈相承的。”

      盡管落地是研究的最終目標,但洪小文認為,純粹的好奇心對研究人員來說更加寶貴:“做這項研究的時候,他們有沒有想過未來可以怎么應用?八成是沒有想,也不應該想,以好奇心驅(qū)動的研究是推動整個科研發(fā)展的基石。最明顯的例子是,基礎數(shù)學很多研究在當時都不見得有應用。”

      有意思的是,天鳳平臺CEO角田真吾在被問到“為什么會歡迎AI和人類對弈”時,給出了和洪小文幾乎一樣的措辭——純粹出自于人類的好奇心。

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號-2    滬公網(wǎng)安備31011702889846號