圖1:OpenAI的AI自己學(xué)會了如何玩捉迷藏游戲
捉迷藏的游戲自古已有之,它給無數(shù)孩子帶來了無窮的童年樂趣。然而,現(xiàn)在這種古老游戲又在人工智能(AI)領(lǐng)域被賦予了新生,它不僅可以揭示很多關(guān)于AI如何權(quán)衡其所面臨的決策問題,甚至展現(xiàn)了AI與其影響范圍內(nèi)的其他AI(或稱近鄰)互動的方式。
總部位于美國舊金山的AI研究公司OpenAI的研究人員日前發(fā)表論文,對捉迷藏游戲在AI中發(fā)揮的重要作用進(jìn)行了闡述。OpenAI由特斯拉首席執(zhí)行官埃隆·馬斯克(Elon Musk)等硅谷大亨聯(lián)合建立的,并得到了職業(yè)社交網(wǎng)站LinkedIn聯(lián)合創(chuàng)始人里德·霍夫曼(Reid Hoffman)等名人的支持。
在最新發(fā)表的論文中,研究人員描述了大量由AI控制的代理如何在虛擬環(huán)境中捉迷藏的場景,并在此過程中學(xué)習(xí)利用越來越復(fù)雜的方法來躲避和尋找對方。測試結(jié)果表明,競爭中的雙人AI代理團(tuán)隊的自我提高速度比任何單個代理都快。論文的共同作者說,這表明正在發(fā)揮作用的力量可以被利用,并適應(yīng)其他AI領(lǐng)域,以提高效率。
今天開源的捉迷藏AI培訓(xùn)環(huán)境,加入了無數(shù)其他OpenAI、DeepMind和谷歌等公司為應(yīng)對AI難題而提供的眾源解決方案。去年12月,OpenAI發(fā)布了CoinRun,旨在測試強化學(xué)習(xí)代理的適應(yīng)性。最近,該機構(gòu)推出了Neural MMO,即大型強化學(xué)習(xí)模擬器,可以在類似角色扮演游戲(RPG)的世界中訓(xùn)練AI代理。在6月份,谷歌旗下Google Brain部門開源了Research Football Environment,這是用于訓(xùn)練AI掌握足球的3D強化學(xué)習(xí)模擬器。DeepMind上個月揭開了OpenSpiel的面紗,這是個視頻游戲AI培訓(xùn)平臺。
兩位共同作者在這篇最新的論文中寫道:“創(chuàng)造能夠解決各種復(fù)雜的、與人類相關(guān)任務(wù)的智能人工代理,一直是AI社區(qū)中的一個長期挑戰(zhàn)。與人類特別相關(guān)的AI代理將是能夠感知物理世界中的物體、并與之互動的代理。”
訓(xùn)練和玩耍
捉迷藏代理依賴于強化學(xué)習(xí),這是一種利用獎勵來推動軟件政策朝著目標(biāo)方向發(fā)展的技術(shù),可以在反復(fù)試驗中自我學(xué)習(xí)。近年來,與海量計算匹配的強化學(xué)習(xí)取得了巨大的成功,但也有其局限性。指定獎勵函數(shù)或收集演示來監(jiān)督任務(wù)可能既耗時又昂貴。最先進(jìn)的方法要求對專家演示數(shù)據(jù)進(jìn)行監(jiān)督性學(xué)習(xí),并使用獎勵進(jìn)一步提高績效。此外,單個代理在強化任務(wù)中學(xué)習(xí)的技能受到任務(wù)描述的限制;一旦代理學(xué)會了解決任務(wù),就沒有太多改進(jìn)空間了。
相反,研究人員追求的是一種他們稱之為“無方向探索”的政策。在這種政策下,代理在他們對游戲世界的理解中自由進(jìn)化,以設(shè)計出創(chuàng)造性的制勝策略。這類似于DeepMind科學(xué)家去年倡導(dǎo)的多智能體學(xué)習(xí)方法,在一項研究中,多個AI系統(tǒng)被訓(xùn)練為在游戲《雷神之錘III競技場》(Quake III Arena)上玩“奪旗游戲”(Capture The Flag)。與這項研究一樣,AI代理事先沒有被教授游戲規(guī)則,但他們隨著時間的推移學(xué)會了基本策略,并最終在技能上超過了大多數(shù)人類玩家。
微軟的Suphx AI、OpenAI的OpenAI Five、DeepMind的AlphaStar以及Facebook的Pluribus,分別采用了類似的策略來掌握麻將、《刀塔2》(Dota 2)、《星際爭霸》(StarCraft II)以及德州撲克。
圖2:OpenAI的AI在游戲中橫穿地圖
在捉迷藏游戲中,幾個代理(隱藏者)必須在短時間內(nèi)避開競爭對手的視線。在此期間,這些競爭對手被固定住,而搜索者被指示密切關(guān)注隱藏者的動向。(在這里,“視線”是指各個代理面前的135度圓錐形范圍。)如果代理冒險離開游戲區(qū)太遠(yuǎn),并被迫在隨機生成的房間和墻壁中游蕩,并會因此受到懲罰。它們可以拾取分散在環(huán)境中的目標(biāo)(主要是箱子),這些箱子會無限期地鎖定在適當(dāng)?shù)奈恢谩?/p>
代理們在訓(xùn)練過程中發(fā)現(xiàn)了多達(dá)六種獨特的策略,每一種都能幫助它們進(jìn)入下一個游戲階段。起初,隱藏者和搜索者只是逃跑并相互追逐,但經(jīng)過大約2500萬場捉迷藏游戲之后,隱藏者學(xué)會了通過將箱子一起移動并靠墻來構(gòu)建隱藏庇護(hù)所的策略。在進(jìn)行另外7500萬場比賽后,搜索者學(xué)會了移動并利用坡道跳過箱子進(jìn)入避難所的方法。
再進(jìn)行1000萬場比賽后,隱藏者開始將箱子構(gòu)建的坡道帶到游樂區(qū)的邊緣并將其鎖定,以防止搜索者使用它們。最后,在總共3.8億場比賽后,搜索者自學(xué)將箱子帶到游戲區(qū)的邊緣,并有效地利用它們沖進(jìn)隱藏者的避難所中,這利用了游戲空間允許他們在不接觸地面的情況下可與箱子一起移動的優(yōu)勢。
受過訓(xùn)練的代理學(xué)會了協(xié)作,例如分別將他們自己的箱子帶到一個未建造好的避難所地點。此外,他們作為一個團(tuán)隊相互保護(hù),試圖通過在準(zhǔn)備階段鎖定箱子來防御搜索者的“箱子沖浪”。
圖3:OpenAI的AI代理隨著時間的推移而自我完善
研究人員表示,規(guī)模在這方面起到了關(guān)鍵作用。默認(rèn)模型需要在34小時的培訓(xùn)中出現(xiàn)1.23億次才能達(dá)到將技能提升到懂得“斜坡防御”的階段,并且批量越大,培訓(xùn)時間越快。例如,將參數(shù)(從歷史訓(xùn)練數(shù)據(jù)中學(xué)習(xí)的模型部分)的數(shù)量從50萬增加到580萬,樣本效率就提高了2.2倍。
基準(zhǔn)穩(wěn)健性
為了評估代理的穩(wěn)健性,研究人員設(shè)計了一套五項基準(zhǔn)智力測試,分為兩個領(lǐng)域:認(rèn)知和記憶。所有測試都使用與捉迷藏環(huán)境相同的動作空間、觀察空間和對象類型:
1)對象計數(shù)任務(wù)(Object Counting)衡量的是代理是否具有對象持久性的感覺,即理解事物即使在無法察覺情況下仍然存在的能力。
2)鎖定和返回任務(wù)(Lock and Return),衡量代理在執(zhí)行新任務(wù)時是否可以記住其原始位置。
3)在順序鎖定任務(wù)(Sequential Lock)中,四個箱子位于三個沒有門但每個房間都有坡道的隨機房間中,代理必須按照它們以前沒有觀察到的特定順序鎖定所有箱子的位置。
4)在藍(lán)圖構(gòu)建任務(wù)(Construction From Blueprint)中,代理必須將箱子(開放房間中的八個)放置在多達(dá)四個目標(biāo)位置的頂部。
5)在避難所構(gòu)建任務(wù)(Shelter Construction)中,代理必須在圓柱體周圍建造由箱子組成的避難所。
在五個任務(wù)的其中3個里,在捉迷藏環(huán)境中接受預(yù)培訓(xùn)的代理學(xué)習(xí)速度更快,并獲得了比兩個基線更高的最終回報。他們在鎖定和返回任務(wù)、順序鎖定任務(wù)以及藍(lán)圖構(gòu)建任務(wù)任務(wù)方面做得稍好些,但在對象計數(shù)和避難所構(gòu)建方面表現(xiàn)較差。
圖4:這個代理在使用坡道入侵堡壘
研究人員將好壞參半的結(jié)果歸咎于既“糾纏”又難以微調(diào)的技能表征。他們寫道:“我們推測,捉迷藏預(yù)培訓(xùn)優(yōu)于基線的任務(wù)是由于重復(fù)使用學(xué)習(xí)到的特征所致,而在其余任務(wù)上優(yōu)于基線的轉(zhuǎn)移將需要重用學(xué)習(xí)的技能,而這要困難得多。這種評估指標(biāo)強調(diào)了開發(fā)技術(shù)的必要性,以便將在一個環(huán)境中培訓(xùn)的策略有效低應(yīng)用到另一個環(huán)境中。”
未來工作
那么,我們能從這樣的研究中得到什么?簡單的游戲規(guī)則、多代理競爭和大規(guī)模的標(biāo)準(zhǔn)強化學(xué)習(xí)算法可以刺激代理在沒有監(jiān)督的情況下學(xué)習(xí)復(fù)雜的策略和技能。
研究人員寫道:“這些設(shè)置的成功激發(fā)了人們的信心,認(rèn)為這些環(huán)境最終可以使代理獲得無限數(shù)量的技能。這會促使它們形成以人類相關(guān)技能為中心的行為,而不是通過其他自我監(jiān)督的強化學(xué)習(xí)方法生成的技能。”
這些進(jìn)步不僅僅會推動游戲設(shè)計前進(jìn)。研究人員斷言,他們的工作是朝著可能產(chǎn)生“物理基礎(chǔ)”和“人類相關(guān)”行為的技術(shù)邁出的重要一步,并且可能支持診斷疾病、預(yù)測復(fù)雜蛋白質(zhì)結(jié)構(gòu)和分段CT掃描的系統(tǒng)。
Alphabet旗下AI公司DeepMind聯(lián)合創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis) 曾表示:“我們的游戲AI是我們通向通用人工智能的墊腳石。我們進(jìn)行自我測試和所有這些游戲測試的原因是,它們是我們所開發(fā)算法的便利試驗場。最終,我們正在開發(fā)可以轉(zhuǎn)化到現(xiàn)實世界中的算法,以便處理真正具有挑戰(zhàn)性的問題,并幫助這些領(lǐng)域的專家。”(選自:VentureBeat 作者:Kyle Wiggers 編譯:網(wǎng)易智能 參與:小小)