當前位置:首頁 > 科技 > 正文

這場比賽,讓上百個AI智能體「卷起來了」

機器之心報道

作者:蛋醬 過去數年,随着神經網絡、基于強化學習的自我博弈、多智能體學習和模仿學習等通用機器學習理論的突破,AI 智能體的決策能力實現了飛躍式發展。
可以看到,不管是谷歌、微軟、IBM 等全球科技巨頭,還是國内一衆 AI 龍頭企業,在學術研究和産業落地上,它們的關注焦點都在從智能感知向智能決策過渡。「決策 AI」成了領域内的必争之地。
今年 5 月,谷歌旗下的機構 DeepMind 發布 Gato,這款全新的 AI 智能體能夠在「廣泛的環境中」完成 604 項不同的任務。Gato 的誕生,再次刷新了單智能體的能力上限。當然,關于 AI 決策能力的探索不會僅限于此,如果讓海量智能體在一個接近真實世界的開放決策環境中「狹路相逢」,它們會做出何種判斷和選擇,又會怎樣分工合作、競争呢? 近日,由超參數科技發起,麻省理工學院、清華大學深圳國際研究生院,以及知名數據科學挑戰平台 AIcrowd 聯合主辦的「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」落幕。在這場比賽中,我們發現了一些進行新探索的可能性。


複雜環境中的多智能體博弈
近年來,多智能體環境已經成為深度強化學習的一個有效研究平台。目前,強化學習環境要麼足夠複雜,但限制條件太多,普适性不強;要麼限制條件很少,但過于簡單。這些問題限制了更高複雜度任務的創建,也很難激發出多智能體更高階的決策能力。
2019 年,MIT 博士生 Joseph Suarez 在 OpenAI 實習期間開發了 Neural MMO,他借鑒大型多人在線遊戲(MMO),模拟出一個龐大的生态系統,系統中包含數量不等的智能體,并讓它們在持久、廣闊的環境中競争。行業人士普遍認為,「這個模拟相當有趣」。與過往着眼于技術水準的 AI 遊戲對戰環境不同,Neural MMO 涉及到了 AI 的長期判斷和選擇,更考驗智能體的決策能力。 「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」使用的正是上述環境。主辦方表示,選擇 Neural MMO 主要基于兩點:一是 Neural MMO 類似于開放世界生存遊戲,本身有一個自運轉系統,并且定義了采集、攻擊、生存等基本機制,二是它支持海量 AI 共存、交互,并湧現策略。無論在學術界還是工業界,這種環境都不多見。

Neural MMO環境
在這場比賽中,每局對戰都包含 16 支隊伍,每支隊伍包含 8 個智能體,這些智能體小分隊要在 128x128 的地圖上進行自由對抗。根據主辦方的設計,每個智能體小分隊要達成覓食、探索、競争、打怪四項成就。這意味着每個環境裡有 128 個智能體同時決策,每支隊伍裡的 8 個智能體要為了不同的目标進行有效的合作分工。


在這種情況下,每個智能體都要發揮自己的強項,必要時,為了團隊能夠獲得「最後的勝利」,一部分智能體還要學會「主動送人頭」。鑒于環境裡有多個智能體在同時學習,智能體們不僅需要考慮自己期望得到何種獎勵,還要考慮對手可能會采取什麼策略。再加上每一局對戰都要完成四項任務,層層設置之下,每個智能體面臨的「抉擇」都有更高的決策複雜度。
讓海量智能體「卷」起來
對一場學術性質的比賽來說,除了找到好問題,還要有足夠多的好選手。為此,主辦方從賽事規則、工具、賽事支持等方面對 Neural MMO 挑戰賽進行了全面優化。 在工具層面,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」升級了提交系統,讓第一次成功提交到返回結果的時間從原來的兩個多小時減少到十分鐘;此外,挑戰賽還提供了全新的 StarterKit 和 Baseline 。在 StarterKit 中,參賽者隻需要跑一遍代碼,就可以完成第一個提交;在 Baseline 中,用戶隻需要訓練兩天,就可以完成 Stage 1 0.5 的勝率,運行訓練四天,就可以獲得 Stage 1 0.8 的勝率。
這些設計幫助參賽者在初始階段迅速地熟悉規則,并以此節省大量時間。利用省下來的時間,參賽者們可以将思考重點放在定義智能體在 Neural MMO 環境中的決策方式上,比如進行獎勵信号的設計等。
在賽制上,這場 Neural MMO 挑戰賽采取了 PvE 與 PvP 結合的方式。在 PvE 階段,每個 Stage 的内置 AI 難度會逐漸增加,參賽者由此感受到「梯度」。Stage 1 的難度是最低的,包含了一些基于簡單規則編寫的開源腳本。之後,Stage 2 的難度會變得更高,主辦方基于經典的 PPO 算法對内置 AI 進行訓練,并加入自我博弈(Self-Play)的訓練機制。到了 Stage 3,智能體的綜合能力進一步升級,選手們面對的已經是高度團結的競争對手隊伍。
在 PvE 階段獲,成就分達到 25 的隊伍即可晉級;但在 PvP 階段,難度上升,對戰對象從内置 AI 變為其它參賽選手隊伍。
讓 8 個智能體組團完成任務,是合作博弈中的一個經典問題。如果說在 PvE 階段的前兩個 Stage,依靠單打獨鬥還能取得一些成績,那麼随着環境内置 AI 不斷變強,再到對手從環境内置 AI 變為真實世界中的參賽團隊,出戰的智能體小分隊也需要随之完成脫胎換骨般的進化,以此去理解怎樣達成「團隊最優決策」。
基于上述改進,不同水平的參賽者都能在這場賽事中找到适合自己的參賽目标。但同時,要想獲得頂尖名次,智能體的綜合決策能力要能經受住考驗,這就要求選手在智能體的算法設計上具備更深刻的思考。
RL 算法選手,後來者居上
經過三個月的激烈角逐,兩支來自業界的隊伍脫穎而出,斬獲了本屆挑戰賽的冠亞軍。有趣的是,這兩支隊伍均采用強化學習算法,且都是在最後一個月才參賽。
冠軍團隊 LastOrder 提到,相較現有的其他多智能體環境,MMO 有更豐富的内容,例如生存、戰鬥、升級、團隊 PK、随機地圖等。與其他同類比賽不同的是,Neural MMO 挑戰賽給參賽者的規則限制很少,這也為強化學習算法的應用提供了廣闊的發揮空間。
NeuralNoob 是亞軍獲得者,他認為 Neural MMO 最明顯的特點在于支持的海量智能體,本場比賽的設置為 128 個,但實際上可以增加到上千或者更多。「它是一個多任務的環境,每個智能體需要在必要的時候改變策略各司其職,具有更大的研究價值。」
在比賽過程中,LastOrder 設計了分布式強化學習訓練框架 Newton,該框架具備高度靈活性及可擴展性。


他們采用獎勵設計等方法間接鼓勵智能體做出合理的行為。在設計合理的獎勵、神經網絡結構等之後,他們觀察到,深度強化學習訓練後的智能體自行湧現了相互配合的行為。
「啟發式算法的優點是思路更加簡明,反饋更加直接。相比之下,強化學習需要更長的訓練時間,以進行網絡結構和參數的調整。」LastOrder 表示,「但強化學習算法所能達到的能力上限更高,更具探索的價值。」
NeuralNoob 同樣采用強化學習算法,整體方案是 ppo 算法加自我博弈 ( self-play) 訓練機制,所有智能體的訓練都将 8 個智能體作為一個團隊來訓練,value 部分則會用到整個團隊的共享表征,并按照 CTDE 的方式訓練。
在 LastOrder 看來,MMO 這個平台還存在更多想象空間:例如它可以引入更多遊戲要素,甚至可以變成一個開放的線上遊戲,促進 Human in the loop 等領域的相關研究。對此,NeuralNoob 持相似看法,他認為可以有更多樣的裝備供智能體選擇,并設置一個安全區,智能體到達安全區後不能發動攻擊,同時可以和敵方智能體進行裝備交易。
在 NeuralNoob 的設想裡,甚至可以讓智能體臨時和敵方智能體進行合作,聯手擊殺一些強大的内置 AI,而同敵方智能體的合作将會讓 MMO 更符合真實世界中合作與競争共存的關系。
NeuralNoob 認為,這些是強化學習目前比較難勝任的地方,強大如 openai five,也是通過手寫規則來實現出裝路線,因為設計到裝備選擇的訓練樣本占比勢必會很小,但依賴鍊卻很長。
智能決策的「今天」和「未來」
更長遠地看,Neural MMO 環境提供了一個廣闊、高自由度的學術框架,可以推動一些種群層面的行為研究,比如如何高效組隊,它甚至能衍生出社會學、經濟學方面的概念研究,這些都是現階段相關領域内瓶頸仍存的研究方向。正因此,「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」 在學術研究層面的意義也更加凸顯。
任何關于決策智能的學術研究,人們都希望它能在真實的産業場景中發揮價值,包括但不限于商業遊戲、量化交易。在現實生活中,決策的代價可能會非常大,這是因為,一方面,決策會直接導緻結果,所以決策水平的質量高低,跟結果帶來的收益直接相關;另一方面,決策所設定的環境相當複雜,而想要在真實世界中做預演,成本也會非常高。
在學界、業界對智能決策的探索過程中,Neural MMO 無疑有希望成為一個很好的試驗載體。但現實中的智能決策往往更加複雜,有着更長的決策鍊條。如何進一步仿真模拟,讓 Neural MMO 更大程度上地接近現實決策環境,這需要整個行業進行長期探索。
據了解,超參數科技将依托 2022 NeurlPS 會議舉辦新一輪 NMMO 挑戰賽。相較于「IJCAI 2022-Neural MMO 海量 AI 團隊生存挑戰賽」,新賽事增加了交易系統,豐富了裝備品類、多職業分工以及毒圈機制,這使得它本就開放的環境變得更加貼合現實決策環境。同時,持續豐富的智能體之間合作及競争的交互方式也大大增加了決策多樣性、策略深度以及合作競争的可能性。
在Neural NMMO系列挑戰賽中,智能體與環境中的内置AI、敵方智能體,以及隊友之間産生了大量交互,形成實時反饋,在動态的決策環境中達成最優決策,研究結果推動智能決策技術的發展。不遠的将來,智能決策技術将成為數字化轉型的加速器,推進能源、物流、工業等産業領域的研究落地和成果轉化,為更多「不确定」的真實決策場景提供相對「确定」的答案。

你可能想看:

有話要說...

取消
掃碼支持 支付碼