超級「輔助」來了！谷歌推出通用AI：能聽玩家指令，陪打游戲

谷歌DeepMind帶來了一款能夠陪伴玩家打游戲、聽從玩家指揮的AI。

當地時間3月13日，谷歌DeepMind推出了名為SIMA（Scalable Instructable Multiworld Agent，即可擴展、可指導、多世界的智能體）的AI智能體（AI Agent），將其稱為全球首款能在廣泛的3D虛擬環境和視頻游戲中遵循自然語言指令的「通用AI智能體」。

AI能夠幫助玩家打游戲早已不是什麼新鮮事，但這款SIMA的不同之處在於，它並不會通過「後台操作」來讓玩家單純地在游戲中獲得勝利，而是會像「夥伴」一樣聽從玩家用自然語言給出的指令，在多種3D游戲中輔助玩家完成復雜任務。

為了訓練出能夠適應不止一款游戲的通用型游戲AI，DeepMind與多家游戲開發商建立了合作關系，在《無人深空》《模擬山羊3》《幸福工廠》等九款在玩法和操作上截然不同的視頻游戲中對SIMA進行了訓練和測試。DeepMind為SIMA展示了玩家組合遊玩不同游戲以及自由遊玩的錄像，通過大量數據的輸入來讓SIMA歸納出常見的玩家操作，以及語言和行為之間的聯系。

SIMA的訓練過程。來源：DeepMind官網

此外，DeepMind還用到了四個研究環境，其中包括用Unity創建的一個新環境，名為「the Construction Lab」。在這個環境中，智能體需要使用積木構建雕塑，以測試它們對物體的操縱能力和對物理世界的理解。

在整體架構上，SIMA將預訓練視覺模型與自監督學習的Transformer相結合，從用戶那裡接收語言指令，並從環境中獲取圖像觀察結果，然後將它們輸出為鍵盤和鼠標動作，以操控游戲中的角色。

這意味着，SIMA不需要訪問游戲的源代碼，也不需要定製的API來使用，僅需要屏幕上的圖像和用戶提供的自然語言指令這兩個輸入，就能夠與任何潛在虛擬環境進行交互。

DeepMind表示：「SIMA是一個AI智能體，能夠感知和理解各種環境，並採取行動來實現指定的目標。它包括一個設計用於精確圖像語言映射的模型，以及一個用於預測屏幕上接下來會發生什麼的視頻模型。我們利用SIMA所涉及的特定3D設置的數據來微調這些模型。」

據介紹，當前版本的SIMA已經在600種基本技能上獲得評估，涵蓋導航（例如「向左轉」）、物體交互（「爬梯子」）和菜單使用（「打開地圖」）等。經過DeepMind的訓練，SIMA已經能執行可以在約10秒內完成的簡單任務。最終，SIMA將學會如何遊玩任何視頻游戲，甚至是沒有線性結束路徑的游戲和開放世界游戲。

SIMA掌握的部分游戲技能。來源：DeepMind官網

在評估測試中，研究人員讓SIMA在九個3D游戲集上接受訓練，其表現顯著優於僅在單個游戲上專門訓練的智能體，並且在未訓練過的游戲中的表現和專門使用該游戲數據集訓練過的智能體表現一樣好，證明了SIMA在全新環境中具備泛化能力。

毫無疑問，SIMA顯示出，AI在游戲中的表現依然很有潛力。或許在不久的將來，由AI驅動的NPC（非遊玩角色）也能真正做到像人類一樣陪伴玩家進行游戲，而不再只會按照既定的代碼運行。

就在上個月，DeepMind團隊還展示了基礎世界模型Genie，可根據合成圖像、照片、草圖生成動作可控的2D世界。其模型參數只有110億，根據人類玩2D平台類游戲的20多萬小時視頻進行無監督訓練。不過Genie生成的「游戲」畫質很糊，離實時可玩還很遠。