摜蛋怎麼打能贏？南京大學知名計算機團隊提出“玩轉”方法

近來，摜蛋正以迅雷不及掩耳之勢，占領很多人的休閑生活，成為不少地方最為吃香的大眾娛樂。根據工人日報微信公號發佈的數據，據不完全統計，僅在江蘇和安徽兩省就有超過2000萬人經常參加各類摜蛋活動，全國摜蛋愛好者已達1.4億人。

澎湃新聞記者查詢發現，中國科學院計算技術研究所官方微信公眾號1月30日刊文《南京大學高陽團隊帶您“玩轉”摜蛋》。

文章介紹，國內撲克遊戲，如摜蛋、鬥地主等非完美信息博弈，具有信息集狀態多、動作空間復雜、狀態動作難以約簡等特點，大部分現有方法難以應用。本文對摜蛋進行研究，提出的SDMC方法在第2屆“中國人工智能博弈算法大賽”取得冠軍。

文章在摘要部分介紹：在不確定信息的復雜環境下進行決策是現實中人們經常面對的困難之一，因此具有能夠進行良好決策的能力被視為人工智能的重要能力之一。而遊戲類型的博弈作為對現實世界的一種高度抽象，具有良定義、易檢驗算法優劣等特點，成為研究的主流。其中以摜蛋為代表的撲克類博弈不僅具有他人手牌未知這樣的難點，還由於可選出牌動作與他人手牌情況數量龐大等特點，難以進行高效求解。

因此，本文提出了一種軟深度蒙特卡洛（soft deep Monte Carlo，SDMC）求解方法。該方法能夠更好地融合領域知識，加快策略學習速度，並采用軟動作采樣策略調整實時決策，提升策略勝率。所提出的SDMC方法訓練出的策略模型參加第2屆“中國人工智能博弈算法大賽”時獲得冠軍。與第1屆比賽冠軍策略和第2屆其他策略模型的實驗對比證明了該方法在解決摜蛋撲克博弈中的有效性。

文章總結：本文提出了一種針對摜蛋撲克博弈的軟深度蒙特卡洛SDMC方法。SDMC方法在學習過程中不僅采用了軟啟動方法，結合已有策略，加速模型訓練過程，同時采取軟動作采樣，在實際對戰過程中，保證選擇的策略在當前模型下的評估值變化不大的情況下對動作進行采樣，降低訓練過程中方差帶來的影響，並增加被對手利用的難度。在摜蛋環境下的實驗表明，本文所提方法SDMC相較於現有方法有著更高的對戰勝率與凈勝得分。之後，擬從軟動作采樣的角度出發，依據現有模型的動作評估值，結合子博弈求解方法提升在實戰環境下的策略強度，致力於得到在團體對戰情況下的團隊最大最小均衡等博弈論角度下的最優策略，最終實現在摜蛋等撲克博弈環境下戰勝人類的職業選手。

據南京大學官網介紹，高陽教授，博導。目前任南京大學健康醫療大數據國傢研究院常務副院長，南京大學陸海安全決策技術教育部重點實驗室副主任。曾任南京大學計算機科學與技術系副主任(2011-2023)。2009年入選江蘇省“333高層次人才培養工程”第二批中青年科學技術帶頭人，2010年入選教育部新世紀優秀人才支持計劃，2019年度入選江蘇省高等學校優秀科技創新團隊負責人，2022年入選江蘇省軍民融合創新領軍人才，2022年入選“天山學者”。中國人工智能學會會士，江蘇省人工智能學會常務副理事長。

高陽1997年開始從事人工智能、機器學習、多智能體系統、大數據、圖像和視頻分析等領域的學術研究。作為第一負責人主持國傢自然科學基金重大項目課題、重點項目、軍民共性技術聯合基金項目各一項、面上項目三項、青年項目一項；主持科技部國際合作專項一項、科技創新2030—“新一代人工智能”重大項目課題兩項；主持江蘇省自然科學基金重點項目一項，江蘇省重點研發計劃項目一項等。

高陽基於所研究成果，在國際學術期刊(IEEE Transactions系列)、國際會議(CCF-A/B類會議)和國內一級刊物上(計算機學報、軟件學報等)發表學術論文數200餘篇，譯著《統計強化學習》、《機器學習的算法視角》，編著《分佈式人工智能》等。獲授權專利10項，國際PCT專利1項；獲江蘇省科學技術獎二等獎一次(“面向復雜交互場景的新型機器學習技術”，排名第一)、中國人工智能學會吳文俊自然科學獎二等獎一次(“強化學習理論與應用”，排名第一)、軍隊醫療成果獎二等、三等各一項。

高陽目前為中國人工智能學會會士、智能服務專委會副主任/機器學習專業委員會常委/粒計算與知識發現專業委員會常委；中國計算機學會傑出會員，人工智能與模式識別專業委員會常委、秘書長/多智能體與智能系統學組常務副組長/大數據專傢委委員；中國指揮與控制學會信息融合專委會副主任/智能博弈與兵棋推演專委會常委；江蘇省人工智能學會常務副理事長；江蘇省軟件與信息服務標準化委員會人工智能標準工作組組長等。擔任《軟件學報》、《智能系統學報》、《計算機科學》、《模式識別與人工智能》、《ZTE Communications》等期刊的編委。

以下為《基於深度強化學習的摜蛋撲克博弈求解》的圖文介紹：