2023 年下半年，AI Agent 正式開啟「大模型下半場」。

自“人工智能”這門學科創立之初，一種可以“觀察世界”-“思考推理”-“做出行動”-“反思學習”的人造代理就是構建通用人工智能的終極目標之一。而基於大模型的 AI Agent 借助大模型強大的推理判斷能力，為 AI Agent 的發展開啟了一扇新的大門。

以 LangChain 的底層思想 ReACT 為例，大模型 Agent 在與外部環境互動時，經歷“思考”-“行動”-“觀察”三個步驟，通過將“行動”與“推理”結合，賦予大模型解決實際問題的能力。

但是，半年過去，直接使用類似 GPT-4 等閉源模型通過 Prompt 的方式構建 Agent 的思路盡管成績斐然，但是不可避免的我們對這類 Agent 的掌控性往往並不高，一些結果不具有可解釋性甚至不可復現。因此，一些工作開始在開源模型的基礎上使用軌跡數據對模型進行微調，以使得 Agent 具備更強的解決問題的能力。

然而，微調這種思路面對著兩大挑戰，首先，微調需要數據，數據不可能完全由人工生成，那麼不可避免的 Agent 進行規劃所需的“思考軌跡”的數據依然依賴於閉源模型生成。其次，使用單一的一個語言模型，是否足夠強大以使得其可以從數據中完整的學習出任務所需的一切規劃能力也是一個 Agent 設計者與開發者不得不被考慮的問題。

基於此，來自浙江大學的團隊 2024 年開年，創新了大模型 Agent 學習框架，提出了 AUTOACT，在不依賴大規模的標註數據和來自閉源模型合成的軌跡數據的基礎上，通過分工策略生成能完成任務的子代理組，在與眾多 Agent 的對比中表現出了相當不錯的性能。當使用 Llama-2-13b 模型時，其表現甚至能夠與 GPT-3.5-Turbo 相當！

論文題目：

AUTOACT: Automatic Agent Learning from Scratch via Self-Planning

AUTOACT 框架

首先，讓我們來宏觀的看一下 AUTOACT 的框架。AUTOACT 隻需要關於目標任務的相關信息以及一個大模型 Agent （論文中稱為 Meta-Agent）即可啟動，如下圖所示，Meta-Agent 首先進行“Self-Instruct”對任務數據進行擴充，並添加到其任務數據庫之中，接下來，借助可用的工具庫，Meta-Agent 可以自動挑選所用的工具，合成相關的軌跡數據，並通過“Self-Differentiation”進行自我分化，構建“規劃”，“工具”，“反思”三個子智能體使用數據集中的數據進行微調學習，最終在三個子智能體的“合作”下，解決相關任務。

在這個框架之下，Meta-Agent 作為 AUTOACT 的中心，主要負責在分化子智能體前的一切“準備工作”，並且同時，Meta-Agent 也是分化的子智能體的基礎模型。整個 Meta-Agent 可以使用任何一個開源模型進行初始化，而在論文中作者主要使用了 Llama-2 模型。

在初始時刻，任務數據庫 D 被設置為僅僅包含任務描述中的示例 C，以 C 作為“種子”，在 Self-Instruct 階段 Meta-Agent 通過 Few-shot 的方式生成新的“問題-答案”對，並添加到數據庫 D 中，Few-shot 的示例數據由 D 中隨機采樣，依次重復知道數據庫中數據量滿足任務所需即停止。其 Few-shot 的 Prompt 為：

在通過 Self-Instruct 搭建起數據集後，Meta-Agent 接下來完成“工具選擇”與“軌跡合成”兩步，其中工具選擇用於從工具庫中挑選完成任務所需的工具，其 Prompt 為：

可以看到，在選擇過程中，Meta-Agent 將為接下來分化的三個子 Agent 分別選擇其所用的工具。在挑選好工具後，在不依賴閉源模型的情況下，論文使用 Zero-shot 的方式使得 Meta-Agent 基於數據集合成模型的思考軌跡數據，遵循 ReACT 的“思考”-“行動”-“觀察”模式生成軌跡數據，從而輔助分化子智能體進行微調：

在合成軌跡數據之後，Meta-Agent 在 AUTOACT 中將進行自我分化，分化為“規劃”，“工具”，“反思”三個子智能體，其中規劃智能體完成任務分解並決策在每次循環中調用哪個工具，工具智能體用於生成調用工具的相關參數，反思智能體通過考慮所有歷史軌跡進行整體反思。在軌跡數據集的基礎上，通過如下輸入數據對使用 LoRA 對每個子智能體進行微調：

其中，表明“思考”輸出，表示動作名稱，表示動作相關參數。與表示反思過程中的思考與行動。分別表示任務綜合信息，工具集以及歷史信息。

由於進行了分化，因此在完成任務中，AUTOACT 需要子智能體之間的“配合”才能完成任務。首先任務信息進入規劃智能體進行任務分解，返回所需工具名稱，隨後工具智能體被激活生成工具參數並傳輸到特定的工具，返回工具的使用結果作為觀測，在規劃智能體與工具智能體進行互動給出任務結果後，反思智能體被激活，如果反思結表明認可任務結果，則結束任務，如果不認可則結合反思進行進入下一輪循環。

實驗結果

論文實驗主要在 HotpotQA 與 ScienceQA 兩個問答數據集中進行，整體 AUTOACT 使用 Llama-2 作為 Meta-Agent，並與思維鏈 CoT，ReAct，Reflexion，Chameleon，FIREACT，BOLAA 以及 GPT-3.5Turbo 進行對比，結果如下：

可以看出，AUTOACT 方法在 Llama-2 13B 和 70B 基礎下訓練出的 Agent 全線優於其他所有直接提示方法、CoT 與 Agent 方法。13B 的模型做到了與 GPT-3.5 Turbo 性能相差不多，而 70B 模型甚至超越了 GPT-3.5-Turbo，在 HotpotQA 實現了 3.77% 的提升，在 ScienceQA 上實現了 6.33% 的提升。

而進一步與基於閉源模型數據的微調模型 FIREACT 進行對比，盡管 FIREACT 使用了 GPT-4，但是在 70B 基礎上的 AUTOACT 在 HotpotQA 上提升了 5.77%，在 ScienceQA 上提升了 6.67%。值得註意的是這一結果是建立在 AUTOACT 完全沒有使用任何強大的閉源模型進行輔助的基礎之上的。

此外，作者還對 HotpotQA 中由 AUTOACT 生成的軌跡數據對比其他 Agnet 方法進行了人工評估，五位 NLP 專傢從規劃輪數、思維邏輯正確性、動作類型、動作參數與整體連貫性等方面綜合評估，結果如下：

此外，案例研究的實驗也說明，AUTOACT 用自分化的模式將規劃與行動解耦，可以有效的提升 Agent 能力：

一點總結

圖靈獎，也是諾貝爾經濟學獎得主，人工智能的先驅人物，也是現代管理學的奠基人之一的 Herbert Simon 提出的有限理性原則：

由於人類目標的模糊性，其知識和信息的不完備性以及其推理判斷能力的局限性，人類決策不可能簡單地歸結為某種目標函數優化的完美數學形式。

但是，除了有限理性以外，Simon 也認為：

精確的社會分工和明確的個人任務可以彌補個人處理和利用信息能力的有限性。

從這一點出發，面對復雜的任務，尋求使用一個單一智能體（哪怕是最強的 GPT-4）去解決任務之中的方方面面似乎都有一些強人所難。而這篇論文正是從這一點出發，將單一智能體的任務分解為三個子智能體分別優化，依賴精心設計的“分工模式”與“合作機制”，使得“三個臭皮匠，頂一個諸葛亮”。

此外，AUTOACT 完全不需要閉源模型輔助進行開源 Agent 微調的方法也將為基於開源模型的自動 Agent 學習打好基礎鋪平道路。在 AUTOACT 的基礎上，也期待未來多智能體模式的基於開源模型的 AI Agent 可以不斷百花齊放百傢爭鳴吧！

浙大發佈Agent學習框架，13B 模型達到 ChatGPT 水平！

AUTOACT 框架

實驗結果

一點總結