【LLM】AUTOACT:通過自我計劃自動學習的agent

2024年2月6日 28点热度 0人点赞

一、結論寫在前面

AUTOACT:一個不依賴大規模標註數據和閉源模型合成軌跡的自動agent學習框架,可通過明確劃分工作量來減輕單個agent的壓力,從而提高多agent的集體性能。

實驗結果表明,與各種強基線相比,AUTOACT在問答基準測試中表現出色,並且具有Llama-2-13b模型的AUTOACT甚至可以獲得與zero-sho GPT-3.5-Turbo agent相當的性能。大量分析表明我AUTOACT的適當分工策略是有效的,從多個方面來看,AUTOACT生成的軌跡質量明顯優於其他方法。

圖1:AUTOACT的基本框架。僅憑一個工具庫,META-AGENT就可以根據目標任務信息自動分化,並產生一個可以協作完成任務的子agent組

二、論文的簡單介紹

2.1 論文的背景

語言agent利用大語言模型(LLM)強大的推理能力生成可執行操作來觀察外部世界,已成為設計用於處理復雜交互任務的AI系統的關鍵組成部分。賦予LLM這種交互能力的過程稱為agent學習(Agent Learning),其中規劃(planning)起著至關重要的作用,它負責分解復雜任務、調用外部工具、反思過去的錯誤以及匯總各種源的信息以達成最終目標。已經有工作通過直接提示閉源現成(off-the-shelf )的LLM對特定任務進行規劃。盡管它們方便、靈活,但閉源LLM不可避免地面臨一些未解決的問題,因為它們的可訪問性往往需要支付高昂的代價,其黑箱本質使結果難以復制。有鑒於此,一些最近的努力轉向通過微調賦予開源模型規劃能力。

然而,盡管現有的基於微調的方法取得了成就,但它們也不是沒有局限性。一方面,訓練開源模型需要大量標註任務數據,仍然依賴於閉源模型來合成規劃軌跡。然而,在許多私人場景(如個人隱私和公司業務)中滿足這些要求往往具有挑戰性。另一方面,從agent框架設計的角度來看,基於微調的方法強制一個語言agent從數據中學習所有規劃能力,給它們施加了更大的壓力。這與著名的西蒙有限理性原則(Simon’s principle of bounded rationality)相矛盾,該原則指出“精確的社會分工和明確的個人任務可以彌補個人處理和利用信息的有限能力”。

表1:相關工作的比較。數據和軌跡獲取指獲得訓練數據和軌跡的方式。計劃表示計劃方式,根據每個步驟的操作是全局確定還是迭代確定進行劃分。多agent表示框架是否包含多agent。微調表示方法是否是一個基於微調的agent學習框架。通用性表示該方法是否可應用於各種任務。反射表示計劃過程是否包含反射

2.2 論文的方案

為此,論文提出了AUTOACT,一個自動agent學習框架,在遵循有限理性原則的同時,不依賴大規模標註數據和來自閉源模型的合成軌跡,而是融入了明確的個人任務和精確的分工(見圖1)。

AUTOACT隻需要目標任務信息和一個語言agent(稱為META-AGENT)就可以啟動工作,如圖2所示。META-AGENT首先通過自我指導從零開始增強任務數據。此外,在工具庫可用的情況下,META-AGENT通過分化成具有不同功能的子agent,並使它們執行針對任務的組計劃來進行自動agent學習。將此過程稱為自我計劃。以下是AUTOACT的詳細介紹。註意,所有使用的符號都是全局定義的。

圖2:我們提出的AUTOACT框架概述。我們從自我指導開始擴展任務數據庫。然後應用自我規劃進行自動agent學習,包括自動工具選擇、軌跡合成、自我分化和組規劃。我們的自我分化是一個參數高效的微調過程,以實現資源高效的學習

關鍵組件

META-AGENT:位於AUTOACT框架的核心位置,負責自我分化之前的所有準備工作,並作為自我分化過程的骨幹模型。給定有限的目標任務信息和預先準備的工具庫,META-AGENT可以分化成一個能夠協作完成目標任務的agent組。在AUTOACT中,META-AGENT可以用任何開源模型初始化。

目標任務信息:論文主要關註從零開始的agent學習,這意味著手頭的任務信息非常有限,主要包括三個方面:任務名稱,任務描述和任務數據示C。

工具庫:為方便agent自動任務計劃,提供了一個全面的工具庫。在自動過程中,META-AGENT具有根據任務信息從工具庫中選擇適當工具的自主權。用戶也可以根據特定需求擴展工具庫,以實現更靈活的利用。

通過自我指導從零開始

為了獲取足夠量的任務數據並提供充裕的訓練資源,有必要基於手頭的示例增強數據。論文通過自我指導完成此過程。最初,數據庫D被設置為等於任務數據示例C,其中C是數據生成的種子。

在每輪中,META-AGENT通過few-shot提示生成新問題-答案對,few-shot提示示例從D中隨機采樣。生成的數據將在過濾後添加到D中,在包含之前排除格式錯誤和重復數據。最終,我們獲得一個數據庫D

通過自我計劃進行自動agent學習

在擁有工具庫的情況下,要求META-AGENT自動為每個任務選擇適用的工具。最後,我們指示META-AGENT選擇適當的工具集以等待合成軌跡。

在不依賴封閉源模型的情況下,使META-AGENT能夠自主合成計劃軌跡。

實驗設置

表2:在HotpotQA和ScienceQA上與各種基線相比的AUTOACT主要結果。圖標u表示不進行微調的基於提示的agent學習,而v表示基於微調的agent學習。表示單agent學習,2表示多agent學習。每個模型的最佳結果用粗體標出,第二優結果用下劃線標出。為了確保公平評估,我們比較了GPT-3.5-Turbo的零試驗規劃性能,因為我們的設置不包括帶註釋的軌跡示例*

任務:在HotpotQA和ScienceQA上評估論文的方法。HotpotQA是一項具有豐富背景知識挑戰的多跳問答任務,其答案通常是一個短實體或是/否。隨機選擇300個開發問題,並根據難度將其劃分為三個級別用於評估,每個級別100個問題。對於HotpotQA,獎勵∈[0,1]定義為預測和真實答案之間的F1得分。ScienceQA是一個跨越各種科學主題的多模態問答任務。也根據等級將測試集劃分為三個級別,每個級別隨機采樣120個數據。由於ScienceQA是一個多項選擇問答任務,獎勵∈{0,1}就是準確率。請註意,由於LM在生成圖像方面的局限性,對於ScienceQA,在自我指導階段,直接為圖像生成標題。

基線:選擇開源的Llama-2模型作為我們的META-AGENT和子agent的骨幹。比較的基線如下:

  • CoT,樸素的鏈式推理方法;
  • REACT,一種基於少樣本學習的著名單agent框架,迭代進行規劃和行動。
  • Chameleon,另一種在行動之前進行規劃的少樣本單agent框架。
  • Reflexion,一種通過語言反饋增強語言agent的單agent框架。
  • BOLAA,一種通過提示自定義不同agent的多agent框架。、
  • FIREACT,一種在GPT-4生成的各種軌跡上微調的單agent框架。、
  • GPT-3.5-Turbo(OpenAI,2022)。

為確保公平性,論文為FIREACT和AUTOACT維持相等的200個訓練軌跡體積(200個合成數據)。由於Reflexion在反思過程中提供了答案正確性標簽,但AUTOACT等其他方法沒有,對所有其他方法進行兩次測試,並選擇正確的進行評估。 對於所有基於提示的基線,統一在提示中提供兩個示例。

訓練設置:使用LoRA以Alpaca提出的格式對所有模型進行微調。微調框架使用DeepSpeed利用了FastChat。

表3:AUTOACT的方式消融。-反射表示在AUTOACT中刪除反射agent。-multi表示將所有分化數據饋送到一個模型進行微調。-微調表示使用AUTOACT中定義的三個agent進行零試驗提示規劃。-過濾表示在零試驗規劃中對所有生成的軌跡進行自我分化,而不過濾錯誤案例

2.3 論文的效果

論文的分化過程本質上是一個對自合成軌跡的參數高效訓練過程,非常輕量級和低消耗。我們在表1中列出了AUTOACT與以前工作的區別。在不同的LLM上進行的復雜問答任務的實驗表明,與各種強大的基線相比,AUTOACT產生了更好或並行的性能。論文主要貢獻如下:

  • 提出了AUTOACT,這是一個不依賴大規模標註數據和閉源模型合成軌跡的自動agent學習框架,同時遵循有限理性原則。
  • 用不同的LLM進行了全面的實驗,結果表明AUTOACT產生了比各種強大基線更好或並行的性能。我們甚至註意到,當使用Llama-2-13b模型時,AUTOACT可以達到與GPT-3.5-Turboagent(OpenAI,2022)相當的性能。
  • 大量的經驗分析證明了適當分工策略的有效性,並且從多個方面來看,AUTOACT生成的軌跡質量明顯優於其他方法。

圖3:不同訓練數據規模下AUTOACT的性能。(a-c)代表在自合成軌跡上訓練的模型結果。(d-f)代表在更強大模型合成的軌跡上訓練的模型結果,其中虛線是在自合成軌跡上訓練的基線

圖4:基於不同程度的分工AUTOACT的性能。One是一個使用所有分化數據訓練單個模型。Three表示分化成三個agent:計劃、工具和反射。Tool Specified進一步用一個工具分化工具agent,一個agent

圖5:案例研究。AUTOACT(b)通過采用更科學的工具組合並進行更準確的工具調用,成功解決了REACT(a)中的失敗。通過更多的規劃輪次,AUTOACT(c)可以通過繼續進行更多輪自我驗證來驗證其內部答案。而這也可能導致更長的上下文,逐漸使AUTOACT(d)偏離原始問題

圖6:在HotpotQA上對Llama-2-70b-chat生成的軌跡進行的人類評估。我們比較每個軌跡的規劃輪次數、思想的邏輯正確性、操作類型、操作參數以及整體連貫性

論文標題:AUTOACT: Automatic Agent Learning from Scratch via Self-Planning

論文鏈接:
https://arxiv.org/pdf/2401.05268.pdf