在過去的幾個月裡,我們研究了大約 100 個不同用例的AI代理,研究了AI代理開發 SDK 和框架,並與 Cognosys、Aomni、Superagent、Sweep 等公司的創始人討論了代理面臨的挑戰。
以下是我們對基於代理構建的產品、它們的挑戰、標準化和未來的了解。
NSDT工具推薦: Three.js AI紋理開發包 - YOLO合成數據生成器 - GLTF/GLB在線編輯 - 3D模型格式在線轉換 - 可編程3D場景編輯器 - REVIT導出3D模型插件 - 3D模型語義搜索引擎 - Three.js虛擬軸心開發包
1、業界對AI Agent的定義缺乏共識
“代理”、“人工智能代理”、“自主代理”或“LLM代理”等術語仍然存在一些含糊之處。
我們定義一個代理(與其他變體互換使用),類似於 Shawn Wang,又名“Swyx”(smol ai 的創始人)、Matt Schlicht(Octane AI 的首席執行官),以及主要來自 OpenAI 的 Lilian Weng。
人工智能代理(AI Agent)擁有三個主要功能。
- AI Agent將推理(reasoning)和行動(acting)結合起來,使用 GPT-3.5 和 GPT-4 等 LLM 來理解、執行和反思任務。
- AI Agent既有短期記憶又有長期記憶。
- AI Agent可以通過調用外部 API 來使用“工具”—例如,它可以瀏覽網頁、使用應用程序、讀寫文件、付款,甚至控制用戶的筆記本電腦。
這些品質將代理與半自主或非自主 LLM 支持的應用程序區分開來。 與“主流”自動化(根據數據或系統狀態設置一系列觸發器並配置接下來發生的事情)相比,人工智能代理可以在存在大量新信息的不可預測的環境中工作。
2、AI Agent從獨立產品轉變為“隱形”功能
可能不會很快就需要正確定義代理,因為趨勢正在從流行的獨立代理(通常試圖以犧牲質量為代價解決各種問題)轉變為代理隻是更大產品中未被提及的一部分。
公司致力於將代理驅動的助手作為現有產品的附加功能。 例如,Hyperwrite AI 的 Otherside(充當日常任務的個人助理)、MultiOn(個人生活助理)以及 Deepnote 的 AI Copilot。
我們看到以代理為中心的項目的復雜性有所增加。 例如,Sweep 是一個開源 GitHub 助手,擁有大量圍繞 AI 代理構建的代碼。 另一個例子是 Grit.io——一個用於自動代碼遷移和依賴項升級的工具。
3、AI Agent距離企業級可靠性還有很長的路
企業使用AI Agent的主要動機是節省成本和金錢。 然而,在代理變得更加可靠之前,他們仍然對代理猶豫不決。
“對於企業客戶,我們所說的可靠性至少達到 99.9%”,Aomni Agent 的創始人 David Zhang 認為。
最終用戶對快速軟件有很高的標準,而 LLM 支持的代理有時運行緩慢。 Cognosys 首席執行官 Sully Omar 評論道:“在傳統的軟件工程中,大約 200 毫秒已經被認為是緩慢的。 對於代理和 LLM 應用程序來說,延遲是一個大問題,LLM 調用需要超過 30 秒的時間。”
一般來說,代理開發人員目前在測試、評估、調試、延遲和監控方面遇到困難。 常見問題的一個特定示例是確定代理在哪一步發生故障以及原因。
貫穿整個人工智能行業的另一個大問題是隱私、安全和數據保留政策。
4、AI Agent需要特定的SDK和框架
AI代理開發人員為解決上述挑戰而選擇的范式有所不同。
他們要麼在現有工具的基礎上構建,創建自己的內部解決方案,要麼采用一些專門為代理構建的產品,其中許多產品仍處於早期階段或 alpha/beta 版本。
4.1 現有的“傳統軟件”解決方案
Aomni 的創始人 David Zhang 指出,許多代理開發人員試圖使用新的框架和 SDK 重新發明輪子,而不是在現有技術的基礎上進行構建。
開發人員選擇了與傳統軟件中代理問題相當的解決方案,例如
- Ingest 用於代理的編排和調試
- Sentry用於可觀察性
- LlamaIndex於數據集成
4.2 AI Agent專用解決方案
傳統的軟件解決方案仍然無法應對LLM的性質所帶來的針對特定代理的挑戰。 一個例子是調試代理,它本質上是在玩弄提示,並且缺乏相當於實時調試的代理。
我們與 Grit 或 Sweep 等代理的開發人員進行了溝通,他們要麼正在構建完全定制的基礎設施,要麼嘗試使用現有技術至少以某種方式適合他們的代理用例。 正如 Swyx 所提到的,多代理系統的基礎設施補充是代理雲。 E2B 為代理或 AI 應用程序構建了 AI 遊樂場、沙盒雲環境,這對於代理的編碼用例特別有用。
還有更多專為人工智能代理或LLM應用程序量身定制的項目,最常見的是用於構建、監控和分析的框架。
5、社區正在尋找自治代理的標準
隨著我們越來越接近更先進的代理,社區正在討論建立一個通用的“框架”,以幫助代理生態系統更快地發展並簡化工作。
具體問題包括如何設計現實的基準以更好地評估代理人的表現,並納入安全考慮。
5.1 基準測試
AutoGPT 的基準測試工作(Agent Evals 的基準測試工具)源於真正了解代理正在進行的流程並確定對代理所做的修改是否真正提高其性能的需要。
設計代理基準的最大挑戰是成本、時間和選擇最佳的測試設計。 測試環境的多樣性和獨特性與真實性和自然性之間存在權衡。
“如果一個代理未能通過簡單的測試,它就無法通過更困難的測試。 因此,挑戰的一部分是按照正確的順序構建測試”,AutoGPT 的研發主管 Silen Naihin 在有關代理基準測試的 X 領域說道。
其他基準測試工作:
- WebArena — 構建代理的真實 Web 環境
- MACHIAVELLI 基準 — 基於人工編寫的、基於文本的“選擇你自己的冒險”遊戲,包含超過 50 萬個場景和數百萬個標註。
5.2 代理協議
AutoGPT 基準測試中采用的Agent Protocol是一種與技術堆棧無關的標準化方式,從而對人工智能代理進行基準測試和比較。
它是一個基於 OpenAPI 規范 v3 的協議 — 一個端點列表,代理應使用預定義的響應模型公開這些端點,並定義用於與代理交互的接口。 LLM 應用程序的開發人員(例如 AutoGPT、LemonAI 或 BabyAGI)目前正在采用該協議。
該協議充當與代理的單一通信接口,使得開發與代理一起使用的開發工具變得更加容易。
6、AI Agent轉向垂直市場
人們嘗試 AutoGPT 或 BabyAGI 等第一個開源代理項目的炒作開始逐漸平靜下來。 最終用戶現在正在尋求解決特定問題。
代理用例正在縮小,以實現某一特定角色的完美。 當今最常見的用例是編碼、個人日常任務或研究。
軟件的未來可能包括由數十個“小型”人工智能代理提供支持的應用程序,這些代理服務於特定目的並相互交互。 代理將需要自己的安全雲空間來無縫通信並自主執行任務。
我們可能期望進一步轉向垂直市場,例如,一個應用程序具有不同的底層代理,旨在用於代碼編寫、代碼調試、代碼遷移、電子郵件通信、日歷計劃和任務管理。
為了提高回訪用戶的比例,開發人員專註於展示真實的有形結果和用例,而不是過度解釋代理的工作原理以及人們為什麼應該使用它。
Cognosys AI 的創始人 Sully Omar 增強了用戶對有形結果而非底層技術的關心。 “例如,如果用戶不了解哪種模型最適合他們的需求,那麼為用戶提供不同的模型就是多餘的。”
圖 5、6、7。避免提及底層代理技術的公司示例。 資料來源:Saga AI、Heymoon.ai、Lindy.ai
避免描述技術本身的一個著名例子是蘋果公司,在一次重要的演講中根本不提及“人工智能”,或者不提及“元宇宙”,因為“普通人不知道它意味著什麼”。
7、結束語
AI代理距離企業級可靠性還有很長的路要走。 特定於代理的 SDK、框架和工具仍然存在需要克服的挑戰。 最重要的是代理的調試、監控、部署和基準測試。 代理協議是標準化代理並改進其通信和基準測試的努力之一。
該空間從代理作為獨立代碼轉變為“代理作為功能”,成為更復雜產品的一部分。 代理開發人員正在關註更狹窄的用例,並學習如何與最終用戶更好地溝通。
代理技術最常見的用例是編碼、日常任務的個人協助和搜索。 我們看到軟件的未來包括自主的 LLM 代理。
要嘗試自主代理,請查看流行的人工智能代理的概述: