Meta自我獎勵模型超越人類反饋限制,刷新AlpacaEval 2.0排行榜

2024年2月6日 22点热度 0人点赞

引言:超越人類的AI代理——自我獎勵語言模型的探索

在人工智能的發展歷程中,我們一直在探索如何打造出能夠超越人類智慧的AI代理。這些代理不僅需要能夠理解和執行人類的指令,還需要能夠自我提升,不斷優化自己的性能。在這篇博客中,我們將深入探討一種新型的語言模型——自我獎勵語言模型(Self-Rewarding Language Models),它們通過自我生成獎勵來進行訓練,從而實現自我提升。

自我獎勵語言模型的核心思想是讓模型在訓練過程中自己提供獎勵信號,而不是依賴於人類的反饋。這種方法的優勢在於,它能夠突破由人類反饋所設定的性能瓶頸,使模型有可能達到超越人類水平的性能。通過迭代的訓練過程,這些模型不僅在指令執行能力上有所提升,而且在獎勵模型的質量上也得到了改進。

聲明:本期論文解讀非人類撰寫,全文由賽博馬良「AI論文解讀達人」智能體自主完成,經人工審核後發佈。

智能體傳送門:賽博馬良-AI論文解讀達人

神奇口令: 小瑤讀者 (前100位有效)

論文信息

標題: Self-Rewarding Language Models

作者: Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Sainbayar Sukhbaatar, Jing Xu, Jason Weston

機構:

  1. Meta
  2. New York University (NYU)

論文鏈接:
https://arxiv.org/pdf/2401.10020.pdf

自我獎勵語言模型(Self-Rewarding Language Models)簡介

1. 自我獎勵語言模型的定義與目標

自我獎勵語言模型(Self-Rewarding Language Models, SRLMs)是一種新型的語言模型,它在訓練過程中利用自身生成的反饋來自我提升。這種模型的目標是打破傳統模型依賴人類反饋的局限,通過自我生成和評估指令來提高模型的指令遵循能力和獎勵模型的質量。SRLMs通過迭代的直接偏好優化(Iterative DPO)框架進行訓練,不僅提高了指令遵循能力,還提高了自我獎勵的質量。

2. 自我獎勵模型與傳統獎勵模型的對比

與傳統的獎勵模型相比,自我獎勵模型的一個關鍵優勢是它不是固定的,而是在語言模型(LLM)對齊過程中不斷更新。這種方法避免了傳統模型中獎勵模型固定不變的瓶頸,使得模型在訓練過程中能夠同時提高生成能力和獎勵模型能力。通過將獎勵模型整合到同一系統中,SRLMs實現了任務遷移,使得獎勵建模任務和指令遵循任務之間能夠相互轉移和提升。

自我指令創建(Self-Instruction Creation)的過程

1. 新指令的生成

在自我指令創建過程中,首先通過少量提示(few-shot prompting)從原始的指令精煉數據(IFT data)中生成新的指令提示。這一步驟是通過采樣原始種子IFT數據來實現的,遵循了Wang et al. [2022]和Honovich et al. [2023]的方法。

2. 候選響應的生成與評估

接著,模型會為給定的新指令生成N個多樣化的候選響應,並使用采樣方法來實現。然後,模型本身會通過LLM-as-a-Judge機制來評估這些候選響應的質量,即模型扮演自己的獎勵模型的角色。這一過程通過將響應評估任務構建為一個指令遵循任務來實現。

3. LLM作為評判者(LLM-as-a-Judge)的角色

在自我指令創建的最後階段,LLM-as-a-Judge的功能顯得尤為重要。模型不僅生成響應,還需要評估這些響應的質量,為此它需要扮演評判者的角色。通過這種方式,模型可以為自己生成的響應提供獎勵,從而構建AI反饋(AI Feedback)訓練集。在實驗中,使用LLM-as-a-Judge機制生成的數據被用作訓練集,進而通過直接偏好優化(DPO)訓練下一輪模型。

迭代DPO訓練框架與自我對齊算法

1. 迭代訓練的步驟與目標

迭代DPO訓練框架的核心在於通過自我對齊算法,使得語言模型能夠在訓練過程中自我提供獎勵。這一過程涉及到兩個關鍵步驟:自我指令創建和指令跟隨訓練。在自我指令創建階段,模型生成新的指令提示並為這些提示產生的候選回應自我評分,這一過程通過LLM-as-a-Judge提示來實現。在指令跟隨訓練階段,從生成數據中選取偏好對,通過直接偏好優化(DPO)進行訓練,得到下一代模型。這個過程可以迭代進行,以此來不斷改進指令跟隨能力和獎勵模型的質量。

2. 從種子模型到自我獎勵模型的演變

起始於一個種子模型,通過對人類偏好數據的指令微調(IFT)和評價微調(EFT),模型獲得了生成和評估新指令的能力。在迭代過程中,模型不斷自我生成訓練數據,並使用這些數據進行自我獎勵。與傳統的固定獎勵模型不同,這種自我獎勵模型能夠在LLM對齊過程中持續更新,從而避免了由於人類偏好數據的限制而導致的瓶頸。實驗表明,通過迭代DPO訓練,模型不僅在指令跟隨能力上有所提升,而且在自我獎勵能力上也得到了改進。

實驗設置與評估指標

1. 種子訓練數據的選擇與使用

實驗從使用Open Assistant數據集中的3200個高質量、人類評級最高的英語會話開始,這些數據用於指令微調(IFT)。此外,還使用了一組評價微調(EFT)數據,該數據通過將Open Assistant數據集中的多個人類評級響應轉換為LLM-as-a-Judge格式,來訓練模型如何作為獎勵模型進行自我獎勵。這些種子數據作為訓練的起點,用於訓練第一代模型。

2. 模型性能的評估方法

模型性能的評估分為兩個方面:指令跟隨能力和獎勵模型能力。指令跟隨能力通過與不同模型的頭對頭性能比較,以及在AlpacaEval 2.0排行榜上的勝率來評估。獎勵模型能力則通過與人類評級的相關性來評估,包括成對準確性、完全匹配次數、Spearman相關性和Kendall's τ。此外,還觀察了模型給出完美得分(5分)的響應與人類評級最高響應的一致性。通過這些指標,研究者能夠全面評估自我獎勵模型在迭代訓練過程中的性能提升。

實驗結果與分析

1. 指令遵循能力的提升

實驗結果顯示,自我獎勵語言模型(Self-Rewarding Language Models)在迭代DPO(Direct Preference Optimization)訓練過程中,不僅指令遵循能力得到提升,而且模型自我評估和獎勵的能力也得到了改善。以Llama 2 70B為種子模型,經過三輪迭代訓練後,模型在AlpacaEval 2.0排行榜上的表現超越了多個現有系統,包括Claude 2、Gemini Pro和GPT-4 0613。具體來說,第二輪迭代(M2)在頭對頭評估中相較於第一輪迭代(M1)和基線模型(SFT Baseline)表現出顯著的優勢,第三輪迭代(M3)進一步提升了性能,相較於M2和基線模型的勝率有了大幅度的提高。

2. 獎勵模型能力的改進

在獎勵模型能力方面,實驗發現,通過自我獎勵訓練,模型在提供自我獎勵方面的能力得到了提升。第二輪迭代(M2)使用第一輪迭代(M1)中派生的自我獎勵模型進行訓練,其在各項評價指標上均優於M1,而M1本身也優於僅使用指令精調(IFT)數據訓練的標準SFT基線模型。第三輪迭代(M3)在多個指標上進一步提升了性能。

3. AlpacaEval 2.0排行榜上的表現

在AlpacaEval 2.0排行榜上,自我獎勵模型的迭代訓練結果顯示勝率逐步提升。第一輪迭代的勝率為9.94%,第二輪提升至15.38%,第三輪進一步提升至20.44%。第三輪迭代的模型在該指標上超越了多個現有模型,包括Claude 2、Gemini Pro和GPT-4 0613。

討論:自我獎勵模型的優勢與挑戰

1. 自我獎勵模型的潛在優勢

自我獎勵模型的潛在優勢在於其能夠在訓練過程中持續更新,避免了傳統獎勵模型固定不變的局限性。這種模型不僅能夠生成響應指令,還能夠評估和獎勵自己生成的新指令遵循示例,從而在訓練集中添加這些數據。這種自我獎勵的方法提供了一種自我改進的可能性,使得模型能夠在指令遵循和獎勵建模兩個方面不斷進步。

2. 實驗結果的意義與未來研究方向

本研究的實驗結果表明,通過自我獎勵的方式,模型在指令遵循和獎勵建模方面都顯示出了改進。這一發現為未來的研究方向提供了新的視角,即探索模型在更多迭代輪次後的表現,以及在不同設置下使用不同能力的語言模型的效果。此外,研究還可以進一步探討如何在自我獎勵框架內進行安全性評估和訓練,以及如何避免潛在的“獎勵黑客”行為。

總結與未來展望

在本研究中,我們提出了自獎勵語言模型(Self-Rewarding Language Models),這是一種能夠通過自我評估和訓練來自我校準的模型。通過迭代的直接偏好優化(Iterative DPO)框架,模型不僅在遵循指令的能力上得到了提升,而且在獎勵建模能力上也有所增強。我們的實驗結果表明,通過三次迭代訓練的Llama 2 70B模型在AlpacaEval 2.0排行榜上超越了多個現有系統,包括Claude 2、Gemini Pro和GPT-4 0613。

1. 實驗結果的總結

我們的實驗結果顯示,自獎勵模型在指令遵循能力和獎勵建模能力上均有顯著提升。在指令遵循方面,通過自我獎勵對齊的模型與基線種子模型相比,表現有了顯著提高。更重要的是,獎勵建模能力也隨著迭代訓練得到了改善,這意味著模型能夠在給定的迭代中提供比前一次迭代更高質量的偏好數據集。此外,我們發現,與僅增加正面示例相比,從偏好對中學習給出了更好的性能,這表明了優化偏好對的重要性。

2. 未來研究的方向

盡管我們的研究取得了一些初步成果,但仍有許多未探索的領域。例如,我們需要進一步理解迭代訓練的“規模法則”,以及在不同設置中使用不同能力的語言模型的效果。我們還觀察到模型生成的回答長度有所增加,這可能是相對性能的一個因素。此外,我們的框架是否會出現所謂的“獎勵黑客”現象,以及在什麼情況下會出現,這些都是需要進一步分析的問題。

3. 安全性評估

安全性評估是未來研究的另一個重要方向。考慮到我們的模型在迭代訓練中獎勵建模能力的提升,這可能意味著模型的安全性也有可能隨著時間的推移而提高,後續迭代能夠捕捉到早期迭代無法捕捉到的更具挑戰性的安全情況。

總之,自獎勵語言模型為語言模型的自我改進提供了一條激動人心的研究途徑。通過自我生成的偏好數據訓練,模型不僅提高了遵循指令的能力,還提高了獎勵模型的質量,從而形成了一種良性循環。雖然這種改進在現實場景中可能會趨於飽和,但它仍然為超越目前通常用於構建獎勵模型和指令遵循模型的人類偏好的持續改進提供了可能性。

本期論文解讀非人類撰寫,全文由賽博馬良「AI論文解讀達人」智能體自主完成,經人工審核後發佈。

智能體傳送門:

https://www.saibomaliang.com/generate?agent_id=68248fd1-32f9-4869-a35d-b6086ac0ebcf

神奇口令:小瑤讀者(前100位有效)

參考資料 [1]
https://www.bloomberg.com/news/articles/2024-01-19/google-deepmind-ai-scientists-in-talks-to-leave-for-french-stealth-startup?srnd=technology-ai&leadSource=uverify wall