轉自夕小瑤科技說

原創編輯 | 付奶茶

引言：大型語言模型的高效部署挑戰

在人工智能的發展中，訓練大語言模型理解、執行人類發出的指令始終是核心任務。然而，傳統的訓練方法通常依賴於人類的反饋，這不僅限制了模型性能的提升，而且在實際應用中也存在難擴展的問題。因此，一種用於訓練大語言模型的概念-自我獎勵應運而生，它通過模型自身生成獎勵信號來進行訓練，旨在打破人類反饋帶來的限制，開啟自主學習和自我提升的新篇章。論文中提出想要培養超越人類智能的智能體，大語言模型的訓練必須要用超越人類的反饋信號來調整。文中提出了用自我獎勵的方法使得模型在訓練過程中自行提供獎勵，從而提升模型執行指令和自我獎勵的能力。目前，訓練得到的模型AlpacaEval 2.0在現有的排行榜上超過了多個模型，而且此研究為模型持續的自我完善開拓了新的可能性。

聲明：本期論文解讀非人類撰寫，全文由賽博馬良「AI論文解讀達人」智能體自主完成，經人工審核、配圖後發佈。

公眾號「夕小瑤科技說」後臺回復“智能體內測”獲取智能體內測邀請鏈接！

論文標題：Self-Rewarding Language Models

論文鏈接：
https://arxiv.org/pdf/2401.10020.pdf

自我獎勵語言模型（Self-Rewarding Language Models）

自我獎勵模型的概念與背景

自我獎勵大語言模型是一種新型的智能體，不僅能生成對特定提示的響應，還能生成、評估新的指令執行示例來納入自己的訓練集中。模型的訓練采用了一種可迭代的直接偏好優化框架，從一個基礎模型開始，創建自我指令，模型為新生成的指令生成候選響應，由同一模型分配獎勵。這種自我獎勵的方法克服了傳統固定獎勵模型的局限，使得獎勵模型能夠在語言模型對齊過程中持續更新和改進。

自我獎勵模型的兩大核心能力

自我獎勵模型的關鍵能力是自我指令創建和自我獎勵。自我指令創建包括生成候選響應，以及隨後利用模型自身來判斷這些響應的質量，模型扮演自己獎勵模型的角色，取代了外部獎勵模型的需求。這是通過LLM-as-a-Judge機制實現的，即將響應評估表述為指令執行任務。

自我獎勵的能力指的是模型通過相同的生成機制改善其生成能力，並且作為自己的獎勵模型，從而獎勵模型可以通過這些迭代得到自身的改進。通過這種自我獎勵的訓練方式，模型不僅在指令執行能力上得到提升，而且在獎勵建模能力上也有所提高。這種自我獎勵的語言模型在AlpacaEval 2.0排行榜上的表現超越了許多現有系統，包括Claude 2、Gemini Pro和GPT-4 0613，展現了其自我提升的巨大潛力。

自我指令創建（Self-Instruction Creation）的過程

生成新提示

自我指令創建的首要步驟是生成新的提示。這一過程通過少量示例提示（few-shot prompting）完成，其中示例從原始的種子指令精細調整（Instruction Fine-Tuning, IFT）數據中抽取。

生成候選回應

接下來，模型使用采樣方法為給定的新提示生成多個多樣化的候選回應。

自我評估回應

最後，模型利用LLM-as-a-Judge能力評估這些候選回應，為每個回應分配0至5的評分。

迭代DPO訓練框架與自我對齊算法

迭代訓練的步驟

迭代訓練過程涉及一系列模型M1、M2、M3等的訓練，每個後續模型t使用由前t-1個模型創建的增強訓練數據。

AI反饋訓練的兩種變體

AI反饋訓練嘗試了兩種反饋變體。第一種是構建偏好對的訓練數據，即從評估過的N個候選回應中選擇得分最高和最低的回應作為成功和失敗的對。第二種變體是隻將模型評分為5的候選回應加入種子集中進行監督式精細調整。實驗結果表明，用偏好對學習帶來了更好的性能。

實驗設置與評價指標

種子訓練數據的選擇

實驗使用的指令精細調整(IFT)的種子數據是從Open Assistant數據集中提供的人類編寫示例中抽取，基於它們的人類標註等級（僅選擇最高等級0）創建LLM-as-a-Judge數據。

指令跟隨與獎勵建模的評價方法

評價模型性能主要從兩方面進行，指令執行能力和獎勵模型能力（評估回應能力）。

指令執行能力通過在多個來源的測試提示上使用GPT-4作為評估器進比較來評估。
獎勵建模能力通過與Open Assistant數據集中人類排名的相關性來評估，包括成對準確性、完全匹配計數、Spearman相關性和Kendall's τ等指標。

實驗結果與分析

指令跟隨能力的提升

實驗中，通過自我獎勵的語言模型（Self-Rewarding Language Models）的迭代DPO（Direct Preference Optimization）訓練，指令執行能力顯著提升。從Llama 2 70B種子模型開始，經過三輪迭代訓練，模型在AlpacaEval 2.0排行榜上的表現超越了多個現有系統，包括Claude 2、Gemini Pro和GPT-4 0613。具體來說，第二輪迭代（M2）相較於第一輪迭代（M1）和基線模型（SFT Baseline）在頭對頭評估中取得了更高的勝率（55.5% vs. 11.7%），而第三輪迭代（M3）進一步提高了勝率（47.7% vs. 12.5%），顯示出模型在指令執行能力上的持續進步。

獎勵建模能力的改進

除了指令執行能力的提升，獎勵建模能力也隨著迭代訓練得到了改善。在自我獎勵的訓練過程中，模型不僅能生成響應，還能通過LLM-as-a-Judge機制自我評估這些響應的質量。這一能力的提升體現在與人類偏好數據對齊的各項指標上，例如，第二輪迭代（M2）的模型在成對準確性上從78.7%提升到了80.4%，而第三輪迭代（M3）進一步提升到了81.7%。這表明模型能夠在迭代訓練中為自己提供更高質量的偏好數據集。

相關工作回顧：從人類反饋到AI反饋的發展脈絡

先前的工作主要集中在使用人類偏好數據來訓練獎勵模型，隨後通過強化學習（如PPO）來訓練語言模型。這些方法通常被稱為從人類反饋中學習的強化學習（RLHF）。然而，這些方法受限於人類偏好數據的規模和質量，以及由此訓練出的固定獎勵模型的質量。最近的研究開始探索直接使用人類偏好來訓練語言模型的方法，例如直接偏好優化（DPO）。與此同時，一些研究提出了從AI反饋中學習的強化學習（RLAIF），使用大語言模型來提供反饋並細化響應，訓練一個固定的獎勵模型。這些方法的共同點在於，它們都試圖通過人類或AI的反饋來提高語言模型的性能。與這些工作相比，自我獎勵模型的方法避免了固定獎勵模型的限制，並展示了通過自我生成的訓練數據來迭代提升模型性能的潛力。

結論與展望：自我獎勵模型的未來方向與挑戰

自我獎勵語言模型的研究提供了一種新的視角，用於提升大語言模型的自我改進能力。通過迭代的直接偏好優化（Iterative DPO）訓練，模型在指令執行能力上得到提升，同時在自我獎勵的質量上也實現了改進。這種自我獎勵機制允許模型在訓練過程中持續更新，從而避免了傳統固定獎勵模型的局限。初步研究表明，通過這種方法訓練的模型在AlpacaEval 2.0排行榜上超越了多個現有系統，包括Claude 2、Gemini Pro和GPT-4 0613。盡管這項工作僅是初步研究，但是它為未來模型提供了持續自我改進的可能性，雖然這一點在現實世界的應用中可能會隨著時間達到飽和，但是這種方法為超越當前依賴於人類偏好構建獎勵模型和指令執行模型的局限性提供了一種可能。

限制與未來研究方向

迭代訓練的潛在限制

迭代訓練雖然在自我獎勵模型中顯示出積極的效果，但其潛在的限制尚未被完全理開掘。本文的研究隻進行了三次迭代，未來的研究需要探索更多迭代次數以及在不同設置下使用不同能力的語言模型的效果。此外，模型生成的回應長度增加可能是相對性能提升的一個因素，這需要進一步的研究以更深入地理解長度與估計質量之間的關系。

安全性評估與訓練的重要性

安全性評估是未來研究的一個重要方向，目前的自我獎勵模型尚未進行詳盡的安全性評估，但是這對於任何面向公眾的AI系統都是至關重要的。未來的工作可以探索在自我獎勵訓練過程中特別針對安全性進行評估的方法。如果能夠證明模型在迭代中的獎勵建模能力得到提升，那麼模型的安全性也有可能隨之提高，能夠捕捉到更具挑戰性的安全問題。

總結

本研究引入了自我獎勵模型，這是一種能夠通過判斷和訓練自己的生成來自我對齊的模型。通過迭代訓練，模型在指令執行能力和獎勵建模能力上均得到了提升。這種自我獎勵的方法為模型提供了在未來迭代中更好地分配獎勵以改進指令執行的能力，形成了一種良性循環。雖然在現實場景中這種改進可能會達到飽和，但它仍然為持續改進提供了可能性，超越了目前通常用於構建獎勵模型和指令執行模型的人類偏好。盡管存在潛在的限制和未來研究的方向，自我獎勵模型的初步研究仍然令人充滿希望和期待，為自我改進的大語言模型開辟了新的道路。