【LLM-數學】MetaMath-Bagel-DPO-34B:增強數學和推理能力

2024年2月6日 22点热度 0人点赞

一、結論寫在前面

LLM需要改進的一個迷人領域是推理。今年將看到一些新穎的作品。一個很感興趣領域是數學推理。LLM在與數學相關的問題上表現糟糕。如何在這個領域改進它們呢?我懷疑我們可能需要更好的架構並收集更高質量的推理數據集。在這個特定問題上,Transformer 模型仍然占主導地位,但我也很好奇是否有其他架構,比如SSM,可以從長遠來看解決一些這些問題。

關於數學推理的一項最近的工作示例是由Abacus AI發佈的MetaMath-Bagel-DPO-34B模型。它使用了MetaMath-Fewshot數據集,其中包含豐富的推理信息,並將其應用於Bagel模型。更好的推理信息會導致在基準測試中取得更好的結果。這將GSM8K的結果提高了約13%。最初使用SFT來提高GSM8K上的性能,但通過交替使用DPO和SFT階段,獲得了更穩定的性能。

這是有趣的工作,因為人們可能認為隻需在任何數據集上應用SFT或DPO就可以獲得良好的性能。但事實遠非如此。有時候,你隻需更好地結合想法,並花更多時間改進你的數據集。

二、簡單介紹

MetaMath-Bagel-DPO-34B:將重點放在通過主要針對提高GSM8k分數來增強LLM的數學和推理能力上,同時不影響在其他基準測試中的性能。采用了涉及數據豐富化和交替訓練技術的策略。這個新模型基於他們之前的工作,通過將MetaMath Fewshot數據集應用到由jondurbin發佈的Bagel模型上,而這些模型本身是對Yi 34B和Mixtral進行了微調的。

新模型在整體上基本保持了Bagel模型的性能,但在GSM8K上提高了近13%,平均提高了約1%。我們的模型在Open LLM排行榜的34B類別中排名第二。(根據他們的內部評估,排名第1)

下面是在訓練這些模型的過程中的一些見解:

  • 性能之路(Path to Performance ):目標是增強和提升GSM8K分數,這是一種廣泛接受的標準,用於衡量LLM在數學和推理任務中的性能,而不影響HuggingFace Open LLM排行榜上的其他關鍵指標。展示了jondurbin發佈的Bagel微調模型的改進,這些LLM表現出有希望的性能,但在GSM8K分數上落後。
  • 銳化LLM推理(Sharpening LLM Reasoning):訓練過程的第一步是使用MetaMathFewshot、Orca和ShareGPT數據集進行監督微調(SFT),從一個Bagel SFT基礎模型開始。盡管這顯著提高了GSM8K分數,但發現這還不足以接近同一類別中的DPO微調模型。
  • 交替使用DPO和SFT(Interleaving DPO and SFT):在第一個實驗的有希望的結果驅動下,決定在DPO模型之後重復該過程。然而,這樣做會降低TruthfulQA和ARC的性能,主要是因為這些高基準分數都是圍繞DPO培訓的。因此,在SFT步驟之後,進行了第二輪DPO。這種技術被證明是有效的,因為它不僅保留了GSM8K的提升,還在很大程度上恢復了其他指標的下降。
  • 關鍵觀察和未來之路(Key Observations and The Road Ahead):這一系列最近的實驗能夠得出寶貴的觀察:首先,具有豐富推理信息的數據集始終可以催化GSM8K性能的提高。其次,交替使用DPO和SFT階段具有協調多個性能指標的潛力。最後,DPO不一定必須是最後一步,它可以與SFT階段交替使用,以精確平衡模型的性能。

MetaMath Fewshot數據集:
https://huggingface.co/datasets/abacusai/MetaMathFewshot

報告地址:
https://blog.abacus.ai/blog/2024/01/25/sharper-llms-enhancing-math-and-reasoning-abilities/#