論文題目: The Impact of Reasoning Step Length on Large Language Models 論文鏈接: https://arxiv.org/abs/2401.04925 論文後續還會持續更新,歡迎提出意見。
一、大模型的推理性能的關鍵在什麼地方?
-
對於few-shot COT,步數和準確性之間存在直接的線性相關:這為優化復雜推理中的 CoT 提示提供了一種可量化的方法。 具體來說,延長提示中的推理步驟可以顯著增強LLM跨多個數據集的推理能力。 即使在保留關鍵信息的情況下,縮短推理步驟也會顯著降低模型的推理能力。
-
如果保持必要的推理長度,即使是不正確的基本原理也可以產生有利的結果:例如,在數學問題等任務中,由於其面向過程的性質,中間數字的錯誤影響較小。
-
增加推理步驟的優點是依賴於任務的:更簡單的任務需要更少的步驟,而更復雜的任務可以從更長的推理序列中獲得顯著的收益。
-
增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 準確性:為了驗證這種方法,我們將最初的提示從“Let’s think step by step”更改為“Let’s think step by step, but you must think more step.” 這種修改導致大型模型的推理能力顯著增強,在涉及數學問題的數據集中尤其明顯。
-
我們進行了定量分析,以確定模型大小和增強模型推理能力所需的額外推理步驟數量之間的最佳平衡。
二、我們豐富推理步驟的方法
-
Think About The Word: 該策略是要求模型解釋單詞並重建知識庫。 通常,一個單詞有多種不同的含義,其效果是讓模型跳出框框思考,並根據生成的解釋重新解釋問題中的單詞。 此過程不會引入新信息。 在提示中,我們給出了模型正在考慮的單詞的示例,模型會根據新問題自動為該過程選擇單詞。
-
Read the question again: 反復讀題,減少其他文字對思路鏈條的幹擾。 簡而言之,我們讓模型記住這個問題。
-
Repeat State: 與重復閱讀類似,我們在經過一長串推理後對當前狀態進行了小總結,旨在幫助模型簡化其記憶並減少 CoT 中其他文本的幹擾。
-
Self-Verification: 人類在回答問題時會檢查他們的答案是否正確。 因此,在模型得到答案之前,我們添加了一個自我驗證的過程,根據一些基本信息來判斷答案是否合理。
-
Make Equation: 對於數學問題,Make Equation 可以幫助人類總結和簡化記憶。 而對於一些需要假設未知數x的問題,建立方程是一個必不可少的過程。 我們模擬了這個過程,讓模型嘗試在數學問題中建立方程。
三、實驗
-
我們使用 GPT-3.5-turbo-1106 比較了來自三類推理任務的八個數據集的準確性。 所有結果均是三次隨機運行的平均值。 我們的 SOTA 結果基於每個數據集最佳性能步驟的實驗結果。
得益於我們標準化了思想鏈流程,可以量化由於 CoT 演示原理步驟的增加而帶來的準確性的提高。 我們發現,在有效的 CoT 過程中,即添加最多六個步驟的額外思維過程,所有數據集中的大型語言模型推理能力都會得到提高。 換句話說,我們發現準確率和 CoT 復雜度之間存在一定的線性關系。
-
我們做了以下嘗試。 將提示中的某個步驟改為錯誤答案,看看是否影響思路。 因此,對於這個實驗,我們將所有提示更改為攜帶一個錯誤。 對於算數類題,即使其中一個提示結果出現偏差,對推理過程中的思維鏈的影響也是微乎其微的,所以我們認為大語言模型更多地了解了思維鏈 解決算術類問題時,提示中的模式比單一計算要多。 對於類似Coin數據集中的邏輯問題,其中一個提示結果的偏差往往會帶來整個思路的支離破碎。 我們使用 GPT-3.5-turbo-1106 完成了這個實驗,並根據之前實驗得出的每個數據集的最佳步數保證了性能。
-
我們進行了推理步驟壓縮實驗,並采用實驗設置中概述的技術來壓縮來自基線自動思想鏈(Auto-CoT)和少樣本思想鏈的示例中的推理過程 (Few-Shot-CoT),旨在減少推理步驟的數量。 結果如圖所示。 結果顯示,它們的性能顯著下降,回歸到與零樣本方法所達到的水平基本相當的水平。 它進一步表明增加 COT 基本推理步驟可以提高 COT 性能,反之亦然。
四、結論和未來的工作
掃碼觀看!
本周上新!
“AI技術流”原創投稿計劃
TechBeat是由將門創投建立的AI學習社區(www.techbeat.net)。社區上線500 期talk視頻,3000 篇技術幹貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺,希望為AI人才打造更專業的服務和體驗,加速並陪伴其成長。
投稿內容
// 最新技術解讀/系統性知識分享 //
// 前沿資訊解說/心得經歷講述 //
投稿須知
稿件需要為原創文章,並標明作者信息。
我們會選擇部分在深度技術解析及科研心得方向,對用戶啟發更大的文章,做原創性內容獎勵
投稿方式
發送郵件到
或添加工作人員微信(chemn493)投稿,溝通投稿詳情;還可以關註“將門創投”公眾號,後臺回復“投稿”二字,獲得投稿說明。
>>> 添加小編微信!