深入探索CoT有效性和推理步長對於LLM性能的影響

思想鏈（CoT）對於提高大型語言模型（LLM）的推理能力具有重要意義。然而，CoT 的有效性與提示中推理步驟的長度之間的相關性仍然很大程度上未知。為了闡明這一點，多傢研究機構（西北大學、羅格斯大學、利物浦大學、新澤西理工學院）聯合進行了研究並進行了幾次實證實驗來探索其中的關系。我們設計了擴展和壓縮 CoT 的例子中的基本原理推理步驟的實驗，同時保持所有其他因素不變，然後得到了一些很有趣的結論。

論文題目：

The Impact of Reasoning Step Length on Large Language Models

論文鏈接：

https://arxiv.org/abs/2401.04925

論文後續還會持續更新，歡迎提出意見。

一、大模型的推理性能的關鍵在什麼地方？

大語言模型在自然語言處理任務上的驚艷表現引起了社會廣泛的關註，特別是在經典 NLP 任務中。其中的一個關鍵創新是思想鏈（CoT）技術，以其在多步驟問題解決中的功效而聞名。這種反映人類順序推理的技術在各種挑戰中表現出了顯著的有效性，包括跨領域、長度泛化和跨語言任務。 CoT 方法以其邏輯性、循序漸進的方法論，在復雜的問題解決場景中提供了至關重要的可解釋性。

盡管 CoT 的方法發展的非常快並且取得了令人鼓舞的成果，但研究界尚未就 CoT 及其變體如何以及為何有效發揮作用的精確機制達成共識。這種知識差距意味著提高 CoT 性能仍然是一個探索領域，很大程度上依賴於試錯方法。目前仍缺乏既定的系統方法來提高 CoT 的有效性，使得研究人員隻能依賴猜想和實驗。這種情況凸顯了該領域的一個重大機遇：對 CoT 的內部運作有更深入、更結構化的理解。這樣的進步不僅可以揭開當前過程的神秘面紗，還可以為該技術在各種復雜的 NLP 任務中更可靠、更高效的應用鋪平道路。

我們的研究結果表明，在一定限度內，推理鏈的長度與大模型推理能力之間存在顯著相關性。有趣的是，當我們將誤導性信息引入推理鏈時，性能仍然表現出改善。這突顯了一個關鍵的見解：關鍵因素似乎是思維鏈的長度，而不是其準確性。

我們有以下主要發現，希望能夠幫助學術界更好地提高 CoT 性能。

對於few-shot COT，步數和準確性之間存在直接的線性相關：這為優化復雜推理中的 CoT 提示提供了一種可量化的方法。具體來說，延長提示中的推理步驟可以顯著增強LLM跨多個數據集的推理能力。即使在保留關鍵信息的情況下，縮短推理步驟也會顯著降低模型的推理能力。
如果保持必要的推理長度，即使是不正確的基本原理也可以產生有利的結果：例如，在數學問題等任務中，由於其面向過程的性質，中間數字的錯誤影響較小。
增加推理步驟的優點是依賴於任務的：更簡單的任務需要更少的步驟，而更復雜的任務可以從更長的推理序列中獲得顯著的收益。
增加零樣本 CoT 中的推理步驟也可以顯著提高 LLM 準確性：為了驗證這種方法，我們將最初的提示從“Let’s think step by step”更改為“Let’s think step by step, but you must think more step.” 這種修改導致大型模型的推理能力顯著增強，在涉及數學問題的數據集中尤其明顯。
我們進行了定量分析，以確定模型大小和增強模型推理能力所需的額外推理步驟數量之間的最佳平衡。

二、我們豐富推理步驟的方法

我們方法的關鍵就是不引入新信息，控制變量，隻豐富步驟，並不帶入額外知識。基於Zero-Shot-CoT和Auto-CoT的啟發，我們期望CoT的流程能夠成為一種標準化的模式，並通過在提示部分限制CoT的思維方向來得出正確的結果。我們方法的核心是模擬人類思維過程並重塑思維鏈條。

Think About The Word： 該策略是要求模型解釋單詞並重建知識庫。通常，一個單詞有多種不同的含義，其效果是讓模型跳出框框思考，並根據生成的解釋重新解釋問題中的單詞。此過程不會引入新信息。在提示中，我們給出了模型正在考慮的單詞的示例，模型會根據新問題自動為該過程選擇單詞。
Read the question again： 反復讀題，減少其他文字對思路鏈條的幹擾。簡而言之，我們讓模型記住這個問題。
Repeat State： 與重復閱讀類似，我們在經過一長串推理後對當前狀態進行了小總結，旨在幫助模型簡化其記憶並減少 CoT 中其他文本的幹擾。
Self-Verification： 人類在回答問題時會檢查他們的答案是否正確。因此，在模型得到答案之前，我們添加了一個自我驗證的過程，根據一些基本信息來判斷答案是否合理。
Make Equation： 對於數學問題，Make Equation 可以幫助人類總結和簡化記憶。而對於一些需要假設未知數x的問題，建立方程是一個必不可少的過程。我們模擬了這個過程，讓模型嘗試在數學問題中建立方程。

三、實驗

我們使用 GPT-3.5-turbo-1106 比較了來自三類推理任務的八個數據集的準確性。所有結果均是三次隨機運行的平均值。我們的 SOTA 結果基於每個數據集最佳性能步驟的實驗結果。

得益於我們標準化了思想鏈流程，可以量化由於 CoT 演示原理步驟的增加而帶來的準確性的提高。我們發現，在有效的 CoT 過程中，即添加最多六個步驟的額外思維過程，所有數據集中的大型語言模型推理能力都會得到提高。換句話說，我們發現準確率和 CoT 復雜度之間存在一定的線性關系。
我們做了以下嘗試。將提示中的某個步驟改為錯誤答案，看看是否影響思路。因此，對於這個實驗，我們將所有提示更改為攜帶一個錯誤。對於算數類題，即使其中一個提示結果出現偏差，對推理過程中的思維鏈的影響也是微乎其微的，所以我們認為大語言模型更多地了解了思維鏈解決算術類問題時，提示中的模式比單一計算要多。對於類似Coin數據集中的邏輯問題，其中一個提示結果的偏差往往會帶來整個思路的支離破碎。我們使用 GPT-3.5-turbo-1106 完成了這個實驗，並根據之前實驗得出的每個數據集的最佳步數保證了性能。
我們進行了推理步驟壓縮實驗，並采用實驗設置中概述的技術來壓縮來自基線自動思想鏈（Auto-CoT）和少樣本思想鏈的示例中的推理過程（Few-Shot-CoT），旨在減少推理步驟的數量。結果如圖所示。結果顯示，它們的性能顯著下降，回歸到與零樣本方法所達到的水平基本相當的水平。它進一步表明增加 COT 基本推理步驟可以提高 COT 性能，反之亦然。

四、結論和未來的工作

在這項工作中，我們為理解和優化大語言模型的 CoT 做出了關鍵貢獻，特別是在復雜推理任務領域。我們對自然語言處理中的 CoT 技術（特別是 GPT-3、GPT-3.5 和 GPT-4 等大型語言模型）進行了廣泛的研究，得出了重要的見解。我們發現推理鏈的長度與這些模型的性能之間存在顯著的相關性。有趣的是，較長的推理鏈可以提高模型性能，即使它們包含誤導性信息。這表明，對於有效解決問題而言，鏈條的長度比其事實準確性更為重要。這些發現為完善 CoT 策略提供了寶貴的指導，強調了推理長度在復雜 NLP 任務中的重要性。

我們的下一步是通過分析LLM推理的長推理步驟和短推理步驟以及大模型內部的神經元過程。我們的目標是確定較長的推理步驟是否與更廣泛的神經元參與相關。為了說明這一點，我們打算使用可視化技術來分析長推理步驟和短推理步驟之間的激活模式。

Illustration From IconScout By Delesign Graphics

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線500 期talk視頻，3000 篇技術幹貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速並陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，並標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

[email protected]

或添加工作人員微信（chemn493）投稿，溝通投稿詳情；還可以關註“將門創投”公眾號，後臺回復“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關於我“門”

▼

將門是一傢以專註於數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力於通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126傢創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”: