萬字詳解書生·浦語2.0，綜合性能領先開源社區，支持免費商用

過去半年內，大模型技術體系迅速演進，引入了100K級長上下文、代碼解釋、智能體等新技術。浦語團隊也推出新一代語言模型 - 書生·浦語2.0（InternLM2）。其核心特點在於回歸語言建模本質，通過更高質量的語料和信息密度，提升模型基座的語言建模能力。文中提到InternLM2在基礎語言建模方面的實質性增強，其數理、代碼、對話、創作等能力取得顯著進步，綜合性能領先於其他開源模型。InternLM2延續了第一代的理念：繼續支持免費商用；同時包括兩種規格：輕量級7B和綜合性強大的20B，滿足不同使用需求。

一、總覽

自2023年7月6日，書生·浦語（InternLM）在世界人工智能大會上正式開源以來，在社區和業界形成越來越大的影響。在過去半年，大模型技術體系也在快速演進，100K級別的長上下文、代碼解釋、智能體等新技術不斷迭代。在技術水平不斷進步的同時，大模型在應用上的邊界也不斷拓寬。在這半年裡，浦語團隊也在潛心打造新一代的語言模型， 近日正式發佈書生·浦語2.0（InternLM2） 。

相比於第一代 InternLM 和一些主流開源模型， InternLM2 的核心在於回歸語言建模的本質，致力於通過更高質量的語料以及更高的信息密度，實現模型基座語言建模能力的質的提升 。我們觀察到，隨著 InternLM2 在基礎語言建模能力的實質性增強，數理、代碼、對話、創作等各方面能力都獲得了長足進步，綜合性能達到開源模型的領先水平。

在此次發佈中，沿襲第一代浦語的設定，InternLM2 包含兩種模型規格：7B和20B。7B為輕量級的研究和應用提供了一個輕便但性能不俗的模型，20B模型的綜合性能更為強勁，可以有效支持更加復雜的實用場景。面向不同的使用需求，每個規格包含三個模型版本：

InternLM2-Base：高質量和具有很強可塑性的模型基座，是模型進行深度領域適配的高質量起點；
InternLM2：在Base基礎上，在多個能力方向進行了強化，在評測中成績優異，同時保持了很好的通用語言能力，是我們推薦的在大部分應用中考慮選用的優秀基座；
InternLM2-Chat：在Base基礎上，經過SFT和RLHF，面向對話交互進行了優化，具有很好的指令遵循、共情聊天和調用工具等的能力。

秉持“以高質量開源賦能創新”的理念，我們發佈的新一代 InternLM2 繼續支持 免費商用 。浦語開源項目放在Github，模型權重也同時在 HuggingFace 和阿裡雲的 ModelScope 開放訪問，相關網址如下：

Github項目：

https://github.com/InternLM/InternLM

HuggingFace主頁：

https://huggingface.co/internlm

ModelScope主頁：

https://modelscope.cn/organization/Shanghai_AI_Laboratory

有商用需要的用戶，可以在在GitHub項目主頁或者 https://wj.qq.com/s2/12725412/f7c1/ 申請免費商用的License。

二、回歸語言建模的本質

InternLM2 的核心在於回歸語言建模的本質。我們的研究表明，語言建模能力增強的關鍵在於訓練語料質量以及信息密度的提升。為此，我們研發了新一代的數據清洗過濾技術，主要發展了以下幾個方面的技術方法：

多維度數據價值評估 ：基於文本質量、信息質量、信息密度等維度對數據價值進行綜合評估與提升；
高質量語料驅動的數據富集： 利用高質量語料的特征從物理世界、互聯網以及語料庫中進一步富集更多類似語料；
有針對性的數據補齊： 針對性補充語料，重點加強世界知識、數理、代碼等核心能力。

基於新的數據清洗過濾技術，語言建模能力實現了實質性的顯著增強。下圖比較了初代 InternLM 和 InternLM2 在大規模高質量的驗證語料上的 loss 分佈。我們看到了整個分佈的整體左移，表明了語言建模能力的實質性增強（註：指令微調等雖然可以在下遊任務帶來明顯提升，但是對於整體語言建模能力的影響是非常非常微弱的）

在過去一年的大模型研發歷程中，我們的數據清洗技術完成了三輪迭代。下圖比較了這三代數據訓練的 7B 模型在下遊任務中的性能成長曲線： 在新的數據清洗技術（InternData-V3）的加持下，我們隻使用約60%的訓練數據即可達到上一版模型訓練 1T tokens（InternData-V2）的性能表現 ，而且持續訓練後建模能力到達更高的水平。

語言建模能力的增強為各項能力的形成打下堅實的基礎。

三、主要亮點

語言建模能力的實質增強，帶來了下遊任務的全方位性能提升。以下列出了InternLM2的主要亮點：

有效支持20萬字超長上下文： 模型在20萬字長輸入中幾乎完美地實現長文“大海撈針” ，而且在 LongBench 和 L-Eval 等長文任務中的表現也達到開源模型中的領先水平。
綜合性能全面提升：InternLM2 和 InternLM2-Chat 在各能力維度全面進步，在推理、數學、代碼等方面的能力提升尤為顯著，綜合性能達到同量級開源模型的領先水平，在重點能力評測上 InternLM2-Chat-20B 甚至可以達到比肩 ChatGPT （GPT-3.5）的水平。

優秀的對話和創作體驗：InternLM2-Chat 可以精準地理解和遵循用戶意圖，具備較強的共情能力和豐富的結構化創作能力。 在最新公佈的 AlpacaEval2 英文主觀對話榜單上，InternLM2-Chat-20B 超越了 GPT-3.5、 Gemini Pro 和 Claude-2 。

上面的回答不僅提供了一個內容合理的課程大綱，而且在整個結構化輸出中，格式和數量上也精準地遵循了用戶的要求（7個小節，標題格式、1-5分的星標等），結語對於正文的總結也很準確。

工具調用能力整體升級：基於更強和更具有泛化性的指令理解、工具篩選與結果反思等能力，新版模型可以更可靠地支持復雜智能體的搭建，支持對工具進行有效的多輪調用，完成較復雜的任務。
突出的數理能力和實用的數據分析功能：模型在不使用外部工具的條件下已具備不錯的計算能力和推理能力，數理表現超過 ChatGPT；在配合代碼解釋器（code-interpreter）的條件下，InternLM2-Chat-20B 在 GSM8K 和 MATH 上可以達到和 GPT-4 相仿的水平。基於在數理和工具方面強大的基礎能力，InternLM2-Chat 提供了實用的數據分析能力。

下面，我們分別就 InternLM2 對超長上下文支持、全方位的性能提升、優秀的對話和創作能力、工具調用和交互能力、以及數理分析能力展開介紹。

四、超長上下文支持：200K上下文中近乎完美的“大海撈針”

InternLM2通過拓展訓練窗口大小和位置編碼改進將對上下文窗口的支持延長到了20萬tokens。為了檢驗這種支持的有效性，我們參考業界范例，對模型進行“大海撈針”試驗。該試驗通過將關鍵信息隨機插入一段長文本的不同位置構造問題，測試模型是否能從長文本中提取出關鍵信息。

上面兩幅圖分別展示 InternLM-Chat 和 InternLM2-Chat 在不同長度的上下文（橫軸）及上下文中不同位置（縱軸）上召回關鍵信息的準確率。紅色代表較低的召回準確率，而綠色則代表較高的召回率。我們看到，初代模型隨著文檔長度的增長，召回準確率不斷下降，對於超過 8K 的上下文，平均準確率下降到低於30%的水平。而新一代 InternLM2-Chat，召回準確率始終保持在高位，16K以內的平均準確率達到 95.65%。

我們繼續延長上下文的長度，對 InternLM-2 提出更大的挑戰。試驗結果表明，InternLM2-Chat 在上下文長度延展到 200K 時依舊保持了很高的信息召回成功率，驗證了 InternLM2 對於超長上下文的支持能力是十分堅實的。

我們還通過兩個主流的長文評測集 LongBench 和 L-Eval 檢驗模型在多種長文任務中的表現。

從上表中我們可以看到，InternLM2 在主流長文評測中表現不俗，不僅顯著超越了初代 InternLM、Qwen 和 Mistral，而且相比於在長文任務中有很強表現的 ChatGLM3 也稍勝一籌。

長語境能力可以顯著拓展大模型的應用場景，幫助人們應對繁瑣的書面工作。比如我們可以讓InternLM2總結一段3小時會議的記錄並提取出我們關心的信息。盡管這段文本是語音轉錄存在很多錯別字，InternLM2仍然很好地完成了任務。

聯合國2023年10月2日召開的聯合國貿易和發展會議會議記錄原錄音鏈接：

https://conf.unog.ch/digitalrecordings/index.html?guid=public/60.5295/9849DF25-F3B5-4BFF-8979-C5A989586205_10h09&position=0&channel=ORIGINAL

除此之外，InternLM2整理財報內容表現也不俗。在以下例子中，我們讓 InternLM2 整理一份212頁的財報（原文鏈接財報1）：

五、性能全方位提升：推理能力顯著增強，綜合性能開源領先

我們根據大語言模型的應用方式和用戶通常關註的方面，定義了語言、知識、推理、數學、代碼、考試六個能力維度，每個維度選取了相關的主流評測集，綜合對語言模型的表現進行多維度的評價。

語言：考察模型的基礎語言能力，包括信息抽取、意圖識別、情感分析、內容總結評價、翻譯、問答等多個方面。面向這個維度，我們選取了 WinoGrande、C3、RACE 等評測集。
知識：考察模型在生活常識，自然科學，社會科學，人文科學等多個領域的知識水平。面向這個維度，我們選取了 TriviaQA、NaturalQuestions 等評測集。
推理：考察模型在常識推理、邏輯推理（包括演繹推理、歸納推理、溯因推理）等多種推理能力。面向這個維度，我們選取了 HellaSwag、PIQA、BigBench-Hard（BBH）等評測集。
數學：考察模型在小學，初中，高中，大學等多個學段，多知識點的全方位數學推理能力。面向這個維度，我們選取了 GSM8K、MATH、GSM-Hard 等評測集。
代碼：考察模型在代碼分析、代碼理解、代碼生成、多編程語言掌握等各類代碼能力。面向這個維度，我們選取了 HumanEval、MBPP等評測集。
考試：以綜合化考試的形式考察模型在各學段各學科的中英文學科知識水平。面向這個維度，我們選取了 MMLU、AGIEval、C-Eval 等評測集。

5.1 兩代模型的對比

對於上述維度，我們總共選取了 55 個評測集對模型進行評價。每個維度的評分就是對應評測集得分的平均。

首先，我們比較了初代 InternLM 和 InternLM2 在各個能力維度上的表現，如下表所示：

從上表中，我們可以看到，InternLM2 相比於初代模型在各個維度上都取得了長足的進步。其中，在推理、數學、代碼方面，新一代模型的進步尤為明顯。上述結果表明，核心語言建模能力的增強，給下遊任務帶來的提升是全方位的，不僅語言能力本身得以改善，而且在此基礎上也形成了更加紮實的推理、數學和代碼能力。

5.2 和其它開源模型的性能對比

在過去的幾個月，國內外機構開源了多個優秀的大語言模型，包括國外的Llama2、Mistral，國內的Baichuan2、Qwen、ChatGLM3、Yi等。這些模型的表現可圈可點，有力推動了大模型開源生態的繁榮。

下面，我們就相近規格的基座模型和對話模型分別進行比較。下列表格中，每一列為一個模型，每一行為一個能力維度或各維度的總平均，該行的最高成績以粗體突出。

6B ~ 7B基座模型對比

13B ~ 20B基座模型對比

註：Mixtral-8x7B每次推理會激活約 13B 參數，而且這個模型近期也備受關註，因此其表現也列在此處作為參考。

6B ~ 7B對話模型對比

13B ~ 20B對話模型對比

5.3 在主要評測集上的表現

下表列出了 InternLM2 和 InternLM2-Chat 在一系列典型評測集上的成績，並觀察它們和業內商用模型標桿 ChatGPT（GPT-3.5）以及 GPT-4 之間的差距。

整體而言，我們看到 InternLM2 以及 InternLM2-Chat 的各個規格的模型在關鍵評測上都有令人驚喜的表現。其中，20B 的模型，在多個關鍵評測中已經很接近甚至部分超越 ChatGPT（GPT-3.5），其中在 AGIEval、 BigBench-Hard（BBH）、GSM8K、MATH等對推理能力有較高要求的評測上，新一代20B模型的表現都優勝於 ChatGPT，在代碼能力上的表現也遠優於同量級開源模型，縮小了和 ChatGPT 的差距。

下面四個折線圖分別比較了 InternLM2系列和其它相近量級的基座模型與對話模型在廣受關註的十多個主流評測集的表現。

我們可以看到 InternLM2 的表現普遍領先於同量級的開源模型，並且能力均衡發展，沒有明顯落後於主流模型的短板。這得益於基礎語言建模能力的有力支撐。

5.4 避免數據污染的努力

數據污染（比如測試數據被混入了訓練過程）是大模型訓練與評測面臨的一個重要問題。數據污染可能導致評測結果失真。如前所述，此項研究工作主要關註的是基礎語言建模能力的增強對下遊表現的影響。因此，團隊在進行模型研發的過程中，努力避免數據污染的影響，主要采取兩重措施：一是通過更嚴謹的訓練集構建流程，把各測試集排除在外；二是通過min-hash去重，去掉訓練語料中和測試集接近的部分，最大限度避免在從廣泛來源獲取的海量訓練語料中不小心混入了少量測試語料。

在模型訓練完成後, 我們參考學界相關研究的做法檢查模型是否在測試集上有不正常的表現。具體而言, 我們在兩組對照數據集上進行了損失函數計算, 在測試集上的平均損失以及在同分佈參考集上的平均損失。如果沒有測試集數據污染, 則兩個數值應該接近相等, 接近於0或大於 0 ; 反之, 則的值會嚴重偏負。

根據上表中的驗證結果，可以發現InternLM2與其他國內主流開源模型相比，數據污染水平較低或相當，證明InternLM2的性能是具備泛化性的。盡管我們在訓練數據去重時有意避免混入類似測試集的數據，但當前網絡語料對大模型評測數據的相關討論導致徹底避免污染仍然是一個極具挑戰性的問題。

六、對話和創作：精準的指令遵循、溫暖的對話體驗、富有想象力的創作

InternLM2 采用了 Online RLHF，對獎勵模型和對話模型進行了三輪迭代更新，在每一輪更新中針對前一輪模型的表現更新偏好數據和訓練 prompt。在獎勵模型訓練和PPO階段都平衡地采用各類prompt，使得模型在安全性進一步提升的情況下，對話的主觀體驗也能顯著提升。為了推動社區對 RLHF 的探索和研究，我們同時開源了 InternLM2-Chat 僅SFT和SFT RLHF的權重，供社區分析對比 RLHF 前後模型的變化。

為了避免數據泄漏的影響，我們使用了社區最新發佈的一些的benchmark進行評估。在斯坦福大學1月份剛發佈的 AlpacaEval2 英文主觀對話榜單上，InternLM2-Chat-20B 超越了 GPT-3.5、 Gemini Pro 和 Claude-2。

6.1 生活和工作中可靠的助手

在日常生活、工作學習、旅遊、社交等各類場景，InternLM2 都是貼心又可靠的AI助手。

6.2 充滿人文關懷的對話

6.3 富有想象力的創作

InternLM2 既然名為“書生”，自然小有文采，吟詩作對不在話下，劇本小說亦信手拈來。下面 InternLM2-Chat-20B 將根據用戶的簡單指示展開暢想，編寫《流浪地球3》的電影劇本提綱。

上面的劇本提綱，在保持一個合理自洽的邏輯的同時，想象力也非常豐富，也體現了人類面對挑戰時的勇敢精神。

七、工具調用能力升級：更好的工具篩選和多步規劃

工具調用能夠極大地拓展大語言模型的能力邊界，使得大語言模型能夠通過搜索、計算、代碼解釋器等獲取最新的知識並處理更加復雜的問題。上一代的書生·浦語模型就已經初步支持了工具調用能力，也展現出了零樣本調用工具的泛化能力。InternLM2 進一步升級了模型的工具調用能力，能夠更穩定地進行工具篩選和多步驟規劃，完成復雜任務。我們對模型調用工具流程進行了細粒度的拆解和分析，針對規劃、推理、工具選擇、理解、執行、反思等步驟，設計了精細的評價方式，並針對性進行增強和優化。

7.1 工具調用的評測表現

我們針對多種任務構建了細粒度工具調用評測集 T-Eval（https://open-compass.github.io/T-Eval/），InternLM2-Chat-7B 在 T-Eval 上甚至超越了 Claude-2.1 和目前的開源模型，性能接近 GPT-3.5 和 GPT-4。

7.2 多步工具調用

InternLM2-Chat-20B 能夠在一輪交互中多次調用工具，完成相對復雜的任務。下面，我們基於InternLM2-Chat-20B，通過開源智能體框架 Lagent（https://github.com/InternLM/lagent）搭建一個簡易的用戶助手智能體，它可以在一次指令回應中幫助用戶完成地圖查詢、路線規劃、發郵件等任務。

八、數理能力突出：不僅能解復雜數學題，還提供實用的數據分析能力

數學能力是大模型邏輯思維和推理能力的重要體現，InternLM2 從多方面提升模型的數學能力，達到了開源模型的標桿水平。在預訓練階段，模型吸收了豐富的數學相關的語料，在微調階段，模型全面學習了覆蓋不同學段各類知識點的題目，使得模型內生的計算能力得到了大大增強。更進一步地，模型還學會了使用代碼解決各類復雜的計算問題。

8.1 內生的計算能力

計算能力往往是大模型的短板，造成最終推理結果的錯誤。InternLM2針對性提高了模型的計算能力，在不依靠計算器等外部工具的情況下，在100以內的簡單數學運算上能夠做到接近100%的準確率，在1000以內達到80%左右的運算準確率。

依賴模型優秀的內生能力，InternLM2 不借助外部工具就能夠進行部分復雜數學題的運算和求解。

8.2 代碼解釋器：更上一層樓

InternLM2 也能很好地支持代碼解釋器（code interpreter）。借助代碼解釋器，模型能夠編寫代碼進行更復雜的計算，或者對推理的結果進行形式化驗證，從而可以解決計算要求更高或者演算過程更加復雜的問題。

在典型的數學評測集 GSM8K 和 MATH 上，配合代碼解釋器，InternLM2 都能夠在本身已經較高的分數上，進一步獲得提升。其中對於難度更高的 MATH 數據集，借助代碼解釋器，精度從 32.5 大幅提升到 51.2，甚至超過了 GPT-4 的表現。

配合代碼解釋器，20B 模型已經能夠完成一些例如積分求解等大學級別的數學題目。

8.3 數據分析和可視化

除了求解數學題之外，InternLM2 還能借助代碼解釋器進行數據分析和可視化。例如，我們給模型新一份鮮出爐的2023年全國工業產值的數據表格，模型能夠根據數據繪制經濟數據折線圖，並且使用機器學習模型預測未來的數據。

Illustration From IconScout By Delesign Graphics

-The End-

掃碼觀看！

本周上新！

“AI技術流”原創投稿計劃

TechBeat是由將門創投建立的AI學習社區（www.techbeat.net）。社區上線500 期talk視頻，3000 篇技術幹貨文章，方向覆蓋CV/NLP/ML/Robotis等；每月定期舉辦頂會及其他線上交流活動，不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高質量、知識型交流平臺，希望為AI人才打造更專業的服務和體驗，加速並陪伴其成長。

投稿內容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經歷講述 //

投稿須知

稿件需要為原創文章，並標明作者信息。

我們會選擇部分在深度技術解析及科研心得方向，對用戶啟發更大的文章，做原創性內容獎勵

投稿方式

發送郵件到

[email protected]

或添加工作人員微信（chemn493）投稿，溝通投稿詳情；還可以關註“將門創投”公眾號，後臺回復“投稿”二字，獲得投稿說明。

>>> 添加小編微信！

關於我“門”

▼

將門是一傢以專註於數智核心科技領域的新型創投機構，也是北京市標桿型孵化器。公司致力於通過連接技術與商業，發掘和培育具有全球影響力的科技創新企業，推動企業創新發展與產業升級。

將門成立於2015年底，創始團隊由微軟創投在中國的創始團隊原班人馬構建而成，曾為微軟優選和深度孵化了126傢創新的技術型創業公司。

如果您是技術領域的初創企業，不僅想獲得投資，還希望獲得一系列持續性、有價值的投後服務，歡迎發送或者推薦項目給我“門”: