百川智能發佈超千億大模型Baichuan 3，中文評測超越GPT-4

1月29日，百川智能發佈超千億參數的大語言模型Baichuan 3。在多個權威通用能力評測如CMMLU、GAOKAO和AGI-Eval中，Baichuan 3都展現了出色的能力，尤其在中文任務上更是超越了GPT-4。而在數學和代碼專項評測如MATH、HumanEval和MBPP中同樣表現出色，證明了Baichuan 3在自然語言處理和代碼生成領域的強大實力。

不僅如此，其在對邏輯推理能力及專業性要求極高的MCMLE、MedExam、CMExam等權威醫療評測上的中文效果同樣超過了GPT-4，是中文醫療任務表現最佳的大模型。Baichuan 3還突破“迭代式強化學習”技術，進一步提升了語義理解和生成能力，在詩詞創作的格式、韻律、表意等方面表現優異，領先於其他大模型。

鏈接：
https://www.baichuan-ai.com/

基礎能力全面提升，多項權威評測中文任務成績超越GPT-4

Baichuan 3在多個英文評測中表現出色，達到接近GPT-4的水平。而在CMMLU、GAOKAO等多個中文評測榜單上，更是超越GPT-4展現了其在中文任務上的優勢。

此外，在MT-Bench、IFEval等對齊榜單的評測中，Baichuan 3超越了GPT-3.5、Claude等大模型，處於行業領先水平。

與百億、幾百億級別參數模型訓練不同，超千億參數模型在訓練過程中對高質量數據，訓練穩定性、訓練效率的要求都高出幾個量級。為更好解決相關問題，百川智能在訓練過程中針對性地提出了“動態數據選擇”、“重要度保持”以及“異步CheckPoint存儲”等多種創新技術手段及方案，有效提升了Baicuan 3的各項能力。

高質量數據方面，傳統的數據篩選依靠人工定義，通過濾重篩選、質量打分、Textbook篩選等方法過濾數據。而百川智能認為，數據的優化和采樣是一個動態過程，應該隨著模型本身的訓練過程優化，而非單純依靠人工先驗進行數據的采樣和篩選。為全面提升數據質量，百川智能設計了一套基於因果采樣的動態訓練數據選擇方案，該方案能夠在模型訓練過程中動態地選擇訓練數據，極大提升數據質量。

訓練穩定性方面，超千億參數的模型由於參數量巨大，訓練過程中經常會出現梯度爆炸、loss跑飛、模型不收斂等問題。對此，百川智能提出了“重要度保持”(Salience-Consistency)的漸進式初始化方法，用以保證模型訓練初期的穩定性。並且優化了模型訓練過程的監控方案，在梯度、Loss等指標上引入了參數“有效秩”的方法來提早發現訓練過程中的問題，極大加速對訓練問題的定位，確保了最後模型的收斂效果。此外，為了確保在數千張GPU上高效且穩定地訓練超千億參數模型，百川智能同步優化了模型的訓練穩定性和訓練框架，並采用“異步CheckPoint存儲”機制，可以無性能損失地加大存儲的頻率，減少機器故障對訓練任務的影響，使Baichuan 3的穩定訓練時間達到一個月以上，故障恢復時間不超過10分鐘。

訓練效率方面，百川智能針對超千億參數模型的並行訓練問題進行了一系列優化，如高度優化的RoPE, SwiGLU計算算子；在數據並行中實現參數通信與計算的重疊，以及在序列並行中實現激活值通信與計算的重疊，從而有效降低了通信時間的比重；在流水並行中引入了將激活值卸載至CPU的技術，解決了流水並行中顯存占用不均的問題，減少了流水並行的分段數量並顯著降低了空泡率。通過這些技術創新，Baichuan 3的訓練框架在性能方面相比業界主流框架提升超過30%。

等多個權威評測上接近GPT-4的優異成績，已經充分證明了其強大的基礎邏輯推理能力。在擁有豐富高質量專業醫療知識，並能通過調優後的Prompt對這些知識進行充分激發的基礎上，結合超千億參數的推理能力，Baichuan 3在醫療領域的任務效果提升顯著，在各類中英文醫療測試中的成績提升了2到14個百分點。

Baichuan 3在多個權威醫療評測任務中表現優異，不僅MCMLE、MedExam、CMExam等中文醫療任務的評測成績超過GPT-4，USMLE、MedMCQA等英文醫療任務的評測成績也逼近了GPT-4的水準，是醫療能力最強的中文大模型。

突破“迭代式強化學習”技術，創作精準度大幅提升

語義理解和文本生成，作為大模型最基礎的底層能力，是其他能力的支柱。為提升這兩項能力，業界進行了大量探索和實踐，OpenAI、Google以及Anthropic等引入的RLHF(基於人類反饋的強化學習)和RLAIF(基於AI反饋的強化學習)便是其中的關鍵技術。

基於強化學習對齊後的模型不僅可以更精準地理解用戶指令，尤其是多約束以及多輪對話下的指令，還能進一步提升生成內容的質量。但是在大模型中充分發揮強化學習的作用不僅需要穩定且高效的強化學習訓練框架和高質量的優質偏序數據，還需要在“探索與利用”兩者間進行平衡，實現模型能力持續爬坡。

對於以上問題，百川智能進行了深入研究，並給出了針對性的解決方案。強化學習訓練框架方面，百川智能自研了訓練推理雙引擎融合、多模型並行調度的PPO訓練框架，能夠很好支持超千億模型的高效訓練，訓練效率相比業界主流框架提升400%。偏序數據方面，百川智能創新性的采用了RLHF與RLAIF結合的方式來生成高質量優質偏序數據，在數據質量和數據成本之間獲得了更好的平衡。在此基礎上，對於“探索與利用”這一根本挑戰，百川智能通過PPO探索空間與Reward Model評價空間的同步升級，實現“迭代式強化學習”(Iterative RLHF&RLAIF)。基於強化學習的版本爬坡，可以在SFT的基礎上進一步發揮底座模型的潛力，讓Baichuan 3的語義理解和生成創作能力大幅提升。

以文本創作中最具挑戰的唐詩宋詞為例，作為中國傳統文化的瑰寶，詩詞不僅在格式、平仄、對偶、韻律等方面均有著嚴格的約束條件，並且內容高度凝練、寓意深遠。如果僅通過SFT的微調學習，一方面高質量詩詞的創作數據需要極高的專傢成本，另一方面不能在平仄、對偶、韻律等多個方面實現較好的約束理解和遵循。此外，傳統的單次RLHF范式在唐詩宋詞面前也遇到極大挑戰，PPO在訓練過程中生成的Response有可能超出Reward Model的評價范圍導致“探索”的過程失控。

Baichuan 3結合“RLHF&RLAIF”以及迭代式強化學習的方法，讓大模型的詩詞創作能力達到全新高度。可用性相比當前業界最好的模型水平提升達500%，文采遠超GPT-4。對於宋詞這種格式多變，結構深細、韻律豐富的高難度文體，生成的內容亦能工整對仗、韻腳和諧。其精準、深厚的創作功底，將讓每個人都能輕松創作出詠物、寄思的五言律詩、七言絕句，寫下的言志、抒情的“沁園春”、“定風波”，這不僅可以提升大眾的人文素養，還能助力中華傳統文化在大模型時代真正地“活”起來。

作為參數規模超過千億的大語言模型，Baichuan 3不僅英文效果達到接近GPT-4的水平，還在多項通用中文任務的表現上實現了對GPT-4的超越，是百川智能的全新裡程碑。Baichuan 3全面的通用能力以及在醫療領域的強大表現，將為百川智能打造“超級應用”，把大模型技術落地到諸多復雜應用場景提供有力支撐。