黑桃A:《大規模語言模型-從理論到實踐》

2024年2月6日 20点热度 0人点赞

時代真是變化太快了,2022年,計算機視覺還是挺火的,YOLOv6、v7、v8都是當年發佈的,結果,到了年底 ChatGPT 火起來以後,明顯感覺 2023年 CV 風頭被 NLP 蓋過了。就業市場 LLM 方向也迎來了一波高工資。真是各領風騷好幾年。

但是現在 CV 和 NLP 的界限感覺越來越小了。最近看前幾天分享過的復旦張奇老師開源的《大規模語言模型:理論與實踐》的 PPT 的時候,不得感嘆,張老師太強了,PPT 的質量可真高,不明覺厲。而且,感覺張老師他們的格局也好高,雖然書在京東上售賣,但書都是免費公開的。太長不願看的用戶,可以直接下載本書和課件,大傢可以訪問張老師的網站下載:
https://intro-nlp.github.io/#chapter

2022年11月,ChatGPT的問世展示了大模型的強大潛能,對人工智能領域有重大意義,並對自然語言處理研究產生了深遠影響,引發了大模型研究的熱潮。

距ChatGPT問世不到一年,截至2023年10月,國產大模型玩傢就有近200傢,國內AI大模型如雨後春筍般湧現,一時間形成了百傢爭鳴、百花齊放的發展態勢。“大模型”當之無愧地承包了2023年科技圈全年的亮點!那麼,對IT圈的科技從業者來說,應該做什麼?


擁抱技術變革,理解產業市場,找到適合自己的位置。

大模型市場可以分為通用大模型和垂直大模型兩大類。

大模型的代表ChatGPT是通用大模型,也是許多國內廠傢對標的大模型,以技術攻克為目的。國內的文心一言就屬於這一類。

垂直大模型,聚焦解決垂直領域問題,是在通用大模型的基礎上訓練行業專用模型,應用到金融、醫療、教育、養老、交通等垂直行業,使大模型領域化、商業化,做到實際應用落地。

為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎,並開展大模型實踐,復旦大學張奇教授團隊結合他們在自然語言處理領域的研究經驗,以及分佈式系統和並行計算的教學經驗,在大模型實踐和理論研究的過程中,歷時8個月完成《大規模語言模型:從理論到實踐》一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,並解決相關技術問題。

本書一經上市,便摘得京東新書日榜銷售TOP1的桂冠,可想大傢對本書的認可和支持!

這本書為什麼如此受歡迎?它究竟講了什麼?下面就給大傢詳細~~

本書主要內容

本書圍繞大語言模型構建的四個主要階段——預訓練、有監督微調、獎勵建模和強化學習展開,詳細介紹各階段使用的算法、數據、難點及實踐經驗

預訓練階段需要利用包含數千億甚至數萬億單詞的訓練數據,並借助由數千塊高性能GPU 和高速網絡組成的超級計算機,花費數十天完成深度神經網絡參數的訓練。這一階段的難點在於如何構建訓練數據,以及如何高效地進行分佈式訓練。

有監督微調階段利用少量高質量的數據集,其中包含用戶輸入的提示詞和對應的理想輸出結果。提示詞可以是問題、閑聊對話、任務指令等多種形式和任務。這個階段是從語言模型向對話模型轉變的關鍵,其核心難點在於如何構建訓練數據,包括訓練數據內部多個任務之間的關系、訓練數據與預訓練之間的關系及訓練數據的規模。

獎勵建模階段的目標是構建一個文本質量對比模型,用於對有監督微調模型對於同一個提示詞給出的多個不同輸出結果進行質量排序。這一階段的難點在於如何限定獎勵模型的應用范圍及如何構建訓練數據。

強化學習階段,根據數十萬提示詞,利用前一階段訓練的獎勵模型,對有監督微調模型對用戶提示詞補全結果的質量進行評估,與語言模型建模目標綜合得到更好的效果。這一階段的難點在於解決強化學習方法穩定性不高、超參數眾多及模型收斂困難等問題。

除了大語言模型的構建,本書還介紹了大語言模型的應用和評估方法,主要內容包括如何將大語言模型與外部工具和知識源進行連接、如何利用大語言模型進行自動規劃,完成復雜任務,以及針對大語言模型的各類評估方法。

本書目錄

向上滑動閱覽

第1章 緒論 1

1.1 大語言模型的基本概念 1

1.2 大語言模型的發展歷程 4

1.3 大語言模型的構建流程 8

1.4 本書的內容安排 11

第2章 大語言模型基礎 13

2.1 Transformer結構 13

2.1.1 嵌入表示層 14

2.1.2 註意力層 16

2.1.3 前饋層 18

2.1.4 殘差連接與層歸一化 19

2.1.5 編碼器和解碼器結構 20

2.2 生成式預訓練語言模型GPT 25

2.2.1 無監督預訓練 26

2.2.2 有監督下遊任務微調 27

2.2.3 基於HuggingFace的預訓練語言模型實踐 27

2.3 大語言模型的結構 33

2.3.1 LLaMA的模型結構 34

2.3.2 註意力機制優化 40

2.4 實踐思考 47

第3章 大語言模型預訓練數據 49

3.1 數據來源 49

3.1.1 通用數據 50

3.1.2 專業數據 51

3.2 數據處理 52

3.2.1 質量過濾 52

3.2.2 冗餘去除 53

3.2.3 隱私消除 55

3.2.4 詞元切分 55

3.3 數據影響分析 61

3.3.1 數據規模 61

3.3.2 數據質量 64

3.3.3 數據多樣性 66

3.4 開源數據集 68

3.4.1 Pile 68

3.4.2 ROOTS 71

3.4.3 RefinedWeb 73

3.4.4 SlimPajama 75

3.5 實踐思考 79

第4章 分佈式訓練 80

4.1 分佈式訓練概述 80

4.2 分佈式訓練的並行策略 83

4.2.1 數據並行 84

4.2.2 模型並行 88

4.2.3 混合並行 96

4.2.4 計算設備內存優化 97

4.3 分佈式訓練的集群架構 102

4.3.1 高性能計算集群的典型硬件組成 102

4.3.2 參數服務器架構 103

4.3.3 去中心化架構 104

4.4 DeepSpeed實踐 110

4.4.1 基礎概念 112

4.4.2 LLaMA分佈式訓練實踐 115

4.5 實踐思考 127

第5章 有監督微調 128

5.1 提示學習和語境學習 128

5.1.1 提示學習 128

5.1.2 語境學習 130

5.2 高效模型微調 131

5.2.1 LoRA 131

5.2.2 LoRA的變體 135

5.3 模型上下文窗口擴展 137

5.3.1 具有外推能力的位置編碼 137

5.3.2 插值法 138

5.4 指令數據的構建 141

5.4.1 手動構建指令 141

5.4.2 自動構建指令 142

5.4.3 開源指令數據集 146

5.5 DeepSpeed-Chat SFT實踐 147

5.5.1 代碼結構 148

5.5.2 數據預處理 151

5.5.3 自定義模型 153

5.5.4 模型訓練 155

5.5.5 模型推理 156

5.6 實踐思考 157

第6章 強化學習 158

6.1 基於人類反饋的強化學習 158

6.1.1 強化學習概述 159

6.1.2 強化學習與有監督學習的區別 161

6.1.3 基於人類反饋的強化學習流程 162

6.2 獎勵模型 163

6.2.1 數據收集 164

6.2.2 模型訓練 166

6.2.3 開源數據 167

6.3 近端策略優化 168

6.3.1 策略梯度 168

6.3.2 廣義優勢估計 173

6.3.3 近端策略優化算法 175

6.4 MOSS-RLHF實踐 180

6.4.1 獎勵模型訓練 180

6.4.2 PPO微調 181

6.5 實踐思考 191

第7章 大語言模型應用 193

7.1 推理規劃 193

7.1.1 思維鏈提示 193

7.1.2 由少至多提示 196

7.2 綜合應用框架 197

7.2.1 LangChain框架核心模塊 198

7.2.2 知識庫問答系統實踐 216

7.3 智能代理 219

7.3.1 智能代理的組成 219

7.3.2 智能代理的應用實例 221

7.4 多模態大語言模型 228

7.4.1 模型架構 229

7.4.2 數據收集與訓練策略 232

7.4.3 多模態能力示例 236

7.5 大語言模型推理優化 238

7.5.1 FastServe框架 241

7.5.2 vLLM推理框架實踐 242

7.6 實踐思考 244

第8章 大語言模型評估 245

8.1 模型評估概述 245

8.2 大語言模型評估體系 247

8.2.1 知識與能力 247

8.2.2 倫理與安全 250

8.2.3 垂直領域評估 255

8.3 大語言模型評估方法 260

8.3.1 評估指標 260

8.3.2 評估方法 267

8.4 大語言模型評估實踐 274

8.4.1 基礎模型評估 274

8.4.2 SFT模型和RL模型評估 277

8.5 實踐思考 282

參考文獻 284

索引 303

作者介紹

名傢寄語

2022年11月ChatGPT的出現,開啟了大規模語言模型的新時代。面對人工智能(AI)大模型引發的廣泛討論,如何在日新月異的科技創新環境中贏得主動、在關鍵領域取得創新突破,是時代給予教育的新命題。這不僅關系到人才培養,也關系到未來的國際競爭。高校有責任在“AI時代”為科學理念的普及、科學應用的拓展、科學倫理的探討發揮引領和導向作用,使得更多群體、更多領域共享“AI 時代”的紅利。

《大規模語言模型:從理論到實踐》的作者對自然語言處理和大語言模型方法開展了廣泛而深入的研究,該書及時地對大語言模型的理論基礎和實踐經驗進行了介紹,可以為廣大研究人員、學生和算法研究員提供很好的入門指南。

——金力 中國科學院院士,復旦大學校長

大規模語言模型的成功研發和應用,幫助人類開啟了通用人工智能時代的大門。

《大規模語言模型:從理論到實踐》是張奇教授等幾位作者的傾心之作,作者以深厚的學術造詣和豐富的實踐經驗,為我們揭示了大規模語言模型的基礎理論、技術演進、訓練方法和實踐應用。

本書不僅為讀者提供了翔實的技術細節,更展示了作者對人工智能領域的嚴謹理解。對於從事自然語言處理、深度學習等領域的研究者和工程師來說,本書無疑是進入大規模語言模型領域的案頭參考書。

——王小川 百川智能創始人兼CEO

我始終相信,大規模語言模型帶來了一場新的科技革命,這場革命會逐漸滲透到整個社會的方方面面,帶來極其深遠的影響。了解、理解直至掌握大規模語言模型技術,對於眾多技術從業者而言迫在眉睫。

出自復旦大學自然語言處理團隊的這本書的出版適逢其時,作者團隊堪稱豪華,在學術界也一直以嚴謹著稱。

這本書不僅介紹了大規模語言模型的基本概念和原理,還提供了大量的工程實踐方法和示例代碼。無論是初學者還是經驗豐富的從業者,都會從中受益。這本書,你值得擁有!

——王斌 小米集團AI 實驗室主任、自然語言處理首席科學傢


《大規模語言模型:從理論到實踐》一書深入闡述了大規模語言模型的演變歷程、理論基礎及開發實踐。

本書聚焦大規模語言模型構建的核心技術,包括語言模型預訓練、指令微調和強化學習,並細致地介紹了每個階段所使用的算法、數據來源、面臨的難題及實踐經驗。

此外,本書探討了大規模語言模型的應用領域和評價方法,為對大規模語言模型研究感興趣的研究者提供了理論支持和實踐指導。不僅如此,對於希望將大規模語言模型應用於實際問題解決的研發人員來說,本書同樣具有重要的參考價值。特此力薦!

——范建平 聯想集團副總裁、聯想研究院人工智能實驗室負責人


大規模語言模型是技術發展最快的研究和產業方向,沒有之一。然而,很多人僅知其然不知其所以然,很多學生也沒有深入研究大規模語言模型的實踐機會。

本書作者結合自己在自然語言處理領域多年的研究經驗、近300篇相關論文深度研讀感悟,特別是作者團隊從零開始研發復旦大學大規模語言模型過程中經歷的切身實踐經驗,最終形成本書,為讀者展示了大規模語言模型訓練的全流程細節,同時深入淺出地解釋了設計每一步的原理和效用,值得所有具備科學精神、想搞清楚大規模語言模型到底是怎麼訓出來的投資人、管理者認真閱讀,更值得所有想從事或剛從事大規模語言模型研究和改進的研究人員深度閱讀。

——胡國平 科大訊飛高級副總裁,認知智能全國重點實驗室主任