時代真是變化太快了,2022年,計算機視覺還是挺火的,YOLOv6、v7、v8都是當年發佈的,結果,到了年底 ChatGPT 火起來以後,明顯感覺 2023年 CV 風頭被 NLP 蓋過了。就業市場 LLM 方向也迎來了一波高工資。真是各領風騷好幾年。
但是現在 CV 和 NLP 的界限感覺越來越小了。最近看前幾天分享過的復旦張奇老師開源的《大規模語言模型:理論與實踐》的 PPT 的時候,不得感嘆,張老師太強了,PPT 的質量可真高,不明覺厲。而且,感覺張老師他們的格局也好高,雖然書在京東上售賣,但書都是免費公開的。太長不願看的用戶,可以直接下載本書和課件,大傢可以訪問張老師的網站下載:
https://intro-nlp.github.io/#chapter
2022年11月,ChatGPT的問世展示了大模型的強大潛能,對人工智能領域有重大意義,並對自然語言處理研究產生了深遠影響,引發了大模型研究的熱潮。
距ChatGPT問世不到一年,截至2023年10月,國產大模型玩傢就有近200傢,國內AI大模型如雨後春筍般湧現,一時間形成了百傢爭鳴、百花齊放的發展態勢。“大模型”當之無愧地承包了2023年科技圈全年的亮點!那麼,對IT圈的科技從業者來說,應該做什麼?
擁抱技術變革,理解產業市場,找到適合自己的位置。
大模型市場可以分為通用大模型和垂直大模型兩大類。
大模型的代表ChatGPT是通用大模型,也是許多國內廠傢對標的大模型,以技術攻克為目的。國內的文心一言就屬於這一類。
垂直大模型,聚焦解決垂直領域問題,是在通用大模型的基礎上訓練行業專用模型,應用到金融、醫療、教育、養老、交通等垂直行業,使大模型領域化、商業化,做到實際應用落地。
為了使更多的自然語言處理研究人員和對大語言模型感興趣的讀者能夠快速了解大模型的理論基礎,並開展大模型實踐,復旦大學張奇教授團隊結合他們在自然語言處理領域的研究經驗,以及分佈式系統和並行計算的教學經驗,在大模型實踐和理論研究的過程中,歷時8個月完成《大規模語言模型:從理論到實踐》一書的撰寫。希望這本書能夠幫助讀者快速入門大模型的研究和應用,並解決相關技術問題。
本書一經上市,便摘得京東新書日榜銷售TOP1的桂冠,可想大傢對本書的認可和支持!
本書圍繞大語言模型構建的四個主要階段——預訓練、有監督微調、獎勵建模和強化學習展開,詳細介紹各階段使用的算法、數據、難點及實踐經驗。
預訓練階段需要利用包含數千億甚至數萬億單詞的訓練數據,並借助由數千塊高性能GPU 和高速網絡組成的超級計算機,花費數十天完成深度神經網絡參數的訓練。這一階段的難點在於如何構建訓練數據,以及如何高效地進行分佈式訓練。
有監督微調階段利用少量高質量的數據集,其中包含用戶輸入的提示詞和對應的理想輸出結果。提示詞可以是問題、閑聊對話、任務指令等多種形式和任務。這個階段是從語言模型向對話模型轉變的關鍵,其核心難點在於如何構建訓練數據,包括訓練數據內部多個任務之間的關系、訓練數據與預訓練之間的關系及訓練數據的規模。
獎勵建模階段的目標是構建一個文本質量對比模型,用於對有監督微調模型對於同一個提示詞給出的多個不同輸出結果進行質量排序。這一階段的難點在於如何限定獎勵模型的應用范圍及如何構建訓練數據。
強化學習階段,根據數十萬提示詞,利用前一階段訓練的獎勵模型,對有監督微調模型對用戶提示詞補全結果的質量進行評估,與語言模型建模目標綜合得到更好的效果。這一階段的難點在於解決強化學習方法穩定性不高、超參數眾多及模型收斂困難等問題。
除了大語言模型的構建,本書還介紹了大語言模型的應用和評估方法,主要內容包括如何將大語言模型與外部工具和知識源進行連接、如何利用大語言模型進行自動規劃,完成復雜任務,以及針對大語言模型的各類評估方法。
2022年11月ChatGPT的出現,開啟了大規模語言模型的新時代。面對人工智能(AI)大模型引發的廣泛討論,如何在日新月異的科技創新環境中贏得主動、在關鍵領域取得創新突破,是時代給予教育的新命題。這不僅關系到人才培養,也關系到未來的國際競爭。高校有責任在“AI時代”為科學理念的普及、科學應用的拓展、科學倫理的探討發揮引領和導向作用,使得更多群體、更多領域共享“AI 時代”的紅利。
《大規模語言模型:從理論到實踐》的作者對自然語言處理和大語言模型方法開展了廣泛而深入的研究,該書及時地對大語言模型的理論基礎和實踐經驗進行了介紹,可以為廣大研究人員、學生和算法研究員提供很好的入門指南。
——金力 中國科學院院士,復旦大學校長
大規模語言模型的成功研發和應用,幫助人類開啟了通用人工智能時代的大門。
《大規模語言模型:從理論到實踐》是張奇教授等幾位作者的傾心之作,作者以深厚的學術造詣和豐富的實踐經驗,為我們揭示了大規模語言模型的基礎理論、技術演進、訓練方法和實踐應用。
本書不僅為讀者提供了翔實的技術細節,更展示了作者對人工智能領域的嚴謹理解。對於從事自然語言處理、深度學習等領域的研究者和工程師來說,本書無疑是進入大規模語言模型領域的案頭參考書。
——王小川 百川智能創始人兼CEO
我始終相信,大規模語言模型帶來了一場新的科技革命,這場革命會逐漸滲透到整個社會的方方面面,帶來極其深遠的影響。了解、理解直至掌握大規模語言模型技術,對於眾多技術從業者而言迫在眉睫。
出自復旦大學自然語言處理團隊的這本書的出版適逢其時,作者團隊堪稱豪華,在學術界也一直以嚴謹著稱。
這本書不僅介紹了大規模語言模型的基本概念和原理,還提供了大量的工程實踐方法和示例代碼。無論是初學者還是經驗豐富的從業者,都會從中受益。這本書,你值得擁有!
——王斌 小米集團AI 實驗室主任、自然語言處理首席科學傢
《大規模語言模型:從理論到實踐》一書深入闡述了大規模語言模型的演變歷程、理論基礎及開發實踐。
本書聚焦大規模語言模型構建的核心技術,包括語言模型預訓練、指令微調和強化學習,並細致地介紹了每個階段所使用的算法、數據來源、面臨的難題及實踐經驗。
此外,本書探討了大規模語言模型的應用領域和評價方法,為對大規模語言模型研究感興趣的研究者提供了理論支持和實踐指導。不僅如此,對於希望將大規模語言模型應用於實際問題解決的研發人員來說,本書同樣具有重要的參考價值。特此力薦!
——范建平 聯想集團副總裁、聯想研究院人工智能實驗室負責人
大規模語言模型是技術發展最快的研究和產業方向,沒有之一。然而,很多人僅知其然不知其所以然,很多學生也沒有深入研究大規模語言模型的實踐機會。
本書作者結合自己在自然語言處理領域多年的研究經驗、近300篇相關論文深度研讀感悟,特別是作者團隊從零開始研發復旦大學大規模語言模型過程中經歷的切身實踐經驗,最終形成本書,為讀者展示了大規模語言模型訓練的全流程細節,同時深入淺出地解釋了設計每一步的原理和效用,值得所有具備科學精神、想搞清楚大規模語言模型到底是怎麼訓出來的投資人、管理者認真閱讀,更值得所有想從事或剛從事大規模語言模型研究和改進的研究人員深度閱讀。
——胡國平 科大訊飛高級副總裁,認知智能全國重點實驗室主任