大模型技術哪傢強？上海人工智能實驗室發佈開源開放評測體系“司南”

圖說：“司南”大語言模型中英雙語客觀評測前十名采訪對象供圖

新民晚報訊（記者郜陽）大模型技術哪傢強？30日，上海人工智能實驗室科學傢團隊正式發佈大模型開源開放評測體系“司南”（OpenCompass2.0），可以為大語言模型、多模態模型等提供一站式評測服務。

據介紹，“司南”全面量化模型在知識、語言、理解、推理和考試等五大能力維度的表現，評測榜單涉及的大語言模型和多模態大模型超過150個，客觀中立地為大模型技術的創新提供堅實的技術支撐。截至目前，已有包括Meta、阿裡巴巴、騰訊、百度等30餘傢國內外企業和科研機構采用“司南”助力開展技術研發。

同日，還揭曉了年度大模型評測榜單，對過去一年來主流大模型進行全面評測診斷。分析結果顯示，GPT-4 Turbo在各項評測中均獲最佳表現，國內廠商近期發佈的模型緊隨其後，包括智譜清言GLM-4、阿裡巴巴Qwen-Max、百度文心一言4.0都獲得不錯的成績。

記者了解到，基於全新升級的能力體系和工具鏈，“司南”構造了一套高質量的中英文雙語評測基準，涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面。通過高質量、多層次的綜合性能力評測基準，“司南”創新了多項能力評測方法，實現了對模型真實能力的全面診斷。

總體而言，大語言模型整體能力仍有較大提升空間；復雜推理相關能力仍舊是大模型普遍面臨的難題，國內大模型相比於GPT-4還存在差距；中文場景下國內最新的大模型已展現出獨特優勢，在部分維度上接近GPT-4 Turbo的水平；此外，開源模型進步很快，以較小的體量達到較高性能水平，表現出較大的發展潛力。

上海人工智能實驗室領軍科學傢林達華表示，對大模型“打分”要做到客觀公允、方式科學、維度全面，“對模型的能力評測不僅是技術進步的度量衡，更是推動模型迭代和優化的重要驅動力。”

另據介紹，基於“司南”大模型評測體系，司南大模型評測夥伴計劃正式啟動。未來，“司南”將與各行業的頭部企業機構一起，構建各類高質量行業評測基準，致力於推進大模型在千行百業應用落地和實踐。