大模型技術哪傢強?上海人工智能實驗室發佈開源開放評測體系“司南”

2024年2月6日 25点热度 0人点赞

圖說:“司南”大語言模型中英雙語客觀評測前十名 采訪對象供圖

新民晚報訊(記者 郜陽)大模型技術哪傢強?30日,上海人工智能實驗室科學傢團隊正式發佈大模型開源開放評測體系“司南”(OpenCompass2.0),可以為大語言模型、多模態模型等提供一站式評測服務。

據介紹,“司南”全面量化模型在知識、語言、理解、推理和考試等五大能力維度的表現,評測榜單涉及的大語言模型和多模態大模型超過150個,客觀中立地為大模型技術的創新提供堅實的技術支撐。截至目前,已有包括Meta、阿裡巴巴、騰訊、百度等30餘傢國內外企業和科研機構采用“司南”助力開展技術研發。

同日,還揭曉了年度大模型評測榜單,對過去一年來主流大模型進行全面評測診斷。分析結果顯示,GPT-4 Turbo在各項評測中均獲最佳表現,國內廠商近期發佈的模型緊隨其後,包括智譜清言GLM-4、阿裡巴巴Qwen-Max、百度文心一言4.0都獲得不錯的成績。

記者了解到,基於全新升級的能力體系和工具鏈,“司南”構造了一套高質量的中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等多個方面。通過高質量、多層次的綜合性能力評測基準,“司南”創新了多項能力評測方法,實現了對模型真實能力的全面診斷。

總體而言,大語言模型整體能力仍有較大提升空間;復雜推理相關能力仍舊是大模型普遍面臨的難題,國內大模型相比於GPT-4還存在差距;中文場景下國內最新的大模型已展現出獨特優勢,在部分維度上接近GPT-4 Turbo的水平;此外,開源模型進步很快,以較小的體量達到較高性能水平,表現出較大的發展潛力。

上海人工智能實驗室領軍科學傢林達華表示,對大模型“打分”要做到客觀公允、方式科學、維度全面,“對模型的能力評測不僅是技術進步的度量衡,更是推動模型迭代和優化的重要驅動力。”

另據介紹,基於“司南”大模型評測體系,司南大模型評測夥伴計劃正式啟動。未來,“司南”將與各行業的頭部企業機構一起,構建各類高質量行業評測基準,致力於推進大模型在千行百業應用落地和實踐。