大模型年度榜單公佈:GPT-4第一,智譜、阿裡緊追

2024年2月6日 30点热度 0人点赞

·國內大模型相比GPT-4還存在差距,推理、數學、代碼、智能體是國內大模型短板,中文場景下國內最新大模型已展現出優勢。

OpenCompass2.0大語言模型中英雙語客觀評測前十名(采用百分制)。商用閉源模型通過API形式測試,開源模型直接在模型權重上測試。

在一眾試圖“超越GPT”的大模型中,哪個大模型實力最強?大模型跑分、刷榜,如何測評大模型真實水平?

1月30日,大模型開源開放評測體系司南(OpenCompass2.0)揭曉了2023年度大模型評測榜單。對過去一年來主流大模型全面評測診斷後,結果顯示,GPT-4-Turbo在各項評測中均獲最佳表現,國內廠商近期發佈的模型緊隨其後,包括智譜清言GLM-4、阿裡巴巴Qwen-Max、百度文心一言4.0。

評測是大模型的指揮棒和指南針,OpenCompass為模型提供評測服務,量化模型在知識、語言、理解、推理和考試等五大能力維度的表現。總體來看,大語言模型整體能力仍有較大提升空間,復雜推理相關能力仍是大模型普遍面臨的難題,國內大模型相比於GPT-4還存在差距。中文場景下國內最新大模型已展現出優勢,在部分維度上接近GPT-4-Turbo的水平。

中英雙語客觀評測:數學、代碼仍是短板

OpenCompass於2023年7月由上海人工智能實驗室在世界人工智能大會上推出,目前升級為OpenCompass2.0,構造了一套中英文雙語評測基準,涵蓋語言與理解、常識與邏輯推理、數學計算與應用、多編程語言代碼能力、智能體、創作與對話等方面。

基於語言、知識、推理、數學、代碼、智能體等六個維度,OpenCompass2.0構建了超1.5萬道高質量中英文雙語問題,並引入首創的循環評估(Circular Evalution)策略,系統分析了國內外大模型的綜合客觀性能。

中英雙語客觀評測榜單。截至該榜單發佈,部分新大模型尚未納入本次評測。

在百分制的客觀評測基準中,GPT-4 Turbo僅達到61.8分的及格水平。此結果顯示,復雜推理仍然是大模型面臨的重要難題,需要進一步的技術創新來攻克。

在綜合性客觀評測中,智譜清言GLM-4、阿裡巴巴Qwen-Max和百度文心一言4.0具有較為均衡和全面的性能,這些模型在語言和知識等基礎能力維度上可比肩GPT-4 Turbo。

推理、數學、代碼、智能體是國內大模型的短板。GPT-4 Turbo在涉及復雜推理的場景雖然也有提升空間,但已明顯領先於國內的商業模型和開源模型。國內大模型要整體趕超GPT-4 Turbo等國際頂尖的大模型,在復雜推理、可靠地解決復雜問題等方面仍需下大功夫。

中文主觀評測:閉源模型接近GPT-4

基於語言、知識、創作、數學與推理等五個維度,OpenCompass2.0構建了超500道高質量中文問題,采用基於大語言模型對戰的方式評測主流模型在開放場景下的對話體驗。

中文主觀評測。截至該榜單發佈,部分新大模型尚未納入本次評測。

“主觀評測中,最難的是主觀的數學題,不能靠猜答案。”上海人工智能實驗室領軍科學傢林達華表示,榜單中,GPT-4 Turbo的數學能力遙遙領先,說明在高難度的推理上具有優勢。

基於主觀評測分析,研究人員還發現,國內商用大模型在中文評測中表現優秀,和GPT-4 Turbo差距縮小。阿裡巴巴Qwen-Max、智譜清言GLM-4、百度文心4.0都取得了優秀成績。在中文語言理解、中文知識和中文創作上,國內商業模型相比GPT-4 Turbo有更強的競爭力。

開源社區的Yi-34B-Chat、InternLM2-Chat-20B在綜合性對話體驗上表現突出,它們以中輕量級的參數量、接近商業閉源模型的性能,為學術研究和工業應用提供了良好基礎。國內開源模型近期快速進步展現了開源模型的應用潛力,開源模型和開源工具體系的結合可幫助企業快速試驗大模型在應用場景的適用性。

目前OpenCompass2.0已和合作夥伴共同推出了多個垂直領域的評測基準和數據集,包括LawBench法律大模型評測基準、OpenFinData金融評測集、MedBench醫療大模型評測系統、SecBench網絡安全大模型評測平臺等。

吸取高考經驗,避免大模型直接刷題

“評測是大模型的指揮棒和指南針。”林達華教授表示,大模型評測要客觀公允、評測方式科學、評測維度全面。OpenCompass2.0的評測維度包括基礎能力和綜合能力兩個層級,能力維度設計具備可擴展性和增長性,同時可根據未來的大模型應用場景進行動態更新和迭代。

基礎能力維度以語言、知識、理解、數學、代碼為核心,包括意圖識別、情感分析、內容評價與總結、多語言翻譯、漢語與中國傳統文化、常識百科、自然科學、人文社科、計算能力、數學應用能力、多編程語言代碼等20餘項細分任務。而綜合能力旨在考察模型在綜合運用知識、數學推理、代碼工具等多種能力完成復雜任務的水平。

當前,一些大模型沉迷於刷榜、跑分。林達華表示,通過題海戰術提高大模型成績,對於模型實際能力的反應是失真的,影響了模型研發團隊的改進方向和模型的商業落地,“高分低能”傷害的是機構本身。為此,實驗室吸取了高考經驗,提前公佈“考試大綱”,但在第一期測評榜單發佈前不公開“考題”,下一期“考題”用於下一期測評,每一期題目不同,避免大模型直接刷題,從而發現能力長板與短板。未來也會考慮開發測評分集,對於高分考生,用更有挑戰、區分度更大的題目進行測評,凸顯能力差距。

“國內有很多模型正在發佈的路上,榜單上任何具體的名字隻是大模型成長過程中無數次測試中的一次,一時的排名高低並不真正反映模型的能力,最重要的是每一次測驗可以回過頭來指導我們改進自己。”林達華表示。