超越GPT4 Turbo?科大訊飛發佈星火認知大模型3.5版本

2024年2月6日 21点热度 0人点赞

簡介

1月30日,科大訊飛舉行星火認知大模型V3.5升級發佈會。科大訊飛董事長劉慶峰、研究院院長劉聰正式發佈基於首個全國產算力訓練的訊飛星火V3.5,七大核心能力全面提升。

功能展示

多模交互

  • 多模理解:上傳圖片素材,大模型完成識別理解,返回關於圖片的準確描述
  • 視覺問答:圍繞上傳圖片素材,響應用戶的問題,大模型完成回答
  • 多模生成:根據用戶的描述,生成符合期望的合成音頻和視頻
  • 虛擬人視頻:描述期望的視頻內容,整合AI虛擬人,快速生成匹配視頻

代碼能力

  • 代碼生成:智能生成單行或函數級代碼建議;根據註釋、函數名自動生成代碼
  • 代碼解釋:類、函數及其作用逐一詳解;支持逐行代碼註釋;學習海量范式,快速精準解讀
  • 代碼糾錯:精準定位拼寫、語法、邏輯錯誤;新老代碼比較,支持一鍵修改
  • 單元測試:選中代碼,一鍵生成單測用例;多主流單元測試框架;智能生成單元測試數據

本文生成

  • 商業文案:根據用戶要求,創作具有吸引力與情感共鳴的商業文案
  • 營銷方案:根據描述,創作多種形式的營銷方案
  • 英文寫作:使用英文完成多風格多任務的的長寫作任務
  • 新聞通稿:根據新聞要素,創作嚴謹詳實的新聞通稿

數學能力

  • 方程求解:包括一元二次方程、二元一次方程、三元一次方程等等
  • 幾何問題:平面幾何(如直線、圓、三角形等的性質)和立體幾何(如體積、表面積、投影等)
  • 微積分處理:導數、積分等微積分相關的問題,涉及基本概念如極限、連續性、導數等
  • 概率統計:涉及隨機變量、概率分佈、假設檢驗等方面的內容

語言理解

  • 機器翻譯:翻譯多種語言的文字,包括英語、中文、法語、德語、西班牙語等常用語種
  • 文本摘要:根據文本提取簡潔而準確的摘要,快速理解文章的核心觀點
  • 語法檢查:檢查語法錯誤並提供正確的語法建議,使寫作更加規范與專業
  • 情感分析:分析文本中的情感色彩,如正面、負面或中性,更好了解內容觀點和態度

知識問答

  • 生活常識:提供有關日常生活的知識,如飲食、運動、旅遊等方面的建議
  • 工作技能:提供工作方面的知識,如溝通技巧、時間管理技巧、團隊協作等方面的建議
  • 醫學知識:提供基本的健康保健知識以及疾病預防、診斷和治療方面的建議
  • 歷史人文:提供有關歷史事件、文化傳承、名人故事、名言警句等方面的文案

邏輯推理

  • 思維推理:通過分析問題的前提條件和假設來推理出答案或解決方案,給出新的想法和見解
  • 科學推理:使用已有的數據和信息進行推斷、預測和驗證等科學研究中的基本任務
  • 常識推理:​在進行對話交流時,運用已有的常識知識來分析、解釋和回應用戶的提問或需求

實測結果

訊飛星火認知大模型對外宣傳數學能力超越GPT4 turbo,那麼實測如何呢?

在SuperCLUE-Math6中文數據多步推理測評基準上,訊飛星火V3.5取得80.44的高分,較上一代訊飛星火V3.0有43.05分的提升;較GPT4略低3.42分,較GPT4-1106-Preview低7.32分。

訊飛星火V3.5在SC-Math6基準上準確率表現優異,取得78.81分,位列在榜國內模型中第二。兩輪問題準確率差值在13.15分,在深入推理穩定性上較GPT4(差值7.93分)還有提升空間。

總結

從結果上來看,訊飛星火V3.5在數學多步推理能力上處於國內第一梯隊但與GPT4還有一定差距。其中隨著推理步驟的增加,訊飛星火V3.5在深入推理方面表現不俗,同時有很好的指令遵循能力。