超越GPT4 Turbo？科大訊飛發佈星火認知大模型3.5版本 - 華人頭條

簡介

1月30日，科大訊飛舉行星火認知大模型V3.5升級發佈會。科大訊飛董事長劉慶峰、研究院院長劉聰正式發佈基於首個全國產算力訓練的訊飛星火V3.5，七大核心能力全面提升。

功能展示

多模交互

多模理解：上傳圖片素材，大模型完成識別理解，返回關於圖片的準確描述
視覺問答：圍繞上傳圖片素材，響應用戶的問題，大模型完成回答
多模生成：根據用戶的描述，生成符合期望的合成音頻和視頻
虛擬人視頻：描述期望的視頻內容，整合AI虛擬人，快速生成匹配視頻

代碼能力

代碼生成：智能生成單行或函數級代碼建議；根據註釋、函數名自動生成代碼
代碼解釋：類、函數及其作用逐一詳解；支持逐行代碼註釋；學習海量范式，快速精準解讀
代碼糾錯：精準定位拼寫、語法、邏輯錯誤；新老代碼比較，支持一鍵修改
單元測試：選中代碼，一鍵生成單測用例；多主流單元測試框架；智能生成單元測試數據

本文生成

商業文案：根據用戶要求，創作具有吸引力與情感共鳴的商業文案
營銷方案：根據描述，創作多種形式的營銷方案
英文寫作：使用英文完成多風格多任務的的長寫作任務
新聞通稿：根據新聞要素，創作嚴謹詳實的新聞通稿

數學能力

方程求解：包括一元二次方程、二元一次方程、三元一次方程等等
幾何問題：平面幾何（如直線、圓、三角形等的性質）和立體幾何（如體積、表面積、投影等）
微積分處理：導數、積分等微積分相關的問題，涉及基本概念如極限、連續性、導數等
概率統計：涉及隨機變量、概率分佈、假設檢驗等方面的內容

語言理解

機器翻譯：翻譯多種語言的文字，包括英語、中文、法語、德語、西班牙語等常用語種
文本摘要：根據文本提取簡潔而準確的摘要，快速理解文章的核心觀點
語法檢查：檢查語法錯誤並提供正確的語法建議，使寫作更加規范與專業
情感分析：分析文本中的情感色彩，如正面、負面或中性，更好了解內容觀點和態度

知識問答

生活常識：提供有關日常生活的知識，如飲食、運動、旅遊等方面的建議
工作技能：提供工作方面的知識，如溝通技巧、時間管理技巧、團隊協作等方面的建議
醫學知識：提供基本的健康保健知識以及疾病預防、診斷和治療方面的建議
歷史人文：提供有關歷史事件、文化傳承、名人故事、名言警句等方面的文案

邏輯推理

思維推理：通過分析問題的前提條件和假設來推理出答案或解決方案，給出新的想法和見解
科學推理：使用已有的數據和信息進行推斷、預測和驗證等科學研究中的基本任務
常識推理：在進行對話交流時，運用已有的常識知識來分析、解釋和回應用戶的提問或需求

實測結果

訊飛星火認知大模型對外宣傳數學能力超越GPT4 turbo，那麼實測如何呢？

在SuperCLUE-Math6中文數據多步推理測評基準上，訊飛星火V3.5取得80.44的高分，較上一代訊飛星火V3.0有43.05分的提升；較GPT4略低3.42分，較GPT4-1106-Preview低7.32分。

訊飛星火V3.5在SC-Math6基準上準確率表現優異，取得78.81分，位列在榜國內模型中第二。兩輪問題準確率差值在13.15分，在深入推理穩定性上較GPT4（差值7.93分）還有提升空間。

總結

從結果上來看，訊飛星火V3.5在數學多步推理能力上處於國內第一梯隊但與GPT4還有一定差距。其中隨著推理步驟的增加，訊飛星火V3.5在深入推理方面表現不俗，同時有很好的指令遵循能力。