星火語音大模型多指標領先 通用人工智能時代語音王者還是科大訊飛

2024年2月6日 19点热度 0人点赞

2024年開年,國產大模型持續開“卷”。1月30日,科大訊飛在安徽合肥正式舉辦了星火認知大模型V3.5升級發佈會,除了帶來星火認知大模型V3.5以外,還首次發佈了星火語音大模型,科大訊飛稱,星火語音大模型首批37個主流語種已超越OpenAI推出的Whisper V3;在多語種語音合成方面,星火語音大模型的首批40個語種平均MOS分絕對提升0.25,擬人度超83%,在智能語音技術保持國際領先水平。此外,星火語音大模型已深度賦能汽車、客服、陪伴機器人、傢庭等更多應用場景,助力千行百業數智化生產力提速。

在發佈會上,科大訊飛董事長劉慶峰表示,大模型帶來語音技術發展的全新機會。科大訊飛在語音技術上已深耕二十餘年,多年來在語音識別、語音合成等多領域始終保持源頭技術創新迭代,並斬獲大量國際權威賽事冠軍。比如語音識別技術方面,科大訊飛蟬聯多屆國際多通道語音分離與識別大賽CHiME冠軍,語音合成技術方面,科大訊飛獲國際語音合成大賽Blizzard Challenge十四連冠。在國內,科大訊飛還是首批國傢新一代人工智能開放創新平臺、語音及語言信息處理國傢工程研究中心的承建方,被譽為語音技術與AI領域的“國傢隊”。

“科大訊飛從創業之初的夢想和使命,就是要實現溝通無障礙。25年了,我們的目標和夢想一天都沒有變。”在通用人工智能時代,科大訊飛也緊抓大模型時代機遇,星火語音大模型的發佈不止助力無障礙溝通,還能“百搭”更多場景,賦能實際應用,帶來產業和人類生活的革新。

在技術優勢上,借助大模型底座與國產算力平臺,訊飛星火語音大模型將更多語音表征解耦,並融入到大模型預訓練中,提升了韻律表現力和擬人度,突破了復雜場景識別效果的上限,提升了語料稀缺小語種的效果。劉慶峰表示:“借助大模型,我們讓一段語音具備更加豐富的屬性,有語種、有內容、有韻律、有音色,還有情緒。”

為了讓星火語音大模型深度賦能千行百業,科大訊飛還率先將星火語音大模型用在自有C端硬件產品上。根據劉慶峰介紹,搭載語音大模型的訊飛翻譯機,即將上線多語種自動識別和增強式翻譯兩個重要功能,分別於今年1月底和3月中旬完成升級。升級後的多語種自動識別將支持35種語言,兼具增強式翻譯技術提供中英雙語服務。發佈會現場還展示了一段對日本人、法國人與俄羅斯人的街頭采訪視頻,生動展現出訊飛翻譯機在多語種自動識別讓國際溝通更便捷的真實寫照,為不同國傢人種的跨語言溝通提質增效,升級後的翻譯機化身隨身AI翻譯助手,獲現場及線上觀眾“點贊”。

除了賦能C端硬件產品,在行業端,星火語音大模型還深度賦能汽車、客服、傢庭、陪伴機器人等實際應用場景,帶來更深層次的人機交互變革。比如賦能汽車智能座艙、智能導航和音樂控制等交互體驗更智慧快捷、賦能陪伴機器人、導購機器人和輔診機器人在各自領域發揮重要作用,加速機器人產業的革新;賦能穿戴式設備等產品擁有更自然的語音交互能力。對於千行百業而言,星火語音大模型可以組成“百搭”CP,切實解決實際應用過程中的痛點,賦予產業變革更多的可能性。

正如劉慶峰所說:“當年從DOS界面到Windows界面成就了微軟的傳奇,從鍵盤到觸摸誕生了蘋果的神畫,我覺得這一次全語音的自然交互一定會推動整個產業出現新一次的繁榮。”科大訊飛星火語音大模型的發佈,帶來了人機交互新變革,也再次夯實通用人工智能時代科大訊飛語音王者地位。