對話萬興科技董事長吳太兵:大模型2.0時代,持續淘金要兩條腿走路|鈦媒體獨傢

2024年2月6日 21点热度 0人点赞

2023年,ChatGPT的火爆,吹響了新一輪AI競賽的號角,國內更是掀起了“百模大戰”。從市場的表現來看,無論是創業者,還是巨頭企業,給出的態度都非常一致,不擁抱AI的企業沒有未來。

不過,一年的時間過後,對於大眾用戶,大模型仍舊是一個熟悉的“陌生詞”,說得多感知得少。並且,大多數企業做出來的大模型還停留在比排名的階段,背後的含金量也隻有自己心裡清楚。

就像360集團創始人周鴻禕在開年拋出的觀點一樣,“ChatGPT出來的時候,所有人都覺得造大模型就是造原子彈,就是曼哈頓計劃。但有了開源之後,到2023年年底,可能造原子彈的都發現自己實際上是在造茶葉蛋。”

對於很多做大模型的企業來說,周鴻禕的那句話雖然聽起來不舒服,但卻是現實。作為去年最早一批邁入AI賽道的行業老兵,AIGC軟件A股上市公司萬興科技(300624.SZ)董事長吳太兵也認同周鴻禕的部分觀點,“在開源的基礎上做出來的大模型,給很多人錯覺,真就能和ChatGPT站在同一起跑線一樣。大模型遠遠還沒有到走入神壇這樣一個階段。把大模型做小,去做應用,去商業化,才是行業的未來。”

當下,市場上的大模型基本是以文本大模型為主,華創證券在之前的研報中曾指出,多模態AI技術高速發展,文生圖、文生視頻能力未來可期,AI 繪圖、AI 視頻值得關註。

1月30日,國內首個音視頻大模型萬興“天幕”正式對外發佈,這是一個以音視頻生成式AI技術為基礎的多媒體創作垂類大模型,由視頻大模型、音頻大模型、圖片大模型、語言大模型組成,聚焦數字創意垂類創作場景。

就在“天幕”多媒體大模型發佈的前一晚,鈦媒體App獨傢和吳太兵關於大模型未來的發展以及應用進行了深入的探討。他表示,AI大模型的出現與發展是一個自然而然的過程,價值的釋放也需要一定的時間。當下,大模型走下神壇也是有道理的,但隻局限於在文本這個角度,大模型在音視頻領域還存在很大的挑戰。

萬興科技董事長吳太兵

“對於文本和視頻大模型來說,二者的訓練量級根本不在一個水平上,一些宣稱多模態的產品也都是處於Demo的狀態,並不成熟。我也一直認為文生視頻是個偽命題,大模型已經正在進入2.0時代,這個時代需要新的大模型,需要一個以音視頻為主的而且本土化、垂類的大模型。萬興的‘天幕’是多媒體大模型,跟文本形成了區別,對算力要求更高,當然技術也更復雜。結合當下的技術以及應用場景來看,未來視頻也會是主流。”

大模型“走下神壇”,進入2.0時代

據Gartner研究預測,到2030年,90%的數字內容都將是AI生成,預計2032年,全球AIGC市場規模將由2022年的108億美元增加至1181億美元。在AI的加持下,數字創意軟件產品是爆發式增長,而AIGC的背後就是大模型,相當於電器時代的發電廠,起到至關重要的作用。

也正是因為這樣,在過去的一年,大模型呈現井噴式增長,大傢會覺得大模型的春天到了。根據《北京市人工智能行業大模型創新應用白皮書(2023年)》顯示,截至2023年10月,我國10億參數規模以上的大模型廠商及高校院所共計254傢。上百傢大模型廠商也進一步催生出數十億的市場價值。可以預計的是,大模型在今年也將持續火熱下去。隻是,在火熱的背後,也要認清行業的變化。

而在討論變化之前,要先理解大模型的“大”到底指的是什麼?大模型扮演的角色是什麼?吳太兵認為,大模型的“大”肯定是參數多、結構容量大,但這個“大”永遠是一個相對概念,比如文字和視頻不是一個量級,不同行業的文本訓練也不是一個量級。

至於大模型所扮演的角色,也要先對AI的發展有一個相對一致的理解。在吳太兵的理念中,這一輪的AI技術熱潮並不是偶然的,而是IT行業演進的必然。“IT行業從1993到現在經歷了30年的時間,這30年時間可以分為三個階段,每一個階段都有自己的特點。”

第一個階段,是Windows所代表的PC時代,是一種人機交互,人為去向機器輸入信息。第二個階段是互聯網時代,人與人交換信息,主要的目的在於交換。第三階段則是AI時代,在讀懂人類的需求後,機器給人輸出信息。

“AI的發展是一個順其自然到來的過程,試想一下,OpenAI就像是苦讀N年的莘莘學子,終於可以開始掙錢養傢了,在前30年接收各式各樣的信息後,開始有了獨立的思維,形成了自己的一套系統化的框架。”

2023年,在外界還在觀望這一輪AI熱潮時,萬興科技選擇第一時間投入進去。值得一提的是,在此之前,萬興科技也已在AI算法以及算力方面有所積累。從大模型出現,到融合大模型去推動業務的發展,吳太兵對1.0時代大模型所扮演的角色也有了更深入的理解。

“後來我慢慢理解了,大模型本質上相當於一個煉鋼廠,通過高溫萃取之後,得到一些精華的產物。它的價值在於把海量’原材料’煉出’原材料’,但是這些’原材料’本身是不能直接使用的。”

吳太兵對鈦媒體App說道,從來沒見過哪個煉鋼廠扔一塊鐵進去以後,最後就出來一輛汽車了。1.0時代的大模型其實隻解決了上遊的原材料的問題,下遊的組裝是解決不了的。基於大模型,還要有更多的垂直應用。

“大模型走下神壇是有道理的,但隻局限於在文本這個角度,大模型在音視頻垂直領域還存在很大的挑戰。基於這樣一個想法,我堅定地認為,大模型正在從圖文1.0時代進入到以音視頻多媒體為載體的2.0時代。”

根據思科公司此前發佈的報告內容指出,未來82%的消費互聯網流量是視頻流量。如果從文本的角度來看,大模型的發展的確已經很成熟,但是從視頻的角度來看是遠遠不夠的。目前,全世界有3.05億視頻創作者,43億視頻覆蓋群體,每天200億次以上的視頻播放量,視頻需求非常大。“視頻為王”時代的到來,也催生出對多媒體垂直大模型和應用的需求。

吳太兵進一步指出,“1.0時代,通用大模型占主流,好比‘科學傢’,主要研究前沿高端,解決基礎理論性問題。2.0時代,垂直大模型增長趨勢明顯,好比‘工匠’,可更快速、更靈活解決細分領域專業性問題,可從模型到應用場景對用戶一條龍賦能。”

聚焦數字創意垂類創作場景,“天幕”大模型已在海外商用

相比較文本生成,視頻生成大模型以及應用由於數據、算力等多方面原因,導致產品數量較少,以及效果並沒有大傢期待的那麼完美。

吳太兵認為,音頻大模型情感理解存在偏差,視頻生成大模型生產內容長度、一致性待提升,難形成完整的工作流。OpenAI在發佈大模型之時就提出了多模態,但在視頻生成的滿意度上較低。即便是Pika labs這種火熱的產品,也存在明顯的拖影、模糊等問題,質量非常不理想。

總的來看,視頻生成目前存在三大挑戰。第一是數據集欠缺,視頻內容存儲和標註成本高昂,視頻相關的訓練數據集目前仍較欠缺。第二是算力成本高昂,視頻訓練所需的算力遠高於圖片、文字等其它內容。第三則是生成效果不佳目前仍缺乏效果可用性較好的模型作為標桿。

“之所以行業投入那麼多研發,在視頻維度還存在著麼多問題,背後核心的原因就在於視頻生成十分復雜。”

鈦媒體App了解到,視頻由很多能力和元素構成,包括動畫、字幕、音樂、特效、美化、貼紙、轉場、畫中畫,還有頂層資源、顆粒等,很復雜。整個視頻制作的鏈路、技術門檻非常高,平均制作一個視頻需要1.6小時。在構思階段,可能需要用GPT或者文心一言,做內容源需要本地拍攝,需要獲得資源方便去做加工,需要第三方工具,進行效果生成,還要算力、做編解碼,總之一切沒那麼簡單。

在大模型2.0時代,做出符合市場的大模型產品,首先要搞清楚2.0時代的特點是什麼。吳太兵總結了三點,第一是從多模態到多媒體,系統性解決不同模態融合的問題。在他看來,多模態還是一個通用大模型,通過一套東西把文本、視頻、音頻、圖片全部打通,也許有可能,文本大模型從供給和使用角度體驗已經很好了,但是音視頻的體驗還遠遠不夠,市場需要多媒體大模型。

第二是從通用到垂直解決方案,一條龍從模型到應用場景。“通用的大模型隻適合生產原材料,生產一張圖片、一段音頻,但還是需要“組裝車間”把它最後變成一款產品,多媒體大模型上面有一系列原子能力,通過組裝件最後變成最終的產品”,吳太兵表示,“我一直認為文生視頻是一個偽命題,指望向一個工廠扔進一些鐵礦石,出來一輛汽車是不現實的。扔進去的鐵出來的是鋼材,扔進去的石油出來的是化工產品,但這些東西離你真正做成一輛汽車還有很遠的距離,這中間的距離就是垂類大模型需要去做的,而不是通用性的化工廠、煉鋼廠能去解決的問題。”

第三則是從全球到本土化,算力、數據、應用的本土化。過去,大傢指望通過一個大模型去解決全世界的問題,但是現在來看,基本是不可能的。在應用的層面,需要算力的本土化佈局,需要本土化的數據,才能研發出更本土化的應用。

“今天,我們要重視大模型本身的應用商業化,而且要高度重視中國的應用場景。結合我們所用的數據和應用產品,參與全球競爭的時候才更能找到自己的位置。”

依托於大模型2.0時代的三個特點,萬興科技推出了“天幕”音視頻多媒體大模型,聚焦數字創意垂類創作場景,基於15億用戶行為及100億本土化音視頻數據,以音視頻生成式AI技術為基礎,支持全球不同語言,相關能力已在海外規模化商用。

吳太兵向我們透露,萬興“天幕”大模型將打造基於大模型架構的AIGC應用基礎底座,自投入研發以來,組建了百人算法團隊,團隊碩士和博士的比例超過70%,“天幕”大模型算法也已正式通過《互聯網信息服務深度合成管理規定》備案。

另外,算力作為大模型的根基,萬興“天幕”還在持續加碼NPU GPU強力算力底座,訓練則是在國內算力和服務器基礎上進行,已構建千卡集群、自研推理框架局,並擁有一站式數據生產管理平臺,單日可完成百萬級數據處理加工。

做AI時代的美的,不需要每一款產品都做到NO.1

站在新的發展階段,萬興科技給自己的定義是一傢以技術為基礎的產品創新驅動公司,相比較技術公司,更加強調市場。“我們以產品創新為主,並不代表不關註技術,我們到長沙來也是為了吸引以及留下更多的技術人才,‘拿深圳工資,住長沙房子,幹全球事業’,這是我們提出的口號”,吳太兵說道。

而面對當下市場出現的多元化競爭格局,如何在AI時代持續地淘金,成為擺在很多公司面前的問題。在吳太兵看來,讓自己不掉隊需要做到兩條腿走路,一條腿是後端的技術賦能,比如大模型、算法、算力等,另一條腿則是對前臺市場機遇的把控。

“除了原有的運營中心以外,我們還在大力招募本地化的產品和市場團隊,希望能加速感知到市場的變化。而站在產品的角度,萬興的邏輯則是矩陣化產品思維,不需要每一款產品都做到第一,前三就可以,‘中產品’的戰略也能讓我們做到更大的規模。”

用傳統的思維去看待大模型,而不是把其放在一個高大上的位置去仰望。很多人對大模型這件事非常地興奮,特別想去搏一把,因為他們認為這可能是最接近成為比爾蓋茨、喬佈斯的機會。但是,在吳太兵的設想中,大模型的確很重要,也是需要抓住的機遇,但萬興想做的是AI時代的美的,通過矩陣化的產品創新,將自身以及市面上優秀的大模型的能力整合起來。

他表示,“我們有大平臺,在正確的方向上,可以做N款優秀的產品,這才能真的去擁抱這個新時代。如果有人告訴你,2024年有一款特別牛的產品,一定會改變這個世界,那肯定不是萬興。”

在交流的最後,吳太兵還談及了“中國的Adobe”這個稱號,他認為這是市場貼的,但自己對於這種對標並沒有太排斥。用他的話說,對標是為了減少品牌與市場的溝通障礙,可以讓市場更快地知道萬興是在做什麼。

不過,世界上沒有兩傢完全一模一樣的公司,萬興要走的路也和Adobe不一樣,“我們更期望做的是未來的Adobe,一是有AI驅動力,二是立足中國市場。還是那句話,佈局AIGC,我們是認真的,也希望更多的生態夥伴參與到多媒體大模型的建設,讓整個行業更繁榮。”(本文首發鈦媒體App,作者/杜志強,編輯/鐘毅)