說說最近大熱的Sora,中國在人工智能領域的差距到底有多遠?

2024年2月21日 27点热度 0人点赞

這兩天科技圈裡最熱的莫過於Sora,也就是美國人工智能公司OpenAI推出的用文本生產視頻的大模型。輸入一些文字性的提示詞,Sora就能夠生成一段視頻,最長能實現60秒,而且無論是對提示詞的理解,還是視頻的畫質,還有視頻在物理世界裡邏輯的合理性,都讓人驚掉眼球了。

今天我們說說Sora,分析一下它的強大有什麼樣的意義,當然最終還是要回到中國的人工智能之路,看看我們跟世界最高水平的差距到底有多遠?

好幾年以前,我曾經說過一個話題,叫做《人工智能,未來的希望在中國》。現在回頭看,都成了一個笑話了。

笑話歸笑話,當年的那個節目依舊在網上,我也不怕大家嘲笑。因為我堅信,人工智能的道路絕不可能只有一條。

美國的人工智能大模型,一開始是文字和語音,比如ChatGPT,能夠給你提供智能的搜索結果,能夠人機對話,而且對話非常符合人類的思維語言邏輯。

然後是AI智能生成圖片,你給他一些提示詞,比如說一個東方人特質的年輕女孩,落日背景,唯美等等,它就給你一幅圖片,這個女孩在現實世界裡肯定是不存在的,但是讓你看着很符合邏輯,包括光和陰影都符合我們的認知,跟真的一樣。

現在,進化到了人工智能生成視頻,雖說以前也有,但是性能和效果都一般,最多也就4秒鍾的視頻。這次OpenAI的Sora為何震驚世界呢?是因為它這個王炸甩的太猛,一下子把競爭對手甩的連屁味都聞不到了。具體有多猛,我就不重復了,網上Sora生成的視頻大家自己看就知道了。

從文字語音到圖片再到視頻,美國的AI之路其實都是順着一個方向和思路走下去的。目前來看,本質和核心的東西並沒有改變。我們中國也是跟着美國這條路在後面追趕,目前來看,差距越來越大。在這條路上,中國追上美國的可能性基本已經沒有了。

說到這兒,可能有人就想到彎道超車和換條賽道這些概念了,沒錯,就像燃油車搞不過西方,中國可以在電動車的賽道上反超的案例。中國在人工智能這個方向,跟隨美國,目前來看已經沒有希望了。但是還是要跟隨,在跟隨中積累經驗,壯大實力,然後想辦法再找別的突破口吧。

接下來我就用具體簡單的例子來論述上面的觀點啊,我們先看看美國的人工智能,它的核心思路和方法到底是怎麼回事,然後我們就能明白中國的差距有多大,以後該怎麼改變。

從一開始的ChatGPT,機器在跟人類進行文字和語音互動的時候,是經過大量文字和語言的數據進行投餵和訓練的。機器首先存儲了天量的文字語言信息,然後經過了無數次的試錯,錯的拋棄掉,正確的不斷強化,然後慢慢地越來越適應人類的邏輯認知,變得越來越像個人。

試錯和強化有很多方法,比如我們四年前做過一個節目叫《陳情令,你也能演魏無羨和藍忘機—聊聊AI人工智能換臉》,提到過一個訓練的方法:GAN人工智能對抗,就是兩個機器互相給對方找錯,有興趣的朋友翻回去看看,類似的方法有很多,但是目的只有一個:

逼迫機器向着符合邏輯和人類需求的方向去做選擇。

注意啊,核心詞有兩個,一個是逼迫,機器並不是自發地去做選擇,當然了,現在的科技也做不到自發。另一個是選擇,機器只是在做選擇,選出一個最優解出來。

雖然我盡量說的通俗,但還是不如舉個例子,比如說人工智能和人打招呼:「你好啊,」然後可以說:「你吃了嗎?今天天氣不錯啊,你這身衣服可真好看。」等等,這都是很自然的,人能接受。但是人工智能決不會說:「你好啊,你好無恥啊!」

但是在剛開始的時候,人工智能絕對選擇過:「你好啊,你好無恥啊!」這種說法,因為剛開始它是隨機選擇,它自己並不知道啥意思,也不知道是不是合適。

然後人類或者自身的對抗機制會強迫它放棄這種選擇,讓它知道不能這麼說,然後它就只能在「你吃了嗎?天氣不錯啊,衣服好看啊」這些裡面再選,選得合適了得到強化,慢慢越來越符合人類的語言邏輯,就跟訓動物一樣。被迫選擇。

您聽着可能覺得有點神奇,但是這種科技其實也很常見。比如現在的汽車都有自學習的功能,張三開車輕柔,追求個省油,那麼時間長了,他的車就越來越肉,發動機2000轉就升檔了。李四開車追求個狂野,那麼他的車慢慢也會跟他的性格越來越猛,2500轉也不升檔。

就算張三李四的車是同一款車,而且是同一批生產線上前後腳下來的。那麼王二麻子一開就能感覺到這兩輛車不一樣。

一個車載電腦,就能有這種能力,更何況天量算力堆起來的人工智能大模型呢?這是可以實現的。

解決了文字和語音,接下來就是人工智能生成圖片,其實本質上還是走的同一條路,逼迫機器做出最優選擇。

還是這幅圖片為例,美女,落日,唯美。現在的人工智能生成的圖片已經很完美了,但是在剛開始訓練的時候,它生成的圖片人類甚至根本看不懂,甚至有可能鼻子長在眼睛上面。

機器按照人們的要求生成了無數張圖片,然後人類和它自己的糾錯機制會不斷告訴它,這張圖片是錯誤的,鼻子不能長在眼睛上,正確的審美應該是這樣的。

就在這樣不斷的否定中,突然,機器生成了一張還算不錯的圖片,然後人類告訴它:對了,就是這樣的!不過在某些方面還需要改進,比如眼睛再大一點,頭上和身體上光線和陰影的位置要一致,要符合物理規律等等。

然後,機器生成的圖片就越來越好了,越來越理解人們的需求了,直到現在這種效果。

這其實和訓練文字語音的道理是一樣的,只不過文字和圖片的數據量不一樣,一本長篇小說,也就幾兆大小,一個128G的優盤,就能把人一輩子看不完的書存下來,但是很多人的手機也是128G,存個照片都不夠。所以圖片的訓練量要更大,需要的算力更多而已。

從文字到圖片,本質沒有變化,就是力大飛磚,往上堆算力就得了。

但是到了視頻,翻天覆地的變化就開始了。我來舉個例子,大家就知道這種改變是多麼的恐怖了。

我們物理世界裡的視頻,大家都知道是一張一張的圖片連起來的,電影是一秒鍾24張圖片,每張圖片按照時間順序都有細微的不同,一秒鍾連放24張圖片,就形成了連續的視頻圖像。

比如Sora生成的這段視頻,它先是按照人類的要求生成一張初始圖片,東京街頭,時尚美女,街頭人流,霓虹燈和地上的倒影等等,按照現在AI生成圖片的技術,這已經很容易實現了。

然後恐怖的就來了,第一張容易,第二張就難了,視頻它多了一個時間的概念,第二張要在第一張的基礎上做出符合客觀規律的改變。比如女子行走,正常是這樣一步一步走,我們假設她走到這個瞬間,那麼下一個瞬間的圖片,這條腿就要往前邁了,你如果還是另一條腿往前扯那就肯定不對了。不光是腿,身體的各部分包括衣服都要做出正確的改變。

這還只是一個人,我們要知道,可不止女子一個人,視頻裡面出現了好幾十個人,每一個下一張圖片都得做出正確的改變;

還有街景,隨着鏡頭的推拉,街景的每一個像素都得改變,比如招牌的大小你肯定不能和第一張一樣,你得變;而且遠景近景的變化幅度還不一樣,你都得符合客觀規律。

大家可以想象一下,第二張和第一張之間,雖然錯了二十四分之一秒,但是大部分的像素點都需要重構了。

好了,經過千算萬算,第二張圖片總算是出來了,還有第三張呢。

第三張與第二張也要重復這個過程,而且還不能脫離第一張的定義范圍。一分鍾有多少張呢?

1440張!都要重復這個過程。恐怖吧?

視頻和圖片不一樣,視頻不僅需要更多的圖片,不僅是這些更多的圖片都要符合客觀規律,而且它們還有一根時間線,還要符合時間線上客觀規律的制約,也就是該邁左腿的時候你不能邁右腿。這個算力的堆積是恐怖的,嚴格來說,按照現有的算力,是根本不可能實現的。

所以我們看,現有的其它的AI生成視頻,它們最多也就生成4秒鍾,不超過100張圖片,我們看這100張圖片畫質都很精美,單獨看每張圖片都沒問題,但是它們連起來就看着別扭了,怪怪的。

表面看是時間軸這條算法不行,但是實質上,是現有的算力達不到需求。

對此,OpenAI推出的Sora也承認,它們也是採用了一種降維的方法來降低對算力的要求。它們把視頻轉換成一個矩陣,在矩陣里運算的結果再重新映射成像素輸出,才使得現有的算力能夠支撐60秒高畫質的人工智能視頻的輸出。

具體的技術細節我肯定也不懂,咱也不裝大仙了。只能說OpenAI是一個很偉大很神奇的公司,他們在人工智能這條路上,用遙遙領先來形容都謙虛了。

面對着這麼強大的對手,中國很明顯差距越來越大,追上的可能性越來越小。別說中國正在受制裁,就連沒受制裁的微軟,不也是抓瞎了嗎?

但是,我要說但是了,這也從側面說明了,人工智能這種懟算力,力大飛磚的實現方法。路也是越來越難走了。

OpenAI,擁有着世界上最強大的算力,研究和掌握着世界上最先進的實現方法。在視頻領域爆肝了最少也得有半年的時間吧,我們仍然只是看到了幾十分鍾,而且是以慢動作為主的演示視頻。

為什麼是慢動作呢?很明顯也是算力達不到。正常的視頻一分鍾是1440幀,而慢動作我也許只要生成500幀就夠了,然後幀與幀之間,採用別的技術進行插值運算和平滑過渡,我能省點事。

雖說萬事開頭難,但是至少說明了,這種難度級別的上升不是個好事。

如果我的理解沒有大的錯誤的話,現在全世界,特別是美國,所走的人工智能的道路,越到後面越難走。難度不是線性上升的,而是指數級的直着上去的。

從文字到圖片,是一根毛和一隻羊的差別,到視頻階段,簡直是一隻羊和呼倫貝爾大草原的差別了。以致於人類現有的算力都支撐不起來。

當然了,中國現在走的也是這條路,因為暫時都沒有別的路可以走,就像二十年前的汽車產業,新能源車這條賽道還沒影呢。

這條路最大的好處,是能刺激算力的更快升級,我們看英偉達的股價又漲到天上去了。這當然是一個好事,這條路前景還是有的,更重要的是,這都是探索和摸索的過程。

更先進的人工智能實現方式不可能從天上憑空掉下來,他就是這樣,一步一步摸索出來的。現在所做的所有的努力,都是你第五個饅頭吃飽了之前的第一二三四個饅頭。

所以,即使中國在現有的人工智能賽道上差距越來越大,我們也必須努力追趕,沒有在燃油車階段追趕過程中所建立起來的產業鏈,中國不可能在新能源車的賽道上迅速就領先了。這是同一個道理。

而且,我們要認清一個現實,網上所有在說中國落後的,都在努力掩蓋一個事實:中國是落後了,但只是相對於美國一家落後了。全世界192個國家,30多個地區,除了美國,你能找出第二個領先中國的嗎?你一個都找不出來。

我們人一方面用客觀來訓練機器,但同時自己不客觀那是不對的。美國是保時捷,一騎絕塵遙遙領先了;我們騎着馬,排在第二,目前看追不上,差距越來越大了。但你往後看,有徒步的,有腿瘸着在地上爬的。更多的是死人,躺地上一動不動的。

我一直堅信,實現人工智能的道路絕不可能只有當前這一條路,那樣才不符合客觀規律呢。硬懟算力,力大磚飛是一個方法,不見得就是唯一的方法,更不見得是個好方法。

就像我以前舉得一個例子:中國人炒個豆芽,鹽少許,糖少許,醋少許。老外一聽都懵了,啥啥啥,這都是個啥?

但是中國人一聽就明白。這就是思維模式的不同,而且我一直堅信,中國人的思維模式,一定能探索出一個更優秀的人工智能解決方案。所以我說,人工智能,未來的希望在中國。

我們所處的這個世界,需要精確,但是更多的是模糊。你要讓機械手用一個精確的力矩雞蛋,大部分沒問題,但有的肯定捏碎了,有的拿不起來。雞蛋不可能每一個都是一模一樣的。

我所理解的人工智能,應該是輸入一些模糊量,然後輸出一個合理的模糊量。才能更加適應這個世界和人類的需求。而這種對於模糊數據的理解和處理,現有的人工智能模式並不是最合理的,它需要耗費天量的資源才能近似達到,甚至還達不到。

所以,未來一定會有更優秀的硬件和軟件算法出現。

如果出現不了,那才是不合理的。

有可能我們要等到量子計算的成熟,有可能還需要幾十年,但是它必然會出現的,而且出現在中國的幾率還很高很高。

為什麼我這麼有自信,因為就算是世界上最強大的OpenAI,你去看一看,華人的占比和貢獻有多大?如果離開了這些華人,沒人會懷疑,OpenAI瞎得不能再瞎。

華人在人工智能方面的天賦是絕對領先的。中國的問題在於科研氛圍和制度短板。而這些外部環境的問題,都是可以改善的。幾十年後會改善到什麼樣?讓我們回頭看四十年前的中國,你敢想象嗎?這玩意兒都預測不了,不好說。

所以我們要客觀看待OpenAI和Sora,首先要感到高興,這是個了不起的成就,是對全人類做出的貢獻,雖然這是美國的成就,但也是中國學習的榜樣和追趕的目標。

然後我們要承認在當前人工智能賽道上,中國與美國正在拉大的差距。然後想辦法去追趕,縮小這個差距。

為什麼我不說反超呢?因為今天做節目沒喝酒,我很清醒,我認為反超不了,比登天還難。

但是,我們還要認識到,條條大道通羅馬,我不是非要走這條道!

別的道路一定是存在的,也一定更適合於中國。更何況,中國還是遙遙領先的老二,是唯一的一個可以跟美國正面競爭的國家。

所以根本沒必要灰心沮喪,按照中國人不當第一就是落後的民族情緒,未來還是大有可期的。