說說最近大熱的Sora，中國在人工智能領域的差距到底有多遠？

這兩天科技圈裡最熱的莫過於Sora，也就是美國的人工智能公司OpenAI推出的用文本生產視頻的大模型。輸入一些文字性的提示詞，Sora就能夠生成一段視頻，最長能實現60秒，而且無論是對提示詞的理解，還是視頻的畫質，還有視頻在物理世界裡邏輯的合理性，都讓人驚掉眼球了。

今天我們說說Sora，分析一下它的強大有什麼樣的意義，當然最終還是要回到中國的人工智能之路，看看我們跟世界最高水平的差距到底有多遠？

好幾年以前，我曾經說過一個話題，叫做《人工智能，未來的希望在中國》。現在回頭看，都成了一個笑話了。

笑話歸笑話，當年的那個節目依舊在網上，我也不怕大家嘲笑。因為我堅信，人工智能的道路絕不可能只有一條。

美國的人工智能大模型，一開始是文字和語音，比如ChatGPT，能夠給你提供智能的搜索結果，能夠人機對話，而且對話非常符合人類的思維語言邏輯。

然後是AI智能生成圖片，你給他一些提示詞，比如說一個東方人特質的年輕女孩，落日背景，唯美等等，它就給你一幅圖片，這個女孩在現實世界裡肯定是不存在的，但是讓你看着很符合邏輯，包括光和陰影都符合我們的認知，跟真的一樣。

現在，進化到了人工智能生成視頻，雖說以前也有，但是性能和效果都一般，最多也就4秒鍾的視頻。這次OpenAI的Sora為何震驚世界呢？是因為它這個王炸甩的太猛，一下子把競爭對手甩的連屁味都聞不到了。具體有多猛，我就不重復了，網上Sora生成的視頻大家自己看就知道了。

從文字語音到圖片再到視頻，美國的AI之路其實都是順着一個方向和思路走下去的。目前來看，本質和核心的東西並沒有改變。我們中國也是跟着美國這條路在後面追趕，目前來看，差距越來越大。在這條路上，中國追上美國的可能性基本已經沒有了。

說到這兒，可能有人就想到彎道超車和換條賽道這些概念了，沒錯，就像燃油車搞不過西方，中國可以在電動車的賽道上反超的案例。中國在人工智能這個方向，跟隨美國，目前來看已經沒有希望了。但是還是要跟隨，在跟隨中積累經驗，壯大實力，然後想辦法再找別的突破口吧。

接下來我就用具體簡單的例子來論述上面的觀點啊，我們先看看美國的人工智能，它的核心思路和方法到底是怎麼回事，然後我們就能明白中國的差距有多大，以後該怎麼改變。

從一開始的ChatGPT，機器在跟人類進行文字和語音互動的時候，是經過大量文字和語言的數據進行投餵和訓練的。機器首先存儲了天量的文字語言信息，然後經過了無數次的試錯，錯的拋棄掉，正確的不斷強化，然後慢慢地越來越適應人類的邏輯認知，變得越來越像個人。

試錯和強化有很多方法，比如我們四年前做過一個節目叫《陳情令，你也能演魏無羨和藍忘機—聊聊AI人工智能換臉》，提到過一個訓練的方法：GAN人工智能對抗，就是兩個機器互相給對方找錯，有興趣的朋友翻回去看看，類似的方法有很多，但是目的只有一個：

逼迫機器向着符合邏輯和人類需求的方向去做選擇。

注意啊，核心詞有兩個，一個是逼迫，機器並不是自發地去做選擇，當然了，現在的科技也做不到自發。另一個是選擇，機器只是在做選擇，選出一個最優解出來。

雖然我盡量說的通俗，但還是不如舉個例子，比如說人工智能和人打招呼：「你好啊，」然後可以說：「你吃了嗎？今天天氣不錯啊，你這身衣服可真好看。」等等，這都是很自然的，人能接受。但是人工智能決不會說：「你好啊，你好無恥啊！」

但是在剛開始的時候，人工智能絕對選擇過：「你好啊，你好無恥啊！」這種說法，因為剛開始它是隨機選擇，它自己並不知道啥意思，也不知道是不是合適。

然後人類或者自身的對抗機制會強迫它放棄這種選擇，讓它知道不能這麼說，然後它就只能在「你吃了嗎？天氣不錯啊，衣服好看啊」這些裡面再選，選得合適了得到強化，慢慢越來越符合人類的語言邏輯，就跟訓動物一樣。被迫選擇。

您聽着可能覺得有點神奇，但是這種科技其實也很常見。比如現在的汽車都有自學習的功能，張三開車輕柔，追求個省油，那麼時間長了，他的車就越來越肉，發動機2000轉就升檔了。李四開車追求個狂野，那麼他的車慢慢也會跟他的性格越來越猛，2500轉也不升檔。

就算張三李四的車是同一款車，而且是同一批生產線上前後腳下來的。那麼王二麻子一開就能感覺到這兩輛車不一樣。

一個車載電腦，就能有這種能力，更何況天量算力堆起來的人工智能大模型呢？這是可以實現的。

解決了文字和語音，接下來就是人工智能生成圖片，其實本質上還是走的同一條路，逼迫機器做出最優選擇。

還是這幅圖片為例，美女，落日，唯美。現在的人工智能生成的圖片已經很完美了，但是在剛開始訓練的時候，它生成的圖片人類甚至根本看不懂，甚至有可能鼻子長在眼睛上面。

機器按照人們的要求生成了無數張圖片，然後人類和它自己的糾錯機制會不斷告訴它，這張圖片是錯誤的，鼻子不能長在眼睛上，正確的審美應該是這樣的。

就在這樣不斷的否定中，突然，機器生成了一張還算不錯的圖片，然後人類告訴它：對了，就是這樣的！不過在某些方面還需要改進，比如眼睛再大一點，頭上和身體上光線和陰影的位置要一致，要符合物理規律等等。

然後，機器生成的圖片就越來越好了，越來越理解人們的需求了，直到現在這種效果。

這其實和訓練文字語音的道理是一樣的，只不過文字和圖片的數據量不一樣，一本長篇小說，也就幾兆大小，一個128G的優盤，就能把人一輩子看不完的書存下來，但是很多人的手機也是128G，存個照片都不夠。所以圖片的訓練量要更大，需要的算力更多而已。

從文字到圖片，本質沒有變化，就是力大飛磚，往上堆算力就得了。

但是到了視頻，翻天覆地的變化就開始了。我來舉個例子，大家就知道這種改變是多麼的恐怖了。

我們物理世界裡的視頻，大家都知道是一張一張的圖片連起來的，電影是一秒鍾24張圖片，每張圖片按照時間順序都有細微的不同，一秒鍾連放24張圖片，就形成了連續的視頻圖像。

比如Sora生成的這段視頻，它先是按照人類的要求生成一張初始圖片，東京街頭，時尚美女，街頭人流，霓虹燈和地上的倒影等等，按照現在AI生成圖片的技術，這已經很容易實現了。

然後恐怖的就來了，第一張容易，第二張就難了，視頻它多了一個時間的概念，第二張要在第一張的基礎上做出符合客觀規律的改變。比如女子行走，正常是這樣一步一步走，我們假設她走到這個瞬間，那麼下一個瞬間的圖片，這條腿就要往前邁了，你如果還是另一條腿往前扯那就肯定不對了。不光是腿，身體的各部分包括衣服都要做出正確的改變。

這還只是一個人，我們要知道，可不止女子一個人，視頻裡面出現了好幾十個人，每一個下一張圖片都得做出正確的改變；

還有街景，隨着鏡頭的推拉，街景的每一個像素都得改變，比如招牌的大小你肯定不能和第一張一樣，你得變；而且遠景近景的變化幅度還不一樣，你都得符合客觀規律。

大家可以想象一下，第二張和第一張之間，雖然錯了二十四分之一秒，但是大部分的像素點都需要重構了。

好了，經過千算萬算，第二張圖片總算是出來了，還有第三張呢。

第三張與第二張也要重復這個過程，而且還不能脫離第一張的定義范圍。一分鍾有多少張呢？

1440張！都要重復這個過程。恐怖吧？

視頻和圖片不一樣，視頻不僅需要更多的圖片，不僅是這些更多的圖片都要符合客觀規律，而且它們還有一根時間線，還要符合時間線上客觀規律的制約，也就是該邁左腿的時候你不能邁右腿。這個算力的堆積是恐怖的，嚴格來說，按照現有的算力，是根本不可能實現的。

所以我們看，現有的其它的AI生成視頻，它們最多也就生成4秒鍾，不超過100張圖片，我們看這100張圖片畫質都很精美，單獨看每張圖片都沒問題，但是它們連起來就看着別扭了，怪怪的。

表面看是時間軸這條算法不行，但是實質上，是現有的算力達不到需求。

對此，OpenAI推出的Sora也承認，它們也是採用了一種降維的方法來降低對算力的要求。它們把視頻轉換成一個矩陣，在矩陣里運算的結果再重新映射成像素輸出，才使得現有的算力能夠支撐60秒高畫質的人工智能視頻的輸出。

具體的技術細節我肯定也不懂，咱也不裝大仙了。只能說OpenAI是一個很偉大很神奇的公司，他們在人工智能這條路上，用遙遙領先來形容都謙虛了。

面對着這麼強大的對手，中國很明顯差距越來越大，追上的可能性越來越小。別說中國正在受制裁，就連沒受制裁的微軟，不也是抓瞎了嗎？

但是，我要說但是了，這也從側面說明了，人工智能這種懟算力，力大飛磚的實現方法。路也是越來越難走了。

OpenAI，擁有着世界上最強大的算力，研究和掌握着世界上最先進的實現方法。在視頻領域爆肝了最少也得有半年的時間吧，我們仍然只是看到了幾十分鍾，而且是以慢動作為主的演示視頻。

為什麼是慢動作呢？很明顯也是算力達不到。正常的視頻一分鍾是1440幀，而慢動作我也許只要生成500幀就夠了，然後幀與幀之間，採用別的技術進行插值運算和平滑過渡，我能省點事。

雖說萬事開頭難，但是至少說明了，這種難度級別的上升不是個好事。

如果我的理解沒有大的錯誤的話，現在全世界，特別是美國，所走的人工智能的道路，越到後面越難走。難度不是線性上升的，而是指數級的直着上去的。

從文字到圖片，是一根毛和一隻羊的差別，到視頻階段，簡直是一隻羊和呼倫貝爾大草原的差別了。以致於人類現有的算力都支撐不起來。

當然了，中國現在走的也是這條路，因為暫時都沒有別的路可以走，就像二十年前的汽車產業，新能源車這條賽道還沒影呢。

這條路最大的好處，是能刺激算力的更快升級，我們看英偉達的股價又漲到天上去了。這當然是一個好事，這條路前景還是有的，更重要的是，這都是探索和摸索的過程。

更先進的人工智能實現方式不可能從天上憑空掉下來，他就是這樣，一步一步摸索出來的。現在所做的所有的努力，都是你第五個饅頭吃飽了之前的第一二三四個饅頭。

所以，即使中國在現有的人工智能賽道上差距越來越大，我們也必須努力追趕，沒有在燃油車階段追趕過程中所建立起來的產業鏈，中國不可能在新能源車的賽道上迅速就領先了。這是同一個道理。

而且，我們要認清一個現實，網上所有在說中國落後的，都在努力掩蓋一個事實：中國是落後了，但只是相對於美國一家落後了。全世界192個國家，30多個地區，除了美國，你能找出第二個領先中國的嗎？你一個都找不出來。

我們人一方面用客觀來訓練機器，但同時自己不客觀那是不對的。美國是保時捷，一騎絕塵遙遙領先了；我們騎着馬，排在第二，目前看追不上，差距越來越大了。但你往後看，有徒步的，有腿瘸着在地上爬的。更多的是死人，躺地上一動不動的。

我一直堅信，實現人工智能的道路絕不可能只有當前這一條路，那樣才不符合客觀規律呢。硬懟算力，力大磚飛是一個方法，不見得就是唯一的方法，更不見得是個好方法。

就像我以前舉得一個例子：中國人炒個豆芽，鹽少許，糖少許，醋少許。老外一聽都懵了，啥啥啥，這都是個啥？

但是中國人一聽就明白。這就是思維模式的不同，而且我一直堅信，中國人的思維模式，一定能探索出一個更優秀的人工智能解決方案。所以我說，人工智能，未來的希望在中國。

我們所處的這個世界，需要精確，但是更多的是模糊。你要讓機械手用一個精確的力矩拿雞蛋，大部分沒問題，但有的肯定捏碎了，有的拿不起來。雞蛋不可能每一個都是一模一樣的。

我所理解的人工智能，應該是輸入一些模糊量，然後輸出一個合理的模糊量。才能更加適應這個世界和人類的需求。而這種對於模糊數據的理解和處理，現有的人工智能模式並不是最合理的，它需要耗費天量的資源才能近似達到，甚至還達不到。

所以，未來一定會有更優秀的硬件和軟件算法出現。

如果出現不了，那才是不合理的。

有可能我們要等到量子計算的成熟，有可能還需要幾十年，但是它必然會出現的，而且出現在中國的幾率還很高很高。

為什麼我這麼有自信，因為就算是世界上最強大的OpenAI，你去看一看，華人的占比和貢獻有多大？如果離開了這些華人，沒人會懷疑，OpenAI瞎得不能再瞎。

華人在人工智能方面的天賦是絕對領先的。中國的問題在於科研氛圍和制度短板。而這些外部環境的問題，都是可以改善的。幾十年後會改善到什麼樣？讓我們回頭看四十年前的中國，你敢想象嗎？這玩意兒都預測不了，不好說。

所以我們要客觀看待OpenAI和Sora，首先要感到高興，這是個了不起的成就，是對全人類做出的貢獻，雖然這是美國的成就，但也是中國學習的榜樣和追趕的目標。

然後我們要承認在當前人工智能賽道上，中國與美國正在拉大的差距。然後想辦法去追趕，縮小這個差距。

為什麼我不說反超呢？因為今天做節目沒喝酒，我很清醒，我認為反超不了，比登天還難。

但是，我們還要認識到，條條大道通羅馬，我不是非要走這條道！

別的道路一定是存在的，也一定更適合於中國。更何況，中國還是遙遙領先的老二，是唯一的一個可以跟美國正面競爭的國家。

所以根本沒必要灰心沮喪，按照中國人不當第一就是落後的民族情緒，未來還是大有可期的。