《科學》周刊報道，Science與專傢討論人工智能生成的音頻和視頻所帶來的獨特威脅。

人工智能生成的特朗普被捕的圖像（被明確標記為假的）在網上瘋傳，但並非所有政治深度造假品都容易標記。

2016年的“假新聞”已經過時了。今年，人工智能 (AI) 生成的虛假視頻和音頻片段成為迫在眉睫的新威脅，可能會在即將到來的美國總統選舉中影響選民。

上周，新罕佈什爾州總統初選的選民接到了一個機器人電話，總統喬·拜登似乎在勸阻他們參加選舉。錄音稱：“周二的投票隻會讓共和黨人再次選舉[前總統]唐納德·特朗普。”

隻是這次通話實際上並不是拜登錄制的——這是一種深度偽造（deepfake），一種生成人工智能的形式，其中算法會整理一個人的面部或聲音片段，向他們學習，並模仿對象說他們從未做過的事情。

專傢們對它的說服力感到震驚。西北大學的數據科學傢馬特·格羅 (Matt Groh) 表示：“它把很多危險的東西結合在一起：虛假信息、人工智能生成的聲音、冒充總統，以及本質上阻止投票，這是一種非法活動。”

Deepfake 比以往任何時候都更便宜、更容易生產，而且我們在選舉季節可能會看到更多。Science與幾位專傢討論了人工智能生成內容的危險，以及為什麼我們如此努力地認識到它。

深度造假真的比老式假新聞更糟糕嗎？

社交媒體上的虛假敘述多年來肯定引發了問題。研究人員發現，人們很容易分享支持他們信仰的假新聞文章，即使他們知道這些故事是假的。

內容是否被標記為假新聞並不重要：我們看到假內容的次數越多，我們就越有可能記住它是真實的。 “通過重復，內容會在人們的頭腦中根深蒂固，”佈朗大學認知心理學傢史蒂文·斯洛曼說。

但這些問題隨著圖像和視頻的出現而變得更加嚴重，它們往往會像文本那樣根深蒂固地留在人們的腦海中。 “當我們看到某件事發生時，我們很自然地相信它，”斯洛曼說。因此，看起來令人信服的深度贗品——即使隻是快速瀏覽——可能會被更廣泛地分享和相信。

斯洛曼說，還有另一個危險：深度造假會帶來不確定性。

如果人們無法區分兩者之間的區別，他們可能會更有可能聲稱不支持他們觀點的真實圖像是深度贗品，無論專傢分析或檢測軟件怎麼說。一項研究發現，提醒人們視頻可能是人工智能生成的，並不能讓他們更好地發現這些視頻。反而讓他們更加不敢相信自己所看到的一切。從這個意義上說，斯洛曼說，“深度造假確實比現有的任何其他媒介都更具威脅。”

但這隻是一項研究——大多數人都無法識別深度贗品嗎？

人們當然喜歡這樣想——這就是問題的一部分。另一項針對 210 名志願者的研究發現，大多數人都相信自己能夠區分深度偽造視頻和真實視頻，但實際上，他們的猜測並不比簡單地擲硬幣來決定準確多少。

我們在識別音頻深度偽造方面也很糟糕，就像新罕佈什爾州選民收到的那樣。去年對 500 多名講英語和普通話的人進行的一項研究發現，人們隻有大約 73% 的時間正確識別語音深度造假，並且以幾乎相同的比例認為真實音頻是假的。

西悉尼大學的計算神經科學傢 Tijl Grootswagers 表示，我們被愚弄並不奇怪。 “在我們的生活中，我們永遠不必考慮誰是真人，誰是假人，”他說。 “這不是我們接受過的培訓的任務。”

但我們的大腦可能比我們更擅長檢測深度偽造品。當 Grootswagers 讓 22 名志願者觀看一張深度偽造的頭像時，該圖像觸發了他們大腦視覺皮層的電信號，該信號與他們觀看真人時的信號不同。

然而，這些志願者仍然很難猜測哪些圖像是真實的。他不確定為什麼——也許其他大腦區域在來自視覺皮層的信號到達我們的意識感知之前就幹擾了它們，或者也許這些信號根本沒有被我們記錄下來，因為我們以前從未真正需要使用它們。

即使這些信息沒有滲透到我們的意識中，我們通常也能感覺到什麼時候出現“異常”，特別是在給出多個線索的情況下。在 arXiv 最近發佈的預印本中，Groh 測試了 2200 多名在線志願者是否可以確定拜登和特朗普的政治演講（其中一半是人工智能生成的）是真是假。他的團隊發現，如果人們隻閱讀文字記錄，那麼他們很難完成這項任務，但在區分演講的深度偽造視頻方面表現更好，如果添加音頻和字幕，效果甚至更好。

一旦涉及更多種類的媒體和互動，“就會有很多出現故障點的機會，人們很容易發現不一致的地方，”格羅說。這就是為什麼人們更不擅長檢測人工智能生成的簡單頭像，而不是復雜的假圖像，例如上面顯示特朗普被捕的圖像。

還有其他需要註意的跡象嗎？

長期以來，人工智能生成的圖像往往包含簽名贈品，例如形狀奇怪的手和多餘的手指。較新的技術已在很大程度上解決了這些問題，但仍然存在細微的不一致之處——例如，在弗朗西斯教皇穿著蓬松外套的病毒形象中，教皇的眼鏡形成了不切實際的陰影。

尋找畸形身體部位的人們可能會錯過最新的深度贗品的跡象，因為它們往往過於完美。這些算法從訓練集中生成“平均”面孔，很少包含現實生活中看到的不尋常的面部特征，格魯茨瓦格斯說，這可能解釋了為什麼人們如此容易愛上它們。 “人們認為普通的面孔更有吸引力、更值得信賴，”他說。格羅說，音頻深度偽造也是如此。例如，人工智能生成的語音往往不會包含咂嘴聲、“嗯”和“呃”，或者真實語音所特有的糟糕的錄音質量。

許多公司正在開發軟件來檢測深度偽造，但並不總是清楚該軟件檢測到圖像的哪些方面，或者它是否會跟上人工智能技術的進步。

在 Groh 團隊 2021 年的一項研究中，計算機視覺軟件識別虛假視頻的能力與人類相同，盡管人類和計算機會犯不同類型的錯誤。當臉部上下顛倒或眼睛被遮住時，人類（而不是計算機）在檢測假貨方面變得更差，這表明機器正在識別面部特征以外的其他東西。

有什麼辦法可以阻止深度造假造成嚴重破壞嗎？

一些政府，尤其是其安全部門，已經開始研究生成式人工智能對選舉構成的威脅。美國聯邦選舉委員會提議更新其競選欺詐規則，將欺騙性人工智能納入其中。但格魯茨瓦格斯表示，他們無法阻止人工智能技術的整體進步，檢測深度造假的努力將成為一場持續的軍備競賽。 “我認為問題會變得更糟，因為算法正在變得更好。”

Groh 表示，目前，深度偽造視頻不一定像人們想象的那麼容易制作，盡管他同意從現在到 11 月大選期間這項技術可能會有所改進。制作真正令人信服的視頻，例如2021 年首次發佈的湯姆·克魯斯 Deepfake 視頻，仍然需要大量資源，包括相似的演員和大量的剪輯。

格羅表示，讓人們更多地意識到深度造假的存在並教他們如何識別它們是關鍵。他說，教育不同的群體尤其重要——年輕人可能習慣於在視頻中添加有趣的濾鏡，但老年人可能不知道將一個人的嘴唇與不同的音頻片段同步是多麼容易。

盡管如此，教育的作用也有限。格羅說，即使大多數人都意識到深度造假的危險以及如何發現它們，“當某種機器人電話到來時，他們會註意到這一點嗎？這是一個懸而未決的問題。”

參考文獻

Sara Reardon. How to spot a deepfake—and prevent it from causing political chaos. Science (2024) doi:doi: 10.1126/science.zw0xbf6

後記

如果您有什麼想法，歡迎給@YiyiKing留言

《科學》 如何發現深度造假並防止其造成政治混亂

深度造假真的比老式假新聞更糟糕嗎？

但這隻是一項研究——大多數人都無法識別深度贗品嗎？

還有其他需要註意的跡象嗎？

有什麼辦法可以阻止深度造假造成嚴重破壞嗎？

參考文獻

後記

《科學》如何發現深度造假並防止其造成政治混亂