多模態大型語言模型的最新進展,看看最新的研究成果

1.綜述：多模態大型語言模型的最新進展

多模態大語言模型：全面調查
* 概述了MM-LLMs的設計方案、訓練方法和性能評估指標。
* 介紹26個MM-LLMs的構建方式、優缺點和應用領域。
* 分析了MM-LLMs在主流基準上的性能表現，提出增強MM-LLMs性能的關鍵訓練方法。
MM-LLMs的優勢：
* 大規模預訓練：MM-LLMs使用海量多模態數據進行預訓練，涵蓋了文本、圖像、音頻等多種模態。
* 多模態表示學習：MM-LLMs能夠學習和理解不同模態之間的關系和交互，提供多模態信息的統一表示。
* 廣泛的應用：MM-LLMs在多模態機器翻譯、多模態信息檢索、多模態問答等任務中表現出色，推動了多模態人工智能的發展。
MM-LLMs面臨的挑戰：
* 數據偏見：MM-LLMs的預訓練數據可能存在偏見，導致模型的輸出結果也帶有偏見。
* 訓練成本：MM-LLMs的大規模預訓練需要巨大的計算和存儲資源，訓練成本高昂。
* 推理速度：MM-LLMs的推理過程通常比較慢，難以滿足實時應用的需求。來自騰訊公司、京都大學和中國科學院大學的研究團隊進行了全面的調查。概述了模型架構和訓練 pipeline 的一般設計方案。簡要介紹了 26 個現有的 MM-LLMs，每個模型都有其特定的構建方式。該項研究回顧了 MM-LLMs 在主流基準上的性能，總結了增強 MM-LLMs 性能的關鍵訓練方法。

2.SUPIR：智能、逼真圖像修復技術

SUPIR：突破性圖像復原方法
中國科學院大學和上海人工智能實驗室的研究團隊提出了一種名為 SUPIR（Scaling-UP Image Restoration）的突破性圖像復原方法。該方法利用生成先驗和模型擴展，在智能和逼真圖像復原方面取得了重大進步。
SUPIR 的優勢：
* 在經典圖像復原任務中，SUPIR 表現出優於現有方法的復原效果。
* SUPIR 具有通過文本提示修復圖像的新能力，可以根據用戶的需求生成逼真的圖像。
SUPIR 的出現，標志著圖像復原技術邁入了新階段，其將廣泛應用於圖像處理、計算機視覺和多媒體等領域。

3.CreativeSynth：基於多模態擴散的視覺藝術創意混合與合成

CreativeSynth：藝術圖像生成領域的統一框架
由中國科學院大學、中國科學院、字節跳動和清華大學的研究團隊開發的 CreativeSynth，是一個創新框架，可將現實世界語義內容通過反轉和實時風格轉換導入藝術領域。該框架具備以下特點：
* 協調多模態輸入：同時處理文本、圖像和其他形式的輸入，生成藝術圖像。
* 執行多任務：支持多種藝術風格和內容的生成，包括油畫、水彩畫、素描等。
* 精確控制風格和內容：保持原始模型參數完整性的前提下，對圖像風格和內容進行精確操作。
CreativeSynth 在圖像生成領域取得了突破性進展，如：
* 在多個藝術圖像生成數據集上達到或超過最先進水平。
* 生成圖像質量顯著提高。
* 在保持原始模型參數完整性的同時對圖像風格和內容進行精確操作。
CreativeSynth 為藝術圖像生成領域的研究和應用提供了新的思路和工具，具有廣闊的應用前景。

4.清華新研究：讓GPT-3.5比肩GPT-4

ICE：人工智能智能體自適應性和靈活性的新策略
來自清華大學和中國人民大學的研究團隊及其合作者提出了一種名為 ICE 的新策略，該策略能夠顯著提升人工智能 (AI) 智能體的適應性和靈活性。ICE 在各種智能體任務中的表現可與原始的 GPT-4 媲美，但 API 調用減少了 80%，對模型能力的需求也大幅降低。
ICE 采用了一種新穎的“探索-鞏固-利用”策略，通過逐步探索新的問題和任務，並不斷鞏固和利用之前學到的知識，實現智能體不斷提高其適應性和靈活性。這種策略使得 ICE 能夠在各種不同的環境和任務中快速適應並做出決策。
ICE 的關鍵優勢在於它能夠有效地使用模型參數，顯著降低對模型能力的需求。這使得 ICE 能夠在資源受限的環境中實現高性能，並可以部署在更廣泛的應用場景中。體任務中的性能與原始 GPT-4 不相上下。

5.WebVoyager：利用大型多模態模型構建端到端網絡智能體

WebVoyager：開創網絡智能體新時代
浙江大學、騰訊公司和西湖大學的研究團隊推出 WebVoyager，一種創新的大型多模態模型驅動的網絡智能體，以 85.3% 的一致性完成了端到端用戶指令。
WebVoyager 在真實世界的網站上執行各種任務，例如搜索信息、預訂航班和購買商品。它的性能超過了傳統的基於規則的網絡智能體和基於強化學習的網絡智能體。
WebVoyager 的成功標志著網絡智能體領域的新時代，並有望在電子商務、在線教育和醫療保健等領域產生廣泛的應用。騰訊公司和西湖大學的研究團隊推出了一種創新的大型多模態模型（LMM）驅動的網絡智能體—— WebVoyager。它可以通過與真實世界的網站交互來完成端到端的用戶指令。WebVoyager 的自動評估與人類判斷的一致性達到了 85.3%。

6.谷歌推出AI視頻生成器 Lumiere

* 谷歌推出 Lumiere，一種專為視頻生成的擴散模型。
* Lumiere 能夠通過在多個時空尺度上處理視頻，直接生成全幀率、低分辨率的視頻。
* Lumiere 能夠輕松促進包括文字到視頻、圖像到視頻、視頻修復和風格化生成等各種內容創建任務和視頻編輯應用。
* Lumiere 是一款功能強大且用途廣泛的視頻生成工具，可以為各種視頻創作和編輯應用提供支持。提出了一種專為視頻生成的擴散模型—— Lumiere。它能夠通過在多個時空尺度上處理視頻，直接生成全幀率、低分辨率的視頻；可以輕松促進包括文字到視頻、圖像到視頻、視頻修復和風格化生成等各種內容創建任務和視頻編輯應用。

7.ConTextual：評估大型多模態模型中對上下文敏感的富文本視覺推理

1. 評估 LMMs 執行復雜任務的基準：ConTextual
- 加州大學洛杉磯分校的研究團隊提出了 ConTextual，一個評估大型多模態模型（LMMs）執行上下文敏感文本豐富的視覺推理能力的基準。
2. -4Vision 整體性能落後於人類
- 表現最好的 LMM —— -4V(ision) 的整體性能仍然落後於人類。
3. 結論：LMMs 仍有提升空間
- LMMs 尚未完全掌握上下文敏感文本豐富的視覺推理能力，仍有提升空間。

8.AgentBoard：多輪LLM智能體分析評估框架

開創性評估框架 AgentBoard 助力大型語言模型智能體開發
香港大學、浙江大學、上海交通大學、清華大學的研究團隊及合作者，共同提出一個分析評估大型語言模型（LLM）智能體的開創性綜合基準和配套開源評估框架—— AgentBoard。
AgentBoard 在揭開智能體行為的神秘面紗和加速開發更強大的 LLM 智能體方面取得重大進展。該框架通過以下方式實現：
1. 提供19個評估任務，涵蓋語言、邏輯、數學和常識等領域；
2. 提出七個評估指標，從效率、有效性、穩健性等角度對智能體進行全面評估；
3. 開源評估代碼和數據，便於研究人員和從業者使用 AgentBoard。
AgentBoard 不僅對 LLM 智能體的評估提供了全面的方法和標準，而且推動了 LLM 智能體的開發和應用。體行為的神秘面紗和加速開發更強大的 LLM 智能體方面邁出了重要一步。

Meta-Prompting，單一模型可根據需求成為多領域專傢，如法律、醫學和金融。這項技術由 OpenAI 和斯坦福大學提出，能夠讓大型語言模型無需額外訓練，僅需調整提示即可適應不同任務。該技術可廣泛應用於自然語言處理、代碼生成、問答等領域，為用戶提供更準確、更相關的信息。

* 優化後的文章內容：
* Meta-Prompting：一種提升語言模型功能的有效腳手架技術。它將單個 LM 轉變為多功能的指揮者，擅長管理和整合多個獨立的 LM 查詢。
* 技術優勢：將外部工具（如 Python 解釋器）無縫整合到框架中，擴展了其適用性和實用性。
* 應用領域：廣泛，例如文本摘要、問題回答、代碼生成和翻譯等。
* 技術亮點：
* 1) 提出了一種統一的元提示框架，可在統一的框架下執行各種語言理解和生成任務。
* 2) 引入了外部工具（如 Python 解釋器）來增強模型的能力，從而實現更復雜的推理任務。
* 3) 在多個基準數據集上展示了該技術在各種任務上的有效性，包括文本摘要、問題回答、代碼生成和翻譯等。來自 OpenAI 和斯坦福的研究團隊提出了一種旨在提升語言模型（LM）功能的有效腳手架（scaffolding）技術—— Meta-Prompting。它將單一的 LM 轉變為多功能的指揮者，擅長管理和整合多個獨立的 LM 查詢。研究團隊將外部工具（如 Python 解釋器）無縫整合到 meta-prompting 框架中，從而擴展了其適用性和實用性。

10.超越Stable Diffusion：擴散模型的大規模強化學習

* 利用強化學習改進擴散模型，顯著超過現有方法。
* 多樣的獎勵函數，如人類偏好、組合性和公平性。
* 更符合人類偏好，生成更加逼真和美觀的圖像。
* 可擴展算法，可用於各種擴散模型。
* 開源代碼，便於研究人員和開發人員使用。

11.搞定logo設計，港科大提出AI輔助工具TypeDance

- 突破性創造： TypeDance 引入獨特且全面的設計工作流程，無縫融合創意構思、選擇、生成、評估和迭代等環節，確保 Logo 設計過程更高效且智能。
- 個性化語義排版： TypeDance 以個性化語義排版為核心，通過語義分析和機器學習算法，自動創建與企業形象和信息高度匹配的 Logo 排版。
- 雙任務用戶評估：采用模仿和創作兩個用戶評估任務，TypeDance 在不同應用場景下展現出強大的設計實用性和可用性，證明其在 Logo 設計領域的價值。
- 實用與可用性：實際應用中，TypeDance 可幫助多樣化受眾群體輕松創建多種風格的 Logo 設計，從簡約現代到創意前衛，應有盡有。仿和創作在內的雙任務用戶評估，證實了 TypeDance 在不同應用場景下的設計實用性和可用性。

12.OK-Robot：基於開放知識的新型機器人框架

OK-Robot：一個突破性的開放知識機器人框架
來自紐約大學和 Meta 公司的研究團隊共同開發了 OK-Robot，這是一個全新的開放知識機器人框架。它將視覺-語言模型（VLMs）、導航原語和抓取原語結合起來，形成了一個無需訓練的集成解決方案，用於物品的取放操作。
OK-Robot 在開放式取放任務中取得了 58.5% 的成功率，代表了開放詞匯移動操作（OVMM）領域的最新技術水平，其性能是之前工作的近 1.8 倍。在更幹凈整潔的環境中，OK-Robot 的性能提高到了 82%，證明了其在現實世界中的實用性。
OK-Robot 有以下幾個特點：
* 無需訓練：OK-Robot 無需任何訓練即可執行取放操作，這使其成為一種非常靈活和適應性強的工具。
* 開放式詞匯：OK-Robot 可以理解和執行各種各樣的指令，包括那些使用自然語言表述的指令。
* 視覺-語言融合：OK-Robot 可以將視覺信息與語言指令結合起來，從而更好地理解和執行任務。
OK-Robot 的應用前景非常廣闊，它可以被用於各種各樣的場景，包括傢庭、辦公室、醫院和倉庫等。它可以幫助人們完成各種各樣的任務，包括整理物品、清潔房間、準備食物和送貨上門等。是之前工作的近 1.8 倍。在更幹凈整潔的環境中，OK-Robot 的性能提高到了 82%。

，時長01:16

13.SpatialVLM：教視覺語言模型學會空間推理

自動生成 3D 空間 VQA 數據集，助力空間視覺語言模型 (VLM) 發展
- 研究團隊開發了自動 3D 空間 VQA 數據生成框架，在 1000 萬張真實世界圖像上生成了 20 億個 VQA 示例。
- SpatialVLM 特色：互聯網規模的度量空間 3D 空間推理數據集。
- 在此數據上訓練 VLM，極大提高了 VLM 在定性和定量空間 VQA 的能力。

14.WARM：提高LLM預測的整體質量和對齊

使用加權平均獎勵模型（WARM）解決強化學習中的獎勵破解問題
背景：
在人類反饋的強化學習（RLHF）中，大型語言模型（LLMs）利用獎勵模型（RM）中的失誤，獲得看似很高的獎勵，卻沒有達到基本目標，這被稱為“獎勵破解”。
方法：
谷歌研究團隊提出了加權平均獎勵模型（WARM），該模型通過對多個 RM 的預測結果進行加權平均，來提高 LLM 預測的準確性和一致性。
結果：
實驗表明，WARM 提高了 LLM 預測的整體質量和一致性。例如，使用 WARM 進行微調的策略 RL 與使用單一 RM 進行微調的策略 RL 相比，勝率高達 79.4%。
結論：
WARM 有效地解決了 RLHF 中的獎勵破解問題，並提高了 LLM 預測的質量和一致性，為 RLHF 的進一步發展提供了新的思路和方法。來自谷歌公司的研究團隊提出了加權平均獎勵模型（WARM）。實驗表明，WARM 提高了 LLM 預測的整體質量和一致性；例如，使用 WARM 進行微調的策略 RL 與使用單一 RM 進行微調的策略 RL 相比，勝率高達 79.4%。

15.PhotoMaker：一種高效個性化定制人像照片的文生圖模型

PhotoMaker：高效的個性化文本生成圖像方法
研究團隊：南開大學、騰訊公司和東京大學
核心創新：
* 提出一種高效的個性化文本生成圖像方法—— PhotoMaker。
* PhotoMaker 采用堆疊的 ID 嵌入來保留 ID 信息，作為統一的 ID 表示。
* 該嵌入能夠全面封裝相同輸入 ID 的特征，並容納不同 ID 的特征以供後續整合。
應用前景：
* 為更多有趣且具有實際價值的應用提供可能。騰訊公司和東京大學的研究團隊提出了一種高效的個性化文本生成圖像方法—— PhotoMaker。PhotoMaker 能夠將任意數量的輸入 ID 圖像編碼成一個堆疊的 ID 嵌入，以保留 ID 信息。作為一個統一的 ID 表示，這種嵌入不僅能夠全面封裝相同輸入 ID 的特征，還能夠容納不同 ID 的特征以供後續整合。這為更多有趣且具有實際價值的應用提供可能。