年輕人的第一個多模態大模型，1080Ti輕松運行，已開源在線可玩

Vary-toy團隊投稿

量子位 | 公眾號 QbitAI

一款名為Vary-toy的“年輕人的第一個多模態大模型”來了！

模型大小不到2B，消費級顯卡可訓練，GTX1080ti、8G的老顯卡輕松運行。

想將一份文檔圖片轉換成Markdown格式？以往需要文本識別、佈局檢測和排序、公式表格處理、文本清洗等多個步驟。

現在隻需一句話命令：

無論中英文，圖片中的大段文字都能分分鐘提取出來：

對一張圖做對象檢測，還是能給出具體坐標的那種：

這項研究由來自曠視、國科大、華中大的研究人員共同提出。

據介紹，Vary-toy雖小，但卻幾乎涵蓋了目前LVLM（大型視覺語言模型）主流研究中的所有能力：文檔OCR識別（Document OCR）、視覺定位（Visual Grounding）、圖像描述（Image Caption）、視覺問答（VQA）。

現在，Vary-toy代碼和模型均已開源，並有在線demo可試玩。

網友一邊表示感興趣，一邊關註點在於舊·GTX1080，心情belike：

“縮小版”Vary

其實，早在去年12月Vary團隊就發佈了Vary的首項研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人員指出CLIP視覺詞表在密集感知能力上的不足，並用一種簡單有效的擴充詞表方案給出了一種全新的OCR范式。

Vary發佈後得到廣泛關註，目前Github 1.2k star，但也有不少人因為資源受限運行不了。

考慮到目前開源得很好且性能出色的“小”VLM比較少，於是該團隊又新發佈了號稱是“年輕人的第一個多模大模型”的Vary-toy。

與Vary相比，Vary-toy除了小之外，也訓練了更強的視覺詞表，新的詞表不再將模型局限於文檔級OCR，而是給出了一個更加通用和全面的視覺詞表，其不僅能做文檔級OCR，還能做通用視覺目標檢測。

那這究竟是如何做到的？

Vary-toy的模型結構和訓練流程如下圖所示，總的來說，訓練共分兩個階段。

首先在第一階段，使用Vary-tiny 結構，預訓練出一個相比原版Vary更好的視覺詞表，新的視覺詞表解決了原Vary隻用它做文檔級OCR的網絡容量浪費問題、以及沒有充分利用到SAM預訓練優勢的問題。

然後在第二階段中，將第一階段中訓好的視覺詞表merge到最終結構進行multi-task training/SFT。

眾所周知，一個好的數據配比對於產生一個能力全面的VLM是至關重要的。

因此在預訓練階段，Vary-toy使用了5種任務類型的數據構建對話，數據配比和示例prompt如下圖所示：

而在SFT階段，隻使用了LLaVA-80K數據。更多的技術細節，可以查看Vary-toy的技術報告。

實驗測試結果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四個基準測試的得分如下：

Vary-toy在DocVQA上可以達到 65.6%的ANLS，在ChartQA上達到59.1%的準確率，RefCOCO88.1%的準確率：

MMVet上可以達到29%準確率，無論是從基準測試評分上還是可視化效果上，不到2B的Vary-toy甚至能和一些流行的7B模型的性能一較高下。

項目鏈接：

[1]https://arxiv.org/abs/2401.12503

[2]https://varytoy.github.io/