年輕人的第一個多模態大模型,1080Ti輕松運行,已開源在線可玩

2024年2月5日 27点热度 0人点赞
Vary-toy團隊 投稿
量子位 | 公眾號 QbitAI
一款名為Vary-toy的“年輕人的第一個多模態大模型”來了!
模型大小不到2B,消費級顯卡可訓練,GTX1080ti、8G的老顯卡輕松運行。
想將一份文檔圖片轉換成Markdown格式?以往需要文本識別、佈局檢測和排序、公式表格處理、文本清洗等多個步驟。
現在隻需一句話命令:
無論中英文,圖片中的大段文字都能分分鐘提取出來:
對一張圖做對象檢測,還是能給出具體坐標的那種:
圖片
這項研究由來自曠視、國科大、華中大的研究人員共同提出。
據介紹,Vary-toy雖小,但卻幾乎涵蓋了目前LVLM(大型視覺語言模型)主流研究中的所有能力:文檔OCR識別(Document OCR)、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)。
圖片
現在,Vary-toy代碼和模型均已開源,並有在線demo可試玩。
圖片
網友一邊表示感興趣,一邊關註點在於舊·GTX1080,心情belike:
圖片
“縮小版”Vary
其實,早在去年12月Vary團隊就發佈了Vary的首項研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。
研究人員指出CLIP視覺詞表在密集感知能力上的不足,並用一種簡單有效的擴充詞表方案給出了一種全新的OCR范式。
Vary發佈後得到廣泛關註,目前Github 1.2k star,但也有不少人因為資源受限運行不了。
考慮到目前開源得很好且性能出色的“小”VLM比較少,於是該團隊又新發佈了號稱是“年輕人的第一個多模大模型”的Vary-toy。
與Vary相比,Vary-toy除了小之外,也訓練了更強的視覺詞表,新的詞表不再將模型局限於文檔級OCR,而是給出了一個更加通用和全面的視覺詞表,其不僅能做文檔級OCR,還能做通用視覺目標檢測。
那這究竟是如何做到的?
Vary-toy的模型結構和訓練流程如下圖所示,總的來說,訓練共分兩個階段。
圖片
首先在第一階段,使用Vary-tiny 結構,預訓練出一個相比原版Vary更好的視覺詞表,新的視覺詞表解決了原Vary隻用它做文檔級OCR的網絡容量浪費問題、以及沒有充分利用到SAM預訓練優勢的問題。
然後在第二階段中,將第一階段中訓好的視覺詞表merge到最終結構進行multi-task training/SFT。
眾所周知,一個好的數據配比對於產生一個能力全面的VLM是至關重要的。
因此在預訓練階段,Vary-toy使用了5種任務類型的數據構建對話,數據配比和示例prompt如下圖所示:
圖片
而在SFT階段,隻使用了LLaVA-80K數據。更多的技術細節,可以查看Vary-toy的技術報告。
實驗測試結果
Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四個基準測試的得分如下:
圖片
Vary-toy在DocVQA上可以達到 65.6%的ANLS,在ChartQA上達到59.1%的準確率,RefCOCO88.1%的準確率:
圖片
MMVet上可以達到29%準確率,無論是從基準測試評分上還是可視化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一較高下。
圖片
項目鏈接:
[1]https://arxiv.org/abs/2401.12503
[2]https://varytoy.github.io/