無註意力大模型Eagle7B:基於RWKV,推理成本降低10-100 倍

2024年2月6日 24点热度 0人点赞

機器之心報道

編輯:陳萍

Eagle 7B 可將推理成本降低 10-100 倍。

在 AI 賽道中,與動輒上千億參數的模型相比,最近,小模型開始受到大傢的青睞。比如法國 AI 初創公司發佈的 Mistral-7B 模型,其在每個基準測試中,都優於 Llama 2 13B,並且在代碼、數學和推理方面也優於 LLaMA 1 34B。

與大模型相比,小模型具有很多優點,比如對算力的要求低、可在端側運行等。

近日,又有一個新的語言模型出現了,即 7.52B 參數 Eagle 7B,來自開源非盈利組織 RWKV,其具有以下特點:

  • 基於 RWKV-v5 架構構建,該架構的推理成本較低(RWKV 是一個線性 transformer,推理成本降低 10-100 倍以上);
  • 在 100 多種語言、1.1 萬億 token 上訓練而成;
  • 在多語言基準測試中優於所有的 7B 類模型;
  • 在英語評測中,Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral;
  • 英語評測中與 MPT-7B (1T) 相當;
  • 沒有註意力的 Transformer。

前面我們已經了解到 Eagle 7B 是基於 RWKV-v5 架構構建而成,RWKV(Receptance Weighted Key Value)是一種新穎的架構,有效地結合了 RNN 和 Transformer 的優點,同時規避了兩者的缺點。該架構設計精良,能夠緩解 Transformer 所帶來的內存瓶頸和二次方擴展問題,實現更有效的線性擴展,同時保留了使 Transformer 在這個領域占主導的一些性質。

目前 RWKV 已經迭代到第六代 RWKV-6,由於 RWKV 的性能與大小相似的 Transformer 相當,未來研究者可以利用這種架構創建更高效的模型。

關於 RWKV 更多信息,大傢可以參考「Transformer 時代重塑 RNN,RWKV 將非 Transformer 架構擴展到數百億參數」。

值得一提的是,RWKV-v5 Eagle 7B 可以不受限制地供個人或商業使用。

在 23 種語言上的測試結果

不同模型在多語言上的性能如下所示,測試基準包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。

共 23 種語言

這些基準測試包含了大部分常識推理,顯示出 RWKV 架構從 v4 到 v5 在多語言性能上的巨大飛躍。不過由於缺乏多語言基準,該研究隻能測試其在 23 種較常用語言上的能力,其餘 75 種以上語言的能力目前仍無法得知。

在英語上的性能

不同模型在英語上的性能通過 12 個基準來判別,包括常識性推理和世界知識。

從結果可以再次看出 RWKV 從 v4 到 v5 架構的巨大飛躍。v4 之前輸給了 1T token 的 MPT-7b,但 v5 卻在基準測試中開始追上來,在某些情況下(甚至在某些基準測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上)它可以超過 Falcon,甚至 llama2。

此外,根據給定的近似 token 訓練統計,v5 性能開始與預期的 Transformer 性能水平保持一致。

此前,Mistral-7B 利用 2-7 萬億 Token 的訓練方法在 7B 規模的模型上保持領先。該研究希望縮小這一差距,使得 RWKV-v5 Eagle 7B 超越 llama2 性能並達到 Mistral 的水平。

下圖表明,RWKV-v5 Eagle 7B 在 3000 億 token 點附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能:

這與之前在 RWKV-v4 架構上進行的實驗(pile-based)一致,像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似,並且具有相同的 token 數訓練。

可以預見,該模型的出現標志著迄今為止最強的線性 transformer(就評估基準而言)已經來了。

參考鏈接:https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers