無註意力大模型Eagle7B：基於RWKV，推理成本降低10-100 倍

機器之心報道

編輯：陳萍

Eagle 7B 可將推理成本降低 10-100 倍。

在 AI 賽道中，與動輒上千億參數的模型相比，最近，小模型開始受到大傢的青睞。比如法國 AI 初創公司發佈的 Mistral-7B 模型，其在每個基準測試中，都優於 Llama 2 13B，並且在代碼、數學和推理方面也優於 LLaMA 1 34B。

與大模型相比，小模型具有很多優點，比如對算力的要求低、可在端側運行等。

近日，又有一個新的語言模型出現了，即 7.52B 參數 Eagle 7B，來自開源非盈利組織 RWKV，其具有以下特點：

基於 RWKV-v5 架構構建，該架構的推理成本較低（RWKV 是一個線性 transformer，推理成本降低 10-100 倍以上）；
在 100 多種語言、1.1 萬億 token 上訓練而成；
在多語言基準測試中優於所有的 7B 類模型；
在英語評測中，Eagle 7B 性能接近 Falcon (1.5T)、LLaMA2 (2T)、Mistral；
英語評測中與 MPT-7B (1T) 相當；
沒有註意力的 Transformer。

前面我們已經了解到 Eagle 7B 是基於 RWKV-v5 架構構建而成，RWKV（Receptance Weighted Key Value）是一種新穎的架構，有效地結合了 RNN 和 Transformer 的優點，同時規避了兩者的缺點。該架構設計精良，能夠緩解 Transformer 所帶來的內存瓶頸和二次方擴展問題，實現更有效的線性擴展，同時保留了使 Transformer 在這個領域占主導的一些性質。

目前 RWKV 已經迭代到第六代 RWKV-6，由於 RWKV 的性能與大小相似的 Transformer 相當，未來研究者可以利用這種架構創建更高效的模型。

關於 RWKV 更多信息，大傢可以參考「Transformer 時代重塑 RNN，RWKV 將非 Transformer 架構擴展到數百億參數」。

值得一提的是，RWKV-v5 Eagle 7B 可以不受限制地供個人或商業使用。

在 23 種語言上的測試結果

不同模型在多語言上的性能如下所示，測試基準包括 xLAMBDA、xStoryCloze、xWinograd、xCopa。

共 23 種語言

這些基準測試包含了大部分常識推理，顯示出 RWKV 架構從 v4 到 v5 在多語言性能上的巨大飛躍。不過由於缺乏多語言基準，該研究隻能測試其在 23 種較常用語言上的能力，其餘 75 種以上語言的能力目前仍無法得知。

在英語上的性能

不同模型在英語上的性能通過 12 個基準來判別，包括常識性推理和世界知識。

從結果可以再次看出 RWKV 從 v4 到 v5 架構的巨大飛躍。v4 之前輸給了 1T token 的 MPT-7b，但 v5 卻在基準測試中開始追上來，在某些情況下（甚至在某些基準測試 LAMBADA、StoryCloze16、WinoGrande、HeadQA_en、Sciq 上）它可以超過 Falcon，甚至 llama2。

此外，根據給定的近似 token 訓練統計，v5 性能開始與預期的 Transformer 性能水平保持一致。

此前，Mistral-7B 利用 2-7 萬億 Token 的訓練方法在 7B 規模的模型上保持領先。該研究希望縮小這一差距，使得 RWKV-v5 Eagle 7B 超越 llama2 性能並達到 Mistral 的水平。

下圖表明，RWKV-v5 Eagle 7B 在 3000 億 token 點附近的 checkpoints 顯示出與 pythia-6.9b 類似的性能：

這與之前在 RWKV-v4 架構上進行的實驗（pile-based）一致，像 RWKV 這樣的線性 transformers 在性能水平上與 transformers 相似，並且具有相同的 token 數訓練。

可以預見，該模型的出現標志著迄今為止最強的線性 transformer（就評估基準而言）已經來了。

參考鏈接：https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers