第二代通義千問即將發佈:Qwen2相關信息已經提交HuggingFace官方

2024年2月6日 17点热度 0人点赞

#大模型##通義千問#

2023年1月31日更新
在HuggingFace上發現了一個可能是5億參數規模的Qwen2模型,其名稱是0.5B,這意味著可能有一個僅需1GB顯存就能允許的Qwen2模型。

2023年1月30日更新
有用戶發現Leaderboard上有Qwen2的模型在測試,包括Qwen2-14B、Qwen2-72B,這意味著第二代的Qwen模型至少已經有70億參數、140億參數和720億參數三個不同規模版本。

2023年1月21日更新
Qwen團隊成員在推特回復Qwen2目前隻有beta,可能在下個月初發佈。


2023年1月20日更新
Qwen團隊成員在推特回復Qwen2的水平會超過GPT-3.5。


通義千問是阿裡巴巴開源的一系列大語言模型。Qwen系列大模型最高參數量720億,最低18億,覆蓋了非常多的范圍,其各項評測效果也非常好。而昨天,Qwen團隊的開發人員向HuggingFace的transformers庫上提交了一段代碼,包含了Qwen2的相關信息,這意味著Qwen2模型即將到來。


從提交的代碼信息看,Qwen2系列模型包含了很多不同的尺寸,每一個參數規模的模型都包含基座模型和聊天對齊的chat版本。而目前md文件透露的信息看,70億參數規模的Qwen2-7B-beta和Qwen-7B-Chat-beta是最早發佈的第二代Qwen模型。

此外,關於Qwen2的一些模型架構技術信息如下:

  1. Transformer Architecture with SwiGLU activation: 不多說,最主流的transformer架構,不變。但是,SwiGLU激活函數是GLU變體,可以讓模型學習表達更加復雜的模式。
  2. QKV bias:在Transformer模型中,Q、K、V分別代表查詢(Query)、鍵(Key)和值(Value)。這些向量是通過輸入向量與對應的權重矩陣相乘得到的。QKV bias表示在計算Q、K、V時添加可學習的偏置項。
  3. GQA:Grouped-query attention,它是一種插值方法,介於多查詢和多頭註意力之間,可以在保持接近多頭註意力的質量的同時,達到與多查詢註意力相當的速度。
  4. Mixture of SWA and Full Attention: SWA指的是Sliding Window Attention,是一種註意力模式,用於處理長序列輸入的問題。而full attention則是傳統的註意力機制,考慮序列中所有元素的交互。這裡的mixture可能指的是這兩種註意力機制的結合使用。
  5. Improved Tokenizer Adaptive to Multiple Natural Languages and Code: 這說明模型使用了一種改進的分詞器,它不僅適用於多種自然語言,還能處理代碼。在自然語言處理和編程語言處理中,分詞器用於將文本分解成更小的單位(如詞、字符或其他符號),這是理解和處理文本的基礎步驟。

此外,配置文件透露的信息還包括:詞匯表大小151936,這個和第一代模型一樣。模型支持的上下文大小4K。最重要的這個模型開源協議依然是Apache 2.0,免費可商用。不過,目前什麼時候發佈還不確定。但是,Qwen模型的質量值得期待。