第二代通義千問即將發佈：Qwen2相關信息已經提交HuggingFace官方

2023年1月31日更新
在HuggingFace上發現了一個可能是5億參數規模的Qwen2模型，其名稱是0.5B，這意味著可能有一個僅需1GB顯存就能允許的Qwen2模型。

2023年1月30日更新
有用戶發現Leaderboard上有Qwen2的模型在測試，包括Qwen2-14B、Qwen2-72B，這意味著第二代的Qwen模型至少已經有70億參數、140億參數和720億參數三個不同規模版本。

2023年1月21日更新
Qwen團隊成員在推特回復Qwen2目前隻有beta，可能在下個月初發佈。

2023年1月20日更新
Qwen團隊成員在推特回復Qwen2的水平會超過GPT-3.5。

通義千問是阿裡巴巴開源的一系列大語言模型。Qwen系列大模型最高參數量720億，最低18億，覆蓋了非常多的范圍，其各項評測效果也非常好。而昨天，Qwen團隊的開發人員向HuggingFace的transformers庫上提交了一段代碼，包含了Qwen2的相關信息，這意味著Qwen2模型即將到來。

從提交的代碼信息看，Qwen2系列模型包含了很多不同的尺寸，每一個參數規模的模型都包含基座模型和聊天對齊的chat版本。而目前md文件透露的信息看，70億參數規模的Qwen2-7B-beta和Qwen-7B-Chat-beta是最早發佈的第二代Qwen模型。

此外，關於Qwen2的一些模型架構技術信息如下：

Transformer Architecture with SwiGLU activation: 不多說，最主流的transformer架構，不變。但是，SwiGLU激活函數是GLU變體，可以讓模型學習表達更加復雜的模式。
QKV bias：在Transformer模型中，Q、K、V分別代表查詢（Query）、鍵（Key）和值（Value）。這些向量是通過輸入向量與對應的權重矩陣相乘得到的。QKV bias表示在計算Q、K、V時添加可學習的偏置項。
GQA：Grouped-query attention，它是一種插值方法，介於多查詢和多頭註意力之間，可以在保持接近多頭註意力的質量的同時，達到與多查詢註意力相當的速度。
Mixture of SWA and Full Attention: SWA指的是Sliding Window Attention，是一種註意力模式，用於處理長序列輸入的問題。而full attention則是傳統的註意力機制，考慮序列中所有元素的交互。這裡的mixture可能指的是這兩種註意力機制的結合使用。
Improved Tokenizer Adaptive to Multiple Natural Languages and Code: 這說明模型使用了一種改進的分詞器，它不僅適用於多種自然語言，還能處理代碼。在自然語言處理和編程語言處理中，分詞器用於將文本分解成更小的單位（如詞、字符或其他符號），這是理解和處理文本的基礎步驟。

此外，配置文件透露的信息還包括：詞匯表大小151936，這個和第一代模型一樣。模型支持的上下文大小4K。最重要的這個模型開源協議依然是Apache 2.0，免費可商用。不過，目前什麼時候發佈還不確定。但是，Qwen模型的質量值得期待。