【LLM-MoE】DeepSeekMoE：邁向混合專傢語言模型的終極專業化

一、結論寫在前面論文提出了MoE語言模型的DeepSeekMoE架構，目的是實現終極的專傢專業化(expert specialization)。通過細粒度的專傢分割和共享專傢隔離，DeepSeekMo

2024年2月6日 30点热度 0人点赞阅读全文

這篇博客詳細講述了從頭開始構建一個稀疏混合專傢（sparse mixture of experts）語言模型的過程。該項目深受 Andrej Karpathy 的 “makemore” 項目啟發，並借

2024年2月6日 23点热度 0人点赞阅读全文

機器之心專欄機器之心編輯部對於大型視覺語言模型（LVLM）而言，擴展模型可以有效提高模型性能。然而，擴大參數規模會顯著增加訓練和推理成本，因為計算中每個 token 都會激活所有模型參數。基於此，來自

2024年2月6日 23点热度 0人点赞阅读全文

一、結論寫在前面論文提出了參數高效的稀疏性改造(Parameter-Efficient Sparsity Crafting，PESC)，它利用MoE架構將密集模型升級為稀疏模型。PESC在稀疏模型的M

2024年2月6日 16点热度 0人点赞阅读全文