在過去的幾個月裡，生成式人工智能領域出現了許多令人興奮的新進展。 ChatGPT 於 2022 年底發佈，席卷了人工智能世界。作為回應，各行業開始研究大型語言模型以及如何將其納入其業務中。然而，在醫療保健、金融和法律行業等敏感應用中，ChatGPT 等公共 API 的隱私一直是一個問題。

然而，最近 Falcon 和 LLaMA 等開源模型的創新使得從開源模型中獲得類似 ChatGPT 的質量成為可能。這些模型的好處是，與 ChatGPT 或 GPT-4 不同，模型權重適用於大多數商業用例。通過在定制雲提供商或本地基礎設施上部署這些模型，隱私問題得到緩解——這意味著大型行業現在可以開始認真考慮將生成式人工智能的奇跡融入到他們的產品中！

那麼讓我們深入了解各種大型語言模型 (LLM) 的經濟學！

NSDT工具推薦： Three.js AI紋理開發包 - YOLO合成數據生成器 - GLTF/GLB在線編輯 - 3D模型格式在線轉換 - 可編程3D場景編輯器 - REVIT導出3D模型插件 - 3D模型語義搜索引擎 - Three.js虛擬軸心開發包

1、GPT-3.5/4 API 成本

ChatGPT API 按使用情況定價，1K 代幣的費用為 0.002 美元。每個令牌大約是一個單詞的四分之三，單個請求中的令牌數量是提示生成的輸出令牌的總和。假設您每天處理 1000 個小塊文本，每個塊都是一頁文本，即 500 個單詞或 667 個標記，並且輸出的長度也是相同的長度（作為上限）。這相當於每天 0.002 美元/1000x66721000= ~2.6 美元。一點也不差！

但是，如果您每天處理一百萬個此類文檔，會發生什麼情況？那麼每天就是 2,600 美元，或者每年大約 100 萬美元！ ChatGPT 從一個很酷的玩具變成了一項價值數百萬美元的業務的一項主要開支（因此人們希望它是一項主要收入來源）！

OpenAI 還有其他更強大的模型，例如 ChatGPT 的 16K 上下文版本或更強大的 GPT-4 模型。這裡更大的上下文僅意味著您可以向法學碩士發送更多上下文，並要求其在較長的文檔上完成諸如回答問題之類的任務。以下是基於各種 OpenAI 模型的每天 1K 與 1M 請求的成本：

基於使用情況和 OpenAI 模型的年度成本

如您所見，低使用率的年成本從 1000 美元到 50000 美元不等，具體取決於型號。或者對於高使用率，每年 100 萬美元至 5600 萬美元！對於較低的使用率——我們認為 OpenAI API 模型是有意義的，因為它們的質量和成本效益。

但是，如果您的使用量超過 100 萬美元，則即使您確實有多餘的錢作為額外的零錢，您也需要認真考慮經濟可行性。有意義的是，如果你手邊有多餘的零錢，並且看到了LLM在你所在行業的價值，那就是將這些錢花在讓你的組織發展成為特定領域LLM的行業領導者上，而不是花錢純粹是為了沉沒成本。相反，您可以使用它來自定義現有的開源模型，根據行業特定的數據對其進行微調，從而使您更具競爭力。

處理針對極長或大量文檔提出問題的另一種方法是使用檢索增強生成 (RAG)（請參閱這篇 Medium 文章）——這基本上相當於將數據存儲在矢量數據庫中的小塊中——並使用矢量相似性用於檢索更有可能包含與您的需求相關的信息的文檔塊的指標。

另一種可能性是將錢花在 OpenAI API 成本上，但在如何處理 RAG 以及文檔與 LLM 之間的復雜接口方面使自己成為創新者，例如這篇文章。

2、開源模型托管成本

如果您決定托管大型語言模型 - 主要成本與托管這些資源密集型 LLM 和每小時成本相關。根據經驗，在 GPU 內存中存儲推理所需的 1B 參數 — 32 位浮點精度時需要 4 GB，16 位精度時需要 2 GB。默認情況下，模型權重以較高的 32 位精度存儲，但也有一些技術可以以 16 位（甚至 8 位）精度存儲權重，從而將響應質量的損失降至最低。

GPU RAM 成本

因此，對於像 Falcon-7B 或 LLaMA2–7B 這樣 16 位精度的 70 億參數模型，這意味著您需要 14GB 的 GPU RAM。它們適用於具有 16GB GPU 內存的 NVIDIA T4 GPU。您可以看到 AWS 等典型雲服務提供商的定價如下 - g4 實例均具有單個 T4 GPU，而 12X Large 則具有 4 個 GPU。基本上，如果您想部署 7B 參數模型，則成本約為 2–3 美元/小時。正如本博客中提到的 - 存在與發出的請求數量相關的成本，但這些成本通常低於端點成本。粗略地說，1000 個請求的成本為 0.01 美元，100 萬個請求的成本為 10 美元。

https://aws.amazon.com/sagemaker/pricing/

較大的開源模型（如 Vicuna-33B 或 LLaMA-2-70b）比較小的模型表現更好 - 因此您可能會考慮部署這些較大的模型。然而，為了擁有所需的 100-200 GB GPU 內存，這些技術更加昂貴，需要多個 GPU，並且成本約為 20 美元/小時。

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

以下是更新後的成本，比較了開源模型和 OpenAI GPT 系列模型：

基於使用情況和 OpenAI/雲托管模型的年度成本

值得註意的是，雖然上述成本用於內存和計算，但還需要考慮其他與雲相關的基礎設施的維護，以滿足每秒/分鐘的網絡流量/請求。其一，您可能需要多個帶有負載均衡器的 GPU，以確保即使在大負載期間也能保持低延遲。您可能需要根據您的使用案例考慮與可用性、減少停機時間、維護和監控相關的額外成本。

3、本地托管成本

本地托管是您希望完全隔離模型並在專用服務器上運行的地方。為此，您需要購買 NVIDIA A10 或 A100 等高質量 GPU。目前這些芯片短缺，A10（24GB GPU 內存）售價 3,000 美元，而 A100（40 GB 內存）售價 10-20,000 美元。

然而，有些公司提供像 Lambda Labs 這樣的預構建產品，如下所示：

Lambda Labs NVIDIA GPU成本

與雲托管模型中相同的延遲、可用性、維護和監控考慮因素也適用於本地托管。但其中一個區別是，如果您希望在收到更多流量時開始擴展，那麼使用雲托管提供商意味著您可以虛擬地增加資源（當然要支付更多費用），但您無法在 - 場所，除非您實際購買更多基礎設施，當然您現在負責正確設置一切以及維護。

4、結束語

我們已經介紹了 3 種不同的選項來提高部署 LLM 的難度：使用 ChatGPT 等封閉式 LLM API、在私有雲實例上托管以及本地托管。如果您很高興嘗試 LLM，但才剛剛開始探索，我們建議您首先嘗試使用 ChatGPT/GPT-4。一旦您確定LLM是您的出路，您就可以探索其他選擇 - 如果您有隱私問題，或者希望在短時間內為數百萬客戶提供服務，這可能更有意義 - 對於 ChatGPT，尤其是 GPT- 4個都挺貴的。或者您可能想要開發一個超專業的行業特定的LLM，托管是第一步，之後您需要根據自定義數據微調模型。

我們還沒有討論的最後一個選擇是LLM服務提供商，他們可以幫助公司找出在雲/本地堆棧上運行的模型。例如，Snowflake 推出了使用自定義數據訓練LLM的服務。 Databricks 提供了類似的解決方案。

原文鏈接：大模型經濟學 - BimAnt

LLM大模型成本對比：GPT-3.5-4 vs. 開源托管

1、GPT-3.5/4 API 成本

2、開源模型托管成本

3、本地托管成本

4、結束語