大模型創業的3條軍規

2024年2月6日 26点热度 0人点赞

上周,一傢初創公司未能圍繞LLM和 RAG 開展業務,盡管他們獲得了第一份 B2B 大型合同。 以下是原因以及如何避免這種情況:

創始人寫了一篇博客解釋了為什麼他不得不關閉他的業務,我在這裡總結了他的要點。

NSDT工具推薦: Three.js AI紋理開發包 - YOLO合成數據生成器 - GLTF/GLB在線編輯 - 3D模型格式在線轉換 - 可編程3D場景編輯器 - REVIT導出3D模型插件 - 3D模型語義搜索引擎 - Three.js虛擬軸心開發包

產品非常好。 那部分沒問題。產品隻是一個使用 GPT-4 回答用戶查詢的聊天應用程序。 但在回答之前,它會搜索數據庫(文檔、常見問題解答、產品等)並根據這些數據進行回答(是的,這隻是 RAG)!

該初創公司的潛在客戶旨在每月處理數十萬次用戶查詢。 因此,這傢初創公司評估了選擇哪些模型。 GPT-4 為他們帶來了最好的結果。 所以,創始人選擇了GPT-4。

該初創公司沒有選擇其他開源替代方案,因為它們的測試不夠好。 我不能完全同意這個結論,但對於他們的特定用例來說,這個結論很可能是正確的。 他一定處理過高度復雜的數據。 普通的開源LLM可能不適合他。

在這個階段,這傢初創公司面臨著第一次現實檢驗。 財務現實檢查。 GPT-4 太貴了!

對於每月數十萬的用戶查詢來說,差異是每月巨大的 ChatGPT 賬單。 錦上添花的是,似乎隻有 GPT-4 適合這傢初創公司的復雜用例。

因此,該公司很可能在評估成本提案後做出了讓步。 簡而言之,對於客戶來說,花費巨額資金購買聊天機器人似乎不是一個可行的想法。

該初創公司未能達成合同並停止生產該產品。

故事結局。 繼續閱讀以獲取故事鏈接!

但是,如果我處於他的立場並建立這傢初創公司,我會記住以下 3 條規則:

1、保持對開源模型的信心

讓我們一起 fork 並創造一些更加‘forktastic’的東西!

忘記 GPT-4 API,尤其是對於大量用戶查詢。 它隻適合標記、測試和生成數據集進行微調,不能作為主模型。 技術上是最好的,但經濟上不是最好的!

此外,對 Llama 2 這樣的開源模型有信心。Anyscale 證明,經過微調的 Llama 2 模型在某些任務中可以優於 GPT-4。 測試您的問題並嘗試看看您的微調模型是否也能優於 GPT 4! 請在此處閱讀 Anyscale 的微調指南。

Llama-2 模型的性能增益是通過對每個任務進行微調而獲得的。 每種顏色的較深陰影表示帶有基線提示的 Llama-2-chat 模型的性能。 紫色顯示 GPT-4 的性能,提示相同。 堆疊條形圖顯示了微調 Llama-2 基礎模型所帶來的性能增益。 在經過微調的函數表示和 SQL gen 任務中,我們可以獲得比 GPT-4 更好的性能,而在數學推理等其他任務上,微調模型雖然在基礎模型上有所改進,但仍然無法達到 GPT -4的性能水平。

另一方面,Anyscale 還證明,盡管兩個模型的事實水平大致相同,但使用 GPT-4 進行匯總的成本仍然是 Llama-2-70b 成本的 30 倍。

為什麼您對開源模型失去信心?

此外,Gradient AI 提出了一種新穎的解決方案。 這就是所謂的人工智能專傢混合 (MoE) 方法! 那麼它是什麼。 它基本上是針對特定任務微調 Llama 2 7b 等開源模型。

例如,假設您將公司數據分為 4 類。 財務、工程、產品和運營。 現在,您可以針對 4 項任務微調 4 個模型。 每個模型都擅長完成自己的任務。

現在,當用戶編寫查詢時,我們將嘗試查找其類型。 例如,用戶編寫這樣的查詢 - 給我們推薦引擎產品的 H100 GPU 的估計數量。

最好的答案可能來自工程、產品或財務。 如果我們對前兩個結果進行標準化,我們可以權衡 75% 工程和 25% 產品的答案。 我們可以通過合並這兩個微調模型的響應來生成最終響應。

來源:
https://gradient.ai/blog/the-next-million-ai-models

了解如何通過多個微調模型超越 GPT-4 模型。 初創公司也可以省錢。 如何?

GPT-4 的成本是 Llama-2–70b 的 18 倍! 如果我沒記錯的話,Llama-2–7b 比 GPT-4 便宜 30 倍。 提供 4 個經過微調的 Llama-7b 模型不會讓您破產!

2、巨型人工智能模型的時代已經結束

GPT-4 可能是最後的重大進步!

這是薩姆·奧爾特曼說的,不是我說的。 Altman 的聲明表明,GPT-4 可能是 OpenAI 使模型更大並為其提供更多數據的戰略中出現的最後一個重大進步。

我先給大傢講一個故事。 在準備商學院入學考試時,我擔心競爭。 我問老師,記住 GMAT 高頻詞匯表是否就足夠了。 他說是的,但我還是擔心。 如果考試中出現了不在列表中的困難詞匯怎麼辦? 在這場競爭激烈的考試中,即使是一個分數也可能產生影響。

我的老師向我保證,說沒有人能夠回答這個問題。 他說我應該集中精力記住給定的高頻詞匯表,這就足夠了。

我意識到我不能擔心所有事情,所以我專註於我能控制的事情:記住一些高頻 GMAT 詞匯。 不試圖記住一切。

我不怕練過一萬種腿法的人,但我害怕一種腿法練過一萬遍的人。-李小龍

順便說一句,我認為李小龍練習了10,000種踢法10,000次! 不想再讀文章了,那就看李小龍的視頻吧

因此,當這位創始人因為 GPT-4 成本高昂而其他模型性能較差而關閉他的初創公司時,這個投資回報率問題對每個人來說都是真實的,而且是無法解決的。 所以,不用擔心。 沒有人能夠達到那麼高的準確性。 你應該專註於你所擁有的。

與大多數創始人一樣,您沒有資金或資源來自行微調並向數十萬用戶提供微調後的模型。

但我虔誠地相信一件事(同樣是因為同樣的財務現實)。

我相信未來不在於 1 萬億個參數,而在於開源 7B 模型!

看看 Mistral 7B 或 Llama 2 7B! 但不要總是選擇最新模型。 因為新模型很可能經過專門訓練,在基準數據上表現最佳,但在現實生活中表現不佳。 Mistral 7B 在基準測試中比 Llama 13B 表現更好,但如果你問我哪個模型更好,我會簡單地告訴你在給出任何結論性意見之前先測試一下你的用例!

我不會責怪LLM模型創建的創始人。 有的VC認為雇9個媽媽1個月就可以生個孩子! 為了保持資金流動並在 1 個月而不是 9 個月內生出嬰兒,創始人將生產一些基準崩潰的糟糕模型。 甚至有一篇有趣的論文證明選擇性訓練數據可以優於每個模型! 謹防。

不管怎樣,我也給出了足夠多的例子,證明經過微調的 Llama 2 模型可以超越 GPT 4。所以,盡情測試並選擇最好的開源模型和 ROI!

最後,Huggingface CEO的一句話證明巨型AI模型的時代已經結束了!

你看,大公司在這方面都失敗了!

3、高度重視 RAG 和提示微調

我相信未來主要是 RAG,而不是微調。 同樣,因為同樣的財務現實!

GPT 3.5 微調已於上個月推出。 GPT 4 也將很快提供同樣的功能。 但我不相信他們實際上是根據你的數據進行微調。 在這種規模上這根本不可能。 他們可能正在使用一種稱為提示調整的技術。

我們可以通過及時調整來完成此任務。 一篇名為“P-Tuning:Prompt Tuning Can Comparable to Fine-tuning Across Scales and Tasks”的論文向我們展示了這一點。 我認為 OpenAI 並沒有分享他們的研究成果!

Finetune 或多或少與新的格式和響應風格有關。 微調意味著告訴 LLM 模型以某種方式行事或執行不同的任務,而不僅僅是成為一個多面手聊天機器人。

RAG 基本上是讓LLM了解您的新數據。 (即財務統計數據)

因此,我再次確信大規模微調不是未來。 RAG、很少的鏡頭提示、思想鏈提示和提示調整是未來的趨勢,因為它成本更低,復雜性也更低。 歷史一再告訴我們,簡單的想法總是獲勝! 再看看這個世界。 所有偉大的想法和生意都很簡單。

我們將看到 RAG 領域的徹底創新! 記住我的話! 這傢初創公司采用 RAG 的方式在開源模型中取得了糟糕的結果,這表明他們可以做得更好。

關於 RAG 的最後一句話:

  • 使用 RAG 進行實驗。 針對您的用例測試所有新穎的技術,例如 RAG Fusion。
  • 構建一個復雜的 RAG 系統,而不是一個簡單的系統。 Llama Index 方法很棒,但也可以構建適合您自己的方法。 每次都重新發明它。 這是一個藝術問題,而不是一個科學問題。
  • 將所有語義搜索和領域知識投入其中。拋開 RAG 不談,我在這裡展示了理解語義搜索問題的重要性。

我甚至看到一位資深創始人在咆哮,他告訴你,你隻需要RAG中的向量數據庫。 如果圖形數據庫和關鍵字搜索足夠結構化,有時可以產生更好的結果。 質疑現狀。

4、結束語

是的,您可以圍繞LLM建立可擴展且可行的業務。 大多數時候,都是大規模的。

GPT 4 是最好的,但它不可擴展或不可行。 因此,您正在嘗試猜測撰寫博客和數據透視的初創公司名稱! 這是 Llamar.ai。 博客在這裡:Llamar.ai:深入探討 RAG 與LLM的可行性

我的看法是——可行多於不可行。 我希望其他初創公司能夠通過構建可盈利且可擴展的人工智能產品來證明我是對的。


原文鏈接:大模型創業的3條軍規 - BimAnt