OpenAI推出兩款文本文檔嵌入系統，縮短嵌入式網絡規模以提升效率

日前，知名人工智能公司OpenAI推出五款全新模型，涵蓋兩項重要的文本文檔嵌入系統——text-embedding-3-small與text-embedding-3-large。眾所周知，嵌入式方法旨在為自然語言、代碼等處的概念構建數字化的表示。這些技術使得機器學習模型及其它算法能更精準地理解各類消息之間的關系，並有效進行各類任務如聚類、搜索等。

然而，較大的嵌入式網絡需要高等資耗、具備較強的計算能力、內存空間以及存儲空間。此次發佈的兩款文本文檔嵌入系統，采用了更為精簡的方案，既提升效率又降低資源需求。其中，text-embedding-3-small模型的表現尤為出色。相比之下，大型網絡text-embedding-3-large雖然體積更大，但也更具實力。

值得一提的是，這兩款新嵌入模型均采用同一項技術進行訓練，為開發者提供了衡量嵌入式網絡性能與資源利用的途徑。具體而言，開發者可通過調整dimensions API參數來減小嵌入式網絡的規模，避免因部分數據喪失了原有的概念表述特征而導致的過擬合。以MTEB基準測試為例，盡管text-embedding-3-large模型的維度已經由3072縮減至256，其性能仍超越體積較大（維度為1536）的text-embedding-ada-002模型。

此外，這項突破性的技術具有極大的靈活性。若數據存儲器僅支持最高1024維嵌入式結構的情況下，開發者依然可以選擇運用最優秀的嵌入式網絡text-embedding-3-large，並將vertices API參數設定為1024，以此實現對嵌入式維度的從3072到1024的收縮。不過，這樣做的代價可能是損失部分精確度，以換取更小的網絡規模。

目前，OpenAI這種創新性的“縮短嵌入”方式已引發廣泛關註。據了解，這種方式與今年5月份發表的論文中的“馬褂式表示學習”理論具有異曲同工之處。

隱藏在OpenAI最新模型背後的主導人正是Aditya Kusupati及其團隊。他們利用名為“註意力可分離卷積任務嵌入空間”（MRL）的新興技術進行了相關研究。而作為馬褂式表示學習（MRL）的開創者，Kusupati表示期待其餘模型和服務能夠迅速跟進OpenAI的步伐。