相似商品推薦的多相關性排序模型-譯文-來自-eBay

2024年2月6日 18点热度 0人点赞

買傢在瀏覽我們的頁面時會表現出一系列的行為和興趣,因此我們決定將這些額外的購買意圖信號納入我們的機器學習模型中,以提高我們推薦商品的相關性。

促銷列表標準 (PLS) 幫助賣傢的商品在 eBay 上數十億的列表中脫穎而出。eBay 提供了多種顯示 PLS 列表的方法。一種方法是將這些項目放在搜索結果頁面上的較高排名,並帶有“贊助”徽章;另一種方式是由我們的 PLS 項目推薦引擎在“查看項目”頁面上推薦的。此類 PLS 商品的高表面費率會讓賣傢支付額外的廣告費。這有助於增加銷售的可能性,同時保持對賣傢友好,因為賣傢隻需在銷售商品時付費。

本文重點關註 PLS 商品的後一種表面方式,即推薦引擎,幫助用戶與我們的 PLS 內容互動,並幫助我們在獨特的廣闊且多樣化的市場中以最佳方式展示商品。其中一項建議是推薦類似的贊助商品,這被稱為Promoted Listing SIM(即PLSIM 1)。PLSIM 的典型用戶旅程包括以下步驟:

  1. 用戶搜索一個項目。
  2. 單擊搜索結果頁面中的結果,登陸到列出的項目的查看項目 (VI) 頁面,我們將其稱為種子項目。
  3. 向下滾動 VI 頁面,可看到 PLSIM 中的推薦項目。
  4. 隨後點擊商品推薦並到達新的 VI 頁面,查看主要列表詳細信息,以便采取行動(觀看、添加到購物車、立即購買等)或查看另一組新的推薦商品。

反過來,從機器學習的角度來看,我們的 PLSIM 引擎2分為三個階段:

  1. 它檢索與種子項目最相關的候選促銷列表標準的子集(“召回集”)。
  2. 應用訓練有素的機器學習排名器根據購買的可能性對召回集中的列表進行排名。
  3. 通過合並賣傢廣告費率對列表進行重新排名,以平衡通過促銷3實現的賣傢速度與推薦的相關性。

本文詳細討論並重點討論 PLSIM 引擎第二階段(機器學習排序器)中標簽生成過程的增強功能,我們發現這對模型性能(例如購買)有很大幫助。

排名模型

我們的排名模型是根據歷史數據進行離線訓練的。排名模型的特征往往基於以下類型的數據:

  • 推薦商品歷史數據
  • 推薦項目與種子項目的相似度
  • 背景(國傢、產品類別)
  • 用戶個性化功能

當我們創新新功能時,我們迭代地訓練模型的版本。我們使用梯度提升樹,對於給定的種子項目,它根據項目的相對購買概率對項目進行排名。

從二元反饋到多相關反饋

促銷列表標準產品是一種 CPA(每次收購成本)產品,在這種情況下,收購是指促銷商品的銷售。因此,我們的使命是幫助我們的賣傢將觀看次數轉化為銷量。因此,過去的模型主要關註優化購買概率並依賴於二進制購買數據。如果歷史數據中的推薦項目是與給定的種子項目一起購買的,則該項目將被視為“相關”;如果未購買,則該推薦項目將被視為“不相關”。

盡管二元購買標簽方法被證明是成功的第一步,但我們仍然看到了重大的改進機會。首先,用戶傾向於隻購買給定推薦商品列表中的一件商品,但其他商品仍然可能是不錯的推薦;這種情況相當於標簽中的漏報。其次,與點擊等其他用戶操作相比,購買是極其罕見的事件,盡管有過采樣技術,但訓練一個具有足夠購買量和多樣性的模型來預測正類總是很困難。最後,用戶在瀏覽我們的頁面時會表現出一系列的行為和興趣。例如,點擊表達的購買意願相對較弱,因為用戶可以簡單地瀏覽網站並進行比較。盡管如此,至少與非點擊的替代方案相比,點擊仍然會顯示一些有關相關性的信息。除了點擊之外,各種用戶操作也可能捕獲轉化意圖,例如當用戶在VI頁面上對某種格式的推薦項執行以下操作之一時:

  • 立即購買(僅適用於(立即購買)BIN 清單4)
  • 添加到購物車(僅適用於 BIN 列表)
  • 提出報價(僅適用於最佳報價列表)
  • 出價5(僅適用於拍賣清單)
  • 添加到關註列表(適用於 BIN、最佳報價或拍賣列表)

以下是不同列表格式的按鈕選項的一些 UI 示例,如下所示。

我們決定通過將這些額外的購買意圖信號按照相關性進行調整,將其納入其中,其中購買被認為是模型訓練中最相關的標簽。

多相關反饋的相關級別

一旦我們理解用戶行為應該被編碼為標簽,問題就變成了:如果購買的商品被認為是最相關的,那麼其他形式的用戶參與的相關性如何比較?

導致購買 PLSIM 推薦商品的用戶旅程必須從選擇(換句話說,點擊)推薦商品開始,然後引導至推薦商品的 VI 頁面,其中執行一個或多個操作按鈕是否適用取決於列表格式。因此,自然地,缺乏選擇是導致購買的最不相關的行動,選擇是與購買第二不相關的行動,其餘可能的行動——“出價”、“立即購買”、 “添加到關註列表”和“添加到購物車”——與購買更相關。

我們確定,對“報價”、“立即購買”、“添加到觀察列表”和“添加到購物車”操作進行排名的最佳方式是根據該操作後購買的商品比例來進行排名,該比例是捕獲的在下面的獨立餅圖中:

因此,在歷史訓練數據中,對於種子項,每個潛在項都按以下比例標記為相關性級別:

標簽的結果是,在訓練期間,排名器對排名錯誤的購買的懲罰比對列表中排名錯誤的“立即購買”等的懲罰更嚴重。

多相關性反饋的樣本權重

還有一個額外的細微差別是成功離線表演的關鍵。盡管梯度增強樹支持多個標簽來捕獲一定范圍的相關性,但沒有直接的方法來實現相關性的大小。也就是說,我們知道“添加到監視列表”事件在預測購買意圖方面比點擊更相關,但對於經過精心調整的排名器,我們還需要了解它們的相關性有多大。

為了捕捉準確的比較相關性程度,我們在不同標簽上加入了額外的權重(稱為“樣本權重”),這些權重被輸入到成對損失函數中。我們優化了超參數調整工作,並運行了超過 25 次迭代來選擇最佳樣本權重,其中包括“添加到觀察列表”(6)、“添加到購物車”(15)、“提出報價”(38)、“立即購買” ”(8)和“購買”(15)。如果沒有在損失函數中應用樣本權重,新模型的表現比僅考慮購買的生產模型要差,但是通過調整權重,無論平臺如何(eBay 移動應用程序或網絡),新模型在離線評估中都顯示出相對改進,如下所示)。我們還嘗試僅添加點擊作為附加相關性反饋,並應用調整後的超參數“購買”樣本權重 150。離線結果也如下所示,其中“BOWC”代表“立即購買”、“報價”等操作“添加到監視列表”和“添加到購物車”。購買排名反映了所購買商品的平均排名。越小越好。

實驗和結果

總的來說,正如應用機器學習的情況一樣,成功是多輪訓練和實驗的結果。通過各種標記方案和超參數的實驗,總共訓練了 2000 多個模型實例。

A/B 測試分為兩個階段。在第一階段,新模型僅包含額外的選擇標簽,A/B 測試顯示 eBay 移動應用程序上的購買數量增加了 2.97%,廣告收入增加了 2.66%,並且由於其成功,已在全球范圍內投入生產。在第二階段,我們在模型中加入了更多操作,例如“添加到關註列表”、“添加到購物車”、“提供報價”和“立即購買”,並且 A/B 測試顯示出更好的參與度(例如更多點擊次數和 BOWC)。

A/B 測試結果驗證了將某些額外的購買意圖信號作為多相關性反饋納入模型中可以改善買傢購物體驗、平衡賣傢速度並推動更好的轉化。


1 PLSIM 顯示標準促銷列表和 Express 促銷列表。我們分別訓練每個產品的排名模型,並根據啟發式規則將它們混合。本文僅關註提高促銷列表標準排名。

2 優化半結構化市場中的類似商品推薦以最大化轉化:
https://dl.acm.org/doi/10.1145/2959100.2959166

3 eBay 的促銷列表標準是基於每次獲取成本 (CPA) 的,這意味著在發生轉化之前我們不會收取廣告費。廣告費由賣傢根據掛牌價格設定的廣告費率決定。

4 eBay 列表具有三種格式:立即購買 (BIN) 格式、拍賣格式和最佳報價格式。列表可以是單一格式,也可以是多種格式。

5 此處,由於數據收集問題,我們忽略了拍賣列表中的“出價”操作。

作者:Chen Xue, Rachel Vishnepolsky and Zhen Ge

出處
:https://innovation.ebayinc.com/tech/engineering/multi-relevance-ranking-model-for-similar-item-recommendation/