Meta AI 的研究人員提出了一種名為 LIGER 的新型 AI 模型,巧妙地結(jié)合密集檢索和生成檢索的優(yōu)勢,顯著提升了生成式推薦系統(tǒng)的性能。
LIGER 有效地解決了傳統(tǒng)推薦系統(tǒng)在計算資源、存儲需求和冷啟動項目處理上的難題,為構(gòu)建更高效、更精準的推薦系統(tǒng)提供了新的思路。
項目背景
想要把用戶與相關(guān)內(nèi)容、產(chǎn)品或服務聯(lián)系起來,推薦系統(tǒng)是其中重要一環(huán)。該領(lǐng)域的常規(guī)方法是密集檢索(Dense retrieval),利用序列建模來計算項目和用戶表示。
但這種方法由于要嵌入每個項目,因此需要大量的計算資源和存儲。隨著數(shù)據(jù)集的增長,這些要求變得越來越繁重,限制了它們的可擴展性。
而另一種新興的方法叫做生成檢索(Generative retrieval),通過生成模型預測項目索引來減少存儲需求,但該方式存在性能問題,在冷啟動項目(用戶交互有限的新項目)中表現(xiàn)尤為明顯。
項目介紹
Meta AI 公司聯(lián)合威斯康星大學麥迪遜分校、ELLIS Unit、LIT AI Lab、機器學習研究所、JKU Linz 等機構(gòu),混合密集檢索和生成檢索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。
該模型混合了生成檢索的計算效率和密集檢索的精度,利用生成檢索生成候選集、語義 ID 和文本屬性的項目表示,再通過密集檢索技術(shù)進行精練,平衡了效率和準確性。
LIGER 采用雙向 Transformer 編碼器和生成解碼器。密集檢索部分整合了項目文本表示、語義 ID 和位置嵌入,并使用余弦相似度損失進行優(yōu)化。生成部分使用波束搜索根據(jù)用戶交互歷史預測后續(xù)項目的語義 ID。
通過這種混合推理過程,LIGER 降低了計算需求,同時保持了推薦質(zhì)量。LIGER 還能很好地泛化到未見過的項目,解決了先前生成模型的關(guān)鍵限制。
LIGER 性能
在 Amazon Beauty、Sports、Toys 和 Steam 等基準數(shù)據(jù)集上的評估顯示,LIGER 的性能持續(xù)優(yōu)于 TIGER 和 UniSRec 等現(xiàn)有最先進模型。
例如,在 Amazon Beauty 數(shù)據(jù)集上,LIGER 對冷啟動項目的 Recall@10 得分為 0.1008,而 TIGER 為 0.0。在 Steam 數(shù)據(jù)集上,LIGER 的 Recall@10 達到了 0.0147,同樣優(yōu)于 TIGER 的 0.0。