允中 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

在推薦、廣告場景,如何利用好大模型的能力?這是個很有挑戰(zhàn)的命題。

背后主要有兩個核心難點:

1)LLM雖然具備豐富的世界知識和推理能力,但缺乏電商領域的專業(yè)知識,在直接應用中往往表現(xiàn)欠佳。

2)LLM的交互方式多為文本,而直接將用戶歷史行為以文本格式描述會導致輸入信息冗長、信息密度低等問題,對建模和推理都造成了困擾。

為了解決以上問題,阿里媽媽提出了一種世界知識大模型URM,通過知識注入和信息對齊,讓LLM成為兼顧世界知識和電商知識的專家。相比于傳統(tǒng)的推薦模型,URM通過對用戶興趣的全面理解,可實現(xiàn)基于推理認知能力的用戶興趣推薦。

為了在低時延、高QPS要求的實際系統(tǒng)中上線應用,阿里媽媽技術團隊設計了一套面向用戶行為動態(tài)捕捉的異步推理鏈路。

目前,URM已經(jīng)在阿里媽媽展示廣告場景上線,在商家的投放效果和消費者的購物體驗等指標上均帶來了顯著提升。

以下面這個例子為例,一個對嵌入式家電、收納用品有過歷史行為的用戶,系統(tǒng)推測用戶在關注裝修且處于硬裝的早期階段,且根據(jù)點擊商品推斷用戶比較注重生活品質(zhì),因此推薦了一些全屋定制類產(chǎn)品以及高品質(zhì)的家電。

打開網(wǎng)易新聞 查看精彩圖片

在傳統(tǒng)推薦任務之外,通過特定的文字引導,URM可結合用戶的歷史興趣產(chǎn)出更適合當前情境的結果。通過用戶行為我們推測用戶是一位男童的母親,并且關注過兒童的新年衣服和女士牛仔褲。

當引導詞增加新年時,推薦結果以兒童新年服裝為主,而傳統(tǒng)任務下系統(tǒng)會傾向于推薦用戶近期瀏覽較多的女式牛仔褲。

打開網(wǎng)易新聞 查看精彩圖片

本屆互聯(lián)網(wǎng)技術領域國際頂級學術會議-國際萬維網(wǎng)大會(International World Wide Web Conference,簡稱WWW)于4月28日在悉尼召開。

會議期間,淘天集團的阿里媽媽共同主持一個計算廣告算法技術相關的Tutorial(講座),內(nèi)容為介紹計算廣告領域的技術發(fā)展脈絡,以及阿里媽媽在該領域的最新技術突破——

阿里媽媽LMA2廣告大模型系列中的URM(Universal Recommendation Model)世界知識大模型,首次重磅亮相。

世界知識大模型URM

個性化推薦在人們的日常生活中出現(xiàn)頻率越來越高。為了滿足用戶的多樣化需求,推薦系統(tǒng)中的任務定義也更加多元化,如多場景推薦、多目標推薦、發(fā)現(xiàn)性推薦等等。

參考LLM在自然語言處理領域的巨大成功,阿里媽媽技術團隊希望基于LLM構建電商領域的世界知識大模型,使得它能同時具備LLM的世界知識和電商領域的專業(yè)知識,且能夠輕松應對上述全部任務。

基于此,阿里媽媽技術團隊提出了世界知識大模型Universal Recommendation Model(以下稱URM),以預訓練的LLM為基座,將多任務設計融入Prompt設計中,通過ID表征的知識注入和電商領域的任務對齊,實現(xiàn)對用戶歷史興趣的理解和推理并最終推薦出符合用戶興趣的結果。

以下將從任務定義、整體架構、離線實驗三方面詳細展開。

任務定義

參考LLM的訓練范式,在URM中,阿里媽媽技術團隊利用文本來定義不同的推薦任務。

考慮到推薦場景用戶行為的重要性和豐富性,為了充分刻畫用戶的歷史行為,避免商品標題的冗長和低密度,URM將商品ID作為一種特殊的token注入文本描述,實現(xiàn)用戶行為序列的高效表達。

考慮到工業(yè)場景落地的效率,URM直接生成商品ID,同時在輸出結果中保留了文本,在對齊電商任務的同時保留LLM本身的知識。

打開網(wǎng)易新聞 查看精彩圖片

多任務會通過輸入中的任務描述體現(xiàn),部分示例參考下表。

打開網(wǎng)易新聞 查看精彩圖片

整體架構

為了保留LLM的預訓練知識,阿里媽媽技術團隊保留多層Transformer結構不變,對輸入層和輸出層的結構進行修改,如下圖所示。

輸入端,輸入序列由用戶行為中的商品ID、任務提示中的文本token以及[UM]、[LM]等特定查詢符組成。商品ID通過分布式商品Embedding模塊映射為商品Embedding,其他文本映射為Token Embedding,商品 Embedding或Token Embedding與Postion Embedding相加后輸入到 LLM的主干網(wǎng)絡(對于使用RoPE的模型而言則不存在顯式的Position Embedding)。

輸出端,為了避免產(chǎn)出推薦結果和推理文本相互干擾,阿里媽媽技術團隊在輸入中增加了[UM]和[LM] 2種特殊字符來表示當前應該輸出用戶表征還是開始生成文本。與[UM]符號對應的輸出通過用戶建模頭hUM映射到用戶表示空間,用于候選商品的生成;與[LM]符號及其后續(xù)符號對應的輸出通過語言模型頭hLM映射到文本空間,用于文本token的生成。

打開網(wǎng)易新聞 查看精彩圖片

△URM整體架構

URM架構區(qū)別于傳統(tǒng)LLM主要有2個模塊,1是商品多模態(tài)融合的表征方式,2是兼顧效果和效率的Sequence-In-Set-Out生成方式。

以下會分別介紹這兩部分。最后介紹URM的訓練方式。

商品多模態(tài)融合表征。

在傳統(tǒng)推薦模型中,ID表征是面向特定任務的數(shù)據(jù)分布學習的,代表了商品間的相似關系,壓縮了電商領域的協(xié)同信息。而LLM中通常采用文本、圖像等語義表征,描述內(nèi)容信息間的相似性。

為了提升LLM對電商信號的理解,同時保留LLM的知識,表征層設計了 ID表征和語義表征的融合模塊來表達商品,并通過可學習MLP層實現(xiàn)ID 表征和文本、圖像等語義表征的對齊。

同時,這套融合表征的設計具備較強的可擴展性,如語義ID等token均可作為新增模態(tài)引入,來不斷強化商品的表達能力。

打開網(wǎng)易新聞 查看精彩圖片

△商品融合表征,輸入ID/Text/Image表征固定,MLP層可學習

Seqence-In-Set-Out生成方式

推薦的目標是從一個千萬級別的候選庫中找到曝光/點擊概率最大的K個商品,它和語言模型LM從十萬規(guī)模的詞表空間中生成語言概率最大的 Token,是類似的問題。

因此若不考慮計算成本,可以通過下述方式獲得結果:

打開網(wǎng)易新聞 查看精彩圖片

其中U是大語言模型生成的用戶表征,對應LM中的隱藏層特征,W是所有商品的融合表征,對應LLM中的最后一層的參數(shù)??紤]到工業(yè)界的落地可行性,阿里媽媽技術團隊使用生成的用戶表征和候選商品表征的內(nèi)積作為分數(shù)并采樣分數(shù)TopK的商品作為最終生成的結果。

在這種內(nèi)積計算的范式下,模型的表達能力相對受限,對用戶和商品的建模能力較差且推薦集合的多樣性也會較差,難以發(fā)揮大語言模型的優(yōu)勢。函數(shù)逼近理論的一個結論是,特征的多個內(nèi)積的線性組合可以逼近任意復雜的函數(shù)。因此通過增加[UM]token的數(shù)量使URM在一次前向過程中并行生成多個用戶表征U=(U1,……,UH),最終用戶和商品之間的打分為

打開網(wǎng)易新聞 查看精彩圖片

這種Set-Out的多輸出方式不僅能夠保持僅需一次前向計算的相同推理效率,而且隨token數(shù)上漲召回指標顯著提升,同時解決了單一用戶表征興趣覆蓋度有限的問題。

打開網(wǎng)易新聞 查看精彩圖片

△不同[UM] Token輸出的可視化

訓練方式

整體訓練損失包括商品推薦任務損失和文本生成任務損失。

輸出序列表示為

打開網(wǎng)易新聞 查看精彩圖片

目標文本表示為

打開網(wǎng)易新聞 查看精彩圖片

目標商品表示為

打開網(wǎng)易新聞 查看精彩圖片

商品推薦任務通過噪聲對比估計(NCE)損失來優(yōu)化:

打開網(wǎng)易新聞 查看精彩圖片

其中用戶建模頭hUM輸出的用戶表征:

打開網(wǎng)易新聞 查看精彩圖片

在每個批次中,負樣本N是從商品候選中基于其出現(xiàn)頻率采樣得到的。

文本生成任務可以通過目標文本序列的負對數(shù)似然來優(yōu)化:

打開網(wǎng)易新聞 查看精彩圖片

其中P= softmax(hLM(ψ(?))是由語言模型頭hLM輸出的概率。

最終的訓練目標是:

打開網(wǎng)易新聞 查看精彩圖片

其中η是權衡超參數(shù)。考慮到URM對LLM的輸入和輸出層進行了顯著修改,阿里媽媽技術團隊采用完整參數(shù)的有監(jiān)督微調(diào)(SFT),僅凍結商品的原始表征。

離線實驗

URM使用多任務融合數(shù)據(jù)集訓練,并在生產(chǎn)數(shù)據(jù)集上取得了平均11.0%的Recall提升,在6個子任務(共9個任務)中都超越了線上使用 Target-Attention結構的傳統(tǒng)推薦模型。

打開網(wǎng)易新聞 查看精彩圖片

△URM在多任務上的表現(xiàn) vs 傳統(tǒng)模型

進一步的消融實驗,驗證了表征融合模塊的有效性,也驗證了隨UM token數(shù)量上漲召回Recall呈顯著上漲。Figure6驗證了URM仍具有良好的文本理解能力和泛化能力,對已知的query文本和未知的query都有良好的推薦表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

△商品多模態(tài)表征融合模塊消融實驗

打開網(wǎng)易新聞 查看精彩圖片

△UM頭輸出數(shù)量對效果的影響

打開網(wǎng)易新聞 查看精彩圖片

高QPS低時延約束下的落地方案

考慮到LLM的推理時延較長,無法滿足在線請求的時延約束,阿里媽媽技術團隊建設了一套異步推理的大模型召回鏈路。

如下圖所示,在用戶有淘系行為時異步觸發(fā)URM推理,并將結果做持久化存儲,供在線召回階段讀取使用。

打開網(wǎng)易新聞 查看精彩圖片

在模型推理服務上,由于URM在商品多模態(tài)融合表征模塊和User表征檢索方式的改造,需要在LLM推理中增加HashTable支持,并支持推理表征的向量檢索。

為了進一步提升資源利用率,阿里媽媽技術團隊實現(xiàn)了多instance在同一容器的部署,將URM推理的并發(fā)qps提升200%。

結語

本文主要介紹了阿里媽媽LMA 2廣告大模型系列中的世界知識大模型URM在建模和落地方面的思考和進展。通過結合大模型的通用知識和電商領域的專家知識,URM能夠更加精準地預測用戶的潛在興趣和購物需求,為商家和消費者提供更優(yōu)質(zhì)的服務。

更多URM的細節(jié)歡迎關注后續(xù)“阿里媽媽技術”的公眾號文章或參考論文。

論文鏈接:
https://arxiv.org/pdf/2502.03041