允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

在推薦、廣告場(chǎng)景,如何利用好大模型的能力?這是個(gè)很有挑戰(zhàn)的命題。

背后主要有兩個(gè)核心難點(diǎn):

1)LLM雖然具備豐富的世界知識(shí)和推理能力,但缺乏電商領(lǐng)域的專業(yè)知識(shí),在直接應(yīng)用中往往表現(xiàn)欠佳。

2)LLM的交互方式多為文本,而直接將用戶歷史行為以文本格式描述會(huì)導(dǎo)致輸入信息冗長(zhǎng)、信息密度低等問題,對(duì)建模和推理都造成了困擾。

為了解決以上問題,阿里媽媽提出了一種世界知識(shí)大模型URM,通過知識(shí)注入和信息對(duì)齊,讓LLM成為兼顧世界知識(shí)和電商知識(shí)的專家。相比于傳統(tǒng)的推薦模型,URM通過對(duì)用戶興趣的全面理解,可實(shí)現(xiàn)基于推理認(rèn)知能力的用戶興趣推薦。

為了在低時(shí)延、高QPS要求的實(shí)際系統(tǒng)中上線應(yīng)用,阿里媽媽技術(shù)團(tuán)隊(duì)設(shè)計(jì)了一套面向用戶行為動(dòng)態(tài)捕捉的異步推理鏈路。

目前,URM已經(jīng)在阿里媽媽展示廣告場(chǎng)景上線,在商家的投放效果和消費(fèi)者的購(gòu)物體驗(yàn)等指標(biāo)上均帶來了顯著提升。

以下面這個(gè)例子為例,一個(gè)對(duì)嵌入式家電、收納用品有過歷史行為的用戶,系統(tǒng)推測(cè)用戶在關(guān)注裝修且處于硬裝的早期階段,且根據(jù)點(diǎn)擊商品推斷用戶比較注重生活品質(zhì),因此推薦了一些全屋定制類產(chǎn)品以及高品質(zhì)的家電。

打開網(wǎng)易新聞 查看精彩圖片

在傳統(tǒng)推薦任務(wù)之外,通過特定的文字引導(dǎo),URM可結(jié)合用戶的歷史興趣產(chǎn)出更適合當(dāng)前情境的結(jié)果。通過用戶行為我們推測(cè)用戶是一位男童的母親,并且關(guān)注過兒童的新年衣服和女士牛仔褲。

當(dāng)引導(dǎo)詞增加新年時(shí),推薦結(jié)果以兒童新年服裝為主,而傳統(tǒng)任務(wù)下系統(tǒng)會(huì)傾向于推薦用戶近期瀏覽較多的女式牛仔褲。

打開網(wǎng)易新聞 查看精彩圖片

本屆互聯(lián)網(wǎng)技術(shù)領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議-國(guó)際萬維網(wǎng)大會(huì)(International World Wide Web Conference,簡(jiǎn)稱WWW)于4月28日在悉尼召開。

會(huì)議期間,淘天集團(tuán)的阿里媽媽共同主持一個(gè)計(jì)算廣告算法技術(shù)相關(guān)的Tutorial(講座),內(nèi)容為介紹計(jì)算廣告領(lǐng)域的技術(shù)發(fā)展脈絡(luò),以及阿里媽媽在該領(lǐng)域的最新技術(shù)突破——

阿里媽媽LMA2廣告大模型系列中的URM(Universal Recommendation Model)世界知識(shí)大模型,首次重磅亮相。

世界知識(shí)大模型URM

個(gè)性化推薦在人們的日常生活中出現(xiàn)頻率越來越高。為了滿足用戶的多樣化需求,推薦系統(tǒng)中的任務(wù)定義也更加多元化,如多場(chǎng)景推薦、多目標(biāo)推薦、發(fā)現(xiàn)性推薦等等。

參考LLM在自然語言處理領(lǐng)域的巨大成功,阿里媽媽技術(shù)團(tuán)隊(duì)希望基于LLM構(gòu)建電商領(lǐng)域的世界知識(shí)大模型,使得它能同時(shí)具備LLM的世界知識(shí)和電商領(lǐng)域的專業(yè)知識(shí),且能夠輕松應(yīng)對(duì)上述全部任務(wù)。

基于此,阿里媽媽技術(shù)團(tuán)隊(duì)提出了世界知識(shí)大模型Universal Recommendation Model(以下稱URM),以預(yù)訓(xùn)練的LLM為基座,將多任務(wù)設(shè)計(jì)融入Prompt設(shè)計(jì)中,通過ID表征的知識(shí)注入和電商領(lǐng)域的任務(wù)對(duì)齊,實(shí)現(xiàn)對(duì)用戶歷史興趣的理解和推理并最終推薦出符合用戶興趣的結(jié)果。

以下將從任務(wù)定義、整體架構(gòu)、離線實(shí)驗(yàn)三方面詳細(xì)展開。

任務(wù)定義

參考LLM的訓(xùn)練范式,在URM中,阿里媽媽技術(shù)團(tuán)隊(duì)利用文本來定義不同的推薦任務(wù)。

考慮到推薦場(chǎng)景用戶行為的重要性和豐富性,為了充分刻畫用戶的歷史行為,避免商品標(biāo)題的冗長(zhǎng)和低密度,URM將商品ID作為一種特殊的token注入文本描述,實(shí)現(xiàn)用戶行為序列的高效表達(dá)。

考慮到工業(yè)場(chǎng)景落地的效率,URM直接生成商品ID,同時(shí)在輸出結(jié)果中保留了文本,在對(duì)齊電商任務(wù)的同時(shí)保留LLM本身的知識(shí)。

打開網(wǎng)易新聞 查看精彩圖片

多任務(wù)會(huì)通過輸入中的任務(wù)描述體現(xiàn),部分示例參考下表。

打開網(wǎng)易新聞 查看精彩圖片

整體架構(gòu)

為了保留LLM的預(yù)訓(xùn)練知識(shí),阿里媽媽技術(shù)團(tuán)隊(duì)保留多層Transformer結(jié)構(gòu)不變,對(duì)輸入層和輸出層的結(jié)構(gòu)進(jìn)行修改,如下圖所示。

輸入端,輸入序列由用戶行為中的商品ID、任務(wù)提示中的文本token以及[UM]、[LM]等特定查詢符組成。商品ID通過分布式商品Embedding模塊映射為商品Embedding,其他文本映射為Token Embedding,商品 Embedding或Token Embedding與Postion Embedding相加后輸入到 LLM的主干網(wǎng)絡(luò)(對(duì)于使用RoPE的模型而言則不存在顯式的Position Embedding)。

輸出端,為了避免產(chǎn)出推薦結(jié)果和推理文本相互干擾,阿里媽媽技術(shù)團(tuán)隊(duì)在輸入中增加了[UM]和[LM] 2種特殊字符來表示當(dāng)前應(yīng)該輸出用戶表征還是開始生成文本。與[UM]符號(hào)對(duì)應(yīng)的輸出通過用戶建模頭hUM映射到用戶表示空間,用于候選商品的生成;與[LM]符號(hào)及其后續(xù)符號(hào)對(duì)應(yīng)的輸出通過語言模型頭hLM映射到文本空間,用于文本token的生成。

打開網(wǎng)易新聞 查看精彩圖片

△URM整體架構(gòu)

URM架構(gòu)區(qū)別于傳統(tǒng)LLM主要有2個(gè)模塊,1是商品多模態(tài)融合的表征方式,2是兼顧效果和效率的Sequence-In-Set-Out生成方式。

以下會(huì)分別介紹這兩部分。最后介紹URM的訓(xùn)練方式。

商品多模態(tài)融合表征。

在傳統(tǒng)推薦模型中,ID表征是面向特定任務(wù)的數(shù)據(jù)分布學(xué)習(xí)的,代表了商品間的相似關(guān)系,壓縮了電商領(lǐng)域的協(xié)同信息。而LLM中通常采用文本、圖像等語義表征,描述內(nèi)容信息間的相似性。

為了提升LLM對(duì)電商信號(hào)的理解,同時(shí)保留LLM的知識(shí),表征層設(shè)計(jì)了 ID表征和語義表征的融合模塊來表達(dá)商品,并通過可學(xué)習(xí)MLP層實(shí)現(xiàn)ID 表征和文本、圖像等語義表征的對(duì)齊。

同時(shí),這套融合表征的設(shè)計(jì)具備較強(qiáng)的可擴(kuò)展性,如語義ID等token均可作為新增模態(tài)引入,來不斷強(qiáng)化商品的表達(dá)能力。

打開網(wǎng)易新聞 查看精彩圖片

△商品融合表征,輸入ID/Text/Image表征固定,MLP層可學(xué)習(xí)

Seqence-In-Set-Out生成方式

推薦的目標(biāo)是從一個(gè)千萬級(jí)別的候選庫中找到曝光/點(diǎn)擊概率最大的K個(gè)商品,它和語言模型LM從十萬規(guī)模的詞表空間中生成語言概率最大的 Token,是類似的問題。

因此若不考慮計(jì)算成本,可以通過下述方式獲得結(jié)果:

打開網(wǎng)易新聞 查看精彩圖片

其中U是大語言模型生成的用戶表征,對(duì)應(yīng)LM中的隱藏層特征,W是所有商品的融合表征,對(duì)應(yīng)LLM中的最后一層的參數(shù)??紤]到工業(yè)界的落地可行性,阿里媽媽技術(shù)團(tuán)隊(duì)使用生成的用戶表征和候選商品表征的內(nèi)積作為分?jǐn)?shù)并采樣分?jǐn)?shù)TopK的商品作為最終生成的結(jié)果。

在這種內(nèi)積計(jì)算的范式下,模型的表達(dá)能力相對(duì)受限,對(duì)用戶和商品的建模能力較差且推薦集合的多樣性也會(huì)較差,難以發(fā)揮大語言模型的優(yōu)勢(shì)。函數(shù)逼近理論的一個(gè)結(jié)論是,特征的多個(gè)內(nèi)積的線性組合可以逼近任意復(fù)雜的函數(shù)。因此通過增加[UM]token的數(shù)量使URM在一次前向過程中并行生成多個(gè)用戶表征U=(U1,……,UH),最終用戶和商品之間的打分為

打開網(wǎng)易新聞 查看精彩圖片

這種Set-Out的多輸出方式不僅能夠保持僅需一次前向計(jì)算的相同推理效率,而且隨token數(shù)上漲召回指標(biāo)顯著提升,同時(shí)解決了單一用戶表征興趣覆蓋度有限的問題。

打開網(wǎng)易新聞 查看精彩圖片

△不同[UM] Token輸出的可視化

訓(xùn)練方式

整體訓(xùn)練損失包括商品推薦任務(wù)損失和文本生成任務(wù)損失。

輸出序列表示為

打開網(wǎng)易新聞 查看精彩圖片

目標(biāo)文本表示為

打開網(wǎng)易新聞 查看精彩圖片

目標(biāo)商品表示為

打開網(wǎng)易新聞 查看精彩圖片

商品推薦任務(wù)通過噪聲對(duì)比估計(jì)(NCE)損失來優(yōu)化:

打開網(wǎng)易新聞 查看精彩圖片

其中用戶建模頭hUM輸出的用戶表征:

打開網(wǎng)易新聞 查看精彩圖片

在每個(gè)批次中,負(fù)樣本N是從商品候選中基于其出現(xiàn)頻率采樣得到的。

文本生成任務(wù)可以通過目標(biāo)文本序列的負(fù)對(duì)數(shù)似然來優(yōu)化:

打開網(wǎng)易新聞 查看精彩圖片

其中P= softmax(hLM(ψ(?))是由語言模型頭hLM輸出的概率。

最終的訓(xùn)練目標(biāo)是:

打開網(wǎng)易新聞 查看精彩圖片

其中η是權(quán)衡超參數(shù)??紤]到URM對(duì)LLM的輸入和輸出層進(jìn)行了顯著修改,阿里媽媽技術(shù)團(tuán)隊(duì)采用完整參數(shù)的有監(jiān)督微調(diào)(SFT),僅凍結(jié)商品的原始表征。

離線實(shí)驗(yàn)

URM使用多任務(wù)融合數(shù)據(jù)集訓(xùn)練,并在生產(chǎn)數(shù)據(jù)集上取得了平均11.0%的Recall提升,在6個(gè)子任務(wù)(共9個(gè)任務(wù))中都超越了線上使用 Target-Attention結(jié)構(gòu)的傳統(tǒng)推薦模型。

打開網(wǎng)易新聞 查看精彩圖片

△URM在多任務(wù)上的表現(xiàn) vs 傳統(tǒng)模型

進(jìn)一步的消融實(shí)驗(yàn),驗(yàn)證了表征融合模塊的有效性,也驗(yàn)證了隨UM token數(shù)量上漲召回Recall呈顯著上漲。Figure6驗(yàn)證了URM仍具有良好的文本理解能力和泛化能力,對(duì)已知的query文本和未知的query都有良好的推薦表現(xiàn)。

打開網(wǎng)易新聞 查看精彩圖片

△商品多模態(tài)表征融合模塊消融實(shí)驗(yàn)

打開網(wǎng)易新聞 查看精彩圖片

△UM頭輸出數(shù)量對(duì)效果的影響

打開網(wǎng)易新聞 查看精彩圖片

高QPS低時(shí)延約束下的落地方案

考慮到LLM的推理時(shí)延較長(zhǎng),無法滿足在線請(qǐng)求的時(shí)延約束,阿里媽媽技術(shù)團(tuán)隊(duì)建設(shè)了一套異步推理的大模型召回鏈路。

如下圖所示,在用戶有淘系行為時(shí)異步觸發(fā)URM推理,并將結(jié)果做持久化存儲(chǔ),供在線召回階段讀取使用。

打開網(wǎng)易新聞 查看精彩圖片

在模型推理服務(wù)上,由于URM在商品多模態(tài)融合表征模塊和User表征檢索方式的改造,需要在LLM推理中增加HashTable支持,并支持推理表征的向量檢索。

為了進(jìn)一步提升資源利用率,阿里媽媽技術(shù)團(tuán)隊(duì)實(shí)現(xiàn)了多instance在同一容器的部署,將URM推理的并發(fā)qps提升200%。

結(jié)語

本文主要介紹了阿里媽媽LMA 2廣告大模型系列中的世界知識(shí)大模型URM在建模和落地方面的思考和進(jìn)展。通過結(jié)合大模型的通用知識(shí)和電商領(lǐng)域的專家知識(shí),URM能夠更加精準(zhǔn)地預(yù)測(cè)用戶的潛在興趣和購(gòu)物需求,為商家和消費(fèi)者提供更優(yōu)質(zhì)的服務(wù)。

更多URM的細(xì)節(jié)歡迎關(guān)注后續(xù)“阿里媽媽技術(shù)”的公眾號(hào)文章或參考論文。

論文鏈接:
https://arxiv.org/pdf/2502.03041