
新智元報(bào)道
編輯:編輯部
【新智元導(dǎo)讀】LLM正推動(dòng)推薦系統(tǒng)革新,以用戶表征為「軟提示」的范式開辟了高效推薦新路徑。在此趨勢下,淘天團(tuán)隊(duì)發(fā)布了首個(gè)基于用戶表征的個(gè)性化問答基準(zhǔn)UQABench,系統(tǒng)評(píng)估了用戶表征的提示效能。
在「千人千面」的個(gè)性化服務(wù)浪潮中,大語言模型(LLM)憑借強(qiáng)大的語義理解與生成能力,正在重塑推薦系統(tǒng)與個(gè)性化問答的產(chǎn)業(yè)格局。
研究背景:當(dāng)推薦系統(tǒng)遇見大模型,如何突破效率與效果的雙重挑戰(zhàn)?
傳統(tǒng)方案通過將用戶點(diǎn)擊歷史轉(zhuǎn)化為文本提示注入LLM上下文,雖能提升相關(guān)性,卻面臨兩大硬傷:
效率瓶頸:單用戶行為序列動(dòng)輒數(shù)萬token,遠(yuǎn)超LLM上下文窗口限制,推理延遲與成本飆升;
噪聲干擾:冗余點(diǎn)擊、誤操作等噪聲易誤導(dǎo)模型,削弱個(gè)性化效果。
破局之道:將用戶行為序列壓縮為高密度的表征向量(user embeddings),以「軟提示」形式驅(qū)動(dòng)LLM生成精準(zhǔn)回復(fù)。
然而,這一路徑的核心爭議在于——用戶表征能否真正承載關(guān)鍵信息并有效引導(dǎo)LLM?UQABench應(yīng)運(yùn)而生,成為首個(gè)系統(tǒng)化評(píng)估用戶表征質(zhì)量的權(quán)威基準(zhǔn)。
核心創(chuàng)新:三階評(píng)估體系 + 三維任務(wù)設(shè)計(jì),直擊產(chǎn)業(yè)痛點(diǎn)
1. 標(biāo)準(zhǔn)化評(píng)估流程:從預(yù)訓(xùn)練到場景化對齊
預(yù)訓(xùn)練:基于海量行為數(shù)據(jù)訓(xùn)練用戶編碼器(如SASRec、HSTU),捕獲興趣模式;
對齊微調(diào):通過輕量Adapter(線性映射/Q-Former)橋接推薦空間與LLM語義空間,破解「表征-語義」鴻溝;
場景化評(píng)估:設(shè)計(jì)多粒度任務(wù)驗(yàn)證用戶表征的實(shí)用價(jià)值 。
2. 三維任務(wù)體系:覆蓋傳統(tǒng)需求與LLM新愿景

重磅發(fā)現(xiàn):用戶表征的效能密碼與工業(yè)啟示
模型架構(gòu):Transformer類模型(如HSTU)顯著優(yōu)于RNN類模型(如GRU4Rec,Mamba),序列建模能力更適配LLM需求;
信息融合:商品側(cè)ID特征(類目/品牌)與文本描述(標(biāo)題)聯(lián)合編碼,可提升LLM對用戶興趣的解讀精度;
效率革命:最優(yōu)表征模型效果逼近純文本方案,推理token數(shù)減少90%+,成本效益比突破性提升;
擴(kuò)展定律:編碼器參數(shù)量從3M增至1.2B,LLM個(gè)性化性能持續(xù)提升,為「離線訓(xùn)練強(qiáng)化+在線高效推理」提供理論支撐 。

論文鏈接:https://arxiv.org/abs/2502.19178
代碼庫倉庫:https://github.com/OpenStellarTeam/UQABench
數(shù)據(jù)集下載:https://www.kaggle.com/datasets/liulangmingliu/uqabench
接下來,我們來詳細(xì)介紹論文的內(nèi)容。
論文詳解
研究背景
大語言模型(LLM)近年來在推薦系統(tǒng)和個(gè)性化問答中被廣泛應(yīng)用。為了追求更加個(gè)性化的用戶體驗(yàn),實(shí)現(xiàn)「千人千面」,將用戶的歷史點(diǎn)擊序列融入LLM的輸入中變得至關(guān)重要。最常見結(jié)合的方式是,將用戶點(diǎn)擊歷史,利用特定的規(guī)則轉(zhuǎn)化為自然語言文本,作為LLM的用戶背景提示(context)。
然而,從工業(yè)應(yīng)用的角度來看,噪聲以及超長序列帶來的性能和開銷問題,對直接將序列文本用作用戶context提出了挑戰(zhàn)。一種自然的解決方案是,將用戶交互歷史壓縮和提煉為表征向量(或向量組),作為軟提示(soft prompt)輔助LLM生成個(gè)性化的回復(fù)。

雖然這種方法提高了效率,但一個(gè)關(guān)鍵問題隨之而來:用戶嵌入能否充分捕獲用戶交互歷史中有價(jià)值的信息并提示LLM?為了解決這一問題,研究人員提出了UQABench,一個(gè)專為評(píng)估用戶嵌入在提示LLM進(jìn)行個(gè)性化時(shí)的有效性而設(shè)計(jì)的基準(zhǔn)。研究人員建立了一個(gè)公平和標(biāo)準(zhǔn)化的評(píng)估流程,涵蓋了預(yù)訓(xùn)練、微調(diào)和評(píng)估階段。
為了全面評(píng)估用戶嵌入,研究人員設(shè)計(jì)了三種維度的任務(wù):序列理解、動(dòng)作預(yù)測和興趣感知。這些評(píng)估任務(wù)覆蓋了傳統(tǒng)推薦任務(wù)中提高召回/排序指標(biāo)等行業(yè)需求,以及基于LLM方法的愿景,如準(zhǔn)確理解用戶興趣和提升用戶體驗(yàn)。
研究人員對用于建模用戶的多種經(jīng)典方法(如SASRec)和SOTA方法(如HSTU、Mamba4Rec)進(jìn)行了廣泛實(shí)驗(yàn)和評(píng)估。此外,研究人員揭示了利用用戶嵌入來提示LLM的scaling law。
相關(guān)工作
用戶歷史行為序列中提取的user embeddings作為個(gè)性化場景的核心特征載體,其應(yīng)用價(jià)值與演化前景已得到廣泛驗(yàn)證。
當(dāng)前研究趨勢表明,深度融合LLM的語義理解能力來增強(qiáng)用戶表征的語義泛化性,正成為提升embedding質(zhì)量的重要技術(shù)路徑。
研究人員在淘寶搜索廣告場景中創(chuàng)新性地構(gòu)建了基于大規(guī)模用戶模型(LUM)的三階段訓(xùn)練范式,實(shí)現(xiàn)了用戶意圖建模的顯著提升。該方法在線上實(shí)驗(yàn)中獲得CTR和RPM的顯著增益。
具體方法論與實(shí)驗(yàn)細(xì)節(jié)可參考原論文:「Unlocking Scaling Law in Industrial Recommendation Systems with a Three-step Paradigm based Large User Model」。

任務(wù)類型
UQABench由淘寶電商系統(tǒng)中18萬個(gè)用戶對100萬個(gè)商品的點(diǎn)擊的行為數(shù)據(jù)構(gòu)建而來,要求LLM基于給定用戶的表征向量,回答一個(gè)自然文本形式問題。問題類型有三大類共七個(gè)子任務(wù),用以評(píng)估推薦系統(tǒng)中最關(guān)鍵的幾類問題。
1. 序列理解:
分為直接特征理解和match類特征理解。前者要求模型回答用戶序列中一些顯而易見的特征,例如「用戶最近點(diǎn)擊的三個(gè)商品的品牌分別是什么」,而后者要求模型回答一些交叉類的特征,例如「用戶共點(diǎn)擊過多少次手機(jī)類商品」。序列理解任務(wù)涉及使用LLM從用戶嵌入中提取和恢復(fù)歷史用戶信息。目標(biāo)是評(píng)估用戶嵌入在多大程度上可以作為橋梁,將用戶交互序列中的必要信息傳遞給LLM。這個(gè)任務(wù)關(guān)系到在LLM時(shí)代用戶嵌入是否可以替代大量的用戶側(cè)特征工程。
2. 動(dòng)作預(yù)測:
預(yù)測用戶下一個(gè)要點(diǎn)擊的商品和要點(diǎn)擊商品的屬性,例如「基于用戶的瀏覽歷史,該用戶下一個(gè)要點(diǎn)擊的商品的標(biāo)題是什么」。該任務(wù)的目標(biāo)是評(píng)估用戶嵌入如何能夠幫助LLM完成諸如Top-k推薦和點(diǎn)擊率(CTR)預(yù)測等傳統(tǒng)工業(yè)推薦系統(tǒng)任務(wù),這與電商平臺(tái)的收入密切相關(guān)。
3. 興趣感知:
預(yù)測用戶的短期興趣、長期興趣以及興趣的變化軌跡,例如「用戶最喜歡的品牌是什么」或是「用戶近期最喜歡什么類目的商品」。這反映了基于LLM做推薦的方法的愿景:準(zhǔn)確理解用戶興趣和提升用戶體驗(yàn)?;贚LM的推薦系統(tǒng)相比傳統(tǒng)推薦系統(tǒng)的一個(gè)革命性進(jìn)步是在引入顯著的多樣性方面。受限于訓(xùn)練范式和協(xié)同過濾框架,傳統(tǒng)推薦系統(tǒng)往往集中在熱門項(xiàng)目和頻繁互動(dòng)的用戶上。研究人員希望用戶嵌入能夠幫助基于LLM的方法召回多樣的用戶興趣項(xiàng)目,從而提高個(gè)性化并增強(qiáng)用戶體驗(yàn)。
數(shù)據(jù)構(gòu)造
首先,隨機(jī)圈定18萬個(gè)近期有較活躍行為的淘寶用戶,并獲取他們的商品點(diǎn)擊行為序列。出于對合規(guī)性的需要,需要對各種ID類信息進(jìn)行了脫敏、并移除了用戶行為序列中的敏感商品。除此之外,研究人員還在不損傷效果的前提下,對用戶行為序列做了一定程度的改寫,以保護(hù)用戶的隱私。
針對每一類問題,研究人員都為其設(shè)計(jì)了提問的模版。給定一個(gè)任務(wù)特定的模板和用戶數(shù)據(jù),便可以基于用戶交互自動(dòng)生成相應(yīng)的問題和答案。例如,為直接特征理解任務(wù)設(shè)計(jì)的模板可能是「用戶最近點(diǎn)擊的 k個(gè)商品的類目分別是什么」,只需要將用戶行為序列的后k個(gè)item的類目作為答案即可。
由于讓LLM生成高度專業(yè)化問題的完整答案是不切實(shí)際的,所以UQABench以選擇題的形式評(píng)測。此外,研究人員還采用了一些過濾規(guī)則,以避免簡單或過于繁瑣的問題。
評(píng)測流程
研究人員提供了三份數(shù)據(jù),待評(píng)測的模型需要在前兩份數(shù)據(jù)上進(jìn)行訓(xùn)練,并在第三份數(shù)據(jù)上做預(yù)測,并執(zhí)行評(píng)測。整個(gè)評(píng)測流程分為三個(gè)階段:
1. 預(yù)訓(xùn)練:
將待評(píng)測的用戶建模模型(例如SASRec或HSTU),在研究人員提供的用戶行為序列數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,訓(xùn)練任務(wù)可以自由設(shè)置,默認(rèn)使用 next item prediction。
2. 對齊:
預(yù)訓(xùn)練后的encoder可以產(chǎn)出捕捉用戶興趣的表征,但是還需要引入一個(gè)adapter,用來橋接協(xié)同過濾空間和LLM語義空間。常見的adapter有簡單的線性映射(維度對齊)加mean-pooling(長度壓縮),或是稍微復(fù)雜一點(diǎn)的q-former。Adapter是隨機(jī)初始化、未經(jīng)訓(xùn)練的。所以需要在研究人員提供的對齊數(shù)據(jù)上進(jìn)一步finetune。
3. 評(píng)估:
用對齊后的用戶表征模型,生產(chǎn)對應(yīng)的用戶表征,并回答測試集中的7000個(gè)問題,然后使用打分腳本獲得評(píng)價(jià)指標(biāo)。
實(shí)驗(yàn)發(fā)現(xiàn)
1. 總體實(shí)驗(yàn):
研究人員評(píng)價(jià)了幾個(gè)廣泛流行的用戶建模模型,在整體對比實(shí)驗(yàn)中,以HSTU 為代表的Transformer類模型在用戶超長周期興趣的表征的能力上表現(xiàn)出強(qiáng)勁的效果,超越了RNN類模型(GRU4Rec和Mamba4Rec)。

2. 消融實(shí)驗(yàn):
a. 在對用戶序列進(jìn)行編碼時(shí),商品信息中的side info(例如類目ID、店鋪ID和品牌ID)等和文本信息(例如標(biāo)題),都會(huì)有助于LLM對用戶表征的理解,在建模時(shí)需要將它們考慮在內(nèi)。

b. 即使使用最簡單的線性映射與平均池化 (linear + mean pooling)作為adapter,將用戶的表征壓縮為一個(gè)單一向量(輸入給LLM時(shí)僅僅占用一個(gè)token的位置),也能取得不錯(cuò)的效果,這說明單一向量的表達(dá)能力也很強(qiáng)。Q-former的訓(xùn)練穩(wěn)定性比較差,對參數(shù)比較敏感,使用未經(jīng)細(xì)調(diào)的超參數(shù)效果不佳。

3. 效率實(shí)驗(yàn):
研究人員也比較了基于純文本context的模型的效果(TextN表示用戶行為序列截?cái)嗟浇诘腘個(gè)item),可以看出,最優(yōu)秀的基于embedding的模型,效果可以接近文本模型,但其輸入給LLM的token數(shù)只有前者的5%左右,推理開銷要小得多,性價(jià)比很高。

4. 放縮實(shí)驗(yàn):
研究人員將用戶編碼器的參數(shù)量,從3M逐漸擴(kuò)大到1.2B,并逐個(gè)進(jìn)行完整評(píng)測流程(預(yù)訓(xùn)練-微調(diào)-評(píng)測),可以從評(píng)測結(jié)果看出性能與模型大小之間呈現(xiàn)的明顯擴(kuò)展規(guī)律。這一結(jié)果對工業(yè)場景應(yīng)用具有重要意義:可以通過在離線環(huán)境強(qiáng)化編碼器模型(即擴(kuò)大模型規(guī)模),持續(xù)提升LLM在在線環(huán)境中的個(gè)性化性能,而不會(huì)影響推理效率。

最后,歡迎廣大研究者使用評(píng)測集進(jìn)行實(shí)驗(yàn)和研究。淘天集團(tuán)算法技術(shù)-未來生活實(shí)驗(yàn)室團(tuán)隊(duì)將持續(xù)為中文社區(qū)的發(fā)展貢獻(xiàn)力量。
作者介紹
核心作者包括劉朗鳴,劉石磊,袁愈錦,蘇文博。作者團(tuán)隊(duì)來自淘天集團(tuán)的算法技術(shù)-未來生活實(shí)驗(yàn)室團(tuán)隊(duì)和阿里媽媽-搜索廣告團(tuán)隊(duì)。
為了建設(shè)面向未來的生活和消費(fèi)方式,進(jìn)一步提升用戶體驗(yàn)和商家經(jīng)營效果,淘天集團(tuán)集中算力、數(shù)據(jù)和頂尖的技術(shù)人才,成立未來生活實(shí)驗(yàn)室。
實(shí)驗(yàn)室聚焦大模型、多模態(tài)等AI技術(shù)方向,致力于打造大模型相關(guān)基礎(chǔ)算法、模型能力和各類AI Native應(yīng)用,引領(lǐng)AI在生活消費(fèi)領(lǐng)域的技術(shù)創(chuàng)新。
參考資料:
https://arxiv.org/abs/2502.19178
https://github.com/OpenStellarTeam/UQABench
https://www.kaggle.com/datasets/liulangmingliu/uqabench
熱門跟貼