打開網(wǎng)易新聞 查看精彩圖片

機(jī)器之心報(bào)道

編輯:澤南、杜偉

2025 年,生成式 AI 的發(fā)展速度正在加快。

我們見證了 DeepSeek R1,用強(qiáng)大的推理能力再次點(diǎn)燃 AI 智力增長的火箭。

在上個(gè)星期,OpenAI 給 GPT-4o 的一波圖像生成更新又讓全網(wǎng)陷入了梗圖、甚至玩梗視頻制造的火熱氛圍中。

打開網(wǎng)易新聞 查看精彩圖片

用 GPT-4o 渲染過的《星際穿越》電影片段。

AI 的「想象力」一次又一次震撼著我們,基于先進(jìn)大模型的應(yīng)用正在越來越多的領(lǐng)域引發(fā)革命,被改變的也包括科技領(lǐng)域本身。

比如,生成式 AI 正在改變?nèi)藗儷@取信息的方式。很多人認(rèn)為,大型語言模型(LLM)既然強(qiáng)于生成和推理,那么應(yīng)該也能從用戶的歷史行為中洞察出深層次的興趣,進(jìn)而為推薦系統(tǒng)找到全新的可能性。

既然生成式 AI 能通過已知上下文預(yù)測生成新內(nèi)容,那么已知一些人們感興趣的內(nèi)容,AI 應(yīng)該也可以預(yù)測出他們的下一個(gè)興趣點(diǎn)。這個(gè)預(yù)測的內(nèi)容可以是一篇文章、一段視頻、某個(gè)品牌的商品或是 App 上的服務(wù)。

近日,百度推薦廣告團(tuán)隊(duì)在廣告生成式推薦取得了新成果,其構(gòu)建的生成式 AI 推薦系統(tǒng)實(shí)現(xiàn)了前所未有的效果。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Sparse Meets Dense: Unified Generative Recommendations with Cascaded Sparse-Dense Representations
  • 論文 ArXiv:https://arxiv.org/pdf/2503.02453

在科技行業(yè)中,推薦系統(tǒng)雖不如圖像生成、代碼生成那樣具有極高的討論度,但一直是數(shù)字生態(tài)舉足輕重的一部分。它在電商平臺(tái)、視頻 App 和社交網(wǎng)絡(luò)上廣泛出現(xiàn),是提供符合用戶偏好個(gè)性化內(nèi)容的核心技術(shù)。

ChatGPT 推出以來,生成式檢索(Generative Retrieval)逐漸成為了推薦系統(tǒng)領(lǐng)域最熱門的研究方向。與傳統(tǒng)的序列推薦方法不同的是,生成式模型可以根據(jù)用戶的行為更加直接的進(jìn)行預(yù)測,由 AI 模型處理復(fù)雜的用戶 - 商品交互,可以提供推理和小樣本學(xué)習(xí)等新能力,大幅提高推薦準(zhǔn)確性和多樣性。

盡管把生成式 AI 引入推薦系統(tǒng)的創(chuàng)新已有不少,但與序列密集檢索方法相比,生成式檢索方法仍然面臨一些挑戰(zhàn),比如它們往往難以進(jìn)行細(xì)粒度相似性建模。

谷歌的 TIGER 是推薦系統(tǒng)生成檢索的知名方法,如圖 1(左下)所示;百度則新提出了級(jí)聯(lián)組織雙表征生成式檢索(Cascaded Organized Bi-Represented generAtive Retrieval,COBRA),這是一個(gè)將生成式和密集檢索高效融合的框架。圖 1(右)展示了 COBRA 的推理范式。

打開網(wǎng)易新聞 查看精彩圖片

COBRA 研究的主要貢獻(xiàn)如下:

  • 級(jí)聯(lián)雙表示的檢索框架:COBRA 作為一種新型生成式推薦框架,可在生成稀疏 ID 和稠密向量之間交替。通過將稠密表示合并到 ID 序列中,COBRA 彌補(bǔ)了基于 ID 的方法固有的信息損失。使用稀疏 ID 作為生成稠密向量的條件可以降低稠密表示的學(xué)習(xí)難度。
  • 端到端訓(xùn)練可學(xué)習(xí)的稠密表示:COBRA 利用原始特征數(shù)據(jù)作為輸入,通過端到端訓(xùn)練生成稠密表示。與靜態(tài)嵌入不同,COBRA 的稠密向量是動(dòng)態(tài)學(xué)習(xí)的,可捕獲語義信息和細(xì)粒度細(xì)節(jié)。
  • 生成過程由粗到細(xì):在推理過程中,COBRA 首先生成稀疏 ID,然后將其反饋到模型中以生成精細(xì)的稠密表示,從而提取細(xì)粒度興趣表征。此外,該研究還提出了 BeamFusion 來實(shí)現(xiàn)推薦多樣性和精度的靈活可控。
  • 全面的實(shí)證驗(yàn)證:通過對(duì)多個(gè)基準(zhǔn)數(shù)據(jù)集的大量實(shí)驗(yàn),研究證明了 COBRA 在推薦準(zhǔn)確率方面的表現(xiàn)優(yōu)于現(xiàn)有的 SOTA 方法,驗(yàn)證了 COBRA 在推薦任務(wù)中真實(shí)有效性。

生成式檢索

幾波技術(shù)演進(jìn)

其實(shí),在形成如今 COBRA 方案之前,百度研究團(tuán)隊(duì)針對(duì)廣告場景中的生成式推薦任務(wù),經(jīng)歷了多個(gè)階段的技術(shù)探索,并針對(duì)暴露出來的技術(shù)缺陷持續(xù)優(yōu)化與完善。

在生成式推薦任務(wù)中,大模型要預(yù)測的 item 是綜合體(如廣告標(biāo)題、品牌、多模信息等)?并?簡單的 token。因此,1)如何對(duì) item 進(jìn)行表征,2)基于表征進(jìn)行序列建模是生成式推薦的兩個(gè)核心問題。

最開始,百度采用了「純?本表征 + LLM 建模」的方案,直接利用 LLM 進(jìn)行推薦。通過標(biāo)題、落地頁等文本來表征 item,雖然可以輔助理解用戶意圖、提升可解釋性,但超長的輸入導(dǎo)致了巨大的資源和性能開銷,運(yùn)行成本較高。隨后嘗試通過短語來表征 item,但短語很容易出現(xiàn)信息壓縮過度、表達(dá)不全的情況,難以全面描述 item 的各種屬性。此外,item 之間的序列關(guān)系偏重興趣協(xié)同而并非單純的語義關(guān)系,與 LLM 建模的語義關(guān)系存在著鴻溝。

在意識(shí)到無法簡單的直接使用現(xiàn)有方法后,研究團(tuán)隊(duì)開始考慮對(duì) item 進(jìn)行壓縮表達(dá),全面滿足性能、信息完備、item 關(guān)系建模的要求。

因此,研究團(tuán)隊(duì)形成了「稠密表征 + 對(duì)?學(xué)習(xí)度量」的方案,核心在于將 item 表征為稠密向量。為此,他們引入了一個(gè)編碼器逐個(gè)對(duì) item 內(nèi)容進(jìn)行編碼,使得 item 序列轉(zhuǎn)變?yōu)橐唤M向量序列并輸入到一個(gè) Causal Decoder 中;接著通過 Next Item Prediction 的方式完成模型訓(xùn)練,在訓(xùn)練中引入對(duì)比學(xué)習(xí),使得編碼器、解碼器能夠同步更新。在推理階段,算法通過編碼器輸出 item 向量來構(gòu)建索引,并通過向量序列輸入到解碼器中獲取用戶表征,最終完成 ANN 召回。

這一方案的優(yōu)勢在于表達(dá)能力強(qiáng),可以完整利用 item 原始信息,對(duì)比學(xué)習(xí)保證了端到端訓(xùn)練,進(jìn)一步建模序列中隱含的協(xié)同信息。雖然 item 信息利用和序列關(guān)系建模兩大關(guān)鍵問題得到了有效解決,但仍然是在較大稠密空間上建模,缺少了興趣探索過程,建模復(fù)雜度并未降低。

打開網(wǎng)易新聞 查看精彩圖片

「稠密表征 + 對(duì)?學(xué)習(xí)度量」方案概覽。

接下來,研究團(tuán)隊(duì)受到谷歌 TIGER 的啟發(fā),嘗試了「稀疏表征 + 稀疏 ID ?成」的方案,通過稀疏 ID 來表征 item。

完整的實(shí)現(xiàn)過程是這樣的:首先通過商業(yè)預(yù)訓(xùn)練模型對(duì)廣告特征進(jìn)行嵌入,然后使用殘差量化變分自編碼器(RQ-VAE)將嵌入向量量化為帶層次結(jié)構(gòu)的 ID Tuple(如 L1、L2、L3),最后將 ID 序列輸入到 Causal Transformer 并通過下一個(gè) ID 預(yù)測來建模序列。在推理階段,在給定行為序列的情況下,模型可以通過自回歸方式來生成下一個(gè)可能的廣告 ID。

稀疏表征的引入充分發(fā)揮出了「嵌入 + 量化」的作用,將 item 轉(zhuǎn)化為 ID,使模型在壓縮空間中學(xué)習(xí)用戶興趣轉(zhuǎn)移,尤其適合高度個(gè)性化推薦場景中的「千人千面廣告推送」。然而,受限于相互隔離的「嵌入、量化、序列建?!梗豢杀苊獾爻霈F(xiàn)了信息損失,導(dǎo)致對(duì)用戶偏好的精細(xì)變化捕捉效果較弱。

在嘗試了以上技術(shù)方案之后,研究團(tuán)隊(duì)認(rèn)識(shí)到了單一表征方式難以同時(shí)兼顧粗粒度類別信息和細(xì)粒度特征信息的局限性,提出了 COBRA 框架,通過級(jí)聯(lián)方式融合稀疏 ID 和稠密向量表征,形成了「稀疏 - 稠密級(jí)聯(lián)表征 + ?成度量?體化」方案,大大增強(qiáng)了模型的靈活性和適應(yīng)性。

COBRA 框架的四大創(chuàng)新

下圖為 COBRA 的整體框架,在集成了級(jí)聯(lián)稀疏 - 稠密表征和由粗到細(xì)生成之后,實(shí)現(xiàn)了當(dāng)前 SOTA 級(jí)別的推薦性能。

打開網(wǎng)易新聞 查看精彩圖片

一是級(jí)聯(lián)稀疏 - 稠密表征

過程中,級(jí)聯(lián)表征將稀疏 ID 和稠密向量集成在一個(gè)統(tǒng)一的生成式模型中。對(duì)于每個(gè) item,它的稀疏 ID 和稠密向量組合起來以形成級(jí)聯(lián)表征。這樣做可以兼顧稀疏與稠密表征的優(yōu)點(diǎn),獲得更全面的 item 特征,其中稀疏 ID 通過離散約束提供穩(wěn)定的類別基礎(chǔ)信息,稠密向量確保模型捕獲高級(jí)語義和細(xì)粒度細(xì)節(jié)。

二是交替學(xué)習(xí)的序列建模

得益于級(jí)聯(lián)表征的方式,方案中將目標(biāo) item 的概率分布建模分為兩個(gè)階段,以利用稀疏與稠密表征的互補(bǔ)優(yōu)勢。COBRA 沒有選擇基于歷史交互序列來直接預(yù)測下一個(gè) item,而是轉(zhuǎn)為交替預(yù)測稀疏 ID 和稠密向量。具體來說,采用 Causal Transformer 統(tǒng)一生成式模型接收級(jí)聯(lián)表征作為輸入,從而捕獲序列依賴關(guān)系。

三是端到端訓(xùn)練

COBRA 的端到端訓(xùn)練過程旨在同時(shí)優(yōu)化稀疏和稠密表征預(yù)測。訓(xùn)練過程由一個(gè)復(fù)合損失函數(shù)控制,該函數(shù)結(jié)合了稀疏 ID 預(yù)測和稠密向量預(yù)測的損失。稀疏 ID 預(yù)測損失在基于歷史序列預(yù)測下一個(gè)稀疏 ID 的過程中,保證了模型的效率;稠密向量預(yù)測損失用于細(xì)化稠密向量。同時(shí),該稠密向量由端到端的可訓(xùn)練編碼器生成,并在訓(xùn)練過程中進(jìn)行優(yōu)化,從而適應(yīng)不同推薦任務(wù)的特定需求。

這種雙目標(biāo)的損失函數(shù)可以實(shí)現(xiàn)均衡的優(yōu)化過程,使模型在稀疏 ID 的指導(dǎo)下動(dòng)態(tài)地細(xì)化稠密向量,同時(shí)端到端的訓(xùn)練方法可以捕獲高級(jí)語義和協(xié)同信息。

最后是由粗到細(xì)生成

作為一種高效的策略,這有助于模型解耦與模塊優(yōu)化,并在保證候選多樣化與覆蓋性的同時(shí)進(jìn)一步提高精度。在推理階段,COBRA 采用由粗到細(xì)的生成過程,先生成稀疏 ID,后細(xì)化稠密向量,如下圖 3 所示。

具體地,首先基于?戶歷史交互序列,使用 Transformer 解碼器建模的 ID 概率分布,并利用 BeamSearch 算法生成下一個(gè) item 的稀疏 ID。然后,將?成的稀疏 ID 追加到輸?序列中,作為條件進(jìn)?步?成對(duì)應(yīng)的稠密向量,捕獲 item 的細(xì)粒度特征。同時(shí)引? BeamFusion 機(jī)制,并結(jié)合 BeamSearch 和近鄰檢索分?jǐn)?shù),在確保推薦精度的同時(shí)保證召回?告候選的多樣性。

打開網(wǎng)易新聞 查看精彩圖片

由粗到細(xì)的生成過程。

COBRA 框架為生成式推薦領(lǐng)域提供了一個(gè)的新范式。

多場景性能提升

已實(shí)際應(yīng)用

實(shí)測效果如何?研究團(tuán)隊(duì)使用公開和工業(yè)數(shù)據(jù)集對(duì) COBRA 框架進(jìn)行了全面評(píng)估,并重點(diǎn)展示了 COBRA 提升推薦準(zhǔn)確率和多樣性的能力,并通過離線和在線評(píng)估來驗(yàn)證實(shí)際效果。大量實(shí)驗(yàn)表明,COBRA 優(yōu)于目前業(yè)內(nèi)最先進(jìn)的方法。

在公開數(shù)據(jù)集上,研究團(tuán)隊(duì)使用了 Amazon Product Reviews 數(shù)據(jù)集,并重點(diǎn)分析了「Beauty」、「Sports and Outdoors」以及「Toys and Games」三個(gè)子集。

實(shí)現(xiàn)結(jié)果如下表 2 所示,其中在「Beauty」數(shù)據(jù)集上,COBRA 的 Recall@5 和 Recall@10 相比之前的最佳模型 TIGER 分別提升了 18.3% 和 11.9%;在「Sports and Outdoors」數(shù)據(jù)集上,COBRA 的 Recall@5 和 NDCG@10 相比 TIGER 分別提升了 15.5% 和 18.8%;在「Toys and Games」數(shù)據(jù)集上,COBRA 的 Recall@10 和 NDCG@10 相比 TIGER 分別提升了 24.5% 和 19.2%。

打開網(wǎng)易新聞 查看精彩圖片

對(duì)于行業(yè)數(shù)據(jù)集,研究團(tuán)隊(duì)采用了 Baidu Industrial 數(shù)據(jù)集,它基于百度廣告平臺(tái)上的用戶交互日志構(gòu)建,涵蓋了列表頁、雙欄、短視頻等多種推薦場景,包含了 500 萬用戶和 200 萬條廣告,全面展現(xiàn)了真實(shí)用戶行為和廣告內(nèi)容。

為了驗(yàn)證本文策略的有效性,研究團(tuán)隊(duì)對(duì) COBRA 以及移除稀疏 ID 的變體 COBRA w/o ID、移除稠密向量的變體 COBRA w/o Dense 以及移除 BeamFusion 的變體 COBRA w/o BeamFusion 進(jìn)行了比較。結(jié)果如下表 3 所示,相較于三種變體,COBRA 均體現(xiàn)出了優(yōu)勢,從而驗(yàn)證了該框架中各個(gè)組件的有效性。

在 K=800 時(shí),COBRA 的召回率為 0.4466,相較沒有稀疏 ID 的變體提升了 43.6%, 相較沒有 BeamFusion 的變體提升了 36.1%。

打開網(wǎng)易新聞 查看精彩圖片

為了評(píng)估 COBRA 的表征學(xué)習(xí)能力,研究團(tuán)隊(duì)對(duì)廣告稠密嵌入展開相似度矩陣分析,如下圖 4 所示,展現(xiàn)了 COBRA 模型的類別內(nèi)聚性和類別間分離性。相反,沒有稀疏 ID 的模型變體顯示出較弱的類別間分離性(圖 4b),加入稀疏 ID 則可以增強(qiáng)內(nèi)聚性和分離性(圖 4c 差異矩陣定量分析)

這意味著 COBRA 不僅能夠?qū)⑼?類別的項(xiàng)目緊密地聚集在?起,還能將不同類別的項(xiàng)?有效地區(qū)分開來,從而在推薦時(shí)能夠更精準(zhǔn)地捕捉?戶的興趣點(diǎn)。

打開網(wǎng)易新聞 查看精彩圖片

進(jìn)一步的可視化廣告嵌入分布驗(yàn)證了 COBRA 的嵌入能力。通過隨機(jī)抽取一萬個(gè)廣告,研究團(tuán)隊(duì)觀察到了不同廣告嵌入形成了明顯的聚類中心,如下圖 5 所示。我們可以看到,紫色、青色、淺綠色和深綠色聚類主要分別對(duì)應(yīng)小說、游戲、法律服務(wù)和衣物廣告。

打開網(wǎng)易新聞 查看精彩圖片

由于與大量業(yè)務(wù)直接相關(guān),推薦系統(tǒng)是一個(gè)很「卷」的領(lǐng)域,在百度的研究中,工程師們把 COBRA 最終策略投放到真實(shí)生產(chǎn)環(huán)境上跑了一圈,在 A/B 測試中實(shí)現(xiàn)了轉(zhuǎn)化率增加 3.6%,ARPU(平均每用戶收入)增加 4.15% 的好成績。

這些業(yè)務(wù)指標(biāo)提升表明,COBRA 不僅在離線評(píng)估中表現(xiàn)出色,還能夠在實(shí)際生產(chǎn)環(huán)境中帶來可衡量的商業(yè)價(jià)值,目前該方法在百度廣告推薦業(yè)務(wù)中已經(jīng)全量上線。

結(jié)語

經(jīng)過一系列提升和改進(jìn),生成式 AI 已經(jīng)可以做到表達(dá)清晰、預(yù)測準(zhǔn)確,并在百度的廣告推薦系統(tǒng)中實(shí)現(xiàn)了應(yīng)用。與很多領(lǐng)域一樣,推薦系統(tǒng)正在向著需求個(gè)性化的方向快速發(fā)展,而在這個(gè)方向上,AI 提供的解決方案已經(jīng)展現(xiàn)出了獨(dú)特的優(yōu)勢。

對(duì)于普通人來說,在各種 App 上,大模型驅(qū)動(dòng)的推薦系統(tǒng)可以幫助我們獲取更多有用的內(nèi)容,讓信息流更加聰明。

對(duì)于科技公司而言,或許在幾年之內(nèi),AI 驅(qū)動(dòng)的業(yè)務(wù)就可以從目前的局部智能化進(jìn)化到「需求預(yù)測 - 生產(chǎn)調(diào)度 - 倉儲(chǔ)物流 - 營銷交付」的全流程智能化階段。

未來,AI 應(yīng)用的深度將決定業(yè)務(wù)的增長速度。