機器之心發(fā)布
機器之心編輯部
2023 年,阿里媽媽首次提出了 AIGB(AI-Generated Bidding)Bidding 模型訓(xùn)練新范式(參閱:阿里媽媽生成式出價模型(AIGB)詳解)。AIGB 是一種全新的迭代范式,把自動出價問題建模為生成式序列決策問題,這是生成式 AI 在該領(lǐng)域的首次應(yīng)用。經(jīng)過一年的探索和研發(fā),我們在阿里媽媽廣告平臺成功部署 AIGB 并取得顯著效果,我們還把過程中的發(fā)現(xiàn)和經(jīng)驗總結(jié)成論文發(fā)表在 KDD 2024,詳細分享了這一全新的迭代范式。
為了激發(fā)該領(lǐng)域進一步的技術(shù)創(chuàng)新,我們今年發(fā)起了大規(guī)模拍賣中的自動出價比賽,并特別設(shè)置了 AIGB 賽道,這一理念得到了 NeurIPS 的認同,阿里媽媽成為國內(nèi)工業(yè)界今年唯一一家獲得 NeurIPS 比賽主辦權(quán)的組織。同時,我們也將在 NeurIPS 2024 上正式開源 AIGB 的 Benchmark:業(yè)界首個標(biāo)準(zhǔn)化的大規(guī)模模擬競價系統(tǒng)和大規(guī)模博弈數(shù)據(jù)集。
- 論文名稱:AIGB: Generative Auto-bidding via Diffusion Modeling
- 論文作者:Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng
- 發(fā)表會議:KDD 2024
- 論文鏈接:https://arxiv.org/abs/2405.16141
背景:在線廣告場景中的自動出價
廣告業(yè)務(wù)是互聯(lián)網(wǎng)公司營收的一項重要來源。僅在 2023 年,在線廣告市場的規(guī)模就達到了 6268 億美元。在線廣告往往是通過流量拍賣的方式進行廣告投放。廣告主需要設(shè)定合理的出價從而競得流量。近年來,自動出價(Auto-Bidding)技術(shù)已成為推動廣告市場持續(xù)增長的關(guān)鍵因素。相比于傳統(tǒng)的手動出價,自動出價充分考慮了線上流量分布、競價環(huán)境、預(yù)算以及各種限制因素,在為廣告主帶來了更多價值的同時,促進了平臺業(yè)務(wù)的增長。一種典型的自動出價目標(biāo)是在給定預(yù)算及其他約束的條件下最大化廣告主的流量價值。典型的自動出價任務(wù)包括給定預(yù)算下的最大化拿量任務(wù) Max-Return,以及給定預(yù)算和 ROI 約束的最大化拿量任務(wù) Target Roas 等。
在實踐中,自動出價的優(yōu)化問題一般會被看作一個序列決策問題,出價模型在整個投放周期(通常為 1 天)內(nèi)隨著流量和競價情況的變化動態(tài)調(diào)整出價參數(shù)從而優(yōu)化整體效果。模型需要具備一定的全局視角,進行整體規(guī)劃和決策。對于序列決策問題,一種被業(yè)界廣泛采用的解決方案是強化學(xué)習(xí)(RL)。RL 方法可以通過不斷和環(huán)境交互尋優(yōu),從而不斷提升策略效果。RL 也是目前一種主流的 Bidding 解決方法。但是這種方法由于存在一定的內(nèi)生性缺陷(價值函數(shù)預(yù)估和自舉法導(dǎo)致的訓(xùn)練不穩(wěn)定),不擅長處理 Bidding 面臨的長序列決策問題,容易出現(xiàn)訓(xùn)練效果差的問題。因此,我們期待通過算法范式的升級來提升 Biding 模型的線上效果。
生成式模型助力 Bidding 范式升級
生成式模型近年來得到了迅速的發(fā)展,在圖像生成、文本生成、計算機視覺等領(lǐng)域取得了重大突破。目前最新的生成式模型在分布擬合以及相關(guān)性關(guān)聯(lián)等方面顯著地優(yōu)于淺層神經(jīng)網(wǎng)絡(luò)。工業(yè)界 Bidding 策略優(yōu)化的核心是基于歷史的 Bidding 數(shù)據(jù),通過模型挖掘策略與效果之間的相關(guān)性從對策略進行優(yōu)化,是生成式模型落地的一個較為理想環(huán)境?;谶@一洞察,我們提出了 AIGB(AI-Generated Bidding)解決方案。AIGB 是一種基于生成式模型(Transformer、Diffusion Model 等)的出價問題解決方案框架。與以往解決序列決策問題的 RL 思路不同,AIGB 將 Auto-Bidding 視為一個策略生成問題,通過生成模型強大的特征關(guān)聯(lián)以及分布擬合能力,直接捕捉歷史 Bidding 數(shù)據(jù)集中優(yōu)化目標(biāo)和出價策略之間的相關(guān)性從而優(yōu)化策略。相比于 RL 方法,這種新的建模范式避免了價值函數(shù)預(yù)估和自舉法所所造成的誤差,尤其擅長處理 Bidding 所面對的長序列稀疏回報的問題。
圖 1:圖左歷史投放軌跡中,顏色深淺代表計劃 return 的不同。右圖為 AIGB 模型根據(jù)不同需求生成的新策略。整個模型看作一個分布處理 pipeline,輸入歷史非最優(yōu)但存在有效信息的廣告投放軌跡,輸出符合優(yōu)化目標(biāo)的新策略。
圖 1 直觀地展示了生成式出價(AIGB)模型的流程。我們將出價、優(yōu)化目標(biāo)和約束等具備相關(guān)性的指標(biāo)視為一個有一定規(guī)律的數(shù)據(jù)分布。在訓(xùn)練階段,我們可以利用生成模型對這一數(shù)據(jù)分布進行數(shù)據(jù)挖掘?qū)?yōu),這使得模型能夠自動學(xué)習(xí)出價策略、狀態(tài)間轉(zhuǎn)移概率、優(yōu)化目標(biāo)和約束項之間的相關(guān)性。在線上推斷階段,生成式模型可以基于約束和優(yōu)化目標(biāo),以符合分布規(guī)律的方式輸出出價策略。
理論上,AIGB 范式可以兼容多種生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型側(cè)重點不同,例如,Transformer 模型主要基于自注意力機制,能夠?qū)颖局锌鐣r序和分層信息進行提取和關(guān)聯(lián),擅長進行自回歸處理。而 Diffusion Model 則緩慢地將隨機噪聲添加到數(shù)據(jù)中,然后學(xué)習(xí)逆向擴散過程以從噪聲中構(gòu)造所需的數(shù)據(jù)樣本。加噪和去噪的過程可以類比為是把特征用馬賽克遮住然后再還原的過程。相比之下,可以從細節(jié)到整體捕捉多個層次的相關(guān)性,從而提取出更多的有效信息,更擅長進行分布建模。因此,基于不同的生成模型特點,可以構(gòu)建出不同的建模方案。
DiffBid:基于擴散模型(Diffusion Model)的 AIGB
在 AIGB 框架下,我們引入了基于擴散模型方案 DiffBid。DiffBid 由規(guī)劃模塊和控制模塊組成。對于規(guī)劃模塊,我們首先將一個完整投放周期內(nèi)廣告主剩余預(yù)算、消耗速率、ROI、流量價值等出價相關(guān)狀態(tài)信息隨著時間不斷變化的過程看作一條 Bidding 軌跡,然后利用擴散模型對歷史數(shù)據(jù)集中的海量 Bidding 軌跡序列進行建模(圖 2),以最大似然估計的方式擬合軌跡數(shù)據(jù)中的分布特征。因此,DiffBid 可以基于給定目標(biāo)規(guī)劃出對應(yīng)的出價軌跡。在此基礎(chǔ)上,DiffBid 會再利用一個逆動力學(xué)控制模型根據(jù)環(huán)境的變化盡可能逼近規(guī)劃軌跡。
圖 2:左為正向過程,右為反向過程。DiffBid 正向與反向過程示例,對于一條由剩余預(yù)算序列軌跡,正向過程不斷加入噪聲,破壞其有效信息,然后反向過程生成新的軌跡,最大限度將這部分丟失的信息還原。
在近一年多的實踐中,我們通過多輪線上實驗,反復(fù)驗證了 DiffBid 的效果。截止目前,DiffBid 已經(jīng)多個場景的實驗中相比于傳統(tǒng)的 RL 方法產(chǎn)生了顯著的正向效果。其中在某場景 Max-Return 任務(wù)中,產(chǎn)生了 GMV+3.6% 的結(jié)果。在 Target Roas 任務(wù)中,在保證整體 ROI 滿足要求的情況下取得了 GMV+5.0% 的結(jié)果。特別在 Target Roas 中,由于 ROI 反饋稀疏且滯后,RL 方法訓(xùn)練難度較大,而 DiffBid 受影響較小。因此,DiffBid 既為廣告主帶來更多收益,又很好保障了廣告主的 ROI。
與此同時,我們通過進一步分析,發(fā)現(xiàn) DiffBid 模型在提效的同時,還能夠?qū)嶋H投放軌跡產(chǎn)生一定的平滑性優(yōu)化(圖 3),在 DiffBid 策略生效后,投放軌跡的異常狀態(tài)顯著減少,振蕩性顯著降低,與此同時減少過快消耗的現(xiàn)象。廣告主的投放體驗也因此得到改善。
圖 3:真實線上剩余預(yù)算散點圖。橫軸為剩余時間,縱軸為剩余預(yù)算。越分散代表消耗越振蕩,投放平滑性越差。此外在圖 a 中,存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會由于錯過一部分晚上的高性價比流量導(dǎo)致效果下跌。而 DiffBid 可以明顯減少這種問題
除了實際線上效果的優(yōu)勢外,相比于其他方法,DiffBid 還具有其他兩方面的優(yōu)勢。首先,相比于通過端到端方法直接輸出 Bidding 信息,DiffBid 生成的軌跡信息具有更好的可解釋性(圖 4)。有助于我們對模型效果進行更好的評估,從而助力優(yōu)化工作。例如,我們觀察模型規(guī)劃出的軌跡和實際線上的軌跡,如果出現(xiàn)規(guī)劃出的最終剩余預(yù)算不為 0 的情況說明模型并未能有效利用所有預(yù)算。如果規(guī)劃軌跡與實際軌跡差距較大,則說明逆動力學(xué)控制模型自適應(yīng)能力較差。在定位問題之后,可以較為方便地進行針對性優(yōu)化。其次,DiffBid 對多目標(biāo)的兼容能力更強,與此同時支持在訓(xùn)練完成后對目標(biāo)進行調(diào)整從而優(yōu)化規(guī)劃軌跡?;谶@一特點,我們可以更為方便地加入一些將業(yè)務(wù)邏輯指標(biāo)作為優(yōu)化目標(biāo),與 Bidding 模型更好地結(jié)合起來。例如,在 Max-Return 任務(wù)優(yōu)化的過程中,可以將預(yù)算使用率合并進入目標(biāo)中,同時保證 GMV 和預(yù)算使用率得到優(yōu)化。
圖 4:橫坐標(biāo)軸表示時間,縱坐標(biāo)表示剩余預(yù)算和但時間步消耗?;疑€ / 柱子為最優(yōu)軌跡剩余預(yù)算曲線 / 消耗。紅色表示不同優(yōu)化目標(biāo)所對應(yīng)的規(guī)劃軌跡曲線??梢钥闯?,隨著目標(biāo) Return 變大,模型規(guī)劃會逐步逼近最優(yōu)軌跡。證明模型學(xué)到了合理的業(yè)務(wù)邏輯和優(yōu)化措施
目前 DiffBid 在阿里媽媽廣告場景中大規(guī)模商業(yè)化落地,助力雙十一,為廣告主賦能。此外,基于擴散模型的特點,DiffBid 下可延展性和多目標(biāo)能力會顯著強于傳統(tǒng)模型,這種特點將會為未來的 Bidding 優(yōu)化和產(chǎn)品建設(shè)帶來幫助。
展望
除了已經(jīng)展現(xiàn)出來的諸多優(yōu)勢之外,AIGB 框架的開放性也能夠兼容諸多不同的方案設(shè)計。在阿里媽媽剛剛舉辦的 NeurIPS 2024:大規(guī)模拍賣中的自動出價比賽中,選手們基于不同的基礎(chǔ)生成模型,提出了一批不同于 DiffBid 的 AIGB 解決方案,迸發(fā)出諸多亮點。其中有的選手充分利用了 Transformer 的優(yōu)勢,通過自回歸的方式預(yù)測給定優(yōu)化目標(biāo)的出價信息。有的選手提出 Transformer 全局規(guī)劃模型與 bidding 小模型結(jié)合的出價方案。也有基于 Diffusion 模型直接進行出價的方案。這些方案均在不同程度上展示出了優(yōu)勢,為未來 AIGB 的進一步迭代提供了啟發(fā)。但是,我們相信這僅僅是一個開始。未來隨著技術(shù)的進一步發(fā)展,更多的 AIGB 方案涌現(xiàn)出來,從而以完全不同的方式重構(gòu)自動出價的技術(shù)體系。阿里媽媽沉淀了億級廣告投放軌跡數(shù)據(jù),是業(yè)界為數(shù)不多具備超大規(guī)模決策類數(shù)據(jù)資源儲備的平臺。這些海量數(shù)據(jù)資源可以成為營銷決策大模型訓(xùn)練的有力保證,從而推動 AIGB 技術(shù)的發(fā)展。
期待后續(xù)有機會與大家分享和交流我們的進展與實踐。
邀請函 | NeurIPS 2024 Competition Workshop:Auto-Bidding in Large-Scale Auctions
12 月 14 日,阿里媽媽將在 NeurIPS 2024 會議現(xiàn)場組 Workshop:大規(guī)模拍賣中的自動出價(Auto-Bidding in Large-Scale Auctions)。我們邀請了來自谷歌、亞馬遜、普渡大學(xué)和阿里媽媽的學(xué)界和工業(yè)界嘉賓,以及本屆賽事獲獎團隊代表,圍繞決策智能領(lǐng)域的最前沿技術(shù)進行分享和交流。同時阿里媽媽也將正式開源世界首個標(biāo)準(zhǔn)化的大規(guī)模競價系統(tǒng)和大規(guī)模博弈數(shù)據(jù)集。期待與大家現(xiàn)場交流~
熱門跟貼