當(dāng)Scaling Law應(yīng)用于推薦場景,模型又將如何表現(xiàn)?
中科大認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室陳恩紅團(tuán)隊(duì)聯(lián)合華為諾亞方舟實(shí)驗(yàn)室推出推薦模型性能定律,首次對(duì)模型的性能與模型、數(shù)據(jù)的規(guī)模和質(zhì)量進(jìn)行了定量分析。

針對(duì)現(xiàn)有工作只能對(duì)推薦大模型Scaling Law(擴(kuò)展定律)做定性分析的局限性,論文首次嘗試對(duì)推薦大模型性能擴(kuò)展定律給出明確的定量預(yù)測。
具體地,相較于傳統(tǒng)大模型擴(kuò)展定律里的數(shù)據(jù)量指標(biāo),考慮推薦領(lǐng)域的數(shù)據(jù)特性提出了序列數(shù)據(jù)的質(zhì)量衡量指標(biāo),并從模型性能預(yù)測角度出發(fā)避免傳統(tǒng)擴(kuò)展定律帶來參數(shù)增大導(dǎo)致的模型過擬合問題。
最終基于論文發(fā)現(xiàn)的推薦大模型性能預(yù)測定律,能夠在給定的數(shù)據(jù)集和模型配置下,有效預(yù)測模型的擴(kuò)展?jié)摿Γ瑫r(shí)實(shí)現(xiàn)模型參數(shù)的最優(yōu)性能配置。
下面具體來看。
提出推薦大模型性能預(yù)測定律
序列推薦系統(tǒng)旨在根據(jù)用戶過去的交互記錄預(yù)測下一個(gè)推薦給用戶的物品,以此來捕捉用戶的動(dòng)態(tài)偏好。
近年來,隨著商業(yè)和互聯(lián)網(wǎng)場景中用戶數(shù)據(jù)量的急劇增長,推薦系統(tǒng)受到了越來越多的關(guān)注。然而,為了處理這些龐大的數(shù)據(jù)集,商用與學(xué)術(shù)領(lǐng)域均開始采用更為復(fù)雜和龐大的推薦模型。
這些模型的高計(jì)算要求不僅帶來了巨大的開發(fā)成本,而且還使得開發(fā)過程中的資源分配和GPU使用變得充滿挑戰(zhàn)。

如上圖所示,為了更好地預(yù)測推薦模型在不同情況下的性能,研究者們開發(fā)了一系列的擴(kuò)展定律,用于在無需進(jìn)行大規(guī)模實(shí)驗(yàn)的情況下評(píng)估和預(yù)測模型效果。
擴(kuò)展定律最初在大型語言模型中進(jìn)行探索。例如Chinchilla擴(kuò)展定律的通過模型參數(shù)數(shù)量和訓(xùn)練樣本的數(shù)量來預(yù)測預(yù)訓(xùn)練損失。
然而,將擴(kuò)展定律應(yīng)用于推薦系統(tǒng)分析面臨兩大主要挑戰(zhàn):
(1) 與擴(kuò)展定律中通常考察的模型損失指標(biāo)相比,推薦模型中性能指標(biāo)(如命中率)更為重要,由擴(kuò)展定律導(dǎo)向的增大模型規(guī)模雖然能使模型損失降低,卻會(huì)由于模型過擬合問題導(dǎo)致性能出現(xiàn)衰減。
(2) 除了數(shù)據(jù)的規(guī)模之外,推薦系統(tǒng)的數(shù)據(jù)集通常具有結(jié)構(gòu)和協(xié)作特性,同時(shí)重復(fù)序列片段和冗余度較高,這使得數(shù)據(jù)質(zhì)量成為影響結(jié)果的核心因素,但在現(xiàn)有的推薦模型擴(kuò)展定律中尚未被充分討論。
這些挑戰(zhàn)使得現(xiàn)有的推薦系統(tǒng)擴(kuò)展定律工作僅僅給出了一些定性的分析,并不能對(duì)模型的精度進(jìn)行定量預(yù)測。
為應(yīng)對(duì)這些挑戰(zhàn),研究人員提出了推薦大模型性能預(yù)測定律,首次對(duì)模型的性能與模型、數(shù)據(jù)的規(guī)模和質(zhì)量進(jìn)行了定量分析。
通過擬合推薦模型的關(guān)鍵性能指標(biāo),包括命中率(HR)和歸一化折扣累積增益(NDCG),可以定量預(yù)測模型的層數(shù)和物品嵌入維度對(duì)其性能的影響。
此外,為了應(yīng)對(duì)數(shù)據(jù)質(zhì)量研究因素匱乏的挑戰(zhàn),引入了近似熵(ApEn)作為評(píng)價(jià)數(shù)據(jù)質(zhì)量的創(chuàng)新性指標(biāo),將原有擴(kuò)展定律中的數(shù)據(jù)規(guī)模替換為數(shù)據(jù)規(guī)模與近似熵之比,并通過理論和實(shí)驗(yàn)驗(yàn)證了這一替代的合理性。
研究人員也對(duì)提出的大模型性能預(yù)測定律進(jìn)行了應(yīng)用實(shí)驗(yàn),有效地預(yù)測了模型的最優(yōu)性能參數(shù)配置和擴(kuò)展?jié)摿Α?/p>
引入近似熵因子
如前所述,研究人員引入了近似熵因子,以進(jìn)一步增強(qiáng)序列推薦系統(tǒng)中的擴(kuò)展定律。
具體來說,近似熵是一種用于量化時(shí)間序列數(shù)據(jù)的規(guī)律性和不可預(yù)測性的統(tǒng)計(jì)測度,其計(jì)算方法如下:
首先,對(duì)于一個(gè)長度為N的時(shí)間序列{ }以及參數(shù)m(嵌入維度)和r(容差),構(gòu)造m維向量=[,+1,…,+m-1 ] ,其中=1,…,N-m+1 。然后,定義兩個(gè)向量和之間的距離為:

接著,對(duì)于給定的容差r ,計(jì)算相似性度量:

平均相似性的計(jì)算公式為:

最終,近似熵定義為:

在后續(xù)對(duì)近似熵的計(jì)算中,研究人員將容差設(shè)定為r = 0 。這一決定是基于推薦物品的獨(dú)特特性,其中具有相似ID的產(chǎn)品可能傳達(dá)完全不同的意義。
總的來說,近似熵值越高,數(shù)據(jù)的重復(fù)率越高。
然而,傳統(tǒng)熵通常與數(shù)據(jù)復(fù)制率呈現(xiàn)負(fù)相關(guān)性。因此,盡管ApEn被冠以”熵”的稱謂,但其變化趨勢與傳統(tǒng)熵指標(biāo)具有相反特性。
為避免概念混淆,本研究采用ApEn′=1/ApEn作為近似熵的最終測度。研究人員進(jìn)一步引入數(shù)據(jù)平均最小編碼長度作為最終的數(shù)據(jù)質(zhì)量衡量指標(biāo)。
由于重復(fù)的序列模式均可用相似的編碼表征,從而降低平均最小編碼長度,該指標(biāo)將保障數(shù)據(jù)的最小可學(xué)知識(shí)量、有效防止重復(fù)與無效數(shù)據(jù)導(dǎo)致的數(shù)據(jù)量虛高問題。
研究證明了最小編碼長度有如下的下界保障引理。
假設(shè)用戶序列可以被建模為一階非周期性平穩(wěn)馬爾可夫鏈。如果用戶序列為S={S,∈U } ,那么所有序列的最小編碼長度之和|U|L(C)由以下公式給出:

這個(gè)下界表達(dá)了在給定的用戶序列情況下,最小編碼長度應(yīng)該至少等于序列元素長度總和除以序列的近似熵。這個(gè)不等式利用了近似熵的概念來提供編碼效率的下界。
于是研究人員將D′=∑∈U|S| · ApEn′(S)代入了原有的擴(kuò)展定律公式D。
研究人員進(jìn)一步證明能將每一項(xiàng)參數(shù)用1/x+log(x)的形式以加入衰減項(xiàng),從而優(yōu)化性能擬合。他們擬合模型的最終形式為:

其中N為模型層數(shù),demb為嵌入維度,D′=∑∈U|S| · ApEn′(S)為數(shù)據(jù)質(zhì)量衡量指標(biāo),其余均為擬合參數(shù)。
實(shí)驗(yàn)環(huán)節(jié)
驗(yàn)證實(shí)驗(yàn)
研究人員的驗(yàn)證實(shí)驗(yàn)?zāi)繕?biāo)是驗(yàn)證理論的準(zhǔn)確性,主要從兩個(gè)方面進(jìn)行:一是其模型是否符合擴(kuò)展法則,二是使用近似熵(ApEn)和標(biāo)記數(shù)量來評(píng)估數(shù)據(jù)規(guī)模的方式是否合適。
他們首先檢查模型損失曲線與擴(kuò)展法則的一致性,從圖像上可看出實(shí)際模型性能非常貼合其表現(xiàn)定律。

然后,數(shù)據(jù)參數(shù)D’加入?yún)?shù)進(jìn)行一并擬合,以研究其影響因素。在下圖中他們擬合的數(shù)據(jù)參數(shù)與ApEn的組合呈現(xiàn)出明確的線性關(guān)系,這證明了理論的有效性。

應(yīng)用實(shí)驗(yàn)
由于性能法則中包含衰減項(xiàng),使得實(shí)現(xiàn)全局最優(yōu)解成為可能。
在前述擬合分析的基礎(chǔ)上,研究人員在下表從全局和給定參數(shù)規(guī)模篇兩個(gè)方面利用Performance Law給出了兩個(gè)參數(shù)最優(yōu)擬合,均獲得了較好的結(jié)果。

同時(shí)研究人員也可以在小規(guī)模實(shí)驗(yàn)上分析擬合參數(shù)對(duì)模型增大時(shí)的提升潛力與全局最優(yōu)性能進(jìn)行預(yù)測。
他們?cè)谙卤眚?yàn)證了這個(gè)應(yīng)用,在更小的衰減項(xiàng)參數(shù)上模型的擴(kuò)展?jié)摿Ω?,最?yōu)結(jié)果更強(qiáng)。

更多細(xì)節(jié)歡迎查閱原論文。
論文鏈接: https://arxiv.org/abs/2412.00430
熱門跟貼