預(yù)測(cè)不確定性量化在數(shù)據(jù)驅(qū)動(dòng)決策過(guò)程中具有關(guān)鍵作用。無(wú)論是評(píng)估醫(yī)療干預(yù)的風(fēng)險(xiǎn)概率還是預(yù)測(cè)金融市場(chǎng)的價(jià)格波動(dòng)范圍,我們常需要構(gòu)建預(yù)測(cè)區(qū)間——即以特定置信度包含目標(biāo)真值的概率區(qū)間。

分位數(shù)回歸(Quantile Regression, QR)作為一種傳統(tǒng)統(tǒng)計(jì)方法,長(zhǎng)期以來(lái)被用于預(yù)測(cè)此類區(qū)間。與常規(guī)回歸方法建模條件均值不同,QR直接對(duì)條件分位數(shù)進(jìn)行建模,例如預(yù)測(cè)結(jié)果的第90百分位數(shù)。

然而單純依賴QR在實(shí)踐應(yīng)用中存在顯著局限性:其生成的區(qū)間在面對(duì)新數(shù)據(jù)時(shí)往往校準(zhǔn)不足(區(qū)間過(guò)窄或過(guò)寬)。Conformalized Quantile Regression (CQR)正是為解決這一問(wèn)題而提出的創(chuàng)新方法,它將分位數(shù)回歸與共形預(yù)測(cè)(Conformal Prediction)技術(shù)相結(jié)合,生成既具有自適應(yīng)性(區(qū)間寬度隨輸入特征動(dòng)態(tài)變化,類似QR)又具有嚴(yán)格統(tǒng)計(jì)保證(能夠達(dá)到預(yù)設(shè)的覆蓋率目標(biāo))的預(yù)測(cè)區(qū)間。

本文將深入探討CQR的理論基礎(chǔ)、技術(shù)實(shí)現(xiàn)、與傳統(tǒng)方法的比較,以及它在醫(yī)療、金融、能源和氣候科學(xué)等多個(gè)領(lǐng)域的實(shí)際應(yīng)用。

從分位數(shù)回歸到共形預(yù)測(cè)

分位數(shù)回歸(QR)是一種歷史悠久的統(tǒng)計(jì)技術(shù),可追溯至19世紀(jì)Galton的研究,并在1970年代得到形式化。QR方法直接估計(jì)目標(biāo)變量的條件分位數(shù),而非條件均值。例如在房地產(chǎn)市場(chǎng)分析中,QR不僅可預(yù)測(cè)給定特征下的平均房?jī)r(jià),還能估計(jì)給定特征下房?jī)r(jià)的第90百分位值。

QR通過(guò)優(yōu)化尖點(diǎn)損失函數(shù)(pinball loss)(亦稱分位數(shù)損失)學(xué)習(xí)預(yù)測(cè)Y在X條件下的q分位數(shù)。QR的主要優(yōu)勢(shì)之一是能夠自然處理異方差性(heteroscedasticity)問(wèn)題——例如,第5百分位與第95百分位預(yù)測(cè)值之間的區(qū)間可根據(jù)數(shù)據(jù)局部噪聲水平自動(dòng)調(diào)整寬窄。

這種特性使QR能夠生成局部自適應(yīng)預(yù)測(cè)區(qū)間:在數(shù)據(jù)波動(dòng)較大的區(qū)域產(chǎn)生更寬的區(qū)間,而在數(shù)據(jù)表現(xiàn)穩(wěn)定的區(qū)域生成更窄的區(qū)間,從而更精確地反映預(yù)測(cè)的不確定性分布。

經(jīng)典QR的關(guān)鍵限制在于校準(zhǔn)問(wèn)題。QR本身無(wú)法保證未來(lái)數(shù)據(jù)點(diǎn)有90%會(huì)落在所謂的"90%預(yù)測(cè)區(qū)間"內(nèi)。理論上,QR區(qū)間的覆蓋率僅在漸近條件下(樣本趨于無(wú)窮且模型規(guī)范正確)才能達(dá)到預(yù)期水平。

在有限樣本情況下,或當(dāng)模型設(shè)定不完全正確時(shí),實(shí)際覆蓋率可能與名義覆蓋率存在顯著偏差。圖1清晰地展示了這一問(wèn)題:圖中展示的分位數(shù)回歸模型生成的90%預(yù)測(cè)區(qū)間(陰影區(qū)域)未能完全覆蓋數(shù)據(jù)樣本,部分觀測(cè)點(diǎn)落在區(qū)間之外,表明該"90%"區(qū)間在實(shí)踐中的覆蓋率不足。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

與此相對(duì),歸納共形預(yù)測(cè)(Inductive Conformal Prediction, ICP)作為一種現(xiàn)代不確定性量化方法,將校準(zhǔn)作為其核心目標(biāo)。ICP構(gòu)建的預(yù)測(cè)區(qū)間具有無(wú)分布假設(shè)的有限樣本覆蓋保證。本質(zhì)上共形方法可以應(yīng)用于任意點(diǎn)預(yù)測(cè)模型(通常是均值回歸模型),然后利用單獨(dú)的校準(zhǔn)數(shù)據(jù)集調(diào)整預(yù)測(cè)結(jié)果,使預(yù)測(cè)區(qū)間通過(guò)設(shè)計(jì)達(dá)到目標(biāo)覆蓋率。

ICP的唯一假設(shè)是訓(xùn)練數(shù)據(jù)與未來(lái)數(shù)據(jù)點(diǎn)滿足可交換性(exchangeability)(即廣義上的獨(dú)立同分布條件)。對(duì)于回歸問(wèn)題,一種簡(jiǎn)單的分割共形(split-conformal)方法操作如下:首先在一部分?jǐn)?shù)據(jù)上訓(xùn)練回歸模型,然后計(jì)算校準(zhǔn)集上的預(yù)測(cè)殘差,最后確定一個(gè)閾值使得(1–α)比例的殘差落在該閾值范圍內(nèi)。這一過(guò)程產(chǎn)生的預(yù)測(cè)帶將以約(1-α)的概率覆蓋真實(shí)值y。

ICP方法的優(yōu)勢(shì)在于其統(tǒng)計(jì)保證:當(dāng)聲明95%置信度時(shí),它確實(shí)能夠平均覆蓋95%的新數(shù)據(jù)點(diǎn)。當(dāng)使用均值估計(jì)器時(shí),這種方法的限制在于生成的區(qū)間往往是均勻?qū)挾?/strong>的,或者僅輕微依賴于輸入特征X(本質(zhì)上是在所有預(yù)測(cè)點(diǎn)應(yīng)用相同的殘差閾值)。在異方差數(shù)據(jù)環(huán)境中,這種方法效率不高——可能導(dǎo)致在某些實(shí)際不需要的區(qū)域使用過(guò)度保守的寬區(qū)間,僅僅因?yàn)槠渌麉^(qū)域的數(shù)據(jù)變異性較高。

綜上所述,分位數(shù)回歸提供了自適應(yīng)的預(yù)測(cè)區(qū)間但缺乏覆蓋保證,而共形預(yù)測(cè)提供了覆蓋保證但缺乏強(qiáng)自適應(yīng)性。這自然引出了一個(gè)問(wèn)題:能否將兩種方法的優(yōu)勢(shì)結(jié)合起來(lái)?

Conformalized Quantile Regression (CQR)的工作原理

Conformalized Quantile Regression (CQR)正是融合上述兩種方法優(yōu)勢(shì)的技術(shù)解決方案,它實(shí)現(xiàn)了"QR與CP優(yōu)勢(shì)的有效結(jié)合"。

由Romano、Patterson和Candès(2019)提出的CQR方法能夠生成既能適應(yīng)局部不確定性(如分位數(shù)回歸)又保持嚴(yán)格覆蓋保證(如共形預(yù)測(cè))的預(yù)測(cè)區(qū)間。換言之,CQR"通過(guò)合并分位數(shù)回歸和共形預(yù)測(cè),產(chǎn)生同時(shí)適應(yīng)數(shù)據(jù)底層分布特性并維持嚴(yán)格覆蓋保證的預(yù)測(cè)區(qū)間",從而實(shí)現(xiàn)雙重目標(biāo):每個(gè)預(yù)測(cè)點(diǎn)處的區(qū)間盡可能窄,同時(shí)確保整體覆蓋率的正確性。

CQR的實(shí)現(xiàn)流程可以概括為以下關(guān)鍵步驟:

訓(xùn)練分位數(shù)模型:首先將數(shù)據(jù)集劃分為訓(xùn)練集和校準(zhǔn)集(類似于分割共形法)。使用訓(xùn)練集擬合兩個(gè)分位數(shù)回歸模型:一個(gè)預(yù)測(cè)下界分位數(shù)(如第5百分位),另一個(gè)預(yù)測(cè)上界分位數(shù)(如第95百分位),這兩個(gè)模型共同界定目標(biāo)預(yù)測(cè)區(qū)間。這些模型可以是任何能夠預(yù)測(cè)特定分位數(shù)的回歸算法,包括優(yōu)化用于分位數(shù)損失的梯度提升樹(shù)、隨機(jī)森林或神經(jīng)網(wǎng)絡(luò)。

計(jì)算校準(zhǔn)殘差:接下來(lái),將訓(xùn)練好的分位數(shù)模型應(yīng)用于校準(zhǔn)數(shù)據(jù)集。對(duì)于每個(gè)校準(zhǔn)樣本點(diǎn)(x_i, y_i),評(píng)估真實(shí)值y_i相對(duì)于分位數(shù)模型預(yù)測(cè)區(qū)間的位置關(guān)系。為每個(gè)點(diǎn)計(jì)算非一致性得分(nonconformity score),該得分實(shí)質(zhì)上度量了當(dāng)y_i落在預(yù)測(cè)區(qū)間外時(shí),其偏離預(yù)測(cè)區(qū)間的距離。

確定校正量:然后,計(jì)算校準(zhǔn)集上所有非一致性得分的(1-alpha)分位數(shù)值。這給出了一個(gè)值qCQR,使得90%的校準(zhǔn)殘差小于或等于該值。簡(jiǎn)言之qCQR是需要添加到或從原始分位數(shù)模型區(qū)間中減去的最小額外邊際量,以確保90%的校準(zhǔn)點(diǎn)被覆蓋。

生成最終預(yù)測(cè)區(qū)間:最后,對(duì)于任何新輸入x,CQR輸出區(qū)間:[q^lower(xnew)?qCQR, q^upper(xnew)+qCQR]。此區(qū)間實(shí)質(zhì)上是原始QR預(yù)測(cè)區(qū)間在每側(cè)按常數(shù)qCQR進(jìn)行擴(kuò)展或收縮的結(jié)果。通過(guò)構(gòu)造,這種調(diào)整后的區(qū)間將覆蓋約(1-α)比例的未來(lái)數(shù)據(jù)點(diǎn),即使在有限樣本情況下且不依賴分布假設(shè)。CQR利用分位數(shù)回歸作為智能起點(diǎn),然后通過(guò)一個(gè)統(tǒng)一的微調(diào)緩沖區(qū)確保覆蓋保證。若分位數(shù)估計(jì)接近完美,則緩沖區(qū)qCQR將非常?。ɡ硐肭闆r下甚至為零)。若分位數(shù)模型低估了實(shí)際分布的擴(kuò)散程度,qCQR將提供必要的補(bǔ)償調(diào)整。

這一方法繼承了兩種組成技術(shù)的核心優(yōu)勢(shì):區(qū)間長(zhǎng)度可以隨輸入特征x變化(因?yàn)榉治粩?shù)回歸預(yù)測(cè)會(huì)根據(jù)特征調(diào)整),從而像QR一樣捕捉異方差模式;同時(shí),由于共形校準(zhǔn)步驟的作用,該區(qū)間具有(1-α)的有限樣本覆蓋保證。從理論角度看,CQR是分布無(wú)關(guān)的(無(wú)需參數(shù)模型假設(shè))并且在可交換性條件下有效——若數(shù)據(jù)點(diǎn)滿足獨(dú)立同分布假設(shè),則可以高置信度獲得≥(1-α)的覆蓋率(在X和Y的聯(lián)合分布上)。

下面直接比較CQR與傳統(tǒng)分位數(shù)回歸的關(guān)鍵差異,以突顯CQR的技術(shù)優(yōu)勢(shì):

打開(kāi)網(wǎng)易新聞 查看精彩圖片

可以說(shuō)CQR是分位數(shù)回歸的即插即用增強(qiáng)版,它能夠"每次都有效",默認(rèn)情況下交付預(yù)期的覆蓋保證。當(dāng)QR模型聲稱某一預(yù)測(cè)為"第95百分位"時(shí),CQR確保實(shí)際上確有約95%的結(jié)果落在該預(yù)測(cè)值之下——正如一位實(shí)踐者所強(qiáng)調(diào):"95%意味著真正的95%"。這種可靠性在高風(fēng)險(xiǎn)應(yīng)用場(chǎng)景中尤為重要。

可視化比較:QR與CQR的差異

為了建立直觀理解,我們回顧圖1所示的場(chǎng)景。在該圖中,分位數(shù)回歸生成的預(yù)測(cè)區(qū)間未能覆蓋部分?jǐn)?shù)據(jù)點(diǎn)。若應(yīng)用CQR方法,我們會(huì)使用校準(zhǔn)集上的這些"未覆蓋點(diǎn)"來(lái)適當(dāng)擴(kuò)展預(yù)測(cè)區(qū)間,直至覆蓋所需比例的點(diǎn)。結(jié)果是所有(或幾乎所有)數(shù)據(jù)點(diǎn)都將落入修正后的區(qū)間內(nèi),可能僅需在問(wèn)題區(qū)域小幅增加區(qū)間寬度。換言之,CQR可能會(huì)在圖1中的藍(lán)色曲線上添加一個(gè)小的均勻緩沖區(qū),略微提高上界并降低下界,直至95%的點(diǎn)被包含其中。在QR模型已經(jīng)表現(xiàn)良好的區(qū)域,區(qū)間保持窄小,僅在必要處(如較高X值區(qū)域,QR模型原本低估了真實(shí)分布擴(kuò)散)適度增寬。

實(shí)證研究證實(shí)了這一優(yōu)勢(shì)。例如,在一項(xiàng)包含29,993筆奧斯陸房屋銷售數(shù)據(jù)的房?jī)r(jià)預(yù)測(cè)研究中,將CQR應(yīng)用于隨機(jī)森林模型后,生成的預(yù)測(cè)帶寬度顯著小于標(biāo)準(zhǔn)共形方法,同時(shí)仍然達(dá)到了90%的目標(biāo)覆蓋率。另一個(gè)醫(yī)學(xué)領(lǐng)域的案例(從表觀遺傳數(shù)據(jù)預(yù)測(cè)生物年齡)發(fā)現(xiàn),CQR生成的預(yù)測(cè)區(qū)間比共形均值回歸方法更窄且個(gè)體間變異更大——表明CQR能更好地反映數(shù)據(jù)中的異質(zhì)性,而基于均值的區(qū)間則過(guò)于保守且寬度幾乎恒定。簡(jiǎn)言之,CQR通常提供兩全其美的解決方案:精確、上下文敏感且可靠的預(yù)測(cè)區(qū)間。

總結(jié)

CQR(及共形預(yù)測(cè))的應(yīng)用正在迅速擴(kuò)展。在機(jī)器學(xué)習(xí)研究中,CQR已被應(yīng)用于時(shí)間序列預(yù)測(cè)(例如,流行的NeuralProphet庫(kù)將CQR作為生成預(yù)測(cè)區(qū)間的選項(xiàng))、時(shí)空數(shù)據(jù)分析(確保不同區(qū)域的預(yù)測(cè)覆蓋率)以及算法公平性(一項(xiàng)工作引入"公平"CQR變體,確保跨不同子群體的均等覆蓋率)。任何需要可靠不確定性量化的回歸問(wèn)題均可考慮CQR作為首選方法。其模型無(wú)關(guān)性意味著它可以包裝任何前沿模型(梯度提升機(jī)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等),使其預(yù)測(cè)具有可靠的概率特性。隨著學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)可信AI與機(jī)器學(xué)習(xí)的日益重視,CQR提供了一種相對(duì)簡(jiǎn)單卻能顯著提升預(yù)測(cè)模型可信度的技術(shù)增強(qiáng)方案。

Conformalized Quantile Regression (CQR)代表了預(yù)測(cè)建模領(lǐng)域的重要技術(shù)進(jìn)步,它有效地結(jié)合了兩個(gè)方向的優(yōu)勢(shì):靈活、數(shù)據(jù)驅(qū)動(dòng)的分位數(shù)估計(jì)與嚴(yán)格的不確定性校準(zhǔn)。對(duì)數(shù)據(jù)科學(xué)家、分析師和研究人員而言,采用CQR能帶來(lái)更為可靠的分析洞見(jiàn)

CQR提供可靠的置信保證:當(dāng)模型聲明90%預(yù)測(cè)區(qū)間時(shí),它確實(shí)能在實(shí)際應(yīng)用中覆蓋約90%的新數(shù)據(jù)結(jié)果。這種可靠性在醫(yī)療、金融等高風(fēng)險(xiǎn)決策領(lǐng)域尤為重要,它將預(yù)測(cè)模型轉(zhuǎn)變?yōu)闆Q策者可以真正信賴的工具。

CQR生成的自適應(yīng)且信息豐富的預(yù)測(cè)區(qū)間區(qū)別于簡(jiǎn)單的不確定性帶。這些區(qū)間能根據(jù)數(shù)據(jù)的局部不確定性動(dòng)態(tài)調(diào)整形態(tài)。使用者能夠準(zhǔn)確識(shí)別模型不確定性較高的區(qū)域(較寬的區(qū)間表明該區(qū)域波動(dòng)性更大或數(shù)據(jù)覆蓋不足)與模型確定性較高的區(qū)域(較窄的區(qū)間)。這提供了更深入的分析視角,例如識(shí)別"模型對(duì)中等范圍的案例預(yù)測(cè)較為確定,但對(duì)極端案例預(yù)測(cè)不確定"的模式——這類信息本身可以指導(dǎo)進(jìn)一步行動(dòng),如針對(duì)極端案例收集更多數(shù)據(jù)。

CQR具有對(duì)分布異常的穩(wěn)健性:由于其共形特性,即使數(shù)據(jù)具有異常誤差分布、重尾特征或模型規(guī)范略有不準(zhǔn)確,CQR方法也不會(huì)失效。該方法基于最少的假設(shè),利用數(shù)據(jù)本身進(jìn)行校準(zhǔn)。這種穩(wěn)健性使CQR能夠跨多種應(yīng)用場(chǎng)景部署,無(wú)需為每種情況專門(mén)調(diào)整——這是實(shí)際應(yīng)用中的重要優(yōu)勢(shì)。

CQR提供實(shí)用的可獲取性:實(shí)現(xiàn)CQR不再僅是理論練習(xí)——它已通過(guò)如MAPIE(面向scikit-learn用戶)等庫(kù)實(shí)現(xiàn),并已集成到多個(gè)領(lǐng)域特定工具中。這降低了采用門(mén)檻。如果能訓(xùn)練回歸模型,則只需幾行額外代碼即可應(yīng)用CQR并獲得更為豐富的預(yù)測(cè)輸出。

如果你一直依賴傳統(tǒng)分位數(shù)回歸構(gòu)建預(yù)測(cè)區(qū)間,現(xiàn)在或許是時(shí)候考慮"告別傳統(tǒng)分位數(shù)回歸,擁抱CQR"。通過(guò)對(duì)分位數(shù)預(yù)測(cè)進(jìn)行共形化處理,您能確保模型不僅針對(duì)正確的分位數(shù),還能以統(tǒng)計(jì)保證的方式達(dá)成預(yù)定目標(biāo)。這將帶來(lái)更精確、更可靠的預(yù)測(cè)洞見(jiàn),支持在不確定環(huán)境中做出更明智的決策。

https://avoid.overfit.cn/post/915f13f1abf5462092bdf0b9f0e7cdc1

作者:Valeriy Manokhin