真實(shí)標(biāo)簽的不完美性是機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)不可避免的挑戰(zhàn)。從科學(xué)測(cè)量數(shù)據(jù)到深度學(xué)習(xí)模型訓(xùn)練中的人工標(biāo)注,真實(shí)標(biāo)簽總是包含一定比例的錯(cuò)誤。即使像ImageNet這樣精心策劃的圖像數(shù)據(jù)集,其人工標(biāo)注的錯(cuò)誤率仍達(dá)0.3%。在這種情況下,如何準(zhǔn)確評(píng)估預(yù)測(cè)模型的性能就成為一個(gè)關(guān)鍵問(wèn)題。
本文將深入探討如何在考慮測(cè)試數(shù)據(jù)標(biāo)簽錯(cuò)誤的前提下,估計(jì)模型的"真實(shí)"準(zhǔn)確率,并分析標(biāo)簽噪聲與模型性能評(píng)估之間的復(fù)雜關(guān)系。
圖1 模型的"真實(shí)"準(zhǔn)確率作為其報(bào)告準(zhǔn)確率和真實(shí)標(biāo)簽準(zhǔn)確率的函數(shù)。
基于圖像分類的案例分析
考慮一個(gè)包含100張貓狗圖片的數(shù)據(jù)集,這些圖片由準(zhǔn)確率為96%的人工標(biāo)注者標(biāo)記(A???????????)。若我們利用部分?jǐn)?shù)據(jù)訓(xùn)練一個(gè)圖像分類器,并在驗(yàn)證集上測(cè)得90%的準(zhǔn)確率(A?????),那么該模型的"真實(shí)"準(zhǔn)確率(A????)究竟是多少?這個(gè)問(wèn)題需要從以下兩個(gè)方面進(jìn)行分析:
- 在模型"正確"預(yù)測(cè)的90%樣本中,部分可能因標(biāo)簽錯(cuò)誤而導(dǎo)致模型與標(biāo)簽恰好都出錯(cuò)。這種情況會(huì)人為地提高測(cè)量的準(zhǔn)確率。
- 在模型"錯(cuò)誤"預(yù)測(cè)的10%樣本中,部分可能是模型實(shí)際正確但真實(shí)標(biāo)簽錯(cuò)誤的情況。這又會(huì)人為地降低測(cè)量的準(zhǔn)確率。
真實(shí)準(zhǔn)確率的理論邊界

圖2 模型在標(biāo)簽錯(cuò)誤完全相關(guān)與完全不相關(guān)兩種極端情況下的真實(shí)準(zhǔn)確率對(duì)比。
模型的真實(shí)準(zhǔn)確率與其錯(cuò)誤和真實(shí)標(biāo)簽錯(cuò)誤之間的相關(guān)性密切相關(guān)。在極端情況下:
若模型錯(cuò)誤與真實(shí)標(biāo)簽錯(cuò)誤完全重疊(即模型犯錯(cuò)的方式與人工標(biāo)注者完全一致),則真實(shí)準(zhǔn)確率為:
A???? = 0.90 — (1–0.96) = 86%
若模型錯(cuò)誤與人工標(biāo)注者的錯(cuò)誤完全相反(完全負(fù)相關(guān)),則真實(shí)準(zhǔn)確率為:
A???? = 0.90 + (1–0.96) = 94%
更一般地表示為:
A???? = A????? ± (1 — A???????????)
值得注意的是,模型的真實(shí)準(zhǔn)確率可能高于或低于其報(bào)告的準(zhǔn)確率,取決于模型錯(cuò)誤與真實(shí)標(biāo)簽錯(cuò)誤之間的相關(guān)性程度。
基于概率獨(dú)立性的真實(shí)準(zhǔn)確率估計(jì)
在某些情況下,標(biāo)簽中的不準(zhǔn)確性隨機(jī)分布于樣本中,而非系統(tǒng)性地偏向特定標(biāo)簽或特征空間區(qū)域。若模型的不準(zhǔn)確性與標(biāo)簽的不準(zhǔn)確性相互獨(dú)立,則可以導(dǎo)出真實(shí)準(zhǔn)確率的更精確估計(jì)。
當(dāng)我們測(cè)量A?????(90%)時(shí),實(shí)際計(jì)算的是模型預(yù)測(cè)與真實(shí)標(biāo)簽匹配的情況。這種匹配可能源于兩種情況:
- 模型和真實(shí)標(biāo)簽都正確,概率為A???? × A???????????。
- 模型和真實(shí)標(biāo)簽都錯(cuò)誤(且以相同方式錯(cuò)誤),概率為(1 — A????) × (1 — A???????????)。
基于獨(dú)立性假設(shè),可以表示為:
A????? = A???? × A??????????? + (1 — A????) × (1 — A???????????)
對(duì)上式進(jìn)行數(shù)學(xué)變換,得到:
A???? = (A????? + A??????????? — 1) / (2 × A??????????? — 1)
將示例中的數(shù)值代入:(0.90 + 0.96–1) / (2 × 0.96–1) = 93.5%,這個(gè)結(jié)果位于前面推導(dǎo)的86%到94%范圍內(nèi)。
獨(dú)立性假設(shè)的悖論
將我們例子中的A???????????=0.96代入,得到:
A???? = (A????? — 0.04) / (0.92)。下圖展示了這個(gè)函數(shù)關(guān)系:

圖3 當(dāng)真實(shí)標(biāo)簽準(zhǔn)確率為96%時(shí),真實(shí)準(zhǔn)確率作為模型報(bào)告準(zhǔn)確率的函數(shù)關(guān)系。
這里出現(xiàn)了一個(gè)有趣的現(xiàn)象:假設(shè)模型錯(cuò)誤與真實(shí)標(biāo)簽錯(cuò)誤不相關(guān),當(dāng)報(bào)告的準(zhǔn)確率A?????>0.5時(shí),真實(shí)準(zhǔn)確率A????始終高于1:1直線。即使改變A???????????值,這一特性仍然成立:
為何會(huì)出現(xiàn)這種情況?當(dāng)錯(cuò)誤是獨(dú)立的,且A?????>0.5時(shí),模型傾向于在部分真實(shí)標(biāo)簽錯(cuò)誤的樣本上做出正確預(yù)測(cè)。我們推導(dǎo)的A????表達(dá)式考慮了兩種情況:
- 模型被不公平懲罰的情況(標(biāo)簽錯(cuò)誤但模型正確)
- 模型不公平獲益的情況(標(biāo)簽錯(cuò)誤且模型也錯(cuò)誤)
當(dāng)A?????>0.5且A???????????>0.5時(shí),在錯(cuò)誤真正獨(dú)立的條件下,第一種影響通常超過(guò)第二種。
錯(cuò)誤相關(guān)性:模型與人類共同面臨的挑戰(zhàn)
獨(dú)立性假設(shè)雖然在理論上重要,但在實(shí)踐中往往不成立。例如,若某些貓的圖像特別模糊,或某些小狗外形酷似貓,那么真實(shí)標(biāo)簽錯(cuò)誤與模型錯(cuò)誤很可能呈現(xiàn)相關(guān)性。這導(dǎo)致A????更接近下限(A????? — (1 — A???????????))。
更廣泛地說(shuō),模型錯(cuò)誤與真實(shí)標(biāo)簽錯(cuò)誤在以下情況下傾向于相關(guān):
- 人類和模型在相同的"困難"樣本上遇到挑戰(zhàn)(如低質(zhì)量圖像、邊界案例)
- 模型學(xué)習(xí)了人類標(biāo)記過(guò)程中存在的相同偏見(jiàn)
- 某些類別或樣本本質(zhì)上對(duì)任何分類器(無(wú)論人類還是機(jī)器)都具有固有的困難性
- 標(biāo)簽本身由另一個(gè)模型生成
評(píng)估模型準(zhǔn)確率的最佳實(shí)踐
模型的真實(shí)準(zhǔn)確率可能與測(cè)量準(zhǔn)確率存在顯著差異。理解這種差異對(duì)于正確評(píng)估模型至關(guān)重要,尤其在獲取完美真實(shí)標(biāo)簽不可行或成本過(guò)高的領(lǐng)域。
在使用不完美真實(shí)標(biāo)簽評(píng)估模型性能時(shí),應(yīng)考慮以下策略:
- 進(jìn)行深入的錯(cuò)誤分析:仔細(xì)檢查模型與真實(shí)標(biāo)簽不一致的樣本,以識(shí)別潛在的真實(shí)標(biāo)簽錯(cuò)誤。
- 評(píng)估錯(cuò)誤相關(guān)性:若懷疑模型和真實(shí)標(biāo)簽錯(cuò)誤之間存在相關(guān)性,真實(shí)準(zhǔn)確率可能更接近下限(A????? — (1 — A???????????))。
- 獲取多個(gè)獨(dú)立標(biāo)注:采用多個(gè)標(biāo)注者可以幫助更可靠地估計(jì)真實(shí)標(biāo)簽準(zhǔn)確率。
總結(jié)
通過(guò)本文的分析,我們深入探討了標(biāo)簽噪聲對(duì)模型性能評(píng)估的影響。我們得出幾項(xiàng)關(guān)鍵結(jié)論:可能的真實(shí)準(zhǔn)確率范圍直接受真實(shí)標(biāo)簽錯(cuò)誤率的影響;當(dāng)模型錯(cuò)誤與標(biāo)簽錯(cuò)誤相互獨(dú)立時(shí),對(duì)于性能優(yōu)于隨機(jī)猜測(cè)的模型,其真實(shí)準(zhǔn)確率通常高于測(cè)量值;然而在實(shí)際應(yīng)用場(chǎng)景中,錯(cuò)誤很少完全獨(dú)立,因此模型的真實(shí)準(zhǔn)確率往往更接近理論下限。理解這些關(guān)系對(duì)于正確評(píng)估模型性能和提高性能測(cè)量的可信度至關(guān)重要。
作者:Krishna Rao
熱門(mén)跟貼