大語言模型越來越強(qiáng),AI生成文本越來越難以檢測?也許不用擔(dān)心,越來越強(qiáng)的大語言模型本身也是越來越強(qiáng)的AI生成文本檢測器!
大語言模型廣泛使用,引發(fā)人們對(duì)虛假新聞、惡意產(chǎn)品評(píng)論和剽竊等問題的擔(dān)憂。本文提出了一種新的文本檢測方法——Glimpse,打破文本檢測的白盒方法和較強(qiáng)大的黑盒私有模型之間的屏障,獲得檢測準(zhǔn)確率的大幅提升(檢測錯(cuò)誤率降低 50%以上)。無需本地模型,無需生成任何新內(nèi)容,一次OpenAI API調(diào)用就可以獲得任意來源文本的準(zhǔn)確檢測結(jié)果。

論文題目: Glimpse: Enabling White-Box Methods to Use Proprietary Models for Zero-Shot LLM-Generated Text Detection 論文鏈接: https://openreview.net/forum?id=an3fugFA23 代碼鏈接: https://github.com/baoguangsheng/glimpse
一、研究動(dòng)機(jī)
大型語言模型(LLMs)能夠生成接近人類的流暢且連貫的文本內(nèi)容,在各個(gè)行業(yè)(如新聞、社交媒體和教育)中提升生產(chǎn)力的同時(shí),也引發(fā)了人們對(duì)虛假信息、誤導(dǎo)內(nèi)容和剽竊等風(fēng)險(xiǎn)的擔(dān)憂。為了構(gòu)建可信賴的人工智能系統(tǒng),我們迫切需要高質(zhì)量、自動(dòng)化的檢測工具。然而,隨著大型語言模型能力的增強(qiáng),其生成的文本內(nèi)容越來越接近人類的水平,導(dǎo)致越來越難以準(zhǔn)確檢測。
現(xiàn)有的檢測器按其使用檢測模型的方式可以分為兩類:白盒方法和黑盒方法。白盒方法依賴檢測模型的內(nèi)部狀態(tài)或者輸出分布,所以一般需要本地運(yùn)行開源模型。黑盒方法通過API訪問檢測模型,所以能使用相對(duì)更強(qiáng)大的私有大模型。雖然黑盒方法能使用更強(qiáng)的大模型,但由于方法本身的限制,其檢測準(zhǔn)確率和檢測效率普遍低于白盒方法。那是否能夠?qū)⒏鼫?zhǔn)確的白盒方法和更強(qiáng)大的黑盒私有模型相結(jié)合呢?受API訪問方式的限制,這看起來似乎不可能。
為了突破這種限制,我們重新審視了白盒方法所使用檢測模型的預(yù)測分布,提出了一種新的方法 —— Glimpse,從私有模型API返回的部分信息,來估算模型的預(yù)測分布,進(jìn)而計(jì)算相應(yīng)的檢測指標(biāo)。從而打破了白盒方法和私有模型之間的屏障,做到了強(qiáng)強(qiáng)聯(lián)手。
使用更強(qiáng)大的私有模型,如GPT-3.5,Glimpse成功地將英文語料(涉及五個(gè)源模型和三個(gè)領(lǐng)域)上的檢測準(zhǔn)確率(AUROC)從0.90提升到0.95,在其它六個(gè)全球主要語言上將準(zhǔn)確率從0.88提升到0.97,檢測錯(cuò)誤率降低 50%以上。同時(shí),實(shí)驗(yàn)結(jié)果也展示了更強(qiáng)的語言模型也是更強(qiáng)的檢測器。
二、方法

圖1:Glimpse概率分布估計(jì)方法
我們提出了一種概率分布估計(jì)方法——Glimpse,旨在從模型API返回的部分觀測值中估計(jì)完整的分布。該觀測值包括輸入token的概率值(logprobs)以及每個(gè)token位置上top-K(至少一個(gè))token的概率。以Fast-DetectGPT為例(如圖1所示),我們首先從GPT模型中獲取top-K候選的概率,然后利用這些概率估計(jì)整個(gè)詞匯表上的分布。其基本思想是尋找最高概率與全詞匯表概率之間的經(jīng)驗(yàn)性關(guān)聯(lián)。為此,我們考察了參數(shù)化的幾何分布、Zipf分布以及基于數(shù)據(jù)訓(xùn)練的MLP模型來建模這種關(guān)聯(lián)。通過Glimpse,我們還將諸如熵(Entropy)、排名(Rank)和對(duì)數(shù)排名(LogRank)等方法成功擴(kuò)展到私有模型上。
概率分布估計(jì)的基本原理是使用一個(gè)參數(shù)化的分布函數(shù),根據(jù)已經(jīng)觀測到的top-K概率值,唯一確定分布函數(shù)的參數(shù),從而獲得完整分布的函數(shù)表達(dá)。在每個(gè)token位置上,我們觀察得到top-K token的概率 ,根據(jù)這些概率我們估計(jì) 的取值,同時(shí)滿足離散分布總概率為1的約束。具體來說,我們考察了以下三種分布函數(shù)。
幾何分布(Geometric Distribution):

其中 為未知參數(shù),需要根據(jù)top-K概率和總概率約束來求解。
Zipf分布(Zipfian Distribution):

其中 和 為未知參數(shù)。根據(jù)top-K概率,我們可以求解一個(gè)最佳的參數(shù)組合。
MLP預(yù)測分布:

其中 為MLP模型參數(shù)。我們使用一個(gè)兩層的MLP網(wǎng)絡(luò),輸入top-K概率,預(yù)測其它概率。我們使用從gpt-neo-2.7B上采樣的真實(shí)分布樣本訓(xùn)練MLP網(wǎng)絡(luò),在預(yù)測時(shí)MLP模型保持不變。

圖2:模型的真實(shí)分布和不同方法的預(yù)測分布
具體如圖2所示,我們來對(duì)比一下不同模型的真實(shí)分布和不同估計(jì)方法的預(yù)測分布。首先看左側(cè)(a)圖,總體上不同模型的分布走向一致。我們重點(diǎn)關(guān)注“*”所代表的分布長尾部分的占比。可以看到,模型越大,這部分占比越小。相應(yīng)的,其對(duì)整個(gè)分布的影響也越小。然后看右側(cè)(b)圖不同估計(jì)方法的預(yù)測分布??偟膩碚f,Zipfian分布和MLP分布比較接近,而Geometric分布在長尾部分衰減的很快。
三、實(shí)驗(yàn)結(jié)果
預(yù)測分布的有效性

圖3:預(yù)測分布和真實(shí)分布的差異,以及和檢測指標(biāo)之間的關(guān)系\
我們使用開源模型來檢驗(yàn)概率分布估計(jì)的有效性。分別研究了預(yù)測分布和真實(shí)分布的差異,以及這種差異和檢測指標(biāo)的關(guān)聯(lián)。首先,我們使用預(yù)測分布和真實(shí)分布的KL散度來度量其分布差異。如左圖Figure 2所示,總體上top-K越大相應(yīng)的KL散度越小。三個(gè)估計(jì)方法中,Geometric分布的KL散度大于其它兩種。
然后,我們觀察預(yù)測分布質(zhì)量和檢測效果的關(guān)聯(lián)。如右圖Figure 3所示,總體上KL散度越大(也就是說預(yù)測分布和真實(shí)分布差異越大),其對(duì)應(yīng)的檢測準(zhǔn)確率(AUROC)越小。但在三種估算方法上表現(xiàn)并不一樣,Geometric分布雖然KL散度整體大一些,但檢測準(zhǔn)確率整體卻高一些。對(duì)比紅星所代表的使用真實(shí)分布獲得的檢測準(zhǔn)確率,我們可以看到在Fast-Detect和LogRank上,Geometric分布所獲得檢測準(zhǔn)確率并沒有下降多少。而在Rank方法上,估計(jì)分布所獲得的準(zhǔn)確率反而比真實(shí)分布的檢測準(zhǔn)確率高。
更強(qiáng)的AI文本檢測效果

表1:五個(gè)大語言模型生成語料上的對(duì)比
在五個(gè)最新大語言模型生成的英文語料上,包括新聞、創(chuàng)意寫作和技術(shù)問答領(lǐng)域,我們對(duì)比了使用開源模型gpt-neo-2.7B的基線,使用gpt-3.5的Fast-Detect將AUROC 從平均0.90提升到0.95。
更顯著的多語言檢測效果

表2:六個(gè)語言上的檢測準(zhǔn)確率的對(duì)比
在多語言場景下,效果更加明顯。使用gpt-3.5的Fast-Detect將AUROC從使用gpt-neo-2.7B的平均0.88提升到0.97。
低誤報(bào)率條件下更高的召回率

圖4:在誤報(bào)率1%和10%(紅豎線)下的對(duì)比
在低誤報(bào)率條件下,我們可以看到使用更強(qiáng)的私有模型,F(xiàn)ast-Detect在不同的源模型生成的語料上都獲得了更高的召回率。
四、結(jié)語
主要結(jié)論: 使用預(yù)測的概率分布我們也能做到較高的AI生成文本檢測準(zhǔn)確率,說明這條技術(shù)路徑可行。使用更強(qiáng)大的模型,我們能獲得更高的檢測準(zhǔn)確率,說明更強(qiáng)大的模型本身也是更強(qiáng)大的檢測器。我們也許不用擔(dān)心模型越來越強(qiáng)生成的文本越來越難以檢測,因?yàn)樵絹碓綇?qiáng)的大語言模型本身也是越來越強(qiáng)的AI 生成文本檢測器。
未來展望:Glimpse使得文本檢測白盒方法突破現(xiàn)有的模型限制,產(chǎn)生了一條新的研究路徑。同時(shí),相應(yīng)的概率分布估計(jì)方法,也有可能幫助到其它方向的研究,比如幻覺檢測等。
llustration From IconScout By IconScout Store
-The End-
掃碼觀看!
本周上新!
“AI技術(shù)流”原創(chuàng)投稿計(jì)劃
TechBeat是由將門創(chuàng)投建立的AI學(xué)習(xí)社區(qū)(
www.techbeat.net) 。 社區(qū)上線600+期talk視頻,3000+篇技術(shù)干貨文章,方向覆蓋CV/NLP/ML/Robotis等;每月定期舉辦頂會(huì)及其他線上交流活動(dòng),不定期舉辦技術(shù)人線下聚會(huì)交流活動(dòng)。我們正在努力成為AI人才喜愛的高質(zhì)量、知識(shí)型交流平臺(tái),希望為AI人才打造更專業(yè)的服務(wù)和體驗(yàn),加速并陪伴其成長。
投稿內(nèi)容
// 最新技術(shù)解讀/系統(tǒng)性知識(shí)分享 //
// 前沿資訊解說/心得經(jīng)歷講述 //
投稿須知
稿件需要為原創(chuàng)文章,并標(biāo)明作者信息。
我們會(huì)選擇部分在深度技術(shù)解析及科研心得方向,對(duì)用戶啟發(fā)更大的文章,做原創(chuàng)性內(nèi)容獎(jiǎng)勵(lì)
投稿方式
發(fā)送郵件到
melodybai@thejiangmen.com
或添加工作人員微信(yellowsubbj)投稿,溝通投稿詳情;還可以關(guān)注“將門創(chuàng)投”公眾號(hào),后臺(tái)回復(fù)“投稿”二字,獲得投稿說明。
關(guān)于我“門”
將門是一家以專注于數(shù)智核心科技領(lǐng)域的新型創(chuàng)投機(jī)構(gòu),也是北京市標(biāo)桿型孵化器。 公司致力于通過連接技術(shù)與商業(yè),發(fā)掘和培育具有全球影響力的科技創(chuàng)新企業(yè),推動(dòng)企業(yè)創(chuàng)新發(fā)展與產(chǎn)業(yè)升級(jí)。
將門成立于2015年底,創(chuàng)始團(tuán)隊(duì)由微軟創(chuàng)投在中國的創(chuàng)始團(tuán)隊(duì)原班人馬構(gòu)建而成,曾為微軟優(yōu)選和深度孵化了126家創(chuàng)新的技術(shù)型創(chuàng)業(yè)公司。
如果您是技術(shù)領(lǐng)域的初創(chuàng)企業(yè),不僅想獲得投資,還希望獲得一系列持續(xù)性、有價(jià)值的投后服務(wù),歡迎發(fā)送或者推薦項(xiàng)目給我“門”:
bp@thejiangmen.com
點(diǎn)擊右上角,把文章分享到朋友圈
熱門跟貼