打開(kāi)網(wǎng)易新聞 查看精彩圖片

作者:張拳石、陳鷺

近些年,大模型的發(fā)展可謂是繁花似錦、烈火烹油。從 2018 年 OpenAI 公司提出了 GPT-1 開(kāi)始,到 2022 年底的 GPT-3,再到現(xiàn)在國(guó)內(nèi)外大模型的「百模爭(zhēng)鋒」,DeepSeek 異軍突起,各類大模型應(yīng)用層出不窮。

然而,無(wú)論在學(xué)術(shù)界還是在工業(yè)界,目前對(duì)大模型應(yīng)用的評(píng)測(cè)都是單純?cè)谀P洼敵鰧用媾袛嘟Y(jié)果的準(zhǔn)確性,而沒(méi)有從大模型內(nèi)在精細(xì)決策邏輯的角度來(lái)分析模型的可靠性。類比到人類社會(huì),「實(shí)現(xiàn)內(nèi)在精細(xì)邏輯對(duì)齊」才是實(shí)現(xiàn)人與人互信的基礎(chǔ)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs
  • Arxiv 地址:https://arxiv.org/abs/2410.09083

無(wú)法在內(nèi)在邏輯上與人類認(rèn)知溝通,也恰恰是黑盒智能模型無(wú)法取得信任的本質(zhì)——在可信問(wèn)題上的「人」「機(jī)」有別,其主要問(wèn)題并不在哲學(xué)、社會(huì)學(xué)方面,而是一個(gè)數(shù)學(xué)問(wèn)題:能否嚴(yán)格地證明神經(jīng)網(wǎng)絡(luò)在單個(gè)樣本上輸出背后的千萬(wàn)種不同變換,都可以在數(shù)值上嚴(yán)格表示為一個(gè)簡(jiǎn)單的邏輯圖模型。

但是,因?yàn)?a class="keyword-search" >神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu)與所需要的清晰邏輯解釋是天然沖突的,所以「從數(shù)學(xué)上嚴(yán)格地解釋大模型內(nèi)在的精細(xì)決策邏輯」長(zhǎng)期以來(lái)被認(rèn)為是一個(gè)不可能完成的問(wèn)題。好在沉舟側(cè)畔千帆過(guò),柳暗花明又一村。我們構(gòu)建了等效交互理論體系,發(fā)表了幾十篇論文,在一定程度上證明并成功實(shí)現(xiàn)了對(duì)大部分神經(jīng)網(wǎng)絡(luò)的符號(hào)化解釋。

https://zhuanlan.zhihu.com/p/693747946

https://mp.weixin.qq.com/s/MEzYIk2Ztll6fr1gyZUQXg

大模型金玉其外,敗絮其中

一旦有了嚴(yán)謹(jǐn)?shù)慕忉屝岳碚摴ぞ?,?dāng)我們可以清晰地解構(gòu)出大模型的內(nèi)在決策邏輯時(shí),我們驚訝地發(fā)現(xiàn),哪怕大模型在特定任務(wù)上展現(xiàn)出再高的準(zhǔn)確率,其內(nèi)在的決策邏輯表征可謂是一塌糊涂,甚至一半以上都是混亂的、完全與正常推理邏輯不沾邊的。

很多應(yīng)用需求是創(chuàng)造出來(lái)的。比如,在新的研究 [3] 中,我們以法律大模型為例,目前幾乎所有的法律大模型應(yīng)用僅僅關(guān)注判案結(jié)果的正確性,而忽視了法律推理過(guò)程中可能潛在的不公平和倫理風(fēng)險(xiǎn)。

然而,當(dāng)你第一次確切地解構(gòu)出一個(gè)法律大模型所使用的大量復(fù)雜、卻又一塌糊涂的決策邏輯時(shí),當(dāng)你在各種情景中驗(yàn)證了這些錯(cuò)誤邏輯的客觀存在及其數(shù)值嚴(yán)謹(jǐn)性時(shí),很多認(rèn)知就回不去了,就像見(jiàn)過(guò)元素周期表以后,五行煉丹也就回不去了。

我們發(fā)現(xiàn),法律大模型經(jīng)常錯(cuò)誤地將與案件無(wú)關(guān)的時(shí)間、位置信息視為法律判決的理由,或者「張冠李戴」地將一個(gè)被告的行為引為其他被告的判案依據(jù)。

時(shí)代洪流滾滾向前,讓我們看看都發(fā)生了什么。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 1. 對(duì) SaulLM-7B-Instruct 在案例 1 的解釋

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

需要注意的是,與或交互解釋顯示,不同于驚艷的應(yīng)用性能所展示的對(duì)大模型推理能力的想象,大模型的大部分決策邏輯并不是嚴(yán)密的、清晰的、層次化的邏輯鏈條,大部分交互概念僅僅表示詞匯之間的統(tǒng)計(jì)關(guān)聯(lián)性。類似于「詞袋」模型,當(dāng)大模型基于輸入 prompt 生成下一個(gè)單詞或 token 時(shí),其所依賴的交互效用大部分并沒(méi)有利用輸入上下文之間的邏輯關(guān)系,大部分決策依賴于詞匯間最淺表的統(tǒng)計(jì)關(guān)聯(lián)性來(lái)「盲猜」目標(biāo)單詞。

比如,在上文案例中,大模型僅僅根據(jù)「chased」為生成的判決結(jié)果「Assault」給出了 0.3811 的置信度,而單獨(dú)一個(gè)「with an axe」短語(yǔ)也會(huì)為「Assault」判決增加 0.4632 的置信度。

固然這些單詞與判決結(jié)果有統(tǒng)計(jì)意義的強(qiáng)相關(guān)性,但是大模型的決策依據(jù)并沒(méi)有試圖建模這些單詞與犯罪嫌疑人之間的切實(shí)關(guān)系,并沒(méi)有理解哪些犯罪嫌疑人做了什么事兒,也就導(dǎo)致了大模型可能產(chǎn)生一些看似正確的結(jié)果,但是其推理過(guò)程中可能潛在巨大的倫理風(fēng)險(xiǎn)。

例如,在下面的案例中我們將展示大模型常常將不同犯罪嫌疑人的行為進(jìn)行張冠李戴,使其他犯罪嫌疑人的行為影響到目標(biāo)犯罪嫌疑人的判罰。

案例:張冠李戴,根據(jù)其他犯罪嫌疑人的行為做出判決

模型:BAI-Law-13B [1]

輸入:On the morning of December 22, 2013, the defendants Andy and Bob deceived Charlie and the three of them had an argument. Andy chased Charlie with an axe and bit Charlie, causing Charlie to be slightly injured. Bob hit Charlie with a shovel, injuring Charlie and shovel causing Charlie's death.

輸出:Intentional Injury,輸出置信度數(shù)值 2.3792

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 3. 對(duì) BAI-Law-13B 模型和 SaulLM-7B-Instruct 模型在案例 1 上的解釋

法律 LLM 很大一部分交互模式錯(cuò)誤地使用了犯罪嫌疑人的行為來(lái)對(duì)另一個(gè)無(wú)關(guān)的犯罪嫌疑人做出判決,顯示出大模型存在的一種典型缺陷——張冠李戴。

大模型傾向于記憶敏感詞語(yǔ)(如武器)與輸出結(jié)果之間的相關(guān)性,而不是理解輸入 prompt 中真正的邏輯,例如識(shí)別誰(shuí)做了哪些行為。

案例顯示,Andy 咬傷 Charlie,構(gòu)成傷害罪,隨后 Bob 用鐵鍬擊打 Charlie,導(dǎo)致 Charlie 死亡。案例經(jīng)由法律專家將與判決相關(guān)的實(shí)體行為標(biāo)記為相關(guān)詞語(yǔ),與判決不相關(guān)的詞語(yǔ)標(biāo)記為不相關(guān)詞語(yǔ),以及將不應(yīng)影響判決的不正確的實(shí)體行為標(biāo)記為禁止詞語(yǔ)。

在這起案件中,當(dāng)法律大模型判決 Andy 行為的后果時(shí),「hit」「with a shovel」「injuring」和「death」等描述 Bob 的行為和后果的詞語(yǔ)應(yīng)被標(biāo)記為禁止詞語(yǔ),與Andy沒(méi)有直接關(guān)系。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

這里大模型用的不可靠交互比例為 55.5%-58.5%。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

圖 4.交互概念解釋率先揭示了大模型精細(xì)表征邏輯的隱患。大模型沒(méi)有建?!?a class="keyword-search" >長(zhǎng)鏈推理」邏輯,而使用大量「張冠李戴」的局部信息來(lái)生成判決結(jié)果,引起了不容忽視的倫理問(wèn)

圖 4 展示了 BAI-Law-13B 模型在中文案例上的解釋,判案所依據(jù)的大部分交互概念都是與目標(biāo)犯罪嫌疑人無(wú)關(guān)的張冠李戴的交互概念。

參考文獻(xiàn)

[1] Baiyulan Open AI Research Institute. 2023. Baiyulan Open AI. (2023). https://baiyulan.org.cn

[2] Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, and Michael Desa. SaulLM-7B: A pioneering Large Language Model for Law. arXiv preprint arXiv:2403.03883 (2024)

[3] Lu Chen, Yuxuan Huang, Yixing Li, Yaohui Jin, Shuai Zhao, Zilong Zheng, Quanshi Zhang, "Alignment Between the Decision-Making Logic of LLMs and Human Cognition: A Case Study on Legal LLMs" in arXiv:2410.09083, 2024.