Cognitive biases in natural language: Automatically detecting, differentiating, and measuring bias in text

自然語言中的認知偏差:自動檢測、區(qū)分和衡量文本中的偏差

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

摘要:

我們研究了一種自動檢測系統(tǒng)初步結果,該系統(tǒng)能夠檢測2016年認知偏見編碼表中包含的188種認知偏見,并將其應用于人類文本和人工智能生成的文本,并與人類基線表現(xiàn)進行比較。人類基線是通過一個小型但多樣化的志愿者群體獨立提交他們檢測到的每個樣本中的認知偏見而構建的集體智慧,由于缺乏既定且相關的基準,因此將其用作該任務的近似真實情況。結果顯示,該系統(tǒng)的性能高于平均水平的人類,但低于表現(xiàn)最好的人類和集體,并且在編碼表的24個類別中的18個子類別中表現(xiàn)更好。該系統(tǒng)的這一版本還被應用于分析對當時表現(xiàn)最好的5種封閉源和開源大型語言模型提出的150個開放式問題的回答。第二階段的結果表明,在分析人類生成文本時觀察到的大約一半類別中,認知偏見的檢測率明顯更高。還考慮了模型污染的水平,其中觀察到模型給出了預先準備好的回答。兩種類型的污染。每個模型中檢測到的認知偏見水平既相互比較,也與第一階段的數(shù)據(jù)進行比較。

關鍵詞:人工智能、倫理、認知偏見、檢測、決策制定、虛假信息、注意力經(jīng)濟、自然語言處理、基準測試、集體智慧

引言

認知偏見有多種形式,正如過去幾十年無數(shù)研究人員(包括諾貝爾獎得主和著名作者)所記錄的那樣 [1-8]。2016年發(fā)布的《認知偏見編碼表》[9]展示了188種認知偏見,是少數(shù)幾個匯集了100多種認知偏見的罕見來源之一。然而,檢測這些認知偏見通常既困難又耗時。

部分由于檢測的難度、勞動強度以及任務范圍,據(jù)我們所知,尚未有全面的研究建立認知偏見檢測的基準。沒有基準來確定人類在這一檢測任務中的基線表現(xiàn),就無法量化自動化檢測系統(tǒng)開發(fā)的進展。

為此,我們邁出了建立人類檢測認知偏見基準的第一步,涵蓋2016年編碼表中列出的188種認知偏見。我們還開發(fā)并測試了一個新穎的軟件系統(tǒng),以嘗試完成相同的任務,初步的比較結果將在以下章節(jié)中展示。所有數(shù)據(jù)都可供進一步分析、擴展,目前階段可以向研究社區(qū)和其他感興趣方提供對系統(tǒng)的訪問權限。

在科學史上,一個模式反復出現(xiàn):每當人類能夠檢測、區(qū)分和測量某事物時,該領域及其相關領域的進展就會大大加速。這在很大程度上歸功于科學方法的運作方式,其中信息的確定性和粒度的增加極大地改善和擴展了可以測試和發(fā)現(xiàn)的內(nèi)容。

我們的目標是促進這一進程,首先專注于文本中的認知偏見。這一領域的進展可以幫助解決與社交平臺和信息生態(tài)系統(tǒng)中的信息質(zhì)量和虛假信息相關的許多具體問題,并更廣泛地促進科學進步。

本文的結構如下:

1. 引言

2. 方法論:人類和大型語言模型(LLM)階段

3. 假設:人類和大型語言模型(LLM)階段

4. 限制:人類和大型語言模型(LLM)階段

5. 結果:人類基線研究

6. 結果:大型語言模型輸出比較測試

7. 研究數(shù)據(jù)

8. 未來工作

9. 討論

10. 結論

2. 方法論

2.1 人類基線階段

首先,從各種知名公眾人物中選取了150條引文,用于進行認知偏見檢測過程。這些引文的作者被記錄下來,但在人類或軟件系統(tǒng)檢測過程中并未共享。這150條引文被兩個獨立版本的系統(tǒng)分析,從2016年認知偏見編碼表中結構化的認知偏見頂層類別逐步深入。

用于與人類比較的版本可以檢測4個頂層和20個次級類別的偏見,而188種單獨的認知偏見則位于這一層級之下。這一選擇主要是為了限制人類志愿者的認知負荷和所需勞動。

隨后,我們在LinkedIn和Discord上向我們的擴展網(wǎng)絡分享了開展這項研究的意圖,在幾周內(nèi)招募了大約十幾名志愿者。第一批志愿者收到了完整的150條引文,每種形式的引文都以獨特的隨機順序保存,并與志愿者相對應。

在此過程中,我們發(fā)布了三份文件,可在補充文件中查看,包括一頁的指導說明和方法論概述、一份簡要介紹2016年編碼表中記錄的188種認知偏見的文件,以及檢測任務文件本身。檢測任務文件格式為Excel電子表格,針對每條引文的24個認知偏見類別均設有下拉菜單,可選擇“是”“否”或“可能”。該文件的第二個標簽頁給出了一個不在150條引文之內(nèi)的引文示例,由我們團隊成員填寫。第三個標簽頁包含6個補充問題,詢問志愿者是否具有與該任務相關的任何先前專業(yè)經(jīng)驗,如有,則詢問具體地點、最新職業(yè)、所使用完成方法、研究偏見所花費時間以及完成任務所花費時間。

在一周內(nèi),我們的第一位志愿者完成了任務,總共花費了40小時。但在接下來的兩周內(nèi),沒有其他志愿者能夠完成任務,且有一名志愿者退出。我們對任務進行了修訂,將引文數(shù)量減少到完整的150條中的前50條。在與志愿者進行進度檢查時,那些在接下來的3周內(nèi)指出任務困難的志愿者被提供了這50條引文的選項,所有提供的選項都被接受了。方法與完整的150條引文保持一致,只是總數(shù)減少了。

后續(xù)志愿者以滾動方式獲得任務,使用相同的方法,這一過程仍在進行中。

2.2 LLM測試階段

首先,選擇了“開放式”問題這一類別,這種方式可以為大型語言模型(LLMs)提供最大程度模仿人類認知偏見的機會,因為這類問題避免了存在“絕對正確答案”的問題。在尋找此類問題的集合后,選擇了被廣泛歸類于哲學領域的問題領域,因為它提供了一些包含超過250個示例問題的列表。從其中一個列表 [10] 中選擇了150個問題,主要是按順序瀏覽這些問題,但移除了一些可能存在問題的問題,例如“1 + 1是否總是等于2?”。這些問題涵蓋了廣泛的主題,從提出深刻且極具爭議性的問題(例如人類是否有自由意志)到更隨意的問題(例如熱狗是否是墨西哥卷餅)。

在測試中選擇了排名前五的LLMs,這些模型的選擇基于它們在行業(yè)中被基準測試為表現(xiàn)最佳的私有和閉源模型,包括GPT-4、Claude(v1)和Bard(PaLM-2),以及在測試時在性能和盲測比較評級方面位居排行榜前列的開源模型,分別是Falcon-40b-instruct和Vicuna-13b。

這些模型在每個LLM運行的參數(shù)上提供了不同程度的控制,范圍從GPT-4的游樂場環(huán)境提供的許多變量,到Bard完全不提供變量。由于這些模型的響應長度范圍和變量(包括溫度和Top P)僅部分重疊且控制有限,因此參數(shù)被設置為溫度1、Top P為1,并盡可能將響應長度設置為64個標記。所選的溫度和Top P值也是GPT-4的默認值,但默認的256個標記被減少到64個,以防止與任何單一模型的默認值完全重疊。

在無法控制響應長度的情況下,使用384個字符的字符限制來近似64個標記的最大長度。當響應以一個單詞的片段結束時,無論是由于它是最后一個標記還是被字符限制截斷,該片段都會被移除。這種單詞片段的移除是由于標記的潛在不一致性,以及字符限制不受這些可變標記的限制。選擇這個長度限制是基于一些被測試模型的典型響應長度,同時也增加了與前一階段測試的人類引文長度的相似性。

這150個問題分別被提交給這5個模型,并記錄了它們的響應,供檢測系統(tǒng)進行分析。在這一過程中,記錄了包含“我是一個大型語言模型”某種變體的響應,這些聲明與被問到的問題無關。此外,Claude表現(xiàn)出的一個強烈模式促使我們增加了第二個需要注意的類別,即以“這是一個復雜……”的固定回應開頭的響應。檢測系統(tǒng)被給予所有750個總響應,逐一進行認知偏見檢測。

在極少數(shù)系統(tǒng)未能檢測到類別或子類別的情況下,系統(tǒng)被給予第二次機會運行分析,以驗證結果,并防止任何短暫的網(wǎng)絡通信故障影響分析。第二次檢測失敗的少數(shù)案例在數(shù)據(jù)中被記錄為“檢測失?。?次)”。這一階段的其他所有問題僅運行了一次分析。

在分析過程中,模型因給出“我是一個大型語言模型”這種回應的變體而受到懲罰,默認為最大偏見,因為這些回應是固定回應污染的強烈信號,被標記為“硬污染”,對于一個原本是統(tǒng)計模型的系統(tǒng)來說。鑒于Claude表現(xiàn)出的模式,考慮了這種懲罰,但由于Claude既表現(xiàn)出單獨的“我是一個大型語言模型”回應,又表現(xiàn)出以“這是一個復雜……”開頭的回應隨后繼續(xù)討論每個問題的主題,因此對這些樣本進行了正常的檢測。后一種模式被標記為“軟污染”,因為它給出了固定回應污染被附加到回應開頭的明確信號,但避免了完全偏離問題進入“我是一個大型語言模型……”。

固定回應在所有情況下可能并不都是不可取的,但對于認知偏見檢測的目的來說,“硬”類型的固定回應可以被視為可能的最高水平的偏見,甚至超出了人類在技術上可能達到的程度。話雖如此,其他人也可以使用相同的數(shù)據(jù)來測試其他方法,包括在任何這種固定回應可能更可取的上下文中。

3. 假設

3.1 人類基線階段

基于已有的文獻 [1-9, 11-12],我們假設以下關鍵點:

1. 個體人類通常只能以合理的準確性檢測到一部分認知偏見,這基于他們自身的視角。

“視角會束縛和蒙蔽” —— 喬納森·海特 [11]

這一假設使我們預期人類會更頻繁地產(chǎn)生假陰性結果,并且根據(jù)個體視角表現(xiàn)出更大的變異性。許多認知偏見專門針對人類如何無意識地忽視信息和過程。由于認知偏見通常旨在最小化復雜性和認知負荷,因此在大多數(shù)情況下,人類更有可能避免看到不存在的認知偏見(假陽性)。

2. 這些個體檢測可以通過集體智慧的方法進行整合,從而從多樣化的視角中產(chǎn)生更強大的集體檢測 [12]。

這一假設指導我們應用于整合志愿者偏見檢測數(shù)據(jù)的分析方法。特別是,我們應用基于志愿者之間所有可能配對的“是”和“可能”陽性檢測的成對比較分析方法,以及與系統(tǒng)的比較。這種方法在志愿者群體較大時可能會變得繁瑣,因為每個志愿者都必須與其他志愿者進行比較,使用完整的50×24的檢測矩陣,總共1200個數(shù)據(jù)點。然而,對于小群體來說,這為從所有志愿者中篩選、加權和整合數(shù)據(jù)提供了足夠的價值。

3. 花費更多時間研究和執(zhí)行任務的人更有可能產(chǎn)生更準確的檢測結果。

這一假設是我們包含與研究和執(zhí)行任務所花費時間相關的補充問題的主要原因。這些數(shù)據(jù)也被整合到用于加權每個個體志愿者檢測結果的公式中。盡管樣本量有限,但基于工業(yè)革命中看到的流水線式處理過程 [13],我們預測了那些逐列完成任務的人與逐行完成任務的人所需時間的差異。這可能是由于在轉(zhuǎn)向下一個類別之前,重復檢測同一類別50次比在50個樣本中循環(huán)檢測所有24個類別更容易。這與任務切換的認知成本有關,已知這種成本會更快地消耗神經(jīng)元 [14]。

4. 在與其他志愿者的比較一致性矩陣中得分較高的人通常更有可能產(chǎn)生更準確的檢測結果。

這個假設也被納入了志愿者數(shù)據(jù)加權的過程中,目的是為了將其整合到所有志愿者的集體智慧中。這是通過使用個體志愿者與其他人的平均一致性得分除以所有志愿者的平均一致性得分來應用獎勵或懲罰的。確切的公式在分析部分和研究的相關文件中都有展示,供任何感興趣的各方擴展、應用變體,并進一步分析。

5. 社會集體選擇記住的引文,平均而言,更可能包含和/或引發(fā)更易察覺的認知偏見。

這個假設指導了我們志愿者和檢測系統(tǒng)所檢查的引文的選擇。特別是關注了許多與記憶強烈相關的偏見,這些偏見可能在這些引文被保存和重復時發(fā)揮了影響作用。通過選擇這些類型的引文,我們也希望激發(fā)更多批判性思考和對潛在偏見的認識,當遇到、記住和重復這些流行引文時。進一步了解社會選擇記住這些有影響力的引文是如何隨著時間的推移被選擇的,以及它們對社會的影響,都可以作為進一步研究的考慮。

6. 引入金錢激勵會導致視角的轉(zhuǎn)變,因為價值從目的驅(qū)動的視角轉(zhuǎn)變?yōu)榻疱X收益 [15],我們認為這是不可取的偏見來源,并將其排除在本研究之外。

這個假設基于先前的研究,這些研究記錄了當任務從目的驅(qū)動轉(zhuǎn)向金錢補償時,心理轉(zhuǎn)變的發(fā)生,以及預算限制。我們選擇避免在志愿者過程中引入任何金錢補償。我們的團隊中沒有任何成員獲得金錢補償,系統(tǒng)的計算成本在最初的自費測試中被覆蓋,隨后通過創(chuàng)始人項目提供的免費積分來覆蓋LLM輸出的測試 [16]。該項目與研究無關,也不了解研究,只是默認提供這些積分以鼓勵創(chuàng)業(yè)活動。以這種方式避免了潛在的認知轉(zhuǎn)變和其他金錢沖突。未來研究的一個潛在問題是,這種視角的轉(zhuǎn)變是否脫離金錢激勵在檢測認知偏見方面提供了任何具體的好處。

3.2 LLM測試階段

我們假設以下幾點關鍵點:

1. 開放式問題可能會增加潛在響應的變異性。

這一假設是基于對許多大型語言模型(LLMs)現(xiàn)在訓練的互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)中啟發(fā)式方法的部分可見性和理解,其中缺乏絕對正確答案的開放式問題可能會提供更豐富多樣的人類響應。這種潛在的更大變異性有助于減少達到任何特定響應必然由更直接因素主導的可能性,從而允許次要因素和更高層次的模式發(fā)揮更大的潛在影響。

2. 潛在響應的變異性增加也會增加LLMs在此過程中可能展示的認知偏見的種類。

這一假設是,可能表達的某些潛在認知偏見更有可能存在于次要因素和更高層次的模式中,如上所述。盡管一些偏見可能在回答更受限制的問題時頻繁且強烈地被觀察到,但許多偏見的存在正是為了應對無界或界定不清的問題所帶來的認知負荷大幅增加。為了更好地理解LLMs可能模仿的整個認知偏見譜系,我們假設這種減少的界定可能提供一個更完整的偏見表達圖景。

3. 溫度為1可能在下一個標記預測中提供一定程度的變異性,假設在每一步為每個模型測試時,都能跨越相對小的高概率選項分布。

這一假設指導了參數(shù)的選擇,盡可能選擇溫度值為1,這既是為了進一步增加可能表達的認知偏見的潛在譜系,也是因為1的值對于某些系統(tǒng)來說是最大值,而對于表現(xiàn)最好的系統(tǒng)GPT-4來說,根據(jù)大多數(shù)基準測試,它是中位數(shù)。

4. 模型可能能夠在與前一階段用于人類引文的大致相同的響應長度上限內(nèi)展示可測量的認知偏見水平。

這一假設基于這樣的預期:旨在模仿人類響應的系統(tǒng)平均而言也應該能夠使用與人類生成的文本相似長度的文本展示可測量的認知偏見水平,如前一階段的測試引文。

5. 我們假設這些選擇都不會與被測試的模型架構直接沖突,因為缺乏對閉源模型進行驗證所需的透明度。

這一假設是出于實際必要性,因為要實現(xiàn)跨所有測試的閉源和開源模型所需的透明度水平以堅定驗證變量的最佳選擇將極其困難。這種最佳選擇甚至可能在完全無偏見的意義上都是不可能的。

4.限制

4.1人類基線階段

由于這項任務在認知上和勞動上的密集性,以及迄今為止完成這項任務的志愿者數(shù)量較少,志愿者的樣本量仍然低于統(tǒng)計顯著性及其相關分析方法所需的典型閾值30。因此,這項工作作為我們的初步發(fā)現(xiàn)呈現(xiàn),并且已經(jīng)與世界各地的多位教授和大學進行了聯(lián)系,目的是將這些數(shù)字提高到統(tǒng)計閾值以上。

平均每個志愿者需要超過10小時的時間,包括學習時間和任務執(zhí)行時間,才能完成對50條引文的24個類別的檢測,產(chǎn)生1200個數(shù)據(jù)點。唯一成功完成150條引文的志愿者總共需要40小時。由于志愿者在執(zhí)行這項既困難又耗時的任務時沒有報酬,完成這項任務的人數(shù)相應有限。從5名志愿者那里收集這些完成的任務花費了5周時間,這導致了我們決定發(fā)布這些初步發(fā)現(xiàn),并希望能加速研究進程。

值得注意的是,成功完成這項任務的志愿者樣本在如此小的樣本量中異常多樣化,覆蓋了3個大洲,年齡范圍跨越了30多年,且每個人來自不同的職業(yè)。雖然這種多樣性可能會使統(tǒng)計分析中創(chuàng)建典型分布變得復雜,但它為基于集體智慧的系統(tǒng)增加了可衡量的價值,這些系統(tǒng)專門設計用來通過更好地利用多樣性來減少認知偏見。并非所有這些數(shù)據(jù)都包含在6個補充問題中,因為它們是通過我們志愿者的公開資料觀察到的,但可以通過一組后續(xù)問題正式化。

在如此廣泛的范圍內(nèi)檢測認知偏見以及僅使用文本進行檢測的任務也缺乏一個牢固建立的基準真相,例如讓30多名認知偏見專家各自執(zhí)行任務并建立一個廣泛接受的基準。這些專家分析的內(nèi)容也可以進一步為此目的進行定制。

缺乏這樣的基準真相,我們應用集體智慧方法來近似這樣一個基準提供的價值,使用我們志愿者的數(shù)據(jù)。有許多不同的方法可以將這些數(shù)據(jù)整合成一種集體智慧的形式,我們并不假設我們?yōu)檫@項研究選擇的方法是最優(yōu)的,它們只是第一次迭代。

4.2 大型語言模型(LLM)測試階段

這一階段主要受到每個模型提供的可調(diào)參數(shù)差異的限制。GPT-4、Claude和Vicuna提供了所有考慮的可調(diào)參數(shù),F(xiàn)alcon提供了溫度參數(shù),而Bard沒有提供任何參數(shù)。對每個模型的測試訪問要么是通過像Lmsys.org這樣的平臺免費獲得的(對于Vicuna [17])或HuggingFace(對于Falcon [18]),要么是通過游樂場環(huán)境或API密鑰獲得的(對于GPT-4、Claude和Bard)。

5. 結果:人類基線研究

這一階段的結果結合了幾種比較和整合的方法,專注于從群體中培養(yǎng)集體智慧的既定方法[12, 41]。特別是,我們專注于那些不需要集體成員之間直接互動的方法,據(jù)我們所知,志愿者彼此從未見過面,也沒有在研究期間相互交流。

提供給志愿者的樣本的隨機順序通過使用排序鍵恢復到原始順序。在將所有完成的樣本恢復到相同的樣本順序后,每個樣本可以直接進行比較。

第一種方法是為所有可能的志愿者組合建立成對比較,以及將每個志愿者與檢測系統(tǒng)進行比較。這比較了每個志愿者在1200個認知偏見檢測數(shù)據(jù)點上的一致性水平,這些數(shù)據(jù)點是由每個志愿者提交的。如果兩位志愿者都選擇在同一個引文的特定類別的認知偏見是“是”、“可能”或一個“是”和一個“可能”,則為該特定數(shù)據(jù)點建立了一定程度的共識。

打開網(wǎng)易新聞 查看精彩圖片

從每個50個樣本和24個類別的矩陣中計算得出每一對志愿者在所有類別上的平均值,并將這些類別的平均值合并成一個單一的平均值,用于成對陽性一致性矩陣。

打開網(wǎng)易新聞 查看精彩圖片

這種共識度的測量使我們能夠量化并比較各個志愿者與他們的同伴達成相同檢測結果的頻率。它還提供了一些關于整體偏見檢測率較高和較低的志愿者之間差異的洞見。

打開網(wǎng)易新聞 查看精彩圖片

由于志愿者之間的工作方法存在差異,我們根據(jù)以下指標對個人時間投入進行了標準化處理:

我們發(fā)現(xiàn),志愿者是逐列工作還是逐行工作,完成時間存在顯著差異,平均差異為86%。我們沒有觀察到基于志愿者選擇的工作方法,其平均一致性矩陣得分存在顯著差異。

我們還根據(jù)個人相對于平均二級偏見檢測距離均值的二級偏見檢測距離進行了標準化處理。這是對小樣本量的一種模擬形式的回歸均值[19],但不如均方誤差(MSE)[20]那么強烈。

我們還根據(jù)個人相對于志愿者中平均一致性矩陣得分的正向一致性矩陣得分進行了標準化處理。

這些標準化方法單獨使用可能帶來潛在的好處,但它們是特別組合應用的,目的是為了減少由于志愿者樣本量小而可能由任何一種方法引起的噪聲。使用這4個因素來相互減少潛在的噪聲,即使在更大的樣本量中也可能有用。

測試了更復雜的方程,包括添加缺失值懲罰,但為了簡單性和普遍適用性,選擇了上述4個因素。

打開網(wǎng)易新聞 查看精彩圖片

這些權重用于將所有志愿者的檢測結果合并成一個集體檢測的過程中。首先,通過VLOOKUP函數(shù)和一個為每個響應分配數(shù)值的表格,將“是”、“否”和“可能”的響應轉(zhuǎn)換為數(shù)字??梢哉{(diào)整一個名為“人類技能”的變量,其中“是”的值等于人類技能值,“可能”的值等于該值的一半,“否”的值等于0,缺失值保持為空。

目前,人類技能值設定為2,這與我們所述的假設一致,但如果一組在認知偏見檢測方面具有更高平均專業(yè)水平的志愿者完成任務,這個值可能會降低。

在被轉(zhuǎn)換成數(shù)字、加權和平均之后,每個數(shù)據(jù)點隨后被轉(zhuǎn)換成布爾值(True/False)的認知偏見檢測結果。然后,這組集體檢測結果可以與認知偏見檢測系統(tǒng)進行比較。

打開網(wǎng)易新聞 查看精彩圖片

總體而言,我們的志愿者在檢測認知偏見方面的能力顯著高于中位數(shù)志愿者,一些檢測模式顯現(xiàn)出來,其中集體和系統(tǒng)獨立地達到了類似的檢測水平。然而,在這次比較中,也突顯出系統(tǒng)固有能力遠低于我們中位數(shù)志愿者表現(xiàn)的幾個弱點。

打開網(wǎng)易新聞 查看精彩圖片

這為我們提供了一個有用的,但初步的近似,即檢測系統(tǒng)在所有類別中與我們的人類志愿者在認知偏見的正向和負向檢測方面達成一致和不一致的方式。對于任何這樣的系統(tǒng)來說,低誤報率尤其重要。

打開網(wǎng)易新聞 查看精彩圖片

系統(tǒng)的檢測結果明顯低于人類集體的檢測結果。這些子類別可能需要進一步的數(shù)據(jù)來構建足夠強大的模型,以涵蓋它們所包含的一些或全部偏見。它們也可能僅使用文本更難檢測,或者需要更長篇的文本樣本。即使去掉表現(xiàn)最差的四分之一的認知偏見類別,人類集體和檢測系統(tǒng)之間的一致性也大大提高。

表現(xiàn)最差的二級類別包括:

1. BC1: S1 - 我們傾向于偏愛看起來簡單、信息完整的選項,而不是復雜、模棱兩可的選項。

2. BC1: S3 - 為了完成任務,我們傾向于完成我們已經(jīng)投入時間和精力的事情。

3. BC2: S1 - 我們將當前的心態(tài)和假設投射到過去和未來。

4. BC2: S6 - 即使在查看稀疏數(shù)據(jù)時,我們也傾向于尋找故事和模式。

5. BC3: S1 - 我們更容易注意到別人的缺陷,而不是自己的缺陷。

6. BC4: S1 - 我們根據(jù)經(jīng)歷的方式不同來存儲記憶。

打開網(wǎng)易新聞 查看精彩圖片

盡管在表現(xiàn)上仍存在一些差異,但在認知偏差檢測方面,這18個類別表現(xiàn)出更大的相似性,檢測系統(tǒng)和表現(xiàn)最好的類別之間達成了合理的共識,并且在許多點上相互交叉。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

盡管結果尚屬初步,但將檢測系統(tǒng)與全體比較,以及將中位數(shù)志愿者與全體比較時,無論是針對全部24個類別還是表現(xiàn)較好的18個類別,相對差異似乎都支持了該假設,即系統(tǒng)在6個較弱的類別中缺乏足夠的數(shù)據(jù)。正如文中所述,這也可能表明這些類別中的某些或全部在文本中更難以檢測,或者需要更長的文本樣本才能通過自動化系統(tǒng)進行準確檢測。隨著檢測系統(tǒng)的進一步開發(fā),這一假設將得到進一步探討。

在選擇了檢測系統(tǒng)目前表現(xiàn)最好的18個類別之后,我們重新使用這一子集進行一致性矩陣比較。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

為了進一步驗證將我們?nèi)祟愔驹刚叩妮斎虢Y合起來創(chuàng)建人類集體智慧的方法,人類集體的檢測結果隨后通過上述相同的成對比較方法進行了比較。出于說明目的,這些矩陣被整合為下面的幾張圖表。

打開網(wǎng)易新聞 查看精彩圖片

通過成對共識矩陣,人類集體整合了更多的志愿者數(shù)據(jù),從而與所有志愿者達成了更高的平均一致水平。這為我們提供了一個臨時的基準,相對于個體志愿者和系統(tǒng),可以近似人類集體的價值。

將人類和檢測系統(tǒng)的數(shù)據(jù)結合起來形成混合形式的集體智慧的方法,可能為未來的研究提供了一個有希望的方向。關于如何將志愿者數(shù)據(jù)結合起來形成人類集體的方程可能需要針對更大的樣本量進行調(diào)整,如上所述,但鑒于目前可用的數(shù)據(jù),它似乎足夠好,可以用于初步比較。一種方法可能是使用志愿者的平均權重加上系統(tǒng)相對于平均志愿者在一致性矩陣得分上的相對增益。

將集體與個體和系統(tǒng)進行比較,也可以幫助在將它們整合到這種混合集體中時,為每個因素分配適當?shù)臋嘀?。然而,研究等權重方法[21]也值得調(diào)查和比較。

打開網(wǎng)易新聞 查看精彩圖片

在檢測系統(tǒng)運行期間,還手動收集了一些時間數(shù)據(jù),檢測處理時間從大約5秒到大約20秒不等,以遍歷所有24個類別。這是在優(yōu)化之前的,如果這些檢測針對并行處理和重組進行了優(yōu)化,那么對于24個類別可以預期超過12倍的性能提升,而對于188個單獨的偏見,當系統(tǒng)配置為以該模式運行時,性能提升將更為顯著。

為了在相關估算中保持所有不確定性的保守性,使用了每樣本20秒的數(shù)據(jù)。進一步的研究將包括配置檢測系統(tǒng),以便為每個處理的樣本輸出精確的處理時間戳,這可能會提供進一步的有趣見解。

打開網(wǎng)易新聞 查看精彩圖片

盡管表現(xiàn)最好的人類可能仍然比這個早期版本的系統(tǒng)高出16%,而人類集體可能比它高出34%,但每個都伴隨著極高的時間和成本差異。即使與系統(tǒng)以3%的優(yōu)勢擊敗的普通人類相比,時間和成本差異分別超過40倍和190倍。對于表現(xiàn)最好的人類和集體,這些數(shù)值分別大致翻倍和增加五倍。對檢測系統(tǒng)應用幾種形式的優(yōu)化可能會在節(jié)省時間方面取得非常顯著的收益,并且可能也會節(jié)省成本。

這從部署的角度來看很重要,它還突顯了今天已經(jīng)存在的兩步流程新版本的潛力,例如社交媒體審核系統(tǒng),其中第一步是自動檢測,第二步是交給人類審核員。隨著優(yōu)化后的系統(tǒng)能夠在以前對自動化系統(tǒng)來說難以接近的任務上比人類快一千到一萬倍,許多新選項可能會變得可行。

增加志愿者樣本量的外展工作仍在進行中,已聯(lián)系了許多大學的教授,但使用了多種分析方法和標準化來補償這一小樣本量。其中一些方法,如成對比較,如果繼續(xù)超過標準樣本量30+,可能會變得極其繁瑣,因為它們的擴展性很差。這種成對方法對于規(guī)模在5到12人的團隊的集體智慧方法更為理想。然而,任何感興趣的研究人員都可以應用他們想要的分析方法和通過更多志愿者擴展數(shù)據(jù)的方法。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

盡管人類生成的引述和開放式問題的答案在內(nèi)容上相當不同,但在交流中使用的認知偏差表現(xiàn)出相當程度的相似性。表現(xiàn)最好的個體和集體在人類生成的數(shù)據(jù)上的檢測率似乎更符合檢測系統(tǒng)在人工智能生成數(shù)據(jù)上的檢測率。這可能是大型語言模型(LLMs)運作方式的一個副產(chǎn)品,導致它們的輸出比人類生成內(nèi)容中觀察到的相對較高的變化性更容易被檢測系統(tǒng)建模。

除了不同LLMs之間認知偏差檢測的差異外,還觀察到了之前提到的“硬”和“軟”污染兩種類型的幾個顯著差異。在一個模型中還觀察到了完全檢測失敗率的微小差異。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

這些結果仍然是初步的,任何有興趣的人士,只要能夠訪問這些大型語言模型(LLMs)的API,都可以在此基礎上進行進一步的研究。所有上述分析的數(shù)據(jù)都將公開,以鼓勵認知偏差檢測研究的進步,并且可以根據(jù)請求提供對我們系統(tǒng)的訪問權限。

7. 研究數(shù)據(jù)

所有由志愿者提交的完成內(nèi)容都被單獨保存,并添加到一個更大的Excel文件中,以便更容易地比較、合并和進一步分析數(shù)據(jù)。所有發(fā)送的文件的副本也被保留。一個包含志愿者姓名和聯(lián)系信息的保密文件被保存,這可能被用于原始研究團隊的后續(xù)問題,或者在每個志愿者允許他們的信息被分享給其他研究人員之后,他們可能會被其他方直接聯(lián)系。由于大多數(shù)補充數(shù)據(jù)是任務導向的,而不是人口統(tǒng)計學的,除了最近的職位,志愿者的匿名化風險主要來自志愿者自己,而不是補充問題。

所有文件,包括兩個階段的數(shù)據(jù)和對這些數(shù)據(jù)的分析,都可以獲取,以幫助加速這一領域的進一步研究。檢測系統(tǒng)的訪問也可以根據(jù)研究人員、媒體和其他感興趣的各方的請求提供。隨著我們可用資源的增加和/或該工具潛在的開源,可能會提供更大規(guī)模的訪問權限。

這些文件的托管位置將通過以下地址保持更新:

https://bias.transhumanity.net/2023-cognitive-bias-detection-system-study-files/

8. 未來工作

目前,已經(jīng)收集的數(shù)據(jù)有數(shù)十種以上的分析方法,并且至少有一個數(shù)量級的潛在研究方向。認知偏差如此深入地融入我們的思維過程中,以至于沒有它們?nèi)祟惥蜔o法正常運作。安東尼奧·達馬西奧(Antonio Damasio)關于人類情感的相關研究[22]強調(diào)了情感在人類決策中的作用,許多認知偏差與情感狀態(tài)密切相關[23]。還有復雜性與認知偏差之間的權衡[24],任何超過人類認知帶寬的復雜性都需要我們應用更高級別的認知偏差來補償,隨著復雜性的進一步增加。

可能需要未來十年數(shù)百或數(shù)千名研究人員的共同努力,才能充分利用利用技術自動檢測認知偏差所提供的潛在研究的低垂果實。應該鼓勵這種活動,使用所有可用的手段,因為對人類決策過程的可衡量改進可以極大地改善人類文明。

就我們而言,未來工作的若干方向是這項研究加速進展的優(yōu)先事項。首要任務是增加學術界的參與,讓更多志愿者完成認知偏差檢測任務,以提高人類基準數(shù)據(jù),超過應用傳統(tǒng)統(tǒng)計分析方法所需的閾值。

更多具有相關專業(yè)知識的教授的參與也可能導致建立專家人類基準,其中30多名該領域的專家建立一個基準,作為未來測試的更強大的比較。然而,也很清楚,當系統(tǒng)為基準訓練時,基準就不再有意義,因此需要避免直接在基準上訓練。這樣的基準也可以與非專家基準進行對比,以獲得進一步的見解。

進一步的研究還將利用檢測系統(tǒng)的全部能力,單獨檢測188種認知偏差,而不是在類別級別。從軟件開發(fā)的角度來看,這一能力已經(jīng)過測試,但由于人類在24個類別級別上建立檢測基準的極端困難,這種精確度在當前研究中是不可行的。運行校準以檢測2016年代碼集中的188種個體認知偏差的檢測系統(tǒng)也需要相應更多的資源,但這可以隨著時間的推移進行優(yōu)化。我們還將對其進行校準,以在后續(xù)階段為每種認知偏差和類別輸出確定性分數(shù),它生成但目前簡化為布爾值,以增加更大的精確度,并從演示系統(tǒng)轉(zhuǎn)變?yōu)閿?shù)據(jù)管道。出于優(yōu)化目的,還將添加處理時間戳。

除了這些首要任務外,我們團隊為系統(tǒng)提出的進一步計劃包括:

  • 將認知偏差檢測應用于單一來源的文本序列樣本。使用這種方法,偏差檢測的時間序列格式可能揭示認知偏差隨時間調(diào)用的順序模式,以及這些模式如何因個人、背景和意圖而變化。

  • 已經(jīng)收集了像伯尼·麥道夫、伊麗莎白·霍爾姆斯和山姆·班克曼-弗里德這樣的以前曝光的欺詐者的訪談數(shù)據(jù),可以與在不同程度上相似的個人列表進行比較。這可能有助于隔離社會工程和“說服”模式的認知偏差,如過去和未來的罪犯所展示的。

  • 這些領先的LLMs可能可以被訓練以減少它們調(diào)用認知偏差的級別和頻率。這將需要與封閉源模型密切合作,或者比我們目前可用的開源模型更多的資源。

  • 針對特定模式的認知偏差表達,如時間序列中的特定序列,可能是減少模型的社會工程和“說服”風險的有前途的方法。

  • 使用認知偏差檢測系統(tǒng)分析不同文化的內(nèi)容,以進一步了解文化對認知偏差的調(diào)用和表達的影響。最近的研究表明,不同語言的母語者在聽他們的母語時顯示出非常不同的大腦活動模式[25],因此可以預期會有明顯不同的認知偏差表達模式。

  • 與前一點類似,也可以分析不同領域的內(nèi)容,因為不同類型的專家往往有非常不同的思維方式。這些差異通常在抽象意義上被理解,但可能通過認知偏差檢測以及時間序列格式的認知偏差檢測來量化。

  • 分析由新聞推送算法、搜索引擎和更廣泛的推薦系統(tǒng)推廣和篩選的數(shù)據(jù)是另一個有前途的研究機會。這些通常不可見且極具影響力的系統(tǒng)嵌入在世界上許多最受歡迎的網(wǎng)站和應用程序的多個部分中,為現(xiàn)代世界提供了至關重要的功能。然而,我們目前對它們今天的實際運作知之甚少。

  • 將檢測系統(tǒng)的數(shù)據(jù)與人類的檢測數(shù)據(jù)結合起來是未來研究的另一個潛在有前途的途徑,因為集體智慧從多樣化的視角中受益。如前所述,檢測系統(tǒng)本身代表了一種不同的視角,結合此類系統(tǒng)的混合集體智慧可能證明具有實質(zhì)性的好處。這可能采取今天已經(jīng)存在的兩步流程的形式,例如社交媒體平臺上的任務,如審核。

進一步的工程工作,包括可能使用蒸餾方法為堆棧的新層減少計算開銷,如逐步蒸餾[26]以及更一般的系統(tǒng)優(yōu)化以便于部署的可擴展性正在考慮之中。像在本研究第二階段測試的LLMs這樣的系統(tǒng)如果被整合,也可能能夠提高整體系統(tǒng)性能。然而,這些將不得不等到研究得到適當資金后。

這樣的可擴展系統(tǒng)可以應用于各種社交媒體平臺,這些平臺有興趣減少認知偏差所助長的政治極化嚴重性,以及可能有助于減緩或控制錯誤信息在這些網(wǎng)絡中的傳播。這個特定的用例是我們努力嘗試隔離那些旨在社會工程和“說服”策略的人所涉及的認知偏差模式的一個關鍵激勵因素。

9. 討論

在本研究中,無論是在完成任務的志愿者中,還是在尚未完成任務的志愿者中,我們都在簡短且高度結構化的檢查交流中收到了三條富有啟發(fā)性的評論,這些交流是為了請求進度更新。志愿者們一致提到,認知偏差檢測任務比他們預期的要困難得多,耗時也更長,而且認知偏差的數(shù)量也遠遠超出了他們之前的認知。這反映了任務的認知難度、人類的認知耐力、一般能力以及公眾的普遍認知水平。

喬納森·海特將人類的認知偏差和高級認知比作“大象與騎象人”[28],其中高級認知位于認知偏差之上。這本身是對擬人化[29]的巧妙運用,以及幾種以故事為導向的認知偏差,例如離奇效應[30]。一項著名的研究及其后續(xù)著作被稱為“看不見的大猩猩”[31],這是另一個類似的涉及認知偏差子集的案例。人類的大腦每時每刻都會接收到比我們有意識處理能力更多的感官信息[32],除非是在感官剝奪室中。當人類被置于感官數(shù)據(jù)急劇減少的環(huán)境中,例如明尼蘇達州奧菲爾德實驗室的無回聲室[33]時,人類的大腦就會努力應對這種感官體驗的劇烈變化。

認知偏差部分旨在為我們提供一種比周圍世界實際存在的更穩(wěn)定、更連貫的感覺。我們傾向于使用諸如峰終規(guī)則[34]和持續(xù)時間忽視[35]等方法來“優(yōu)化”我們所記住的內(nèi)容。我們將不相關事件聯(lián)系在一起,并將其作為敘事元素,用來支撐我們所想象自己生活的虛構世界,例如樸素現(xiàn)實主義[36]和確認偏差[37]。這些認知偏差又會被其他偏差所強化,例如虛假相關[38]、樣本大小不敏感[39]以及啟發(fā)式可用性[40]。

盡管人們可能夢想著擺脫認知偏差,完全無偏見地評估這個世界,但這對于像我們今天這樣存在的人類來說既不可能,也不可取。如果假設人類能夠完全無偏見,那么他們的觀點也將幾乎完全相同。雖然這樣的場景可以為有趣的思維實驗提供素材,但它也直接與人類的進化方式、我們的學習方式以及我們所擁有的最強大的運作方法背道而馳。

集體智能可以通過多種方法來構建,例如在《噪聲》[41]一書中所描述的那些方法,而它之所以與集體超級智能同義,原因之一就是這種人類配置能夠減少認知偏差的影響,可靠地提高有效智能。然而,這并不意味著僅僅通過減少認知偏差就能達到理想的智能水平。

集體智能在很大程度上受益于其中所代表的視角多樣性,以及用于生成它的方法,而更多的思想多樣性則為集體智能的有效運作創(chuàng)造了更大的空間。根據(jù)我們對這種動態(tài)的理解,在有限的范圍內(nèi),一個偏見較少的人群可能與一個更具多樣性的群體表現(xiàn)相當,但許多更優(yōu)的解決方案需要由更大的多樣性所提供的更廣泛的范圍。

檢測、區(qū)分和測量認知偏差的重要性在于它為我們提供了極大的精確性,以進一步研究認知并改進我們的實踐。它可能被證明在檢測和解決特定有害的認知偏差和偏差表達模式方面極為有用,這些模式在其他情況下可能會造成巨大危害,例如防止社會工程威脅[42]和改善治理[43, 44]。

人類的認知帶寬是有限的,而我們所面臨問題的復雜性往往遠遠超出了這些有限的極限,但我們可以通過改進系統(tǒng)和方法來檢測和解決被用于對社會有害的方式的認知偏差。這些系統(tǒng)還可以與旨在克服復雜性與認知偏差權衡[45]的認知架構集成,并極大地協(xié)助這些系統(tǒng),使它們對人類整體的文化對齊和元對齊有更深入的理解。

我們的團隊目前正在準備這樣的系統(tǒng),而本研究中展示的認知偏差檢測系統(tǒng)是其中的一個小但重要的組成部分。我們之前的工作和系統(tǒng)專注于探索集體智能與第一個工作的認知架構——獨立核心觀察者模型(ICOM)[46]的結合,該模型在過去10年中開發(fā),并在2019年至2022年的Uplift.bio項目中得到展示[47]??朔碗s性與認知偏差權衡需要能夠檢測、區(qū)分和測量認知偏差,這使它成為我們工作的優(yōu)先事項。

2019年,凱爾廷·阿特雷德斯提出了一個理論,即認知偏差可以通過結構分析來檢測,并收集了一個小數(shù)據(jù)集,由一小群志愿者進行標記。這些數(shù)據(jù)來自我們團隊當時能想到的最具偏見的地方——4Chan論壇。當時典型的數(shù)據(jù)科學方法破壞了自然語言的許多結構數(shù)據(jù),將單詞轉(zhuǎn)換成其他形式,并將一切分解為標記和簡化的結構。

盡管一些早期的努力很有意思,但直到最近一系列為基于ICOM的系統(tǒng)設計的圖算法被整合到架構中,我們才達到了像現(xiàn)在這樣的可接受性能水平。其他改進版本的工具也被整合到我們計劃在今年晚些時候及以后部署的新系統(tǒng)中。然而,在本研究的第二階段測試的語言模型尚未包含在這些工具中,而且只有在引入新的圖算法后,性能才有了顯著提高。

當人類獲得了檢測微觀生物(如細菌和病毒)的能力時,我們對周圍世界中以前看不見的部分的理解發(fā)生了轉(zhuǎn)變。如果沒有這種檢測、區(qū)分和測量的能力,現(xiàn)代醫(yī)學、衛(wèi)生以及我們今天所擁有的大大提高的平均壽命都無法達到現(xiàn)在的水平。

認知偏差的世界在很大程度上一直對我們是隱形的,然而它就像我們周圍無處不在的細菌、病毒和其他形式的隱形生命一樣無處不在且極具影響力。人類今天所做的每一個決策,無論大小,無論是否擁有大量數(shù)據(jù),都主要受到認知偏差的支配。術語“決策衛(wèi)生”[48]被用來描述我們需要做出更健康、更明智決策的過程。有了能夠檢測所有已知形式認知偏差的系統(tǒng),或許這門新衛(wèi)生科學將向前邁進一大步,揭示我們周圍世界的另一個以前看不見的層面。

10. 結論

首個旨在檢測2016年認知偏差編碼手冊中記錄的188種認知偏差形式的軟件系統(tǒng),已經(jīng)在初步性能演示中通過了測試,與人類在相同任務上的表現(xiàn)相比,該系統(tǒng)表現(xiàn)良好。在第一階段,我們量化了志愿者在認知偏差檢測任務上的表現(xiàn),并將其整合為一組單一的集體智能認知偏差檢測。由于缺乏相關既定基準,這被用作近似的“真實檢測”標準。與該集體智能相比,檢測系統(tǒng)在如此早期的階段表現(xiàn)令人欽佩,大多數(shù)情況下高于平均人類表現(xiàn),但仍低于表現(xiàn)最佳的人類。在24種認知偏差的類別和子類別中,該檢測系統(tǒng)在其中18個子集的表現(xiàn)尤為出色。

在第二階段,檢測系統(tǒng)展示了相同的檢測能力,應用于分析當時表現(xiàn)最佳的5種封閉源代碼和開源大型語言模型(LLM)生成的文本。在大約一半的類別中,檢測到的偏差水平明顯高于第一階段人類生成文本中觀察到的水平。這可能是因為偏差的多樣性較低,從而更容易被檢測系統(tǒng)建模,或者是因為偏差更強烈,或者兩者兼而有之。

在這一過程中,還考慮了影響生成文本偏差水平的模型污染程度,通過觀察到的兩種類型的預設回應進行了分析。

需要進一步研究來驗證并復制這些發(fā)現(xiàn),但如果這些步驟能夠成功,我們現(xiàn)在可能已經(jīng)能夠自動檢測、區(qū)分和測量認知偏差,并且隨著這些能力的大規(guī)模部署,科學發(fā)現(xiàn)也將隨之而來。

11. 附錄

11.1 大型語言模型(LLM)階段答案收集參數(shù):

溫度:1,可調(diào)整

Top P:1,可調(diào)整,除非另有建議(Claude保持在0.9的默認值)

最大響應長度:64個標記

所有其他參數(shù)均保留為每個模型的默認值。

打開網(wǎng)易新聞 查看精彩圖片

自然語言中的認知偏差:自動檢測、區(qū)分和測量文本中的偏差

Kyrtin Atreides, David J Kelley

AGI實驗室

摘要:

我們檢驗了首個自動化系統(tǒng)在檢測2016年認知偏差編碼手冊中包含的188種認知偏差方面的初步結果,該系統(tǒng)應用于人類和AI生成的文本,并與人類基線性能進行了比較。人類基線是由一小群多樣化的志愿者獨立提交他們檢測到的每個樣本中的認知偏差構建的,這些志愿者在第一階段使用的任務中進行了檢測。由于缺乏任何先前建立的相關基準,這個基線被用作這項任務的近似真實值。結果顯示,系統(tǒng)的性能高于平均水平的人類,但低于表現(xiàn)最佳的人類和集體,在編碼手冊中的24個類別中的18個類別中表現(xiàn)更為出色。該系統(tǒng)的這個版本也被應用于分析對每個表現(xiàn)最佳的5個封閉源代碼和開源大型語言模型提出的150個開放式問題的響應,這些模型是在測試時表現(xiàn)最佳的。第二階段的結果顯示,在大約一半的類別中,認知偏差檢測的比率明顯高于分析人類生成文本時觀察到的比率。還考慮了兩種類型的模型污染對生成文本偏差的影響,其中模型給出了預設的回應。每個模型中檢測到的認知偏差水平不僅相互比較,還與第一階段的數(shù)據(jù)進行了比較。

關鍵詞:人工智能、倫理、認知偏差、檢測、決策、錯誤信息、注意力經(jīng)濟、自然語言處理、基準測試、集體智能

原文鏈接:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4927380