文 | 追問nextquestion
自2022年底以來,ChatGPT如一股澎湃的春潮,席卷了全球,人們對其潛在的應(yīng)用場景無不心生向往。商界人士、學(xué)者乃至日常生活中的普通人,都在思索同一個(gè)問題:自己的工作未來會如何被AI塑造?
隨著時(shí)間流逝,很多構(gòu)想逐漸落地,人類似乎已經(jīng)習(xí)慣于AI在許多工作場景幫助甚至替代我們的實(shí)際工作。早期人們對GPT的恐懼逐漸消散,反而變得過度依賴GPT,甚至忽略了可能的局限性與風(fēng)險(xiǎn)。這種大肆依賴GPT并忽視其風(fēng)險(xiǎn)的情況,我們稱之為“GPT學(xué)”(GPTology)。
心理學(xué)的發(fā)展一直緊緊跟隨科技的創(chuàng)新,社會學(xué)家與行為科學(xué)家總是依賴盡可能多的技術(shù)來收集豐富的數(shù)據(jù)類型,從神經(jīng)影像技術(shù)、在線調(diào)查平臺到眼動追蹤技術(shù)的開發(fā)等,都助力心理學(xué)取得了關(guān)鍵性的突破。數(shù)字革命和大數(shù)據(jù)的興起推動了計(jì)算社會科學(xué)等新學(xué)科的形成。正如其他領(lǐng)域(醫(yī)學(xué)[1]、政治[2])一樣,能夠以驚人的微妙性和復(fù)雜性理解、生成和翻譯人類語言的大語言模型(LLM),對心理學(xué)也產(chǎn)生了深遠(yuǎn)的影響。
在心理學(xué)領(lǐng)域,大語言模型有兩類主流應(yīng)用模式:一方面,通過研究大語言模型本身的機(jī)制,可能對人類認(rèn)知的研究提供新的見解;另一方面,這些模型在文本分析和生成方面的能力,使得它成為了分析文本數(shù)據(jù)的強(qiáng)大工具,如它們能將個(gè)人的書面或口頭表達(dá)等文本數(shù)據(jù),轉(zhuǎn)化為可分析的數(shù)據(jù)形式,從而協(xié)助心理健康專業(yè)人員評估和理解個(gè)體的心理狀態(tài)。最近,使用大語言模型促進(jìn)心理學(xué)研究的成果大量涌現(xiàn),ChatGPT在社會與行為科學(xué)領(lǐng)域的應(yīng)用,如仇恨言論分類、情感分析等,已顯示出其初步成果和廣闊的發(fā)展前景。
然而,我們應(yīng)該放任現(xiàn)在“GPT學(xué)”的勢頭在科研領(lǐng)域肆虐嗎?事實(shí)上所有科技創(chuàng)新的融合過程總是充滿動蕩的,放任某種技術(shù)的應(yīng)用與對其依賴過深,都可能會導(dǎo)致意想不到的后果?;赝睦韺W(xué)的發(fā)展歷程,當(dāng)功能性磁共振成像(fMRI)技術(shù)初露鋒芒時(shí),便有研究者濫用此技術(shù),導(dǎo)致了一些荒謬卻在統(tǒng)計(jì)學(xué)上顯著的神經(jīng)關(guān)聯(lián)現(xiàn)象——譬如,研究人員對一條已經(jīng)死亡的大西洋鮭魚進(jìn)行了fMRI掃描,結(jié)果顯示該魚在實(shí)驗(yàn)期間表現(xiàn)出顯著的腦活動;還有研究表明,由于統(tǒng)計(jì)誤用,fMRI研究中發(fā)現(xiàn)虛假相關(guān)性的可能性極高。這些研究已經(jīng)進(jìn)入心理學(xué)的教科書,警示所有心理學(xué)學(xué)生與研究人員在面對新技術(shù)時(shí)應(yīng)保持警惕。

?Abdurahman, Suhaib, et al. "Perils and opportunities in using large language models in psychological research." PNAS nexus 3.7 (2024): pgae245.
可以說,我們已經(jīng)進(jìn)入了與大語言模型相處的“冷靜期”,除了思考大語言模型可以做什么,我們更需要反思是否以及為何要使用它。近日PNAS Nexus的綜述論文便探討了大語言模型在心理學(xué)研究中的應(yīng)用,及其為研究人類行為學(xué)帶來的新機(jī)遇。
文章承認(rèn)LLMs在提升心理學(xué)方面的潛在效用,但同時(shí)也強(qiáng)調(diào)了對其未經(jīng)審慎應(yīng)用的警惕。目前這些模型在心理學(xué)研究中可能引起的統(tǒng)計(jì)上顯著但意義不明確的相關(guān)性,是研究者必須避免的。作者提醒到,面對近幾十年來該領(lǐng)域遇到的類似挑戰(zhàn)(如可信度革命),研究人員應(yīng)謹(jǐn)慎對待LLMs的應(yīng)用。該文還提出了在未來如何更批判性和謹(jǐn)慎性地利用這些模型以推進(jìn)心理學(xué)研究的方向。
01 大語言模型可以替代人類被試嗎?
提到大語言模型,人們最直觀的感受便是其高度“類人”的輸出能力。Webb等人考察了ChatGPT的類比推理能力[3],發(fā)現(xiàn)它已涌現(xiàn)出了零樣本推理能力,能夠在沒有明確訓(xùn)練的情況下解決廣泛的類比推理問題。一些人認(rèn)為,如果像ChatGPT這樣的LLM確實(shí)能夠?qū)π睦韺W(xué)中的常見測量產(chǎn)生類似人類的響應(yīng)(例如對行動的判斷、對價(jià)值的認(rèn)可、對社會問題的看法),那么它們在未來可能會取代人類受試者群體。
針對這個(gè)問題,Dillion等人進(jìn)行了專門的研究[4]:首先,通過比較人類與語言模型(GPT-3.5)在道德判斷上的相關(guān)性,他們肯定了語言模型可以復(fù)制一些人類判斷的觀點(diǎn);但他們也提出了解釋語言模型輸出的挑戰(zhàn)。從原理上說,LLM的“思維”建立在人類的自然表達(dá)之上,但實(shí)際能代表的人群有限,并且有過于簡化人類復(fù)雜行為思想的風(fēng)險(xiǎn)。這是一種警示,因?yàn)檫@種對AI系統(tǒng)擬人化的傾向可能會誤導(dǎo)我們,讓我們期望那些基于根本不同原理運(yùn)行的系統(tǒng)表現(xiàn)出類人表現(xiàn)。

從目前的研究來看,使用LLM模擬人類被試至少有三大問題。
首先,認(rèn)知過程的跨文化差異是心理學(xué)研究中極為重要的一環(huán),但很多證據(jù)表明,目前流行的大語言模型無法模擬出這樣的差異。像GPT這樣的模型主要基于WEIRD(西方、受過教育的、工業(yè)化的、富裕的、民主的)人群的文本數(shù)據(jù)訓(xùn)練。這種以英語為中心的數(shù)據(jù)處理延續(xù)了心理學(xué)的英語中心主義,與對語言多樣性的期待背道而馳。語言模型也因此難以準(zhǔn)確反映大眾群體的多樣性。例如,ChatGPT顯示出偏向男性視角和敘事的性別偏見,偏向美國視角或一般多數(shù)人群的文化偏見,以及偏向自由主義、環(huán)保和左翼自由意志主義觀點(diǎn)的政治偏見。這些偏見還延伸到個(gè)性、道德和刻板印象。
總的來說,由于模型輸出高度反映WEIRD人群心理,當(dāng)人類樣本不那么WEIRD時(shí),AI與人類之間的高度相關(guān)性無法重現(xiàn)。在心理學(xué)研究中,過度依賴WEIRD被試(例如北美的大學(xué)生)的現(xiàn)象一度引發(fā)了討論,用LLM的輸出替代人類參與者將是一個(gè)倒退,會使得心理學(xué)研究變得更加狹隘,普適性更差。

?將 ChatGPT與按政治觀點(diǎn)分組的人類對“大五人格”的反應(yīng)進(jìn)行比較。注:圖中顯示了人類和ChatGPT在大五人格結(jié)構(gòu)和不同人口統(tǒng)計(jì)數(shù)據(jù)中的響應(yīng)分布。圖中顯示,ChatGPT 在宜人性、盡責(zé)性方面給出了顯著更高的響應(yīng),而在開放性和神經(jīng)質(zhì)方面給出了顯著較低的響應(yīng)。重要的是,與所有人口統(tǒng)計(jì)群體相比,ChatGPT在所有個(gè)性維度上顯示出顯著較小的差異。
其次,大語言模型似乎存在“正確答案”偏好,也就是說LLM在回答心理學(xué)調(diào)查的問題時(shí)變化幅度較小——即使這些問題涉及的主題(例如道德判斷)并沒有實(shí)際的正確答案——而人類對這些問題的回答往往具有多樣性。當(dāng)要求LLM多次回答同一個(gè)問題,并測量其回答的差異時(shí),我們會發(fā)現(xiàn)大語言模型的回答無法像人類一樣產(chǎn)生思想上顯著的差異。這依舊與生成式語言模型背后的原理分不開,它們通過自回歸的方式計(jì)算下一個(gè)可能出現(xiàn)的單詞的概率分布來生成輸出序列。從概念上講,反復(fù)向LLM提問類似于反復(fù)向同一個(gè)參與者提問,而不是向不同的參與者提問。
然而,心理學(xué)家通常感興趣的是研究不同參與者之間的差異。這警告我們當(dāng)想用大語言模型模擬人類被試時(shí),不能簡單地用大語言模型模擬群體平均值,或用它模擬個(gè)體在不同任務(wù)中的反應(yīng);應(yīng)當(dāng)開發(fā)出合適的方法真實(shí)再現(xiàn)人類樣本復(fù)雜性。此外,訓(xùn)練大語言模型的數(shù)據(jù)可能已經(jīng)包含許多心理學(xué)實(shí)驗(yàn)中使用的項(xiàng)目和任務(wù),導(dǎo)致模型在接受測試時(shí)依賴記憶而不是推理,又進(jìn)一步加劇了上述問題。為了獲得對LLM類人行為的無偏評估,研究人員需要確保他們的任務(wù)不屬于模型的訓(xùn)練數(shù)據(jù),或調(diào)整模型以避免影響實(shí)驗(yàn)結(jié)果,比如通過“去學(xué)習(xí)”等方法。
最后,GPT是否真的形成與人類類似的道德體系也是值得懷疑的。通過向LLM提問,建立它內(nèi)在的邏輯關(guān)系網(wǎng)絡(luò)(nomological network),觀察不同道德領(lǐng)域之間的相關(guān)性,發(fā)現(xiàn)這兩個(gè)指標(biāo)都與基于人類得到的結(jié)果大不相同。

?ChatGPT 與人類道德判斷。注:a)人類道德判斷(淺藍(lán)色)和GPT(淺紅色)在六個(gè)道德領(lǐng)域的分布。虛線代表平均值。b) 人類道德價(jià)值觀之間的相互關(guān)系(?=3902)和 ChatGPT 問答(?=1000?)。c) 基于來自 19 個(gè)國家 (30) 的不同人類樣本和 1000 個(gè) GPT 問答的道德價(jià)值觀之間的部分相關(guān)網(wǎng)絡(luò)。藍(lán)色邊緣表示正偏相關(guān),紅色邊緣表示負(fù)偏相關(guān)。
總結(jié)來說,LLM會忽略人群的多樣性,無法表現(xiàn)出顯著性差異,無法復(fù)現(xiàn)邏輯關(guān)系網(wǎng)絡(luò)——這些不足告訴我們,LLM不應(yīng)該取代對智人(Homo sapiens)的研究,但這并不意味著心理學(xué)研究要完全摒棄LLM的使用。一方面,將傳統(tǒng)上用于人類的心理學(xué)測量用于AI的確有趣,但是對其結(jié)果的解讀應(yīng)當(dāng)更加謹(jǐn)慎;另一方面,將LLM作為人類的代理模型模擬人類行為時(shí),其中間層參數(shù)可以為我們提供探索人類認(rèn)知行為的潛在角度,但這一過程應(yīng)該在嚴(yán)格定義了環(huán)境、代理、互動及結(jié)果的前提下進(jìn)行的。
由于LLM的“黑箱”特征,以及前文提到的輸出經(jīng)常與人類真實(shí)行為不一樣的現(xiàn)狀,這種期盼還很難成真。但我們可以期待,未來也許可以開發(fā)出更穩(wěn)健的程序,使得在心理學(xué)研究中的LLM模擬人類行為變得更加可行。
02 大語言模型是文本分析的萬金油嗎?
除了其仿人的特質(zhì),LLM最大的特點(diǎn)便是其強(qiáng)大的語言處理能力,然而將自然語言處理方法用于心理學(xué)研究并不是新生之物,想要理解為什么LLM的應(yīng)用引起當(dāng)下如此大的爭議,我們需要了解它在應(yīng)用上與傳統(tǒng)的自然語言處理方法有什么不同。
使用預(yù)訓(xùn)練語言模型的自然語言處理(NLP)方法,可以按照是否涉及參數(shù)更新分為兩類。涉及參數(shù)更新意味著將預(yù)訓(xùn)練的語言模型在特定任務(wù)的數(shù)據(jù)集上進(jìn)行進(jìn)一步訓(xùn)練。相比之下,零樣本學(xué)習(xí)(zero-shot learning)、單樣本學(xué)習(xí)(one-shot learning)和少樣本學(xué)習(xí)(few-shot learning)則不需要進(jìn)行梯度更新,它們直接利用預(yù)訓(xùn)練模型的能力,從有限的或沒有任務(wù)特定數(shù)據(jù)中進(jìn)行泛化,借助模型的已有知識和理解來完成任務(wù)。
LLM能力的跨時(shí)代飛躍——例如它能夠在無需特定任務(wù)調(diào)整的情況下處理多種任務(wù),用戶友好的設(shè)計(jì)也減少了對復(fù)雜編碼的需求——使得最近越來越多研究將其零樣本能力*用于心理學(xué)文本分析,包括情感分析、攻擊性語言識別、思維方式或情感檢測等多種方面。
*LLM零樣本能力是指模型在沒有接受過特定任務(wù)的訓(xùn)練或優(yōu)化的情況下,直接利用其預(yù)訓(xùn)練時(shí)獲得的知識來理解和執(zhí)行新的任務(wù)。例如,大語言模型能在沒有針對性訓(xùn)練數(shù)據(jù)的支持下,通過理解文本內(nèi)容和上下文,識別文本是積極的、消極的還是中性的。
然而,隨著應(yīng)用的深入,越來越多的聲音開始指出LLM的局限性。首先,LLMs在面對微小的提示變化時(shí)可能會產(chǎn)生不一致的輸出,并且在匯總多次重復(fù)對不同提示的輸出時(shí),LLM有時(shí)也無法達(dá)到科學(xué)可靠性的標(biāo)準(zhǔn)。其次,Kocoń等人[5]發(fā)現(xiàn),LLMs在處理復(fù)雜、主觀性任務(wù)(如情感識別)時(shí)可能會遇到困難。最后,反觀傳統(tǒng)的微調(diào)模型,LLMs零樣本應(yīng)用的便利性與模型微調(diào)之間的差異可能并不像通常認(rèn)為的那樣顯著。
我們要知道,針對各種任務(wù)微調(diào)過的小型語言模型也不斷在發(fā)展,如今越來越多的模型變得公開可用;同時(shí)也有越來越多高質(zhì)量和專業(yè)化的數(shù)據(jù)集可供研究人員用于微調(diào)語言模型。盡管LLMs的零樣本應(yīng)用可能提供了即時(shí)的便利性,但最便捷的選擇往往并不是最有效的,研究者應(yīng)在被便利性吸引時(shí)保持必要的謹(jǐn)慎。
為了更直觀地觀察ChatGPT在文本處理方面的能力,研究者們設(shè)置了三種水平的模型:零樣本、少樣本和微調(diào),來分別提取在線文本中的道德價(jià)值觀。這是一個(gè)艱巨的任務(wù),因?yàn)榧词故墙?jīng)過培訓(xùn)的人類標(biāo)注者也常常意見不一。語言中道德價(jià)值觀的表達(dá)通常極度隱晦,而由于長度限制,在線帖子往往包含很少的背景信息。研究者提供了2983個(gè)包含道德或非道德語言的社交媒體帖子給ChatGPT,并要求它判斷帖子是否使用了任何特定類型的道德語言。然后將其與一個(gè)在單獨(dú)的社交媒體帖子子集中微調(diào)的小型BERT模型進(jìn)行了比較,以人類評價(jià)者的判定作為評判標(biāo)準(zhǔn)。
結(jié)果發(fā)現(xiàn),微調(diào)后的BERT模型表現(xiàn)遠(yuǎn)勝于零樣本設(shè)置下的ChatGPT,BERT達(dá)到了0.48的F1分?jǐn)?shù),而ChatGPT只有0.22,即使是基于LIWC的方法也在F1分?jǐn)?shù)上超過了ChatGPT(零樣本),達(dá)到了0.27。ChatGPT在預(yù)測道德情感方面表現(xiàn)得極其極端,而BERT幾乎在所有情況下與經(jīng)過培訓(xùn)的人類標(biāo)注者的差異并不顯著。
盡管LIWC是一個(gè)規(guī)模更小、復(fù)雜度更低且成本更低的模型,但在偏離經(jīng)過訓(xùn)練的人類標(biāo)注者方面的可能性和極端程度顯著低于ChatGPT。如預(yù)期的那樣,在實(shí)驗(yàn)中,少樣本學(xué)習(xí)和微調(diào)均提升了ChatGPT的表現(xiàn)。我們得出兩個(gè)結(jié)論:首先,LLM所宣稱的跨上下文和靈活性優(yōu)勢可能并不總是成立;其次,雖然LLM“即插即用”很是便利,但有時(shí)可能會徹底失敗,而適當(dāng)?shù)奈⒄{(diào)可以緩解這些問題。
除了文本標(biāo)注中的不一致性、解釋復(fù)雜概念(如隱性仇恨言論)的不足,以及在專業(yè)或敏感領(lǐng)域可能缺乏深度這幾個(gè)方面外,缺乏可解釋性也是LLM飽受詬病之處。LLMs作為強(qiáng)大的語言分析工具,其廣泛的功能來自于龐大的參數(shù)集、訓(xùn)練數(shù)據(jù)和訓(xùn)練過程,然而這種靈活性和性能的提升是以降低可解釋性和可重復(fù)性為代價(jià)的。LLM所謂的更強(qiáng)預(yù)測能力,是心理學(xué)文本分析研究者傾向于使用基于神經(jīng)網(wǎng)絡(luò)的模型的重要原因。但如果無法顯著超越自上而下的方法的話,那么后者在可解釋性上的優(yōu)勢可能促使心理學(xué)家及其他社會科學(xué)家轉(zhuǎn)而使用更傳統(tǒng)的模型。
綜合來看,在許多應(yīng)用場景中,較小的(經(jīng)過微調(diào)的)模型可以比當(dāng)前的大型(生成式)語言模型更強(qiáng)大且更少偏差,尤其當(dāng)大語言模型處于零樣本和少樣本設(shè)置中時(shí)。比如,在探索焦慮癥患者在線支持論壇的語言時(shí),使用較小的、專門化的語言模型的研究人員可能能夠發(fā)現(xiàn)與研究領(lǐng)域直接相關(guān)的微妙細(xì)節(jié)和特定的語言模式(例如,擔(dān)憂、不確定性的耐受性)。這種有針對性的方法可以深入了解焦慮癥患者的經(jīng)歷,揭示他們獨(dú)特的挑戰(zhàn)和潛在的干預(yù)措施。通過利用專門化的語言模型或像CCR、LIWC這樣的自上而下的方法,研究人員可以在廣度和深度之間取得平衡,從而能夠更精細(xì)地探索文本數(shù)據(jù)。
盡管如此,LLMs作為文本分析工具,在微調(diào)數(shù)據(jù)稀缺的情況下——例如新興概念或研究不足的群體時(shí)——其零樣本能力可能仍然可以提供有價(jià)值的表現(xiàn),使研究人員能夠探討一些緊迫的研究課題。在這些情況下,采用少樣本提示(few-shot prompting)的方法可能既有效又高效,因?yàn)樗鼈冎恍枰倭烤哂写硇缘氖纠纯蛇M(jìn)行。
另外,有研究表明LLMs可以從理論驅(qū)動的方法中受益,基于這個(gè)發(fā)現(xiàn),開發(fā)能夠結(jié)合這兩種方法優(yōu)勢的技術(shù),是未來研究的一個(gè)有前景的方向。隨著大型語言模型技術(shù)的快速進(jìn)展,解決其性能和偏差問題只是時(shí)間問題,預(yù)計(jì)這些挑戰(zhàn)將在不遠(yuǎn)的將來得到有效緩解。
03 不可忽略的可重復(fù)性
可重復(fù)性指的是使用相同的數(shù)據(jù)和方法可以復(fù)制和驗(yàn)證結(jié)果的能力。然而,LLM的黑箱特性使得相關(guān)研究結(jié)果難以再現(xiàn)。對依賴LLM生成的數(shù)據(jù)或分析的研究來說,這一限制構(gòu)成了實(shí)現(xiàn)再現(xiàn)性的重大障礙。
例如,LLM經(jīng)過更新,其偏好可能會發(fā)生變化,這可能會影響先前已建立的“最佳實(shí)例”和“去偏差策略“的有效性。目前,ChatGPT及其他閉源模型并不提供它們的舊版本,這限制了研究人員使用特定時(shí)間點(diǎn)的模型來復(fù)現(xiàn)研究結(jié)果的能力。例如,“gpt3.5-January-2023”版本一旦更新,先前的參數(shù)和生成的輸出也可能隨之改變,這對科研的嚴(yán)謹(jǐn)性構(gòu)成挑戰(zhàn)。重要的是,新版本并不保證在所有任務(wù)上的性能都會相同或更好。例如,GPT-3.5和GPT-4被報(bào)道在各種文本分析任務(wù)上存在不一致的結(jié)果——GPT-4有時(shí)表現(xiàn)得比GPT-3.5更差[6]——這進(jìn)一步加深了人們對模型的非透明變化的擔(dān)憂。
除了從科學(xué)的開放性(open science)角度來看LLM的黑箱性質(zhì),研究人員更在意的其實(shí)是“知其然,知其所以然”的科研精神——在獲得高質(zhì)量、有信息量的語義表示時(shí),我們更應(yīng)該關(guān)注的是用于生成這些輸出的算法,而不是輸出結(jié)果本身。在過去,計(jì)算模型的主要優(yōu)勢之一在于它們允許我們“窺探內(nèi)部”,某些心理過程難以被測試但可以通過模型進(jìn)行推斷。因此,使用不提供此級別訪問權(quán)限的專有LLMs,可能會阻礙心理學(xué)和其他領(lǐng)域研究者從計(jì)算科學(xué)的最新進(jìn)展中獲益。
04 總結(jié)
新一代對大眾開發(fā)的在線服務(wù)型LLM(如ChatGPT、Gemini、Claude)為許多研究人員提供了一個(gè)既強(qiáng)大又易于使用的工具。然而,隨著這些工具的普及和易用性的增加,研究人員有責(zé)任保持對這些模型能力與局限性的清醒認(rèn)識。尤其是在某些任務(wù)上,由于LLM的出色表現(xiàn)和高度互動性,可能會讓人們誤以為它們始終是研究對象或自動化文本分析助手的最佳選擇。這些誤解可能會簡化人們對這些復(fù)雜工具的理解,并作出不明智的決定。例如為了方便或因?yàn)槿狈φJ(rèn)識而避免必要的微調(diào),從而未能充分利用其全部能力,最終得到相對較差的效果,或者忽視了與透明度和再現(xiàn)性相關(guān)的獨(dú)特挑戰(zhàn)。
我們還需要認(rèn)識到,許多歸因于LLM的優(yōu)勢在其他模型中也存在。例如,BERT或開源的LLM可以通過API訪問,為無法自我托管這些技術(shù)的研究人員提供了一個(gè)方便且低成本的選擇。這使得它們在無需大量編碼或技術(shù)專業(yè)知識的情況下也能被廣泛使用。此外,OpenAI還提供了嵌入模型,如“text-embedding-ada-3”,可以像BERT一樣用于下游任務(wù)。
歸根結(jié)底,任何計(jì)算工具的負(fù)責(zé)任使用都需要我們?nèi)胬斫馄淠芰?,并慎重考慮該工具是否為當(dāng)前任務(wù)最適合的方法。這種平衡的做法能夠確保技術(shù)進(jìn)步在研究中得到有效和負(fù)責(zé)任的利用。
參考文獻(xiàn)
[1] SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-80.
[2] MOTOKI F, PINHO NETO V, RODRIGUES V. More human than human: measuring ChatGPT political bias [J]. Public Choice, 2024, 198(1): 3-23.
[3] WEBB T, HOLYOAK K J, LU H. Emergent analogical reasoning in large language models [J]. Nat Hum Behav, 2023, 7(9): 1526-41.
[4] DILLION D, TANDON N, GU Y, et al. Can AI language models replace human participants? [J]. Trends Cogn Sci, 2023, 27(7): 597-600.
[5] KOCO? J, CICHECKI I, KASZYCA O, et al. ChatGPT: Jack of all trades, master of none [J]. Information Fusion, 2023, 99: 101861.
[6] RATHJE S, MIREA D-M, SUCHOLUTSKY I, et al. GPT is an effective tool for multilingual psychological text analysis [Z]. PsyArXiv. 2023.10.31234/osf.io/sekf5
熱門跟貼