
目前的大語言模型(LLMs)從未真正“看見”現(xiàn)實世界,因此它們無法依賴具象的感官體驗來支撐自身的學習。從這個角度看,它們類似于“視覺想象缺失癥”(aphantasia)患者——它們從不以圖像思考。但這是否意味著它們完全無法思考,或者它們的語言完全沒有意義呢?
為了回答這個問題,我們可以看看一個在人類歷史上真實存在的案例:一個成長過程中極度缺乏感官體驗的人——海倫·凱勒(Helen Keller)。凱勒是20世紀最杰出的人物之一。她出生于阿拉巴馬州的一個顯赫家庭,但在19個月大時因腦膜炎失去了視力和聽力。在接下來的幾年里,她依靠殘存的感官去理解世界,例如通過腳步震動識別家人。六歲時,她的母親聘請了一位盲人教師嘗試教她交流,方法是用手指在她的掌心書寫字母。在自傳中,凱勒激動地回憶了那個“頓悟時刻”——當她意識到手掌上拼出的“W–A–T–E–R”指的正是流淌在自己手上的清涼之物。她寫道:“活生生的詞語喚醒了我的靈魂,賦予它光明、希望,并使它獲得自由!”
凱勒的故事讓我們得以一窺一個人在缺乏視覺和聽覺信息的環(huán)境中成長的體驗。乍一看,這似乎證明了一個觀點:語言只有在與物理經(jīng)驗聯(lián)系時才有意義。凱勒最終理解了“水”這個詞,是因為她能通過皮膚感受到液體的冰涼。這就像是她描述了那個瞬間——當她第一次成功地將符號與現(xiàn)實世界的事物對應起來,意義便隨之涌入。然而,與凱勒不同的是,當前的LLMs并沒有“手”,它們無法感受水的冰涼,因此似乎被困在一個僅靠文本的世界里。
但問題遠不止于此。如果我們認為只有能指向具體事物或事件的詞語才具有意義(比如一只真正的猴子騎著一輛真正的自行車),那么語言中大量的詞匯就會被剝奪其意義。事實上,我們理解許多并不直接對應物理對象的詞,它們無法被看見,被感知,被體驗,例如“平方根”“荒謬”“伽馬射線”。我們甚至可以推理那些根本不存在的事物,比如一個如行星般巨大的桃子,或者一頭統(tǒng)治印度洋的暴君鯨魚。更重要的是,海倫·凱勒雖然無法看到或聽到,卻仍然理解了許多無法親身感知的概念,如“云”“鳥鳴”“紅色”。因此,詞語的意義不僅僅來源于它們指涉的可見、可聽、可觸、可嘗或可嗅的事物,它們還通過與其他詞語的關(guān)聯(lián)獲得意義。
事實上,認為“意義”和“理解”只有在詞語與物理感官體驗相關(guān)時才會產(chǎn)生,這種觀點實際上是不公平的。它暗示了感官受限的人所說的語言在某種程度上“缺乏意義”,或者他們自身“較難理解”自己所說的詞語。這些論斷顯然是錯誤的。海倫·凱勒雖然終生失明、失聰,但她成為了一位杰出的學者、作家、政治活動家和殘障權(quán)利倡導者,她的智慧很大程度上來自語言本身的結(jié)構(gòu)——即詞語之間的內(nèi)在關(guān)聯(lián)方式。
因此意義的獲取有兩種途徑。一條是高速之路——我們通過語言數(shù)據(jù)學習,比如知道“蜘蛛”通常與“蜘蛛網(wǎng)”相關(guān)聯(lián)。另一條是慢速之路——我們通過感官數(shù)據(jù)學習,比如看到晨露中閃耀的蜘蛛網(wǎng)中央,有一只八條腿的昆蟲。大多數(shù)人可以同時踏上這兩條路,因此能在“詞與詞”“物與物”“詞與物”以及“物與詞”之間建立聯(lián)系。
相比之下,僅依靠文本訓練的LLMs只能走“語言之路”,它們只能通過文本數(shù)據(jù)學習世界。這意味著,即便它們能夠“思考”或“推理”,其方式也必然與人類不同。人類可以用源自現(xiàn)實經(jīng)驗的心智表征來思考,比如想象自己置身某個空間、回憶一段旋律或直觀感受象棋棋局的布局,而不只是依賴語言表達。這也是為什么人類的“思考”與“說話”并非完全綁定。正如一篇研究論文指出的那樣,我們的“形式化語言能力”(即能構(gòu)造符合語法的句子)并不限制我們的“功能性語言能力”(即能進行合理推理或常識判斷)。
一個有力的證據(jù)是失語癥(aphasia)患者的案例。如果有人因中風損傷了大腦左半球,他們可能會出現(xiàn)語言障礙,例如發(fā)音困難、找不到合適的詞(命名困難)或無法正確構(gòu)造句子(句法障礙)。然而,這些語言障礙往往并不影響他們的推理能力。許多失語癥患者仍然具備高度完好的邏輯思維和創(chuàng)造力。
當前大多數(shù)公開可用的LLMs主要是聊天機器人——它們以文本為輸入,輸出文本(盡管像GPT-4和Gemini這樣的先進模型已經(jīng)可以生成圖像,而文本到視頻的AI模型也即將普及)。它們的邏輯、數(shù)學和語法能力完全基于對符號系統(tǒng)的內(nèi)部表示,如韓語或C++代碼。
而人類的認知不僅限于語言,我們可以依靠多種形式的心智表征進行思考,比如聆聽弦樂四重奏時感受到的和諧旋律、幾何投影直觀展現(xiàn)的代數(shù)公式,或是在規(guī)劃象棋殘局時對棋子位置的空間感知。這也是為什么當語言系統(tǒng)受損時,我們?nèi)阅芡ㄟ^其他認知方式保持部分推理能力。這再次凸顯了LLMs與人類認知方式的顯著不同。
然而,新一代的多模態(tài)LLMs正在崛起——它們不僅接收語言輸入,還能處理圖像和視頻。隨著LLMs的進化超越單純的聊天機器人,它們將有更多機會通過照片和視頻學習物理世界中的關(guān)系模式。隨著這種能力的提升,它們的思維方式也將逐步向人類靠攏。
作者:Christopher Summerfield
譯者:EY
原文:https://bigthink.com/the-future/ai-cognition-and-the-road-to-meaning/?utm_source=flipboard&utm_content=topic/brain

熱門跟貼