★加星zzllrr小樂公眾號(hào),與君共賞數(shù)學(xué)的奧妙!
數(shù)學(xué)家Tai-Danae Bradley(泰達(dá)娜·布拉德利)正在使用范疇論來嘗試?yán)斫馊祟惡虯I人工智能生成的語言。

圖源:Monica Almeida/Quanta Magazine
作者:Joseph Howlett(量子雜志特約撰稿人)2025-4-9
譯者:zzllrr小樂(數(shù)學(xué)科普公眾號(hào))2025-4-10
泰達(dá)娜·布拉德利(Tai-Danae Bradley)從小就對(duì)數(shù)學(xué)毫無興趣。2008年,她進(jìn)入紐約城市學(xué)院,在那里她加入了籃球隊(duì),并希望從事運(yùn)動(dòng)營(yíng)養(yǎng)學(xué)的職業(yè)。她認(rèn)為數(shù)學(xué)課程是一道障礙,只有天才才能真正精通?!拔覍幵赴蔚羲械难例X,也不愿以此謀生,”她說。
但大二的時(shí)候,她的微積分教授改變了她的想法。她了解到,數(shù)學(xué)是所有科學(xué)的語言?!笆郎线€有比課本更深?yuàn)W的東西,”她說?!拔覀兩畹氖澜缯媸敲篮?,而數(shù)學(xué)是觀察其中奧秘的一種方式?!?/p>
她退出了籃球隊(duì),決定主修數(shù)學(xué)和物理。如今,作為人工智能公司 SandboxAQ 的研究員,以及加州馬斯特斯大學(xué)的客座教授,布拉德利正在運(yùn)用數(shù)學(xué)語言,試圖更好地理解語言本身。
她的視角是范疇論(category theory),這是一種從任何單一領(lǐng)域的具體細(xì)節(jié)中抽離出來,轉(zhuǎn)而關(guān)注一個(gè)連接所有領(lǐng)域的更廣泛的底層框架的方法。通過將語言視為一個(gè)數(shù)學(xué)范疇,她能夠運(yùn)用現(xiàn)有的工具來研究它并獲得新的見解。
語言學(xué)家希望她的模型能夠幫助他們證明某些關(guān)于語法和意義如何從單詞串中產(chǎn)生的理論,并識(shí)別人工智能生成的文本與人類語言的區(qū)別。布拉德利本人更感興趣的是,通過這種方式研究語言,她能否開發(fā)出新的數(shù)學(xué)工具。
Quanta量子雜志與布拉德利探討了數(shù)學(xué)如何影響語言研究,以及語言研究如何影響數(shù)學(xué)。為清晰起見,采訪內(nèi)容已精簡(jiǎn)和修訂。
是什么問題促使您開始這條研究之路?
我感興趣的是理解:語言的數(shù)學(xué)結(jié)構(gòu)是什么?它的基本單位是什么?單詞和短語之間的數(shù)學(xué)關(guān)系如何產(chǎn)生有意義的內(nèi)容?

泰達(dá)娜·布拉德利小時(shí)候不喜歡數(shù)學(xué)。但到了本科階段,她開始意識(shí)到數(shù)學(xué)與我們周圍世界的聯(lián)系。
圖源:Monica Almeida/Quanta Magazine
用數(shù)學(xué)方法研究語言有很多不同的方法。例如,你可以想象語言具有代數(shù)結(jié)構(gòu)。當(dāng)我把兩個(gè)數(shù)相乘時(shí),我會(huì)得到另一個(gè)數(shù)。同樣地,我也可以把兩個(gè)英語短語“相乘”或合并,得到另一個(gè)。
你還可以從范疇論的角度來思考語言。
什么是范疇論?
一個(gè)范疇(category)由一些對(duì)象以及它們之間的關(guān)系(稱為態(tài)射morphism)組成。這些對(duì)象可以是集合、群或向量空間。態(tài)射將一個(gè)對(duì)象與另一個(gè)對(duì)象關(guān)聯(lián)起來。假設(shè)你的對(duì)象是集合。那么態(tài)射就是將一個(gè)集合映射到另一個(gè)集合的函數(shù)。
我喜歡把范疇論想象成數(shù)學(xué)版的瘋狂填詞游戲(Mad Libs)。在瘋狂填詞游戲中,你得到一個(gè)故事,但根據(jù)你填入的不同詞語,你會(huì)得到不同版本的故事。事實(shí)證明,數(shù)學(xué)領(lǐng)域中存在著某些共同的故事或結(jié)構(gòu)。不同的數(shù)學(xué)分支可能使用不同的詞語來描述事物——比如用“群”而不是“向量空間”——但當(dāng)你以正確的方式替換詞語時(shí),你會(huì)發(fā)現(xiàn)底層框架或故事實(shí)際上是相同的。
研究生階段剛開始學(xué)習(xí)范疇論的時(shí)候,我感覺它簡(jiǎn)直是最糟糕的東西。我記得當(dāng)時(shí)我心想,這就是人們不喜歡數(shù)學(xué)的原因。它純粹是為了抽象而抽象,沒有任何直覺基礎(chǔ)。這真是令人沮喪。直到后來,我的博士導(dǎo)師約翰·特里拉(John Terilla)才讓我意識(shí)到范疇論是多么強(qiáng)大的工具。
是什么讓它如此強(qiáng)大?
它讓你的雙腳離開地面,讓你以鳥瞰的視角來看待數(shù)學(xué)景觀,從而發(fā)現(xiàn)在地面上難以察覺的聯(lián)系?,F(xiàn)在這是我最喜歡思考的事情之一——只是需要更多的數(shù)學(xué)背景和更成熟的人才能看清它。

布拉德利在她周圍看到了范疇論的運(yùn)用。她尤其對(duì)用它來理解語言感興趣。
圖源:Monica Almeida/Quanta Magazine
什么是范疇論能讓你看到,而用其他方法則無法看到的?
數(shù)學(xué)中一個(gè)真正有意義的問題是:兩個(gè)東西什么時(shí)候相同?“相同”是什么意思?它如何根據(jù)你討論的數(shù)學(xué)類型而變化?
例如,集合有點(diǎn)像一袋彈珠:它沒有真正的結(jié)構(gòu)。所以,當(dāng)兩個(gè)集合的元素?cái)?shù)量相同時(shí),我們稱它們相同。另一方面,群是指元素通過某些規(guī)則相互作用的集合。此時(shí),你對(duì)“相同性”的概念必須考慮到這種額外的結(jié)構(gòu)。
范疇論提供了一個(gè)通用模板來描述這些不同的“相同”概念。你可以在嘗試解決問題時(shí)使用該模板在這些不同的上下文之間切換。
你能舉個(gè)例子嗎?
我最喜歡的例子之一來自拓?fù)鋵W(xué)的世界。被稱為拓?fù)淇臻g(topological space)的形狀構(gòu)成一個(gè)范疇。你可以將一個(gè)范疇拉伸到另一個(gè)范疇,這種拉伸就是將它們彼此關(guān)聯(lián)的態(tài)射。
假設(shè)你有兩個(gè)拓?fù)淇臻g,你想知道它們是否相同。如果相同,那么當(dāng)你將一個(gè)空間拉伸到另一個(gè)空間時(shí),它所含的孔洞的數(shù)量不會(huì)改變。直接處理這些空間可能非常棘手,所以這可能很難弄清楚。
但這個(gè)孔洞的數(shù)量總是與來自完全不同范疇的孔洞數(shù)量相同。

布拉德利說:“也許研究語言可以幫助我們發(fā)現(xiàn)一些我們還沒有發(fā)現(xiàn)的新數(shù)學(xué)結(jié)構(gòu)?!?/strong>
圖源:Monica Almeida/Quanta Magazine
范疇論讓你能夠從拓?fù)淇臻g的范疇跳轉(zhuǎn)到另一個(gè)范疇。例如,你可以使用一個(gè)叫做函子(functor)的東西將兩個(gè)拓?fù)淇臻g轉(zhuǎn)換成向量空間。如果你發(fā)現(xiàn)那兩個(gè)向量空間的維數(shù)不同——這更容易測(cè)量——那么你就知道這兩個(gè)(拓?fù)洌┛臻g不可能相同。你正是通過范疇論在拓?fù)鋵W(xué)和線性代數(shù)領(lǐng)域之間穿梭,才弄明白了這一點(diǎn)。
那么如何使用范疇論來理解語言呢?
語言和范疇論密不可分。我們不想將任何特定的、僵化的數(shù)學(xué)模型強(qiáng)加于語言。我們可以從簡(jiǎn)單的頻率入手,比如“貓”這個(gè)詞在某些其他詞旁邊出現(xiàn)的次數(shù)。如果我說“好奇心害死了____”,我可以計(jì)算出下一個(gè)詞是“貓”而不是“直升機(jī)”的概率。
這樣,我們就可以把所有可能的單詞或短語(或者實(shí)際上是字母的組合)都看作一種更通用的范疇(稱為充實(shí)范疇enriched category)中的對(duì)象。每個(gè)對(duì)象都通過跟隨其他對(duì)象的概率與其他對(duì)象關(guān)聯(lián)——這些就是你的態(tài)射的豐富充實(shí)版本。你可以把它們想象成單詞之間的箭頭,每個(gè)箭頭都標(biāo)有一個(gè)數(shù)字。
為什么用范疇來構(gòu)建語言是有幫助的?
如果你熱愛某樣事物,你就會(huì)開始在任何地方看到它。由于它非常抽象,并且它連接了數(shù)學(xué)的各個(gè)領(lǐng)域,許多數(shù)學(xué)家熟悉的事物都可以用范疇論來重新表達(dá)。
但它的意義遠(yuǎn)不止于此。一旦你將語言視為一個(gè)范疇,你就能接觸到人們幾十年來發(fā)展起來的語言結(jié)構(gòu)。所以,你只需翻閱這本食譜,就能找到一些可能有助于研究人類語言,或理解大語言模型運(yùn)作原理的知識(shí)。
您如何使用其中一種食譜來了解新事物?
人們好奇的一件事是,如何僅從單詞組合方式的基本信息出發(fā),就能獲得更抽象的概念。如果我讓ChatGPT列出五種既是爬行動(dòng)物又是家養(yǎng)寵物的動(dòng)物,它怎么知道該如何將這兩者聯(lián)系起來呢?如何從一串串符號(hào)及其統(tǒng)計(jì)數(shù)據(jù),得到這種邏輯關(guān)系呢?
我們可以用其中一種方法來深入了解這一點(diǎn)。首先,我們將每個(gè)單詞與一個(gè)范疇論結(jié)構(gòu)關(guān)聯(lián)起來,這個(gè)結(jié)構(gòu)刻畫了該單詞可能出現(xiàn)在其中的每個(gè)短語,以及該短語的常見程度。然后,我們可以將與兩個(gè)不同單詞關(guān)聯(lián)的結(jié)構(gòu)取出,并對(duì)它們執(zhí)行一些非常簡(jiǎn)單的操作——這些操作在范疇論中也是非常經(jīng)典的。

為了讓其他人更容易接觸數(shù)學(xué),布拉德利運(yùn)營(yíng)著一個(gè)名為Math3ma的熱門博客。https://www.math3ma.com
圖源:Monica Almeida/Quanta Magazine
我們得到的是一種自動(dòng)關(guān)聯(lián)兩個(gè)原始單詞的結(jié)構(gòu)。如果原始單詞是“大”和“黃”,那么我們得到的構(gòu)造,粗略地說,就是將較大的數(shù)字分配給可能的短語,例如“大黃太陽(yáng)”,而將較小的數(shù)字分配給可能的短語,例如“大黃紅寶石”。這個(gè)來自范疇論的簡(jiǎn)單操作,實(shí)際上提供了具有語言意義的東西——一種將單詞組合起來構(gòu)建更通用的概念的方法,例如“既大又黃”的概念。
因此,運(yùn)用范疇論,你可以從數(shù)學(xué)上展示更高層次的概念如何從非常簡(jiǎn)單的統(tǒng)計(jì)信息中涌現(xiàn)出來。我認(rèn)為這或許是一個(gè)線索,表明思想的形成方式。我不想說“在人類思維中形成”,因?yàn)檎l知道大腦是如何運(yùn)作的呢?但這種概念內(nèi)容存在于語言使用方式的原始數(shù)據(jù)中,因?yàn)槲覀兊某霭l(fā)點(diǎn)就是這些頻率。
你認(rèn)為這可能就是大語言模型(LLM)正在做的事情嗎?
我在LLM接手之前就加入了這個(gè)研究項(xiàng)目。但它們的起始頻率和我們一樣。我不知道transformer(變換器)內(nèi)部到底發(fā)生了什么。我不確定是否有人知道。不過,這或許可以作為個(gè)話題的開場(chǎng)。
您的作品對(duì)于語言有怎樣的普遍啟示?
我認(rèn)為這表明,即使是最基本的語法,也蘊(yùn)含著有意義的信息,比如什么詞與什么詞搭配。如果你觀察一下哪些詞通常出現(xiàn)在“藍(lán)色”之后——比如“藍(lán)色大理石”或“藍(lán)色天空”,而不是“藍(lán)色鱷梨”——你能理解“藍(lán)色”這個(gè)詞的意思嗎?
在語言學(xué)界,這并非公認(rèn)的事實(shí)。作為人類,我可以從紙面上的句子中理解意義,但紙上的文字并非我所能接觸的全部。我能夠接觸世界。語言學(xué)家們一直在爭(zhēng)論是否需要一個(gè)世界模型來從書面語言中提取意義。意義存在于詞語排列中的觀點(diǎn)在語言學(xué)中由來已久,但近幾十年來,它已基本過時(shí)。

布拉德利認(rèn)為,她的工作“表明,即使是最基本的語法,也蘊(yùn)含著有意義的信息,比如什么與什么相隨”,她說。
圖源:Monica Almeida/Quanta Magazine
但這項(xiàng)研究——以及最近LLM的成功——支持了這樣一種觀點(diǎn),即詞匯組合使用的統(tǒng)計(jì)數(shù)據(jù)是有意義的。因此,它或許能促進(jìn)語言學(xué)家們正在進(jìn)行的更廣泛的討論。
在您最近的論文中,您還使用范疇論為語言研究帶來了全新的概念。
對(duì)。我們正在研究范疇的量級(jí)(magnitude)——一種與拓?fù)湎嚓P(guān)的大小度量,用來表征范疇。我的合著者胡安·帕布羅·維尼奧(Juan Pablo Vigneaux)最近找到了一種計(jì)算量級(jí)的新方法。所以我們決定在做了一些額外的工作之后,在語言構(gòu)成的范疇上嘗試一下。
令人驚訝的是,當(dāng)我們計(jì)算出這個(gè)范疇的量級(jí)公式時(shí),我們最終得到了一個(gè)數(shù)學(xué)表達(dá)式,其中包含了信息論中的一個(gè)核心量:熵(Entropy)——衡量某物包含多少信息的量度。
這種聯(lián)系告訴了你什么?
它指出了熵和拓?fù)渲g一種有趣的聯(lián)系。這兩者通常不會(huì)相互交流——它們?cè)诳茖W(xué)領(lǐng)域處于完全不同的兩端。但近年來,這種聯(lián)系開始顯現(xiàn),這或許是另一個(gè)例子。我對(duì)這種感覺不同的東西最終卻有著根本聯(lián)系的現(xiàn)象非常感興趣。
我們也會(huì)盯著答案,比如“哇,這是什么?”熵在語言語境中意味著什么?它能告訴我們什么?那么,計(jì)算量級(jí)是否可以用來比較不同語言的結(jié)構(gòu),例如,比較人類語言和LLM生成的語言?
這感覺就像是爬上了一架高高的梯子,才剛剛邁出第一層。還有很多事情要做。
您希望您的工作帶您走向何方?
我希望它能讓我們更深入地理解數(shù)學(xué)本身。
它可以讓我們了解語言現(xiàn)象,從而更好地理解周圍的世界。但真正有趣的是,它或許缺少一些數(shù)學(xué)概念,這就是為什么這種現(xiàn)象如此神秘且難以理解。
也許以這種方式研究語言能幫助我們發(fā)現(xiàn)一些我們尚未發(fā)現(xiàn)的新數(shù)學(xué)結(jié)構(gòu)。這種情況在數(shù)學(xué)中屢見不鮮。數(shù)學(xué)家們會(huì)遇到一些尚未命名的東西,這些結(jié)構(gòu)就在那里等著我們?nèi)グl(fā)現(xiàn)。
我認(rèn)為五年后,我們可能會(huì)有受語言啟發(fā)的新數(shù)學(xué)思想。
參考資料
https://www.quantamagazine.org/where-does-meaning-live-in-a-sentence-math-might-tell-us-20250409/
科普薦書
【更多讀者好評(píng)數(shù)學(xué)書單推薦、數(shù)學(xué)科普作家自薦、出版社書單推薦通道已陸續(xù)打開,敬請(qǐng)期待】
·開放 · 友好 · 多元 · 普適 · 守拙·
讓數(shù)學(xué)
更加
易學(xué)易練
易教易研
易賞易玩
易見易得
易傳易及
歡迎評(píng)論、點(diǎn)贊、在看、在聽
收藏、分享、轉(zhuǎn)載、投稿
查看原始文章出處
點(diǎn)擊zzllrr小樂
公眾號(hào)主頁(yè)
加星★
數(shù)學(xué)科普不迷路!
熱門跟貼