
幾周前,在參加全球數(shù)字權(quán)利會(huì)議“RightsCon”期間,我親身感受到國際民間團(tuán)體正在經(jīng)歷的結(jié)構(gòu)性震蕩。
RightsCon 是由非營利組織 Access Now 發(fā)起的全球性的數(shù)字權(quán)利會(huì)議,旨在促進(jìn)人權(quán)、隱私保護(hù)和自由表達(dá),以及技術(shù)創(chuàng)新等核心議題,該會(huì)議每年在全球不同城市舉辦。
在今年的會(huì)議上,來自世界各地(包括美國)的民間社會(huì)組織,討論了如何應(yīng)對(duì)全球數(shù)字權(quán)利工作最大資助方之一“美國政府”撤資后帶來的困境。
值得關(guān)注的是,當(dāng)前美國政治生態(tài)正在發(fā)生范式轉(zhuǎn)變。正如此前在報(bào)道中所指出,特朗普政府對(duì)美國聯(lián)邦機(jī)構(gòu)職能的大幅削弱令人震驚,并推動(dòng)美國政治體制向一些政治學(xué)家口中的“競(jìng)爭(zhēng)性威權(quán)主義”演進(jìn)。
這種轉(zhuǎn)變不僅重塑了華盛頓的權(quán)力圖譜,也對(duì)硅谷科技巨頭的全球戰(zhàn)略產(chǎn)生深遠(yuǎn)影響,波及大量美國科技公司的運(yùn)營與政策。要知道,這些美國科技公司的用戶遍布全球,遠(yuǎn)超美國本土市場(chǎng)。
RightsCon 會(huì)上有不少與會(huì)者向我透露:他們已經(jīng)察覺到這些科技公司在參與和支持用戶基礎(chǔ)較小的社區(qū)(尤其是非英語用戶群體)方面的意愿和投資正在減少。
正因如此,不少政策制定者和商業(yè)領(lǐng)袖(特別是在歐洲)已經(jīng)開始重新審視對(duì)美國科技的依賴,并思考是否能夠快速開發(fā)出更好、本土化的替代方案。在人工智能領(lǐng)域,這一趨勢(shì)尤為明顯。
就拿社交媒體來說,這種現(xiàn)象表現(xiàn)得最為突出。研究巴西國內(nèi)科技政策的法學(xué)教授 Yasmin Curzi 告訴我:“自特朗普再次上任以來,我們已經(jīng)無法再指望美國的社交媒體平臺(tái)去做哪怕最基本的事情了?!?/p>
如今,社交媒體的內(nèi)容審查已經(jīng)大量采用自動(dòng)化技術(shù),并嘗試?yán)孟冗M(jìn)的人工智能模型來識(shí)別有問題的帖子。
然而,在印度、南非、巴西等地,這些系統(tǒng)根本識(shí)別不出那些暴力內(nèi)容。顯然,人工智能在適應(yīng)不同文化和語言環(huán)境等方面還有很長的路要走。
歐洲非營利法律中心專門研究人工智能治理的人權(quán)律師 Marlena Wisniak 指出,當(dāng)前社交平臺(tái)若過度依賴大語言模型進(jìn)行內(nèi)容審核,可能引發(fā)更嚴(yán)重的系統(tǒng)性風(fēng)險(xiǎn),情況將變得更糟。
她向我透露:“大語言模型本身的審核就漏洞百出,而這些審核不佳的大語言模型又被用來審核其他內(nèi)容,這簡(jiǎn)直就是一個(gè)惡性循環(huán),錯(cuò)誤不斷重復(fù)、不斷放大?!?/p>
造成這種情況的部分原因在于主流人工智能系統(tǒng)的“語言偏食癥”:它們主要是依靠英語國家的數(shù)據(jù)進(jìn)行訓(xùn)練的,而且大多還是美式英語,所以一旦碰上當(dāng)?shù)卣Z言和語境,比如印度的方言俚語,就會(huì)顯得“水土不服”,表現(xiàn)欠佳。
哪怕是那些標(biāo)榜能同時(shí)處理多種語言的多語言模型,在應(yīng)對(duì)非西方語言時(shí)同樣也會(huì)力不從心。
例如,有人對(duì) ChatGPT 在醫(yī)療保健相關(guān)問題上的回復(fù)做了評(píng)估,發(fā)現(xiàn)由于中文和印地語在北美數(shù)據(jù)集中占比不高,它在這兩種語言上的回復(fù)質(zhì)量遠(yuǎn)不如英語和西班牙語。
對(duì)于許多 RightsCon 的與會(huì)者來說,這恰恰證明了他們一直呼吁的觀點(diǎn):不管是在社交媒體領(lǐng)域,還是在更廣泛的其他領(lǐng)域,都需要更多以社區(qū)為導(dǎo)向的人工智能開發(fā)模式
換句話說,想要打破這種技術(shù)霸權(quán),必須推動(dòng)人工智能研發(fā)模式的“本土化轉(zhuǎn)型”,其中可能包括小語言模型、聊天機(jī)器人,以及針對(duì)特定用途、特定語言和文化背景設(shè)計(jì)的數(shù)據(jù)集。
比如,能識(shí)別俚語和詆毀性詞匯,理解混合多種語言甚至字母書寫的詞句,還能辨別“重新賦予意義的詞匯”(也就是曾經(jīng)的詆毀性詞匯,但如今被目標(biāo)群體接納并賦予新意義)。
這些人工智能經(jīng)過訓(xùn)練后,可能會(huì)出現(xiàn)一些細(xì)分的創(chuàng)新形態(tài),比如具備文化感知能力的人工智能助手,或是輕量化的區(qū)域語言模型。
畢竟,這些往往是科技巨頭所忽視的“語言邊緣地帶”:基于英語訓(xùn)練的語言模型和自動(dòng)化系統(tǒng)所忽略或誤分類的內(nèi)容。
對(duì)此,初創(chuàng)公司 Shhor AI 的創(chuàng)始人在 RightsCon 會(huì)議上主持了一場(chǎng)小組討論,介紹了公司新推出的、專注于印度本土方言的內(nèi)容審核應(yīng)用程序編程接口(API)。
實(shí)際上,許多類似的解決方案已經(jīng)發(fā)展了好多年,我們也曾報(bào)道過不少相關(guān)項(xiàng)目。比如,Mozilla 曾發(fā)起一個(gè)志愿者項(xiàng)目,專門收集非英語語言的訓(xùn)練數(shù)據(jù);還有一家名為 Lelapa AI 的初創(chuàng)公司,專注于為非洲語言開發(fā)人工智能技術(shù)。
甚至今年早些時(shí)候,我們還把“小語言模型”列入2025 年“十大突破性技術(shù)”榜單
盡管如此,現(xiàn)在的情況和以往有些不同。特朗普政府對(duì)美國科技公司的政策和行為產(chǎn)生了不小的影響,這顯然是一個(gè)重要原因,但背后還有其他因素在起作用。
一方面,近期關(guān)于語言模型的研究和開發(fā)已經(jīng)達(dá)到了一個(gè)臨界點(diǎn),以往數(shù)據(jù)集的規(guī)模被認(rèn)為是決定模型性能的關(guān)鍵,但現(xiàn)在這一點(diǎn)已經(jīng)不再那么重要了,這種變化意味著更多人有機(jī)會(huì)參與到語言模型的開發(fā)中來。
“毫不夸張地說,在一些資源較少的語言環(huán)境下,小語言模型完全有可能成為多語言模型的有力競(jìng)爭(zhēng)者?!泵裰髋c技術(shù)中心訪問學(xué)者、專注于自動(dòng)化內(nèi)容審核的研究員 Aliya Bhatia 指出。
另一方面,全球局勢(shì)也在悄然發(fā)生變化。就在 RightsCon 會(huì)議召開的前一周,巴黎剛剛舉辦了一場(chǎng)人工智能峰會(huì),會(huì)上人工智能領(lǐng)域的國際競(jìng)爭(zhēng)成為焦點(diǎn)議題。
從那以后,“主權(quán)人工智能”的概念開始受到廣泛關(guān)注,其核心是讓某個(gè)國家或組織能夠全面掌控人工智能開發(fā)的各個(gè)環(huán)節(jié)。
實(shí)際上,人工智能主權(quán)只是更廣泛“技術(shù)主權(quán)”的一部分,現(xiàn)如今,大家對(duì)“技術(shù)主權(quán)”的關(guān)注度越來越高,主要原因是人們對(duì)數(shù)據(jù)傳到美國后可能面臨的隱私和安全問題越來越擔(dān)憂。
去年 11 月,歐盟任命了首位負(fù)責(zé)技術(shù)主權(quán)、安全和民主事務(wù)的專員,并推進(jìn)一項(xiàng)名為“歐洲堆棧(Euro Stack)”的計(jì)劃,簡(jiǎn)單來說,這個(gè)計(jì)劃的目標(biāo)是打造一套屬于歐洲自己的數(shù)字公共基礎(chǔ)設(shè)施。
雖然這個(gè)概念的定義還不太明確,但它可能涵蓋能源、水資源、云服務(wù)、芯片、軟件、數(shù)據(jù)和人工智能等多個(gè)領(lǐng)域,這些技術(shù)和資源對(duì)于現(xiàn)代社會(huì)的發(fā)展以及未來的創(chuàng)新都至關(guān)重要,然而目前,它們大多由美國的科技公司掌控。
歐洲的這個(gè)計(jì)劃在一定程度上借鑒了印度的經(jīng)驗(yàn),印度早在幾年前就推出了“印度堆棧(India Stack)”計(jì)劃,建立了一套頗為完善的數(shù)字公共基礎(chǔ)設(shè)施,其中還包括一個(gè)名為“Aadhaar”的生物識(shí)別信息管理系統(tǒng)。
除此之外,就在不久前,荷蘭的議員們通過了幾項(xiàng)新議案,旨在降低該國對(duì)美國科技公司的依賴。
這讓我想起了在 RightsCon 會(huì)議上與瑞士數(shù)字隱私公司 Proton 首席執(zhí)行官 Andy Yen 的對(duì)話。他提到,特朗普上任后的一系列舉動(dòng)實(shí)際上“推動(dòng)了歐洲采取行動(dòng),并讓歐洲意識(shí)到必須重新掌握技術(shù)自主權(quán)”。
“一方面,這是因?yàn)榭偨y(tǒng)能夠影響科技公司的高層;另一方面,科技是關(guān)乎任何一個(gè)國家未來經(jīng)濟(jì)增長的關(guān)鍵因素。”他解釋說。
不過,僅靠政府的介入并不意味著語言模型中的包容性問題就能迎刃而解。
“我認(rèn)為需要明確政府在這個(gè)過程中的角色和界限。如果政府開始指定哪些語言應(yīng)該得到優(yōu)先發(fā)展,或者試圖控制數(shù)據(jù)集中呈現(xiàn)的觀點(diǎn),那可能會(huì)引發(fā)一系列問題。畢竟,用于訓(xùn)練模型的數(shù)據(jù),在很大程度上塑造了模型的認(rèn)知和理解方式,并決定它的‘世界觀’?!盇liya Bhatia 指出。
目前,誰也說不準(zhǔn)這一系列變化最終會(huì)走向何方,又有多少只是一時(shí)的炒作。但無論如何,這都是我們將持續(xù)關(guān)注的領(lǐng)域。
https://www.technologyreview.com/2025/03/25/1113696/why-the-world-is-looking-to-ditch-us-ai-models/
熱門跟貼