機(jī)器之心報道
編輯:陳陳
LLM 應(yīng)該改名嗎?你怎么看。
在 AI 領(lǐng)域,幾乎每個人都在談?wù)摯笮驼Z言模型,其英文全稱為 Large Language Models,簡寫為 LLM。
因為 LLM 中有「Language」一詞,因此,大家默認(rèn)這種技術(shù)和語言密切相關(guān)。
然而,知名 AI 大牛 Andrej Karpathy 卻對此有著獨(dú)特的見解:
「大型語言模型(LLM)名字雖然帶有語言二字,但它們其實與語言關(guān)系不大,這只是歷史問題,更確切的名字應(yīng)該是自回歸 Transformer 或者其他。
LLM 更多是一種統(tǒng)計建模的通用技術(shù),它們主要通過自回歸 Transformer 來模擬 token 流,而這些 token 可以代表文本、圖片、音頻、動作選擇、甚至是分子等任何東西。因此,只要能將問題轉(zhuǎn)化為模擬一系列離散 token 的流程,理論上都可以應(yīng)用 LLM 來解決。
實際上,隨著大型語言模型技術(shù)棧的日益成熟,我們可能會看到越來越多的問題被納入這種建模范式。也就是說,問題固定在使用 LLM 進(jìn)行『下一個 token 的預(yù)測』,只是每個領(lǐng)域中 token 的用途和含義有所不同。
如果核心問題真的變成了預(yù)測下一個 token,那么深度學(xué)習(xí)框架(例如 PyTorch 及其同類框架, 因為 PyTorch 提供了過于廣泛的操作和層的可配置性而顯得過于普通)也可能過于普通,無法滿足大多數(shù)問題隨時間推移的需要。如果 80% 的問題只需要使用 LLM 來解決,那么成千上萬個可以隨意重新配置的操作和層又有什么用呢?我認(rèn)為這不是真的,但我認(rèn)為它只對了一半。」
Karpathy 的這番言論引來很多人圍觀,瀏覽量高達(dá) 20 多萬。
Karpathy 曾是 OpenAI 的早期成員之一,之后加入特斯拉領(lǐng)導(dǎo)其自動駕駛的計算機(jī)視覺團(tuán)隊。之后他又回到過 OpenAI,領(lǐng)導(dǎo)著一個專注提升 ChatGPT 的 GPT-4 的小團(tuán)隊。今年 7 月,他宣布創(chuàng)立了一家名為 Eureka Labs 的 AI + 教育公司。
作為前排吃瓜群眾的馬斯克非常贊同的表示:這絕對需要一個新名字,「多模態(tài) LLM(Multimodal Large Language Models)」是一個特別愚蠢的名字,因為第一個詞與第三個詞相矛盾!
機(jī)器學(xué)習(xí)和 AI 研究員、暢銷書《Python 機(jī)器學(xué)習(xí)》作者 Sebastian Raschka 也非常贊同,他表示:如果將 LLM 改為自回歸 Transformers 或者其他名字的話,那 Mamba、Jamba、Samba 可以申請加入嗎。不管怎樣,還是非常贊同 Karpathy 觀點(diǎn)。
不過,來自 OpenAI 的研究者 Clive Chan 卻表示:另一方面,也許所有可以用自回歸方式表達(dá)的東西都可以被視為一種語言。任何事物都可以被轉(zhuǎn)化為一串 token 流,因此從這個角度看,一切都是語言!
對于這種說法,Karpathy 回復(fù)到:當(dāng)然,你可以想象說話紋理、說話分子等等。但我所觀察到的是,語言這個詞誤導(dǎo)了人們認(rèn)為大型語言模型(LLM)只限于文本應(yīng)用。
在 Meta 從事 PyTorch 研究的 Horace He 表示:確實,深度學(xué)習(xí)框架可能在某些方面過于普遍。盡管如此,即便只是針對大型語言模型(LLM),實際運(yùn)行的操作也有很大的變化。這包括新的注意力操作、混合專家模型(MoE)、不同變體的激活檢查點(diǎn)、不同的位置嵌入等。
在 Horace He 看來,這些技術(shù)的多樣性說明,即使是在專注于 LLM 的應(yīng)用中,深度學(xué)習(xí)框架的通用性也是有其必要性的,以適應(yīng)不斷發(fā)展和變化的模型需求。
「像 LLMs、GPT 和 RLHF 這樣的術(shù)語現(xiàn)在變成主流,這實在有些奇怪。通常,一個領(lǐng)域向更廣泛的世界介紹自己時并不會這樣做(在我看來,這也是有些機(jī)構(gòu)品牌推廣失敗的原因)?!褂腥税l(fā)表了這樣的觀點(diǎn)。
這種情況反映了復(fù)雜技術(shù)術(shù)語的普及可能并不總能有效地代表其真實的應(yīng)用和影響,有時甚至可能導(dǎo)致公眾理解上的困難。
還有網(wǎng)友認(rèn)為,「Large」這個詞用的也不好,因為今天的「大」在未來會顯得「小」。
「 同樣的情況也適用于電話和計算機(jī)領(lǐng)域,看起來最初的術(shù)語往往會保持使用?!?/p>
這不由得讓我們想起 AI 領(lǐng)域各種命名方式,早期的名稱往往因為先入為主的效應(yīng)而被廣泛沿用,即使隨著技術(shù)的演進(jìn),這些名稱可能已不再準(zhǔn)確描述其功能了。
大型語言模型到底應(yīng)不應(yīng)該改名,你怎么看,歡迎評論區(qū)留言。
參考鏈接:https://x.com/karpathy/status/1835024197506187617
熱門跟貼