中文字幕人妻一区二区免费,国内精品久久精品视频在线观看,国产午夜福利片在线,国产一区二区三区四区在线污,精品国产免费观看

機(jī)器之心報道

編輯：陳陳

LLM 應(yīng)該改名嗎？你怎么看。

在 AI 領(lǐng)域，幾乎每個人都在談?wù)摯笮驼Z言模型，其英文全稱為 Large Language Models，簡寫為 LLM。

因為 LLM 中有「Language」一詞，因此，大家默認(rèn)這種技術(shù)和語言密切相關(guān)。

然而，知名 AI 大牛 Andrej Karpathy 卻對此有著獨(dú)特的見解：

「大型語言模型（LLM）名字雖然帶有語言二字，但它們其實與語言關(guān)系不大，這只是歷史問題，更確切的名字應(yīng)該是自回歸 Transformer 或者其他。

LLM 更多是一種統(tǒng)計建模的通用技術(shù)，它們主要通過自回歸 Transformer 來模擬 token 流，而這些 token 可以代表文本、圖片、音頻、動作選擇、甚至是分子等任何東西。因此，只要能將問題轉(zhuǎn)化為模擬一系列離散 token 的流程，理論上都可以應(yīng)用 LLM 來解決。

實際上，隨著大型語言模型技術(shù)棧的日益成熟，我們可能會看到越來越多的問題被納入這種建模范式。也就是說，問題固定在使用 LLM 進(jìn)行『下一個 token 的預(yù)測』，只是每個領(lǐng)域中 token 的用途和含義有所不同。

如果核心問題真的變成了預(yù)測下一個 token，那么深度學(xué)習(xí)框架（例如 PyTorch 及其同類框架，因為 PyTorch 提供了過于廣泛的操作和層的可配置性而顯得過于普通）也可能過于普通，無法滿足大多數(shù)問題隨時間推移的需要。如果 80% 的問題只需要使用 LLM 來解決，那么成千上萬個可以隨意重新配置的操作和層又有什么用呢？我認(rèn)為這不是真的，但我認(rèn)為它只對了一半。」

Karpathy 的這番言論引來很多人圍觀，瀏覽量高達(dá) 20 多萬。

Karpathy 曾是 OpenAI 的早期成員之一，之后加入特斯拉領(lǐng)導(dǎo)其自動駕駛的計算機(jī)視覺團(tuán)隊。之后他又回到過 OpenAI，領(lǐng)導(dǎo)著一個專注提升 ChatGPT 的 GPT-4 的小團(tuán)隊。今年 7 月，他宣布創(chuàng)立了一家名為 Eureka Labs 的 AI + 教育公司。

作為前排吃瓜群眾的馬斯克非常贊同的表示：這絕對需要一個新名字，「多模態(tài) LLM（Multimodal Large Language Models）」是一個特別愚蠢的名字，因為第一個詞與第三個詞相矛盾！

機(jī)器學(xué)習(xí)和 AI 研究員、暢銷書《Python 機(jī)器學(xué)習(xí)》作者 Sebastian Raschka 也非常贊同，他表示：如果將 LLM 改為自回歸 Transformers 或者其他名字的話，那 Mamba、Jamba、Samba 可以申請加入嗎。不管怎樣，還是非常贊同 Karpathy 觀點(diǎn)。

不過，來自 OpenAI 的研究者 Clive Chan 卻表示：另一方面，也許所有可以用自回歸方式表達(dá)的東西都可以被視為一種語言。任何事物都可以被轉(zhuǎn)化為一串 token 流，因此從這個角度看，一切都是語言！

對于這種說法，Karpathy 回復(fù)到：當(dāng)然，你可以想象說話紋理、說話分子等等。但我所觀察到的是，語言這個詞誤導(dǎo)了人們認(rèn)為大型語言模型（LLM）只限于文本應(yīng)用。

在 Meta 從事 PyTorch 研究的 Horace He 表示：確實，深度學(xué)習(xí)框架可能在某些方面過于普遍。盡管如此，即便只是針對大型語言模型（LLM），實際運(yùn)行的操作也有很大的變化。這包括新的注意力操作、混合專家模型（MoE）、不同變體的激活檢查點(diǎn)、不同的位置嵌入等。

在 Horace He 看來，這些技術(shù)的多樣性說明，即使是在專注于 LLM 的應(yīng)用中，深度學(xué)習(xí)框架的通用性也是有其必要性的，以適應(yīng)不斷發(fā)展和變化的模型需求。

「像 LLMs、GPT 和 RLHF 這樣的術(shù)語現(xiàn)在變成主流，這實在有些奇怪。通常，一個領(lǐng)域向更廣泛的世界介紹自己時并不會這樣做（在我看來，這也是有些機(jī)構(gòu)品牌推廣失敗的原因）?！褂腥税l(fā)表了這樣的觀點(diǎn)。

這種情況反映了復(fù)雜技術(shù)術(shù)語的普及可能并不總能有效地代表其真實的應(yīng)用和影響，有時甚至可能導(dǎo)致公眾理解上的困難。

還有網(wǎng)友認(rèn)為，「Large」這個詞用的也不好，因為今天的「大」在未來會顯得「小」。

「同樣的情況也適用于電話和計算機(jī)領(lǐng)域，看起來最初的術(shù)語往往會保持使用?！?/p>

這不由得讓我們想起 AI 領(lǐng)域各種命名方式，早期的名稱往往因為先入為主的效應(yīng)而被廣泛沿用，即使隨著技術(shù)的演進(jìn)，這些名稱可能已不再準(zhǔn)確描述其功能了。

大型語言模型到底應(yīng)不應(yīng)該改名，你怎么看，歡迎評論區(qū)留言。

參考鏈接：https://x.com/karpathy/status/1835024197506187617