文 | kiki

「一個(gè)追求極致真理的AI?!?/p>

北京時(shí)間2月18日中午,馬斯克和xAI發(fā)布了其最新旗艦?zāi)P虶rok-3系列和最新聊天機(jī)器人Grok,憑借著馬斯克的強(qiáng)大光環(huán),盡管xAI作為這場(chǎng)AI競(jìng)賽中的后發(fā)者,但其一舉一動(dòng)都備受關(guān)注。

在不到一個(gè)小時(shí)、百萬人圍觀的發(fā)布會(huì)中,xAI展現(xiàn)了Grok-3令人印象深刻的模型能力——從馬斯克的最強(qiáng)數(shù)據(jù)集群到直接的評(píng)測(cè)數(shù)據(jù)對(duì)比,似乎在回應(yīng)他此前對(duì)Grok-3的評(píng)價(jià)——「地表最強(qiáng)AI」。

打開網(wǎng)易新聞 查看精彩圖片

但據(jù)前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy的評(píng)價(jià),「Grok-3+Thinking」感覺與OpenAl最強(qiáng)模型o1-pro相差無幾,但取得同等能力需要加上一個(gè)前提:Grok-2和Grok-3之間,才過去了六個(gè)月而已?!斑_(dá)到最先進(jìn)領(lǐng)域的時(shí)間表是前所未有的”。Anderj Karpathy說。

Grok-3的發(fā)布符合馬斯克的競(jìng)爭(zhēng)觀——他總是習(xí)慣用最快的時(shí)間表、推動(dòng)團(tuán)隊(duì)完成創(chuàng)新,這也是他擅長(zhǎng)講述的故事——用巨大的算力(20萬張GPU,Grok-3使用了超出DeepSeek-V3百倍的算力)、規(guī)模小的團(tuán)隊(duì)(xAI最初成立只有12人),做不下牌桌的人。

一、「地表最強(qiáng)AI」Grok 3表現(xiàn)如何?

一、「地表最強(qiáng)AI」Grok 3表現(xiàn)如何?

直播中xAI團(tuán)隊(duì)將Grok-2形容為「玩具」,這當(dāng)然是為了突出Grok-3的強(qiáng)大。

xAI發(fā)布的Grok-3是一個(gè)模型系列,包括了推理模型和mini模型。

在模型能力上,Grok-3在推理、數(shù)學(xué)、代碼、數(shù)學(xué)等多方面,都取得了新的突破,Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分,在GPQA上取得了85分,跑贏了o3 mini、DeepSeek-R1等。

打開網(wǎng)易新聞 查看精彩圖片

在AIME 2025最新的數(shù)學(xué)基準(zhǔn)測(cè)試中,Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。

打開網(wǎng)易新聞 查看精彩圖片

在大模型競(jìng)技場(chǎng)LMSYS上,Grok-3早期版本(巧克力)在總榜上位列排名第一,也是首個(gè)評(píng)分突破1400分的模型,尤其在「編碼」類別中,Grok-3超越了o1和Gemini-thinking等頂級(jí)推理模型。

打開網(wǎng)易新聞 查看精彩圖片

xAI現(xiàn)場(chǎng)演示了Grok-3的推理和創(chuàng)意編程能力,例如讓Grok-3生成一段從地球發(fā)射、著陸火星再到返回地球的3D動(dòng)畫代碼,還有涉及推理能力的升級(jí)版俄羅斯方塊小游戲。

打開網(wǎng)易新聞 查看精彩圖片

這些模型核心能力升級(jí)也被馬斯克融進(jìn)了新的Grok應(yīng)用中,以Agent形式集成了DeepSearch、Think和Big Brain三種模式,針對(duì)用戶搜索場(chǎng)景,提供編程、數(shù)學(xué)等高階能力。DeepSearch可以聯(lián)網(wǎng)和掃描X來分析信息、提供查詢和摘要,Big Brain則可以進(jìn)行更多、更仔細(xì)的分布推理編程。

打開網(wǎng)易新聞 查看精彩圖片

除此以外,馬斯克還透露后續(xù)語音交互、多模態(tài)交互等新功能將上線,xAI還將成立一個(gè)AI游戲社區(qū),馬斯克此刻曾透露將開設(shè)AI游戲工作室。

Grok-3不會(huì)馬上向所有用戶開放,針對(duì)X的Premium+訂閱用戶就首先獲解鎖,在Grok獨(dú)立的APP端也會(huì)推出會(huì)員服務(wù)「SuperGrok」——價(jià)格為每月30美元或每年300美元。

打開網(wǎng)易新聞 查看精彩圖片

今天早些時(shí)候獲得Grok-3的早期使用權(quán)的前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy表示Grok-3是擁有最先進(jìn)的思考模型之一,性能與o1-pro相當(dāng),“我們需要實(shí)際的、真實(shí)的評(píng)估來觀察?!彼e了一個(gè)例子,他通過Grok-3 Think模式上傳了GPT-2論文,在問了一堆簡(jiǎn)單的查找問題,要求其估計(jì)訓(xùn)練GPT-2所需的訓(xùn)練flops數(shù)量,這考驗(yàn)?zāi)P蛯⒉檎摇?shù)學(xué)和知識(shí)相結(jié)合,根據(jù)他的測(cè)試結(jié)果,GPT-4o未能完成這項(xiàng)任務(wù),o1 pro也失敗了,但Grok-3 with Thinking 很好地解決了這個(gè)問題。

打開網(wǎng)易新聞 查看精彩圖片

過去,Grok還給人留下的印象是,更幽默的,有意思的AI,直播中xAI也強(qiáng)調(diào)了這一點(diǎn),但據(jù)Anderj Karpathy測(cè)試,模型的幽默感似乎沒有明顯改善,對(duì)「復(fù)雜的倫理問題」也過于敏感。

客觀來看,作為后發(fā)者,xAI用不到一年時(shí)間推出Grok-3,再度印證了馬斯克「大力出奇跡」的優(yōu)勢(shì),但評(píng)估模型實(shí)際能力和落地依舊要看后續(xù)的產(chǎn)品功能情況。

二、馬斯克的AI籌碼

二、馬斯克的AI籌碼

在全球大模型的競(jìng)逐中,馬斯克寄希望于xAI走一條典型的「后發(fā)先至」路線。

在發(fā)布Grok-3前,xAI在過去兩年之間內(nèi)對(duì)Grok系列的旗艦?zāi)P瓦M(jìn)行了三次大迭代,在模型能力上,Grok系列在推理、閱讀理解、數(shù)學(xué)、科學(xué)、寫代碼等方面都呈現(xiàn)出不錯(cuò)的表現(xiàn)。而在模型輕量化、多模態(tài)方向上,xAI也曾發(fā)布首個(gè)多模態(tài)模型Grok-1.5V和Grok-2mini,不斷豐富其模型家族。

在產(chǎn)品交互形式和商業(yè)模式上,馬斯克也一直針對(duì)Grok進(jìn)行優(yōu)化,在產(chǎn)品交互形式上,一方面更新界面、功能和產(chǎn)品組件。如將X的實(shí)時(shí)洞察和網(wǎng)絡(luò)搜索結(jié)合,推出新的引文功能,提升回答的準(zhǔn)確性。今年1月,不同于內(nèi)嵌于X內(nèi)部,xAI還宣布上線獨(dú)立的iOS應(yīng)用程序,并圍繞體育、金融等場(chǎng)景推出新內(nèi)容組件,提升用戶內(nèi)容體驗(yàn)。

而在商業(yè)模式上,通過免費(fèi)和開放API,降低模型使用門檻,去年年底,xAI宣布 Grok-2模型對(duì)X平臺(tái)用戶免費(fèi)開放(當(dāng)然也有使用限制),同步推出了企業(yè)API公開測(cè)試版?!腹杌芯渴摇共樵儼l(fā)現(xiàn),目前xAI提供Grok-2-1212和Grok-2-vision-1212兩種模型調(diào)用,以Grok-2-1212為例,其API定價(jià)為2.00美元/百萬輸入、10美元/百萬輸出,同時(shí)xAI還推出了數(shù)據(jù)共享計(jì)劃,為參與團(tuán)隊(duì)提供每月獲得150美元的免費(fèi)API積分。

打開網(wǎng)易新聞 查看精彩圖片

直播中,xAI稱Grok-3模型將與DeepSearch功能一起出現(xiàn)在xAI的企業(yè)API 中,對(duì)于人們關(guān)注的開源問題上,當(dāng)Grok-3成熟穩(wěn)定時(shí),可能在幾個(gè)月內(nèi)會(huì)開源Grok -2。

在大模型競(jìng)爭(zhēng)、估值水漲船高的今天,堅(jiān)信Grok和馬斯克能突圍的人,相信的是Grok自身的獨(dú)特優(yōu)勢(shì),即數(shù)據(jù)、卡、錢和「反OpenAI故事」。

首先,是數(shù)據(jù)。Grok與X高度綁定,是一個(gè)閉環(huán)的內(nèi)容生態(tài),高質(zhì)量的數(shù)據(jù)和穩(wěn)定的場(chǎng)景,這本身就是先天優(yōu)勢(shì)。馬斯克多次強(qiáng)調(diào),Grok通過合成數(shù)據(jù),繞過了困擾其他AI模型的數(shù)據(jù)隱私和知識(shí)產(chǎn)權(quán)相關(guān)的法律挑戰(zhàn),同時(shí)確保用戶的數(shù)據(jù)隱私安全。

其次,是卡,即算力。特斯拉和xAI儲(chǔ)備了大量的英偉達(dá)H100系列芯片,馬斯克此前曾質(zhì)疑機(jī)構(gòu)給將「Meta列為囤積全球最多的H100 GPU」的排行榜,指出「如果計(jì)算正確,特斯拉應(yīng)該是第二名,xAI將是第三名」,他還用122天將一個(gè)家電廠房改造為集合10萬張H100芯片的超級(jí)算力集群,就連英偉達(dá)創(chuàng)始人黃仁勛也忍不住感嘆:“在如此短的時(shí)間里內(nèi)完成,這簡(jiǎn)直是超人的成就”。

直播演示中,馬斯克在Grok-3發(fā)布前,也率先展示他的最強(qiáng)數(shù)據(jù)集群,團(tuán)隊(duì)表示,他們?cè)诮衲?月遇到很多問題,如冷卻和能耗等,也浪費(fèi)了很多算力,但最終還是以Grok-2的10倍算力資源,用六個(gè)月時(shí)間推出了Grok-3。

打開網(wǎng)易新聞 查看精彩圖片

xAI也似乎不缺錢,據(jù)彭博社報(bào)道,xAI正以750億美元的估值籌集100億美元,紅杉資本、Andreessen Horowitz和Valor Equity Partners等現(xiàn)有投資者,均參與了此次談判。

再者,還有「人」,xAI的團(tuán)隊(duì)核心成員曾在Google DeepMind、特斯拉、OpenAI和微軟等公司工作。

打開網(wǎng)易新聞 查看精彩圖片

最后,馬斯克「反OpenAI」的故事也得到了不少人的擁躉。一直以來,馬斯克的人工智能觀就是反OpenAI而行,他頻繁以政治中立、安全來強(qiáng)調(diào)xAI的不同。

三、Grok 野心能成嗎?

三、Grok 野心能成嗎?

不過,馬斯克野心勃勃的計(jì)劃背后,Grok也面臨「內(nèi)憂外患」。

首先,就Grok自身而言,一方面,就B端,企業(yè)API調(diào)用上,Grok目前還沒有完備的服務(wù)企業(yè)的能力,而我們看到在服務(wù)企業(yè)上,用編碼等能力吸引企業(yè)級(jí)客戶,OpenAI和Anthropic均有更快的進(jìn)展。據(jù)The information此前報(bào)道,Anthropic從使用其模型進(jìn)行軟件開發(fā)和代碼生成的客戶那里獲得的年化收入增長(zhǎng)了10倍。另一方面在C端,目前Grok和X的集成度還不夠多,特別是尚未上線的語音、視頻等功能。

有業(yè)內(nèi)人士產(chǎn)生的困惑是,在OpenAI已集成了語音、視頻等功能下,包括豆包在內(nèi)的中國(guó)公司也做得不錯(cuò),Grok還能在這方面和X聯(lián)合作出哪些新的創(chuàng)意?“如果只是一個(gè)TTS(文本轉(zhuǎn)語音技術(shù)),那不會(huì)有改變”。(雖然直播中,xAI說不會(huì)是TTS)。

其次,在外部,在DeepSeek等中國(guó)模型公司的沖擊下,更激烈的競(jìng)爭(zhēng)已經(jīng)開啟,OpenAI已發(fā)布GPT-4.5和GPT-5路線圖,Anthropic也宣布將推出Claude 4 系列。

某種程度上,在AI上的探索和嘗試反映出的是馬斯克從一而終的「競(jìng)爭(zhēng)觀」——用令人驚訝的時(shí)間表,推著團(tuán)隊(duì)不顧一切的前進(jìn),從而逼近自己的預(yù)期目標(biāo),這在特斯拉、SpaceX身上都有過驗(yàn)證。

在社交媒體上,人們大多對(duì)馬斯克的嘗試表示興奮,這也發(fā)生在DeepSeek所掀起的浪潮中——一位人工智能創(chuàng)業(yè)者這樣寫:“新的LLM比賽已經(jīng)火爆起來了,一周后誰會(huì)贏?”