精品国产鲁一鲁一区二区在线观看,亚洲国产成人二区,国产一区二区三区精品视频免费,一个人www免费看视频在线观看,一边洗澡一边做

文 | kiki

「一個(gè)追求極致真理的AI?！?/p>

北京時(shí)間2月18日中午，馬斯克和xAI發(fā)布了其最新旗艦?zāi)Ｐ虶rok-3系列和最新聊天機(jī)器人Grok，憑借著馬斯克的強(qiáng)大光環(huán)，盡管xAI作為這場(chǎng)AI競(jìng)賽中的后發(fā)者，但其一舉一動(dòng)都備受關(guān)注。

在不到一個(gè)小時(shí)、百萬人圍觀的發(fā)布會(huì)中，xAI展現(xiàn)了Grok-3令人印象深刻的模型能力——從馬斯克的最強(qiáng)數(shù)據(jù)集群到直接的評(píng)測(cè)數(shù)據(jù)對(duì)比，似乎在回應(yīng)他此前對(duì)Grok-3的評(píng)價(jià)——「地表最強(qiáng)AI」。

但據(jù)前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy的評(píng)價(jià)，「Grok-3+Thinking」感覺與OpenAl最強(qiáng)模型o1-pro相差無幾，但取得同等能力需要加上一個(gè)前提：Grok-2和Grok-3之間，才過去了六個(gè)月而已?！斑_(dá)到最先進(jìn)領(lǐng)域的時(shí)間表是前所未有的”。Anderj Karpathy說。

Grok-3的發(fā)布符合馬斯克的競(jìng)爭(zhēng)觀——他總是習(xí)慣用最快的時(shí)間表、推動(dòng)團(tuán)隊(duì)完成創(chuàng)新，這也是他擅長(zhǎng)講述的故事——用巨大的算力（20萬張GPU，Grok-3使用了超出DeepSeek-V3百倍的算力）、規(guī)模小的團(tuán)隊(duì)（xAI最初成立只有12人），做不下牌桌的人。

一、「地表最強(qiáng)AI」Grok 3表現(xiàn)如何？

直播中xAI團(tuán)隊(duì)將Grok-2形容為「玩具」，這當(dāng)然是為了突出Grok-3的強(qiáng)大。

xAI發(fā)布的Grok-3是一個(gè)模型系列，包括了推理模型和mini模型。

在模型能力上，Grok-3在推理、數(shù)學(xué)、代碼、數(shù)學(xué)等多方面，都取得了新的突破，Grok-3的推理模型Grok-3 Reasoning和Grok-3 mini Reasoning在 AIME上取得了96分，在GPQA上取得了85分，跑贏了o3 mini、DeepSeek-R1等。

在AIME 2025最新的數(shù)學(xué)基準(zhǔn)測(cè)試中，Grok-3 Reasoning超越了o3-mini的最佳版本o3-mini high。

在大模型競(jìng)技場(chǎng)LMSYS上，Grok-3早期版本（巧克力）在總榜上位列排名第一，也是首個(gè)評(píng)分突破1400分的模型，尤其在「編碼」類別中，Grok-3超越了o1和Gemini-thinking等頂級(jí)推理模型。

xAI現(xiàn)場(chǎng)演示了Grok-3的推理和創(chuàng)意編程能力，例如讓Grok-3生成一段從地球發(fā)射、著陸火星再到返回地球的3D動(dòng)畫代碼，還有涉及推理能力的升級(jí)版俄羅斯方塊小游戲。

這些模型核心能力升級(jí)也被馬斯克融進(jìn)了新的Grok應(yīng)用中，以Agent形式集成了DeepSearch、Think和Big Brain三種模式，針對(duì)用戶搜索場(chǎng)景，提供編程、數(shù)學(xué)等高階能力。DeepSearch可以聯(lián)網(wǎng)和掃描X來分析信息、提供查詢和摘要，Big Brain則可以進(jìn)行更多、更仔細(xì)的分布推理編程。

除此以外，馬斯克還透露后續(xù)語音交互、多模態(tài)交互等新功能將上線，xAI還將成立一個(gè)AI游戲社區(qū)，馬斯克此刻曾透露將開設(shè)AI游戲工作室。

Grok-3不會(huì)馬上向所有用戶開放，針對(duì)X的Premium+訂閱用戶就首先獲解鎖，在Grok獨(dú)立的APP端也會(huì)推出會(huì)員服務(wù)「SuperGrok」——價(jià)格為每月30美元或每年300美元。

今天早些時(shí)候獲得Grok-3的早期使用權(quán)的前OpenAI聯(lián)合創(chuàng)始人Anderj Karpathy表示Grok-3是擁有最先進(jìn)的思考模型之一，性能與o1-pro相當(dāng)，“我們需要實(shí)際的、真實(shí)的評(píng)估來觀察?！彼e了一個(gè)例子，他通過Grok-3 Think模式上傳了GPT-2論文，在問了一堆簡(jiǎn)單的查找問題，要求其估計(jì)訓(xùn)練GPT-2所需的訓(xùn)練flops數(shù)量，這考驗(yàn)?zāi)Ｐ蛯⒉檎摇?shù)學(xué)和知識(shí)相結(jié)合，根據(jù)他的測(cè)試結(jié)果，GPT-4o未能完成這項(xiàng)任務(wù)，o1 pro也失敗了，但Grok-3 with Thinking 很好地解決了這個(gè)問題。

過去，Grok還給人留下的印象是，更幽默的，有意思的AI，直播中xAI也強(qiáng)調(diào)了這一點(diǎn)，但據(jù)Anderj Karpathy測(cè)試，模型的幽默感似乎沒有明顯改善，對(duì)「復(fù)雜的倫理問題」也過于敏感。

客觀來看，作為后發(fā)者，xAI用不到一年時(shí)間推出Grok-3，再度印證了馬斯克「大力出奇跡」的優(yōu)勢(shì)，但評(píng)估模型實(shí)際能力和落地依舊要看后續(xù)的產(chǎn)品功能情況。

二、馬斯克的AI籌碼

在全球大模型的競(jìng)逐中，馬斯克寄希望于xAI走一條典型的「后發(fā)先至」路線。

在發(fā)布Grok-3前，xAI在過去兩年之間內(nèi)對(duì)Grok系列的旗艦?zāi)Ｐ瓦M(jìn)行了三次大迭代，在模型能力上，Grok系列在推理、閱讀理解、數(shù)學(xué)、科學(xué)、寫代碼等方面都呈現(xiàn)出不錯(cuò)的表現(xiàn)。而在模型輕量化、多模態(tài)方向上，xAI也曾發(fā)布首個(gè)多模態(tài)模型Grok-1.5V和Grok-2mini，不斷豐富其模型家族。

在產(chǎn)品交互形式和商業(yè)模式上，馬斯克也一直針對(duì)Grok進(jìn)行優(yōu)化，在產(chǎn)品交互形式上，一方面更新界面、功能和產(chǎn)品組件。如將X的實(shí)時(shí)洞察和網(wǎng)絡(luò)搜索結(jié)合，推出新的引文功能，提升回答的準(zhǔn)確性。今年1月，不同于內(nèi)嵌于X內(nèi)部，xAI還宣布上線獨(dú)立的iOS應(yīng)用程序，并圍繞體育、金融等場(chǎng)景推出新內(nèi)容組件，提升用戶內(nèi)容體驗(yàn)。

而在商業(yè)模式上，通過免費(fèi)和開放API，降低模型使用門檻，去年年底，xAI宣布 Grok-2模型對(duì)X平臺(tái)用戶免費(fèi)開放（當(dāng)然也有使用限制），同步推出了企業(yè)API公開測(cè)試版?！腹杌芯渴摇共樵儼l(fā)現(xiàn)，目前xAI提供Grok-2-1212和Grok-2-vision-1212兩種模型調(diào)用，以Grok-2-1212為例，其API定價(jià)為2.00美元/百萬輸入、10美元/百萬輸出，同時(shí)xAI還推出了數(shù)據(jù)共享計(jì)劃，為參與團(tuán)隊(duì)提供每月獲得150美元的免費(fèi)API積分。

直播中，xAI稱Grok-3模型將與DeepSearch功能一起出現(xiàn)在xAI的企業(yè)API 中，對(duì)于人們關(guān)注的開源問題上，當(dāng)Grok-3成熟穩(wěn)定時(shí)，可能在幾個(gè)月內(nèi)會(huì)開源Grok -2。

在大模型競(jìng)爭(zhēng)、估值水漲船高的今天，堅(jiān)信Grok和馬斯克能突圍的人，相信的是Grok自身的獨(dú)特優(yōu)勢(shì)，即數(shù)據(jù)、卡、錢和「反OpenAI故事」。

首先，是數(shù)據(jù)。Grok與X高度綁定，是一個(gè)閉環(huán)的內(nèi)容生態(tài)，高質(zhì)量的數(shù)據(jù)和穩(wěn)定的場(chǎng)景，這本身就是先天優(yōu)勢(shì)。馬斯克多次強(qiáng)調(diào)，Grok通過合成數(shù)據(jù)，繞過了困擾其他AI模型的數(shù)據(jù)隱私和知識(shí)產(chǎn)權(quán)相關(guān)的法律挑戰(zhàn)，同時(shí)確保用戶的數(shù)據(jù)隱私安全。

其次，是卡，即算力。特斯拉和xAI儲(chǔ)備了大量的英偉達(dá)H100系列芯片，馬斯克此前曾質(zhì)疑機(jī)構(gòu)給將「Meta列為囤積全球最多的H100 GPU」的排行榜，指出「如果計(jì)算正確，特斯拉應(yīng)該是第二名，xAI將是第三名」，他還用122天將一個(gè)家電廠房改造為集合10萬張H100芯片的超級(jí)算力集群，就連英偉達(dá)創(chuàng)始人黃仁勛也忍不住感嘆：“在如此短的時(shí)間里內(nèi)完成，這簡(jiǎn)直是超人的成就”。

直播演示中，馬斯克在Grok-3發(fā)布前，也率先展示他的最強(qiáng)數(shù)據(jù)集群，團(tuán)隊(duì)表示，他們?cè)诮衲?月遇到很多問題，如冷卻和能耗等，也浪費(fèi)了很多算力，但最終還是以Grok-2的10倍算力資源，用六個(gè)月時(shí)間推出了Grok-3。

xAI也似乎不缺錢，據(jù)彭博社報(bào)道，xAI正以750億美元的估值籌集100億美元，紅杉資本、Andreessen Horowitz和Valor Equity Partners等現(xiàn)有投資者，均參與了此次談判。

再者，還有「人」，xAI的團(tuán)隊(duì)核心成員曾在Google DeepMind、特斯拉、OpenAI和微軟等公司工作。

最后，馬斯克「反OpenAI」的故事也得到了不少人的擁躉。一直以來，馬斯克的人工智能觀就是反OpenAI而行，他頻繁以政治中立、安全來強(qiáng)調(diào)xAI的不同。

三、Grok 野心能成嗎？

不過，馬斯克野心勃勃的計(jì)劃背后，Grok也面臨「內(nèi)憂外患」。

首先，就Grok自身而言，一方面，就B端，企業(yè)API調(diào)用上，Grok目前還沒有完備的服務(wù)企業(yè)的能力，而我們看到在服務(wù)企業(yè)上，用編碼等能力吸引企業(yè)級(jí)客戶，OpenAI和Anthropic均有更快的進(jìn)展。據(jù)The information此前報(bào)道，Anthropic從使用其模型進(jìn)行軟件開發(fā)和代碼生成的客戶那里獲得的年化收入增長(zhǎng)了10倍。另一方面在C端，目前Grok和X的集成度還不夠多，特別是尚未上線的語音、視頻等功能。

有業(yè)內(nèi)人士產(chǎn)生的困惑是，在OpenAI已集成了語音、視頻等功能下，包括豆包在內(nèi)的中國(guó)公司也做得不錯(cuò)，Grok還能在這方面和X聯(lián)合作出哪些新的創(chuàng)意？“如果只是一個(gè)TTS（文本轉(zhuǎn)語音技術(shù)），那不會(huì)有改變”。（雖然直播中，xAI說不會(huì)是TTS）。

其次，在外部，在DeepSeek等中國(guó)模型公司的沖擊下，更激烈的競(jìng)爭(zhēng)已經(jīng)開啟，OpenAI已發(fā)布GPT-4.5和GPT-5路線圖，Anthropic也宣布將推出Claude 4 系列。

某種程度上，在AI上的探索和嘗試反映出的是馬斯克從一而終的「競(jìng)爭(zhēng)觀」——用令人驚訝的時(shí)間表，推著團(tuán)隊(duì)不顧一切的前進(jìn)，從而逼近自己的預(yù)期目標(biāo)，這在特斯拉、SpaceX身上都有過驗(yàn)證。

在社交媒體上，人們大多對(duì)馬斯克的嘗試表示興奮，這也發(fā)生在DeepSeek所掀起的浪潮中——一位人工智能創(chuàng)業(yè)者這樣寫：“新的LLM比賽已經(jīng)火爆起來了，一周后誰會(huì)贏？”