打開(kāi)網(wǎng)易新聞 查看精彩圖片

摘要:Google AI主導(dǎo)了一場(chǎng)逆襲

作者丨鯨哥

對(duì)于Google來(lái)說(shuō),作為T(mén)ransformer等核心技術(shù)的發(fā)明者,在“AI 4巨頭”的討論中沒(méi)有它,是一件很尷尬的事情。

這讓其一直憋著一口氣,決心證明自己。最近Google的系列更新就頗具看點(diǎn):
打開(kāi)網(wǎng)易新聞 查看精彩圖片
這讓其一直憋著一口氣,決心證明自己。最近Google的系列更新就頗具看點(diǎn):

發(fā)布開(kāi)源模型 Gemma 3,性能超越DeepSeek V3、o3mini為全球第二強(qiáng)開(kāi)源模型,但是模型大小僅為7B。

發(fā)布Gemini 2.0 Flash Experimental,動(dòng)動(dòng)嘴就能PS的AI文生圖產(chǎn)品。不僅如此,對(duì)指令理解也相當(dāng)?shù)轿?,能連續(xù)生成一致性圖片,并評(píng)為AI生圖的GPT時(shí)刻,這幾天在 傳瘋了。

Deep Research開(kāi)放免費(fèi)使用,背后是2.0 Flash Thinking Experimental 提升推理能力并擴(kuò)展上下文窗口。

還有新一代 機(jī)器人 AI 模型Gemini Robotics ,對(duì)物理世界更懂了。

國(guó)外有網(wǎng)友評(píng)價(jià)Google這次更新,是幾乎每項(xiàng)到了最佳

打開(kāi)網(wǎng)易新聞 查看精彩圖片

到底有沒(méi)有這么強(qiáng)呢,鯨哥認(rèn)為是大差不差,有驚喜,也有吹噓。

先說(shuō)這次最被熱議的更新—Gemini 2.0 Flash Experimental。 原生圖像生成功能上線(xiàn),說(shuō)話(huà)就能PS照片的夢(mèng)想實(shí)現(xiàn)。通過(guò)聊天任意編輯圖像的局部或者全部,有點(diǎn)類(lèi)似Adobe firefly 版本。

我們用英偉達(dá)CEO黃仁勛此前發(fā)布會(huì)的圖片,來(lái)試試是否可以隨意PS。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

我們先要求換背景,讓黃仁勛在直播間中帶貨。這個(gè)難度不大,是不是摳圖也不好說(shuō)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

“321上鏈接”,5090顯卡刀法精準(zhǔn),直接賣(mài)爆了,我們讓黃仁勛開(kāi)心地笑起來(lái)??吹贸鰜?lái)表情有些崩,但整體還是做到了AI改變?nèi)宋锉砬椤?/p>

打開(kāi)網(wǎng)易新聞 查看精彩圖片

再要求把臉從黃仁勛換成馬斯克,這個(gè)挺順暢完成了,馬斯克的臉部還挺逼真,表情也比較自然。一個(gè)小細(xì)節(jié),攝像機(jī)上手機(jī)屏幕中的人物也跟著換成了馬斯克。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

還有一個(gè)這兩天大家很愛(ài)玩的功能,就是這個(gè)合成圖片的功能,熊的視角略微有一些轉(zhuǎn)向,但是合成圖片中還原的還不錯(cuò)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

很多人會(huì)質(zhì)疑這個(gè)功能有什么用,國(guó)外有小伙,利用gemini-2.0 新推出的圖片編輯 API,連夜肝了個(gè)工具,實(shí)現(xiàn)白底圖到產(chǎn)品實(shí)拍圖的批量自動(dòng)化生成。

 言變圖的“LLM時(shí)刻”,還有AI全家桶,Google殺瘋了
打開(kāi)網(wǎng)易新聞 查看更多視頻
言變圖的“LLM時(shí)刻”,還有AI全家桶,Google殺瘋了

他是這樣評(píng)價(jià)這個(gè)產(chǎn)品:“效果炸裂,特別是對(duì)產(chǎn)品的特征保留的很好,相比 ComfyUI 工作流調(diào)個(gè)半死,這不強(qiáng)多了?!?/p>

當(dāng)然它還能給線(xiàn)稿上色,鯨哥生成了“猿力崛起”類(lèi)似的圖片。生成效果確實(shí)還沒(méi)有Midjourney強(qiáng),但是能力很連貫,這是生成式AI的體現(xiàn),這是預(yù)言挑戰(zhàn)畫(huà)家的顛覆性一步。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Gemini-2.0不僅改圖能力強(qiáng),還能生成連續(xù)性的圖片故事集,效果也不錯(cuò)。以下是鯨哥測(cè)試的成果。

“生成一個(gè)關(guān)于爆炒羊雜教程系列圖片。對(duì)于每個(gè)場(chǎng)景,生成一個(gè)圖像和一段介紹文字?!盙oogle生成的教程顯示有點(diǎn)長(zhǎng),我在排版時(shí)用SVG動(dòng)畫(huà)顯示了,大家點(diǎn)擊下方即可查看。

羊雜切碎,調(diào)好備料 最關(guān)鍵是羊雜焯水

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

羊雜切碎,調(diào)好備料 最關(guān)鍵是羊雜焯水

放油,先炒調(diào)料 再加入羊雜爆炒

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

放油,先炒調(diào)料 再加入羊雜爆炒

放入蔬菜,炒至斷生 加入勾芡,炒熟裝盤(pán)

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

放入蔬菜,炒至斷生 加入勾芡,炒熟裝盤(pán)

感謝Google,終于知道中午做的爆炒羊雜為啥不好吃了,原來(lái)沒(méi)有先把羊雜焯水(直男落淚)。

此前的 2 月,Google Veo 2 已通過(guò) Freepik 發(fā)布了圖像轉(zhuǎn)視頻功能,現(xiàn)在與2.0 Flash有很好的結(jié)合了。

這個(gè)視頻是JP博主制作,用一張AI生成的美女和商品圖結(jié)合,先是生成了帶貨圖片,然后轉(zhuǎn)成了視頻,神奇的是視頻中飲料的商標(biāo)都沒(méi)有變,目前在上很火。

 言變圖的“LLM時(shí)刻”,還有AI全家桶,Google殺瘋了
打開(kāi)網(wǎng)易新聞 查看更多視頻
言變圖的“LLM時(shí)刻”,還有AI全家桶,Google殺瘋了

最后再講一個(gè)很有用的東西,應(yīng)該比以上視覺(jué)工具更加落地。

是不是大家仍沒(méi)有Manus邀請(qǐng)碼,感覺(jué)也不用苦苦等待了。Google deep Research 現(xiàn)在可以免費(fèi)使用,由 2.0 Flash Thinking模型提供支持,而且可以展示研究過(guò)程(chain of research),甚至支持鏈接你的搜索記錄對(duì) Gemini 進(jìn)行個(gè)性化設(shè)置。

這是我做的“中國(guó)視頻類(lèi)科技商業(yè)博主起號(hào)及爆款”研究專(zhuān)題,要求生成30頁(yè)以?xún)?nèi)的PPT報(bào)告。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

還能根據(jù)這份報(bào)告繼續(xù)提問(wèn),我問(wèn)了下最適合普通人學(xué)習(xí)的博主是誰(shuí),回答結(jié)果如下,額,不知道大家怎么看這個(gè)結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Deep Research能羅列Researching websites,這樣你可以清楚看到引用的哪些網(wǎng)站內(nèi)容,靠不靠譜。同時(shí)這也是Google deep Research 的優(yōu)勢(shì),搜索內(nèi)容的廣度上要比OpenAI 大很多,甚至能索引 YouTube 內(nèi)容。

最重要的是,它輸入框底下有行字,“Gemini can make mistakes, so double-check it”,避免出錯(cuò)進(jìn)行了雙倍檢查。這就極大避免了幻覺(jué)率,確保提供的信息,一定范圍內(nèi)的準(zhǔn)確性。

當(dāng)然問(wèn)題也有,就是這個(gè)產(chǎn)品不太Agent,讓生成PPT最終沒(méi)有生成,估計(jì)是因?yàn)檎{(diào)用不了其他工具。我體驗(yàn)導(dǎo)出報(bào)告,調(diào)用Chrome文檔也不流暢。以后使用MCP協(xié)議估計(jì)效果會(huì)更好。

在基礎(chǔ)語(yǔ)言模型方面,最大的更新是發(fā)布最新開(kāi)源模型 Gemma 3 。

最大僅為27B,性能超越DeepSeek V3、o3mini,為全球第二強(qiáng)開(kāi)源模型,僅次于DeepSeek R1,但是模型小很多,達(dá)到差不多的性能。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

其他幾個(gè)模型分別為 1B、4B、12B 和 27B,微型模型意味著可在手機(jī)、電腦上跑。

雖然模型小,但是各方面能力都具備。比如增強(qiáng)文本和視覺(jué)能力,可理解文本、圖片、短視頻。 支持128K上下文窗口 ,支持函數(shù)調(diào)用,支持AI 代理開(kāi)發(fā),自動(dòng)執(zhí)行任務(wù)。

不僅是通用LLM模型更新,Google還在具身智能領(lǐng)域做了很大的改進(jìn)。

Google DeepMind 推出基于 Gemini 2.0 研發(fā)的新一代 機(jī)器人 AI 模型Gemini Robotics 。

首先是具備泛化能力:Gemini Robotics利用Gemini 2.0的世界理解能力,機(jī)器人能夠處理未見(jiàn)過(guò)的新物體、新指令和新環(huán)境,甚至完成訓(xùn)練中未見(jiàn)過(guò)的新任務(wù)。

在綜合泛化基準(zhǔn)測(cè)試中,Gemini Robotics的性能比其他最先進(jìn)的VLA模型高出一倍以上。

例如,它能完成未訓(xùn)練過(guò)的任務(wù),如扣籃一個(gè)新籃球。-

其次是交互性:它能理解日常語(yǔ)言指令(包括不同語(yǔ)言),并快速響應(yīng)環(huán)境或指令的變化。例如,當(dāng)物體被移動(dòng)時(shí),它能迅速重新規(guī)劃行動(dòng)路徑,無(wú)需額外輸入即可繼續(xù)任務(wù)。

然后還具有靈活性與靈巧性:通過(guò)多模態(tài)推理(結(jié)合視覺(jué)、語(yǔ)言和動(dòng)作),機(jī)器人能精確操控物體,完成多步驟任務(wù)。支持執(zhí)行需要精細(xì)動(dòng)作的復(fù)雜任務(wù),如折疊紙鶴、將零食裝進(jìn)拉鏈袋或輕柔放置眼鏡。

要知道,一開(kāi)始,Google在大模型這波生成式AI浪潮中確實(shí)落后了。通過(guò)這兩年的蟄伏,Google還是證明了其技術(shù)儲(chǔ)備,完成了一場(chǎng)AI逆襲。

視頻內(nèi)容推薦:

主理人交流:

加入AI鯨英社群,和上千CEO、資本和大牛一起共話(huà)未來(lái)!

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Anthropic CEO最新預(yù)言:90%程序員的飯碗年內(nèi)不保!