明敏 白小交 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

爆炸消息——

ViT三大核心作者集體離職谷歌DeepMind。下一站:OpenAI

他們分別是翟曉華(Xiaohua Zhai)、盧卡斯·拜爾(Lucas Beyer)、亞歷山大·科列斯尼科夫(Alexander Kolesnikov)。

相關(guān)消息已被本人證實(shí),三人均官宣了新動(dòng)向。

打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片
打開(kāi)網(wǎng)易新聞 查看精彩圖片

2021年,他們?nèi)俗鳛楣餐蛔鞯挠?jì)算機(jī)視覺(jué)領(lǐng)域神作ViT發(fā)布即刷新ImageNet最高分。

這項(xiàng)研究證實(shí)了CNN在CV領(lǐng)域不是必需的,Transformer從NLP跨界,一樣可以取得先進(jìn)效果。開(kāi)創(chuàng)了Transformer在CV領(lǐng)域應(yīng)用的先河。

目前這篇論文被引用量已超過(guò)4.9萬(wàn)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外,他們還共同提出了SigLIP、PaliGamma等SOTA級(jí)工作。

幾周后,他們將正式加入OpenAI蘇黎世實(shí)驗(yàn)室。

值得一提的是,Wired方面消息稱(chēng),三人是被OpenAI挖走的。

網(wǎng)友評(píng)論:能撬動(dòng)這一“鐵三角”黃金組合,OpenAI真的太幸運(yùn)了。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

ViT三大核心作者投奔OpenAI

Xiaohua Zhai(翟曉華)

此前他是Google DeepMind 的高級(jí)研究員,領(lǐng)導(dǎo)著蘇黎世一個(gè)多模態(tài)研究小組。重點(diǎn)研究多模態(tài)數(shù)據(jù)(WebLI)、開(kāi)放權(quán)重模型 ( SigLIP、PaliGemma )以及文化包容性。

目前谷歌學(xué)術(shù)引用數(shù)超六萬(wàn)多。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

2014年他畢業(yè)于北京大學(xué),獲得計(jì)算機(jī)系博士學(xué)位;本科畢業(yè)于南京大學(xué)。一畢業(yè)就前往谷歌蘇黎世工作。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Lucas Beyer

這位同樣也是谷歌DeepMind蘇黎世小組的一位成員,共同領(lǐng)導(dǎo)著DeepMind的多模態(tài)研究團(tuán)隊(duì)和基礎(chǔ)設(shè)施。

目前已經(jīng)撰寫(xiě)超50篇論文,被CVPR、NeurIPS、ICCV 等這些頂級(jí)會(huì)議接收。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

據(jù)他個(gè)人官網(wǎng)中介紹,他在比利時(shí)長(zhǎng)大,曾夢(mèng)想制作電子游戲以及從事AI研究。自我認(rèn)定為「自學(xué)成才的黑客和研究科學(xué)家,致力于創(chuàng)造飛凡實(shí)物」。

他在德國(guó)亞琛工業(yè)大學(xué)學(xué)習(xí)機(jī)械工程,并在那里獲得了機(jī)器人感知和計(jì)算機(jī)視覺(jué)博士學(xué)位。2018年加入谷歌。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

Alexander Kolesnikov

2018年以來(lái),他就在谷歌大腦,現(xiàn)為DeepMind團(tuán)隊(duì)工作。之前主要成就包括訓(xùn)練SOTA視覺(jué)模型*(從2019年到2021年都實(shí)現(xiàn)了ImageNet SOTA);開(kāi)放權(quán)重模型(SigLIP和PaliGemma),以及神經(jīng)架構(gòu)方面的工作:BiT、ViT、MLP-Mixer和FlexiViT。

除此之外,編寫(xiě)靈活、高性能的研究基礎(chǔ)設(shè)施,尤其是Jax

此前,他在奧地利科學(xué)技術(shù)研究所(ISTA)攻讀博士學(xué)位,研究方向是弱監(jiān)督學(xué)習(xí)和圖像生成模型。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

曾是谷歌CV的“黃金鐵三角”

在谷歌任職期間,三人多次合作并帶來(lái)了影響領(lǐng)域發(fā)展的重要工作。

其中最重要的一篇莫過(guò)于ViT。

這篇研究驗(yàn)證了Transformer架構(gòu)在計(jì)算機(jī)視覺(jué)領(lǐng)域的通用性。在它的基礎(chǔ)上衍生出了Swin Transformer、DeiT(Data-efficient Image Transformers)等。

它創(chuàng)新性提出將圖像分割成固定大小的塊(patches),并將每個(gè)塊視為一個(gè)序列元素,與NLP中的單詞類(lèi)似。然后,這些塊通過(guò)變換器進(jìn)行處理。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

在許多視覺(jué)任務(wù)中,ViT在性能上超過(guò)了傳統(tǒng)的CNN模型,尤其是在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練時(shí)表現(xiàn)尤為突出。例如,在ImageNet分類(lèi)任務(wù)中,ViT取得了與最先進(jìn)的CNN模型相當(dāng)甚至更好的結(jié)果。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

此外他們還合作推出了MLP-Mixer、BiT(CV界的BERT)等領(lǐng)域內(nèi)知名工作。

參考鏈接:
[1]https://www.wired.com/story/openai-hires-deepmind-zurich/
[2]https://kolesnikov.ch/
[3]https://sites.google.com/view/xzhai
[4]https://lucasb.eyer.be/