
11 月發(fā)布 k0-math 時(shí),楊植麟提了 23 次強(qiáng)化學(xué)習(xí),17 次推理,7 次 o1。
文丨王與桐
編輯丨程曼祺
本月初經(jīng)歷仲裁風(fēng)波后,月之暗面在 11 月 16 日發(fā)布新的數(shù)學(xué)模型 k0-math,當(dāng)時(shí)月之暗面創(chuàng)始人楊植麟反復(fù)提到 “o1”:他將 k0-math 的測(cè)評(píng)評(píng)分與 o1 比較,稱其思路與 o1 類似——都采用了強(qiáng)化學(xué)習(xí)和思維鏈技術(shù)。
o1 是 OpenAI 在今年 9 月發(fā)布的新模型,它有更強(qiáng)推理和數(shù)學(xué)能力。楊植麟曾在 o1 發(fā)布后不久的一場(chǎng)演講中說(shuō),o1 的出現(xiàn)意味著大模型的范式轉(zhuǎn)換:從預(yù)測(cè)下一個(gè) token 的規(guī)模擴(kuò)展( Next-Token Prediction Scaling)到強(qiáng)化學(xué)習(xí)的規(guī)模擴(kuò)展(Reinforcement Learning Scaling)。
我們獨(dú)家獲悉,在探索新技術(shù)變化的同時(shí),月之暗面近期引入一位新技術(shù)負(fù)責(zé)人——華為諾亞方舟實(shí)驗(yàn)室原 AI 基礎(chǔ)理論團(tuán)隊(duì)研究員,劉征瀛。他正在月之暗面帶隊(duì)探索 o1 方向。
據(jù)了解,劉征瀛也曾被字節(jié)跳動(dòng)高層邀請(qǐng)加入字節(jié)大模型團(tuán)隊(duì),但他選擇了加入創(chuàng)業(yè)公司。
劉征瀛本科畢業(yè)于北京大學(xué)元培學(xué)院,獲得物理和數(shù)學(xué)雙學(xué)位,后在巴黎薩克雷大學(xué)(Université Paris-Saclay)獲得博士學(xué)位,主攻 AutoML(Automated Machine Learning,自動(dòng)化深度學(xué)習(xí)) 方向。
AI for Math 是劉征瀛深入研究的方向之一,除發(fā)表數(shù)篇相關(guān)論文外,他在 2023 年的幾次公開(kāi)演講都以 AI for Math 為主題。
據(jù)了解,k0-math 數(shù)學(xué)模型早在半年前已有雛形,當(dāng)時(shí)內(nèi)部代號(hào)為 “胖胖”。在今年初的月之暗面全員會(huì)上,楊植麟就將 “多階段推理” 放到了年度規(guī)劃里,k0-math 代表著月之暗面在多階段推理能力上的努力。
與 o1 相關(guān)的成果還有,今年 10 月初,月之暗面推出了 Kimi 探索版,可實(shí)現(xiàn)多步思考和更深度地檢索。
從成立至今,月之暗面長(zhǎng)期被認(rèn)為是中國(guó)大模型創(chuàng)業(yè)公司中,技術(shù)人才密度頗高的一家。月之暗面現(xiàn)在仍只有 100 多人,但匯集了楊植麟和周昕宇兩位技術(shù)背景創(chuàng)始人,楊植麟發(fā)表過(guò)兩篇大語(yǔ)言模型領(lǐng)域重要論文 [1],周昕宇在曠視期間與現(xiàn)在加入另一家大模型獨(dú)角獸階躍星辰的張祥雨,一起發(fā)表過(guò)單篇引用超 9000 次的卷積神經(jīng)網(wǎng)絡(luò)論文 [2]。
今年至今,月之暗面又陸續(xù)吸納了曾在 Transformer 架構(gòu)方向發(fā)表多篇論文的蘇劍林,微軟亞研院原多模態(tài)專家譚旭等人,如今劉征瀛也加入了月之暗面。
我們獲悉,這段時(shí)間,月之暗面招聘的重點(diǎn)方向仍是算法人才。但另一方面,月之暗面對(duì)外釋放模型和算法進(jìn)展并不多。在 k0-math 之前,他們上一次發(fā)布模型動(dòng)態(tài)是 2023 年底發(fā)布 moonshot-v1 系列。
在此前的采訪中,楊植麟曾提到想要招募各個(gè)領(lǐng)域的 genius(天才)。楊植麟對(duì)天才的定義是:“天才不一定是先天的。也可以通過(guò)訓(xùn)練,重要的是有沒(méi)有意識(shí)創(chuàng)新?!?/p>
創(chuàng)新依然重要,人才依然重要,算法和技術(shù)也依然重要,但隨著大公司的投入,模型能力之外,產(chǎn)品相關(guān)的綜合能力也成為現(xiàn)階段的重要競(jìng)爭(zhēng)因素:這包括設(shè)計(jì)優(yōu)化、投放效率、留存轉(zhuǎn)化和商業(yè)化策略等,和支持以上連環(huán)動(dòng)作的錢與資源。后者是字節(jié)跳動(dòng)等大公司積累多年的強(qiáng)項(xiàng)。
題圖來(lái)源:Boys in the Boat
文中提到的論文分別為:
[1]XLNet: Generalized Autoregressive Pretraining for Language Understanding
Transformer-xl: Attentive language models beyond a fixed-length context
[2]Shufflenet: An extremely efficient convolutional neural network for mobile devices
熱門跟貼