打開網(wǎng)易新聞 查看精彩圖片

整理 | 華衛(wèi)、核子可樂

近日,谷歌與計(jì)算機(jī)歷史博物館(CHM)聯(lián)合發(fā)布了 AlexNet 項(xiàng)目源代碼。目前,項(xiàng)目的 Python 代碼已作為開源軟件在 CHM 的 GitHub 頁(yè)面上對(duì)外開放,允許 AI 愛好者和研究人員一窺這項(xiàng)在計(jì)算發(fā)展史上開天辟地的關(guān)鍵成果。

AlexNet 是一種卷積神經(jīng)網(wǎng)絡(luò) (CNN),其在 2012 年時(shí)被公認(rèn)改變了 AI 領(lǐng)域的面貌,表明“深度學(xué)習(xí)”可以實(shí)現(xiàn)傳統(tǒng) AI 技術(shù)所無法達(dá)成的諸多功能。

打開網(wǎng)易新聞 查看精彩圖片

GitHub 鏈接:https://github.com/computerhistory/AlexNet-Source-Code

深度學(xué)習(xí)技術(shù)采用多層神經(jīng)網(wǎng)絡(luò),無需明確編程即可從數(shù)據(jù)中學(xué)習(xí),由此開辟了一條與依賴手工制定規(guī)則與特征制定的傳統(tǒng) AI 截然不同的實(shí)現(xiàn)路徑。深度學(xué)習(xí)推動(dòng)了醫(yī)療保健、科學(xué)研究和無障礙工具的進(jìn)步,但它也促進(jìn)了深度偽造、自動(dòng)監(jiān)控以及廣泛失業(yè)的可能性等發(fā)展。但在 2012 年,這些負(fù)面后果對(duì)于當(dāng)時(shí)的人們來說還只是個(gè)遙不可及的科幻夢(mèng)想。專家只是驚訝于計(jì)算機(jī)終于能夠以接近人類的準(zhǔn)確度識(shí)別圖像內(nèi)容。

作為 AI 發(fā)展的一個(gè)分水嶺,AlexNet 能夠以前所未有的準(zhǔn)確度識(shí)別出照片中的物體——具體來講,它能正確將圖像歸入 1000 個(gè)類別中的具體一個(gè),如“草莓”、“校車”乃至“金毛犬”,且錯(cuò)誤率遠(yuǎn)遠(yuǎn)低于以往的 AI 系統(tǒng)。

如同觀察最初 ENIAC 計(jì)算機(jī)的電路設(shè)計(jì)或者 Babbage 差分機(jī)一樣,AlexNet 的源代碼將讓未來的歷史學(xué)家們了解一項(xiàng)相對(duì)簡(jiǎn)單的實(shí)現(xiàn)方案是如何激發(fā)出重塑整個(gè)世界的 AI 技術(shù)的。

AlexNet 原始真實(shí)代碼得以公開

正如 CHm 在其博文中所介紹,AlexNet 源自多倫多大學(xué)研究生 Alex Krizhevsky 和 Ilya Sutskever 及其導(dǎo)師 Geoffrey Hinton 的工作。該項(xiàng)目證明,深度學(xué)習(xí)技術(shù)確實(shí)勝過了傳統(tǒng)計(jì)算機(jī)視覺方法。

神經(jīng)網(wǎng)絡(luò)憑借遠(yuǎn)超以往任何方法的質(zhì)量識(shí)別出照片中的物體,并最終贏得 2012 年的 ImageNet 競(jìng)賽。當(dāng)時(shí)正在意大利佛羅倫薩聆聽相關(guān)演講的計(jì)算機(jī)視覺資深專家 Yann LeCun 立即意識(shí)到它對(duì) AI 領(lǐng)域的重要意義,據(jù)報(bào)道他在演講結(jié)束后站起身來,稱 AlexNet 是“計(jì)算機(jī)視覺歷史上的一個(gè)明確轉(zhuǎn)折點(diǎn)”。更具體地講,AlexNet 的出現(xiàn)標(biāo)志著定義現(xiàn)代 AI 的三大關(guān)鍵技術(shù)由此開始融合。

計(jì)算機(jī)歷史博物館的軟件歷史學(xué)家 Hansen Hsu 為發(fā)布具有歷史意義的 AlexNet 源代碼,與谷歌展開了長(zhǎng)達(dá)五年的談判。這一進(jìn)程始于 2020 年,當(dāng)時(shí) Hsu 聯(lián)系了 AlexNet 共同開發(fā)者 Alex Krizhevsky,希望獲得代碼發(fā)布授權(quán)。但由于谷歌早在 2013 年已收購(gòu)該團(tuán)隊(duì)所屬的 DNNresearch 公司,相關(guān)知識(shí)產(chǎn)權(quán)歸屬谷歌,初次接觸未能達(dá)成共識(shí)。

轉(zhuǎn)機(jī)出現(xiàn)在 Krizhevsky 將 Hsu 引薦給谷歌深度學(xué)習(xí)專家 Geoffrey Hinton 后。作為當(dāng)年研發(fā)團(tuán)隊(duì)的核心成員,Hinton 主動(dòng)協(xié)調(diào)博物館與谷歌相關(guān)部門建立正式溝通渠道。在隨后五年間,雙方團(tuán)隊(duì)不僅需要解決復(fù)雜的法律授權(quán)問題,還需從眾多迭代版本中精準(zhǔn)識(shí)別 2012 年原始代碼——這成為項(xiàng)目推進(jìn)的關(guān)鍵難點(diǎn)。正如 Hsu 強(qiáng)調(diào),盡管網(wǎng)絡(luò)上存在大量以"AlexNet"命名的重構(gòu)版本,但真正引發(fā)人工智能革命的原始實(shí)現(xiàn)始終未被公開,GitHub 上很多同名代碼庫(kù)都是基于這篇著名論文的重新創(chuàng)作。

通過比對(duì)論文細(xì)節(jié)與代碼架構(gòu)特征,雙方最終確認(rèn)了包含 2012 年 ImageNet 大賽突破性成果的初始版本。該版本因其完整保留了原始硬件適配方案和早期神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)范式,被認(rèn)定為最具歷史價(jià)值的技術(shù)遺產(chǎn)。

另外,除了代碼本身的價(jià)值,HuggingFace 聯(lián)合創(chuàng)始人 Thomas Wolf 還發(fā)現(xiàn),代碼中的注釋也非常有啟發(fā)性。

打開網(wǎng)易新聞 查看精彩圖片

他說:“也許真正的歷史在于 AlexNet 代碼中,每個(gè)實(shí)驗(yàn)配置文件末尾的日志評(píng)論?!焙芏嗑W(wǎng)友也同意他的看法。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

背后的技術(shù)創(chuàng)新

雖然 AlexNet 對(duì) AI 的影響如今已經(jīng)成為傳奇,但了解其背后的技術(shù)創(chuàng)新仍有助于解釋它為何能夠代表這個(gè)關(guān)鍵性的里程碑。具體來講,這一突破并非單一技術(shù)革命的結(jié)果,而是先前單獨(dú)開發(fā)的多項(xiàng)現(xiàn)有技術(shù)的優(yōu)雅組合。

該項(xiàng)目融合了之前相互獨(dú)立的三大組件:深度神經(jīng)網(wǎng)絡(luò)、海量圖像數(shù)據(jù)集與圖形處理單元(GPU)。深度神經(jīng)網(wǎng)絡(luò)構(gòu)成了 AlexNet 的核心架構(gòu),其擁有多個(gè)層,能夠?qū)W習(xí)極其復(fù)雜的視覺特征。該網(wǎng)絡(luò)以 Krizhevsky 的名字命名,紀(jì)念他實(shí)現(xiàn)了這套系統(tǒng)并完成了廣泛的訓(xùn)練過程。

與傳統(tǒng) AI 系統(tǒng)不同,之前的 AI 項(xiàng)目要求程序員手動(dòng)指定要在圖像中尋找哪些特征。相比之下,深度網(wǎng)絡(luò)則能夠自動(dòng)發(fā)現(xiàn)不同抽象級(jí)別的模式——從早期圖層的簡(jiǎn)單邊緣與紋理,到更深層中的復(fù)雜對(duì)象部分。

但需要注意的是,AlexNet 使用專門用于處理圖像等網(wǎng)格狀數(shù)據(jù)的 CNN 架構(gòu),這與當(dāng)今大語(yǔ)言模型(例如 ChatGPT 和 Claude)依托的 Transformer 模型有所區(qū)別。后者源自谷歌研究院 2017 年的一項(xiàng)發(fā)明,Transformer 擅長(zhǎng)處理順序數(shù)據(jù)并通過所謂“注意力”機(jī)制捕捉文本及其他媒體中的長(zhǎng)距離依賴關(guān)系。

在訓(xùn)練數(shù)據(jù)方面,AlexNet 使用了 ImageNet,即斯坦福大學(xué)教授李飛飛博士于 2006 年建立的數(shù)據(jù)庫(kù)。李飛飛收集了數(shù)百萬張互聯(lián)網(wǎng)圖像,并將其整理成名為 WordNet 的數(shù)據(jù)庫(kù)當(dāng)中。亞馬遜 Mechanical Turk 平臺(tái)項(xiàng)目的工作人員則幫助對(duì)這些圖像進(jìn)行了標(biāo)注。

打開網(wǎng)易新聞 查看精彩圖片

2020 年拍攝的 ImageNet 數(shù)據(jù)庫(kù)截圖

該項(xiàng)目需要強(qiáng)大的算力資源才能處理這些數(shù)據(jù)。為此,Krizhevsky 在父母家臥室的一臺(tái)計(jì)算機(jī)上安裝了兩張英偉達(dá)顯卡,并借此完成了訓(xùn)練過程。神經(jīng)網(wǎng)絡(luò)會(huì)并行執(zhí)行大量矩陣計(jì)算,而圖形芯片能夠很好地處理這些任務(wù)。在黃仁勛的領(lǐng)導(dǎo)下,英偉達(dá)于 2007 年發(fā)布的 CUDA 軟件為其圖形芯片賦予了可編程能力,由此掀開了顯卡在非圖形任務(wù)領(lǐng)域的一路狂飆。

ImageNet 和 NVIDIA 的 CUDA 最初都只是相對(duì)小眾的技術(shù)成果,正等待合適的環(huán)境來展現(xiàn)其真正價(jià)值。2012 年,AlexNet 首次將這些元素(深度神經(jīng)網(wǎng)絡(luò)、大數(shù)據(jù)集和 GPU 計(jì)算)結(jié)合在一起,并取得了開創(chuàng)性的成果。

Krizhevsky、Sutskever 和 Hinton 的論文于 2012 年秋季發(fā)表,并由 Krizhevsky 在 10 月意大利佛羅倫薩的一場(chǎng)計(jì)算機(jī)視覺會(huì)議上公開展示。經(jīng)驗(yàn)豐富的計(jì)算機(jī)視覺研究者對(duì)此持懷疑態(tài)度,但出席會(huì)議的 Yann LeCun 將其稱為 AI 領(lǐng)域的轉(zhuǎn)折點(diǎn)。他的判斷是正確的。在 AlexNet 之前,幾乎沒有頂級(jí)計(jì)算機(jī)視覺論文使用神經(jīng)網(wǎng)絡(luò),而在它之后,幾乎所有的論文都開始采用神經(jīng)網(wǎng)絡(luò)。

打開網(wǎng)易新聞 查看精彩圖片

2012 年發(fā)表的開創(chuàng)性論文已被引用超過 172,000 次

AlexNet 的影響當(dāng)然不僅限于計(jì)算機(jī)視覺。如今,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)正在為語(yǔ)音合成、游戲系統(tǒng)、語(yǔ)言模型和圖像生成器等提供支持。而從負(fù)面角度來看,它們也在生成大量社交垃圾信息、幫助集權(quán)者監(jiān)控民眾甚至篡改歷史記錄,最終有可能造成嚴(yán)重的社會(huì)撕裂。

核心開發(fā)者們?nèi)缃裨谧鍪裁矗?/p>

在取得突破的 13 年之后,AlexNet 的核心開發(fā)者們將自己的專業(yè)知識(shí)運(yùn)用到了不同方向,每個(gè)人都在以獨(dú)特的方式繼續(xù)為 AI 領(lǐng)域做出貢獻(xiàn)。

在 AlexNet 取得成功之后,Krizhevsky、Sutskever 與 Hinton 成立了名為 DNNresearch 的公司,并于 2013 年被谷歌收購(gòu)。自此之后,各位團(tuán)隊(duì)成員走上了不同的發(fā)展道路。Sutskever 于 2015 年參與創(chuàng)立了 OpenAI,該公司于 2022 年發(fā)布了 ChatGPT,近期又推出了 Safe Superintelligence (SSI) 并以初創(chuàng)身份獲得 10 億美元融資。Krizhevsky 則于 2017 年離開谷歌,在 Dessa 從事新的深度學(xué)習(xí)技術(shù)研究。

Hinton 因警告未來 AI 系統(tǒng)的潛在危險(xiǎn)而備受爭(zhēng)議,他于 2023 年從谷歌辭職,以便能更自由地討論這個(gè)話題。去年,Hinton 與 John J. Hopfield 共同獲得了 2024 年諾貝爾物理學(xué)獎(jiǎng),以表彰他們?cè)谏鲜兰o(jì) 80 年代初在機(jī)器學(xué)習(xí)領(lǐng)域做出的開創(chuàng)性貢獻(xiàn)。消息一出,整個(gè)科學(xué)界備受震動(dòng)。

關(guān)于成就 AlexNet 的最大功勞該歸于誰,Hinton 以他特有的幽默感向計(jì)算機(jī)歷史博物館做出了這樣的介紹:“Ilya 覺得我們應(yīng)該試試,Alex 把事做成了,卻是我得了諾貝爾獎(jiǎng)?!?/p>

https://arstechnica.com/ai/2025/03/you-can-now-download-the-source-code-that-sparked-the-ai-boom/

聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

在 AI 大模型重塑軟件開發(fā)的時(shí)代,我們?nèi)绾伟盐兆兏??如何突破技術(shù)邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會(huì)· 北京站 邀你共赴 3 天沉浸式學(xué)習(xí)之約,跳出「技術(shù)繭房」,探索前沿科技的無限可能。

本次大會(huì)將匯聚頂尖技術(shù)專家、創(chuàng)新實(shí)踐者,共同探討多行業(yè) AI 落地應(yīng)用,分享一手實(shí)踐經(jīng)驗(yàn),深度參與 DeepSeek 主題圓桌,洞見未來趨勢(shì)。