機器之心報道
編輯:+0、陳陳
《自然》雜志統(tǒng)計了 5 個數(shù)據(jù)庫,給出了論文引用 Top 25 名單。
21 世紀(jì)被引用最多的論文有哪些?
大家不用去統(tǒng)計了,《自然》給出了一個最新 Top 25 排名。

完整排名地址:https://www.nature.com/magazine-assets/d41586-025-01125-9/50860378
排名第一的是微軟在 2016 年發(fā)布的 ResNets 研究,這是一篇計算機視覺領(lǐng)域的經(jīng)典論文。
ResNets 作為一種人工神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)以及后續(xù) AI 進步的基礎(chǔ)。這項工作最初于 2015 年底以預(yù)印本形式發(fā)布,作者包括何愷明、張祥雨、任少卿和孫劍。ResNets 原始論文在 2016 就獲得了 CVPR 最佳論文獎。

論文地址:https://arxiv.org/pdf/1512.03385
后來 AI 領(lǐng)域重大進展,都深受 ResNets 的影響,包括圍棋 AI(AlphaGo)、蛋白質(zhì)結(jié)構(gòu)預(yù)測(AlphaFold)到后來的語言模型(ChatGPT)等。
此外,「隨機森林(Random forests (2001))」,「Attention is all you need (2017)」、「ImageNet classification with deep convolutional neural networks (2017)」也位居 top 10 榜單。
值得注意的是,以上結(jié)論是《自然》團隊選取了5 個數(shù)據(jù)庫(Web of Science、Scopus、OpenAlex、Dimensions、Google Scholar)的統(tǒng)計結(jié)果,這些數(shù)據(jù)庫涵蓋了 21 世紀(jì)發(fā)表的數(shù)千萬篇論文:ResNets 在其中兩個數(shù)據(jù)庫中引用量最高,在另外兩個中排名第二,最后一個位列第三 —— 綜合來看,其引用次數(shù)的中位數(shù)排名在五個數(shù)據(jù)庫中位居榜首。
如果從單一指標(biāo)來看,ResNets 并非在所有數(shù)據(jù)庫中都是引用量最高的。根據(jù)谷歌學(xué)術(shù)(Google Scholar)的數(shù)據(jù)(其團隊向《自然》提供了高引論文榜單),該論文以 25.4 萬次引用位居第二。而在美國科睿唯安公司旗下的 Web of Science 數(shù)據(jù)庫中(該庫收錄的期刊范圍較窄),它僅以 10 萬余次引用排名第三。因而,大家需要相對來看待這次排名。
不過,21 世紀(jì)的重大突破不只是 AI 領(lǐng)域,希格斯玻色子的發(fā)現(xiàn)、引力波的首次測量等都稱得上巨大的進步,然而,這些突破性成果在 2000 年以來被引用量最高的論文中卻無一上榜。
原因為何?
接下來,Nature 這篇文章介紹了其他top 25論文以及它們成為「引用巨頭」的原因。
AI 成為二十一世紀(jì)被引用次數(shù)最多的論文
AI 教父 Geoffrey Hinton 指出,AI 論文在引用方面具有天然優(yōu)勢,AI 領(lǐng)域與眾多領(lǐng)域相關(guān)聯(lián),21 世紀(jì)以來見證了快速的技術(shù)進步和大量學(xué)術(shù)論文的涌現(xiàn)。
Hinton 因在 AI 領(lǐng)域的貢獻,去年獲得了諾貝爾物理學(xué)獎。
許多人認(rèn)為,深度學(xué)習(xí)的革命性發(fā)展,特別是多層人工神經(jīng)網(wǎng)絡(luò)的廣泛實用性,得益于 Hinton 在 2012 年共同撰寫的論文《ImageNet classification with deep convolutional neural networks》。這篇論文介紹了后來被命名為 AlexNet 的網(wǎng)絡(luò),其在圖像識別和標(biāo)記競賽中表現(xiàn)優(yōu)于其他方法,成為 21 世紀(jì)引用次數(shù)第 8 高的論文。
論文地址:https://dl.acm.org/doi/pdf/10.1145/3065386
此外,Hinton 及其合著者撰寫的關(guān)于深度學(xué)習(xí)的綜述論文排名第 16。
而 2009 年李飛飛的論文《ImageNet: A Large-Scale Hierarchical Image Database》作為訓(xùn)練數(shù)據(jù)集根基,排名第 24。
論文地址:https://ieeexplore.ieee.org/document/5206848
三年后,一篇對 AlexNet 架構(gòu)進行修改的論文描繪了一種稱為 U-net 的新網(wǎng)絡(luò),其在圖像處理上更高效,現(xiàn)排名第 12,當(dāng)時該論文差點因缺乏新意而被會議拒絕。共同作者 Olaf Ronneberger 因這一工作而加入 DeepMind,他表示,U-net 仍然是許多擴散模型中圖像生成的主要基礎(chǔ)。
論文地址:https://arxiv.org/abs/1505.04597
2017 年,谷歌研究團隊推出題為《Attention is all you need》的論文,介紹了 Transformer 神經(jīng)網(wǎng)絡(luò)架構(gòu)。Transformer 通過高效實現(xiàn)自注意力機制,使網(wǎng)絡(luò)學(xué)習(xí)時能優(yōu)先處理相關(guān)信息,并成為推動類似 ChatGPT 的大型語言模型發(fā)展的關(guān)鍵。該論文是本世紀(jì)引用次數(shù)第 7 高的。
論文地址:https://arxiv.org/pdf/1706.03762
開源技術(shù)在機器學(xué)習(xí)的早期推動了其引用率的提升。《Random forests》是第 6 高引用的論文,介紹了一種優(yōu)化的機器學(xué)習(xí)算法。猶他州立大學(xué)統(tǒng)計學(xué)家 Adele Cutler 與已故美國統(tǒng)計學(xué)家 Leo Breiman 共同擴展了這一方法。Cutler 表示,該論文受歡迎的原因在于其開源、免費并易于使用,且功能卓越,無需大量定制即可執(zhí)行。
論文地址:https://link.springer.com/article/10.1023/A:1010933404324
許多AI 論文常在同行評審前以預(yù)印本形式發(fā)布,導(dǎo)致引用統(tǒng)計復(fù)雜化。商業(yè)數(shù)據(jù)庫通常不跟蹤預(yù)印本引用,或未能將其與正式發(fā)表文章的引用合并,致使實際引用量被低估。荷蘭萊頓大學(xué)退休科學(xué)計量學(xué)專家 Paul Wouters 指出,隨著預(yù)印本引用日益普及,數(shù)據(jù)庫亟需開發(fā)新方法整合這類引用數(shù)據(jù)。
據(jù)非營利學(xué)術(shù)服務(wù)公司 OurResearch 的 Jason Priem 所述,OpenAlex 數(shù)據(jù)庫(《自然》文章的一個來源)嘗試通過合并預(yù)印本和最終版本來整合引用。而 Google Scholar 則試圖對所有版本進行分組,匯總其引用。
研究軟件
有些論文的高引用并非偶然,而是有意識為研究人員提供可引用的對象。例如,約 25 年前,藥學(xué)科學(xué)家 Thomas Schmittgen 撰寫了一篇關(guān)于定量 PCR(聚合酶鏈?zhǔn)椒磻?yīng))技術(shù)的論文。該技術(shù)用于定量分析樣本中的 DNA 含量。Schmittgen 原本引用了技術(shù)手冊中的公式分析數(shù)據(jù),但審稿人反饋稱用戶手冊不可作為引用來源。因此,他聯(lián)系了公式的創(chuàng)作者,共同發(fā)表了一篇具有引用性質(zhì)的論文。
根據(jù) Web of Science 數(shù)據(jù),這篇論文獲得了超過 162000 次引用,使其躋身歷史引用次數(shù)最多的前十名。這篇論文因簡化了生物學(xué)家計算基因在不同條件(如藥物處理前后)下活性變化的方法而受歡迎。DESeq2 是一個可以使用該論文描述的 RNA 測序數(shù)據(jù)進行基因活性變化計算的軟件程序,其相關(guān)論文在引用榜單上排名第 18。
另一個在榜單中被高度引用的軟件論文(排名第五)由已故英國化學(xué)家 George Sheldrick 撰寫。Sheldrick 于今年二月去世,他創(chuàng)建了 SHELX 計算機程序套件,用于分析 X 射線通過分子晶體后的散射圖案,從而揭示分子的原子結(jié)構(gòu)。在 2008 年,Sheldrick 撰寫了一篇評論文章,建議在使用 SHELX 程序時引用此文;該文章的引用次數(shù)約為 70000 至 90000 次,具體數(shù)值因數(shù)據(jù)庫而異。
統(tǒng)計軟件
統(tǒng)計軟件領(lǐng)域中的高被引論文通常與特定的統(tǒng)計或編程軟件相關(guān)。例如,一篇關(guān)于 scikit-learn 的論文獲得了顯著關(guān)注。scikit-learn 是一個免費開源的機器學(xué)習(xí)庫,專為 Python 編程語言用戶設(shè)計,包含豐富的預(yù)編碼函數(shù)和技術(shù)。這篇論文的引用次數(shù)超過 50000 次,根據(jù) Google Scholar 的數(shù)據(jù)可能高達 100000 次,在引用榜單中排名第 15。
另一篇被大量引用的論文來自 2015 年,探討了 lme4 軟件包。lme4 是一個使用 R 編程語言開發(fā)的免費軟件包,用于分析特定統(tǒng)計模型的數(shù)據(jù),其排名略高于前述 scikit-learn 的論文。此外,還有關(guān)于 G*Power 的論文,該軟件是一個免費工具,為生物學(xué)家提供計算實驗規(guī)模以獲得統(tǒng)計顯著性結(jié)果的便捷方法,也是高被引的。
然而,盡管 R 編程軟件被科學(xué)界廣泛使用和引用,它并未出現(xiàn)在這些高被引榜單中。OpenAlex 記錄顯示,描述 R 的「研究工作」獲得了超過 300000 次引用,但其他數(shù)據(jù)庫沒有相關(guān)記錄。這可能是因為 R 的開發(fā)者建議用戶引用軟件所在的存儲庫網(wǎng)站(www.r-project.org),而未針對其撰寫過正式的研究論文。OpenAlex 錯誤地將這些引用視作研究論文,導(dǎo)致該「研究工作」在 OpenAlex 引文記錄中排名靠前,卻在其他數(shù)據(jù)庫中缺席。
就引文文化和記錄的變幻無常,這個例子說明了問題。德國科學(xué)計量學(xué)家 Robin Haunschild 為《自然》雜志的分析提供了建議。他指出:「第一課:如果你編寫了一個有影響力的程序 —— 請為它撰寫一篇論文?!?/p>
熱門跟貼