一区二区三区在线观看欧美日韩,看三级黄色视频,久久精品国产亚洲av毛片,亚洲av午夜精品福利,av在线播放网站,com

新智元報(bào)道

編輯：編輯部

【新智元導(dǎo)讀】2025年斯坦福HAI報(bào)告重磅發(fā)布，456頁(yè)深度剖析全球AI領(lǐng)域的最新趨勢(shì)：中美頂級(jí)模型性能差距縮至0.3%，以DeepSeek為代表的模型強(qiáng)勢(shì)崛起，逼近閉源巨頭；推理成本暴降，小模型性能飆升，AI正變得更高效、更普惠。

就在剛剛，每年都備受矚目的斯坦福AI指數(shù)報(bào)告，重磅發(fā)布了！

這份報(bào)告由斯坦福大學(xué)以人為本AI研究員發(fā)布，代表著每年AI領(lǐng)域最核心和前沿的動(dòng)向總結(jié)。

今年，這份報(bào)告長(zhǎng)達(dá)456頁(yè)，拋出不少驚人觀點(diǎn)。

比如，如今在2025年，中美頂級(jí)AI模型的性能差距已經(jīng)縮小到了0.3%（2023年，這一數(shù)字還是20%），中國(guó)模型正在快速追趕美國(guó)的領(lǐng)先地位！

而DeepSeek領(lǐng)銜的開放權(quán)重模型，更是以1.7%之差，逼宮各大閉源巨頭。前者和后者的差距，已經(jīng)由2024年的8%，縮小至2025年的1.7%。

當(dāng)然，目前從行業(yè)主導(dǎo)企業(yè)來(lái)看，美國(guó)仍然領(lǐng)先于中國(guó)。在2024年，90%的知名AI模型來(lái)自企業(yè)，美國(guó)以40個(gè)模型領(lǐng)先，中國(guó)有15個(gè)。

更明顯的一個(gè)趨勢(shì)，就是如今大模型的性能已經(jīng)趨同！在2024年，TOP1和TOP10的模型的差距能有12%，但如今，它們的差距已經(jīng)越來(lái)越小，銳減至5%。

十二大亮點(diǎn)

最新的斯坦福HAI兩篇博文中，濃縮了2025年AI指數(shù)報(bào)告的十二大亮點(diǎn)。

1. AI性能再攀高峰，從基準(zhǔn)測(cè)試到視頻生成全面突破

2023年，研究人員推出了MMMU、GPQA和SWE-bench等新基準(zhǔn)來(lái)測(cè)試先進(jìn)AI系統(tǒng)的極限。

僅一年后，性能便大幅提升：AI在三項(xiàng)基準(zhǔn)得分分別飆升18.8%、48.9%和67.3%。

不僅如此，AI在生成高質(zhì)量視頻方面取得重大突破，甚至，在某些場(chǎng)景下AI智能體甚至超越人類表現(xiàn)。

·更有用智能體崛起

2024年發(fā)布的RE-Bench基準(zhǔn)測(cè)試，為評(píng)估AI智能體復(fù)雜任務(wù)能力設(shè)立了嚴(yán)苛標(biāo)準(zhǔn)。

數(shù)據(jù)顯示：在短期任務(wù)（2小時(shí)內(nèi)）場(chǎng)景下，頂級(jí)AI系統(tǒng)的表現(xiàn)可達(dá)人類專家的4倍；但當(dāng)任務(wù)時(shí)限延長(zhǎng)至32小時(shí)，人類則以2:1的優(yōu)勢(shì)反超。

值得注意的是，AI已在特定領(lǐng)域，如編寫特定類型代碼，展現(xiàn)出與人類相當(dāng)?shù)膶I(yè)水平，且執(zhí)行效率更勝一籌。

2. 美國(guó)領(lǐng)跑頂尖模型研發(fā)，但中國(guó)與之差距逐漸縮小

2024年，美國(guó)產(chǎn)出40個(gè)重要AI模型，遠(yuǎn)超中國(guó)的15個(gè)和歐洲的3個(gè)。

然而，中國(guó)模型在性能上的差距正加速縮?。篗MLU等基準(zhǔn)測(cè)試中，中美AI差異從兩位數(shù)縮小至近乎持平。

同時(shí)，中國(guó)在AI學(xué)術(shù)論文和專利申請(qǐng)量上持續(xù)領(lǐng)跑，中東、拉美和東南亞地區(qū)也涌現(xiàn)出具有競(jìng)爭(zhēng)力的模型。

3. AI正變得高效且普惠，推理成本暴降280倍

隨著小模型性能提升，達(dá)到GPT-3.5水平的推理成本在兩年間下降280倍，硬件成本以每年30%的速度遞減，能效年提升率達(dá)40%。

更令人振奮的是，開源模型性能突飛猛進(jìn)，部分基準(zhǔn)測(cè)試中與閉源模型的差距從8%縮至1.7%。

· 大模型使用成本持續(xù)走低，年降幅最高900倍

在MMLU基準(zhǔn)測(cè)試中達(dá)到GPT-3.5水平（MMLU準(zhǔn)確率64.8%）的AI模型調(diào)用成本，已從2022年11月的20美元/每百萬(wàn)token，驟降至2024年10月的0.07美元/每百萬(wàn)token（谷歌DeepMind的Gemini-1.5-Flash-8B模型），18個(gè)月內(nèi)AI成本下降280倍。

視具體任務(wù)需求，LLM推理服務(wù)價(jià)格的年降幅可達(dá)9-900倍不等。

·小模型性能顯著提升，參數(shù)暴減142倍

2022年，在大規(guī)模多任務(wù)語(yǔ)言理解（MMLU）基準(zhǔn)測(cè)試中，得分超60%的最小模型是 PaLM，參數(shù)量為5400億。

到了2024年，微軟Phi-3-mini僅用38億參數(shù)，就取得了同樣的實(shí)力。

這代表，兩年多的時(shí)間里模型參數(shù)減少了142倍。

4. 科技巨頭稱霸AI前沿，但競(jìng)爭(zhēng)白熱化

2024年，近90%的重要模型源自企業(yè)，學(xué)術(shù)界則保持基礎(chǔ)研究?jī)?yōu)勢(shì)。

模型規(guī)模呈指數(shù)增長(zhǎng)：訓(xùn)練算力每5個(gè)月翻番，數(shù)據(jù)集每8個(gè)月擴(kuò)容一倍。

值得注意的是，頭部模型性能差距顯著縮小，榜首與第十名得分差已從11.9%降至5.4%。

5. AI邏輯短板，推理能力仍是瓶頸

采用符號(hào)推理方法的AI系統(tǒng)，能較好解決IMO問(wèn)題（雖未達(dá)人類頂尖水平），但LLM在MMMU等復(fù)雜推理任務(wù)中表現(xiàn)欠佳，尤其不擅長(zhǎng)算術(shù)推導(dǎo)和規(guī)劃類強(qiáng)邏輯性任務(wù)。

這一局限影響了其在醫(yī)療診斷等高風(fēng)險(xiǎn)場(chǎng)景的應(yīng)用可靠性。

6. 大廠ALL in AI，投資與采用率創(chuàng)雙紀(jì)錄

科技大廠們，正全力押注AI。

2024年，美國(guó)私營(yíng)AI投資達(dá)1091億美元，約為中國(guó)（93億）的12倍、英國(guó)（45億）的24倍。

生成式AI勢(shì)頭尤猛，全球私募投資達(dá)339億美元（同比增18.7%）。

與此同時(shí)，企業(yè)AI采用率從55%升至78%。研究證實(shí)，AI不僅能提升生產(chǎn)力，多數(shù)情況下還可縮小勞動(dòng)力技能差距。

更引人注目的是，將生成式AI應(yīng)用于至少一項(xiàng)業(yè)務(wù)職能的企業(yè)數(shù)量激增——從2023年的33%躍升至去年的71%，增幅超一倍。

7. AI榮膺科學(xué)界最高榮譽(yù)，摘諾獎(jiǎng)桂冠

2024年，兩項(xiàng)諾貝爾獎(jiǎng)分別授予深度學(xué)習(xí)理論基礎(chǔ)（物理學(xué)）和蛋白質(zhì)折疊預(yù)測(cè)（化學(xué)）研究，圖靈獎(jiǎng)則花落強(qiáng)化學(xué)習(xí)領(lǐng)域。

8. AI教育普及加速，但資源差距仍存

全球2/3國(guó)家已或計(jì)劃開展K-12計(jì)算機(jī)科學(xué)教育，但非洲地區(qū)受限于電力等基礎(chǔ)設(shè)施，推進(jìn)緩慢。

美國(guó)81%的計(jì)算機(jī)教師認(rèn)為AI應(yīng)納入基礎(chǔ)課程，但僅47%具備相應(yīng)教學(xué)能力。

9. AI正深度融入日常生活

從醫(yī)療到交通，AI正快速?gòu)膶?shí)驗(yàn)室走向現(xiàn)實(shí)。

1995年，F(xiàn)DA批準(zhǔn)了第一款A(yù)I賦能的醫(yī)療器械。

截至2024年8月，F(xiàn)DA已批準(zhǔn)950款A(yù)I醫(yī)療設(shè)備——較2015年的6款和2023年的221款，增長(zhǎng)迅猛。

而在自動(dòng)駕駛領(lǐng)域，汽車已脫離實(shí)驗(yàn)階段：美國(guó)頭部運(yùn)營(yíng)商Waymo每周提供超15萬(wàn)次無(wú)人駕駛服務(wù)。

10. 全球AI樂(lè)觀情緒上升，但地區(qū)差異顯著

中國(guó)（83%）、印尼（80%）和泰國(guó)（77%）民眾對(duì)AI持積極態(tài)度，而加拿大（40%）、美國(guó)（39%）等發(fā)達(dá)國(guó)家則相對(duì)保守。

值得關(guān)注的是，德國(guó)（+10%）、法國(guó)（+10%）等原懷疑論國(guó)家態(tài)度明顯轉(zhuǎn)變。

11. 負(fù)責(zé)任AI生態(tài)發(fā)展不均

雖然AI安全事件激增，但主流模型開發(fā)商仍缺乏標(biāo)準(zhǔn)化評(píng)估體系。

HELM Safety、AIR-Bench和FACTS等新基準(zhǔn)為事實(shí)性與安全性評(píng)估提供工具。

企業(yè)普遍存在「認(rèn)知與行動(dòng)脫節(jié)」，而各國(guó)政府加速協(xié)作：2024年，經(jīng)合組織、歐盟等國(guó)際機(jī)構(gòu)相繼發(fā)布聚焦透明度、可信度的治理框架。

·問(wèn)題AI數(shù)量躍升

根據(jù)權(quán)威AI危害追蹤數(shù)據(jù)庫(kù)「AI事件庫(kù)」（AI Incidents Database）統(tǒng)計(jì)，2024年全球AI相關(guān)危害事件激增至233起，創(chuàng)下歷史新高，較2023年暴漲56.4%。

其中既包括深度偽造私密圖像案件，也涉及聊天機(jī)器人疑似導(dǎo)致青少年自殺等惡性事件。

盡管該統(tǒng)計(jì)未能涵蓋全部案例，但已清晰揭示AI技術(shù)濫用正在呈現(xiàn)驚人增長(zhǎng)態(tài)勢(shì)。

12. 全球監(jiān)管力度持續(xù)加強(qiáng)

2024年美國(guó)聯(lián)邦機(jī)構(gòu)頒布59項(xiàng)AI法規(guī)，涉及部門數(shù)量翻倍。

75個(gè)國(guó)家立法機(jī)構(gòu)提及AI頻次同比增長(zhǎng)21.3%，較2016年增長(zhǎng)九倍。

投資方面：加拿大承諾24億美元，中國(guó)設(shè)立475億美元半導(dǎo)體基金，法國(guó)投入1090億歐元，印度撥款12.5億美元，沙特啟動(dòng)千億美元級(jí)的「超越計(jì)劃」。

詳細(xì)亮點(diǎn)解讀

下面，我們將摘出報(bào)告中的亮點(diǎn)內(nèi)容，提供更詳細(xì)的解讀。

中美差距僅剩0.3%

翻開502頁(yè)的報(bào)告，最吸睛的部分，莫過(guò)于中美AI差異這部分了。

報(bào)告中強(qiáng)調(diào)，雖然2024年，美國(guó)在頂尖AI模型的研發(fā)上依然領(lǐng)先，但中美模型之間的性能差距，正在迅速縮?。?/p>

為了衡量AI領(lǐng)域過(guò)去一年演變的全球格局，HAI特意用AI指數(shù)，列出了具有代表性的模型所屬國(guó)家，美國(guó)依然居首。

數(shù)據(jù)顯示，在2024年，美國(guó)機(jī)構(gòu)以擁有40個(gè)知名模型領(lǐng)先，遠(yuǎn)遠(yuǎn)超過(guò)中國(guó)的15個(gè)和歐洲的3個(gè)。

總體來(lái)說(shuō)，模型發(fā)布總量已經(jīng)下降，可能是多個(gè)因素共同導(dǎo)致的，比如訓(xùn)練規(guī)模日益龐大、AI技術(shù)日益復(fù)雜，開發(fā)新模型方法的難度也在增加。

AI模型已成為算力巨獸

·參數(shù)趨勢(shì)

簡(jiǎn)單的說(shuō)，參數(shù)就是AI模型通過(guò)訓(xùn)練學(xué)到的一些數(shù)字，這些數(shù)字決定了模型如何理解輸入和怎樣輸出。

AI的參數(shù)越多需要的訓(xùn)練數(shù)據(jù)也越多，但同時(shí)性能也更厲害。

從2010年代初開始，模型的參數(shù)量就蹭蹭往上漲，這背后是因?yàn)槟Ｐ驮O(shè)計(jì)得越來(lái)越復(fù)雜、數(shù)據(jù)更容易獲取、硬件算力也更強(qiáng)了。

更重要的是，大模型確實(shí)效果好。

下圖用了對(duì)數(shù)刻度，方便大家看清楚AI模型參數(shù)和算力近年來(lái)的爆炸式增長(zhǎng)。

隨著模型參數(shù)數(shù)量的增加，訓(xùn)練所需的數(shù)據(jù)量也在暴漲。

2017年發(fā)布的Transformer模型，掀起了大型語(yǔ)言模型的熱潮，當(dāng)時(shí)它用了大約20億個(gè)token來(lái)訓(xùn)練。

到了2020年，GPT-3 175B模型的訓(xùn)練數(shù)據(jù)已經(jīng)飆到了約3740億個(gè)token。

而Meta在2024年夏天發(fā)布的模型Llama 3.3，更是用了大約15萬(wàn)億個(gè)token來(lái)訓(xùn)練。

根據(jù)Epoch AI的數(shù)據(jù)，大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)集規(guī)模大約每八個(gè)月翻一倍。

訓(xùn)練數(shù)據(jù)集越來(lái)越大，導(dǎo)致的訓(xùn)練時(shí)間也變得越來(lái)越長(zhǎng)。

像Llama 3.1-405B這樣的模型，訓(xùn)練大概需要90天，這在如今已經(jīng)算是「正?！沟牧?。

谷歌在2023年底發(fā)布的Gemini 1.0 Ultra，訓(xùn)練時(shí)間大約是100天。

相比之下，2012年的AlexNet就顯得快多了，訓(xùn)練只花了五六天，而且AlexNet當(dāng)時(shí)用的硬件還遠(yuǎn)沒(méi)有現(xiàn)在的先進(jìn)。

·算力趨勢(shì)

「算力」指的是訓(xùn)練和運(yùn)行AI模型所需的計(jì)算資源。

最近，知名AI模型的算力消耗呈指數(shù)級(jí)增長(zhǎng)。據(jù)Epoch AI估計(jì)，知名AI模型的訓(xùn)練算力大約每五個(gè)月翻一番。

這種趨勢(shì)在過(guò)去五年尤為明顯。

去年12月，DeepSeek V3一經(jīng)推出就引發(fā)了廣泛關(guān)注，主要就是因?yàn)樗谛阅苌蠘O其出色，但用的計(jì)算資源卻比許多頂尖大型語(yǔ)言模型少得多。

下圖1.3.17比較了中國(guó)和美國(guó)知名AI模型的訓(xùn)練算力，揭示了一個(gè)重要趨勢(shì)：美國(guó)的頂級(jí)AI模型通常比中國(guó)模型需要多得多的計(jì)算資源。

·推理成本

推理成本，指的是對(duì)一個(gè)已訓(xùn)練模型進(jìn)行查詢所需的費(fèi)用，通常以「每百萬(wàn)tokens的美元價(jià)格」來(lái)衡量。

這份報(bào)告中AI token的價(jià)格數(shù)據(jù)，來(lái)源于Artificial Analysis和Epoch AI的API定價(jià)專有數(shù)據(jù)庫(kù)，而價(jià)格是根據(jù)輸入與輸出token的價(jià)格按3:1的權(quán)重平均計(jì)算得出的。

可以看出，單位性能的AI成本正在顯著下降。

而Epoch AI估計(jì)，根據(jù)不同任務(wù)類型，大型語(yǔ)言模型的推理成本每年下降幅度可達(dá)9倍至900倍不等。

雖然如此，想要獲得來(lái)自O(shè)penAI、Meta和Anthropic的模型，仍需支付不小的溢價(jià)。