性淫视频在线观看,啦啦啦在线视频免费观看www,免费av岛国片在线观看不卡,国产av视频一区二区在线,欧美av激情视频一区二区三区

新智元報(bào)道

編輯：編輯部 NJY

【新智元導(dǎo)讀】AIMO2最終結(jié)果出爐了！英偉達(dá)團(tuán)隊(duì)NemoSkills拔得頭籌，憑借14B小模型破解了34道奧數(shù)題，完勝DeepSeek R1。

第二屆人工智能數(shù)學(xué)奧林匹克競賽（AIMO2）開獎了！

作為大賽顧問委員會的一員，陶哲軒激動地宣布了最新的結(jié)果——英偉達(dá)團(tuán)隊(duì)AI成功破解了34道題（共50題）。

這一次，50道測試題保持了與AIMO1相同「數(shù)值答案」形式基礎(chǔ)上，進(jìn)一步提升了「抗暴力破解」的難度。

這場由Kaggle主辦的AI競賽，參賽者必須使用開源LLM，在規(guī)定的有限算力條件下，用AI完成解題。

不過，目前最終成績?nèi)蕴幱趯徍穗A段，但現(xiàn)有數(shù)據(jù)已能確定大概率的勝者。

英偉達(dá)深度學(xué)習(xí)研究員分享，團(tuán)隊(duì)僅用了14B小模型，就拿下了比賽第一。

讓人驚喜的是，微調(diào)后的14B竟然超越了405B的DeepSeek R1。

那么，他們是如何做到的呢？

英偉達(dá)團(tuán)隊(duì)摘桂冠，14B攻克34題

AIMO2每年都會評選5名獲勝者，第一名便是英偉達(dá)團(tuán)隊(duì)——NemoSkills。

為了讓大家更直觀地對這個(gè)分?jǐn)?shù)有一個(gè)認(rèn)識：主辦方使用了DeepSeek R1 405B在同一個(gè)測試數(shù)據(jù)上，進(jìn)行了無限計(jì)算/時(shí)間的測試。

結(jié)果發(fā)現(xiàn)，R1-405B得分僅僅20分左右。

而英偉達(dá)微調(diào)出的14B模型，以更小參數(shù)規(guī)模，以及時(shí)間和硬件限制下拿下了驚人的34分。

這款模型便是Qwen-14B，在數(shù)百萬合成數(shù)學(xué)測試集上進(jìn)行了微調(diào)，能夠支持CoT推理。

最大的亮點(diǎn)是高度優(yōu)化的推理，僅使用了4個(gè)L4 GPU，在短短5小時(shí)內(nèi)解決了50個(gè)問題中的34個(gè)。

目前，他們尚未提交解決方案，所以一些技術(shù)細(xì)節(jié)還無法窺探。

這個(gè)團(tuán)隊(duì)一共由7個(gè)人組成，他們分別是Christof Henkel、Darragh Hanley、Ivan Sorokin、Benedikt Schifferer、Igor Gitman、Shubham Toshniwal和Ivan Moshkov。

除了英偉達(dá)，還有哪些團(tuán)隊(duì)取得了精彩的表現(xiàn)？

清華拿下第二

第二名是來自清華和微軟的三人團(tuán)隊(duì)，分別是清華大學(xué)研究助理教授Foxfi Ning、微軟的高級研究員Zinan Lin以及清華學(xué)子yiyouyc。

左右滑動查看

在公開排行榜上，他們得分34/50（排名第一），在私有排行榜上得分31/50（排名第二）。

最為關(guān)鍵的是，他們是目前Top-5中唯一公開解決方法的參賽團(tuán)隊(duì)。

本次比賽要求同時(shí)優(yōu)化效率和推理性能。

目前，排名前5中，只有排名第二的參賽團(tuán)隊(duì)公布了解決方法。

他們的最終解決方案由三個(gè)主要部分組成：

第一部分：推理導(dǎo)向訓(xùn)練—— 提升模型的推理能力階段1 - SFT（監(jiān)督微調(diào)）和階段2 - DPO（數(shù)據(jù)增強(qiáng)優(yōu)化）使用精選數(shù)據(jù)。

第二部分：效率優(yōu)化—— 提升推理效率選擇合適的推理引擎、權(quán)重量化、KV緩存量化。

第三部分：推理時(shí)策略—— 改善效率與推理性能的權(quán)衡設(shè)計(jì)有效的提示語、進(jìn)行自一致性聚合、在樣本/問題級別進(jìn)行早停以及調(diào)整一些啟發(fā)式超參數(shù)。

訓(xùn)練腳本基于Light-R1項(xiàng)目。

在本地驗(yàn)證方面，用了AIME 2025測試集（30個(gè)問題）以及參考集（10個(gè)問題），評估了平均樣本準(zhǔn)確率和通過自一致性聚合的準(zhǔn)確率，以獲得參賽團(tuán)隊(duì)試驗(yàn)解決方案的初步判斷。

第三名，Nokron，AI得分30，4年前加入Kggle。

第四名，S?ren Ravn Andersen，AI得分29，10年前加入Kaggle。

第五名，來自浙江杭州的匿名選手，AI得分29，6年前加入了Kaggle。

AIMO2比賽介紹

AIMO是什么來頭？

這是第二屆AIMO進(jìn)步獎競賽，第一屆的AIMO進(jìn)步獎于2024年7月由Project Numina團(tuán)隊(duì)贏得。

這次競賽增加了獎金池，提供了全新的題目數(shù)據(jù)集，為參賽者提供更多算力支持，并更新了關(guān)于使用開源大語言模型（LLM）的規(guī)則。

數(shù)學(xué)推理能力是人工智能發(fā)展的一個(gè)關(guān)鍵里程碑，是解決許多復(fù)雜問題的基石，比如工程奇跡或復(fù)雜的金融模型。

然而，目前的人工智能在這方面的能力還比較有限。

人工智能數(shù)學(xué)奧林匹克（AIMO）是一個(gè)總金額高達(dá)1000萬美元的基金，旨在激勵開發(fā)能夠與國際數(shù)學(xué)奧林匹克（IMO）頂尖人類選手表現(xiàn)相當(dāng)?shù)拈_源AI模型。

本屆競賽包含110道數(shù)學(xué)題目，涵蓋代數(shù)、組合數(shù)學(xué)、幾何和數(shù)論。

相比第一屆，題目難度有所提升，大約達(dá)到國家奧林匹克競賽的水平。

這些題目還被設(shè)計(jì)為「對AI來說特別難」，需要較強(qiáng)的數(shù)學(xué)推理能力，并且已經(jīng)針對當(dāng)前開源大語言模型的能力進(jìn)行了測試。

為了避免訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)混淆的問題，競賽采用了由國際解題團(tuán)隊(duì)創(chuàng)作的全新數(shù)學(xué)題目。

評估方式

參賽者的提交將根據(jù)預(yù)測結(jié)果與真實(shí)答案（ground-truth labels）的準(zhǔn)確率進(jìn)行評估。

簡單來說，排名依據(jù)是預(yù)測答案與真實(shí)答案之間完全匹配的比例。

在這場比賽中，每個(gè)真實(shí)答案是一個(gè)0到999之間的整數(shù)。

獎項(xiàng)設(shè)置

本次競賽總獎金達(dá)到了211.7152萬美元

排名前五團(tuán)隊(duì)的獎金：

第一名：26.2144萬美元
第二名：13.1072萬美元
第三名：6.5536萬美元
第四名：3.2768萬美元
第五名：1.6384萬美元

總體進(jìn)步獎：

總體進(jìn)步獎將頒發(fā)給在公開和私有測試集上均獲得至少47/50分的最高排名團(tuán)隊(duì)。
在前五名獎金分配后，剩余的獎金將全部頒發(fā)給總體進(jìn)步獎得主。
如果某團(tuán)隊(duì)獲得總體進(jìn)步獎，獎金將至少為158.9248萬美元。
如果本屆競賽沒有團(tuán)隊(duì)獲得總體進(jìn)步獎，剩余獎金將滾入下一屆競賽，獎金額度和分配規(guī)則保持不變。

代碼要求

提交必須通過Notebook完成。提交按鈕在提交后激活需滿足以下條件：

CPU Notebook運(yùn)行時(shí)間 ≤ 9小時(shí)
GPU Notebook運(yùn)行時(shí)間 ≤ 5小時(shí)
禁用互聯(lián)網(wǎng)訪問
允許使用免費(fèi)且公開的外部數(shù)據(jù)，包括預(yù)訓(xùn)練模型
提交文件必須通過API生成

參考資料：

https://x.com/kagglingdieter/status/1910591141138886923

https://mathstodon.xyz/@tao/114319952836204640

https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2/leaderboard

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

AI奧數(shù)大獎出爐，英偉達(dá)摘桂冠！14B破解34題暴擊DeepSeek R1

熱搜

熱門跟貼

国产黄片av免费_在线观看看片_www第一精品久久久_成人毛片18女人毛片免_日日摸夜夜操av_国产精品热久久久久夜色精品三区 _中文字幕日韩欧美精品在线_欧美高清另类hdvideosex

熱搜

熱門跟貼

相關(guān)推薦

DeepSeek攪局，算力生意玩法大變樣

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

深度求索（DeepSeek）與多維度技術(shù)融合：解鎖AI價(jià)值的創(chuàng)新路徑

技術(shù)破局與商業(yè)突圍：階躍星辰開啟中國多模態(tài)AI的DeepSeek時(shí)刻

AI“軟件進(jìn)化”遠(yuǎn)超硬件！別傻等新芯片了！

算法不重要，AI的下一個(gè)范式突破，「解鎖」新數(shù)據(jù)源才是關(guān)鍵

DeepSeek AI工具介紹與使用指南

DeepSeek智能AI提問技巧，讓你的AI助手成長的越來越精準(zhǔn)

普通人如何玩轉(zhuǎn)DeepSeek？高效提問技巧+獨(dú)家使用攻略一篇全搞定

擁抱AI不落伍！DeepSeek中老年人使用指南來啦

Deepseek官網(wǎng)與第三方DeepSeek R1滿血版效果對比

你聽過領(lǐng)導(dǎo)最沒水平的一句話？deepseek那么簡單你們也搞一個(gè)出來

破曉！深圳大學(xué)！雷達(dá)芯片！

微軟AI模型MatterGen能根據(jù)需求生成新材料

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

英偉達(dá)宣布首次在美國本土生產(chǎn)AI超級計(jì)算機(jī)，預(yù)計(jì)5年內(nèi)創(chuàng)造5000億美元產(chǎn)值

讓ChatGPT不敢開口的名字！神秘bug引馬斯克圍觀

Claude腦回路被開盒：AI會撒謊和暗中計(jì)劃

DeepSeek的橫空出世，讓AI+騰訊云數(shù)據(jù)庫產(chǎn)生了什么化學(xué)反應(yīng)？

宇樹機(jī)器人復(fù)雜環(huán)境穩(wěn)定起立，速度不亞于人類

DeepSeek攪局，算力生意玩法大變樣

國產(chǎn)率100%！中國啃下AI領(lǐng)域最后一根“硬骨頭”，美國這波輸慘了

AI“軟件進(jìn)化”遠(yuǎn)超硬件！別傻等新芯片了！

算法不重要，AI的下一個(gè)范式突破，「解鎖」新數(shù)據(jù)源才是關(guān)鍵

DeepSeek智能AI提問技巧，讓你的AI助手成長的越來越精準(zhǔn)

普通人如何玩轉(zhuǎn)DeepSeek？高效提問技巧+獨(dú)家使用攻略一篇全搞定

擁抱AI不落伍！DeepSeek中老年人使用指南來啦

你聽過領(lǐng)導(dǎo)最沒水平的一句話？deepseek那么簡單你們也搞一個(gè)出來

破曉！深圳大學(xué)！雷達(dá)芯片！

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

DeepSeek的橫空出世，讓AI+騰訊云數(shù)據(jù)庫產(chǎn)生了什么化學(xué)反應(yīng)？

宇樹機(jī)器人復(fù)雜環(huán)境穩(wěn)定起立，速度不亞于人類