
█政策法規(guī)與新聞
權(quán)力游戲:阿布扎比250億美元的美國AI革命賭局
Brainomix的1800萬美元融資如何革新定義中風生存的關(guān)鍵時刻
為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來
谷歌的AI賭局:DOJ的Chrome困境與科技反壟斷的未來
█大模型與基礎(chǔ)建設(shè)
在 GPU 競賽中如何低成本擴展 300B MoE 模型
大型語言模型中上下文增強學習的力量:綜合分析
大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入
大型推理模型能否在感知不確定性下進行類比推理?
AI芯片巨頭如何在變幻莫測的基礎(chǔ)上觸摸星空
Gemma 3:谷歌的AI戰(zhàn)略棋局——民主化權(quán)力的同時保持控制
█技術(shù)與研發(fā)
利用知識圖譜和大型語言模型進行AI研究創(chuàng)意生成
通用聚變公司維多利亞風格反應(yīng)堆如何可能重寫我們的能源未來
微調(diào)大型語言模型用于報告摘要:監(jiān)督和無監(jiān)督方法
分層思考:HiRAG如何終于教會AI連接知識點
你的數(shù)字分身:第二自我與外包大腦的藝術(shù)
為什么你的提示工程"專業(yè)知識"可能只是一廂情愿的想法
深度學習優(yōu)化技術(shù):全面綜述
AI的多任務(wù)奇跡:并行思考與行動革新智能體智能
數(shù)字大腦內(nèi)部:UMM對AI認知的革命性方法
Sesame開源CSM-1B模型,讓驚人逼真的AI語音技術(shù)走向大眾
█應(yīng)用與實踐
Onyx計劃如何以徹底透明的方式顛覆6億美元企業(yè)搜索市場
Browser Use如何借助Manus的病毒式傳播加速AI代理接管
奧林巴斯與Ziosoft的AI合作如何讓手術(shù)室中的隱形變?yōu)榭梢?/p>
谷歌AI醫(yī)生升級:當你的數(shù)字醫(yī)生變得過于聰明
Niantic為何放棄精靈寶可夢GO,轉(zhuǎn)向為AI繪制現(xiàn)實地圖
平凡中的革命:微軟將基礎(chǔ)記事本轉(zhuǎn)變?yōu)锳I強大工具
█交叉與創(chuàng)新
NVIDIA與通用汽車的合作如何重塑汽車AI的未來
機器中的繆斯:OpenAI的小說創(chuàng)作AI引發(fā)文學界的靈魂探索Celestial AI 2.5億美元融資,光子計算時代的黎明
毅力追求雄心壯志的理論模型
*如需定位對應(yīng)內(nèi)容,請使用微信的檢索功能
(點擊右上方三點,找到查找頁面內(nèi)容按鈕)
政策法規(guī)與新聞
權(quán)力游戲:阿布扎比250億美元的美國AI革命賭局
在一項大膽的戰(zhàn)略舉動中,阿布扎比的主權(quán)財富基金ADQ與美國的能源資本合伙公司(Energy Capital Partners,簡稱ECP)合作,推出了一項價值250億美元的項目,旨在為美國迅速發(fā)展的數(shù)據(jù)中心行業(yè)提供動力。該50:50的合作伙伴關(guān)系于3月19日宣布,將主要在美國開發(fā)電力發(fā)電和能源基礎(chǔ)設(shè)施,計劃部署資本用于25吉瓦的項目——足以為大約1800萬個美國家庭提供電力。
在這項巨額投資背后,隱藏著一個令人清醒的現(xiàn)實:人工智能的指數(shù)級增長威脅要超越美國過時的電網(wǎng)。雖然硅谷慶祝每一個新的AI突破,但很少有人面對推動這一數(shù)字革命的令人驚訝的電力需求。根據(jù)國際能源署的數(shù)據(jù),數(shù)據(jù)中心的電力消耗在過去十年中已經(jīng)增加了三倍,并可能在2028年之前再次翻倍或增加三倍。更令人擔憂的是,美國能源部預(yù)測,數(shù)據(jù)中心可能會占據(jù)美國總電力的6.7%至12%——這與當前的4.4%相比是一個顯著的增加。
這個挑戰(zhàn)的規(guī)模在審視AI的電力足跡時變得清晰:ChatGPT每次查詢的電力消耗是標準谷歌搜索的十倍。這一電力悖論代表了我們AI未來的隱性成本——一種需要立即并且大量的基礎(chǔ)設(shè)施投資。
對于管理2250億美元資產(chǎn)的ADQ來說,這一合作伙伴關(guān)系代表的遠不止是一個有利可圖的投資機會。正如ADQ的管理總監(jiān)兼集團首席執(zhí)行官穆罕默德·哈桑·阿爾蘇韋迪(Mohamed Hassan Alsuwaidi)所述:“AI的加速和其社會采用為服務(wù)數(shù)據(jù)中心和超大規(guī)模計算的電力和基礎(chǔ)設(shè)施需求提供了有吸引力的機會”。但在字里行間,我們可以看出阿布扎比更大的戰(zhàn)略意圖——在美國的AI生態(tài)系統(tǒng)中確立自己為關(guān)鍵參與者,同時將其經(jīng)濟多元化,擺脫對化石燃料的依賴。
https://www.sharecafe.com.au/2025/03/21/adq-and-energy-capital-partners-launch-us25bn-energy-venture-to-power-us-data-centres/
Brainomix的1800萬美元融資如何革新定義中風生存的關(guān)鍵時刻
在醫(yī)學AI領(lǐng)域發(fā)生了一項重大發(fā)展,來自牛津大學的Brainomix獲得了1400萬英鎊(1800萬美元)的C輪融資,以推進其用于中風和肺纖維化的AI驅(qū)動成像技術(shù)。該融資于2025年3月20日宣布,由現(xiàn)有投資者Parkwalk Advisors和Boehringer Ingelheim Venture Fund(BIVF)共同領(lǐng)投,新投資者Hostplus和LifeSci Capital也參與其中。這一投資使Brainomix的總?cè)谫Y達到4400萬英鎊(5700萬美元),并為該公司在美國市場的激進擴張奠定了基礎(chǔ)。
Brainomix的創(chuàng)新核心是一個看似簡單卻具有深遠影響的概念:在中風護理的“黃金時刻”自動化腦部掃描的解讀。他們的旗艦產(chǎn)品Brainomix 360 Stroke平臺使用AI分析CT腦掃描,提供立即的客觀評估,以幫助臨床醫(yī)生做出更快、更自信的治療決策。英國國家衛(wèi)生服務(wù)(NHS)26家醫(yī)院的現(xiàn)實評估,涉及超過71,000名患者,顯示使用Brainomix技術(shù)的醫(yī)院將機械血栓切除術(shù)率提高了一倍,并且門診到門診的時間比未配備該技術(shù)的醫(yī)院快了65分鐘。這意味著接受機械血栓切除術(shù)(一種從大腦中吸出血栓并顯著減少中風后殘疾的程序)的患者增加了50%。
使Brainomix的技術(shù)真正革命性的不僅僅是其準確性,還有其對醫(yī)療保健的民主化影響。盡管中風治療取得了巨大的進步,但高達80%的合格患者錯過了治療窗口——這并不是因為治療不存在,而是因為許多醫(yī)院缺乏快速解讀復雜腦部成像的專門專業(yè)知識。Brainomix的首席執(zhí)行官兼聯(lián)合創(chuàng)始人、神經(jīng)科學家米哈利斯·帕帕達基斯博士解釋道,該系統(tǒng)旨在打破傳統(tǒng)上限制獲得救命治療的障礙。在牛津大學的預(yù)臨床中風實驗室擔任領(lǐng)導職務(wù)后,帕帕達基斯與教授阿拉斯泰爾·布坎(Alastair Buchan)一起開發(fā)了技術(shù),布坎開發(fā)了全球使用的ASPECTS評分系統(tǒng)用于腦部CT掃描。他們建立的技術(shù)基本上將中風專家放在每個醫(yī)院,無論其位置或資源如何。
https://www.bioworld.com/articles/717993-brainomix-raises-14m-for-ai-powered-imaging-solution-for-stroke-lung-fibrosis?v=preview
為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來
OpenAI為其開發(fā)者API發(fā)布的o1-pro模型,為人工智能定價設(shè)立了新的天花板。這一增強版推理模型的價格令人驚訝:每百萬輸入代幣150美元,每百萬輸出代幣600美元,不僅使其成為OpenAI最昂貴的產(chǎn)品,也可能是市場上最昂貴的主流AI模型。o1-pro將其計算能力擴展到愿意為OpenAI所描述的“使用更多計算資源來更深入思考”復雜問題的開發(fā)者。
令人驚訝的價格點揭示了關(guān)于高級AI的一個令人不舒服的真相:真正的推理在計算成本方面具有挑戰(zhàn)我們對AI民主化假設(shè)的方式。雖然大多數(shù)AI討論都關(guān)注可及性,但o1-pro的定價結(jié)構(gòu)大膽地斷言,一些計算能力將始終處于奢侈層次。OpenAI在其公告推文中坦率地表示,隨著更多的計算資源,成本也會增加。這一定價策略暴露了所謂“推理代幣”的巨大資源需求——模型在思考問題時采取的內(nèi)部計算步驟,用戶在最終輸出中看不到,但仍然必須為其付費。
200,000個代幣的上下文窗口和100,000個最大輸出容量進一步強調(diào)了o1-pro并非為休閑應(yīng)用而設(shè)計,而是為專門領(lǐng)域設(shè)計的,在這些領(lǐng)域中,精度和可靠性可以證明非凡的成本是合理的。這一發(fā)布代表的不僅僅是一個定價里程碑——它標志著AI的演進進入了不同的專業(yè)化層次。雖然語言模型在模式識別和生成方面表現(xiàn)出色,但像o1-pro這樣的“推理模型”則專門為通過多個步驟進行系統(tǒng)化問題解決而分配計算資源。
OpenAI似乎正在針對擁有深厚資金的研究機構(gòu)、科學組織和專門行業(yè),這些領(lǐng)域的復雜問題解決能力可以證明巨大的投資。視覺能力、函數(shù)調(diào)用、結(jié)構(gòu)化輸出以及與Responses API的集成以創(chuàng)建自主代理的功能確認了這一戰(zhàn)略重點,即專注于高復雜性、高價值應(yīng)用。這使得o1-pro直接與其他專注于推理的模型競爭,包括DeepSeek的R1、Anthropic的Claude Sonnet 3.7和Google的Gemini 2.0,創(chuàng)造了AI市場中的一個獨特的高端層次。
https://www.techrepublic.com/article/news-openai-o1-pro-api-price/
谷歌的AI賭局:DOJ的Chrome困境與科技反壟斷的未來
在谷歌持續(xù)的反壟斷事件中,美國司法部(DOJ)提出了修訂后的計劃,允許谷歌保留其在人工智能(AI)的投資,但仍要求其剝離Chrome瀏覽器。這一舉動反映了DOJ在平衡市場競爭問題與認可AI在技術(shù)進步中的關(guān)鍵作用之間采取的細致入微的方法。
DOJ允許谷歌保留其現(xiàn)有的AI投資,包括在Anthropic公司的巨額股份。然而,谷歌必須在進行未來AI投資前通知反壟斷執(zhí)法機構(gòu),以便對擬議的交易進行審查。與此同時,DOJ繼續(xù)推動谷歌出售其Chrome瀏覽器,理由是Chrome在強化谷歌在搜索引擎市場的主導地位方面發(fā)揮了作用。Chrome的默認設(shè)置將用戶引導至谷歌搜索,從而限制了其他搜索引擎的競爭。
DOJ的行動是在聯(lián)邦法官裁定谷歌非法維持在線搜索和廣告市場壟斷之后。擬議的補救措施旨在恢復競爭并防止反競爭行為。DOJ允許谷歌保留AI投資的決定反映了戰(zhàn)略性的轉(zhuǎn)變,承認限制AI投資在快速發(fā)展的領(lǐng)域中可能產(chǎn)生的意外后果。這種立場與DOJ對Chrome采取的更為激進的態(tài)度形成對比,DOJ認為Chrome是谷歌搜索壟斷的關(guān)鍵組成部分。
https://uk.pcmag.com/ai/157038/doj-lets-google-keep-ai-investments-but-not-chrome
大模型與基礎(chǔ)建設(shè)
在 GPU 競賽中如何低成本擴展 300B MoE 模型
論文《每一次 FLOP 都重要:在非高端 GPU 上擴展 300B 規(guī)模的混合專家(MoE)LLM》由螞蟻集團 AI@Ant Group 的 Ling 團隊撰寫,探討了如何使用成本更低的硬件訓練大規(guī)?;旌蠈<遥∕ixture-of-Experts, MoE)模型,以替代昂貴的 AI 加速器。研究介紹了兩種 MoE LLM:Ling-Lite(總參數(shù)量 16.8B,激活參數(shù)量 2.75B)和 Ling-Plus(總參數(shù)量 290B,激活參數(shù)量 28.8B)。
研究的主要貢獻包括在低性能 GPU 上優(yōu)化模型訓練,提出了一種經(jīng)濟高效的方法,在有限硬件資源上訓練大規(guī)模 MoE LLM,同時實現(xiàn)與業(yè)界領(lǐng)先模型相當?shù)男阅堋O啾仁褂酶叨擞布?,研究方法?jié)省了約 20% 的計算成本。此外,研究還提出了創(chuàng)新的技術(shù)方法,如異構(gòu)訓練基礎(chǔ)設(shè)施、優(yōu)化訓練策略、改進異常處理、提高模型評估效率和增強工具使用能力。研究證明,在相同的計算預(yù)算下,MoE 比密集型模型計算效率高 3 倍。
傳統(tǒng)觀點認為,更貴的 GPU 等于更好的 AI。但 Ling 團隊的研究表明,通過精準的訓練策略優(yōu)化,低成本 GPU 也能實現(xiàn)接近頂級 AI 加速器的性能。他們的關(guān)鍵策略包括異構(gòu)訓練基礎(chǔ)設(shè)施、優(yōu)化訓練策略、健壯的異常處理與數(shù)據(jù)優(yōu)化以及高效硬件利用。通過混合使用不同計算設(shè)備,最大化利用每一塊計算資源的特性,異步訓練技術(shù)讓計算資源利用率提高 66.1%,高效調(diào)試工具降低 90% 內(nèi)存占用,減少訓練中的資源浪費。
https://arxiv.org/pdf/2503.05139
大型語言模型中上下文增強學習的力量:綜合分析
這篇研究論文介紹并形式化了大型語言模型(LLMs)中一個稱為"上下文增強學習"的新概念,研究了在訓練期間在上下文中提供額外有用文本(而不對這些文本計算梯度)如何能夠顯著提高學習效率。該工作將傳統(tǒng)基于梯度的學習與上下文學習能力橋接起來,揭示了關(guān)于我們?nèi)绾斡柧毢屠斫釲LMs的重要理論和實踐意義。
上下文增強學習代表著與標準監(jiān)督微調(diào)方法的不同。在傳統(tǒng)微調(diào)中,模型通過梯度更新直接從輸入-輸出對中學習。研究人員形式化了一種新范式,其中有用的上下文信息(他們稱之為"課程文本")與訓練樣本一起提供,但不對這些額外材料計算自回歸損失。這種方法反映了人類學習模式,我們在解決問題時參考教科書或示范,而不需要明確記憶這些資源。
作者通過開發(fā)一個稱為"多級翻譯"(MLT)的合成任務(wù),創(chuàng)建了一個嚴格的框架來分析這種學習范式。這個任務(wù)涉及通過一系列定義連續(xù)語言對之間映射的短語手冊進行語言間翻譯。復雜度可以通過表示深度(d)和字母表大小(n)的參數(shù)來控制,從而允許系統(tǒng)性的實驗和理論分析。
研究提出了三個基本問題:上下文增強學習是否比標準學習更強大,模型是否需要某些能力才能從這種方法中受益,以及這種技術(shù)是否可以安全地使用特權(quán)信息而不會冒數(shù)據(jù)泄露的風險。通過精心的實驗設(shè)計和理論分析,論文解答了這些問題。
MLT任務(wù)代表了一個類似加密方法的多步推理問題。它涉及通過d個連續(xù)變換翻譯序列,每個變換由一個將一個字母表的2元組映射到另一個字母表的短語手冊定義。每個轉(zhuǎn)換包括一個循環(huán)移位,然后應(yīng)用適當?shù)亩陶Z手冊規(guī)則。這創(chuàng)建了一個雙射映射,其中每個輸出字符依賴于多個輸入字符,使得僅從輸入-輸出對直接學習變得極其具有挑戰(zhàn)性。
這種任務(wù)設(shè)計特別有價值,因為它創(chuàng)建了一個可控環(huán)境,可以精確測量上下文增強學習的益處。復雜度隨深度呈指數(shù)級增長,使研究人員能夠展示學習范式之間在樣本效率上的顯著差異。
作者使用Llama 3.2-3B模型進行了不同任務(wù)參數(shù)的實驗(d=5,n=8或10)。他們的方法包括兩個主要階段:首先,他們通過在具有不同短語手冊的隨機翻譯任務(wù)上進行微調(diào),準備了一個"MLT(d,n)-ICL-capable"模型。這創(chuàng)建了一個能夠理解和應(yīng)用上下文中出現(xiàn)的短語手冊規(guī)則的模型,作為后續(xù)實驗的初始化點。其次,他們實施了具有幾種課程策略的上下文增強學習。
實驗結(jié)果揭示了幾個重要發(fā)現(xiàn),證明了上下文增強學習的力量:最顯著的結(jié)果是樣本效率的顯著提高。通過上下文增強學習訓練的模型(特別是使用退火丟棄策略)與標準監(jiān)督微調(diào)相比,要達到相同的準確度水平,所需的訓練樣本減少了約10倍。隨著任務(wù)復雜度的增加,這種效率差距變得更加明顯。
https://arxiv.org/pdf/2503.01821
大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入
研究論文《超越問答對:評估大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入》對大型語言模型(LLM)通過參數(shù)高效微調(diào)(PEFT)技術(shù)進行適應(yīng)的領(lǐng)域做出了重要貢獻。該研究解決了如何在保持計算效率的同時有效地將特定領(lǐng)域知識嵌入到LLM中的關(guān)鍵問題。作者挑戰(zhàn)了關(guān)于問答(QA)對在微調(diào)過程中普遍有效性的常見假設(shè),并為優(yōu)化領(lǐng)域適應(yīng)策略提供了實證證據(jù)。
參數(shù)高效微調(diào)已成為一種實用方法,用于將預(yù)訓練的LLM適應(yīng)到特定領(lǐng)域或任務(wù),而無需承擔全模型重新訓練的高昂計算成本。像低秩適應(yīng)(LoRA)這樣的PEFT技術(shù)因其效率和通過Azure、Google Cloud、AWS和Lamini等平臺的易用性而在行業(yè)中得到廣泛采用。然而,這些技術(shù)的日益普及導致了一種誤解,即簡單地積累大量QA對就足以進行有效的領(lǐng)域適應(yīng)。
該研究采用多方面的方法來評估PEFT的有效性。研究人員開發(fā)了一個基于BERT的分類器,將QA對分為"事實性"和"概念性"類別。事實性問題需要特定信息檢索,而概念性問題需要更廣泛的理解。這種分類允許創(chuàng)建不同的微調(diào)數(shù)據(jù)集,以測試他們的假設(shè):并非所有QA對對模型性能的貢獻相等。
該研究比較了兩種生成合成訓練數(shù)據(jù)的方法:D-Naive和D-RAG。D-Naive是一種直接方法,LLM直接從文檔中一次性生成QA對;D-RAG則使用D-Naive生成的問題上的檢索增強生成,產(chǎn)生更具上下文豐富的答案。每個數(shù)據(jù)集包含20,000個QA對,其中1,000對保留用于測試目的。
研究人員使用LoRA微調(diào)了Llama-2 7B模型,并進行了精心優(yōu)化的訓練參數(shù)。訓練配置包括每設(shè)備批量大小為8、四個步驟的梯度累積、用于內(nèi)存效率的梯度檢查點、初始學習率為2e-4的五個訓練周期、混合精度(bfloat16)計算、帶有塊級模型更新過濾的AdamW優(yōu)化器以及帶有5%預(yù)熱比率的余弦調(diào)度器。
為了評估性能,該研究使用了三個"監(jiān)督"LLM(GPT-3.5 Turbo、Gemini 1.5 Pro和Prometheus 2 7B)來使用一致的評估標準對模型輸出與真實答案進行評分。這種多評估器方法有助于減輕任何單一評分模型的潛在偏見。
該研究產(chǎn)生了幾個重要發(fā)現(xiàn),挑戰(zhàn)了關(guān)于用于領(lǐng)域適應(yīng)的PEFT的傳統(tǒng)智慧。在所有評估器LLM中,在概念性數(shù)據(jù)集上微調(diào)的模型始終優(yōu)于在事實性數(shù)據(jù)集上訓練的模型。這表明概念理解比單純的事實知識為領(lǐng)域適應(yīng)提供了更強的基礎(chǔ)。與最初的預(yù)期相反,D-Naive數(shù)據(jù)集比更復雜的D-RAG方法產(chǎn)生了更好的性能。研究人員將這一意外結(jié)果歸因于D-RAG管道中的檢索效率低下,向量數(shù)據(jù)庫檢索器經(jīng)常無法識別最合適的文檔。這突顯了RAG系統(tǒng)中檢索質(zhì)量的關(guān)鍵重要性。
https://arxiv.org/pdf/2503.01131
大型推理模型能否在感知不確定性下進行類比推理?
這篇論文呈現(xiàn)了一項開創(chuàng)性的研究,探討了當前最先進的大型推理模型(LRMs)在感知不確定性下進行類比推理的能力。該研究為我們提供了對當前AI推理系統(tǒng)的局限性以及改進的潛在途徑的寶貴見解。
研究人員評估了兩種最先進的LRMs——OpenAI的o3-mini和DeepSeek R1——在基于Raven進步矩陣(RPMs)的非語言類比推理任務(wù)上的表現(xiàn)。RPMs被廣泛用于評估人類流體智力,最近也被用于評估機器的類比推理能力。研究的核心問題是:這些模型在面臨不確定或不完善的感知輸入時,是否能夠保持其推理能力,這更好地反映了現(xiàn)實世界的推理場景。
傳統(tǒng)的AI推理評估假設(shè)輸入是完美的、無噪聲的。這篇論文挑戰(zhàn)了這一假設(shè),通過使用I-RAVEN數(shù)據(jù)集及其更具挑戰(zhàn)性的擴展I-RAVEN-X,引入干擾屬性和平滑輸入屬性的分布,創(chuàng)建了一個更現(xiàn)實的測試環(huán)境,模擬了AI系統(tǒng)在現(xiàn)實世界中如何推理,現(xiàn)實世界中感知永遠不完美。
研究人員基于I-RAVEN數(shù)據(jù)集,擴展了I-RAVEN-X以測試生產(chǎn)力、系統(tǒng)性、對干擾因素的魯棒性和對非退化值分布的魯棒性。他們評估了OpenAI的o3-mini、DeepSeek R1和ARLC(一種神經(jīng)符號概率推理模型)在這些任務(wù)上的表現(xiàn)。
研究人員引入了基于熵的置信度指標,以提高神經(jīng)符號模型在不確定性下推理的性能。該指標根據(jù)每個屬性的置信度熵重新加權(quán)每個屬性對損失和得分的貢獻。
關(guān)鍵發(fā)現(xiàn)和結(jié)果顯示,LRM在干凈數(shù)據(jù)上的性能優(yōu)于傳統(tǒng)的大型語言模型(LLMs),但在不確定性下的性能顯著下降。神經(jīng)符號模型ARLC即使在最具挑戰(zhàn)性的設(shè)置中也保持了較高的準確率,并且提出的基于熵的置信度指標顯著提高了ARLC的魯棒性。
https://arxiv.org/pdf/2503.11207
AI芯片巨頭如何在變幻莫測的基礎(chǔ)上觸摸星空
在NVIDIA的GTC 2025大會上,CEO黃仁勛宣布了下一代GPU架構(gòu)將以發(fā)現(xiàn)暗物質(zhì)的天文學家"Vera Rubin"命名,這不僅象征著公司在AI基礎(chǔ)設(shè)施領(lǐng)域的宏大抱負,也暗示了正在重塑科技格局的無形力量。NVIDIA的公告讀起來像是一本計算力量的科學教科書,公司揭曉了Blackwell Ultra的計劃,這是其當前旗艦AI芯片的增強版,計算能力提升1.5倍,內(nèi)存容量增加1.5倍,帶寬是原始Blackwell的兩倍。預(yù)計今年晚些時候投產(chǎn)的Blackwell Ultra之后,將于2026年下半年推出Vera Rubin,承諾其性能是Blackwell Ultra的3.3倍。路線圖還延伸到2027年底的Rubin Ultra,NVIDIA聲稱其性能將達到Blackwell Ultra的驚人14倍。
這種節(jié)奏——每年發(fā)布一款新旗艦芯片,中間穿插Ultra版本——代表了NVIDIA迄今為止最激進的產(chǎn)品戰(zhàn)略。正如黃仁勛所言:"計算的每一層都被生成式AI的到來所改變"。言外之意很明確:計算需求不僅沒有放緩,而且正以超出先前預(yù)測的速度加速增長。這些公告中最引人注目的特點不僅僅是原始性能數(shù)據(jù),還有NVIDIA正在圍繞它們構(gòu)建的綜合生態(tài)系統(tǒng)。該公司正在構(gòu)建所謂的"AI工廠"——芯片、網(wǎng)絡(luò)和軟件的集成系統(tǒng),旨在實現(xiàn)下一波專注于推理和代理能力的AI應(yīng)用。Blackwell Ultra AI工廠將72個Blackwell Ultra GPU和36個基于Arm Neoverse的NVIDIA Grace CPU組合成機架級系統(tǒng),作為單個龐大的AI處理器工作。
也許最重要的公告不是硬件,而是軟件。NVIDIA推出了"Dynamo",被描述為AI工廠概念的"操作系統(tǒng)"。這款開源推理軟件取代了NVIDIA Triton推理服務(wù)器,旨在根據(jù)生成令牌的成本衡量最大化收益。商業(yè)影響意義深遠。通過優(yōu)化令牌生成經(jīng)濟學,NVIDIA將自己定位為不僅是芯片銷售商,還是最大化AI商業(yè)模式的合作伙伴。Perplexity AI的CTO Denis Yarats也承認了這一點,他指出:"為了每月處理數(shù)億次請求,我們依靠NVIDIA GPU和推理軟件來提供業(yè)務(wù)和用戶所需的性能、可靠性和規(guī)模"。
NVIDIA擴張野心的另一個跡象是公司推出了GROOT N1,這是一個用于機器人領(lǐng)域生成式AI的基礎(chǔ)模型。這一公告特別有趣的地方在于,它從去年的工業(yè)焦點轉(zhuǎn)向了不同形態(tài)的人形機器人。這一舉措表明NVIDIA將機器人技術(shù)視為AI應(yīng)用的下一個前沿——將智能從數(shù)字領(lǐng)域帶入物理世界。黃仁勛的自信在整個活動中表露無遺。"物理AI時代已經(jīng)到來,"他宣稱,將NVIDIA的工作定位為跨行業(yè)的變革力量。然而,在這種自信背后,是對NVIDIA面臨日益激烈的競爭和市場不確定性的認識。
https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/
Gemma 3:谷歌的AI戰(zhàn)略棋局——民主化權(quán)力的同時保持控制
谷歌正式發(fā)布了Gemma 3,這是其最新的開源AI模型系列,旨在在單加速器系統(tǒng)上提供最先進的性能。這一第三代產(chǎn)品代表了可訪問AI技術(shù)的重大進步,谷歌大膽宣稱它是"世界上最好的單加速器模型",在使用單個GPU而非需要多個處理單元或整個集群的情況下,其性能超過了來自Meta、DeepSeek和OpenAI的競爭對手。
Gemma 3推出了四種不同規(guī)模的版本(1B、4B、12B和27B參數(shù)),允許開發(fā)者根據(jù)特定的硬件限制和性能需求選擇適當?shù)呐渲?。最小的模型在低精度設(shè)置下可以使用不到1GB的內(nèi)存運行,而較大的27B變體即使在壓縮的4位精度下仍需要20-30GB的內(nèi)存。與前代產(chǎn)品相比,最顯著的改進包括大幅擴展的上下文窗口——從Gemma 2的8,000個標記躍升至令人印象深刻的128,000個標記——使模型能夠處理和理解整篇學術(shù)論文或書籍等大量信息。此外,Gemma 3引入了Gemma 2所缺乏的多模態(tài)能力,使其不僅能分析文本,還能分析圖像和短視頻。對于全球部署而言,也許最重要的是,Gemma 3開箱即支持超過35種語言,并為總共超過140種語言提供預(yù)訓練能力,大大擴展了其前身僅限英語的局限性。
谷歌發(fā)布Gemma 3代表了在日益競爭激烈的AI領(lǐng)域中的一步精心計算的棋子。通過強調(diào)單加速器性能,谷歌正在瞄準強大但資源密集型模型與更易獲取但功能有限的AI選項之間的關(guān)鍵市場缺口。根據(jù)性能指標,Gemma 3 27B在Chatbot Arena Elo評分評估中僅次于DeepSeek-R1,這種評估衡量的是用戶偏好。這一發(fā)布的時機特別有趣——正值DeepSeek等競爭對手模型和類似技術(shù)展示出對能在更為適中的硬件配置上運行的AI解決方案的市場需求日益增長之際。谷歌似乎正在承認,雖然AI能力的最前沿可能屬于Gemini 2.0等大型模型(具有200萬標記的上下文窗口),但實際應(yīng)用需要的是不需要數(shù)據(jù)中心資源的模型。
https://www.extremetech.com/computing/google-announces-gemma-3-worlds-best-single-accelerator-model
技術(shù)與研發(fā)
利用知識圖譜和大型語言模型進行AI研究創(chuàng)意生成
上海交通大學的研究論文介紹了AI想法圖譜(GoAI),這是一個創(chuàng)新框架,結(jié)合知識圖譜和大型語言模型來生成創(chuàng)新性AI研究想法。該論文解決了AI研究中的一個重大挑戰(zhàn):科學文獻的海量數(shù)量和復雜的引文關(guān)系使研究人員難以快速識別有意義的研究趨勢并產(chǎn)生新穎想法。雖然大型語言模型(LLMs)在自動化想法生成方面顯示出前景,但現(xiàn)有方法存在關(guān)鍵局限性:它們未能充分捕捉論文之間引用關(guān)系中嵌入的語義信息,通常使用簡單的線性結(jié)構(gòu)來表示研究趨勢,并且缺乏評估生成想法的客觀評價機制。
GoAI的核心創(chuàng)新是將研究論文及其關(guān)系表示為結(jié)構(gòu)化知識圖譜,其中實體是單個研究論文,關(guān)系捕捉引用的語義含義及其基于論文中位置的重要性。這種組織反映了研究領(lǐng)域中思想的實際進展,而不僅僅是簡單的連接。該框架為引用關(guān)系定義了五個語義類別:基于和擴展(B&E)、支持和補充(S&S)、對比和替代(C&A)、質(zhì)疑和反駁(Q&A)、簡單提及或不相關(guān)(M/I)。
論文引入了一個基于LLM的代理,與知識圖譜協(xié)作來使用集束搜索動態(tài)探索多個發(fā)展路徑,基于圖遍歷分析研究趨勢,并生成基于探索路徑的新穎研究想法。GoAI-CoT-Reviewer,一個結(jié)構(gòu)化思考評估模型,通過三階段過程(總結(jié)、分析和評分)評估生成想法的新穎性,并在ICLR和NeurIPS等會議的公開評審意見上進行監(jiān)督微調(diào),模仿人類評審過程的清晰推理步驟。
GoAI框架通過四個主要階段運作:文獻搜索和過濾、GoAI圖譜構(gòu)建、通過圖譜探索生成想法、新穎性評估。實驗結(jié)果表明,GoAI在多個維度上優(yōu)于其他自動方法,尤其是在新穎性和重要性方面。結(jié)構(gòu)化思考方法與人類評估的相關(guān)性顯著高于直接生成或多輪對話。案例研究分析顯示,GoAI檢索到與主題更密切相關(guān)的論文,并生成與論文路徑更好對齊的想法。該系統(tǒng)即使使用成本效益高的LLM實現(xiàn)(GLM-4-Flash API)也展示了強健性能。
https://arxiv.org/pdf/2503.08549
通用聚變公司維多利亞風格反應(yīng)堆如何可能重寫我們的能源未來
在一個由激光和超導磁體主導的領(lǐng)域,通用聚變公司(General Fusion)采用了一種令人耳目一新的不同方法來解決人類能源危機。這家加拿大公司于2025年3月11日宣布,已成功在其原型反應(yīng)堆Lawson Machine 26(LM26)內(nèi)創(chuàng)造出等離子體。這一里程碑標志著為期93周的探索開始,旨在證明其獨特的"蒸汽朋克"核聚變能源方法——使用蒸汽驅(qū)動活塞而非尖端激光——仍是清潔、無限能源競賽中的有力競爭者。
通用聚變公司的磁化靶核聚變(MTF)技術(shù)在核聚變領(lǐng)域代表了一種引人入勝的混合體。當競爭對手專注于磁約束(長時間保持等離子體穩(wěn)定)或慣性約束(用激光快速壓縮燃料)時,通用聚變公司以一種讓人聯(lián)想起維多利亞時代工業(yè)機械的方式結(jié)合了兩者的元素。他們的方法在旋轉(zhuǎn)液態(tài)金屬中創(chuàng)建球形腔體,注入氘-氚燃料的等離子體,然后使用機械驅(qū)動的活塞壓縮這種等離子體直到達到核聚變條件。這種方法理論上提供了顯著優(yōu)勢——潛在地消除了對昂貴超導磁體或復雜激光陣列的需求,這些因素使其他核聚變方法成本高昂。
新投入運營的LM26代表了超過20年開發(fā)和4.4億美元資金的頂點。它僅用16個月建成,旨在達到1000萬攝氏度溫度,然后是1億攝氏度,最終在2026年達到科學意義上的能量收支平衡——商業(yè)可行性道路上的關(guān)鍵里程碑。
創(chuàng)始人兼首席科學官Michel Laberge博士流露出特有的熱情:"我們已經(jīng)建造了24個等離子體注入器,創(chuàng)造了超過20萬個等離子體,并從等離子體壓縮中產(chǎn)生了聚變中子。我們準備在LM26中實現(xiàn)一些核聚變!"他的信心源于早期實驗中令人印象深刻的初步結(jié)果,這些實驗實現(xiàn)了每秒超過6億的中子產(chǎn)量。
https://techcrunch.com/2025/03/11/general-fusion-fires-up-its-newest-steampunk-fusion-reactor/
微調(diào)大型語言模型用于報告摘要:監(jiān)督和無監(jiān)督方法
卡內(nèi)基梅隆大學軟件工程研究所的這項研究對自然語言處理領(lǐng)域做出了重要貢獻,研究了微調(diào)大型語言模型(LLMs)用于報告摘要的實用方法,特別是在政府和敏感環(huán)境中的應(yīng)用。該研究探討了在計算資源有限且缺乏標準參考摘要的情況下的挑戰(zhàn),同時提供了關(guān)于評估方法的寶貴見解。
研究人員解決了在現(xiàn)實世界約束條件下使用LLMs總結(jié)政府檔案、新聞和情報報告的挑戰(zhàn)。他們的工作解答了兩個主要研究問題:在計算資源有限的情況下,微調(diào)LLMs以改善摘要是否可行,以及在沒有參考摘要的情況下,哪些指標能有效評估摘要質(zhì)量。這種實用方法區(qū)別于大多數(shù)假設(shè)擁有強大計算能力或參考摘要的現(xiàn)有文獻。
政府文件的摘要是NLP技術(shù)的關(guān)鍵應(yīng)用領(lǐng)域。相關(guān)研究指出,政府采購通知、法律判決和其他官方文件通常冗長、復雜且難以手動處理。這類信息的數(shù)量為政府機構(gòu)和尋求理解官方通信的公民創(chuàng)造了信息處理瓶頸。先前研究已證明LLMs在總結(jié)各類文檔方面的潛力,從醫(yī)療記錄到法律文本。然而,大多數(shù)研究都集中在有參考摘要的領(lǐng)域,或者利用了并非所有組織都能獲得的大規(guī)模計算資源。
研究人員開發(fā)了全面的方法,解決了微調(diào)過程和評估挑戰(zhàn)。研究團隊通過國家檔案館(NARA) API下載基于文本的數(shù)據(jù),對PDF和圖像文檔進行OCR處理,并通過過濾清洗數(shù)據(jù)創(chuàng)建訓練和測試集。此外,他們還使用了兩個帶有參考摘要的新聞數(shù)據(jù)集進行比較分析。
研究人員實施了兩種不同的微調(diào)策略:知識微調(diào)(KFT)和格式微調(diào)(FFT)。KFT在NARA數(shù)據(jù)集上使用因果語言建模微調(diào)Llama 7B模型,以提高對政府文檔上下文、詞匯和語法的理解。FFT使用序列到序列建模在新聞數(shù)據(jù)集上微調(diào)Google T5 Small模型,以參考摘要作為標簽。兩種方法都采用了優(yōu)化技術(shù),使微調(diào)能在有限硬件上進行。
研究人員開發(fā)了全面的評估框架,包括傳統(tǒng)指標、新型指標和人工評估。這種多方面的評估方法是一項重大貢獻,尤其是在沒有參考摘要的情況下,這在許多實際政府應(yīng)用中很常見。
研究得出了幾項關(guān)于微調(diào)LLMs用于摘要的重要發(fā)現(xiàn)。KFT將無效摘要從36%顯著減少到15%,證明了即使在無監(jiān)督方法中,領(lǐng)域適應(yīng)也很有價值。FFT在多個指標上持續(xù)改善摘要質(zhì)量。研究人員發(fā)現(xiàn)兩種微調(diào)方法服務(wù)于不同目的:KFT主要提高了處理嘈雜、經(jīng)OCR處理的政府文檔時的穩(wěn)健性,而FFT持續(xù)提高摘要質(zhì)量,但需要參考摘要。
https://arxiv.org/pdf/2503.10676
分層思考:HiRAG如何終于教會AI連接知識點
本研究論文介紹了HiRAG,一個創(chuàng)新框架,通過融入層次化知識結(jié)構(gòu)增強了檢索增強生成(RAG)系統(tǒng)。該工作解決了現(xiàn)有RAG方法的基本限制,并提出了在各個領(lǐng)域顯著提高性能的新解決方案。
檢索增強生成(RAG)已成為大型語言模型(LLM)的關(guān)鍵增強技術(shù),特別是在特定領(lǐng)域和知識密集型任務(wù)中。雖然現(xiàn)有RAG方法已顯示出前景,但作者確定了兩個限制其有效性的重大挑戰(zhàn)。首先,語義相似實體之間的遠距離結(jié)構(gòu)關(guān)系限制了有效的知識檢索。其次,現(xiàn)有方法難以彌合實體特定細節(jié)(局部知識)和更廣泛的社區(qū)級摘要(全局知識)之間的斷開,導致推理不連貫。這些挑戰(zhàn)源于傳統(tǒng)RAG系統(tǒng)中知識表示和檢索過程的局限性。作者提出HiRAG通過層次化方法處理知識索引和檢索過程,以解決這些問題。
HiRAG框架由兩個協(xié)同工作以增強RAG性能的主要模塊組成:用于層次化知識索引的HiIndex和用于多層次知識檢索的HiRetrieval。HiIndex模塊引入了一種新穎的知識表示方法,通過構(gòu)建具有不同知識粒度層次的層次化知識圖譜。該過程包括基礎(chǔ)知識圖譜構(gòu)建、層次化層構(gòu)建和社區(qū)檢測。層次化結(jié)構(gòu)提供了雙重連接增強:通過低層連接的結(jié)構(gòu)凝聚力和通過高層抽象的語義橋接。這使得語義相似的實體即使在基礎(chǔ)知識圖譜中位置相距較遠也能連接起來。
https://arxiv.org/pdf/2503.10150
你的數(shù)字分身:第二自我與外包大腦的藝術(shù)
本報告對研究論文《AI原生記憶2.0:第二自我》進行了深入分析,該論文介紹了一種使用大型語言模型(LLMs)進行記憶管理的新方法。該論文代表了個性化AI作為人類記憶延伸的重要進步。
"AI原生記憶2.0:第二自我"的基本前提圍繞著通過個人記憶交換重新構(gòu)想人類如何與數(shù)字系統(tǒng)交互。作者識別出當前人機交互中的一個關(guān)鍵低效問題:用戶必須在不同環(huán)境中重復提供相同信息,導致認知疲勞和交互中斷。雖然現(xiàn)有的解決方案如瀏覽器存儲的憑證和自動填充機制提供了一些緩解,但它們僅作為缺乏上下文推理和適應(yīng)性的靜態(tài)存儲庫。第二自我通過作為一個智能的、持久的記憶卸載系統(tǒng),動態(tài)利用用戶特定知識,超越了這些限制。研究者將第二自我設(shè)想為一個上下文提供者,它連接用戶、AI代理和更廣泛的信息世界,促進無縫交互,顯著減少認知負擔和交互摩擦。
第二自我建立在大型個人模型(LPM)1.0的基礎(chǔ)上,該模型確立了AI原生記憶對人工通用智能(AGI)進步的必要性。先前的工作表明,即使是具有超長上下文能力的LLMs,在搜索、組織和推理復雜用戶記憶方面也存在不足。記憶系統(tǒng)架構(gòu)組織為三個不同的層次:原始數(shù)據(jù)層、自然語言記憶層和AI原生記憶層。第二自我引入了一種混合架構(gòu),保留了這三層的同時增加了重要改進,包括內(nèi)循環(huán)整合、重新定義L2角色和外循環(huán)結(jié)構(gòu)。
第二自我的實施涉及幾種復雜的方法,包括自動化訓練管道和思維鏈(COT)策略。自動化訓練管道包括數(shù)據(jù)挖掘、記憶數(shù)據(jù)合成、上下文生成、五級過濾、參數(shù)高效微調(diào)(PEFT)和直接偏好優(yōu)化(DPO)。研究者嘗試了三種COT方法用于訓練數(shù)據(jù)生成:弱COT、多步驟COT和強COT。設(shè)計了三個關(guān)鍵任務(wù)來評估模型的有效性:記憶問答、上下文增強和上下文評論。
評估使用了四種指標:記憶(自我)、記憶(第三方)、上下文增強和上下文評論。關(guān)鍵實驗發(fā)現(xiàn)包括強COT顯著提高了模型性能,DPO帶來了實質(zhì)性改進,人類案例研究表明第二自我的有效性可能超過報告的指標。通過結(jié)合多樣化數(shù)據(jù)源和不經(jīng)過過濾的強COT風格標準化,實現(xiàn)了最佳性能。
第二自我在多個領(lǐng)域提供了重要價值,包括認知管理、網(wǎng)絡(luò)效應(yīng)和知識轉(zhuǎn)化。與相關(guān)研究相比,第二自我代表了幾項創(chuàng)新進步,包括超越靜態(tài)記憶、個性化架構(gòu)、自動化端到端管道、混合記憶管理和開源實現(xiàn)。研究者承認仍然存在幾個挑戰(zhàn),包括單輪訓練限制、模型對齊完善、評估約束、多模態(tài)整合和實時同步。
https://arxiv.org/pdf/2503.08102
為什么你的提示工程"專業(yè)知識"可能只是一廂情愿的想法
本論文對提示工程和大型語言模型基準測試的微妙性質(zhì)提供了關(guān)鍵見解,揭示了兩者比通常假設(shè)的更為復雜和依賴上下文。研究表明,提示方法和評估方法的微小變化可能會顯著影響對大型語言模型性能評估的結(jié)果。
這項研究由賓夕法尼亞大學沃頓商學院和其他機構(gòu)的研究人員撰寫,重點關(guān)注大型語言模型評估的兩個關(guān)鍵領(lǐng)域:基準測試標準和不同提示技術(shù)的有效性。使用GPT-4o和GPT-4o-mini模型,研究人員對GPQA Diamond數(shù)據(jù)集進行了廣泛測試,該數(shù)據(jù)集包含198個涵蓋生物學、物理學和化學的博士級多項選擇題。
與傳統(tǒng)基準測試方法相比,該研究方法論的嚴謹性尤為突出。每個問題在不同提示條件下測試了100次,每個模型每個提示總計19,800次運行。建立了三種不同的"通過"標準:完全準確率(100%正確),高準確率(90%正確)和多數(shù)正確(51%正確)。測試了四種不同的提示條件:基線格式化提示,非格式化提示,禮貌提示和命令式提示。這種方法比典型的依賴單次嘗試或小樣本量的評估代表了顯著的方法論進步,提供了更穩(wěn)健的可靠性測量。
研究人員發(fā)現(xiàn)模型響應(yīng)存在實質(zhì)性的不一致性,即使重復詢問相同問題。在100%正確性閾值下使用格式化提示,GPT-4o和GPT-4o-mini的表現(xiàn)僅比隨機猜測(25%)好約5個百分點,差異在統(tǒng)計上不顯著。在較低閾值(51%正確性)下,兩種模型都明顯優(yōu)于隨機猜測。這種變異性表明大型語言模型可能不可靠且不一致,這是需要高可靠性應(yīng)用程序考慮的關(guān)鍵因素。
評估標準的選擇極大地影響了感知的模型性能。在較高的正確性閾值(100%)下,兩種模型都沒有明顯優(yōu)于隨機猜測。在較低閾值(51%)下,兩種模型都顯示出相對于隨機猜測的統(tǒng)計顯著改進。這一發(fā)現(xiàn)挑戰(zhàn)了許多可能通過使用不太嚴格的標準而大大高估模型可靠性的基準測試努力。
研究揭示了不同提示方法的微妙影響。格式化始終很重要:移除格式化限制顯著降低了兩種模型的性能(p<0.001)。當在所有問題上匯總時,禮貌("請回答以下問題")和命令式("我命令你回答以下問題")提示之間沒有顯著差異。然而,在個別問題層面上,特定問題的禮貌和命令式提示之間觀察到顯著差異,對某些問題的性能影響高達60個百分點。
https://arxiv.org/pdf/2503.04818
深度學習優(yōu)化技術(shù):全面綜述
深度學習已經(jīng)徹底改變了機器學習領(lǐng)域,在各種應(yīng)用中實現(xiàn)了前所未有的性能。這一成功的核心是能夠有效訓練這些復雜模型的優(yōu)化算法。本報告對深度學習中當前的優(yōu)化技術(shù)進行了全面分析,考察了它們的理論基礎(chǔ)、實際應(yīng)用和新興趨勢。
梯度下降構(gòu)成了神經(jīng)網(wǎng)絡(luò)優(yōu)化的基石。這種一階迭代算法通過在當前點的梯度反方向上邁步來最小化可微的多變量函數(shù)?;驹砗苤苯樱喝绻粋€多變量函數(shù)在點a附近可微,則它在負梯度方向上減少最快?;靖乱?guī)則可以表示為:θt+1=θt?η?f(θt),其中θ表示模型參數(shù),η是學習率,?f(θ)是目標函數(shù)的梯度。這個過程會迭代進行,直到收斂到局部最小值。
雖然梯度下降是優(yōu)化策略,但反向傳播是用于高效計算梯度的計算方法。反向傳播以分層方式安排偏導數(shù)的計算,從輸出層開始并向早期層反向工作。這種方法利用微積分中的鏈式法則來計算網(wǎng)絡(luò)中每個參數(shù)的梯度。
梯度下降有多種變體。批量梯度下降在執(zhí)行參數(shù)更新前使用整個訓練數(shù)據(jù)集計算梯度。雖然這通過向量化提供了計算效率,但需要大量內(nèi)存來存儲所有訓練示例,并且對于大型數(shù)據(jù)集可能導致緩慢的收斂。隨機梯度下降(SGD)在處理每個單獨的訓練示例后更新參數(shù)。這種方法需要更少的內(nèi)存并可以提供更頻繁的更新,但與批量方法相比,通常導致更嘈雜的梯度和不太穩(wěn)定的收斂。小批量梯度下降在處理小批量訓練示例后更新參數(shù),平衡了前面兩種方法。這已成為深度學習中的標準方法,因為它結(jié)合了計算效率和比純SGD更穩(wěn)定的收斂性。
基于動量的方法通過納入來自先前更新的信息來解決標準梯度下降的振蕩問題。經(jīng)典動量在目標函數(shù)持續(xù)減少的方向上累積速度向量,幫助抑制振蕩并加速收斂。Nesterov加速梯度(NAG)通過在近似的未來位置而非當前位置評估梯度來改進經(jīng)典動量。這種"前瞻"特性為凸優(yōu)化問題提供了更好的收斂率。
自適應(yīng)學習率方法根據(jù)歷史梯度為每個參數(shù)調(diào)整學習率。Adagrad為頻繁更新的參數(shù)分配較小的學習率,為不常更新的參數(shù)分配較大的學習率。雖然創(chuàng)新,但Adagrad可能隨時間遭受學習率遞減問題,在后期訓練階段實際上停止學習。RMSprop通過使用平方梯度的指數(shù)加權(quán)移動平均而不是累積所有過去的平方梯度來解決Adagrad的學習率遞減問題。這種修改允許算法丟棄來自遙遠過去的歷史,即使在多次更新后仍保持非零學習率。Adadelta通過消除手動設(shè)置學習率的需要進一步擴展了自適應(yīng)學習。它使用先前更新與當前梯度的運行平均值的比率,根據(jù)優(yōu)化過程的最近行為有效地調(diào)整學習率。Adam(自適應(yīng)矩估計)已成為深度學習中最流行的優(yōu)化器之一。它結(jié)合了RMSprop和動量的思想,通過維持過去梯度的衰減平均值和過去平方梯度的衰減平均值,這種雙重自適應(yīng)方法在各種深度學習架構(gòu)中提供了魯棒性。
新型優(yōu)化方法包括PADAM(部分自適應(yīng)矩估計)、dlADMM(深度學習交替方向乘子法)和PIDAO(比例-積分-微分加速優(yōu)化器)。PADAM引入了一種新穎的可調(diào)超參數(shù),稱為"部分自適應(yīng)參數(shù)p",它在[0, 0.5]之間變化。這個參數(shù)彌合了完全自適應(yīng)方法和帶動量的SGD之間的差距,潛在地解決了這些方法之間觀察到的泛化差距。dlADMM框架解決了優(yōu)化中的三個關(guān)鍵挑戰(zhàn):缺乏全局收斂保證、向解決方案緩慢收斂和關(guān)于特征維度的立方時間復雜度。通過以后向然后前向的方式更新參數(shù)并采用迭代二次近似,dlADMM將時間復雜度從立方降低到二次,同時提供全局收斂的理論保證。PIDAO代表一種創(chuàng)新方法,將反饋控制理論應(yīng)用于優(yōu)化。通過在優(yōu)化器中使用PID控制器,PIDAO提供了一種確定性連續(xù)時間優(yōu)化器,對凸和非凸優(yōu)化問題都證明了收斂性。實驗評估證明了PIDAO相比已建立方法加速收斂和提高準確性的能力。
模型效率優(yōu)化技術(shù)包括剪枝、量化和知識蒸餾。剪枝通過移除不太重要的神經(jīng)元減少模型大小,涉及識別、消除和可選的微調(diào)。量化通過對模型權(quán)重使用較低的數(shù)值精度減少內(nèi)存使用和計算時間。知識蒸餾將復雜的"教師"模型的見解轉(zhuǎn)移到更簡單的"學生"模型,以更少的計算需求保持性能。
優(yōu)化技術(shù)在圖像識別任務(wù)中顯示了顯著的結(jié)果。一項使用遷移學習和Adam優(yōu)化的花卉識別研究在測試集上達到了98.99%的準確率,展示了快速收斂和高識別準確率。在醫(yī)學應(yīng)用中,優(yōu)化的深度學習模型取得了顯著成果。一個提出的用于肺結(jié)節(jié)早期檢測的計算機輔助檢測系統(tǒng)使用VGG19架構(gòu)和SVM分類器達到了96.25%的檢測準確率。
https://arxiv.org/pdf/2503.04973
AI的多任務(wù)奇跡:并行思考與行動革新智能體智能
熱門跟貼