打開網(wǎng)易新聞 查看精彩圖片

政策法規(guī)與新聞

權(quán)力游戲:阿布扎比250億美元的美國AI革命賭局

Brainomix的1800萬美元融資如何革新定義中風生存的關(guān)鍵時刻

為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來

谷歌的AI賭局:DOJ的Chrome困境與科技反壟斷的未來

大模型與基礎(chǔ)建設(shè)

在 GPU 競賽中如何低成本擴展 300B MoE 模型

大型語言模型中上下文增強學習的力量:綜合分析

大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入

大型推理模型能否在感知不確定性下進行類比推理?

AI芯片巨頭如何在變幻莫測的基礎(chǔ)上觸摸星空

Gemma 3:谷歌的AI戰(zhàn)略棋局——民主化權(quán)力的同時保持控制

技術(shù)與研發(fā)

利用知識圖譜和大型語言模型進行AI研究創(chuàng)意生成

通用聚變公司維多利亞風格反應(yīng)堆如何可能重寫我們的能源未來

微調(diào)大型語言模型用于報告摘要:監(jiān)督和無監(jiān)督方法

分層思考:HiRAG如何終于教會AI連接知識點

你的數(shù)字分身:第二自我與外包大腦的藝術(shù)

為什么你的提示工程"專業(yè)知識"可能只是一廂情愿的想法

深度學習優(yōu)化技術(shù):全面綜述

AI的多任務(wù)奇跡:并行思考與行動革新智能體智能

數(shù)字大腦內(nèi)部:UMM對AI認知的革命性方法

Sesame開源CSM-1B模型,讓驚人逼真的AI語音技術(shù)走向大眾

應(yīng)用與實踐

Onyx計劃如何以徹底透明的方式顛覆6億美元企業(yè)搜索市場

Browser Use如何借助Manus的病毒式傳播加速AI代理接管

奧林巴斯與Ziosoft的AI合作如何讓手術(shù)室中的隱形變?yōu)榭梢?/p>

谷歌AI醫(yī)生升級:當你的數(shù)字醫(yī)生變得過于聰明

Niantic為何放棄精靈寶可夢GO,轉(zhuǎn)向為AI繪制現(xiàn)實地圖

平凡中的革命:微軟將基礎(chǔ)記事本轉(zhuǎn)變?yōu)锳I強大工具

交叉與創(chuàng)新

NVIDIA與通用汽車的合作如何重塑汽車AI的未來

機器中的繆斯:OpenAI的小說創(chuàng)作AI引發(fā)文學界的靈魂探索Celestial AI 2.5億美元融資,光子計算時代的黎明

毅力追求雄心壯志的理論模型

*如需定位對應(yīng)內(nèi)容,請使用微信的檢索功能

(點擊右上方三點,找到查找頁面內(nèi)容按鈕)

政策法規(guī)與新聞

權(quán)力游戲:阿布扎比250億美元的美國AI革命賭局

在一項大膽的戰(zhàn)略舉動中,阿布扎比的主權(quán)財富基金ADQ與美國的能源資本合伙公司(Energy Capital Partners,簡稱ECP)合作,推出了一項價值250億美元的項目,旨在為美國迅速發(fā)展的數(shù)據(jù)中心行業(yè)提供動力。該50:50的合作伙伴關(guān)系于3月19日宣布,將主要在美國開發(fā)電力發(fā)電和能源基礎(chǔ)設(shè)施,計劃部署資本用于25吉瓦的項目——足以為大約1800萬個美國家庭提供電力。

在這項巨額投資背后,隱藏著一個令人清醒的現(xiàn)實:人工智能的指數(shù)級增長威脅要超越美國過時的電網(wǎng)。雖然硅谷慶祝每一個新的AI突破,但很少有人面對推動這一數(shù)字革命的令人驚訝的電力需求。根據(jù)國際能源署的數(shù)據(jù),數(shù)據(jù)中心的電力消耗在過去十年中已經(jīng)增加了三倍,并可能在2028年之前再次翻倍或增加三倍。更令人擔憂的是,美國能源部預(yù)測,數(shù)據(jù)中心可能會占據(jù)美國總電力的6.7%至12%——這與當前的4.4%相比是一個顯著的增加。

這個挑戰(zhàn)的規(guī)模在審視AI的電力足跡時變得清晰:ChatGPT每次查詢的電力消耗是標準谷歌搜索的十倍。這一電力悖論代表了我們AI未來的隱性成本——一種需要立即并且大量的基礎(chǔ)設(shè)施投資。

對于管理2250億美元資產(chǎn)的ADQ來說,這一合作伙伴關(guān)系代表的遠不止是一個有利可圖的投資機會。正如ADQ的管理總監(jiān)兼集團首席執(zhí)行官穆罕默德·哈桑·阿爾蘇韋迪(Mohamed Hassan Alsuwaidi)所述:“AI的加速和其社會采用為服務(wù)數(shù)據(jù)中心和超大規(guī)模計算的電力和基礎(chǔ)設(shè)施需求提供了有吸引力的機會”。但在字里行間,我們可以看出阿布扎比更大的戰(zhàn)略意圖——在美國的AI生態(tài)系統(tǒng)中確立自己為關(guān)鍵參與者,同時將其經(jīng)濟多元化,擺脫對化石燃料的依賴。

https://www.sharecafe.com.au/2025/03/21/adq-and-energy-capital-partners-launch-us25bn-energy-venture-to-power-us-data-centres/

Brainomix的1800萬美元融資如何革新定義中風生存的關(guān)鍵時刻

在醫(yī)學AI領(lǐng)域發(fā)生了一項重大發(fā)展,來自牛津大學的Brainomix獲得了1400萬英鎊(1800萬美元)的C輪融資,以推進其用于中風和肺纖維化的AI驅(qū)動成像技術(shù)。該融資于2025年3月20日宣布,由現(xiàn)有投資者Parkwalk Advisors和Boehringer Ingelheim Venture Fund(BIVF)共同領(lǐng)投,新投資者Hostplus和LifeSci Capital也參與其中。這一投資使Brainomix的總?cè)谫Y達到4400萬英鎊(5700萬美元),并為該公司在美國市場的激進擴張奠定了基礎(chǔ)。

Brainomix的創(chuàng)新核心是一個看似簡單卻具有深遠影響的概念:在中風護理的“黃金時刻”自動化腦部掃描的解讀。他們的旗艦產(chǎn)品Brainomix 360 Stroke平臺使用AI分析CT腦掃描,提供立即的客觀評估,以幫助臨床醫(yī)生做出更快、更自信的治療決策。英國國家衛(wèi)生服務(wù)(NHS)26家醫(yī)院的現(xiàn)實評估,涉及超過71,000名患者,顯示使用Brainomix技術(shù)的醫(yī)院將機械血栓切除術(shù)率提高了一倍,并且門診到門診的時間比未配備該技術(shù)的醫(yī)院快了65分鐘。這意味著接受機械血栓切除術(shù)(一種從大腦中吸出血栓并顯著減少中風后殘疾的程序)的患者增加了50%。

使Brainomix的技術(shù)真正革命性的不僅僅是其準確性,還有其對醫(yī)療保健的民主化影響。盡管中風治療取得了巨大的進步,但高達80%的合格患者錯過了治療窗口——這并不是因為治療不存在,而是因為許多醫(yī)院缺乏快速解讀復雜腦部成像的專門專業(yè)知識。Brainomix的首席執(zhí)行官兼聯(lián)合創(chuàng)始人、神經(jīng)科學家米哈利斯·帕帕達基斯博士解釋道,該系統(tǒng)旨在打破傳統(tǒng)上限制獲得救命治療的障礙。在牛津大學的預(yù)臨床中風實驗室擔任領(lǐng)導職務(wù)后,帕帕達基斯與教授阿拉斯泰爾·布坎(Alastair Buchan)一起開發(fā)了技術(shù),布坎開發(fā)了全球使用的ASPECTS評分系統(tǒng)用于腦部CT掃描。他們建立的技術(shù)基本上將中風專家放在每個醫(yī)院,無論其位置或資源如何。

https://www.bioworld.com/articles/717993-brainomix-raises-14m-for-ai-powered-imaging-solution-for-stroke-lung-fibrosis?v=preview

為什么OpenAI的6億美元代幣模型揭示了AI的不舒服未來

OpenAI為其開發(fā)者API發(fā)布的o1-pro模型,為人工智能定價設(shè)立了新的天花板。這一增強版推理模型的價格令人驚訝:每百萬輸入代幣150美元,每百萬輸出代幣600美元,不僅使其成為OpenAI最昂貴的產(chǎn)品,也可能是市場上最昂貴的主流AI模型。o1-pro將其計算能力擴展到愿意為OpenAI所描述的“使用更多計算資源來更深入思考”復雜問題的開發(fā)者。

令人驚訝的價格點揭示了關(guān)于高級AI的一個令人不舒服的真相:真正的推理在計算成本方面具有挑戰(zhàn)我們對AI民主化假設(shè)的方式。雖然大多數(shù)AI討論都關(guān)注可及性,但o1-pro的定價結(jié)構(gòu)大膽地斷言,一些計算能力將始終處于奢侈層次。OpenAI在其公告推文中坦率地表示,隨著更多的計算資源,成本也會增加。這一定價策略暴露了所謂“推理代幣”的巨大資源需求——模型在思考問題時采取的內(nèi)部計算步驟,用戶在最終輸出中看不到,但仍然必須為其付費。

200,000個代幣的上下文窗口和100,000個最大輸出容量進一步強調(diào)了o1-pro并非為休閑應(yīng)用而設(shè)計,而是為專門領(lǐng)域設(shè)計的,在這些領(lǐng)域中,精度和可靠性可以證明非凡的成本是合理的。這一發(fā)布代表的不僅僅是一個定價里程碑——它標志著AI的演進進入了不同的專業(yè)化層次。雖然語言模型在模式識別和生成方面表現(xiàn)出色,但像o1-pro這樣的“推理模型”則專門為通過多個步驟進行系統(tǒng)化問題解決而分配計算資源。

OpenAI似乎正在針對擁有深厚資金的研究機構(gòu)、科學組織和專門行業(yè),這些領(lǐng)域的復雜問題解決能力可以證明巨大的投資。視覺能力、函數(shù)調(diào)用、結(jié)構(gòu)化輸出以及與Responses API的集成以創(chuàng)建自主代理的功能確認了這一戰(zhàn)略重點,即專注于高復雜性、高價值應(yīng)用。這使得o1-pro直接與其他專注于推理的模型競爭,包括DeepSeek的R1、Anthropic的Claude Sonnet 3.7和Google的Gemini 2.0,創(chuàng)造了AI市場中的一個獨特的高端層次。

https://www.techrepublic.com/article/news-openai-o1-pro-api-price/

谷歌的AI賭局:DOJ的Chrome困境與科技反壟斷的未來

在谷歌持續(xù)的反壟斷事件中,美國司法部(DOJ)提出了修訂后的計劃,允許谷歌保留其在人工智能(AI)的投資,但仍要求其剝離Chrome瀏覽器。這一舉動反映了DOJ在平衡市場競爭問題與認可AI在技術(shù)進步中的關(guān)鍵作用之間采取的細致入微的方法。

DOJ允許谷歌保留其現(xiàn)有的AI投資,包括在Anthropic公司的巨額股份。然而,谷歌必須在進行未來AI投資前通知反壟斷執(zhí)法機構(gòu),以便對擬議的交易進行審查。與此同時,DOJ繼續(xù)推動谷歌出售其Chrome瀏覽器,理由是Chrome在強化谷歌在搜索引擎市場的主導地位方面發(fā)揮了作用。Chrome的默認設(shè)置將用戶引導至谷歌搜索,從而限制了其他搜索引擎的競爭。

DOJ的行動是在聯(lián)邦法官裁定谷歌非法維持在線搜索和廣告市場壟斷之后。擬議的補救措施旨在恢復競爭并防止反競爭行為。DOJ允許谷歌保留AI投資的決定反映了戰(zhàn)略性的轉(zhuǎn)變,承認限制AI投資在快速發(fā)展的領(lǐng)域中可能產(chǎn)生的意外后果。這種立場與DOJ對Chrome采取的更為激進的態(tài)度形成對比,DOJ認為Chrome是谷歌搜索壟斷的關(guān)鍵組成部分。

https://uk.pcmag.com/ai/157038/doj-lets-google-keep-ai-investments-but-not-chrome

大模型與基礎(chǔ)建設(shè)

在 GPU 競賽中如何低成本擴展 300B MoE 模型

論文《每一次 FLOP 都重要:在非高端 GPU 上擴展 300B 規(guī)模的混合專家(MoE)LLM》由螞蟻集團 AI@Ant Group 的 Ling 團隊撰寫,探討了如何使用成本更低的硬件訓練大規(guī)?;旌蠈<遥∕ixture-of-Experts, MoE)模型,以替代昂貴的 AI 加速器。研究介紹了兩種 MoE LLM:Ling-Lite(總參數(shù)量 16.8B,激活參數(shù)量 2.75B)和 Ling-Plus(總參數(shù)量 290B,激活參數(shù)量 28.8B)。

研究的主要貢獻包括在低性能 GPU 上優(yōu)化模型訓練,提出了一種經(jīng)濟高效的方法,在有限硬件資源上訓練大規(guī)模 MoE LLM,同時實現(xiàn)與業(yè)界領(lǐng)先模型相當?shù)男阅堋O啾仁褂酶叨擞布?,研究方法?jié)省了約 20% 的計算成本。此外,研究還提出了創(chuàng)新的技術(shù)方法,如異構(gòu)訓練基礎(chǔ)設(shè)施、優(yōu)化訓練策略、改進異常處理、提高模型評估效率和增強工具使用能力。研究證明,在相同的計算預(yù)算下,MoE 比密集型模型計算效率高 3 倍。

傳統(tǒng)觀點認為,更貴的 GPU 等于更好的 AI。但 Ling 團隊的研究表明,通過精準的訓練策略優(yōu)化,低成本 GPU 也能實現(xiàn)接近頂級 AI 加速器的性能。他們的關(guān)鍵策略包括異構(gòu)訓練基礎(chǔ)設(shè)施、優(yōu)化訓練策略、健壯的異常處理與數(shù)據(jù)優(yōu)化以及高效硬件利用。通過混合使用不同計算設(shè)備,最大化利用每一塊計算資源的特性,異步訓練技術(shù)讓計算資源利用率提高 66.1%,高效調(diào)試工具降低 90% 內(nèi)存占用,減少訓練中的資源浪費。

https://arxiv.org/pdf/2503.05139

大型語言模型中上下文增強學習的力量:綜合分析

這篇研究論文介紹并形式化了大型語言模型(LLMs)中一個稱為"上下文增強學習"的新概念,研究了在訓練期間在上下文中提供額外有用文本(而不對這些文本計算梯度)如何能夠顯著提高學習效率。該工作將傳統(tǒng)基于梯度的學習與上下文學習能力橋接起來,揭示了關(guān)于我們?nèi)绾斡柧毢屠斫釲LMs的重要理論和實踐意義。

上下文增強學習代表著與標準監(jiān)督微調(diào)方法的不同。在傳統(tǒng)微調(diào)中,模型通過梯度更新直接從輸入-輸出對中學習。研究人員形式化了一種新范式,其中有用的上下文信息(他們稱之為"課程文本")與訓練樣本一起提供,但不對這些額外材料計算自回歸損失。這種方法反映了人類學習模式,我們在解決問題時參考教科書或示范,而不需要明確記憶這些資源。

作者通過開發(fā)一個稱為"多級翻譯"(MLT)的合成任務(wù),創(chuàng)建了一個嚴格的框架來分析這種學習范式。這個任務(wù)涉及通過一系列定義連續(xù)語言對之間映射的短語手冊進行語言間翻譯。復雜度可以通過表示深度(d)和字母表大小(n)的參數(shù)來控制,從而允許系統(tǒng)性的實驗和理論分析。

研究提出了三個基本問題:上下文增強學習是否比標準學習更強大,模型是否需要某些能力才能從這種方法中受益,以及這種技術(shù)是否可以安全地使用特權(quán)信息而不會冒數(shù)據(jù)泄露的風險。通過精心的實驗設(shè)計和理論分析,論文解答了這些問題。

MLT任務(wù)代表了一個類似加密方法的多步推理問題。它涉及通過d個連續(xù)變換翻譯序列,每個變換由一個將一個字母表的2元組映射到另一個字母表的短語手冊定義。每個轉(zhuǎn)換包括一個循環(huán)移位,然后應(yīng)用適當?shù)亩陶Z手冊規(guī)則。這創(chuàng)建了一個雙射映射,其中每個輸出字符依賴于多個輸入字符,使得僅從輸入-輸出對直接學習變得極其具有挑戰(zhàn)性。

這種任務(wù)設(shè)計特別有價值,因為它創(chuàng)建了一個可控環(huán)境,可以精確測量上下文增強學習的益處。復雜度隨深度呈指數(shù)級增長,使研究人員能夠展示學習范式之間在樣本效率上的顯著差異。

作者使用Llama 3.2-3B模型進行了不同任務(wù)參數(shù)的實驗(d=5,n=8或10)。他們的方法包括兩個主要階段:首先,他們通過在具有不同短語手冊的隨機翻譯任務(wù)上進行微調(diào),準備了一個"MLT(d,n)-ICL-capable"模型。這創(chuàng)建了一個能夠理解和應(yīng)用上下文中出現(xiàn)的短語手冊規(guī)則的模型,作為后續(xù)實驗的初始化點。其次,他們實施了具有幾種課程策略的上下文增強學習。

實驗結(jié)果揭示了幾個重要發(fā)現(xiàn),證明了上下文增強學習的力量:最顯著的結(jié)果是樣本效率的顯著提高。通過上下文增強學習訓練的模型(特別是使用退火丟棄策略)與標準監(jiān)督微調(diào)相比,要達到相同的準確度水平,所需的訓練樣本減少了約10倍。隨著任務(wù)復雜度的增加,這種效率差距變得更加明顯。

https://arxiv.org/pdf/2503.01821

大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入

研究論文《超越問答對:評估大型語言模型中的參數(shù)高效微調(diào)用于事實嵌入》對大型語言模型(LLM)通過參數(shù)高效微調(diào)(PEFT)技術(shù)進行適應(yīng)的領(lǐng)域做出了重要貢獻。該研究解決了如何在保持計算效率的同時有效地將特定領(lǐng)域知識嵌入到LLM中的關(guān)鍵問題。作者挑戰(zhàn)了關(guān)于問答(QA)對在微調(diào)過程中普遍有效性的常見假設(shè),并為優(yōu)化領(lǐng)域適應(yīng)策略提供了實證證據(jù)。

參數(shù)高效微調(diào)已成為一種實用方法,用于將預(yù)訓練的LLM適應(yīng)到特定領(lǐng)域或任務(wù),而無需承擔全模型重新訓練的高昂計算成本。像低秩適應(yīng)(LoRA)這樣的PEFT技術(shù)因其效率和通過Azure、Google Cloud、AWS和Lamini等平臺的易用性而在行業(yè)中得到廣泛采用。然而,這些技術(shù)的日益普及導致了一種誤解,即簡單地積累大量QA對就足以進行有效的領(lǐng)域適應(yīng)。

該研究采用多方面的方法來評估PEFT的有效性。研究人員開發(fā)了一個基于BERT的分類器,將QA對分為"事實性"和"概念性"類別。事實性問題需要特定信息檢索,而概念性問題需要更廣泛的理解。這種分類允許創(chuàng)建不同的微調(diào)數(shù)據(jù)集,以測試他們的假設(shè):并非所有QA對對模型性能的貢獻相等。

該研究比較了兩種生成合成訓練數(shù)據(jù)的方法:D-Naive和D-RAG。D-Naive是一種直接方法,LLM直接從文檔中一次性生成QA對;D-RAG則使用D-Naive生成的問題上的檢索增強生成,產(chǎn)生更具上下文豐富的答案。每個數(shù)據(jù)集包含20,000個QA對,其中1,000對保留用于測試目的。

研究人員使用LoRA微調(diào)了Llama-2 7B模型,并進行了精心優(yōu)化的訓練參數(shù)。訓練配置包括每設(shè)備批量大小為8、四個步驟的梯度累積、用于內(nèi)存效率的梯度檢查點、初始學習率為2e-4的五個訓練周期、混合精度(bfloat16)計算、帶有塊級模型更新過濾的AdamW優(yōu)化器以及帶有5%預(yù)熱比率的余弦調(diào)度器。

為了評估性能,該研究使用了三個"監(jiān)督"LLM(GPT-3.5 Turbo、Gemini 1.5 Pro和Prometheus 2 7B)來使用一致的評估標準對模型輸出與真實答案進行評分。這種多評估器方法有助于減輕任何單一評分模型的潛在偏見。

該研究產(chǎn)生了幾個重要發(fā)現(xiàn),挑戰(zhàn)了關(guān)于用于領(lǐng)域適應(yīng)的PEFT的傳統(tǒng)智慧。在所有評估器LLM中,在概念性數(shù)據(jù)集上微調(diào)的模型始終優(yōu)于在事實性數(shù)據(jù)集上訓練的模型。這表明概念理解比單純的事實知識為領(lǐng)域適應(yīng)提供了更強的基礎(chǔ)。與最初的預(yù)期相反,D-Naive數(shù)據(jù)集比更復雜的D-RAG方法產(chǎn)生了更好的性能。研究人員將這一意外結(jié)果歸因于D-RAG管道中的檢索效率低下,向量數(shù)據(jù)庫檢索器經(jīng)常無法識別最合適的文檔。這突顯了RAG系統(tǒng)中檢索質(zhì)量的關(guān)鍵重要性。

https://arxiv.org/pdf/2503.01131

大型推理模型能否在感知不確定性下進行類比推理?

這篇論文呈現(xiàn)了一項開創(chuàng)性的研究,探討了當前最先進的大型推理模型(LRMs)在感知不確定性下進行類比推理的能力。該研究為我們提供了對當前AI推理系統(tǒng)的局限性以及改進的潛在途徑的寶貴見解。

研究人員評估了兩種最先進的LRMs——OpenAI的o3-mini和DeepSeek R1——在基于Raven進步矩陣(RPMs)的非語言類比推理任務(wù)上的表現(xiàn)。RPMs被廣泛用于評估人類流體智力,最近也被用于評估機器的類比推理能力。研究的核心問題是:這些模型在面臨不確定或不完善的感知輸入時,是否能夠保持其推理能力,這更好地反映了現(xiàn)實世界的推理場景。

傳統(tǒng)的AI推理評估假設(shè)輸入是完美的、無噪聲的。這篇論文挑戰(zhàn)了這一假設(shè),通過使用I-RAVEN數(shù)據(jù)集及其更具挑戰(zhàn)性的擴展I-RAVEN-X,引入干擾屬性和平滑輸入屬性的分布,創(chuàng)建了一個更現(xiàn)實的測試環(huán)境,模擬了AI系統(tǒng)在現(xiàn)實世界中如何推理,現(xiàn)實世界中感知永遠不完美。

研究人員基于I-RAVEN數(shù)據(jù)集,擴展了I-RAVEN-X以測試生產(chǎn)力、系統(tǒng)性、對干擾因素的魯棒性和對非退化值分布的魯棒性。他們評估了OpenAI的o3-mini、DeepSeek R1和ARLC(一種神經(jīng)符號概率推理模型)在這些任務(wù)上的表現(xiàn)。

研究人員引入了基于熵的置信度指標,以提高神經(jīng)符號模型在不確定性下推理的性能。該指標根據(jù)每個屬性的置信度熵重新加權(quán)每個屬性對損失和得分的貢獻。

關(guān)鍵發(fā)現(xiàn)和結(jié)果顯示,LRM在干凈數(shù)據(jù)上的性能優(yōu)于傳統(tǒng)的大型語言模型(LLMs),但在不確定性下的性能顯著下降。神經(jīng)符號模型ARLC即使在最具挑戰(zhàn)性的設(shè)置中也保持了較高的準確率,并且提出的基于熵的置信度指標顯著提高了ARLC的魯棒性。

https://arxiv.org/pdf/2503.11207

AI芯片巨頭如何在變幻莫測的基礎(chǔ)上觸摸星空

在NVIDIA的GTC 2025大會上,CEO黃仁勛宣布了下一代GPU架構(gòu)將以發(fā)現(xiàn)暗物質(zhì)的天文學家"Vera Rubin"命名,這不僅象征著公司在AI基礎(chǔ)設(shè)施領(lǐng)域的宏大抱負,也暗示了正在重塑科技格局的無形力量。NVIDIA的公告讀起來像是一本計算力量的科學教科書,公司揭曉了Blackwell Ultra的計劃,這是其當前旗艦AI芯片的增強版,計算能力提升1.5倍,內(nèi)存容量增加1.5倍,帶寬是原始Blackwell的兩倍。預(yù)計今年晚些時候投產(chǎn)的Blackwell Ultra之后,將于2026年下半年推出Vera Rubin,承諾其性能是Blackwell Ultra的3.3倍。路線圖還延伸到2027年底的Rubin Ultra,NVIDIA聲稱其性能將達到Blackwell Ultra的驚人14倍。

這種節(jié)奏——每年發(fā)布一款新旗艦芯片,中間穿插Ultra版本——代表了NVIDIA迄今為止最激進的產(chǎn)品戰(zhàn)略。正如黃仁勛所言:"計算的每一層都被生成式AI的到來所改變"。言外之意很明確:計算需求不僅沒有放緩,而且正以超出先前預(yù)測的速度加速增長。這些公告中最引人注目的特點不僅僅是原始性能數(shù)據(jù),還有NVIDIA正在圍繞它們構(gòu)建的綜合生態(tài)系統(tǒng)。該公司正在構(gòu)建所謂的"AI工廠"——芯片、網(wǎng)絡(luò)和軟件的集成系統(tǒng),旨在實現(xiàn)下一波專注于推理和代理能力的AI應(yīng)用。Blackwell Ultra AI工廠將72個Blackwell Ultra GPU和36個基于Arm Neoverse的NVIDIA Grace CPU組合成機架級系統(tǒng),作為單個龐大的AI處理器工作。

也許最重要的公告不是硬件,而是軟件。NVIDIA推出了"Dynamo",被描述為AI工廠概念的"操作系統(tǒng)"。這款開源推理軟件取代了NVIDIA Triton推理服務(wù)器,旨在根據(jù)生成令牌的成本衡量最大化收益。商業(yè)影響意義深遠。通過優(yōu)化令牌生成經(jīng)濟學,NVIDIA將自己定位為不僅是芯片銷售商,還是最大化AI商業(yè)模式的合作伙伴。Perplexity AI的CTO Denis Yarats也承認了這一點,他指出:"為了每月處理數(shù)億次請求,我們依靠NVIDIA GPU和推理軟件來提供業(yè)務(wù)和用戶所需的性能、可靠性和規(guī)模"。

NVIDIA擴張野心的另一個跡象是公司推出了GROOT N1,這是一個用于機器人領(lǐng)域生成式AI的基礎(chǔ)模型。這一公告特別有趣的地方在于,它從去年的工業(yè)焦點轉(zhuǎn)向了不同形態(tài)的人形機器人。這一舉措表明NVIDIA將機器人技術(shù)視為AI應(yīng)用的下一個前沿——將智能從數(shù)字領(lǐng)域帶入物理世界。黃仁勛的自信在整個活動中表露無遺。"物理AI時代已經(jīng)到來,"他宣稱,將NVIDIA的工作定位為跨行業(yè)的變革力量。然而,在這種自信背后,是對NVIDIA面臨日益激烈的競爭和市場不確定性的認識。

https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/

Gemma 3:谷歌的AI戰(zhàn)略棋局——民主化權(quán)力的同時保持控制

谷歌正式發(fā)布了Gemma 3,這是其最新的開源AI模型系列,旨在在單加速器系統(tǒng)上提供最先進的性能。這一第三代產(chǎn)品代表了可訪問AI技術(shù)的重大進步,谷歌大膽宣稱它是"世界上最好的單加速器模型",在使用單個GPU而非需要多個處理單元或整個集群的情況下,其性能超過了來自Meta、DeepSeek和OpenAI的競爭對手。

Gemma 3推出了四種不同規(guī)模的版本(1B、4B、12B和27B參數(shù)),允許開發(fā)者根據(jù)特定的硬件限制和性能需求選擇適當?shù)呐渲?。最小的模型在低精度設(shè)置下可以使用不到1GB的內(nèi)存運行,而較大的27B變體即使在壓縮的4位精度下仍需要20-30GB的內(nèi)存。與前代產(chǎn)品相比,最顯著的改進包括大幅擴展的上下文窗口——從Gemma 2的8,000個標記躍升至令人印象深刻的128,000個標記——使模型能夠處理和理解整篇學術(shù)論文或書籍等大量信息。此外,Gemma 3引入了Gemma 2所缺乏的多模態(tài)能力,使其不僅能分析文本,還能分析圖像和短視頻。對于全球部署而言,也許最重要的是,Gemma 3開箱即支持超過35種語言,并為總共超過140種語言提供預(yù)訓練能力,大大擴展了其前身僅限英語的局限性。

谷歌發(fā)布Gemma 3代表了在日益競爭激烈的AI領(lǐng)域中的一步精心計算的棋子。通過強調(diào)單加速器性能,谷歌正在瞄準強大但資源密集型模型與更易獲取但功能有限的AI選項之間的關(guān)鍵市場缺口。根據(jù)性能指標,Gemma 3 27B在Chatbot Arena Elo評分評估中僅次于DeepSeek-R1,這種評估衡量的是用戶偏好。這一發(fā)布的時機特別有趣——正值DeepSeek等競爭對手模型和類似技術(shù)展示出對能在更為適中的硬件配置上運行的AI解決方案的市場需求日益增長之際。谷歌似乎正在承認,雖然AI能力的最前沿可能屬于Gemini 2.0等大型模型(具有200萬標記的上下文窗口),但實際應(yīng)用需要的是不需要數(shù)據(jù)中心資源的模型。

https://www.extremetech.com/computing/google-announces-gemma-3-worlds-best-single-accelerator-model

技術(shù)與研發(fā)

利用知識圖譜和大型語言模型進行AI研究創(chuàng)意生成

上海交通大學的研究論文介紹了AI想法圖譜(GoAI),這是一個創(chuàng)新框架,結(jié)合知識圖譜和大型語言模型來生成創(chuàng)新性AI研究想法。該論文解決了AI研究中的一個重大挑戰(zhàn):科學文獻的海量數(shù)量和復雜的引文關(guān)系使研究人員難以快速識別有意義的研究趨勢并產(chǎn)生新穎想法。雖然大型語言模型(LLMs)在自動化想法生成方面顯示出前景,但現(xiàn)有方法存在關(guān)鍵局限性:它們未能充分捕捉論文之間引用關(guān)系中嵌入的語義信息,通常使用簡單的線性結(jié)構(gòu)來表示研究趨勢,并且缺乏評估生成想法的客觀評價機制。

GoAI的核心創(chuàng)新是將研究論文及其關(guān)系表示為結(jié)構(gòu)化知識圖譜,其中實體是單個研究論文,關(guān)系捕捉引用的語義含義及其基于論文中位置的重要性。這種組織反映了研究領(lǐng)域中思想的實際進展,而不僅僅是簡單的連接。該框架為引用關(guān)系定義了五個語義類別:基于和擴展(B&E)、支持和補充(S&S)、對比和替代(C&A)、質(zhì)疑和反駁(Q&A)、簡單提及或不相關(guān)(M/I)。

論文引入了一個基于LLM的代理,與知識圖譜協(xié)作來使用集束搜索動態(tài)探索多個發(fā)展路徑,基于圖遍歷分析研究趨勢,并生成基于探索路徑的新穎研究想法。GoAI-CoT-Reviewer,一個結(jié)構(gòu)化思考評估模型,通過三階段過程(總結(jié)、分析和評分)評估生成想法的新穎性,并在ICLR和NeurIPS等會議的公開評審意見上進行監(jiān)督微調(diào),模仿人類評審過程的清晰推理步驟。

GoAI框架通過四個主要階段運作:文獻搜索和過濾、GoAI圖譜構(gòu)建、通過圖譜探索生成想法、新穎性評估。實驗結(jié)果表明,GoAI在多個維度上優(yōu)于其他自動方法,尤其是在新穎性和重要性方面。結(jié)構(gòu)化思考方法與人類評估的相關(guān)性顯著高于直接生成或多輪對話。案例研究分析顯示,GoAI檢索到與主題更密切相關(guān)的論文,并生成與論文路徑更好對齊的想法。該系統(tǒng)即使使用成本效益高的LLM實現(xiàn)(GLM-4-Flash API)也展示了強健性能。

https://arxiv.org/pdf/2503.08549

通用聚變公司維多利亞風格反應(yīng)堆如何可能重寫我們的能源未來

在一個由激光和超導磁體主導的領(lǐng)域,通用聚變公司(General Fusion)采用了一種令人耳目一新的不同方法來解決人類能源危機。這家加拿大公司于2025年3月11日宣布,已成功在其原型反應(yīng)堆Lawson Machine 26(LM26)內(nèi)創(chuàng)造出等離子體。這一里程碑標志著為期93周的探索開始,旨在證明其獨特的"蒸汽朋克"核聚變能源方法——使用蒸汽驅(qū)動活塞而非尖端激光——仍是清潔、無限能源競賽中的有力競爭者。

通用聚變公司的磁化靶核聚變(MTF)技術(shù)在核聚變領(lǐng)域代表了一種引人入勝的混合體。當競爭對手專注于磁約束(長時間保持等離子體穩(wěn)定)或慣性約束(用激光快速壓縮燃料)時,通用聚變公司以一種讓人聯(lián)想起維多利亞時代工業(yè)機械的方式結(jié)合了兩者的元素。他們的方法在旋轉(zhuǎn)液態(tài)金屬中創(chuàng)建球形腔體,注入氘-氚燃料的等離子體,然后使用機械驅(qū)動的活塞壓縮這種等離子體直到達到核聚變條件。這種方法理論上提供了顯著優(yōu)勢——潛在地消除了對昂貴超導磁體或復雜激光陣列的需求,這些因素使其他核聚變方法成本高昂。

新投入運營的LM26代表了超過20年開發(fā)和4.4億美元資金的頂點。它僅用16個月建成,旨在達到1000萬攝氏度溫度,然后是1億攝氏度,最終在2026年達到科學意義上的能量收支平衡——商業(yè)可行性道路上的關(guān)鍵里程碑。

創(chuàng)始人兼首席科學官Michel Laberge博士流露出特有的熱情:"我們已經(jīng)建造了24個等離子體注入器,創(chuàng)造了超過20萬個等離子體,并從等離子體壓縮中產(chǎn)生了聚變中子。我們準備在LM26中實現(xiàn)一些核聚變!"他的信心源于早期實驗中令人印象深刻的初步結(jié)果,這些實驗實現(xiàn)了每秒超過6億的中子產(chǎn)量。

https://techcrunch.com/2025/03/11/general-fusion-fires-up-its-newest-steampunk-fusion-reactor/

微調(diào)大型語言模型用于報告摘要:監(jiān)督和無監(jiān)督方法

卡內(nèi)基梅隆大學軟件工程研究所的這項研究對自然語言處理領(lǐng)域做出了重要貢獻,研究了微調(diào)大型語言模型(LLMs)用于報告摘要的實用方法,特別是在政府和敏感環(huán)境中的應(yīng)用。該研究探討了在計算資源有限且缺乏標準參考摘要的情況下的挑戰(zhàn),同時提供了關(guān)于評估方法的寶貴見解。

研究人員解決了在現(xiàn)實世界約束條件下使用LLMs總結(jié)政府檔案、新聞和情報報告的挑戰(zhàn)。他們的工作解答了兩個主要研究問題:在計算資源有限的情況下,微調(diào)LLMs以改善摘要是否可行,以及在沒有參考摘要的情況下,哪些指標能有效評估摘要質(zhì)量。這種實用方法區(qū)別于大多數(shù)假設(shè)擁有強大計算能力或參考摘要的現(xiàn)有文獻。

政府文件的摘要是NLP技術(shù)的關(guān)鍵應(yīng)用領(lǐng)域。相關(guān)研究指出,政府采購通知、法律判決和其他官方文件通常冗長、復雜且難以手動處理。這類信息的數(shù)量為政府機構(gòu)和尋求理解官方通信的公民創(chuàng)造了信息處理瓶頸。先前研究已證明LLMs在總結(jié)各類文檔方面的潛力,從醫(yī)療記錄到法律文本。然而,大多數(shù)研究都集中在有參考摘要的領(lǐng)域,或者利用了并非所有組織都能獲得的大規(guī)模計算資源。

研究人員開發(fā)了全面的方法,解決了微調(diào)過程和評估挑戰(zhàn)。研究團隊通過國家檔案館(NARA) API下載基于文本的數(shù)據(jù),對PDF和圖像文檔進行OCR處理,并通過過濾清洗數(shù)據(jù)創(chuàng)建訓練和測試集。此外,他們還使用了兩個帶有參考摘要的新聞數(shù)據(jù)集進行比較分析。

研究人員實施了兩種不同的微調(diào)策略:知識微調(diào)(KFT)和格式微調(diào)(FFT)。KFT在NARA數(shù)據(jù)集上使用因果語言建模微調(diào)Llama 7B模型,以提高對政府文檔上下文、詞匯和語法的理解。FFT使用序列到序列建模在新聞數(shù)據(jù)集上微調(diào)Google T5 Small模型,以參考摘要作為標簽。兩種方法都采用了優(yōu)化技術(shù),使微調(diào)能在有限硬件上進行。

研究人員開發(fā)了全面的評估框架,包括傳統(tǒng)指標、新型指標和人工評估。這種多方面的評估方法是一項重大貢獻,尤其是在沒有參考摘要的情況下,這在許多實際政府應(yīng)用中很常見。

研究得出了幾項關(guān)于微調(diào)LLMs用于摘要的重要發(fā)現(xiàn)。KFT將無效摘要從36%顯著減少到15%,證明了即使在無監(jiān)督方法中,領(lǐng)域適應(yīng)也很有價值。FFT在多個指標上持續(xù)改善摘要質(zhì)量。研究人員發(fā)現(xiàn)兩種微調(diào)方法服務(wù)于不同目的:KFT主要提高了處理嘈雜、經(jīng)OCR處理的政府文檔時的穩(wěn)健性,而FFT持續(xù)提高摘要質(zhì)量,但需要參考摘要。

https://arxiv.org/pdf/2503.10676

分層思考:HiRAG如何終于教會AI連接知識點

本研究論文介紹了HiRAG,一個創(chuàng)新框架,通過融入層次化知識結(jié)構(gòu)增強了檢索增強生成(RAG)系統(tǒng)。該工作解決了現(xiàn)有RAG方法的基本限制,并提出了在各個領(lǐng)域顯著提高性能的新解決方案。

檢索增強生成(RAG)已成為大型語言模型(LLM)的關(guān)鍵增強技術(shù),特別是在特定領(lǐng)域和知識密集型任務(wù)中。雖然現(xiàn)有RAG方法已顯示出前景,但作者確定了兩個限制其有效性的重大挑戰(zhàn)。首先,語義相似實體之間的遠距離結(jié)構(gòu)關(guān)系限制了有效的知識檢索。其次,現(xiàn)有方法難以彌合實體特定細節(jié)(局部知識)和更廣泛的社區(qū)級摘要(全局知識)之間的斷開,導致推理不連貫。這些挑戰(zhàn)源于傳統(tǒng)RAG系統(tǒng)中知識表示和檢索過程的局限性。作者提出HiRAG通過層次化方法處理知識索引和檢索過程,以解決這些問題。

HiRAG框架由兩個協(xié)同工作以增強RAG性能的主要模塊組成:用于層次化知識索引的HiIndex和用于多層次知識檢索的HiRetrieval。HiIndex模塊引入了一種新穎的知識表示方法,通過構(gòu)建具有不同知識粒度層次的層次化知識圖譜。該過程包括基礎(chǔ)知識圖譜構(gòu)建、層次化層構(gòu)建和社區(qū)檢測。層次化結(jié)構(gòu)提供了雙重連接增強:通過低層連接的結(jié)構(gòu)凝聚力和通過高層抽象的語義橋接。這使得語義相似的實體即使在基礎(chǔ)知識圖譜中位置相距較遠也能連接起來。

https://arxiv.org/pdf/2503.10150

你的數(shù)字分身:第二自我與外包大腦的藝術(shù)

本報告對研究論文《AI原生記憶2.0:第二自我》進行了深入分析,該論文介紹了一種使用大型語言模型(LLMs)進行記憶管理的新方法。該論文代表了個性化AI作為人類記憶延伸的重要進步。

"AI原生記憶2.0:第二自我"的基本前提圍繞著通過個人記憶交換重新構(gòu)想人類如何與數(shù)字系統(tǒng)交互。作者識別出當前人機交互中的一個關(guān)鍵低效問題:用戶必須在不同環(huán)境中重復提供相同信息,導致認知疲勞和交互中斷。雖然現(xiàn)有的解決方案如瀏覽器存儲的憑證和自動填充機制提供了一些緩解,但它們僅作為缺乏上下文推理和適應(yīng)性的靜態(tài)存儲庫。第二自我通過作為一個智能的、持久的記憶卸載系統(tǒng),動態(tài)利用用戶特定知識,超越了這些限制。研究者將第二自我設(shè)想為一個上下文提供者,它連接用戶、AI代理和更廣泛的信息世界,促進無縫交互,顯著減少認知負擔和交互摩擦。

第二自我建立在大型個人模型(LPM)1.0的基礎(chǔ)上,該模型確立了AI原生記憶對人工通用智能(AGI)進步的必要性。先前的工作表明,即使是具有超長上下文能力的LLMs,在搜索、組織和推理復雜用戶記憶方面也存在不足。記憶系統(tǒng)架構(gòu)組織為三個不同的層次:原始數(shù)據(jù)層、自然語言記憶層和AI原生記憶層。第二自我引入了一種混合架構(gòu),保留了這三層的同時增加了重要改進,包括內(nèi)循環(huán)整合、重新定義L2角色和外循環(huán)結(jié)構(gòu)。

第二自我的實施涉及幾種復雜的方法,包括自動化訓練管道和思維鏈(COT)策略。自動化訓練管道包括數(shù)據(jù)挖掘、記憶數(shù)據(jù)合成、上下文生成、五級過濾、參數(shù)高效微調(diào)(PEFT)和直接偏好優(yōu)化(DPO)。研究者嘗試了三種COT方法用于訓練數(shù)據(jù)生成:弱COT、多步驟COT和強COT。設(shè)計了三個關(guān)鍵任務(wù)來評估模型的有效性:記憶問答、上下文增強和上下文評論。

評估使用了四種指標:記憶(自我)、記憶(第三方)、上下文增強和上下文評論。關(guān)鍵實驗發(fā)現(xiàn)包括強COT顯著提高了模型性能,DPO帶來了實質(zhì)性改進,人類案例研究表明第二自我的有效性可能超過報告的指標。通過結(jié)合多樣化數(shù)據(jù)源和不經(jīng)過過濾的強COT風格標準化,實現(xiàn)了最佳性能。

第二自我在多個領(lǐng)域提供了重要價值,包括認知管理、網(wǎng)絡(luò)效應(yīng)和知識轉(zhuǎn)化。與相關(guān)研究相比,第二自我代表了幾項創(chuàng)新進步,包括超越靜態(tài)記憶、個性化架構(gòu)、自動化端到端管道、混合記憶管理和開源實現(xiàn)。研究者承認仍然存在幾個挑戰(zhàn),包括單輪訓練限制、模型對齊完善、評估約束、多模態(tài)整合和實時同步。

https://arxiv.org/pdf/2503.08102

為什么你的提示工程"專業(yè)知識"可能只是一廂情愿的想法

本論文對提示工程和大型語言模型基準測試的微妙性質(zhì)提供了關(guān)鍵見解,揭示了兩者比通常假設(shè)的更為復雜和依賴上下文。研究表明,提示方法和評估方法的微小變化可能會顯著影響對大型語言模型性能評估的結(jié)果。

這項研究由賓夕法尼亞大學沃頓商學院和其他機構(gòu)的研究人員撰寫,重點關(guān)注大型語言模型評估的兩個關(guān)鍵領(lǐng)域:基準測試標準和不同提示技術(shù)的有效性。使用GPT-4o和GPT-4o-mini模型,研究人員對GPQA Diamond數(shù)據(jù)集進行了廣泛測試,該數(shù)據(jù)集包含198個涵蓋生物學、物理學和化學的博士級多項選擇題。

與傳統(tǒng)基準測試方法相比,該研究方法論的嚴謹性尤為突出。每個問題在不同提示條件下測試了100次,每個模型每個提示總計19,800次運行。建立了三種不同的"通過"標準:完全準確率(100%正確),高準確率(90%正確)和多數(shù)正確(51%正確)。測試了四種不同的提示條件:基線格式化提示,非格式化提示,禮貌提示和命令式提示。這種方法比典型的依賴單次嘗試或小樣本量的評估代表了顯著的方法論進步,提供了更穩(wěn)健的可靠性測量。

研究人員發(fā)現(xiàn)模型響應(yīng)存在實質(zhì)性的不一致性,即使重復詢問相同問題。在100%正確性閾值下使用格式化提示,GPT-4o和GPT-4o-mini的表現(xiàn)僅比隨機猜測(25%)好約5個百分點,差異在統(tǒng)計上不顯著。在較低閾值(51%正確性)下,兩種模型都明顯優(yōu)于隨機猜測。這種變異性表明大型語言模型可能不可靠且不一致,這是需要高可靠性應(yīng)用程序考慮的關(guān)鍵因素。

評估標準的選擇極大地影響了感知的模型性能。在較高的正確性閾值(100%)下,兩種模型都沒有明顯優(yōu)于隨機猜測。在較低閾值(51%)下,兩種模型都顯示出相對于隨機猜測的統(tǒng)計顯著改進。這一發(fā)現(xiàn)挑戰(zhàn)了許多可能通過使用不太嚴格的標準而大大高估模型可靠性的基準測試努力。

研究揭示了不同提示方法的微妙影響。格式化始終很重要:移除格式化限制顯著降低了兩種模型的性能(p<0.001)。當在所有問題上匯總時,禮貌("請回答以下問題")和命令式("我命令你回答以下問題")提示之間沒有顯著差異。然而,在個別問題層面上,特定問題的禮貌和命令式提示之間觀察到顯著差異,對某些問題的性能影響高達60個百分點。

https://arxiv.org/pdf/2503.04818

深度學習優(yōu)化技術(shù):全面綜述

深度學習已經(jīng)徹底改變了機器學習領(lǐng)域,在各種應(yīng)用中實現(xiàn)了前所未有的性能。這一成功的核心是能夠有效訓練這些復雜模型的優(yōu)化算法。本報告對深度學習中當前的優(yōu)化技術(shù)進行了全面分析,考察了它們的理論基礎(chǔ)、實際應(yīng)用和新興趨勢。

梯度下降構(gòu)成了神經(jīng)網(wǎng)絡(luò)優(yōu)化的基石。這種一階迭代算法通過在當前點的梯度反方向上邁步來最小化可微的多變量函數(shù)?;驹砗苤苯樱喝绻粋€多變量函數(shù)在點a附近可微,則它在負梯度方向上減少最快?;靖乱?guī)則可以表示為:θt+1=θt?η?f(θt),其中θ表示模型參數(shù),η是學習率,?f(θ)是目標函數(shù)的梯度。這個過程會迭代進行,直到收斂到局部最小值。

雖然梯度下降是優(yōu)化策略,但反向傳播是用于高效計算梯度的計算方法。反向傳播以分層方式安排偏導數(shù)的計算,從輸出層開始并向早期層反向工作。這種方法利用微積分中的鏈式法則來計算網(wǎng)絡(luò)中每個參數(shù)的梯度。

梯度下降有多種變體。批量梯度下降在執(zhí)行參數(shù)更新前使用整個訓練數(shù)據(jù)集計算梯度。雖然這通過向量化提供了計算效率,但需要大量內(nèi)存來存儲所有訓練示例,并且對于大型數(shù)據(jù)集可能導致緩慢的收斂。隨機梯度下降(SGD)在處理每個單獨的訓練示例后更新參數(shù)。這種方法需要更少的內(nèi)存并可以提供更頻繁的更新,但與批量方法相比,通常導致更嘈雜的梯度和不太穩(wěn)定的收斂。小批量梯度下降在處理小批量訓練示例后更新參數(shù),平衡了前面兩種方法。這已成為深度學習中的標準方法,因為它結(jié)合了計算效率和比純SGD更穩(wěn)定的收斂性。

基于動量的方法通過納入來自先前更新的信息來解決標準梯度下降的振蕩問題。經(jīng)典動量在目標函數(shù)持續(xù)減少的方向上累積速度向量,幫助抑制振蕩并加速收斂。Nesterov加速梯度(NAG)通過在近似的未來位置而非當前位置評估梯度來改進經(jīng)典動量。這種"前瞻"特性為凸優(yōu)化問題提供了更好的收斂率。

自適應(yīng)學習率方法根據(jù)歷史梯度為每個參數(shù)調(diào)整學習率。Adagrad為頻繁更新的參數(shù)分配較小的學習率,為不常更新的參數(shù)分配較大的學習率。雖然創(chuàng)新,但Adagrad可能隨時間遭受學習率遞減問題,在后期訓練階段實際上停止學習。RMSprop通過使用平方梯度的指數(shù)加權(quán)移動平均而不是累積所有過去的平方梯度來解決Adagrad的學習率遞減問題。這種修改允許算法丟棄來自遙遠過去的歷史,即使在多次更新后仍保持非零學習率。Adadelta通過消除手動設(shè)置學習率的需要進一步擴展了自適應(yīng)學習。它使用先前更新與當前梯度的運行平均值的比率,根據(jù)優(yōu)化過程的最近行為有效地調(diào)整學習率。Adam(自適應(yīng)矩估計)已成為深度學習中最流行的優(yōu)化器之一。它結(jié)合了RMSprop和動量的思想,通過維持過去梯度的衰減平均值和過去平方梯度的衰減平均值,這種雙重自適應(yīng)方法在各種深度學習架構(gòu)中提供了魯棒性。

新型優(yōu)化方法包括PADAM(部分自適應(yīng)矩估計)、dlADMM(深度學習交替方向乘子法)和PIDAO(比例-積分-微分加速優(yōu)化器)。PADAM引入了一種新穎的可調(diào)超參數(shù),稱為"部分自適應(yīng)參數(shù)p",它在[0, 0.5]之間變化。這個參數(shù)彌合了完全自適應(yīng)方法和帶動量的SGD之間的差距,潛在地解決了這些方法之間觀察到的泛化差距。dlADMM框架解決了優(yōu)化中的三個關(guān)鍵挑戰(zhàn):缺乏全局收斂保證、向解決方案緩慢收斂和關(guān)于特征維度的立方時間復雜度。通過以后向然后前向的方式更新參數(shù)并采用迭代二次近似,dlADMM將時間復雜度從立方降低到二次,同時提供全局收斂的理論保證。PIDAO代表一種創(chuàng)新方法,將反饋控制理論應(yīng)用于優(yōu)化。通過在優(yōu)化器中使用PID控制器,PIDAO提供了一種確定性連續(xù)時間優(yōu)化器,對凸和非凸優(yōu)化問題都證明了收斂性。實驗評估證明了PIDAO相比已建立方法加速收斂和提高準確性的能力。

模型效率優(yōu)化技術(shù)包括剪枝、量化和知識蒸餾。剪枝通過移除不太重要的神經(jīng)元減少模型大小,涉及識別、消除和可選的微調(diào)。量化通過對模型權(quán)重使用較低的數(shù)值精度減少內(nèi)存使用和計算時間。知識蒸餾將復雜的"教師"模型的見解轉(zhuǎn)移到更簡單的"學生"模型,以更少的計算需求保持性能。

優(yōu)化技術(shù)在圖像識別任務(wù)中顯示了顯著的結(jié)果。一項使用遷移學習和Adam優(yōu)化的花卉識別研究在測試集上達到了98.99%的準確率,展示了快速收斂和高識別準確率。在醫(yī)學應(yīng)用中,優(yōu)化的深度學習模型取得了顯著成果。一個提出的用于肺結(jié)節(jié)早期檢測的計算機輔助檢測系統(tǒng)使用VGG19架構(gòu)和SVM分類器達到了96.25%的檢測準確率。

https://arxiv.org/pdf/2503.04973

AI的多任務(wù)奇跡:并行思考與行動革新智能體智能

研究人員開發(fā)出了一種AI框架,讓規(guī)劃和行動的同時進行變得輕而易舉。論文《并行規(guī)劃-行動框架:提升大語言模型多智能體系統(tǒng)效率》介紹了一種

現(xiàn)有大語言模型(LLM)基礎(chǔ)多智能體系統(tǒng)的根本問題在于它們頑固地堅持序列化執(zhí)行——這相當于AI拒絕開始烹飪,直到你已經(jīng)寫完整個食譜。這種僵化在條件快速變化的環(huán)境中造成了致命的瓶頸,比如在Minecraft中,世界不會禮貌地暫停等待智能體思考下一步行動。傳統(tǒng)框架迫使智能體進行一種尷尬的舞蹈:思考,然后行動,然后再思考。這就像我們要求一個籃球運動員在決定傳球給哪個隊友時完全靜止不動,只有在做出決定后才能恢復動作。結(jié)果呢?智能體響應(yīng)的是昨天的環(huán)境而不是今天的現(xiàn)實。

當前系統(tǒng)面臨三個關(guān)鍵挑戰(zhàn):行動調(diào)度不靈活(等待LLM才能繼續(xù))、重新規(guī)劃能力有限(無法隨機應(yīng)變)和內(nèi)存共享延遲(使用過時信息操作)。這些限制使AI智能體無法在需要適應(yīng)性的動態(tài)環(huán)境中發(fā)揮其全部潛力。

研究人員的優(yōu)雅解決方案引入了雙線程架構(gòu),從根本上重新構(gòu)想智能體的運作方式。就像人類可以一邊思考晚餐一邊繼續(xù)打字發(fā)郵件一樣,這個框架將規(guī)劃和行動分離為并行過程。規(guī)劃線程,由LLM和集中式記憶系統(tǒng)驅(qū)動,根據(jù)當前觀察和團隊通信不斷生成下一步行動。同時,行動線程根據(jù)優(yōu)先規(guī)則執(zhí)行行動,并在出現(xiàn)更高優(yōu)先級任務(wù)時處理中斷。這種并行化通過行動緩沖區(qū)作為線程間的通信渠道巧妙實現(xiàn)。規(guī)劃線程根據(jù)最新環(huán)境信息將新行動寫入緩沖區(qū),而行動線程則根據(jù)優(yōu)先規(guī)則檢索和執(zhí)行這些行動。如果更高優(yōu)先級的行動出現(xiàn)——比如在Minecraft中躲避意外出現(xiàn)的苦力怕——系統(tǒng)可以立即中斷當前行動。

論文提供的數(shù)學分析量化了效率提升,展示了規(guī)劃和行動階段的重疊如何有效地隱藏規(guī)劃時間,特別是當行動執(zhí)行時間長于規(guī)劃時間時。結(jié)果是一個能以前所未有的敏捷性和效率響應(yīng)動態(tài)環(huán)境的框架。

https://arxiv.org/pdf/2503.03505

數(shù)字大腦內(nèi)部:UMM對AI認知的革命性方法

在聊天機器人變得越來越復雜但仍然令人沮喪地有限的時代,論文"統(tǒng)一心智模型:重新構(gòu)想大型語言模型時代的自主智能體"為人工智能的未來提供了一個令人耳目一新的雄心勃勃的愿景。當大多數(shù)研究人員忙于微調(diào)ChatGPT提示或?qū)PI調(diào)用拼湊在一起以創(chuàng)建美化了的虛擬助手時,作者們反而退后一步,提出了一個基本問題:如果我們從頭開始構(gòu)建更像人類思維的AI系統(tǒng)會怎樣?

統(tǒng)一心智模型(UMM)代表著與當前LLM智能體范式的顯著分離。它不是簡單地將提示與一些記憶機制鏈接在一起,而是建立在全局工作空間理論(GWT)的基礎(chǔ)上,這是神經(jīng)科學中一個公認的認知框架。GWT將意識概念化為一個工作空間,在那里來自專門大腦區(qū)域的信息被整合和廣播。UMM巧妙地調(diào)整了這一理論,創(chuàng)建了一個由四個模塊組成的層次架構(gòu):基礎(chǔ)模型模塊(各種LLMs),專家模塊(特定任務(wù)的自主專家),中央處理模塊("中央大腦"),以及驅(qū)動系統(tǒng)(調(diào)節(jié)焦點并實現(xiàn)自主行為)。

UMM特別創(chuàng)新的地方在于它將LLMs用作世界模型。與依賴手工制作的符號程序的傳統(tǒng)認知架構(gòu)不同,UMM利用語言模型在規(guī)劃、推理和知識表示方面的卓越能力,創(chuàng)建了一個更靈活、更通用的系統(tǒng)。這就好像研究人員看著GPT-4說:"這不僅僅是一個文本預(yù)測器—它本質(zhì)上是數(shù)字思維的原始程序記憶系統(tǒng)。"

在UMM的基礎(chǔ)上,作者們介紹了MindOS,一個智能體構(gòu)建引擎,使用戶能夠在沒有編程知識的情況下快速創(chuàng)建特定領(lǐng)域的自主智能體。把它想象成人工思維的WordPress—拖拽一下,你就突然擁有了一個真正理解貨幣政策而不僅僅是重復信息的金融顧問機器人。中央處理模塊構(gòu)成了MindOS的核心,作為協(xié)調(diào)中心運作,有兩個關(guān)鍵組件:思維流(處理信息以生成決策)和工作記憶(收集與任務(wù)相關(guān)的信息)。一個基本概念是將"思維"表示為結(jié)構(gòu)化提示—基本信息處理單元,整合了指令、上下文、感知、用戶數(shù)據(jù)、智能體信息、相關(guān)記憶等。

MindOS實現(xiàn)了三種不同的信息處理模式:目標導向模式(專注于解決特定任務(wù)),自學模式(實現(xiàn)自主學習),以及反應(yīng)模式(基于觸發(fā)提供即時響應(yīng))。這就像賦予你的數(shù)字助手不僅能夠遵循指令的能力,還能像好奇的孩子一樣學習,像經(jīng)驗豐富的專業(yè)人士一樣反應(yīng)。

https://arxiv.org/pdf/2503.03459

Sesame開源CSM-1B模型,讓驚人逼真的AI語音技術(shù)走向大眾

在人工智能突破幾乎每周都有的時代,Sesame通過開源其病毒式傳播的超逼真語音助手Maya背后的基礎(chǔ)模型,將賭注大幅提高。CSM-1B的發(fā)布標志著語音AI發(fā)展的分水嶺時刻——相當于文本領(lǐng)域ChatGPT的首次發(fā)布——這可能同時引發(fā)語音技術(shù)的新紀元和一系列道德困境。

Sesame的對話語音模型(CSM-1B)是一次技術(shù)融合,解釋了為何Maya及其男性版本Miles在2月份演示視頻病毒式傳播時引發(fā)如此強烈的反應(yīng)。這個10億參數(shù)的模型基于Meta的Llama架構(gòu),配備專門的音頻解碼器組件,采用殘差向量量化(RVQ)技術(shù)——一種將音頻編碼為離散標記的復雜技術(shù),也被用于Google的SoundStream和Meta的Encodec。這種架構(gòu)實現(xiàn)了Sesame稱之為"語音存在感"的特質(zhì)——使AI語音交互感覺真實的神奇品質(zhì)。Maya不僅僅會說話;它會呼吸、猶豫、笑,并且可以在句中被打斷。該公司聲稱其響應(yīng)時間達到行業(yè)領(lǐng)先的116毫秒,顯著超越OpenAI(250毫秒)和ElevenLabs(180毫秒)等競爭對手。

CSM-1B特別重要的是其效率。當其他公司構(gòu)建更大模型時,Sesame專注于優(yōu)化。正如一個YouTube演示所指出的,當被問及其底層技術(shù)時,Maya回應(yīng)道:"我的創(chuàng)造者稱我的技術(shù)基礎(chǔ)內(nèi)部構(gòu)造為Gemma,那不是最大的模型,只有約270億參數(shù),雖然不算小但也別指望我能寫出下一部偉大的美國小說。"

通過以寬松的Apache 2.0許可證發(fā)布CSM-1B,Sesame有效地實現(xiàn)了尖端語音技術(shù)的民主化。該模型從文本和音頻輸入生成"RVQ音頻代碼",使開發(fā)者能夠創(chuàng)建各種聲音,而無需針對特定個體進行微調(diào)。這種方法反映了加速其他AI領(lǐng)域發(fā)展的開源精神。然而,其道德影響深遠。正如TechCrunch展示的,使用該模型進行語音克隆通過Hugging Face的演示不到一分鐘就能完成。在幾乎沒有技術(shù)保障措施的情況下,Sesame主要依靠"榮譽系統(tǒng)",敦促用戶在沒有同意的情況下不要模仿聲音或創(chuàng)建誤導性內(nèi)容。考慮到在選舉年語音深度偽造的潛力,這種方法似乎危險地天真。

https://techcrunch.com/2025/03/13/sesame-the-startup-behind-the-viral-virtual-assistant-maya-releases-its-base-ai-model/

應(yīng)用與實踐

Onyx計劃如何以徹底透明的方式顛覆6億美元企業(yè)搜索市場

在一個企業(yè)軟件巨頭通常像龍守護黃金一樣保護其技術(shù)的世界里,總部位于舊金山的初創(chuàng)公司Onyx正采取一種截然不同的方法。該公司押注開源透明度,而非專有保密性,將幫助其征服日益競爭激烈的企業(yè)搜索市場。據(jù)最新報道,Onyx已獲得1000萬美元種子輪融資,用于擴展其AI驅(qū)動的搜索解決方案,該方案可連接超過40個公司內(nèi)部數(shù)據(jù)源,并且只需30分鐘即可部署。

Onyx所解決的問題對任何在現(xiàn)代組織工作的人來說都痛苦地熟悉:關(guān)鍵信息分散在多個平臺上,使得在需要時幾乎不可能找到所需的內(nèi)容。隨著團隊的擴大,知識變得碎片化,分散在Slack、Confluence、Google Drive、Salesforce、GitHub和數(shù)十個其他工具中。這種數(shù)字蔓延造成了令人沮喪的瓶頸,員工浪費寶貴的時間在各種系統(tǒng)中搜索,卻往往一無所獲。

這種數(shù)字知識危機催生了一個利潤豐厚的市場,像Glean這樣資金充足的競爭者已籌集了令人印象深刻的6億美元來解決這一問題。然而,Onyx認為這些老牌競爭對手有一個根本性的弱點:他們封閉、專有的特性使他們適應(yīng)速度慢、難以定制且實施成本高。

Onyx的故事始于聯(lián)合創(chuàng)始人Chris Weaver和Yuhong Sun的一個簡單認識,他們在工程師角色中親身經(jīng)歷了知識碎片化問題。"我們大致知道東西在哪里,但仍然有點困難,[而且]新人根本找不到任何東西,"Weaver解釋道。"感覺一定有更好的方式來做這件事。"

Onyx的與眾不同之處不僅在于其技術(shù),還在于其分發(fā)模式。通過在2023年將其解決方案作為開源發(fā)布(最初稱為"Danswer"),他們創(chuàng)建了一個社區(qū)驅(qū)動的平臺,迅速獲得了吸引力。這種方法使他們實現(xiàn)了令人印象深刻的采用指標,包括單周高達16萬條消息,并被Netflix、Ramp和泰雷茲集團等大型企業(yè)實施。

https://techcrunch.com/2025/03/12/why-onyx-thinks-its-open-source-solution-will-win-enterprise-search/

Browser Use如何借助Manus的病毒式傳播加速AI代理接管

在人工智能飛速發(fā)展的格局中,有時最具影響力的工具并非那些頭條新聞中的明星。例證就是Browser Use,這款A(yù)I工具正經(jīng)歷爆炸性增長,得益于其為中國初創(chuàng)公司蝴蝶效應(yīng)(Butterfly Effect)的病毒級AI"代理"平臺Manus提供動力。據(jù)最新報道,這個不起眼的技術(shù)在短短一周內(nèi)日下載量激增了五倍,從2025年3月3日的5,000次躍升至3月10日的28,000次。

Browser Use的迅猛崛起源于一個經(jīng)典的互聯(lián)網(wǎng)現(xiàn)象:病毒式傳播。一個展示Manus如何利用Browser Use的單一演示在X平臺上獲得了超過240萬次觀看,將這個此前小眾的開發(fā)者工具推向聚光燈下。這種數(shù)字多米諾效應(yīng)完美詮釋了AI生態(tài)系統(tǒng)的互聯(lián)性,一個平臺的成功可以徹底改變其底層技術(shù)的命運。從本質(zhì)上講,Browser Use使AI模型能夠像人類一樣與網(wǎng)站交互——點擊按鈕、填寫表格、導航菜單,并同時管理多個標簽頁。這種看似簡單的功能代表了AI與互聯(lián)網(wǎng)交互方式的根本性轉(zhuǎn)變,從被動信息消費轉(zhuǎn)向主動數(shù)字參與。

Browser Use的起源故事讀起來就像硅谷童話。聯(lián)合創(chuàng)始人Gregor Zunic和Magnus Müller去年在蘇黎世聯(lián)邦理工學院的學生項目孵化器中開發(fā)了這個工具。"最初只是幾次午餐時的隨意頭腦風暴,后來變成了一個挑戰(zhàn):我們來做些小東西,扔到Hacker News上,看看會發(fā)生什么,"Zunic告訴TechCrunch。"我們在四天內(nèi)組裝了一個最小可行產(chǎn)品,發(fā)布了它,然后轟——一下子排到第一。從那以后,就像坐上了火箭。"這種快速崛起既反映了創(chuàng)始人的技術(shù)才華,也體現(xiàn)了他們完美的市場時機。到2024年12月,Browser Use在WebVoyager基準測試中已取得了令人印象深刻的89.1%成功率,解決了586個復雜的網(wǎng)絡(luò)任務(wù)。但正是與Manus的集成,將他們的技術(shù)成就轉(zhuǎn)變?yōu)椴《臼絺鞑サ霓Z動。

Zunic和Müller以非凡的戰(zhàn)略清晰度定位Browser Use,將其商業(yè)模式描述為向追逐網(wǎng)絡(luò)代理淘金熱的開發(fā)者"銷售鏟子"。這種方法——提供基礎(chǔ)設(shè)施而非終端用戶應(yīng)用——在技術(shù)革命中歷來被證明是有利可圖的,從實際的加州淘金熱到早期互聯(lián)網(wǎng)繁榮時期都是如此。"我們想創(chuàng)建一個基礎(chǔ)層,讓所有人都能在上面構(gòu)建瀏覽器代理,"Zunic解釋道,闡明了一個愿景,即Browser Use成為下一代AI應(yīng)用的基礎(chǔ)設(shè)施。這種定位與當前市場動態(tài)完美契合,開發(fā)者們正在競相構(gòu)建越來越復雜的AI代理,但缺乏網(wǎng)絡(luò)交互的標準化工具。

也許最引人注目的是Zunic的大膽預(yù)測:"在我們看來,到今年年底,網(wǎng)絡(luò)上的代理將多于人類。"這一陳述初聽起來可能像典型的創(chuàng)業(yè)公司夸張言論,但行業(yè)研究為其增添了可信度。Research and Markets預(yù)測AI代理行業(yè)到2029年將達到420億美元,而德勤預(yù)計到2027年,使用AI的公司中將有一半部署AI代理。這一預(yù)測代表了對互聯(lián)網(wǎng)的根本性重新思考——從為人類交互設(shè)計的網(wǎng)絡(luò)轉(zhuǎn)變?yōu)樵絹碓蕉嘤勺灾鰽I實體代表我們執(zhí)行任務(wù)的網(wǎng)絡(luò)。Browser Use位于這一轉(zhuǎn)變的中心,提供AI模型與人類設(shè)計的網(wǎng)絡(luò)之間至關(guān)重要的連接組織。

https://techcrunch.com/2025/03/12/browser-use-one-of-the-tools-powering-manus-is-also-going-viral/

奧林巴斯與Ziosoft的AI合作如何讓手術(shù)室中的隱形變?yōu)榭梢?/strong>

在外科技術(shù)的重大進步中,奧林巴斯公司宣布與軟件專家Ziosoft建立戰(zhàn)略合作伙伴關(guān)系,推出其首款A(yù)I驅(qū)動的臨床決策工具。這一新平臺將傳統(tǒng)的2D成像轉(zhuǎn)變?yōu)閯討B(tài)3D模型,有望徹底改變肝臟、肺部和腎臟手術(shù)的術(shù)前規(guī)劃。這一合作代表了奧林巴斯在其百年醫(yī)療技術(shù)創(chuàng)新使命中的最新一步,現(xiàn)在通過人工智能提高手術(shù)精度和患者預(yù)后。

新宣布的合作關(guān)系引入了Ziosoft Revoras平臺,該平臺利用先進的影像分析和機器學習將標準CT掃描和MRI轉(zhuǎn)換為交互式3D模型。這一技術(shù)飛躍解決了手術(shù)規(guī)劃中的一個基本限制——傳統(tǒng)上,外科醫(yī)生在準備復雜手術(shù)時僅限于解讀平面、靜態(tài)圖像。現(xiàn)在,他們可以操作詳細的三維表示,揭示通常隱藏不見的關(guān)鍵結(jié)構(gòu)。

對于胸外科醫(yī)生,該系統(tǒng)將常規(guī)成像轉(zhuǎn)變?yōu)榫_的3D模型,清晰展示肺癌手術(shù)中涉及的復雜解剖結(jié)構(gòu),可能減少侵入性方法的需要。肝臟外科醫(yī)生獲得了肝血管和腫瘤的增強可視化,允許更精確地規(guī)劃保留組織的技術(shù)。而在泌尿科,該技術(shù)通過提供腎臟異常的詳細評估,協(xié)助微創(chuàng)腎切除術(shù)。

該系統(tǒng)的功能不僅限于手術(shù)室——它還作為外科研究員的教育平臺,并指導經(jīng)驗較少的外科醫(yī)生完成不熟悉的手術(shù)。這代表了奧林巴斯所描述的"看見不可見"計劃的第一步,這是一系列旨在提高手術(shù)安全性和效率的AI驅(qū)動創(chuàng)新。

對于有著可視化技術(shù),特別是內(nèi)窺鏡領(lǐng)域深厚根基的奧林巴斯來說,這一舉措代表了自然演變。奧林巴斯外科解決方案副總裁Darryl Rock將這一合作描述為在公司既有傳統(tǒng)的基礎(chǔ)上,通過擁抱AI來增強臨床決策。潛臺詞很明確:即使是百年歷史的醫(yī)療技術(shù)領(lǐng)導者也必須適應(yīng)AI革命,否則就有落伍的風險。

從Ziosoft的角度來看,其業(yè)務(wù)發(fā)展和營銷副總裁Rajeev Taitriya認為,這一合作利用了他們在醫(yī)學可視化方面二十年的經(jīng)驗。特別值得注意的是Taitriya提到"肺癌篩查的興起"創(chuàng)造了對復雜肺段切除術(shù)的需求——這清楚地表明,更廣泛的醫(yī)療保健趨勢正在推動對更復雜手術(shù)規(guī)劃工具的需求。

https://www.prnewswire.com/news-releases/olympus-announces-launch-of-ai-powered-surgical-planning-tool-through-strategic-partnership-with-ziosoft-302400208.html

谷歌AI醫(yī)生升級:當你的數(shù)字醫(yī)生變得過于聰明

在技術(shù)與醫(yī)療保健不斷演變的舞蹈中,谷歌剛剛完成了一次重大飛躍——或者取決于你問誰,可能是橫向發(fā)展。這家科技巨頭最近在其以健康為重點的活動"體檢"(The Check Up)上宣布,將其AI概覽功能大幅擴展至"數(shù)千個更多健康主題"。這一發(fā)展標志著谷歌最新嘗試將自己定位為世界事實上的數(shù)字醫(yī)生,這既帶來了令人興奮的可能性,也引發(fā)了關(guān)于在線健康信息未來的令人不安的問題。

谷歌公告的核心內(nèi)容圍繞著使用人工智能提供更全面、更易獲取的健康信息。AI概覽功能此前范圍有限,現(xiàn)在將覆蓋數(shù)千個更多與健康相關(guān)的查詢,并擴展到包括西班牙語、葡萄牙語和日語在內(nèi)的其他語言。谷歌聲稱,這些擴展利用了"Gemini模型最近在健康領(lǐng)域的進步",以確保信息達到"臨床事實準確性的高標準"?;蛟S更有趣的是引入了一項名為"人們建議"(What People Suggest)的新功能,該功能使用AI組織和總結(jié)在線討論中關(guān)于健康狀況的觀點。例如,關(guān)節(jié)炎患者尋找運動建議時,可以快速獲取其他管理相同疾病的人的見解。這一功能有效地承認,雖然用戶重視醫(yī)學專業(yè)知識,但他們也渴望獲得同病患者的親身經(jīng)歷——這是傳統(tǒng)醫(yī)療資源往往缺乏的健康信息的細微方法。

谷歌的"人們建議"功能代表了我們?nèi)绾胃拍罨】敌畔⒌囊粋€引人入勝的轉(zhuǎn)變。通過算法策劃群眾智慧,谷歌承認單純醫(yī)學文獻的無菌殿堂無法滿足在線尋求健康信息的用戶。人們既想要臨床專業(yè)知識,也需要那些經(jīng)歷過類似健康旅程的人的混亂、矛盾但往往實用的經(jīng)驗。正如谷歌首席健康官Karen DeSalvo解釋的那樣:"雖然用戶轉(zhuǎn)向搜索以獲取來自專業(yè)人士的可信醫(yī)療信息,但他們也欣賞聽取有類似經(jīng)歷的其他人的意見"。這種雙重方法代表了一種比我們以前從主要科技平臺看到的更全面的健康信息消費觀。該功能從Twitter(現(xiàn)為X)、Reddit和Quora等來源提取信息,創(chuàng)建一種按需生成的數(shù)字支持群體。目前僅在美國的移動設(shè)備上可用,這表明谷歌對推出采取謹慎態(tài)度。

https://www.searchenginejournal.com/google-expands-ai-overviews-more-health-queries/542415/

Niantic為何放棄精靈寶可夢GO,轉(zhuǎn)向為AI繪制現(xiàn)實地圖

在一次揭示科技未來走向的戰(zhàn)略轉(zhuǎn)型中,Niantic Labs宣布將其游戲部門——包括極為成功的《精靈寶可夢GO》——以35億美元的價格出售給沙特擁有的Scopely公司。但這不僅僅是一項企業(yè)交易;它宣告了增強現(xiàn)實技術(shù)真正價值所在。隨著Niantic轉(zhuǎn)型為"Niantic Spatial",公司正在押注一個精心計算的賭注:為機器繪制物理世界的地圖最終將比用數(shù)字生物娛樂人類更有價值。

這個故事的核心不在于精靈寶可夢離開Niantic的巢穴,而是Niantic接下來計劃做什么。該公司正在加倍努力創(chuàng)建首席執(zhí)行官John Hanke所描述的"一種新型地圖,使世界對機器變得可理解,從智能眼鏡到人形機器人的一切都能理解"。這一愿景代表了一個根本性轉(zhuǎn)變:從使用位置數(shù)據(jù)進行娛樂,到構(gòu)建全面的空間模型,為下一代AI系統(tǒng)奠定基礎(chǔ)。

Niantic的新焦點并非完全出人意料。自2021年收購3D掃描應(yīng)用Scaniverse以來,該公司一直在開發(fā)技術(shù)以捕捉有關(guān)物理世界的詳細空間信息。Niantic方法的獨特之處在于,他們已經(jīng)通過游戲收集了大量數(shù)據(jù)——《精靈寶可夢GO》的玩家實際上一直在眾包全球有趣地點的圖像庫,而他們自己卻認為只是在收集數(shù)字怪物。

盡管《精靈寶可夢GO》擁有文化現(xiàn)象的地位,但Niantic一直難以復制其成功。該公司在2022年和2023年面臨裁員,甚至停止了一些游戲如《哈利波特:巫師聯(lián)盟》。這一背景有助于解釋出售的時機——Niantic正在將其最有價值的游戲資產(chǎn)變現(xiàn),同時轉(zhuǎn)向它認為更有前途的前沿領(lǐng)域。

https://www.cnet.com/tech/computing/pokemon-go-has-a-new-owner-but-niantics-evolving-its-maps-into-a-way-to-fold-in-ai-and-ar/

微軟將基礎(chǔ)記事本轉(zhuǎn)變?yōu)锳I強大工具

微軟正悄然革新Windows 11中最平凡的角落,將基礎(chǔ)工具轉(zhuǎn)變?yōu)閺碗s的AI助手。據(jù)最近報道,該公司正在測試記事本中的AI文本摘要功能,并為截圖工具增加形狀完善功能。這些更新正向金絲雀頻道和開發(fā)頻道的Windows預(yù)覽體驗成員推出,代表了微軟將人工智能全面融入其生態(tài)系統(tǒng)戰(zhàn)略的最新一步。

長期以來以簡潔著稱的記事本應(yīng)用,現(xiàn)在提供了"摘要"功能,用戶可以通過右鍵點擊或使用Ctrl+M快捷鍵來壓縮選定文本。用戶可以嘗試不同的摘要長度來優(yōu)化AI生成的輸出,本質(zhì)上將這個基礎(chǔ)文本編輯器轉(zhuǎn)變?yōu)閮?nèi)容分析工具。此功能要求用戶使用微軟個人賬戶登錄,并使用與Microsoft 365個人版、家庭版或Copilot Pro訂閱相關(guān)聯(lián)的AI積分。

同時,截圖工具正在獲得"繪制并保持"功能,可將不精確的注釋轉(zhuǎn)化為整潔、專業(yè)的形狀。用戶可以繪制粗略的線條、箭頭、矩形或橢圓,然后短暫保持光標靜止,將搖晃的筆觸轉(zhuǎn)換為規(guī)整的形狀。這一微妙的增強解決了數(shù)字注釋的常見問題 - 使用觸控板或鼠標移動創(chuàng)建精確標記的困難。

其他實用改進包括記事本的新"最近文件"選項,可通過編輯菜單訪問,允許用戶直接在應(yīng)用程序內(nèi)重新打開最近關(guān)閉的文檔。這個看似簡單的功能對經(jīng)常處理多個文本文件的用戶來說是生活質(zhì)量的顯著提升。

這些更新遠非孤立的發(fā)展。它們代表了微軟在Windows 11全面AI集成戰(zhàn)略中的重要步驟。該公司已經(jīng)為截圖工具添加了OCR功能,允許從圖像中提取文本,并為記事本引入了AI驅(qū)動的"重寫"功能,可以調(diào)整文本的語氣、長度和措辭。

這些漸進式變化與微軟更廣泛的推動相一致,旨在使AI功能在整個操作系統(tǒng)中無處不在。從集成到任務(wù)欄的Copilot助手,到Clipchamp中的AI增強視頻編輯和Photos中的背景模糊,Windows 11正變得越來越智能。

https://www.theverge.com/news/629412/windows-11-notepad-ai-summaries-snipping-tool

交叉與創(chuàng)新

NVIDIA與通用汽車的合作如何重塑汽車AI的未來

在一項標志著汽車制造與創(chuàng)新新時代曙光的戰(zhàn)略舉措中,NVIDIA與通用汽車宣布了一項突破性的合作伙伴關(guān)系,這種合作遠超常規(guī)的技術(shù)協(xié)作范疇。這一聯(lián)盟承諾通過人工智能的力量徹底革新從工廠運營到下一代汽車的一切,標志著汽車行業(yè)技術(shù)演變的關(guān)鍵時刻。

從本質(zhì)上講,這項新宣布的合作關(guān)系代表著通用汽車將向NVIDIA支付一筆未公開的金額,以獲取其AI驅(qū)動的GPU和專業(yè)平臺的使用權(quán)。這不僅僅是在汽車中安裝更好的計算機——而是關(guān)于從根本上改變汽車的構(gòu)思、設(shè)計、制造和運行方式。通用汽車將利用NVIDIA的Omniverse平臺創(chuàng)建裝配線的數(shù)字孿生,實現(xiàn)虛擬測試和生產(chǎn)模擬,可大幅減少停機時間并優(yōu)化運營。

這種合作關(guān)系的特別之處在于其全面的范圍。除了工廠優(yōu)化外,通用汽車還將集成NVIDIA DRIVE AGX作為車載硬件,為未來的高級駕駛輔助系統(tǒng)和增強的安全功能提供動力。這標志著通用汽車在自主技術(shù)方面的重大轉(zhuǎn)變,此前該公司曾在去年撤回了對其陷入困境的Cruise機器人出租車部門的財政支持。

NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“物理AI時代已經(jīng)到來,與通用汽車一起,我們正在改變交通運輸,從車輛到制造它們的工廠?!彼呐d奮反映了科技行業(yè)日益認識到AI的下一個前沿不在數(shù)字空間,而在于重塑物理環(huán)境和流程。

對通用汽車而言,這次合作代表了其在自動駕駛汽車雄心受挫后的關(guān)鍵轉(zhuǎn)折點。雖然該公司的Super Cruise駕駛輔助系統(tǒng)被廣泛認為是業(yè)內(nèi)最佳之一,但其更廣泛的自動駕駛計劃面臨著重大挑戰(zhàn)。通過與NVIDIA合作,通用汽車獲得了尖端AI能力的使用權(quán),這可能有助于重振其自動駕駛技術(shù),同時改變其制造運營。

對NVIDIA而言,汽車行業(yè)代表著一個巨大的增長機會。盡管該公司的收入飆升——2024年在所有部門的總收入超過1300億美元——但其汽車業(yè)務(wù)仍處于“起步階段”,每年僅產(chǎn)生約50億美元的收入。與美國最大汽車制造商的這一合作為NVIDIA提供了其技術(shù)的展示平臺,同時擴大了其在一個價值數(shù)萬億美元行業(yè)中的足跡。

https://www.shacknews.com/article/143522/nvidia-nvda-gm-ai-factory-vehicle-deal

OpenAI的小說創(chuàng)作AI引發(fā)文學界的靈魂探索

在一項同時代表技術(shù)里程碑和對創(chuàng)意專業(yè)人士構(gòu)成存在性問題的發(fā)展中,OpenAI首席執(zhí)行官Sam Altman于2025年3月11日宣布,他的公司已成功訓練了一個專門用于創(chuàng)意寫作的AI模型。據(jù)Altman稱,這個模型——它與OpenAI通常專注于編碼和數(shù)學等結(jié)構(gòu)化應(yīng)用的方向不同——產(chǎn)生了足夠高質(zhì)量的小說,"確實打動"了他,尤其是在捕捉"元小說氛圍"的能力方面。為了展示其能力,Altman分享了一個由AI撰寫的短篇小說,這是對"一個關(guān)于AI和悲傷的元小說文學短篇故事"的提示的回應(yīng)。

此次公告與以往AI寫作能力的區(qū)別在于模型的專門訓練以及Altman異常熱情的評價。雖然以前的AI模型可以生成敘事文本,但它們通常產(chǎn)生明顯人工的作品,缺乏人類寫作的細微差別和情感共鳴。然而,Altman分享的例子展示了該模型進行自我參照敘事的能力,承認其人工本質(zhì),同時諷刺地哀嘆自己無法真正體驗悲傷。

這一發(fā)展的時機在全球小說市場背景下尤為重要,該市場從2024年的111.6億美元增長到2025年的113.8億美元。這一增長部分由短篇小說和互動體驗等新形式推動——正是AI生成最容易融入的領(lǐng)域。如果AI生成的小說在商業(yè)上變得可行,它可能會從根本上改變出版經(jīng)濟學,可能以最低邊際成本用算法生產(chǎn)的內(nèi)容充斥市場。

OpenAI涉足創(chuàng)意寫作正值公司的關(guān)鍵時刻。在ChatGPT的流星崛起后,曾經(jīng)是面向消費者的AI無可爭議的領(lǐng)導者,OpenAI已經(jīng)看到其技術(shù)優(yōu)勢隨著Anthropic的Claude、DeepSeek和埃隆·馬斯克的Grok3等競爭對手匹配或超過其基準性能而減弱。據(jù)報道,隨著微軟重新考慮其對公司的130億美元投資,OpenAI面臨著巨大壓力,需要開發(fā)獨特的能力,重新確立其技術(shù)領(lǐng)導地位。

創(chuàng)意寫作代表著OpenAI以前未優(yōu)先考慮的前沿領(lǐng)域,此前它專注于數(shù)學推理、編程和其他結(jié)構(gòu)化任務(wù)。通過在一個典型的人類領(lǐng)域展示實力,OpenAI可能試圖在其技術(shù)優(yōu)勢越來越受到質(zhì)疑的時刻,同時獲取市場關(guān)注和文化意義。據(jù)報道,該模型還代表著潛在的新收入來源,因為OpenAI據(jù)說每年消耗約50億美元。

對Altman公告的反應(yīng)揭示了不同利益相關(guān)者如何看待AI侵入創(chuàng)意領(lǐng)域的深刻分歧。Altman本人將這一發(fā)展描述為突破性時刻,對輸出質(zhì)量表達了真誠的驚訝——"這是我第一次真正被AI寫的東西打動"。一些觀察者,尤其是科技界的人士,分享了這種熱情,一位Reddit用戶指出,這種寫作"比我之前從大型語言模型中看到的任何內(nèi)容都更有創(chuàng)意"。

然而,文學專業(yè)人士和創(chuàng)意作家表達了重大懷疑。批評者指出,當讀者知道文本是由AI生成時,他們在情感上就會脫離,無法與不是源于人類經(jīng)驗的文字建立聯(lián)系。正如Altman帖子下的一位評論者所說,"我讀了前幾段...我就是不關(guān)心寫的任何東西。表達的文字沒有分量"。這個觀點表明,AI寫作的失敗不是在技術(shù)層面,而是在其傳達真實人類經(jīng)驗的根本能力上。

https://siliconangle.com/2025/03/11/sam-altman-says-openai-trained-fiction-writing-ai-model-thats-actually-decent/

Celestial AI 2.5億美元融資,光子計算時代的黎明

在不斷加速發(fā)展的人工智能基礎(chǔ)設(shè)施世界中,一家相對不為人知的初創(chuàng)公司剛剛獲得了一輪引人注目的融資。光學互連技術(shù)開發(fā)商Celestial AI完成了2.5億美元的C1輪融資,使其融資總額躍升至5.15億美元,估值據(jù)報道達到25億美元。這筆由富達管理研究公司領(lǐng)投,包括貝萊德等新投資者和AMD Ventures等現(xiàn)有支持者參與的重大資金注入,預(yù)示著我們應(yīng)對AI計算物理限制方式的潛在范式轉(zhuǎn)變。

Celestial AI吸引力的核心在于其"光子織物"技術(shù)平臺,該平臺用光學解決方案取代傳統(tǒng)銅基互連,用于AI處理器之間的數(shù)據(jù)傳輸。公司由行業(yè)資深人士David Lazovsky和Preet Virk于2020年創(chuàng)立,將自身定位于兩個關(guān)鍵技術(shù)領(lǐng)域的交叉點:先進的AI系統(tǒng)和硅光子學。這一時機再戰(zhàn)略性不過了。隨著AI模型在規(guī)模和復雜性方面呈指數(shù)級增長,銅基互連的物理限制已成為系統(tǒng)性能的關(guān)鍵瓶頸。當前的AI基礎(chǔ)設(shè)施難以應(yīng)對分布在多個服務(wù)器和機架上的處理器之間的大規(guī)模數(shù)據(jù)傳輸需求。那些服務(wù)計算領(lǐng)域數(shù)十年的銅質(zhì)連接器,簡單地無法跟上下一代AI工作負載對帶寬、延遲和能源效率的需求。

Celestial AI戰(zhàn)略的關(guān)鍵一步在2024年10月浮出水面,當時公司以2000萬美元從Rockley Photonics收購了硅光子學知識產(chǎn)權(quán)組合。這次收購并非僅僅是增量式的——而是具有變革性的,使公司的全球知識產(chǎn)權(quán)持有量超過200項專利,并在三個關(guān)鍵領(lǐng)域顯著加強了其技術(shù)護城河:光電系統(tǒng)封裝、電吸收調(diào)制器和光學開關(guān)技術(shù)。這就是當今AI基礎(chǔ)設(shè)施格局中的核心張力:雖然AI算法創(chuàng)新以驚人的速度進行,但支持這些進步的物理基礎(chǔ)設(shè)施正在撞擊基本物理限制。先進AI模型對計算資源的非凡需求正在與傳統(tǒng)互連技術(shù)無法擴展以滿足這些需求的現(xiàn)實相碰撞。這種矛盾既創(chuàng)造了緊迫性,也創(chuàng)造了機遇。緊迫性來自于對AI計算資源不斷增長的胃口;機遇則出現(xiàn)在那些能夠成功超越當前物理限制的公司身上。Celestial AI的賭注是,光子學——生成、控制和探測光的科學——提供了前進的道路。

在獲得這筆可觀資金后,Celestial AI現(xiàn)在面臨著從有前景的技術(shù)轉(zhuǎn)向規(guī)模化生產(chǎn)的關(guān)鍵挑戰(zhàn)。公司表示,新資金將用于擴展和認證其批量制造供應(yīng)鏈,以滿足不斷增長的客戶需求。據(jù)報道,該公司已經(jīng)與"多家超大規(guī)模云服務(wù)提供商、AI處理器、定制硅和封裝合作伙伴建立了深度合作",這表明主要云服務(wù)提供商和硬件制造商已經(jīng)在探索將Celestial的技術(shù)整合到其基礎(chǔ)設(shè)施堆棧中。這種行業(yè)認可顯著提高了商業(yè)成功的可能性。如果Celestial AI能夠?qū)崿F(xiàn)其愿景,其影響可能遠遠超出數(shù)據(jù)中心性能的漸進式改進。通過從根本上重新思考數(shù)據(jù)在計算和內(nèi)存資源之間的移動方式,該公司的技術(shù)可能為AI系統(tǒng)啟用全新的架構(gòu),潛在地解鎖在當前約束下仍然不可能實現(xiàn)的能力。

https://www.datacenterdynamics.com/en/news/optical-interconnect-startup-celestial-ai-raises-250m/

毅力追求雄心壯志的理論模型

本研究論文由Avrim Blum、Emily Diana、Kavya Ravichandran和Alexander Tolbert共同撰寫,提供了一個量化框架,通過決策理論和計算機科學的視角來理解毅力——對長期目標的堅持和熱情。這項工作代表了一種新穎的跨學科方法,將毅力的哲學概念與數(shù)學建模技術(shù)相結(jié)合。

作者使用改進型多臂賭博機(improving multi-armed bandits, MAB)框架建立了研究毅力的正式模型,這成為他們分析的基礎(chǔ)結(jié)構(gòu)。該框架允許在選擇具有不確定收益的穩(wěn)定和風險選項時進行決策的量化建模。論文的核心是一個非常優(yōu)雅而強大的雙臂賭博機模型,它捕捉了雄心壯志追求的本質(zhì):穩(wěn)定臂始終提供恒定的1單位回報,代表低風險、即時回報但增長潛力有限的選項;奮斗臂最初在未知時間θ內(nèi)不提供回報,之后開始以斜率α線性增長,代表高風險、高潛力的選項。這個模型創(chuàng)造了反映現(xiàn)實生活決策的基本張力:是堅持潛在高回報但當前無回報的路徑,還是轉(zhuǎn)向可靠但潛力有限的替代方案。

論文采用兩種不同的理性模型來分析決策:競爭比率(回顧性)和貝葉斯不確定性量化(前瞻性)。這兩種觀點提供了對不確定條件下理性決策的互補見解,捕捉了結(jié)果導向和信念導向的理性維度。該論文的創(chuàng)新之處在于以兩種不同方式正式概念化毅力:毅力作為樂觀和毅力作為不適耐受性。兩種概念化都產(chǎn)生了相似的行為結(jié)果——更有毅力的代理人會探索奮斗臂更長時間——但通過不同的心理機制。

作者通過數(shù)學分析得出了幾個深刻的見解。對于具有回報斜率猜測α?的代理人,最優(yōu)策略是在奮斗臂上堅持T-√(2T/α?)步驟,然后永久切換到穩(wěn)定臂。這提供了毅力與探索持續(xù)時間之間明確的量化關(guān)系。通過仔細的案例分析,論文證明毅力有幫助的情況和毅力有害的情況。這種細致的理解解決了社會學文獻中毅力有時有益有時有害的明顯矛盾。

https://arxiv.org/pdf/2503.02952

打開網(wǎng)易新聞 查看精彩圖片

關(guān)于追問nextquestion

天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。如果您有進一步想要討論的內(nèi)容,歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。

關(guān)于天橋腦科學研究院

天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學研究機構(gòu)之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。

Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天...