打開網(wǎng)易新聞 查看精彩圖片

近日,中國工程院院士 / 清華大學(xué)教授 / 博士生導(dǎo)師鄭緯民確認(rèn)出席 QCon 北京大會(huì)發(fā)表題為《關(guān)于人工智能大模型的幾點(diǎn)思考》的主題演講,并將分享 Kimi 幕后的大模型推理架構(gòu) Mooncake。

2025 年,人工智能加速從單模態(tài)向多模態(tài)發(fā)展,大模型在各行業(yè)廣泛落地。在此進(jìn)程中,人工智能大模型生命周期的各個(gè)環(huán)節(jié)對(duì)算力和存儲(chǔ)產(chǎn)生了爆發(fā)式需求。數(shù)據(jù)獲取時(shí),海量小文件存儲(chǔ)面臨挑戰(zhàn);數(shù)據(jù)預(yù)處理開銷成為大模型訓(xùn)練瓶頸;模型訓(xùn)練任務(wù)負(fù)載重、硬件出錯(cuò)概率高;模型微調(diào)需平衡數(shù)據(jù)規(guī)模與質(zhì)量;模型推理存在算力困境。

這些問題該如何解決?在當(dāng)前大模型產(chǎn)品中又如何落地相應(yīng)解決方案?鄭緯民將在本次演講中結(jié)合 Kimi 幕后的大模型推理架構(gòu) Mooncake 對(duì)以上問題進(jìn)行深入剖析。Kimi 從初期頻繁算力擴(kuò)容仍宕機(jī),到如今能平穩(wěn)承載高速增長的流量,Mooncake 發(fā)揮了關(guān)鍵作用,且該成果已于近期榮獲第 23 屆 USENIX 文件與存儲(chǔ)技術(shù)會(huì)議(FAST25)最佳論文獎(jiǎng)(https://www.cs.tsinghua.edu.cn/info/1034/6611.htm)。

Mooncake 采用一種以鍵值緩存(KVCache)為中心的分離架構(gòu),不僅將預(yù)填充和解碼集群分開,還高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 資源,建立了一個(gè)分離的 KVCache 緩存池。其核心創(chuàng)新在于以 KVCache 為中心的全局緩存和調(diào)度器,旨在嚴(yán)格的延遲相關(guān)服務(wù)級(jí)別目標(biāo)(SLOs)下最大化吞吐量。

實(shí)驗(yàn)表明,Mooncake 在處理長上下文輸入的場景中表現(xiàn)出色。在使用真實(shí)數(shù)據(jù)進(jìn)行的測試中,與基線方法相比,Mooncake 在符合 SLOs 的情況下,將有效請(qǐng)求處理能力提高了 59%~498%。目前,Mooncake 已在數(shù)千個(gè)節(jié)點(diǎn)上運(yùn)行,每天處理超過 1000 億個(gè) token。在實(shí)際部署中,Mooncake 的創(chuàng)新架構(gòu)使 Kimi 在 NVIDIA A800 和 H800 集群上分別比以前的系統(tǒng)多處理 115% 和 107% 的請(qǐng)求。

鄭緯民院士在本次會(huì)議的詳細(xì)演講內(nèi)容如下:

演講提綱

  1. 2025 年 AI 大模型的兩個(gè)特點(diǎn):闡述 AI 大模型從單模態(tài)邁向多模態(tài)的發(fā)展趨勢,以及在各行業(yè)落地帶來的變革。

  2. 人工智能大模型生命周期的五個(gè)環(huán)節(jié)

  • 數(shù)據(jù)獲取:收集不同模態(tài)海量文件時(shí),面臨海量小文件存儲(chǔ)難題,如元數(shù)據(jù)管理困難、現(xiàn)有文件系統(tǒng)難以滿足需求等。

  • 數(shù)據(jù)預(yù)處理:對(duì)分布式技術(shù)提出挑戰(zhàn),其開銷逐漸制約大模型訓(xùn)練,需創(chuàng)新數(shù)據(jù)處理方式。

  • 模型訓(xùn)練:檢查點(diǎn)文件讀寫對(duì)存儲(chǔ)系統(tǒng)要求高,現(xiàn)有策略性能不佳,需優(yōu)化存儲(chǔ)策略以應(yīng)對(duì)硬件錯(cuò)誤和大規(guī)模數(shù)據(jù)存儲(chǔ)需求。

  • 模型微調(diào):精調(diào)垂域模型需要可控算力,同時(shí)要平衡數(shù)據(jù)規(guī)模與質(zhì)量,以提升模型在特定領(lǐng)域的性能。

  • 模型推理:實(shí)時(shí)處理用戶請(qǐng)求,需要穩(wěn)定可靠算力,當(dāng)前面臨算力困境,需探索新的推理架構(gòu)和優(yōu)化方法。

構(gòu)建國產(chǎn)智算系統(tǒng)的核心基礎(chǔ)軟件

  • 清華大學(xué) “八卦爐” 智算系統(tǒng)解析:介紹 “八卦爐” 在國產(chǎn)超算上的應(yīng)用,以及對(duì)多種國產(chǎn)芯片的支持和性能優(yōu)化成果。

  • Mooncake——Kimi 幕后的大模型推理架構(gòu):剖析 Mooncake 以 KVCache 為中心的架構(gòu)設(shè)計(jì)、工作原理和優(yōu)勢,以及其在提升 Kimi 性能方面的關(guān)鍵作用。

三步讓企業(yè)明確如何利用 AI 大模型:指導(dǎo)企業(yè)通過明確關(guān)鍵問題、評(píng)估數(shù)據(jù)質(zhì)量、判斷人力與 AI 的適用性,以及選擇和微調(diào)模型等步驟,有效利用 AI 大模型實(shí)現(xiàn)轉(zhuǎn)型發(fā)展。

聽眾受益

  1. 清晰把握大模型的技術(shù)發(fā)展趨勢

  2. 全面熟知人工智能大模型開發(fā)生命周期各環(huán)節(jié)的問題與解決方案

  3. 深入了解 Kimi 背后的大模型推理架構(gòu)

  4. 掌握判斷企業(yè)是否適合利用 AI 大模型轉(zhuǎn)型的方法

除了鄭緯民院士的權(quán)威解讀之外,月之暗面系統(tǒng)工程師黃維嘯也將在「面向 AI 的研發(fā)基礎(chǔ)設(shè)施」專題論壇上分享 《月之暗面穩(wěn)定高效的 LLM 基礎(chǔ)設(shè)施構(gòu)建之道》,重點(diǎn)介紹月之暗面在訓(xùn)推混部集群中的實(shí)踐經(jīng)驗(yàn),探討如何快速定位并隔離故障,實(shí)現(xiàn)任務(wù)的高效恢復(fù),從而提升系統(tǒng)整體穩(wěn)定性。另外還會(huì)分享如何在資源有限的情況下最大化利用率、避免浪費(fèi),并進(jìn)一步將該思路應(yīng)用于強(qiáng)化學(xué)習(xí)任務(wù)的訓(xùn)練中。

2025 年 4 月 10 - 12 日,QCon 全球軟件開發(fā)大會(huì) 將在北京召開,大會(huì)以 “智能融合,引領(lǐng)未來” 為主題,將匯聚各領(lǐng)域的技術(shù)先行者以及創(chuàng)新實(shí)踐者,為行業(yè)發(fā)展撥云見日。屆時(shí),騰訊安全副總裁、騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人于旸(TK)、亞馬遜云科技大中華區(qū)產(chǎn)品技術(shù)總監(jiān)王曉野、微軟亞太人工智能黑帶團(tuán)隊(duì)技術(shù)總經(jīng)理曾臻(Vickie)、原網(wǎng)易集團(tuán)副總裁 / 杭州研究院執(zhí)行院長 / 現(xiàn)杭州久痕科技 CEO 汪源博士等重磅嘉賓也將在主論壇分享各自領(lǐng)域內(nèi)的洞察和實(shí)踐。

本次大會(huì)還策劃了 多模態(tài)大模型及應(yīng)用、AI 驅(qū)動(dòng)的工程生產(chǎn)力、面向 AI 的研發(fā)基礎(chǔ)設(shè)施、不被 AI 取代的工程師、大模型賦能 AIOps、云成本優(yōu)化、Lakehouse 架構(gòu)演進(jìn)、越挫越勇的大前端 等專題,屆時(shí)將有來自不同行業(yè)、不同領(lǐng)域、不同企業(yè)的 100+ 資深專家在 QCon 北京現(xiàn)場帶來前沿技術(shù)洞察和一線實(shí)踐經(jīng)驗(yàn)。