編輯部 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

當數(shù)據(jù)與AI的協(xié)同鏈路被打通,如何讓算力真正成為驅動數(shù)智升級的核心引擎,釋放AI的終極潛能?

無問芯穹正是其中深耕AI芯片與算力優(yōu)化的玩家,在第三屆AIGC產業(yè)峰會上,無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪博士分享了最新行業(yè)心得:

  • 要實現(xiàn)“算力即生產力”,讓算力成為標準化、高轉化率的“拎包入住”基礎設施。讓算力像水電煤一樣流入到千行百業(yè),流入到千家萬戶。

打開網易新聞 查看精彩圖片

夏立雪博士畢業(yè)于清華大學電子工程系,長期致力于深度學習系統(tǒng)與AI芯片的前沿研究,入選AI2000人工智能全球最具影響力學者榜單(芯片方向Top100)、斯坦福學科Top2% 科學家榜單。他在大語言模型的壓縮加速、生成式AI模型芯片等領域的相關工作,是世界首個面向深度學習語音合成領域的定制化硬件設計,在國際上處于領先地位。

為了完整體現(xiàn)夏立雪的思考,在不改變原意的基礎上,量子位對其演講內容進行了編輯整理,希望能給你帶來更多啟發(fā)。

中國AIGC產業(yè)峰會是由量子位主辦的AI領域前沿峰會,20余位產業(yè)代表與會討論。線下參會觀眾超千人,線上直播觀眾320萬+,累計曝光2000萬+。

話題要點

  • 推理范式變化帶來百倍算力需求增長:Deepseek問世引發(fā)巨大關注,進一步幫助千行百業(yè)快速把更智能化模型能力應用在自己的場景里,帶來超百倍的算力需求增長。
  • 高質量、高性價比算力仍供不應求:在算力需求上,最終推理落地所帶來需求場景和需求方式的變化,供給側還有很大的優(yōu)化空間。
  • 算力生態(tài)方需提供更專業(yè)化的服務能力和精細化運營能力:相當于在裸金屬服務集群上疊加上運營交付能力、深度服務客戶業(yè)務的算力服務能力,這才是我們在這個時代應強化的能力。
  • 最終我們希望實現(xiàn) “算力即生產力”:讓算力成為標準化、高轉化率的“拎包入住”基礎設施。

以下為夏立雪演講全文:

Deepseek推理模型興起,算力需求暴漲

Deepseek推理模型興起,算力需求暴漲

今天非常榮幸能夠在這里和非常多的行業(yè)伙伴們一起探討中國AIGC未來的發(fā)展。我今天的演講題目是《算力即是生產力——數(shù)智升級的核心引擎》。

我們本身依托清華大學電子系的基因,一直在解決怎么把算法和硬件更好更高效連接,今天非常高興能夠把最近的成果、行業(yè)觀察,還有我們的一些進展和大家做一個分享。

我相信在座的各位已經對人工智能的發(fā)展有非常深的理解,今天不從上世紀講起,我們講最近三年看到的一些現(xiàn)象。
大模型真正走入“全民”視野,算是以2022年的ChatGPT火爆為源頭。

如果把當時的算力需求作為一個基線,可以看到經過這幾年的發(fā)展,最近又有了兩個重要的變化。

第一是在2023年的時候,一方面,OpenAI把GPT-4更優(yōu)秀的能力引入到ChatGPT,整個AI應用火爆全球;另一方面,像Llama這樣的一些開源生態(tài)方也進一步幫助大家把使用AI的成本降到更低,激發(fā)了2023年整個產業(yè)對于“怎么把好的開源模型進一步部署在自己場景里”的需求。

在全產業(yè)層面帶來了30倍左右的算力增長的需求。

打開網易新聞 查看精彩圖片

事情在2024到2025年間進一步發(fā)生變化。

o1推理模型興起,除了預訓練模型之外,在推理過程中可以引入長思考、慢思考方式,進一步發(fā)揮有限數(shù)據(jù)的價值。

像今年年初,Deepseek引發(fā)巨大關注,推理能力是它的長項,同樣它也是非常優(yōu)秀的開源模型,進一步幫助了千行百業(yè)快速把更智能化模型能力應用在自己的場景里,進一步帶來超過百倍的算力需求增長
有很多產業(yè)方在這樣時代發(fā)展的過程中,也逐漸把AI真正集成在自己的實際生產中,也有一些非常令人激動的數(shù)據(jù)。

首先從全球來看,2024年李飛飛教授的一份report中有一個統(tǒng)計,在2023—2024年這一年里面,全球生成式AI部署熱度達到非常高的增長態(tài)勢,在一年時間里,從2023年55%的狀態(tài)快速增長到78%,將近五分之四的企業(yè)組織表示已部分將AI能力部署到自己的組織中。

打開網易新聞 查看精彩圖片

中國作為全球最大的應用市場、應用場景方,一直走在“怎么把好技術用在真實場景里”的最前沿,以億級用戶規(guī)模的APP生態(tài)為觀測樣本,當前超過70%億級用戶APP都已經在做“AI轉型”,大家也在不斷備案自己有特色有場景能力的算法模型。

以我們的客戶美圖為典型范例,隨著AI轉型的深入,美圖接入AI功能之后,其付費用戶實現(xiàn)了快速增長,達到歷史新高1200萬量級,證明了AI在真實場景中能產生相當大的價值。

算力需求供給側比較粗放式

算力需求供給側比較粗放式

同時我們也看到了新的問題。

在算力需求上,最終推理落地所帶來需求場景和需求方式的變化,供給側還是沒有做到很好的支持

推理和訓練的區(qū)別大家也都知道,推理是一種不可預測的流式任務,任務量跟實際的業(yè)務體量有非常大的相關性。

大家做一個業(yè)務的時候常常需要規(guī)劃考慮未來業(yè)務突然增長起來算力怎么辦?目前在供給側,常用的解決方案還是臨時應對和準備,整個供給側算力供給還是比較粗放式的,主要是以數(shù)取勝。

打開網易新聞 查看精彩圖片

如果未來業(yè)務有可能在一個月內快速增長1倍,但我又不想為這部分波動提前支付,也不想等業(yè)務起量后再來慌慌張張臨時準備,現(xiàn)在應該采用什么樣的算力方案?目前大多數(shù)運營商很難有非常好的服務能力。
另一方面,訓練和推理在延時和功能上的要求也是完全不一樣的

推理要求反應速度非??欤\營商不能說請你等一下,等我把你的請求和別人的請求拼一起,一天之后再給你出結果。所以在算力使用技術上,訓練追求高吞吐量和大批次處理的效率優(yōu)化,而推理部署則要求低延遲、高并發(fā)和實時響應能力。若簡單沿用傳統(tǒng)算力優(yōu)化手段,將難以滿足用戶對毫秒級響應、動態(tài)資源調度的需求,甚至可能因批量等待導致服務體驗下降。

兩者之間的差距最終導致實際使用中算力成本變高,成本壓力傳導到性能上形成瓶頸,最終性價比不劃算,會進一步阻礙有應用能力的伙伴真正把AI技能用起來。

過去整個算力供給市場如果用當年城市化的例子比喻,供給側更像是粗放式的 “高端毛坯房”,只能期待優(yōu)質大客戶“自帶裝修能力”包下毛坯房。

但現(xiàn)在市場要求算力面向更多創(chuàng)新應用伙伴,算力供給需要做到幫助他們快速落地創(chuàng)業(yè)想法,就像商戶能輕松入駐“成熟商業(yè)廣場”一樣使用算力

打開網易新聞 查看精彩圖片

作為算力生態(tài)方,我們需要提供更專業(yè)化的服務能力和精細化運營能力,區(qū)別于以往算力供給只提供“算力毛坯房”,現(xiàn)在我們要在裸金屬服務集群上疊加上運營交付能力、深度服務客戶業(yè)務的算力服務能力,這才是我們在這個時代應強化的能力。

無問芯穹希望團結更多合作伙伴,集中加速能力,喚醒沉睡的算力。如何把不同地方的零散算力、異構算力統(tǒng)一成像水電煤一樣“開箱即用、拎包入住”的標準化服務

我們一直致力于把裸金屬升級成更好的一站式AI平臺,面向AI開發(fā)者,甚至直接以大模型服務的方式支撐AI創(chuàng)業(yè)團隊,最終讓中國建設的強大算力更好地被下游AI應用使用。

讓算力成為可“拎包入住”的基礎設施

讓算力成為可“拎包入住”的基礎設施

這部分最近我們也做了一些新的努力,取得了新的進展。

首先在最底層激活各種多元異構算力,面對中國特色的市場環(huán)境,將國產芯片及國內不同小算力集群進行標準化統(tǒng)一。

一方面通過軟硬協(xié)同優(yōu)化,讓算法與硬件更好結合;另一方面讓不同算力協(xié)同完成復雜大任務,從而“抹平”算力生態(tài)壁壘,以標準化方式使服務能力在應對彈性擴展和高性價比需求時更具支撐力。

最終我們希望大家享受到更加易用、更加廉價且性能更優(yōu)的算力服務,這對性能提出了更高要求。

打開網易新聞 查看精彩圖片

大模型推理部署分為云和端兩個場景,端側在智能終端和硬件領域存在廣泛需求,我們推出了名為SpecEE的加速技術。

簡單來說,SpecEE能讓同類型模型在終端運行得更快更好,以3B模型為例,不同結構和計算量分配會導致硬件計算效率差異,推理中可能存在大量算力等待與浪費,而該技術通過算法與硬件結構的深度匹配解決這一問題。

實測顯示,在真實AI PC場景中,其加速比達70%至2倍以上,助力筆記本、手機等端側設備更好地部署AI。

打開網易新聞 查看精彩圖片

視頻鏈接:https://mp.weixin.qq.com/s/g0WghQpe2TKjGSJXeg-SzQ

云側則聚焦“省錢”,讓相同算力實現(xiàn)更多產出。我們研發(fā)的推理引擎/框架針對大模型的Prefill(預填充)和Decode(解碼)環(huán)節(jié)(簡稱PD),結合PD分離與融合模式,形成semi-PD方案,顯著加速計算推理輸出。

打開網易新聞 查看精彩圖片

從優(yōu)化結果可見,直觀體現(xiàn)了加速效果,這里面隱含了一些更深的技術。

同時,我們在計算和通信Overlap上也做了非常多的工作。

針對大模型參數(shù)龐大導致的計算與通信硬件數(shù)據(jù)傳輸?shù)却龁栴},我們開發(fā)了FlashOverlap功能,通過觸發(fā)式信號實現(xiàn)計算與通信的低成本覆蓋,讓硬件持續(xù)運行無閑置,使消費級與生產級顯卡實現(xiàn)約1.5倍加速,有力推動多類推理場景落地。

上述后端技術旨在讓客戶更好地利用算力,同時,我們還推出系列工具與工具鏈,通過WorkFlow封裝和托管服務降讓產業(yè)用戶更好地把AI平臺能力直接使用起來。

以生圖社區(qū)為例,開發(fā)者可將平時開發(fā)生圖的工作流一鍵部署至生產環(huán)境,無需深入了解AI部署細節(jié),我們以黑盒模式處理底層復雜操作,讓開發(fā)者低成本將創(chuàng)意轉化為穩(wěn)定服務,一鍵調用算力能力完成應用開發(fā)。

我們在算力規(guī)模化使用、部署加速及易用性等方面進行了多重優(yōu)化,并將能力整合為平臺化服務,集成合作伙伴的優(yōu)化成果,以統(tǒng)一平臺助力創(chuàng)業(yè)者和行業(yè)快速拓展應用,避免算力成為業(yè)務發(fā)展瓶頸。

目前,這些能力已集成至上海及各地公共算力平臺,為孵化器、創(chuàng)業(yè)者和本地企業(yè)提供支持。

最終,我們希望實現(xiàn)“算力即生產力”讓算力成為標準化、高附加值的“拎包入住”基礎設施。算力像水電煤一樣流入到千行百業(yè),流入到千家萬戶