打開網(wǎng)易新聞 查看精彩圖片

5 月 23 日 -24 日,AICon 全球人工智能開發(fā)與應(yīng)用大會上海站即將拉開帷幕。本次大會將聚焦 AI 技術(shù)的前沿突破與產(chǎn)業(yè)落地,圍繞 AI Agent、多模態(tài)應(yīng)用、大模型架構(gòu)創(chuàng)新、推理性能優(yōu)化、大模型驅(qū)動數(shù)據(jù)創(chuàng)新、AI 產(chǎn)品創(chuàng)新與出海策略等核心議題,呈現(xiàn)技術(shù)與應(yīng)用融合的最新趨勢。

華為高級開發(fā)工程師張君已確認(rèn)出席 AICon 上海并將在大模型推理性能優(yōu)化策略專題發(fā)表題為《華為昇騰推理技術(shù)的優(yōu)化實踐》的主題分享。隨著大模型技術(shù)的快速發(fā)展,其在 LLM、多模態(tài)融合等領(lǐng)域的應(yīng)用越來越廣泛。然而,大模型的高效推理仍然是一個關(guān)鍵挑戰(zhàn),從計算復(fù)雜度、內(nèi)存占用、通信技術(shù)等各個技術(shù)層面展開,如何在保證性能的同時降低計算成本、提升推理效率成為了關(guān)鍵挑戰(zhàn)。本次演講將圍繞大模型推理優(yōu)化的技術(shù)發(fā)展方向,圍繞模型層、推理框架層、算子層這 3 個方面展開,并結(jié)合實踐案例,闡述相關(guān)的技術(shù)方案和選型,幫助聽眾更好地理解和應(yīng)用大模型推理技術(shù)。

張君作為核心開發(fā)者參與 AI 框架 (昇思) 的開發(fā),并負(fù)責(zé)動態(tài)圖的自動微分以及動靜結(jié)合模塊。目前主要參與大模型推理在昇騰硬件上的相關(guān)開發(fā)和優(yōu)化工作,致力于通過優(yōu)化推理框架、模型算法算子加速庫等層面,進一步提升大模型推理的性能。他在本次會議的詳細(xì)演講內(nèi)容如下:

演講提綱

  • 大模型推理加速的技術(shù)挑戰(zhàn)與常用方案

    • 算子融合,如 FA,通算融合

    • 模型量化,如 w8a8 等

    • Attention 容量壓縮,如 MLA、GQA 等

  • 技術(shù)研究熱點:模型層、框架層、算子層

    • 模型層優(yōu)化

      • 昇騰推理領(lǐng)域加速庫 ATB

    • 推理框架層優(yōu)化

      • 昇騰圖編譯技術(shù) TorchAir

      • PD 分離部署

      • 動態(tài)批處理(Dynamic Batching)、Prefix Cache 等

    • 算子層優(yōu)化

      • 高效融合算子,如 MLA 算子設(shè)計

      • NPU 親和性編程,充分利用 Cube 和 Vector 計算單元能力

  • 業(yè)務(wù)實踐:推理優(yōu)化成功案例

    • 通信融合算子最大化時間掩蓋,如 AllGatherMatmul

    • MLAPO 大融合算子,加速降低計算耗時

  • 下一步優(yōu)化方向

    • PD+ 大 EP 等

聽眾收益

  • 了解當(dāng)前華為昇騰推理技術(shù)的優(yōu)化實踐

除此之外,本次大會還策劃了AI Agent 構(gòu)建及多元應(yīng)用、多模態(tài)大模型創(chuàng)新實踐、AI for Data,數(shù)據(jù)管理與價值挖掘?qū)嵺`、大模型推理性能優(yōu)化策略、AI 產(chǎn)品設(shè)計的創(chuàng)新思維、智能硬件與大模型的融合探索、金融領(lǐng)域大模型應(yīng)用實踐、大模型助力業(yè)務(wù)提效實踐等專題,屆時將有來自不同行業(yè)、不同領(lǐng)域、不同企業(yè)的 60+ 資深專家在 AICon 上海站現(xiàn)場帶來前沿技術(shù)洞察和一線實踐經(jīng)驗。

現(xiàn)在報名即可以享受 9 折優(yōu)惠,單張門票立省 580 元,詳情可掃碼或聯(lián)系票務(wù)經(jīng)理 13269078023 咨詢。