光,就像是宇宙中最迅捷的使者,以每秒近 30 萬(wàn)公里的速度在真空中傳播,不僅照亮了我們的世界,更在現(xiàn)代科技領(lǐng)域發(fā)揮越來(lái)越重要的作用。
在通信領(lǐng)域,光纖在全球應(yīng)用已有數(shù)十年歷史,光在信號(hào)傳輸方面的能耗、時(shí)延和通量等都遠(yuǎn)優(yōu)于電子。如今,光纖早已進(jìn)入千家萬(wàn)戶,帶來(lái)高速穩(wěn)定的網(wǎng)絡(luò)連接。
除了通信,光在計(jì)算領(lǐng)域也展現(xiàn)出巨大潛力。早在 2017 年,美國(guó)麻省理工學(xué)院沈亦晨和團(tuán)隊(duì)開發(fā)的可編程光子處理器芯片開創(chuàng)了片上干涉架構(gòu)的先河。作為一種顛覆性計(jì)算范式,光計(jì)算近年來(lái)發(fā)展迅速,正處于從實(shí)驗(yàn)室走向產(chǎn)業(yè)化的關(guān)鍵階段。
近日,Nature以《超低延遲大規(guī)模集成光子加速器》(An integrated large-scale photonic accelerator with ultralow latency)為題刊載了一篇論文,介紹了曦智科技在光電混合計(jì)算領(lǐng)域取得的產(chǎn)業(yè)化進(jìn)展。

“這篇論文介紹的其實(shí)是我們四年前發(fā)布的上一代光子計(jì)算處理器‘PACE’,相當(dāng)于是把這款產(chǎn)品的開發(fā)思路進(jìn)行了一次‘開源’:通過(guò)公開‘PACE’光電混合計(jì)算(硬件和軟件)的具體架構(gòu),我們希望吸引更多人參與到光計(jì)算行業(yè)中來(lái),促進(jìn)整個(gè)行業(yè)的發(fā)展和進(jìn)步?!标刂强萍紕?chuàng)始人、CEO 沈亦晨告訴 DeepTech。
針對(duì)這項(xiàng)研究成果,審稿人認(rèn)為,“在光子計(jì)算領(lǐng)域,通常會(huì)通過(guò)小規(guī)模的演示對(duì)大規(guī)模系統(tǒng)性能進(jìn)行樂(lè)觀推斷,而本論文中的數(shù)據(jù)均來(lái)自整個(gè)‘PACE’計(jì)算系統(tǒng)的實(shí)測(cè)性能,研究團(tuán)隊(duì)工程化的實(shí)現(xiàn)了一個(gè)超大規(guī)模光子矩陣計(jì)算系統(tǒng),可謂是一次‘壯舉’?!?/p>
作為國(guó)際頂級(jí)學(xué)術(shù)期刊,Nature發(fā)表的研究成果向來(lái)以高校、科研機(jī)構(gòu)等學(xué)術(shù)界基礎(chǔ)研究為主,而此次發(fā)表來(lái)自產(chǎn)業(yè)界的產(chǎn)品化成果,一方面標(biāo)志著光計(jì)算技術(shù)已經(jīng)從理論研究階段跨入實(shí)際應(yīng)用階段;另一方面也反映出學(xué)術(shù)界對(duì)光計(jì)算商業(yè)前景的認(rèn)可。

從“0”到“用”的突破:光電混合計(jì)算架構(gòu)首次公開
近年來(lái),隨著硅光子、納米光學(xué)、材料科學(xué)等學(xué)科的發(fā)展,全球范圍光計(jì)算的熱度不斷攀升。與傳統(tǒng)電子計(jì)算技術(shù)相比,光計(jì)算采用了一種全新的運(yùn)算方式,利用光子作為信息載體,通過(guò)光學(xué)硬件而非電子硬件來(lái)執(zhí)行計(jì)算任務(wù)。
這種新型計(jì)算方式尤其擅長(zhǎng)處理需要高度并行運(yùn)算的復(fù)雜任務(wù),然而光計(jì)算也面臨著一些挑戰(zhàn),首當(dāng)其沖的是缺乏合適的商業(yè)化應(yīng)用場(chǎng)景;其次,傳統(tǒng)的光子器件采用分離式設(shè)計(jì),對(duì)光場(chǎng)的調(diào)控手段比較單一并且整個(gè)光子系統(tǒng)的體積較為龐大,導(dǎo)致光計(jì)算技術(shù)長(zhǎng)期停留在實(shí)驗(yàn)室理論研究階段。

2021 年,曦智科技發(fā)布光子計(jì)算處理器“PACE”(Photonic Arithmetic Computing Engine,光子計(jì)算引擎),其包含 64x64 光學(xué)矩陣,集成 16,000 個(gè)光子器件,由一塊集成硅光芯片和一塊 CMOS 微電子芯片以 3D 封裝形式堆疊而成,能夠?qū)崿F(xiàn) 1GHz 頻率的高速計(jì)算和每周期 3 納秒的延遲。
最為關(guān)鍵的一點(diǎn)是,“PACE”通過(guò)實(shí)測(cè)驗(yàn)證了光子計(jì)算的優(yōu)越性,由于光在執(zhí)行矩陣向量乘法時(shí)的時(shí)延極低,通過(guò)重復(fù)矩陣乘法和受控噪聲組成的緊密回環(huán)來(lái)實(shí)現(xiàn)較低延遲,在生成伊辛問(wèn)題(Ising)和最大割/最小割問(wèn)題(Max-cut/Min-cut)這類組合優(yōu)化問(wèn)題的高質(zhì)量解決方案,而這代表著光電混合計(jì)算從概念驗(yàn)證到產(chǎn)品化落地的跨越。
技術(shù)架構(gòu)層面,曦智科技聯(lián)合創(chuàng)始人、首席技術(shù)官孟懷宇表示,“之所以選擇 64×64 的矩陣規(guī)模,主要是由于我們?cè)诋?dāng)時(shí)的時(shí)間節(jié)點(diǎn)上有把握能開發(fā)成功且規(guī)模足夠大的產(chǎn)品形態(tài),在此規(guī)模下有海量元器件需要控制,采用 3D 堆疊封裝是最佳選擇。”
“PACE 中的 16,000 個(gè)光子器件并不存在光學(xué)串?dāng)_的問(wèn)題?!标刂强萍贾魅喂韫夤こ處熑A士躍指出,“至于射頻串?dāng)_,由于我們采用的是倒裝芯片(Flip chip),被控器件和控制元器件上下堆疊,是點(diǎn)對(duì)點(diǎn)的,因此器件之間的串?dāng)_也不明顯,只有在長(zhǎng)距離并行金屬線可能會(huì)有一些串?dāng)_。總的來(lái)說(shuō),我們借助先進(jìn)封裝解決了串?dāng)_問(wèn)題?!?/p>
除了技術(shù)參數(shù)優(yōu)勢(shì),這一產(chǎn)品化成果能夠被Nature收錄,主要是由于這是一款完全由商業(yè)生產(chǎn)線制造的大規(guī)模光電集成計(jì)算卡,并且還提供了詳盡的實(shí)測(cè)數(shù)據(jù)支持,不僅證實(shí)了這款計(jì)算卡在降低計(jì)算延遲方面的卓越表現(xiàn),也展示出其在提升計(jì)算效率和穩(wěn)定性等方面的一些優(yōu)勢(shì)。

任何一項(xiàng)技術(shù),只有從實(shí)驗(yàn)室基礎(chǔ)理論研究走向大眾市場(chǎng)并付諸應(yīng)用才能算作真正意義上的成功。對(duì)于光計(jì)算領(lǐng)域,在沈亦晨看來(lái),技術(shù)從概念到產(chǎn)品需要經(jīng)歷幾個(gè)步驟。
第一步,新技術(shù)(對(duì)比現(xiàn)有技術(shù))要體現(xiàn)出優(yōu)越性。“在這篇論文中,針對(duì)伊辛圖形優(yōu)化算法,我們用光電混合芯片證明比電芯片要快幾個(gè)數(shù)量級(jí)。這是技術(shù)從概念變成產(chǎn)品的第一步,即具有優(yōu)越性?!彼a(bǔ)充說(shuō)。
第二步,新技術(shù)要解決實(shí)用問(wèn)題,并且能融入到現(xiàn)有的計(jì)算體系生態(tài)中。“這也就是我們今年 3 月份發(fā)布的新一代光電混合計(jì)算產(chǎn)品‘曦智天樞’,首次驗(yàn)證了用光電混合芯片也能跑通用商用算法,具備了實(shí)用性,可以解決一些實(shí)際問(wèn)題,并且在形態(tài)上與普通的 GPU 無(wú)異,可以直接插入服務(wù)器?!彼榻B說(shuō)。
第三步,相當(dāng)于是前兩步的融合:既能解決實(shí)際問(wèn)題,而且在解決問(wèn)題中比現(xiàn)有技術(shù)更有優(yōu)勢(shì),當(dāng)然還包括成本的下降、穩(wěn)定性的提升等,這些都是后續(xù)產(chǎn)品迭代需要攻克的問(wèn)題。
“總的來(lái)說(shuō),這篇論文的一個(gè)重要意義在于,我們讓大家看到什么樣的計(jì)算結(jié)構(gòu)和算法能夠最大化發(fā)揮出光計(jì)算的優(yōu)勢(shì),這大概率是一些 AI for Science 的應(yīng)用場(chǎng)景。”沈亦晨指出,“曦智科技的早期客戶主要面向教科研領(lǐng)域,我們希望與教科研的研究人員一起去探索和發(fā)現(xiàn)(除了當(dāng)前通用商用 AI 算法之外的)新的且比較契合的應(yīng)用場(chǎng)景。”
值得一提的是,Nature同期還刊載了來(lái)自美國(guó) Lightmatter 團(tuán)隊(duì)圍繞光電計(jì)算的研究成果:其開發(fā)的光電芯片包含四個(gè) 128×128 光子矩陣,能夠執(zhí)行自然語(yǔ)言處理模型 BERT 以及用于圖像識(shí)別的神經(jīng)網(wǎng)絡(luò) ResNet,并且其運(yùn)算結(jié)果的準(zhǔn)確性可與傳統(tǒng)的電子芯片相媲美。

8 年追光歷程:從概念驗(yàn)證到產(chǎn)品落地
回顧沈亦晨的“追光之路”。早在 2017 年,他以第一作者在Nature Photonics上發(fā)表了一篇題為《由納米光學(xué)回路實(shí)現(xiàn)的深度學(xué)習(xí)》(Deep learning with coherent nanophotonic circuits)的封面論文,首次提出光子計(jì)算系統(tǒng)的概念,開發(fā)出基于相干納米光子電路進(jìn)行深度學(xué)習(xí)計(jì)算方法,即光子代替電子來(lái)進(jìn)行 AI 計(jì)算。

這項(xiàng)研究被業(yè)界公認(rèn)為是集成光子領(lǐng)域的開創(chuàng)性進(jìn)展,在算法創(chuàng)新和硬件革新兩個(gè)維度都取得突破:算法層面,開發(fā)了一系列既能夠保持模型性能,又能顯著減少深度學(xué)習(xí)計(jì)算需求的算法,這些算法特別針對(duì)光子芯片進(jìn)行了優(yōu)化;硬件層面,采用光干涉儀來(lái)執(zhí)行基本的矩陣運(yùn)算任務(wù),替代了傳統(tǒng)的電子晶體管。
彼時(shí),這套光子計(jì)算系統(tǒng)并不能稱之為“產(chǎn)品”,它體積過(guò)于龐大,幾乎占據(jù)了半個(gè)實(shí)驗(yàn)室。
同年,沈亦晨創(chuàng)立曦智科技,以這項(xiàng)研究成果為起點(diǎn)致力于將光子計(jì)算產(chǎn)品化、商業(yè)化。
2019 年,曦智科技發(fā)布了首款光子計(jì)算原型板卡,成功運(yùn)行了 Google TensorFlow 自帶的卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)處理 MNIST 數(shù)據(jù)集,驗(yàn)證了兩年前的這一開創(chuàng)性想法,證明了光子計(jì)算的可行性,并且產(chǎn)品的體積也縮小上千倍。
這一幕,就像是上世紀(jì) 40 年代誕生的世界第一臺(tái)通用計(jì)算機(jī)“ENIAC”,半個(gè)多世紀(jì)后,這個(gè)重達(dá) 30 噸的龐然大物體積已經(jīng)小到可以放進(jìn)背包甚至口袋里。

2021 年,“PACE”的問(wèn)世,向業(yè)界展示了一款由商業(yè)產(chǎn)線生產(chǎn)的大規(guī)模光電集成計(jì)算卡,標(biāo)志著光電混合計(jì)算從概念驗(yàn)證完成產(chǎn)品化落地。
時(shí)隔四年,曦智科技于今年 3 月推出了新一代光電混合計(jì)算卡“曦智天樞”,首次實(shí)現(xiàn)了在復(fù)雜商業(yè)模型中的應(yīng)用,并在特定算法中體現(xiàn)出了優(yōu)于商用 GPU 的延遲優(yōu)勢(shì)。
“對(duì)比上一代‘PACE’產(chǎn)品:硬件方面,首先是矩陣尺寸擴(kuò)大了四倍,從 64×64 到 128×128;精度提高到 8bit,可以跑 ResNet50 以及其他 AI 算法;軟件方面,我們開發(fā)了一整套開發(fā)框架,在易用性方面也有所提升。”孟懷宇介紹說(shuō)。
更為重要的是,“對(duì)比上一代‘PACE’(形態(tài)上更像是一款實(shí)驗(yàn)儀器),‘曦智天樞’已經(jīng)進(jìn)化成為了一款標(biāo)準(zhǔn)的 PCIe 通用板卡,不僅僅是硬件形態(tài),其在芯片層面上支持通過(guò) PCIe 與 CPU 直接互聯(lián),而這意味著‘曦智天樞’可以直接部署在傳統(tǒng)的數(shù)據(jù)中心服務(wù)器中?!彼a(bǔ)充說(shuō)。
創(chuàng)業(yè)至今 8 年有余,曦智科技的產(chǎn)品線不斷優(yōu)化迭代,圍繞光計(jì)算開發(fā)的側(cè)重點(diǎn)也在悄然發(fā)生變化。
“早先剛開始做光計(jì)算的時(shí)候,我們特別專注矩陣乘法部分,如今我們發(fā)現(xiàn)遠(yuǎn)遠(yuǎn)不止矩陣乘法,還包括互聯(lián)、存儲(chǔ)、帶寬等等,類似于‘水桶效應(yīng)’,其整體效能取決于其最薄弱的環(huán)節(jié)(短板),而非最強(qiáng)項(xiàng)(長(zhǎng)板)。所以我們需要把每個(gè)‘木板’都補(bǔ)齊,才能實(shí)現(xiàn)綜合性能的上限。比如,我們布局了光互聯(lián)的產(chǎn)品線,本質(zhì)上就是來(lái)解決計(jì)算過(guò)程中的數(shù)據(jù)存儲(chǔ)和搬運(yùn)問(wèn)題?!吧蛞喑勘硎尽?/p>
“隨著時(shí)間的推移,我們?cè)絹?lái)越認(rèn)識(shí)到‘軟件生態(tài)’的重要性?!泵蠎延钛a(bǔ)充說(shuō),“光計(jì)算也好,電計(jì)算也罷,計(jì)算范式不同,各自的優(yōu)勢(shì)也有所不同,這個(gè)時(shí)候龐大的軟件生態(tài)反而成為制約其進(jìn)入大規(guī)模商業(yè)應(yīng)用的門檻。”
“光計(jì)算開發(fā),遠(yuǎn)不止是純硬件方面的事情。一方面,我們要做好自己的軟件;另一方面,我們還需要自己去培育軟件生態(tài)。”他表示。
談及學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)光電混合計(jì)算的關(guān)注點(diǎn),曦智科技首席運(yùn)營(yíng)官王瀧指出:“學(xué)術(shù)界更關(guān)心的是理論上限,產(chǎn)業(yè)界更關(guān)心的是可實(shí)現(xiàn)性、可落地性,我覺(jué)得這是一個(gè)本質(zhì)的區(qū)別?!?/p>
“學(xué)術(shù)界的側(cè)重點(diǎn)為創(chuàng)新,他們可能會(huì)去探索一些新架構(gòu)、新應(yīng)用、新材料等前沿技術(shù)。但就我們自身(產(chǎn)業(yè)界)而言,對(duì)于激進(jìn)技術(shù)的應(yīng)用會(huì)更加收斂,因?yàn)槲覀兿M茉谥卸唐趦?nèi)將技術(shù)落地成為一款可量產(chǎn)、可應(yīng)用的產(chǎn)品,還包括一些細(xì)分要素,比如成本可控,可編程性,上手難易度等等?!泵蠎延钛a(bǔ)充說(shuō)。

對(duì)于未來(lái)公司發(fā)展規(guī)劃?!笆紫?,在硬件方面,我們已經(jīng)在著手開發(fā)256×256 矩陣規(guī)模的芯片產(chǎn)品,同時(shí)在供應(yīng)鏈方面進(jìn)一步向國(guó)產(chǎn)靠攏。”沈亦晨表示。
其次,對(duì)于光計(jì)算這個(gè)新興計(jì)算硬件而言,初期顯然無(wú)法與傳統(tǒng)通用 GPU 市場(chǎng)相抗衡?!八裕覀冞x擇先聚焦一個(gè)當(dāng)量足夠大的專用定制化場(chǎng)景:大模型推理,同時(shí)將光互聯(lián)融入其中,開發(fā)新一代產(chǎn)品?!彼f(shuō)道。
最后,構(gòu)建光計(jì)算生態(tài)。“我們希望帶動(dòng)產(chǎn)學(xué)研一起合作,圍繞光計(jì)算本身的硬件優(yōu)勢(shì)來(lái)尋找這種‘殺手級(jí)’的應(yīng)用,即大模型推理等現(xiàn)有商業(yè) AI 以外的應(yīng)用場(chǎng)景?!彼硎?。
市場(chǎng)層面,“光計(jì)算的市場(chǎng)前景主要看算力市場(chǎng)需求。我們目前已經(jīng)做出了一款‘可用’的產(chǎn)品,下一步做出‘好用’的產(chǎn)品。如果能做到‘好用’,那么國(guó)內(nèi)算力市場(chǎng)規(guī)模有多大,光計(jì)算的機(jī)會(huì)就有多大?!蓖鯙{表示。

提出“等效光算力”標(biāo)準(zhǔn):讓參數(shù)更能體現(xiàn)實(shí)際性能
隨著產(chǎn)品陸續(xù)落地,那如何衡量其性能指標(biāo)呢?在電子芯片領(lǐng)域,業(yè)界通常講某款 AI 芯片算力有多少 TOPS,但即便 TOPS 相同,在不同精度下、不同架構(gòu)下也是完全不同的,而在光子芯片領(lǐng)域,這個(gè)問(wèn)題變得更加混亂,甚至連 TOPS 的定義都完全不同。
“出于這個(gè)原因,我們從實(shí)際應(yīng)用的角度思考,如何找到一個(gè)比單純峰值算力更能夠體現(xiàn)芯片實(shí)際性能的參數(shù)來(lái)供大家參考?”孟懷宇說(shuō)道,“于是,我們提出了‘等效光算力’的概念,其中包含三個(gè)參數(shù),一個(gè)是峰值算力,然后加入了兩個(gè)修正值,輸出精度和權(quán)重刷新?!?/p>
具體來(lái)說(shuō),一方面,雖然在 8bit,4bit 和 1bit 輸出精度下都能擁有同樣的 TOPS,顯然不同精度下的實(shí)用價(jià)值是不一樣的,畢竟更高的精度付出了更大的代價(jià);另一方面,從本質(zhì)上來(lái)講,可編程的設(shè)備才能稱得上是計(jì)算機(jī),權(quán)重刷新速度,代表能夠以多快的速度刷新其每個(gè)矩陣的參數(shù),可以描述光電混合計(jì)算卡的可編程性有多強(qiáng)。
“比如相機(jī)鏡頭也可以完成一些光信號(hào)的處理,但是它完全沒(méi)有可編程性,更不可能跑 ResNet50,所以不能稱之為光子計(jì)算機(jī)?!彼e例說(shuō)。
“曦智科技成立之初,我們的目標(biāo)就是把光計(jì)算變成一種能夠付諸實(shí)際應(yīng)用的可以大規(guī)模量產(chǎn)的產(chǎn)品。”沈亦晨補(bǔ)充道,“片面地去夸大峰值算力,很多時(shí)候并不能代表真實(shí)性能。所以,我們除了峰值算力以外,融入了精度和可編程性兩個(gè)參數(shù)指標(biāo),希望這種綜合算力評(píng)價(jià)方法能更加全面、真實(shí)、客觀地展示光計(jì)算芯片實(shí)際價(jià)值,同時(shí)也能讓業(yè)界全面了解光計(jì)算的優(yōu)勢(shì)和局限。”
“其實(shí),如果單純?yōu)榱藳_高峰值算力,完全可以用最低的精度和最不可編程的硬件實(shí)現(xiàn)超高的峰值算力,但這樣做犧牲的是應(yīng)用性和落地性;相反的,想要提高應(yīng)用性,增加精度的代價(jià)也是指數(shù)級(jí)的?!彼a(bǔ)充說(shuō)。
“光計(jì)算和電計(jì)算兩種計(jì)算范式存在本質(zhì)不同:精度越高,對(duì)于光計(jì)算而言其難度是呈指數(shù)級(jí)上升,對(duì)于電計(jì)算而言其難度只是呈線性上升。當(dāng)然,我們也希望整個(gè)算法會(huì)越來(lái)越往低精度發(fā)展,因?yàn)楫?dāng)算法的精度需求越低的時(shí)候,光計(jì)算的優(yōu)勢(shì)就愈發(fā)明顯?!彼忉屨f(shuō)。

公開技術(shù)路線,期待更多人加入光電混合生態(tài)
前不久的全球光通信大會(huì)讓沈亦晨感受頗多。“在創(chuàng)新光電融合方面,國(guó)內(nèi)擁有更好的機(jī)會(huì)?!彼毖?。
“相較于電計(jì)算,光計(jì)算國(guó)內(nèi)外差距并不算大,基本處于同一進(jìn)度,而這帶來(lái)的是光計(jì)算在國(guó)內(nèi)的可應(yīng)用性和可落地性要遠(yuǎn)遠(yuǎn)高于海外?!彼硎?,“國(guó)內(nèi)的算力市場(chǎng)更像是處于‘群雄逐鹿’的時(shí)期,并不存在壟斷性的寡頭,所以這其中就蘊(yùn)含了大量創(chuàng)新的機(jī)會(huì)。中國(guó)可以基于自身需求來(lái)開辟一條新的道路?!?/p>
”光計(jì)算在中國(guó)有更大的可能性開辟出一條新道路,讓我們更快速地實(shí)現(xiàn)商業(yè)落地。“王瀧補(bǔ)充道。
所謂“一花獨(dú)放不是春,百花齊放春滿園”。正如本文開頭沈亦晨所說(shuō)的那樣,希望通過(guò)開源的方式、以開放的態(tài)度,把整個(gè)光計(jì)算產(chǎn)業(yè)的積極性調(diào)動(dòng)起來(lái),團(tuán)結(jié)合作方能創(chuàng)造出更大的生態(tài)價(jià)值。
參考資料:
1.https://www.nature.com/articles/s41586-025-08786-6
2.https://www.nature.com/articles/nphoton.2017.93
3.https://www.xztech.ai/index.php/product/pace-photonic-arithmetic-computing-engine-ai.html
4.https://www.xztech.ai/index.php/product/TIANSHU.html
5.https://www.xztech.ai/index.php/tech.html#oMAC
6.https://www.xztech.ai/index.php/fabric/Fabrics.html
7.https://mp.weixin.qq.com/s/fpkbnAGFmPDsKJI7o2iWPg
8.https://mp.weixin.qq.com/s/xssy4dlPv_u8awQcjpkffw
運(yùn)營(yíng)/排版:何晨龍
熱門跟貼