光,就像是宇宙中最迅捷的使者,以每秒近 30 萬公里的速度在真空中傳播,不僅照亮了我們的世界,更在現(xiàn)代科技領(lǐng)域發(fā)揮越來越重要的作用。
在通信領(lǐng)域,光纖在全球應(yīng)用已有數(shù)十年歷史,光在信號傳輸方面的能耗、時延和通量等都遠優(yōu)于電子。如今,光纖早已進入千家萬戶,帶來高速穩(wěn)定的網(wǎng)絡(luò)連接。
除了通信,光在計算領(lǐng)域也展現(xiàn)出巨大潛力。早在 2017 年,美國麻省理工學(xué)院沈亦晨和團隊開發(fā)的可編程光子處理器芯片開創(chuàng)了片上干涉架構(gòu)的先河。作為一種顛覆性計算范式,光計算近年來發(fā)展迅速,正處于從實驗室走向產(chǎn)業(yè)化的關(guān)鍵階段。
近日,Nature以《超低延遲大規(guī)模集成光子加速器》(An integrated large-scale photonic accelerator with ultralow latency)為題刊載了一篇論文,介紹了曦智科技在光電混合計算領(lǐng)域取得的產(chǎn)業(yè)化進展。

“這篇論文介紹的其實是我們四年前發(fā)布的上一代光子計算處理器‘PACE’,相當(dāng)于是把這款產(chǎn)品的開發(fā)思路進行了一次‘開源’:通過公開‘PACE’光電混合計算(硬件和軟件)的具體架構(gòu),我們希望吸引更多人參與到光計算行業(yè)中來,促進整個行業(yè)的發(fā)展和進步。”曦智科技創(chuàng)始人、CEO 沈亦晨告訴 DeepTech。
針對這項研究成果,審稿人認為,“在光子計算領(lǐng)域,通常會通過小規(guī)模的演示對大規(guī)模系統(tǒng)性能進行樂觀推斷,而本論文中的數(shù)據(jù)均來自整個‘PACE’計算系統(tǒng)的實測性能,研究團隊工程化的實現(xiàn)了一個超大規(guī)模光子矩陣計算系統(tǒng),可謂是一次‘壯舉’。”
作為國際頂級學(xué)術(shù)期刊,Nature發(fā)表的研究成果向來以高校、科研機構(gòu)等學(xué)術(shù)界基礎(chǔ)研究為主,而此次發(fā)表來自產(chǎn)業(yè)界的產(chǎn)品化成果,一方面標(biāo)志著光計算技術(shù)已經(jīng)從理論研究階段跨入實際應(yīng)用階段;另一方面也反映出學(xué)術(shù)界對光計算商業(yè)前景的認可。

從“0”到“用”的突破:光電混合計算架構(gòu)首次公開
近年來,隨著硅光子、納米光學(xué)、材料科學(xué)等學(xué)科的發(fā)展,全球范圍光計算的熱度不斷攀升。與傳統(tǒng)電子計算技術(shù)相比,光計算采用了一種全新的運算方式,利用光子作為信息載體,通過光學(xué)硬件而非電子硬件來執(zhí)行計算任務(wù)。
這種新型計算方式尤其擅長處理需要高度并行運算的復(fù)雜任務(wù),然而光計算也面臨著一些挑戰(zhàn),首當(dāng)其沖的是缺乏合適的商業(yè)化應(yīng)用場景;其次,傳統(tǒng)的光子器件采用分離式設(shè)計,對光場的調(diào)控手段比較單一并且整個光子系統(tǒng)的體積較為龐大,導(dǎo)致光計算技術(shù)長期停留在實驗室理論研究階段。

2021 年,曦智科技發(fā)布光子計算處理器“PACE”(Photonic Arithmetic Computing Engine,光子計算引擎),其包含 64x64 光學(xué)矩陣,集成 16,000 個光子器件,由一塊集成硅光芯片和一塊 CMOS 微電子芯片以 3D 封裝形式堆疊而成,能夠?qū)崿F(xiàn) 1GHz 頻率的高速計算和每周期 3 納秒的延遲。
最為關(guān)鍵的一點是,“PACE”通過實測驗證了光子計算的優(yōu)越性,由于光在執(zhí)行矩陣向量乘法時的時延極低,通過重復(fù)矩陣乘法和受控噪聲組成的緊密回環(huán)來實現(xiàn)較低延遲,在生成伊辛問題(Ising)和最大割/最小割問題(Max-cut/Min-cut)這類組合優(yōu)化問題的高質(zhì)量解決方案,而這代表著光電混合計算從概念驗證到產(chǎn)品化落地的跨越。
技術(shù)架構(gòu)層面,曦智科技聯(lián)合創(chuàng)始人、首席技術(shù)官孟懷宇表示,“之所以選擇 64×64 的矩陣規(guī)模,主要是由于我們在當(dāng)時的時間節(jié)點上有把握能開發(fā)成功且規(guī)模足夠大的產(chǎn)品形態(tài),在此規(guī)模下有海量元器件需要控制,采用 3D 堆疊封裝是最佳選擇?!?/p>
“PACE 中的 16,000 個光子器件并不存在光學(xué)串?dāng)_的問題?!标刂强萍贾魅喂韫夤こ處熑A士躍指出,“至于射頻串?dāng)_,由于我們采用的是倒裝芯片(Flip chip),被控器件和控制元器件上下堆疊,是點對點的,因此器件之間的串?dāng)_也不明顯,只有在長距離并行金屬線可能會有一些串?dāng)_。總的來說,我們借助先進封裝解決了串?dāng)_問題。”
除了技術(shù)參數(shù)優(yōu)勢,這一產(chǎn)品化成果能夠被Nature收錄,主要是由于這是一款完全由商業(yè)生產(chǎn)線制造的大規(guī)模光電集成計算卡,并且還提供了詳盡的實測數(shù)據(jù)支持,不僅證實了這款計算卡在降低計算延遲方面的卓越表現(xiàn),也展示出其在提升計算效率和穩(wěn)定性等方面的一些優(yōu)勢。

任何一項技術(shù),只有從實驗室基礎(chǔ)理論研究走向大眾市場并付諸應(yīng)用才能算作真正意義上的成功。對于光計算領(lǐng)域,在沈亦晨看來,技術(shù)從概念到產(chǎn)品需要經(jīng)歷幾個步驟。
第一步,新技術(shù)(對比現(xiàn)有技術(shù))要體現(xiàn)出優(yōu)越性。“在這篇論文中,針對伊辛圖形優(yōu)化算法,我們用光電混合芯片證明比電芯片要快幾個數(shù)量級。這是技術(shù)從概念變成產(chǎn)品的第一步,即具有優(yōu)越性?!彼a充說。
第二步,新技術(shù)要解決實用問題,并且能融入到現(xiàn)有的計算體系生態(tài)中。“這也就是我們今年 3 月份發(fā)布的新一代光電混合計算產(chǎn)品‘曦智天樞’,首次驗證了用光電混合芯片也能跑通用商用算法,具備了實用性,可以解決一些實際問題,并且在形態(tài)上與普通的 GPU 無異,可以直接插入服務(wù)器?!彼榻B說。
第三步,相當(dāng)于是前兩步的融合:既能解決實際問題,而且在解決問題中比現(xiàn)有技術(shù)更有優(yōu)勢,當(dāng)然還包括成本的下降、穩(wěn)定性的提升等,這些都是后續(xù)產(chǎn)品迭代需要攻克的問題。
“總的來說,這篇論文的一個重要意義在于,我們讓大家看到什么樣的計算結(jié)構(gòu)和算法能夠最大化發(fā)揮出光計算的優(yōu)勢,這大概率是一些 AI for Science 的應(yīng)用場景?!鄙蛞喑恐赋?,“曦智科技的早期客戶主要面向教科研領(lǐng)域,我們希望與教科研的研究人員一起去探索和發(fā)現(xiàn)(除了當(dāng)前通用商用 AI 算法之外的)新的且比較契合的應(yīng)用場景?!?/p>
值得一提的是,Nature同期還刊載了來自美國 Lightmatter 團隊圍繞光電計算的研究成果:其開發(fā)的光電芯片包含四個 128×128 光子矩陣,能夠執(zhí)行自然語言處理模型 BERT 以及用于圖像識別的神經(jīng)網(wǎng)絡(luò) ResNet,并且其運算結(jié)果的準(zhǔn)確性可與傳統(tǒng)的電子芯片相媲美。

8 年追光歷程:從概念驗證到產(chǎn)品落地
回顧沈亦晨的“追光之路”。早在 2017 年,他以第一作者在Nature Photonics上發(fā)表了一篇題為《由納米光學(xué)回路實現(xiàn)的深度學(xué)習(xí)》(Deep learning with coherent nanophotonic circuits)的封面論文,首次提出光子計算系統(tǒng)的概念,開發(fā)出基于相干納米光子電路進行深度學(xué)習(xí)計算方法,即光子代替電子來進行 AI 計算。

這項研究被業(yè)界公認為是集成光子領(lǐng)域的開創(chuàng)性進展,在算法創(chuàng)新和硬件革新兩個維度都取得突破:算法層面,開發(fā)了一系列既能夠保持模型性能,又能顯著減少深度學(xué)習(xí)計算需求的算法,這些算法特別針對光子芯片進行了優(yōu)化;硬件層面,采用光干涉儀來執(zhí)行基本的矩陣運算任務(wù),替代了傳統(tǒng)的電子晶體管。
彼時,這套光子計算系統(tǒng)并不能稱之為“產(chǎn)品”,它體積過于龐大,幾乎占據(jù)了半個實驗室。
同年,沈亦晨創(chuàng)立曦智科技,以這項研究成果為起點致力于將光子計算產(chǎn)品化、商業(yè)化。
2019 年,曦智科技發(fā)布了首款光子計算原型板卡,成功運行了 Google TensorFlow 自帶的卷積神經(jīng)網(wǎng)絡(luò)模型來處理 MNIST 數(shù)據(jù)集,驗證了兩年前的這一開創(chuàng)性想法,證明了光子計算的可行性,并且產(chǎn)品的體積也縮小上千倍。
這一幕,就像是上世紀(jì) 40 年代誕生的世界第一臺通用計算機“ENIAC”,半個多世紀(jì)后,這個重達 30 噸的龐然大物體積已經(jīng)小到可以放進背包甚至口袋里。

2021 年,“PACE”的問世,向業(yè)界展示了一款由商業(yè)產(chǎn)線生產(chǎn)的大規(guī)模光電集成計算卡,標(biāo)志著光電混合計算從概念驗證完成產(chǎn)品化落地。
時隔四年,曦智科技于今年 3 月推出了新一代光電混合計算卡“曦智天樞”,首次實現(xiàn)了在復(fù)雜商業(yè)模型中的應(yīng)用,并在特定算法中體現(xiàn)出了優(yōu)于商用 GPU 的延遲優(yōu)勢。
“對比上一代‘PACE’產(chǎn)品:硬件方面,首先是矩陣尺寸擴大了四倍,從 64×64 到 128×128;精度提高到 8bit,可以跑 ResNet50 以及其他 AI 算法;軟件方面,我們開發(fā)了一整套開發(fā)框架,在易用性方面也有所提升?!泵蠎延罱榻B說。
更為重要的是,“對比上一代‘PACE’(形態(tài)上更像是一款實驗儀器),‘曦智天樞’已經(jīng)進化成為了一款標(biāo)準(zhǔn)的 PCIe 通用板卡,不僅僅是硬件形態(tài),其在芯片層面上支持通過 PCIe 與 CPU 直接互聯(lián),而這意味著‘曦智天樞’可以直接部署在傳統(tǒng)的數(shù)據(jù)中心服務(wù)器中?!彼a充說。
創(chuàng)業(yè)至今 8 年有余,曦智科技的產(chǎn)品線不斷優(yōu)化迭代,圍繞光計算開發(fā)的側(cè)重點也在悄然發(fā)生變化。
“早先剛開始做光計算的時候,我們特別專注矩陣乘法部分,如今我們發(fā)現(xiàn)遠遠不止矩陣乘法,還包括互聯(lián)、存儲、帶寬等等,類似于‘水桶效應(yīng)’,其整體效能取決于其最薄弱的環(huán)節(jié)(短板),而非最強項(長板)。所以我們需要把每個‘木板’都補齊,才能實現(xiàn)綜合性能的上限。比如,我們布局了光互聯(lián)的產(chǎn)品線,本質(zhì)上就是來解決計算過程中的數(shù)據(jù)存儲和搬運問題?!吧蛞喑勘硎尽?/p>
“隨著時間的推移,我們越來越認識到‘軟件生態(tài)’的重要性。”孟懷宇補充說,“光計算也好,電計算也罷,計算范式不同,各自的優(yōu)勢也有所不同,這個時候龐大的軟件生態(tài)反而成為制約其進入大規(guī)模商業(yè)應(yīng)用的門檻。”
“光計算開發(fā),遠不止是純硬件方面的事情。一方面,我們要做好自己的軟件;另一方面,我們還需要自己去培育軟件生態(tài)?!彼硎尽?/p>
談及學(xué)術(shù)界和產(chǎn)業(yè)界對光電混合計算的關(guān)注點,曦智科技首席運營官王瀧指出:“學(xué)術(shù)界更關(guān)心的是理論上限,產(chǎn)業(yè)界更關(guān)心的是可實現(xiàn)性、可落地性,我覺得這是一個本質(zhì)的區(qū)別?!?/p>
“學(xué)術(shù)界的側(cè)重點為創(chuàng)新,他們可能會去探索一些新架構(gòu)、新應(yīng)用、新材料等前沿技術(shù)。但就我們自身(產(chǎn)業(yè)界)而言,對于激進技術(shù)的應(yīng)用會更加收斂,因為我們希望能在中短期內(nèi)將技術(shù)落地成為一款可量產(chǎn)、可應(yīng)用的產(chǎn)品,還包括一些細分要素,比如成本可控,可編程性,上手難易度等等。”孟懷宇補充說。

對于未來公司發(fā)展規(guī)劃?!笆紫龋谟布矫?,我們已經(jīng)在著手開發(fā)256×256 矩陣規(guī)模的芯片產(chǎn)品,同時在供應(yīng)鏈方面進一步向國產(chǎn)靠攏?!鄙蛞喑勘硎?。
其次,對于光計算這個新興計算硬件而言,初期顯然無法與傳統(tǒng)通用 GPU 市場相抗衡?!八裕覀冞x擇先聚焦一個當(dāng)量足夠大的專用定制化場景:大模型推理,同時將光互聯(lián)融入其中,開發(fā)新一代產(chǎn)品。”他說道。
最后,構(gòu)建光計算生態(tài)。“我們希望帶動產(chǎn)學(xué)研一起合作,圍繞光計算本身的硬件優(yōu)勢來尋找這種‘殺手級’的應(yīng)用,即大模型推理等現(xiàn)有商業(yè) AI 以外的應(yīng)用場景。”他表示。
市場層面,“光計算的市場前景主要看算力市場需求。我們目前已經(jīng)做出了一款‘可用’的產(chǎn)品,下一步做出‘好用’的產(chǎn)品。如果能做到‘好用’,那么國內(nèi)算力市場規(guī)模有多大,光計算的機會就有多大?!蓖鯙{表示。

提出“等效光算力”標(biāo)準(zhǔn):讓參數(shù)更能體現(xiàn)實際性能
隨著產(chǎn)品陸續(xù)落地,那如何衡量其性能指標(biāo)呢?在電子芯片領(lǐng)域,業(yè)界通常講某款 AI 芯片算力有多少 TOPS,但即便 TOPS 相同,在不同精度下、不同架構(gòu)下也是完全不同的,而在光子芯片領(lǐng)域,這個問題變得更加混亂,甚至連 TOPS 的定義都完全不同。
“出于這個原因,我們從實際應(yīng)用的角度思考,如何找到一個比單純峰值算力更能夠體現(xiàn)芯片實際性能的參數(shù)來供大家參考?”孟懷宇說道,“于是,我們提出了‘等效光算力’的概念,其中包含三個參數(shù),一個是峰值算力,然后加入了兩個修正值,輸出精度和權(quán)重刷新。”
具體來說,一方面,雖然在 8bit,4bit 和 1bit 輸出精度下都能擁有同樣的 TOPS,顯然不同精度下的實用價值是不一樣的,畢竟更高的精度付出了更大的代價;另一方面,從本質(zhì)上來講,可編程的設(shè)備才能稱得上是計算機,權(quán)重刷新速度,代表能夠以多快的速度刷新其每個矩陣的參數(shù),可以描述光電混合計算卡的可編程性有多強。
“比如相機鏡頭也可以完成一些光信號的處理,但是它完全沒有可編程性,更不可能跑 ResNet50,所以不能稱之為光子計算機?!彼e例說。
“曦智科技成立之初,我們的目標(biāo)就是把光計算變成一種能夠付諸實際應(yīng)用的可以大規(guī)模量產(chǎn)的產(chǎn)品。”沈亦晨補充道,“片面地去夸大峰值算力,很多時候并不能代表真實性能。所以,我們除了峰值算力以外,融入了精度和可編程性兩個參數(shù)指標(biāo),希望這種綜合算力評價方法能更加全面、真實、客觀地展示光計算芯片實際價值,同時也能讓業(yè)界全面了解光計算的優(yōu)勢和局限。”
“其實,如果單純?yōu)榱藳_高峰值算力,完全可以用最低的精度和最不可編程的硬件實現(xiàn)超高的峰值算力,但這樣做犧牲的是應(yīng)用性和落地性;相反的,想要提高應(yīng)用性,增加精度的代價也是指數(shù)級的。”他補充說。
“光計算和電計算兩種計算范式存在本質(zhì)不同:精度越高,對于光計算而言其難度是呈指數(shù)級上升,對于電計算而言其難度只是呈線性上升。當(dāng)然,我們也希望整個算法會越來越往低精度發(fā)展,因為當(dāng)算法的精度需求越低的時候,光計算的優(yōu)勢就愈發(fā)明顯?!彼忉屨f。

公開技術(shù)路線,期待更多人加入光電混合生態(tài)
前不久的全球光通信大會讓沈亦晨感受頗多?!霸趧?chuàng)新光電融合方面,國內(nèi)擁有更好的機會?!彼毖?。
“相較于電計算,光計算國內(nèi)外差距并不算大,基本處于同一進度,而這帶來的是光計算在國內(nèi)的可應(yīng)用性和可落地性要遠遠高于海外?!彼硎荆皣鴥?nèi)的算力市場更像是處于‘群雄逐鹿’的時期,并不存在壟斷性的寡頭,所以這其中就蘊含了大量創(chuàng)新的機會。中國可以基于自身需求來開辟一條新的道路?!?/p>
”光計算在中國有更大的可能性開辟出一條新道路,讓我們更快速地實現(xiàn)商業(yè)落地?!巴鯙{補充道。
所謂“一花獨放不是春,百花齊放春滿園”。正如本文開頭沈亦晨所說的那樣,希望通過開源的方式、以開放的態(tài)度,把整個光計算產(chǎn)業(yè)的積極性調(diào)動起來,團結(jié)合作方能創(chuàng)造出更大的生態(tài)價值。
參考資料:
1.https://www.nature.com/articles/s41586-025-08786-6
2.https://www.nature.com/articles/nphoton.2017.93
3.https://www.xztech.ai/index.php/product/pace-photonic-arithmetic-computing-engine-ai.html
4.https://www.xztech.ai/index.php/product/TIANSHU.html
5.https://www.xztech.ai/index.php/tech.html#oMAC
6.https://www.xztech.ai/index.php/fabric/Fabrics.html
7.https://mp.weixin.qq.com/s/fpkbnAGFmPDsKJI7o2iWPg
8.https://mp.weixin.qq.com/s/xssy4dlPv_u8awQcjpkffw
運營/排版:何晨龍
熱門跟貼