
編輯|ScienceAI
自 20 世紀(jì)非線性動力學(xué)理論發(fā)展以來,如何從高維數(shù)據(jù)中提取可解釋的動態(tài)特征并進(jìn)行刻畫始終是復(fù)雜系統(tǒng)研究的核心挑戰(zhàn)。
傳統(tǒng)降維方法(如PCA、t-SNE、UMAP)雖能壓縮數(shù)據(jù)維度,但在保留時序動態(tài)信息方面存在困難,并且對異常值較為敏感,容易受到噪聲的干擾。
深度學(xué)習(xí)方法雖能捕捉非線性特征,但計算成本高且可解釋性差。例如在 ICU 患者監(jiān)護(hù)、胚胎發(fā)育、氣象變化預(yù)警等具有狀態(tài)臨界轉(zhuǎn)移的復(fù)雜動態(tài)場景中,迫切需要一種高效與穩(wěn)健的方法來捕捉早期預(yù)警信號。
近日,華南理工大學(xué)數(shù)學(xué)學(xué)院的陳培教授和劉銳教授團(tuán)隊,以及中國科學(xué)院生物化學(xué)與細(xì)胞生物學(xué)研究所 (現(xiàn)在上海交通大學(xué)數(shù)學(xué)科學(xué)學(xué)院/人工智能學(xué)院)的陳洛南教授團(tuán)隊合作,在《Advanced science》上發(fā)表了一項題為「Ultralow-dimensionality reduction for identifying critical transitions by spatial-temporal PCA」的最新研究成果。
團(tuán)隊開發(fā)了一種名為「時空主成分分析(spatial-temporal principal component analysis,stPCA)」的超低維動力學(xué)降維方法。該 stPCA 方法能夠通過單一隱變量實(shí)現(xiàn)高維時間序列的無損降維與狀態(tài)臨界轉(zhuǎn)變預(yù)警,可實(shí)現(xiàn)高維數(shù)據(jù)的動態(tài)刻畫和表征。

論文鏈接:https://doi.org/10.1002/advs.202408173
在現(xiàn)實(shí)世界中,眾多物理、生物等過程均可被視作高維非線性動態(tài)系統(tǒng),其中狀態(tài)的臨界轉(zhuǎn)變頻繁發(fā)生。
然而,由于這些系統(tǒng)復(fù)雜度極高,難以用明確的模型進(jìn)行描述,因此研究者們通常需要借助高維時間序列數(shù)據(jù)來分析其動態(tài)特性,尤其是識別臨界轉(zhuǎn)變前的征兆。
這一過程往往需要對數(shù)據(jù)進(jìn)行降維處理以及線性或非線性表示,這對于動態(tài)分析及動力學(xué)刻畫、模式識別和可視化至關(guān)重要。
針對以上問題,對于現(xiàn)行的 PCA、tSNE、UMAP 方法等,研究者開發(fā)的 stPCA 方法基于廣義 Takens 嵌入理論,將高維空間信息轉(zhuǎn)換為一維時間信息,利用非線性延遲嵌入理論,將高維時間序列數(shù)據(jù)的動態(tài)特性完整地映射到單一隱變量中,實(shí)現(xiàn)高維數(shù)據(jù)的動力學(xué)刻畫。
算法的優(yōu)化目標(biāo)由兩項組成:第一項最大化投影變量Z的方差,第二項確保投影后的 Hankel 矩陣Z滿足延遲嵌入條件。通過求解特征方程H(X)V=αV,可獲得變換矩陣W和一維投影z,其中H(X)是一個分塊三對角矩陣(圖1)。
這一過程不僅保留了原始高維數(shù)據(jù)的動力學(xué)特征,而且能夠通過解析求解的方式獲得該隱變量,避免了傳統(tǒng)迭代數(shù)值優(yōu)化算法對參數(shù)初始值的依賴,從而提高了計算效率和結(jié)果的穩(wěn)定性。
此外,該一維隱變量可被視為臨界點(diǎn)附近表征中心流形的近似量,因此可通過檢測該表征變量的波動性,識別具有余維1的分岔的動力系統(tǒng)中即將發(fā)生的狀態(tài)臨界轉(zhuǎn)變。

圖 1:stPCA 算法示意圖。
研究團(tuán)隊通過一系列實(shí)驗(yàn)驗(yàn)證了 stPCA 方法的有效性。首先,利用耦合 Lorenz 模型生成的合成時間序列數(shù)據(jù)集,在不同噪聲條件下進(jìn)行測試,結(jié)果表明 stPCA 能夠在強(qiáng)噪聲干擾下依然保持對動態(tài)系統(tǒng)的準(zhǔn)確表示,其降維后的單一隱變量與傳統(tǒng) PCA 方法等的多個主成分投影結(jié)果高度相似,且具有更強(qiáng)的抗噪性。
此外,stPCA 還被應(yīng)用于具有 Fold 和 Hopf 分叉的多節(jié)點(diǎn)網(wǎng)絡(luò)仿真模型等,成功檢測到了臨界轉(zhuǎn)變點(diǎn)前的早期預(yù)警信號(圖 2)。

圖 2:以具有 Hopf 分岔的 16 維動力系統(tǒng)的 16 節(jié)點(diǎn)模型為例。將原始的高維時間序列劃分為滑動窗口,一維潛在變量 z 是通過 stPCA 從每個滑動窗口獲得的。z 的 SD 是在滑動窗口中計算的,因?yàn)閰?shù) τ 和 λ 對于 16 節(jié)點(diǎn)模型會發(fā)生變化。
特別地,在 MIMIC-III 和 MIMIC-IV 數(shù)據(jù)庫 ICU 患者的真實(shí)數(shù)據(jù)應(yīng)用中,stPCA 表現(xiàn)出適用性和可靠性。通過對患者高維異質(zhì)性時間序列數(shù)據(jù)的降維分析,stPCA 能夠?yàn)槊课换颊咛峁﹤€性化的臨界狀態(tài)預(yù)警信號,為 ICU 患者的出院決策提供了量化參考(如圖 3 所示)。

圖 3:以肺炎和充血性心力衰竭患者為例,結(jié)合 stPCA 的降維結(jié)果和 2-5 個診斷相關(guān)指標(biāo),可以判斷患者是否應(yīng)該從 ICU 出院。紅色間期表示患者應(yīng)繼續(xù)接受 ICU 治療或觀察,而藍(lán)色間期表示患者病情相對穩(wěn)定,可以從 ICU 出院。
同時,stPCA 還成功應(yīng)用于單細(xì)胞胚胎發(fā)育數(shù)據(jù)集,識別出細(xì)胞命運(yùn)轉(zhuǎn)變的關(guān)鍵時刻,即分化為確定性內(nèi)胚層的臨界點(diǎn)(圖 4)。

圖4:檢測胚胎發(fā)育過程中的臨界點(diǎn)。(A) 細(xì)胞從多能狀態(tài)分化到中間內(nèi)胚層,最后分化到最終內(nèi)胚層 (DE) 細(xì)胞的生物過程。(B) 采用滑動窗口方案的潛變量 z 的 SD 曲線。結(jié)果表明,在分化過程中 36 小時突然增加。
總結(jié)而言,stPCA 作為一種超低維動力學(xué)降維方法,不僅在理論上具有堅實(shí)的數(shù)學(xué)基礎(chǔ),能夠完整地保留高維數(shù)據(jù)的動態(tài)特性,而且在實(shí)際應(yīng)用中展現(xiàn)出了適用性和穩(wěn)健性。
相較于傳統(tǒng)的降維方法,stPCA 在處理高維時間序列數(shù)據(jù)時具有其動力學(xué)降維的特殊優(yōu)勢:它通過解析方式得到的一維隱變量可有效地對復(fù)雜系統(tǒng)進(jìn)行動力學(xué)表征和刻畫,這使得在面對噪聲干擾和數(shù)據(jù)維度較高時,stPCA 能夠快速地識別到狀態(tài)臨界轉(zhuǎn)變點(diǎn)。
這一方法為復(fù)雜系統(tǒng)的研究、疾病診斷與治療決策、氣候變化預(yù)測等多個領(lǐng)域提供了一種全新的視角和量化分析工具,有望推動相關(guān)領(lǐng)域的研究和應(yīng)用取得更大的突破。
熱門跟貼