色譜技術(shù)自20世紀(jì)初提出以來,已成為化合物分離與分析的核心方法。其基于不同組分在流動相與固定相間的親和力差異實現(xiàn)有效分離。從最初的紙色譜到如今的高效液相色譜(HPLC)和氣相色譜(GC),色譜技術(shù)的每一次進(jìn)步都極大促進(jìn)了化學(xué)、生物學(xué)及環(huán)境科學(xué)等多領(lǐng)域的研究發(fā)展。同時,人工智能(AI)尤其是機器學(xué)習(xí)(ML),在化學(xué)領(lǐng)域展現(xiàn)出強大的數(shù)據(jù)處理和分析能力,被廣泛應(yīng)用于逆合成分析、反應(yīng)產(chǎn)率預(yù)測、化學(xué)動力學(xué)機理解析等方面。
色譜分析的核心挑戰(zhàn)在于準(zhǔn)確預(yù)測和確定色譜條件。傳統(tǒng)方法通常依賴于經(jīng)驗判斷及反復(fù)試驗,通過試錯過程逐步積累分析知識。然而,AI的引入為這一領(lǐng)域帶來了創(chuàng)新性解決方案,因為它擁有基于數(shù)據(jù)學(xué)習(xí)的模型預(yù)測能力,可以快速進(jìn)行色譜條件的虛擬篩選,從而有效降低試錯的頻率和成本。此外,AI在提升分析的準(zhǔn)確性和效率方面展現(xiàn)了明顯的優(yōu)勢,特別是在處理傳統(tǒng)色譜技術(shù)難以應(yīng)對的復(fù)雜樣本時,其價值更加顯著。在色譜技術(shù)領(lǐng)域,ML的應(yīng)用主要集中在數(shù)據(jù)的高效處理和精確解析上,包括優(yōu)化色譜峰的識別、提升分離效率以及精確預(yù)測色譜條件等方面。色譜技術(shù)的高分辨率與AI的數(shù)據(jù)處理能力的結(jié)合,不僅開辟了實現(xiàn)更快、更準(zhǔn)確、成本效益更高分析方法的新路徑,也滿足了日益增長的復(fù)雜化合物分析需求。
保留值是由分子與色譜柱固定相及流動相之間的相互作用決定的,因此可以依據(jù)分子結(jié)構(gòu)和實驗條件來預(yù)測保留值,從而輔助分子鑒定和色譜條件優(yōu)化。近十年來,基于ML的保留值預(yù)測模型得到廣泛報道,這些模型通常被稱為定量結(jié)構(gòu)保留關(guān)系(quantitative structure-retention relationship,QSRR)模型,開發(fā)QSRR模型是AI4Chromatography研究的核心所在。
本文將重點介紹AI4Chromatography研究工作流,并通過詳述AI算法在各種色譜問題中的典型應(yīng)用案例,幫助讀者深入了解這一領(lǐng)域。
PART.01
AI4Chromatography研究的工作流
在AI4Chromatography研究中,研究要素涵蓋數(shù)據(jù)、計算支持及硬件自動化支持三個方面。其研究流程如 圖1 所示。首先進(jìn)行色譜數(shù)據(jù)的收集,然后對分子及色譜實驗條件進(jìn)行詳盡的特征工程處理。接著,使用機器學(xué)習(xí)框架構(gòu)建并訓(xùn)練模型。最后,通過特征重要性分析和相關(guān)性分析等方法進(jìn)行模型的可解釋性研究,以提出新的化學(xué)見解。

圖1 AI4Chromatography研究流程示意圖
PART.02
AI在色譜研究中的應(yīng)用
2.1
AI在TLC中的應(yīng)用
薄層色譜法(thin layer chromatography,TLC)是一種分離混合物中各組分的有效技術(shù)。在此方法中,待分離組分在流動相(即溶劑)的作用下,沿固定相表面移動。由于組分與固定相的親和力差異,各組分的移動速度不同,進(jìn)而實現(xiàn)分離。

圖2 結(jié)合機器人技術(shù)和ML模型進(jìn)行Rf值預(yù)測. (a) 開發(fā)的自動化TLC平臺有助于高通量實驗從而產(chǎn)生標(biāo)準(zhǔn)化的TLC數(shù)據(jù); (b) 使用分子指紋、分子描述符和溶劑特征來表示TLC 過程; (c) Ensemble模型在訓(xùn)練集未見化合物上預(yù)測的R2為0.887,通過特征重要性分析發(fā)現(xiàn)對Rf值影響最大的分子描述符為TPSA
2.2
AI在液相色譜中的應(yīng)用
液相色譜法(LC)是利用液態(tài)流動相在固定相中的流動來分析和分離化合物的技術(shù),適用于極性和非極性化合物的鑒定與定量。
圖3 使用 QGeoGNN 預(yù)測 HPLC的RT. (a)通過NLP 批量提取 644 篇論文的RT數(shù)據(jù),以及分子信息和色譜條件; (b) 將分子表示為原子-鍵圖和鍵-角圖,并且嵌入實驗條件和MD,用以全面表示分子的三維信息,從而實現(xiàn)對手性對映體的區(qū)分. (c) 手性固定相填充物的粒徑、基體、取代基和連接類型(固定化或涂覆)都會影響HPLC柱的手性識別能力,需在ML建模過程中考慮。內(nèi)徑和柱長也會影響手性識別能力,但在商業(yè)HPLC柱中這些參數(shù)是保持不變的
2.3
AI在氣相色譜中的應(yīng)用
GC是一種用于分析和分離易揮發(fā)化合物的色譜技術(shù),其通過控制氣體流動相在固定相(即色譜柱)內(nèi)的流動實現(xiàn)分離。

圖4 RI預(yù)測模型的架構(gòu). (a)模型示意圖 首先將分子的SMILES表示為one-hot矩陣,其次使用CNN進(jìn)行特征提取,池化后的特征輸入到全連接層進(jìn)行RI預(yù)測; (b)模型參數(shù)設(shè)定方案
2.4
AI在其他色譜中的應(yīng)用
疏水相互作用色譜(hydrophobic interaction chromatography,HIC)是一種基于分析物與色譜介質(zhì)疏水性區(qū)域的相互作用進(jìn)行分離的技術(shù)。固定相通常含有疏水基團,流動相則為水溶性緩沖液。通過調(diào)整流動相的離子強度或加入有機溶劑,可控制分析物與固定相的相互作用,進(jìn)而調(diào)節(jié)分析物的RT。
凝膠滲透色譜(gel permeation chromatography,GPC)是一種專門用于測定高分子物質(zhì)分子量分布的技術(shù)。其工作原理依賴于分子尺寸的分離,而非分子間的相互作用力。Nagy等人開發(fā)了兩種ANN模型,成功地從GPC數(shù)據(jù)中提取共聚物的詳細(xì)信息,包括分子量和組成。
離子交換色譜技術(shù)(ion exchange chromatography,IEC)基于分析物離子與色譜柱填料上離子交換基團之間的親和力差異進(jìn)行分離,被廣泛應(yīng)用于蛋白質(zhì)、肽、核酸等生物大分子的分離與純化。Giese等人應(yīng)用線性回歸(linear regression,LR)、ANN等模型預(yù)測親水性強陰離子交換色譜中肽的RT,并通過特征重要性分析發(fā)現(xiàn)帶電殘基是RT的主要影響因素。Nikita等人采用強化學(xué)習(xí)(reinforcement learning,RL)優(yōu)化陽離子交換色譜的工藝流速,設(shè)定獎勵函數(shù)后,RL能推薦最優(yōu)流速以實現(xiàn)產(chǎn)量最大化。
PART.03
展望
盡管AI4Chromatography研究已得到了初步的發(fā)展,但仍然存在著許多問題亟待解決,下面將從3個方面分析AI4Chromatography研究的挑戰(zhàn)與未來發(fā)展方向:
(1)數(shù)據(jù)困境. 高質(zhì)量、大數(shù)據(jù)是AI4Chromatography研究的根本。目前,大部分QSRR研究依賴于數(shù)據(jù)庫和文獻(xiàn),但部分?jǐn)?shù)據(jù)庫的不開源性和文獻(xiàn)中色譜條件描述的不一致性,加之?dāng)?shù)據(jù)分布的不均勻性,給ML研究帶來了困難。因此,未來應(yīng)當(dāng)著力推進(jìn)實驗室自動化技術(shù),以實現(xiàn)高通量的標(biāo)準(zhǔn)化數(shù)據(jù)采集。例如,我們課題組已在自動化TLC分析平臺結(jié)合AI應(yīng)用方面進(jìn)行了初步研究。同時,亦應(yīng)致力于開發(fā)課題組色譜數(shù)據(jù)共享平臺,建設(shè)AI4Chromatography研究社區(qū)和開源色譜數(shù)據(jù)庫,以形成健康的研究生態(tài)環(huán)境,匯聚眾智。
(2)AI4Chromatography模型的發(fā)展方向. AI4Chromatography研究已逐漸發(fā)展為硬編碼與軟編碼相結(jié)合的方式。硬編碼即在模型中直接應(yīng)用預(yù)設(shè)的固定特征,如MD計算就屬于此范疇。目前,主流特征篩選算法包括卡方/方差過濾、PCA、GA、蒙特卡洛方法等,未來需開發(fā)更高效的特征篩選算法。軟編碼則指模型訓(xùn)練過程中自動從數(shù)據(jù)學(xué)習(xí)和提取特征的方法,例如CNN自動提取SMILES特征、GNN提取圖特征等。當(dāng)前,隨著ChatGPT的發(fā)展,基于注意力機制的Transformer模型已經(jīng)吸引了化學(xué)研究者的關(guān)注,它是一種軟編碼解決方案,在處理序列數(shù)據(jù)方面展現(xiàn)出顯著優(yōu)勢。然而,利用Transformer的AI4Chromatography研究尚少,這將是未來重點發(fā)展方向之一,目標(biāo)是開發(fā)適用于色譜領(lǐng)域的大模型。此外,未來的主要發(fā)展方向還應(yīng)包括半監(jiān)督學(xué)習(xí)(如偽標(biāo)記技術(shù)等)、多模態(tài)學(xué)習(xí)、遷移學(xué)習(xí),這些方法可最大限度地利用有限的色譜數(shù)據(jù),并實現(xiàn)模型在不同色譜系統(tǒng)中的有效應(yīng)用。
(3)應(yīng)大力發(fā)展色譜知識嵌入和知識發(fā)現(xiàn)技術(shù). 目前的AI4Chromatography算法普遍缺少對物理概念的整合,主要依賴于從數(shù)據(jù)中識別模式或規(guī)律。這種方法可能導(dǎo)致得出的結(jié)果違背物理定律,進(jìn)而影響模型的收斂性和穩(wěn)定性。因此,如何將色譜領(lǐng)域知識嵌入到AI算法中,構(gòu)建物理合理、數(shù)學(xué)精確、計算高效的模型,是未來的重大挑戰(zhàn)。例如,我們課題組構(gòu)建了一個物理約束神經(jīng)網(wǎng)絡(luò)(physics-informed neural network,PINN),將TLC的單調(diào)規(guī)則納入損失函數(shù),同時還構(gòu)建了一個硬約束,通過 sigmoid 激活函數(shù)將輸出限制為 (0,1),使得與Rf 值的現(xiàn)實世界行為保持一致。
另外,AI4Chromatography研究的最終目標(biāo)是通過QSRR模型學(xué)習(xí)新知識和規(guī)則,以促進(jìn)科學(xué)發(fā)現(xiàn)。然而,神經(jīng)網(wǎng)絡(luò)因其“黑箱”特性而經(jīng)常受到詬病,其模型可解釋性方面的研究仍然不足。未來研究的重點應(yīng)是發(fā)展基于AI算法的知識發(fā)現(xiàn)技術(shù),從數(shù)據(jù)中挖掘尚未被發(fā)現(xiàn)的知識,以突破現(xiàn)有的認(rèn)知限制。其中主要的策略包括稀疏回歸、符號數(shù)學(xué)等。例如,Jiang等人利用SISSO方法獲得了譜構(gòu)效關(guān)系的簡明數(shù)學(xué)公式,該公式具有較強的可解釋性,實現(xiàn)了跨不同系統(tǒng)的知識遷移。
我們對未來的愿景是:通過實驗室自動化快速獲取色譜數(shù)據(jù),研究人員利用這些高質(zhì)量的數(shù)據(jù)構(gòu)建具有知識嵌入的AI算法,并通過知識發(fā)現(xiàn)技術(shù),發(fā)現(xiàn)新的色譜知識和規(guī)則,進(jìn)而進(jìn)一步指導(dǎo)算法設(shè)計,形成閉環(huán)。AI4Chromatography研究領(lǐng)域蘊含著豐富的探索潛力,我們期望本文分享的洞見與觀點能激發(fā)研究人員的靈感,共同推動該領(lǐng)域的進(jìn)步與發(fā)展。
林京龍, 莫凡洋*. 人工智能賦能色譜技術(shù)研究. 科學(xué)通報, 2025, 70(4-5): 481–491
https://doi.org/10.1360/TB-2024-0184
轉(zhuǎn)載、投稿請留言
| 關(guān)注科學(xué)通報 | 了解科學(xué)前沿
熱門跟貼