打開網(wǎng)易新聞 查看精彩圖片

分子的理化性質(zhì),如前線軌道能級、化學(xué)鍵能、光譜特征等,構(gòu)成了理解和預(yù)測分子化學(xué)行為的基礎(chǔ)。分子理化性質(zhì)的精準(zhǔn)認(rèn)識,是人類探索分子世界的重要途徑之一,不僅有助于深入理解化學(xué)反應(yīng)的微觀機(jī)制,還能夠有效指導(dǎo)新反應(yīng)的設(shè)計與開發(fā),是化學(xué)科學(xué)研究的長期焦點(diǎn)之一。

隨著化學(xué)數(shù)據(jù)的不斷積累和人工智能技術(shù)的顯著進(jìn)步,機(jī)器學(xué)習(xí)方法在化學(xué)中的應(yīng)用取得了顯著進(jìn)展,在分子理化性質(zhì)的預(yù)測上展現(xiàn)了重要潛力。基于大規(guī)模的分子性質(zhì)數(shù)據(jù)與創(chuàng)新的分子建模架構(gòu),人工智能模型能夠成功捕捉分子結(jié)構(gòu)與理化性質(zhì)之間的高維聯(lián)系,并據(jù)此準(zhǔn)確預(yù)測分子性質(zhì)。在QM9等代表性的分子性質(zhì)數(shù)據(jù)集上,前沿的機(jī)器學(xué)習(xí)模型不僅在預(yù)測精度上達(dá)到了媲美傳統(tǒng)量化計算的水平,同時在計算效率上實(shí)現(xiàn)了幾何級數(shù)的增長。分子性質(zhì)的智能預(yù)測為化學(xué)家認(rèn)識和探索化學(xué)世界提供了全新的策略,不僅將加速化學(xué)研究的步伐,也為醫(yī)藥、材料等相關(guān)學(xué)科提供了新的助力。

本文聚焦于有機(jī)分子的理化性質(zhì)預(yù)測,不涉及藥化性質(zhì)等生物活性分子的應(yīng)用場景,從數(shù)據(jù)集、代表性場景等方面探討該領(lǐng)域的前沿進(jìn)展,并就領(lǐng)域的研究現(xiàn)狀和挑戰(zhàn)進(jìn)行總結(jié)和展望。

PART.01

有機(jī)分子理化性質(zhì)數(shù)據(jù)庫與數(shù)據(jù)集

有機(jī)分子的結(jié)構(gòu)復(fù)雜、性質(zhì)多樣,共同組成了一個關(guān)于理化性質(zhì)的龐大構(gòu)效空間,成為了機(jī)器學(xué)習(xí)建模的數(shù)據(jù)源泉。本節(jié)簡要概述了代表性的有機(jī)分子理化性質(zhì)數(shù)據(jù)庫與數(shù)據(jù)集 ( 表1 ) 。

表1 代表性分子理化性質(zhì)數(shù)據(jù)庫與數(shù)據(jù)集

打開網(wǎng)易新聞 查看精彩圖片

PART.02

機(jī)器學(xué)習(xí)方法

自1956年達(dá)特矛斯會議首次提出人工智能概念,至2010年深度學(xué)習(xí)技術(shù)的興起,機(jī)器學(xué)習(xí)方法持續(xù)演進(jìn)與進(jìn)步。2022年,ChatGPT的推出進(jìn)一步揭示了AI在眾多領(lǐng)域的廣泛應(yīng)用潛力。這些新興的機(jī)器學(xué)習(xí)方法為有機(jī)分子理化性質(zhì)的預(yù)測開辟了新的研究路徑。本節(jié)將概述有機(jī)分子理化性質(zhì)預(yù)測中普遍采用的機(jī)器學(xué)習(xí)流程,并介紹當(dāng)前領(lǐng)域內(nèi)一些代表性的分子編碼、算法架構(gòu)與機(jī)器學(xué)習(xí)策略。

2.1

機(jī)器學(xué)習(xí)流程簡介

傳統(tǒng)的判別式監(jiān)督學(xué)習(xí)在有機(jī)分子理化性質(zhì)預(yù)測中應(yīng)用廣泛,通過在數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到一個模型來聯(lián)系數(shù)據(jù)集中的輸入和輸出,進(jìn)而建立分子結(jié)構(gòu)與其理化性質(zhì)之間的數(shù)學(xué)模型并用于新分子的性質(zhì)預(yù)測。圖1描述了數(shù)據(jù)驅(qū)動理化性質(zhì)預(yù)測的常見流程.

打開網(wǎng)易新聞 查看精彩圖片

圖1 分子性質(zhì)機(jī)器學(xué)習(xí)建模的基本流程

2.2

機(jī)器學(xué)習(xí)方法進(jìn)展

機(jī)器學(xué)習(xí)的持續(xù)發(fā)展促進(jìn)了有機(jī)分子理化性質(zhì)預(yù)測的精確度和效率的顯著提升。目前,多種機(jī)器學(xué)習(xí)模型已被應(yīng)用于這一領(lǐng)域。為了高效利用數(shù)據(jù)并提高模型的預(yù)測性能,研究者們探索了多種分子編碼與機(jī)器學(xué)習(xí)算法。本小節(jié)簡要概述領(lǐng)域前沿的分子編碼、神經(jīng)網(wǎng)絡(luò)(NN)框架以及機(jī)器學(xué)習(xí)方法。

PART.03

具體機(jī)器學(xué)習(xí)模型在有機(jī)分子理化性質(zhì)預(yù)測上的應(yīng)用

近年來,圍繞如光譜性質(zhì)、軌道能量、pKa、BDE、氧化還原電勢、Mayr方程參數(shù)等代表性的有機(jī)分子理化性質(zhì),機(jī)器學(xué)習(xí)建模的精度和泛化能力取得了長足的進(jìn)步。

打開網(wǎng)易新聞 查看精彩圖片

圖2 光譜性質(zhì)預(yù)測的部分最近進(jìn)展. (a) NN模型快速預(yù)測酰胺I帶紅外譜圖的工作流程; (b) NN模型預(yù)測氨基酸的拉曼光譜; (c) 全自旋系統(tǒng)精準(zhǔn)預(yù)測的工作流程

圖3 分子軌道能量預(yù)測的部分最近進(jìn)展. (a) 利用軌道加權(quán)平均方法預(yù)測軌道能量和位置的原子神經(jīng)網(wǎng)絡(luò)(AtNN)示意圖. (b) 機(jī)器學(xué)習(xí)方法快速準(zhǔn)確地估計有機(jī)光伏材料特性

打開網(wǎng)易新聞 查看精彩圖片

圖4 pKa與BDE預(yù)測的部分最近進(jìn)展. (a) 使用NN或XGBoost建立整體pKa預(yù)測模型的工作流程. (b) 使用 ANI-2x 獲得的神經(jīng)網(wǎng)絡(luò)特征進(jìn)行蛋白質(zhì)pKa預(yù)測. (c) 預(yù)測BDE的GCN結(jié)構(gòu)概述

打開網(wǎng)易新聞 查看精彩圖片

圖5 氧化還原電勢與Mayr方程參數(shù)預(yù)測的部分最近進(jìn)展. (a) 機(jī)器學(xué)習(xí)加速氧化還原電勢預(yù)測的流程. (b) 通過機(jī)器學(xué)習(xí)研究親核性和親電性的一般工作流程

PART.04

總結(jié)與展望

近年來,隨著化學(xué)數(shù)據(jù)的不斷積累和人工智能技術(shù)的顯著進(jìn)步,數(shù)據(jù)驅(qū)動的有機(jī)分子理化性質(zhì)預(yù)測經(jīng)歷了跨越式的發(fā)展。在光譜性質(zhì)、軌道能量、pKa、鍵解離能(BDE)、氧化還原電勢以及Mayr參數(shù)等關(guān)鍵的分子性質(zhì)方面,機(jī)器學(xué)習(xí)技術(shù)已經(jīng)展示出了其卓越的預(yù)測能力。這些工作不僅能夠在部分例子上達(dá)到了與傳統(tǒng)量子化學(xué)計算相媲美的精度水平,而且在效率上實(shí)現(xiàn)了顯著的提升,使得海量的分子性質(zhì)預(yù)測成為了可能。這種新型的智能預(yù)測工具不僅將加速化學(xué)研究的步伐,而且為功能分子的設(shè)計和預(yù)測提供了強(qiáng)有力的支持,有望推動化學(xué)與材料科學(xué)的快速發(fā)展。

盡管分子性質(zhì)的智能預(yù)測取得了顯著進(jìn)步,該領(lǐng)域仍面臨一些關(guān)鍵的挑戰(zhàn)和局限。首先,標(biāo)準(zhǔn)化且大規(guī)模的分子性質(zhì)數(shù)據(jù)庫的缺乏限制了機(jī)器學(xué)習(xí)模型的訓(xùn)練和驗證。相對于理論上1060數(shù)量級的分子化學(xué)空間,現(xiàn)有的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不足以覆蓋廣泛的化學(xué)多樣性。其次,盡管機(jī)器學(xué)習(xí)模型在預(yù)測精度和效率上取得了一定的平衡,但這種平衡尚未達(dá)到完全可以取代傳統(tǒng)的DFT計算的水平。特別是對于DFT難以處理的復(fù)雜體系,機(jī)器學(xué)習(xí)預(yù)測也難以勝任。最后,目前的預(yù)測建模工作與新穎功能分子設(shè)計的聯(lián)系并不緊密,多數(shù)研究停留在數(shù)據(jù)集本身的建模展示階段,而未能實(shí)質(zhì)性地應(yīng)用于新功能分子的創(chuàng)造和設(shè)計中,因此在化學(xué)領(lǐng)域的影響力和共識還需進(jìn)一步提升。

展望未來,為了充分利用機(jī)器學(xué)習(xí)在分子科學(xué)領(lǐng)域的潛力,可以從以下幾個方向努力:一是構(gòu)建更全面和標(biāo)準(zhǔn)化的分子性質(zhì)數(shù)據(jù)庫,以支持更復(fù)雜的模型訓(xùn)練和更廣泛的化學(xué)空間探索。二是開發(fā)基于化學(xué)理論和原理的人工智能模型框架,而非僅僅對現(xiàn)有處理文字或圖像的AI技術(shù)進(jìn)行簡單的修改?;趯瘜W(xué)過程本質(zhì)的理解,將這些原理融合到算法中,以更精確地模擬和預(yù)測復(fù)雜的分子行為。三是加強(qiáng)預(yù)測模型與實(shí)驗化學(xué)家的互動,將模型預(yù)測更直接地應(yīng)用于新分子的設(shè)計和合成,以真正實(shí)現(xiàn)機(jī)器學(xué)習(xí)在化學(xué)創(chuàng)新中的應(yīng)用。我們充分相信,在數(shù)據(jù)、建模和應(yīng)用的協(xié)力發(fā)展下,分子科學(xué)將在AI時代迎來更大的突破。

孫一舟,湯繆炅,張碩卿*,洪鑫*. 數(shù)據(jù)驅(qū)動的有機(jī)分子理化性質(zhì)預(yù)測. 科學(xué)通報, 2025, 70(4-5): 492–507

https://doi.org/10.1360/TB-2024-0812

轉(zhuǎn)載、投稿請留言

| 關(guān)注科學(xué)通報 | 了解科學(xué)前沿