雷 斌, 臧蕓蕾, 薛志偉, 葛懿擎, 李 偉, 翟 倩, 焦 龍*
(1. 西安石油大學(xué)化學(xué)化工學(xué)院, 陜西 西安 710065; 2. 核工業(yè)二〇三研究所, 陜西 咸陽 712000; 3. 慶安集團(tuán)有限公司, 陜西 西安 710077)
全息定量構(gòu)效關(guān)系(hologram quantitative structure-activity relationship, HQSAR)是一種以分子的亞結(jié)構(gòu)片段(即分子全息)為結(jié)構(gòu)描述符的定量構(gòu)效關(guān)系(quantitative structure-activity relationship, QSAR)方法,具有建模簡便快速、預(yù)測準(zhǔn)確度高的特點,已廣泛應(yīng)用于化學(xué)、生物學(xué)、醫(yī)學(xué)等眾多領(lǐng)域[1-6]。HQSAR方法通常是建立分子全息描述符與樣品性質(zhì)之間的個體偏最小二乘(partial least squares, PLS)回歸模型。但個體回歸模型容易欠擬合和過擬合[7],為了獲得更準(zhǔn)確可靠的回歸模型,可以訓(xùn)練多個個體模型,通過一定的結(jié)合策略,形成一個綜合了多個個體模型的集成模型。這種綜合多個個體模型的方法稱為集成建模(ensemble modeling)。集成建模方法可以克服使用單一個體模型的缺陷,提高模型的預(yù)測能力[8-10],已經(jīng)成功應(yīng)用于QSAR建模、光譜分析、機(jī)器學(xué)習(xí)和人工智能等領(lǐng)域[11-14]。有必要研究能否應(yīng)用集成建模方法提高HQSAR模型的預(yù)測能力。
色譜保留指數(shù)(retention index, RI)是色譜分析中的重要參數(shù)[15,16]。醛酮化合物種類眾多,實驗測定其RI值的時間和經(jīng)濟(jì)成本高,不同化合物在不同極性固定相上具有不同的保留行為,有必要建立不同極性固定相上醛酮化合物的RI值QSAR模型[17-19]。DB-210和HP-Innowax固定相具有強(qiáng)極性和高的使用溫度上限,可用于醇類、硫醚類、脂類和醛酮類化合物色譜保留指數(shù)的測定。因此,本研究應(yīng)用集成建模結(jié)合HQSAR方法研究了醛酮化合物在DB-210和HP-Innowax固定相上的色譜保留指數(shù)QSAR模型。
用于研究的34種醛酮化合物(如表1所示)在2種不同極性固定相DB-210和HP-Innowax上的RI實驗值引自文獻(xiàn)[20]。將34種化合物隨機(jī)分為兩組:第Ⅰ組(Group Ⅰ)包括26種化合物;第Ⅱ組(Group Ⅱ)包括8種化合物。
(1a)
(1b)
(2)
(3a)
(3b)
表 1 34種醛酮化合物在兩種色譜柱上的保留指數(shù)實驗值[20]與預(yù)測值
1.2.1分子模型構(gòu)建及構(gòu)象優(yōu)化
1.2.2分子全息產(chǎn)生及HQSAR模型構(gòu)建
HQSAR方法將分子結(jié)構(gòu)劃分為包含所有可能結(jié)構(gòu)(線性、分支、環(huán)狀、搭接或重疊)的分子片段(molecular fragments),再將分子片段進(jìn)行編碼使之轉(zhuǎn)化為分子全息(molecular hologram)。分子結(jié)構(gòu)片段的特征主要由片段特性(fragment distinction, FD)和片段尺寸(fragment size, FS)兩個參數(shù)規(guī)定。FD參數(shù)可以選擇的值包括原子(atoms, A)、化學(xué)鍵(bonds, B)、連接(connections, C)、氫原子(hydrogen atoms, H)、手性(chirality, Ch)和供體/受體原子(donor/acceptor atoms, DA)。A可以區(qū)分不同類型的原子;B可以識別原子形成化學(xué)鍵之間的差異;C可以描述片段內(nèi)原子的雜化狀態(tài);Ch可以描述片段中原子和化學(xué)鍵的立體化學(xué)信息;H可以描述分子片段的氫鍵供體或受體情況[24]。FS參數(shù)值包括最小原子數(shù)(M)和最大原子數(shù)(N)。通常M的取值最小從2開始;N的取值須大于M,最大值一般為12且不超過分子的總原子數(shù)。通過環(huán)豐度檢驗算法(cyclic redundancy check, CRC)計算每個結(jié)構(gòu)特征碎片出現(xiàn)的頻率,將各個分子碎片映射為0~231的偽隨機(jī)整數(shù),使得每個分子可被表示為一定長度的整數(shù)串,進(jìn)而采用Hashing算法將它們轉(zhuǎn)換為具有相同長度的整數(shù)串,即為分子全息[25]。在SYBYL-X 2.0的HQSAR模塊中,分子全息長度(hologram lengths, HL)從系統(tǒng)默認(rèn)的6個值:97、151、199、257、307和353中進(jìn)行選擇。用PLS方法建立化合物分子全息與性質(zhì)之間的HQSAR回歸模型。通過調(diào)整FD、FS及全息長度等參數(shù)來優(yōu)化模型[26]。
1.2.3集成模型構(gòu)建
集成模型的構(gòu)建通常由兩個步驟組成:(1)建立一系列多樣化的個體模型(子模型); (2)采用適當(dāng)?shù)募梢?guī)則,對各子模型的預(yù)測結(jié)果進(jìn)行集成,得到集成(共識)結(jié)果。主要思路是通過多個模型的集成,個體模型的誤差可被其他多個個體模型所補(bǔ)償從而使得集成模型的整體性能優(yōu)于個體模型。要獲得好的集成模型,各子模型應(yīng)該具有一定的準(zhǔn)確度,且子模型應(yīng)該足夠多樣化。因此,本文采用由不同參數(shù)建立的個體HQSAR模型作為子模型(h1,h2,h3, …,hT)建立集成HQSAR模型,以各子模型預(yù)測值的算術(shù)平均值作為集成模型的預(yù)測結(jié)果,如式(4)所示:
(4)
式(4)中:hi(x)表示各子模型的預(yù)測值,T表示子模型的個數(shù)。
用外部測試集驗證和留一交叉驗證評估HQSAR模型的預(yù)測能力。外部測試集驗證以第Ⅰ組作為訓(xùn)練集,采用上述最佳建模條件建立不同固定相上的個體HQSAR模型,預(yù)測第Ⅱ組8個化合物的RI值,結(jié)果如表1及表4所示。用第Ⅰ組完成留一交叉驗證,即共進(jìn)行26次預(yù)測,每次選定一個樣本作為測試集,以其余25個樣本作為訓(xùn)練集,仍然采用上述最佳建模條件建立模型,依次預(yù)測26個醛酮化合物的RI值,結(jié)果如表1及表4所示。外部測試集驗證和留一交叉驗證結(jié)果表明醛酮化合物的分子全息描述符與RI值之間存在一定的定量關(guān)系,建立的HQSAR模型準(zhǔn)確可靠。與在固定相HP-Innowax上建立的模型相比,在固定相DB-210上所建立的最佳個體HQSAR模型準(zhǔn)確度更高。
表 4 個體HQSAR模型與集成HQSAR模型的統(tǒng)計參數(shù)
對34種醛酮化合物的HQSAR集成建模研究證明,醛酮化合物的分子結(jié)構(gòu)與RI值之間存在定量關(guān)系,可以建立醛酮化合物RI值的個體HQSAR模型。應(yīng)用集成建模方法對個體HQSAR模型進(jìn)行集成,則可以提高對RI值的預(yù)測準(zhǔn)確度。這說明集成建模是一種提高HQSAR模型穩(wěn)健性和準(zhǔn)確度的有效方法,HQSAR方法與集成建模方法相結(jié)合可以用于研究和預(yù)測醛酮化合物的RI值。