劉友權(quán) 李坤 唐永帆 吳文剛 王道成 張燕 孫川
1.中國(guó)石油西南油氣田公司天然氣研究院 2.四川大學(xué)化學(xué)學(xué)院
抗腐蝕是油氣工業(yè)發(fā)展的一個(gè)極其重要的問(wèn)題,其中添加緩蝕劑是一種極為有效的防腐蝕措施[1]。緩蝕劑是一種當(dāng)它以適當(dāng)?shù)臐舛群托问酱嬖谟诃h(huán)境中時(shí),可以防止或減緩腐蝕的化學(xué)物質(zhì)或復(fù)合物[2]。緩蝕劑添加于腐蝕介質(zhì)中大大降低金屬腐蝕速率的現(xiàn)象,稱(chēng)為緩蝕作用。緩蝕作用的大小通常采用緩蝕效率(IE)來(lái)表示:
(1)
式中:V0為未加入緩蝕劑時(shí)金屬的腐蝕速率,mm/a;V為加入緩蝕劑后金屬的腐蝕速率,mm/a。
緩蝕效率越大,緩蝕劑的阻礙或延緩腐蝕的效果就越好。
目前,對(duì)于有機(jī)緩蝕劑的分子結(jié)構(gòu)與緩蝕性能的關(guān)系研究基本上是基于量子化學(xué)的計(jì)算方法[3-7]。另外,Camacho-Mendoza 等運(yùn)用密度泛函理論對(duì)不同種類(lèi)緩蝕劑的構(gòu)效關(guān)系做了較為深入的電化學(xué)分析[8];Li等探討了影響苯并咪唑衍生物QSAR模型效果的量子化學(xué)參數(shù),使用主成分分析進(jìn)行特征壓縮后,利用基于徑向基核函數(shù)的支持向量機(jī)方法建模,結(jié)果證實(shí)量子化學(xué)參數(shù)與緩蝕效率之間存在著非線(xiàn)性關(guān)系[9]。Shirazi等從分子自身結(jié)構(gòu)出發(fā),提出了一種基于簡(jiǎn)單的分子結(jié)構(gòu)因子的表征方法,然后采用多元線(xiàn)性回歸方法建模預(yù)測(cè)30個(gè)吡啶及咪唑衍生物的緩蝕效率。通過(guò)比較,該方法獲得了比傳統(tǒng)基于量子化學(xué)參數(shù)更好的預(yù)測(cè)效果[10]。
本研究從分子整體結(jié)構(gòu)特性出發(fā),對(duì)15種不同十一烷基咪唑啉衍生物緩蝕劑的緩蝕效率進(jìn)行研究。在基于量子化學(xué)特征基礎(chǔ)上,擴(kuò)大特征空間,從能量、電荷、分子表面與信息量、立體構(gòu)象與拓?fù)涮卣?個(gè)方面對(duì)唑啉類(lèi)緩蝕劑進(jìn)行分子表征,繼而利用隨機(jī)森林(RF)與多元線(xiàn)性回歸(MLR)分別對(duì)55個(gè)結(jié)構(gòu)參數(shù)進(jìn)行評(píng)估,從兩種方法得出的8個(gè)重疊參數(shù)進(jìn)行C83的組合,得到56個(gè)線(xiàn)性回歸模型,并選出了最優(yōu)模型。
數(shù)據(jù)來(lái)源:15種十一烷基咪唑啉衍生物的化學(xué)結(jié)構(gòu)與緩蝕效率數(shù)據(jù)來(lái)自文獻(xiàn)[5],其基本結(jié)構(gòu)見(jiàn)圖1。其中:R1為長(zhǎng)烷基疏水基團(tuán),固定為—CH2(CH2)9CH3;R2為親水基團(tuán),15種不同的親水基團(tuán)見(jiàn)表1。15種緩蝕分子的緩蝕性能采用失重法測(cè)定獲得,并利用做平行實(shí)驗(yàn)求均值的方法減小IE的測(cè)定誤差。為獲得每個(gè)分子的合理的初始構(gòu)象,首先利用ChemBio Office 軟件繪制咪唑啉化合物的2D分子結(jié)構(gòu),然后運(yùn)用Chem3D模塊中的分子力學(xué)(MM)方法對(duì)每個(gè)分子進(jìn)行結(jié)構(gòu)優(yōu)化,獲得其能量最低3D結(jié)構(gòu)。
表1 15種咪唑啉衍生物緩蝕劑的化學(xué)結(jié)構(gòu)Table 1 Chemical structures of 15 imidazoline corrosion inhibitors
利用Material Studio 8.0 的QSAR模塊計(jì)算得到55個(gè)分子結(jié)構(gòu)描述符,55個(gè)描述符分別表征了能量、電荷、分子表面與信息量、立體構(gòu)象與拓?fù)涮卣?個(gè)方面的特征。55個(gè)特征參數(shù)見(jiàn)表2。
本研究中,運(yùn)用了兩種不同的特征挑選方法實(shí)現(xiàn)對(duì)55個(gè)特征參數(shù)的評(píng)估與篩選。第一種方法是在RF中采用Gini重要性評(píng)估對(duì)每個(gè)特征進(jìn)行了重要性打分,每個(gè)特征的得分結(jié)果如表3所列,得分越高,說(shuō)明其越重要。 第二種方法是對(duì)每一個(gè)特征都做一次線(xiàn)性回歸,然后根據(jù)每一個(gè)MLR模型的相關(guān)系數(shù)(R2),挑選出最重要的特征,其R2值越高,說(shuō)明越重要,結(jié)果見(jiàn)表3。 從表3可看出:通過(guò)Gini重要性得分,排名前10的特征為第1、3、11、12、16、 20、26、31、40和44;根據(jù)線(xiàn)性回歸分析的R2值排序,前10的特征為1、11、12、16、20、26、31、40、46和50。兩種不同的評(píng)估方法得到的特征重要性重合率較好,有8個(gè)均在兩種方法中位列top10,說(shuō)明這8個(gè)特征對(duì)緩蝕效率具有重要的影響。
表2 由Material Studio計(jì)算得到的55個(gè)分子特征Table 2 55 structural descriptors calculated by Material Studio序號(hào)特征類(lèi)別特征參數(shù)12345能量/ΔETotal energyBinding energyHOMO energyLUMO energyLUMO-HOMO energy6789偶極矩/μTotal dipoleDipole xDipole yDipole z101112空間構(gòu)象/?Connolly surface areaConnolly surface occupied volumeSolvent surface area131415熱動(dòng)力學(xué)參數(shù)AlogPAlogP98Molecular refractivity1617181920212223242526信息量Information content (IC)Bond information content (BIC)Complementary information content (CIC)Structural information content (SIC)Edge adjacency/magnitudeEdge distance/magnitudeVertex adjacency/equalityVertex adjacency/magnitudeVertex distance/equalityVertex distance/magnitudeAtomic composition (total)2728293031323334353637383940414243444546474849505152535455拓?fù)渲笖?shù)Molecular flexibilityBalaban index JXBalaban index JYWiener indexZagreb indexKappa-1Kappa-2Kappa-3Kappa-1 (alpha modified)Kappa-2 (alpha modified)Kappa-3 (alpha modified)Subgraph counts (0): pathSubgraph counts (1): pathSubgraph counts (2): pathSubgraph counts (3): pathSubgraph counts (3): clusterSubgraph counts (3): chainChi (0)Chi (1)Chi (2)Chi (3): pathChi (3): clusterChi (3): chainChi (0) (valence modified)Chi (1) (valence modified)Chi (2) (valence modified)Chi (3): path (valence modified)Chi (3): cluster (valence modified)Chi (3): chain (valence modified)
表3 55個(gè)結(jié)構(gòu)特征重要性排名列表Table 3 Ranking list of the importance scores for 55 structural descriptors序號(hào)特征參數(shù)Gini重要性得分排名1相關(guān)系數(shù)(R2)排名21Total energy189.937 62610.747 112Binding energy3.735 578480.186 6423HOMO energy68.291 81840.188 8414LUMO energy41.846 727120.501 5225LUMO-HOMO energy35.940 065160.503 7216Total dipole16.820 683280.035 87477Dipole x15.574 455290.015 93488Dipole y32.156 727200.001 037519Dipole z30.945 463210.000 671 25210AlogP34.968 065180.484 72511AlogP9890.814 59220.605 7312Molecular refractivity52.691 34250.623 9213Connolly surface area9.427 134400.3253514Connolly surface occupied volume14.498 051300.443 13115Solvent surface area4.112 668470.233 13816Information content (IC)68.530 47430.601 1417Bond information content (BIC)28.390 891220.300 53718Complementary information content (CIC)13.370 623330.178 34319Structural information content (SIC)33.086 131190.358 23420Edge adjacency/magnitude50.714 07960.592 6621Edge distance/magnitude13.307 032340.539 31322Vertex adjacency/equality23.575 582250.525 71423Vertex adjacency/magnitude7.633 154440.524 61524Vertex distance/equality9.505 577390.520 71825Vertex distance/magnitude10.602 804370.539 91226Atomic composition (total)50.136 72570.559 71027Molecular flexibility6.024 963450.108 74628Balaban index JX25.452 984240.001 1485029Balaban index JY41.257 198130.010 094930Wiener index8.923 83410.509 52031Zagreb index49.317 55880.566 8932Kappa-113.703 143320.497 92333Kappa-23.263 887500.190 34034Kappa-35.498 997460.221 63935Kappa-1 (alpha modified)2.924 788520.465 72836Kappa-2 (alpha modified)3.279 507490.1424537Kappa-3 (alpha modified)2.935 844510.177 34438Subgraph counts (0): path8.817 162420.520 81739Subgraph counts (1): path17.205 305270.521 51640Subgraph counts (2): path44.953 418100.589 4741Subgraph counts (3): path44.424 737110.475 82642Subgraph counts (3): cluster8.262 96430.437 33243Subgraph counts (3): chain053-5344Chi (0)49.010 65990.5451145Chi (1)12.024 782360.487 12446Chi (2)41.077 853140.596 5547Chi (3): path22.923 926260.469 22748Chi (3): cluster9.594 495380.319 83649Chi (3): chain054-5450Chi (0) (valence modified)35.851 582170.569 8851Chi (1) (valence modified)14.205 253310.449 72952Chi (2) (valence modified)26.361 785230.518 31953Chi (3): path (valence modified)13.181 044350.448 43054Chi (3): cluster (valence modified)40.073 144150.433 33355Chi (3): chain (valence modified)055-55
為防止過(guò)擬合, MLR一般要求樣本數(shù)(n)與特征數(shù)(m)的比值在5左右。根據(jù)15個(gè)樣本數(shù),需要挑選出最多3個(gè)最重要的特征來(lái)表征這些分子。為尋找最優(yōu)的特征組合,從8個(gè)參數(shù)中隨機(jī)挑選出3個(gè)進(jìn)行組合,共組合了56個(gè)不同的特征子集,然后采用MLR進(jìn)行建模比較以篩選出最優(yōu)的特征子集。其結(jié)果比較見(jiàn)圖2。
從圖2可看到,P-value最低且R2最高的模型為最優(yōu)模型(用紅色點(diǎn)表示)。該模型的3個(gè)特征分別為T(mén)otal energy(Te)、Information content (Ic)、Molecular refractivity(Mr),其回歸模型見(jiàn)式(2),其R2為0.843 0,P-value=0.000 099 38。
IE=-5.517-0.010 1×Te+15.601 7×Ic+0.222×Mr
(2)
式中:Te為分子的總能量,代表分子的結(jié)構(gòu)穩(wěn)定性,由于每個(gè)分子的Te為負(fù)值,分子的結(jié)構(gòu)越穩(wěn)定,能量越低,則其緩蝕效率越高;Ic則反映了分子的連接性和支化度,與分子對(duì)稱(chēng)性和形狀有關(guān),通過(guò)該方程可以看出,分子對(duì)稱(chēng)性好,則Ic值高,其IE值就高;第3個(gè)關(guān)鍵描述符Mr為分子的折射率,折射率越高,則緩蝕效率越高。
通過(guò)本研究發(fā)現(xiàn),與以往基于復(fù)雜量子化學(xué)計(jì)算不同的是,盡管也計(jì)算得到了包括HOMO energy等量子化學(xué)參數(shù),但是把特征空間擴(kuò)大后,通過(guò)特征評(píng)估顯示其他的非量子化學(xué)參數(shù)也與緩蝕效率緊密相關(guān)。這與Shirazi等人的結(jié)論較類(lèi)似,他們通過(guò)對(duì)分子整體結(jié)構(gòu)進(jìn)行簡(jiǎn)單表征所建立的QSAR模型比基于量子化學(xué)參數(shù)的模型效果更好[13]。 根據(jù)最后模型,得到了每個(gè)緩蝕劑分子的預(yù)測(cè)結(jié)果,如表4所列。
從表4可看出,樣本O的預(yù)測(cè)相對(duì)誤差達(dá)到了18.9%,而其他的均在10%以下。 因此,姑且認(rèn)為該分子為奇異樣本,刪除該分子后,對(duì)剩余的14個(gè)分子進(jìn)行MLR建模,其R2值提高到了0.911。該結(jié)果說(shuō)明,該奇異樣本確實(shí)對(duì)模型的預(yù)測(cè)效果產(chǎn)生了偏置(bias)。進(jìn)一步刪除第二大偏差的H分子(相對(duì)誤差8.5%)后,剩余的13個(gè)分子的模型R2達(dá)到了0.93,模型顯示出很高的預(yù)測(cè)能力。
表4 15種咪唑啉衍生物緩蝕劑的實(shí)驗(yàn)緩蝕效率和預(yù)測(cè)緩蝕效率Table 4 List of predicted IE values for 15 imidazoline corrosion inhibitors樣本IE實(shí)驗(yàn)值IE預(yù)測(cè)值絕對(duì)誤差相對(duì)誤差A(yù)64.0160.379 942 983.630 057 0220.056 710 78B67.4369.158 123 8-1.728 123 8-0.025 628 412C79.3274.106 3065.213 693 9980.065 729 879D83.2182.151 248 361.058 751 6380.012 723 851E89.6387.290 463 272.339 536 7340.026 102 161F95.0397.122 576 26-2.092 576 257-0.022 020 165G59.7860.212 078 14-0.432 078 137-0.007 227 804H74.5469.049 360 316.490 639 6890.085 923 215I78.2479.354 408 61-1.114 408 611-0.014 243 464J62.7863.059 930 67-0.279 930 667-0.004 458 915K82.2877.244 060 515.035 939 4860.061 204 904L67.2167.291 971 38-0.081 971 377-0.001 219 631M72.1075.471 989 67-3.371 989 668-0.046 768 234N66.3369.966 591 02-3.636 591 017-0.054 825 735O58.1769.181 516 53-11.011 516 53-0.189 298 892
本研究用到的15個(gè)分子IE值均為實(shí)驗(yàn)方法測(cè)定獲取,其評(píng)價(jià)方法會(huì)存在一定的誤差。該研究結(jié)果是在假定實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)確的前提下得出的,如果有更準(zhǔn)確、更多的樣本數(shù)據(jù)可以獲取,那么該研究的結(jié)果有望進(jìn)一步得到修正與提高。
(1) 從能量、電荷、分子表面與信息量、立體構(gòu)象與拓?fù)涮卣?個(gè)方面對(duì)分子進(jìn)行結(jié)構(gòu)表征。結(jié)合隨機(jī)森林與線(xiàn)性回歸對(duì)55個(gè)結(jié)構(gòu)參數(shù)進(jìn)行了評(píng)估,篩選出了8個(gè)均在兩種方法中位列top10的特征,說(shuō)明兩種方法的篩選重合率較好,證明了8個(gè)重要性特征的可靠性。
(2) 從8個(gè)特征中挑選3個(gè)進(jìn)行隨機(jī)組合,構(gòu)建 56個(gè)MLR模型,從而篩選出了最優(yōu)的QSAR模型,其最優(yōu)的特征組合為T(mén)e、Ic與Mr,留一法的模型預(yù)測(cè)效果好,R2為0.911。
(3)Te、Ic、Mr與緩蝕效率具有較高的正相關(guān)性,分子結(jié)構(gòu)越穩(wěn)定、對(duì)稱(chēng)性好及折射率高,則其IE值就越高,為設(shè)計(jì)新型高效的緩蝕劑提供了理論指導(dǎo)。