国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)傅里葉域轉(zhuǎn)換的分子性質(zhì)預(yù)測方法仿真

2023-03-11 05:02劉玉清
計算機(jī)仿真 2023年1期
關(guān)鍵詞:分子結(jié)構(gòu)性質(zhì)卷積

唐 漸,劉玉清

(西南醫(yī)科大學(xué)醫(yī)學(xué)與信息工程學(xué)院,四川 瀘州 646000)

1 引言

在生物信息學(xué)的大力推動下,分子作為關(guān)鍵的活性物質(zhì)[1],受到了物理、化學(xué)、生物、材料、計算機(jī)科學(xué)等多領(lǐng)域的高度關(guān)注,并逐漸演變?yōu)楸姸囝I(lǐng)域的熱點(diǎn)話題。生物分子所具備的性質(zhì)[2]不僅決定著國民的生命健康與安全,而且對生物自身的應(yīng)用與發(fā)展有著極其深遠(yuǎn)的影響,因此,有必要研究出一種快速且易于實(shí)現(xiàn)的分子性質(zhì)預(yù)測方法。

近幾年,相關(guān)領(lǐng)域研究人員在分子性質(zhì)預(yù)測方向取得了較好的成就。比如:譚露露等人[3]采用多特征融合圖卷積方法,就分子的生物活性展開預(yù)測;蘇敏儀等人[4]應(yīng)用應(yīng)用機(jī)器學(xué)習(xí)方法,針對藥物分子的解離速率常數(shù),構(gòu)建預(yù)測模型。盡管以上方法已經(jīng)取得了較好的應(yīng)用成果,但在預(yù)測的性質(zhì)類別上存在一定局限性。

為了解決以上問題,本文以圖神經(jīng)網(wǎng)絡(luò)為基本算法,提出分子性質(zhì)預(yù)測方法。在數(shù)據(jù)處理任務(wù)中,以圖神經(jīng)網(wǎng)絡(luò)[5]的表現(xiàn)最為突出,結(jié)合圖數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)。作為深度神經(jīng)網(wǎng)絡(luò)的泛化形式,圖神經(jīng)網(wǎng)絡(luò)現(xiàn)已廣泛應(yīng)用于生命科學(xué)、知識圖譜等重大領(lǐng)域。對于本文研究成效而言,圖神經(jīng)網(wǎng)絡(luò)依據(jù)與分子結(jié)構(gòu)之間的依賴關(guān)系,為分子性質(zhì)分析與預(yù)測提供了強(qiáng)大的建模助力,有助于加強(qiáng)模型預(yù)測性能;卷積優(yōu)化圖神經(jīng)網(wǎng)絡(luò)能賦予分子結(jié)構(gòu)圖由淺至深的特征,聚合更新的內(nèi)部傳輸機(jī)制使圖卷積神經(jīng)網(wǎng)絡(luò)更具靈活性,通過加強(qiáng)節(jié)點(diǎn)間的信息聚合與傳遞,有助于提升不規(guī)則圖數(shù)據(jù)的分子性質(zhì)預(yù)測準(zhǔn)度。

2 圖神經(jīng)網(wǎng)絡(luò)的構(gòu)建與優(yōu)化

2.1 圖神經(jīng)網(wǎng)絡(luò)

根據(jù)圖形種類的頂點(diǎn)-邊結(jié)構(gòu),構(gòu)建(賦權(quán))無向圖[6]、(賦權(quán))有向圖[7]、循環(huán)圖[8]等多種圖類型數(shù)據(jù),作為神經(jīng)網(wǎng)絡(luò)的輸入項(xiàng)來獲取輸出結(jié)果,即圖神經(jīng)網(wǎng)絡(luò)。假設(shè)任意類型圖G的頂點(diǎn)集合是V,邊集合是E,則圖G的表示形式如下所示

G=(V,E)

(1)

其中,圖G邊的方向有無主要取決于頂點(diǎn)間的方向依賴關(guān)系;圖頂點(diǎn)即神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)。

已知節(jié)點(diǎn)v的特征xv關(guān)聯(lián)于節(jié)點(diǎn)的真實(shí)標(biāo)簽,若想根據(jù)圖G的部分標(biāo)記節(jié)點(diǎn),預(yù)測出未標(biāo)記節(jié)點(diǎn)的標(biāo)簽,則采用下列表達(dá)式界定各網(wǎng)絡(luò)節(jié)點(diǎn)

(2)

(3)

(4)

其中,g表示輸出函數(shù)公式,即前饋全連接神經(jīng)網(wǎng)絡(luò)層。

2.2 圖卷積神經(jīng)網(wǎng)絡(luò)

分子結(jié)構(gòu)相對復(fù)雜,不規(guī)則數(shù)據(jù)較多,導(dǎo)致傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)無法處理圖中的非規(guī)則數(shù)據(jù)與邊緣信息,擾亂分子節(jié)點(diǎn)分布形式,影響節(jié)點(diǎn)間關(guān)系的精準(zhǔn)描述。因此,利用傅里葉變換方法[11]在圖神經(jīng)網(wǎng)絡(luò)中引入譜卷積,構(gòu)建圖卷積神經(jīng)網(wǎng)絡(luò)。

運(yùn)用圖拉普拉斯矩陣[12]的特征逆矩陣UT,通過下列表達(dá)式把輸入節(jié)點(diǎn)v轉(zhuǎn)換至傅里葉的域φ中

(5)

其中,逆矩陣UT已作歸一化處理;vφ表示傅里葉域中的輸入節(jié)點(diǎn);N表示單位矩陣;D、A分別指代度量矩陣與鄰接矩陣。

利用下式卷積操作節(jié)點(diǎn)vφ與卷積核:

J=U·γ·UTvφ

(6)

式中,U表示圖拉普拉斯矩陣的特征矩陣。

為降低卷積運(yùn)算難度,采用下列切比雪夫多項(xiàng)式實(shí)現(xiàn)卷積操作,獲取近似卷積結(jié)果

(7)

式中,λmax表示圖拉普拉斯矩陣L的最大特征值。

實(shí)際的輸出結(jié)果應(yīng)是多維節(jié)點(diǎn)特征,而非一維項(xiàng)。因此結(jié)合鄰接矩陣A與節(jié)點(diǎn)自身特征,通過下列表達(dá)式進(jìn)行更新,得到多維的節(jié)點(diǎn)特征x′v

x′v=f(Xt,A)=sigmoid[(A+N)·Xt·ω(0)]

(8)

式里,sigmoid為激活函數(shù)[13];ω(0)是網(wǎng)絡(luò)層的連接權(quán)值。

3 圖卷積神經(jīng)網(wǎng)絡(luò)下的分子性質(zhì)預(yù)測

將聚合、更新兩階段作為圖卷積神經(jīng)網(wǎng)絡(luò)的內(nèi)部傳輸機(jī)制,加強(qiáng)網(wǎng)絡(luò)各節(jié)點(diǎn)間的信息聚合與傳遞,提高預(yù)測精準(zhǔn)度。因此此傳輸機(jī)制下圖卷積神經(jīng)網(wǎng)絡(luò)的分子性質(zhì)預(yù)測流程如圖1所示。

具體實(shí)現(xiàn)步驟描述如下:

圖1 分子性質(zhì)預(yù)測流程

1)融合分子結(jié)構(gòu)圖與圖卷積神經(jīng)網(wǎng)絡(luò):設(shè)定圖G頂點(diǎn)v(即網(wǎng)絡(luò)節(jié)點(diǎn))為分子結(jié)構(gòu)的原子,邊為結(jié)構(gòu)化學(xué)鍵,則圖節(jié)點(diǎn)的特征xv即原子特征,包含原子的元素種類、度數(shù)、電荷量等多種特征;圖連邊的特征xe-v即化學(xué)鍵特征,包含化學(xué)鍵的類型、位置、空間屬性等特征。

(9)

(10)

(11)

4)預(yù)測分子性質(zhì):在反復(fù)的聚合與更新過程中,結(jié)合所有原子得到整個圖G結(jié)構(gòu)的表征形式,即分子結(jié)構(gòu)向量G′,如下所示

(12)

將向量G′作為網(wǎng)絡(luò)的待輸入圖類數(shù)據(jù),則基于原子v的圖卷積神經(jīng)網(wǎng)絡(luò)輸出結(jié)果Y如下所示,即根據(jù)由原子特征與化學(xué)鍵特征構(gòu)成的分子結(jié)構(gòu),得到的分子性質(zhì)預(yù)測結(jié)果為

(13)

式中,Wt表示第t層的網(wǎng)絡(luò)學(xué)習(xí)矩陣算法。

(14)

由此推導(dǎo)出下列損失函數(shù)Loss的界定公式

(15)

其中,Xe-v表示化學(xué)鍵特征xe-v的所有關(guān)聯(lián)項(xiàng)。

為使各變量相對于圖卷積神經(jīng)網(wǎng)絡(luò)參數(shù)均具備可微屬性[15],利用激活函數(shù)sigmoid將上列損失函數(shù)Loss界定式改寫成下列表達(dá)式

(16)

其中,η表示激活函數(shù)的修正系數(shù)。

4 實(shí)驗(yàn)分析

4.1 數(shù)據(jù)集的選取與處理

從開源的GEO數(shù)據(jù)集[16]中選取含有十萬以上不規(guī)則分子的子集。該子集中的分子屬性種類及性質(zhì)均值如表1所示。

表1 實(shí)驗(yàn)用數(shù)據(jù)集中分子相關(guān)信息

為避免子集中分子發(fā)生過擬合現(xiàn)象[18],歸一化處理[19]所選數(shù)據(jù)集,降低分子性質(zhì)的預(yù)測誤差,提高訓(xùn)練效率。利用數(shù)據(jù)集80%的訓(xùn)練樣本獲取最優(yōu)網(wǎng)絡(luò)參數(shù)后,綜合評價研究方法、文獻(xiàn)[3]的基于特性融合圖卷積方法的分子生物活性預(yù)測方法以及文獻(xiàn)[4]的基于機(jī)器學(xué)習(xí)的分子性質(zhì)預(yù)測方法的精準(zhǔn)性、泛化性、遷移性等預(yù)測能力。

4.2 分子性質(zhì)預(yù)測精度

不同分子屬性種類的預(yù)測精度變化趨勢如圖2所示。

根據(jù)圖2可以看出,本文針對復(fù)雜分子結(jié)構(gòu)的不規(guī)則數(shù)據(jù)與邊緣信息,利用傅里葉變換方法引入譜卷積而構(gòu)建出的圖卷積神經(jīng)網(wǎng)絡(luò),使誤差評估指標(biāo)均值不超過0.15,決定系數(shù)始終位于0.999以上,能滿足實(shí)際應(yīng)用中的精準(zhǔn)度需求。所得實(shí)驗(yàn)結(jié)論足以說明,該方法不僅在精準(zhǔn)預(yù)測分子性質(zhì)方面取得了出色的表現(xiàn),而且對于大規(guī)模數(shù)據(jù)集具有較好的處理能力。

圖2 預(yù)測精準(zhǔn)性評價結(jié)果示意圖

4.3 分子性質(zhì)預(yù)測的泛化性分析

方法泛化性[20]的檢測目的主要是驗(yàn)證預(yù)測方法對小數(shù)據(jù)集是否具備較強(qiáng)的學(xué)習(xí)能力。從實(shí)驗(yàn)用數(shù)據(jù)集中隨機(jī)選取出四種不同規(guī)模的數(shù)據(jù)子集,利用本文方法對四個數(shù)據(jù)集分別展開分子性質(zhì)預(yù)測,由均方根誤差指標(biāo)進(jìn)行評估,分析模型的泛化性能。為突顯本文方法的優(yōu)越性,將基于特性融合圖卷積方法的分子生物活性預(yù)測方法以及基于機(jī)器學(xué)習(xí)的分子性質(zhì)預(yù)測方法作為對比項(xiàng),不同方法的均方根誤差數(shù)據(jù)變化趨勢如圖3所示。

由圖3可知,各方法的均方根誤差值均隨著數(shù)據(jù)集規(guī)模的變小而增大;兩個對比方法的上升趨勢近似于線性,增幅較大;而本文的圖卷積神經(jīng)網(wǎng)絡(luò)則依據(jù)聚合與更新的內(nèi)部傳輸機(jī)制,通過加強(qiáng)各原子間的信息聚合與傳遞能力,有效抑制了均方根誤差值的增加幅度,即便是50MB數(shù)據(jù)量的小規(guī)模數(shù)據(jù)集,指標(biāo)值也沒有超過0.25。

圖3 預(yù)測模型泛化性評價結(jié)果示意圖

4.4 分子性質(zhì)預(yù)測的遷移性分析

方法遷移性的檢測目的主要是驗(yàn)證預(yù)測方法是否能將從小規(guī)模數(shù)據(jù)集習(xí)得的知識應(yīng)用于其它數(shù)據(jù)集上。以選取的50MB數(shù)據(jù)集作為學(xué)習(xí)樣本,檢驗(yàn)三種方法對整個實(shí)驗(yàn)用數(shù)據(jù)集的分子性質(zhì)預(yù)測能力,各方法的評估指標(biāo)數(shù)據(jù)變化趨勢如圖4所示。

對比大規(guī)模樣本數(shù)據(jù)集的預(yù)測結(jié)果可知,本文方法的誤差類指標(biāo)值略有上升,決定系數(shù)指標(biāo)值略有下降;盡管學(xué)習(xí)樣本數(shù)據(jù)量大幅減少,但相較于對比方法的高誤差值、低擬合度,本文通過融合分子結(jié)構(gòu)圖、聚合鄰域信息、更新原子結(jié)構(gòu)等階段,既實(shí)現(xiàn)了對原子特征的表示學(xué)習(xí),也取得了整個圖形數(shù)據(jù)的結(jié)構(gòu),因此誤差指標(biāo)均值僅有0.218,決定系數(shù)相對趨近于0.999,依舊具有較為優(yōu)越的預(yù)測能力。

圖4 預(yù)測模型遷移性評價結(jié)果示意圖

5 結(jié)論

在材料、藥物、食品等領(lǐng)域中,多元化分子的性質(zhì)與屬性研究,對拓寬所屬物料的應(yīng)用前景、賦予更高的實(shí)踐價值具有重要的指導(dǎo)作用。為探尋性能更優(yōu)越的物料,準(zhǔn)確預(yù)測出未知結(jié)構(gòu)的分子性質(zhì)是必要且重要的。隨著人工智能領(lǐng)域飛速發(fā)展,利用計算機(jī)相關(guān)技術(shù)來處理大規(guī)模數(shù)據(jù)信息的手段已相對成熟。因此,本文嘗試將人工智能技術(shù)中的神經(jīng)網(wǎng)絡(luò)與分子性質(zhì)預(yù)測課題相結(jié)合,并取得了不錯的成效。

為進(jìn)一步推動人工智能技術(shù)與物料分子研究的融合深度與研究進(jìn)程,為相應(yīng)領(lǐng)域的候選物料提供更精準(zhǔn)的分子結(jié)構(gòu)參考依據(jù),將以下幾個方面作為今后深入探究的重點(diǎn):選取的實(shí)驗(yàn)數(shù)據(jù)集相對單一,應(yīng)就其它數(shù)據(jù)集展開仿真,檢驗(yàn)方法的適用性;分子結(jié)構(gòu)分為同構(gòu)與異構(gòu)兩種形式,應(yīng)繼續(xù)學(xué)習(xí)分子理論知識,從同構(gòu)分子圖與異構(gòu)分子圖角度,完善圖神經(jīng)網(wǎng)絡(luò)算法;應(yīng)深入探索跨領(lǐng)域時分子的化學(xué)、物理、藥理等屬性對預(yù)測結(jié)果的影響,使預(yù)測任務(wù)更具針對性,擴(kuò)大方法的應(yīng)用范圍。

猜你喜歡
分子結(jié)構(gòu)性質(zhì)卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
隨機(jī)變量的分布列性質(zhì)的應(yīng)用
完全平方數(shù)的性質(zhì)及其應(yīng)用
九點(diǎn)圓的性質(zhì)和應(yīng)用
從濾波器理解卷積
三步法確定有機(jī)物的分子結(jié)構(gòu)
厲害了,我的性質(zhì)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
解讀分子結(jié)構(gòu)考點(diǎn)
外電場中BiH分子結(jié)構(gòu)的研究