国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖神經(jīng)網(wǎng)絡(luò)的苦味分子預(yù)測(cè)方法研究

2024-10-23 00:00:00顏淑婷陳佳彤周小露鄧偉紀(jì)凱麗劉惠瓊
電腦知識(shí)與技術(shù) 2024年25期

關(guān)鍵詞:苦味分子;圖神經(jīng)網(wǎng)絡(luò);GIN;食品開(kāi)發(fā);制藥工程

中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2024)25-0005-03

0 引言

味覺(jué)是影響消費(fèi)者選擇食物的關(guān)鍵因素。苦味常被定義為一種不愉快的味道,其產(chǎn)生源于苦味分子與受體的相互作用。許多苦味物質(zhì)被認(rèn)為是有毒化合物,苦味的感知可能與機(jī)體進(jìn)化的預(yù)警系統(tǒng)有關(guān),該系統(tǒng)通過(guò)防止攝入高濃度有毒化合物,避免對(duì)機(jī)體產(chǎn)生不良影響。因此,在食品和制藥行業(yè),預(yù)測(cè)苦味劑和構(gòu)建識(shí)別人類苦味受體的平臺(tái)具有重要的研究意義。

與甜味預(yù)測(cè)主要集中于甜度不同,苦味預(yù)測(cè)的分類模型更側(cè)重區(qū)分苦味和非苦味分子??辔斗肿泳哂懈叨瓤勺兊幕瘜W(xué)結(jié)構(gòu),包括生物堿、多酚、多肽、鹽、脂肪酸和皂苷[1]。前期研究主要利用分子特征符,結(jié)合機(jī)器學(xué)習(xí)或深度學(xué)習(xí)進(jìn)行苦味預(yù)測(cè),這需要深厚的藥物化學(xué)背景及對(duì)分子特征符的大量篩選。

圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network, GNN) 已成為一種強(qiáng)大的深度學(xué)習(xí)(Deep Learning, DL) 模型,尤其在預(yù)測(cè)分子性質(zhì)和相互作用方面[2]。GNN被廣泛應(yīng)用于分子性質(zhì)的回歸任務(wù),例如溶解度、親脂性、滲透性等,并在藥物靶標(biāo)聯(lián)系等分類任務(wù)中有出色表現(xiàn)[3]。Liu等[4]使用定向消息傳遞神經(jīng)網(wǎng)絡(luò)(Directed MessagePassing Neural Networks, D-MPNN) 篩選出化學(xué)結(jié)構(gòu)新穎的新型抗生素,其藥理性質(zhì)表現(xiàn)為廣譜抗生素。

本文首次利用圖神經(jīng)網(wǎng)絡(luò)模型進(jìn)行苦味分子的預(yù)測(cè)。與基于特征符的機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)方法相比,圖神經(jīng)網(wǎng)絡(luò)因其在分子表征中的節(jié)點(diǎn)和邊的天然優(yōu)勢(shì),免去了分子特征符的篩選與優(yōu)化。構(gòu)建的四種圖神經(jīng)網(wǎng)絡(luò)模型在識(shí)別的精準(zhǔn)度上相較于前期研究均有提升,表明圖神經(jīng)網(wǎng)絡(luò)在苦味預(yù)測(cè)中的優(yōu)越性和合理性。

1 算法設(shè)計(jì)

1.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)主要來(lái)源于BitterDB、Fenaroli′s口味手冊(cè)和Rojas數(shù)據(jù)庫(kù)[5]。由于不同軟件對(duì)SMILES格式處理的差異,實(shí)驗(yàn)中使用RDKit 讀取分子并統(tǒng)一為SMILES 標(biāo)準(zhǔn)格式,然后將數(shù)據(jù)存入MySQL,并通過(guò)SQL語(yǔ)句進(jìn)行數(shù)據(jù)去重。最終,數(shù)據(jù)分為兩類:包含797個(gè)苦味分子,標(biāo)簽為1;1 435個(gè)非苦味分子,標(biāo)簽為2。采用10折交叉驗(yàn)證方法進(jìn)行訓(xùn)練和驗(yàn)證,即將數(shù)據(jù)分為10份,抽取其中9份用于訓(xùn)練,余下一份用于驗(yàn)證,整個(gè)過(guò)程重復(fù)10次。

1.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境基于Windows 11操作系統(tǒng),使用Python3.10.6編程語(yǔ)言,深度學(xué)習(xí)框架為PyTorch 2.3,圖神經(jīng)網(wǎng)絡(luò)框架采用PyTorch Geometric 2.5.3,分子處理和分子物理參數(shù)使用RDKit 2024.03.01版本,ROC與AUC 計(jì)算使用Scikit-learn 1.4.2。運(yùn)行平臺(tái)為Intel(R) Core(TM) i5-13600KF CPU和GeForce RTX 4090 Laptop GPU。

1.3 圖神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

分子由原子組成,相鄰的原子通過(guò)化學(xué)鍵連接,因此可用圖來(lái)表示,用公式表示為G = (V,E),其中V為節(jié)點(diǎn)集合,E為邊緣集合。分子中的每個(gè)原子被視為一個(gè)節(jié)點(diǎn)v ∈ V,分子的化學(xué)鍵被視為u 和v 相互連接的邊(u,v) ∈ E。

2.2 模型構(gòu)建

盡管現(xiàn)有基于機(jī)器學(xué)習(xí)的方法在預(yù)測(cè)苦味分子方面取得了良好效果,但仍存在局限性:機(jī)器學(xué)習(xí)需要仔細(xì)選擇分子特征,這是一項(xiàng)煩瑣且專業(yè)性很強(qiáng)的工作,同時(shí)難以達(dá)到最佳的預(yù)測(cè)效果。不同于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,圖神經(jīng)網(wǎng)絡(luò)能夠處理原始輸入數(shù)據(jù),自動(dòng)學(xué)習(xí)并重新分配每個(gè)特征的權(quán)重,從數(shù)據(jù)中提取高維特征。這種特性可能使其在解決上述問(wèn)題時(shí)具備更優(yōu)越的性能。此外,圖神經(jīng)網(wǎng)絡(luò)的可變性有助于靈活設(shè)計(jì)具體的模型結(jié)構(gòu)。因此,本文采用圖神經(jīng)網(wǎng)絡(luò)作為模型的關(guān)鍵算法。為了獲得更可靠的預(yù)測(cè)效果,選擇了圖神經(jīng)網(wǎng)絡(luò)中的4種代表性模型——GCN、GIN、GAT 和 GraphSAGE 進(jìn)行準(zhǔn)確度比較,如圖1所示。分子在 SMILES 格式轉(zhuǎn)換后表現(xiàn)為帶有離散節(jié)點(diǎn)特征的類型,因此在模型輸入端使用原子編碼(AtomEncoder) 將輸入特征轉(zhuǎn)換為連續(xù)嵌入。

2.3 評(píng)估

采用10折交叉驗(yàn)證對(duì)4種模型進(jìn)行評(píng)估,如圖2 所示,GCN、GIN、GAT、GraphSAGE等4種模型的AUC 值分別為0.88、0.93、0.91、0.93。盡管所有算法在該任務(wù)上表現(xiàn)良好,GIN和GraphSAGE方法顯示出最高的AUC值,這表明消息傳遞機(jī)制在基于分子的圖神經(jīng)網(wǎng)絡(luò)中可能有最佳表現(xiàn)。GAT表現(xiàn)相對(duì)不突出可能是由于分子圖是無(wú)向圖,導(dǎo)致注意力機(jī)制無(wú)法發(fā)揮其最大優(yōu)勢(shì)。

苦味分子預(yù)測(cè)模型的平均指標(biāo)得分如表1、表2 所示。與現(xiàn)有文獻(xiàn)所述方法相比,本文構(gòu)建的4種模型在精度上均有所提高,但仍有進(jìn)一步改進(jìn)的空間[6-8]。研究中收集了797個(gè)正樣本和1 435個(gè)負(fù)樣本的數(shù)據(jù)集,對(duì)于圖神經(jīng)網(wǎng)絡(luò)計(jì)算而言,這仍然是一個(gè)較小的數(shù)據(jù)集,限制了圖神經(jīng)網(wǎng)絡(luò)從中學(xué)習(xí)更廣泛、更大規(guī)模信息的能力。此外,在基于分子的圖構(gòu)建時(shí)僅提取了二維信息,而忽略了三維信息。同時(shí),僅依靠分子識(shí)別可能缺乏對(duì)苦味分子與受體間相互作用信息的捕捉,這將成為未來(lái)研究工作的重點(diǎn)。

隨后,使用敏感性(Sn) 、特異性(Sp) 、準(zhǔn)確度(Acc) 、精確率(Pre) 、馬修斯相關(guān)系數(shù)(MCC) 、幾何平均數(shù)(G-mean) 這6個(gè)指標(biāo)對(duì)4種模型進(jìn)行評(píng)價(jià)(如圖3 所示)。在Sn指標(biāo)上,GIN模型優(yōu)于其他模型;在Sp 指標(biāo)上,GraphSAGE模型表現(xiàn)最佳。這表明GIN模型在識(shí)別陽(yáng)性(苦味)分子方面具有最好的預(yù)測(cè)精度,而GraphSAGE模型在識(shí)別陰性(非苦味)分子方面表現(xiàn)最佳。用戶可以根據(jù)任務(wù)需求選擇不同的模型。

例如,在兒童藥物設(shè)計(jì)中,需要排除更多的苦味分子,可以使用GraphSAGE模型;而在基于苦味受體靶點(diǎn)的藥物設(shè)計(jì)中,需要獲取更多的苦味分子進(jìn)行深入分析,可以使用GIN模型。在其他指標(biāo)方面,GIN模型也略占優(yōu)勢(shì),因此在苦味預(yù)測(cè)任務(wù)中,GIN模型表現(xiàn)最優(yōu)。這個(gè)結(jié)果也可能推廣到其他分子預(yù)測(cè)模型中,為相關(guān)領(lǐng)域的研究提供借鑒和參考。

3 結(jié)果與討論

本文針對(duì)苦味分子的預(yù)測(cè)模型問(wèn)題,提出了將圖神經(jīng)網(wǎng)絡(luò)算法用于苦味分子的預(yù)測(cè)。與基于傳統(tǒng)機(jī)器學(xué)習(xí)或經(jīng)典深度學(xué)習(xí)的方法相比,該模型無(wú)須獲取復(fù)雜的分子表征特征,從而簡(jiǎn)化了流程,并能夠準(zhǔn)確預(yù)測(cè)分子的苦味性質(zhì)。該模型具有性價(jià)比高、準(zhǔn)確率高、迭代次數(shù)少的優(yōu)勢(shì)。

本研究在基于苦味的食品工程和藥物設(shè)計(jì)方面,尤其是在兒童藥物設(shè)計(jì)中,具有廣闊的應(yīng)用前景。通過(guò)提高苦味分子預(yù)測(cè)的準(zhǔn)確性,可以幫助開(kāi)發(fā)出更符合消費(fèi)者和患者需求的產(chǎn)品,從而推動(dòng)相關(guān)領(lǐng)域的發(fā)展。

新田县| 永年县| 滨州市| 通道| 绵竹市| 英山县| 枞阳县| 塔河县| 油尖旺区| 通州市| 凭祥市| 涿州市| 乳山市| 巨鹿县| 弋阳县| 镇安县| 安国市| 怀宁县| 武隆县| 都匀市| 徐闻县| 禹州市| 汨罗市| 南漳县| 临颍县| 平乐县| 天全县| 阳朔县| 建德市| 克拉玛依市| 卓资县| 都匀市| 葫芦岛市| 高平市| 安龙县| 延长县| 饶阳县| 扬中市| 镇江市| 奉新县| 济源市|