国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)生成式對(duì)抗網(wǎng)絡(luò)的編碼DNA 分子識(shí)別

2021-04-10 05:50隨學(xué)杰王慧鋒顏秉勇
關(guān)鍵詞:孔道準(zhǔn)確率編碼

隨學(xué)杰, 王慧鋒, 顏秉勇

(華東理工大學(xué) 1. 信息科學(xué)與工程學(xué)院;2. 化學(xué)與分子工程學(xué)院,上海 200237)

作為最具前景的第3 代DNA 測(cè)序技術(shù),納米通道單分子檢測(cè)技術(shù)引起了廣大研究者的興趣[1-4]。該技術(shù)的基本原理是在嵌有納米孔的磷脂雙分子層兩側(cè)施加電壓,電解液中的離子在電場(chǎng)力驅(qū)動(dòng)下穿過納米孔,產(chǎn)生微弱的開孔電流,當(dāng)有DNA、RNA、氨基酸、金屬離子等分子穿過納米孔時(shí),由于分子在納米孔道的占位改變了離子流量,將產(chǎn)生pA 級(jí)的阻斷電流信號(hào)[5-6]。通過對(duì)阻斷信號(hào)進(jìn)行分析,可得到分子在溶液中的濃度、分子與孔的相互作用、分子類型、堿基序列等信息。傳統(tǒng)的數(shù)據(jù)分析方法是依據(jù)阻斷信號(hào)的時(shí)間和電流散點(diǎn)圖分布實(shí)現(xiàn)分子類別的識(shí)別,然而,由于低信噪比、DNA 鏈折疊和纏繞、分子類別間信號(hào)重疊等原因,導(dǎo)致傳統(tǒng)方法對(duì)分子的識(shí)別率較低[7]。為提高納米孔道信號(hào)的識(shí)別率,可通過改進(jìn)實(shí)驗(yàn)條件和儀器設(shè)備精度等方法提高納米孔測(cè)量的電流和時(shí)間分辨率,但這些方法通常會(huì)增加實(shí)驗(yàn)的復(fù)雜度和難度,或達(dá)到難以突破的物理極限[8]。為提高納米孔道單分子檢測(cè)中對(duì)單個(gè)分子阻斷信號(hào)的識(shí)別精度,發(fā)展高效且智能的納米孔道數(shù)據(jù)分析識(shí)別方法具有重大意義[9-11]。

在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,樣本不平衡是指在分類學(xué)習(xí)算法中,不同類別樣本的數(shù)據(jù)量相差懸殊,導(dǎo)致以總體準(zhǔn)確率為目標(biāo)的分類任務(wù)中過多地關(guān)注多數(shù)類,從而使少數(shù)類樣本的分類性能下降,模型準(zhǔn)確性較差[12-14]。由于納米孔道對(duì)不同類型單分子信號(hào)的捕獲率存在著巨大差異,因此基于深度學(xué)習(xí)模型對(duì)納米孔道單分子信號(hào)進(jìn)行分類訓(xùn)練時(shí)存在數(shù)據(jù)集不平衡的問題,進(jìn)而影響模型對(duì)單個(gè)分子識(shí)別的準(zhǔn)確率。Sui 等[15]針對(duì)單級(jí)阻斷事件提出了基于HMM-AdaBoost 的分類模型,對(duì)阻斷信號(hào)有重疊的AA3和GA3分子進(jìn)行了識(shí)別,Aerolysin 納米孔道對(duì)AA3分子的捕獲率大于對(duì)GA3分子的捕獲率,導(dǎo)致訓(xùn)練集中兩種分子的數(shù)量比約為3∶1。Karolis 等[16]提出了基于卷積神經(jīng)網(wǎng)絡(luò)的QuipuNet 模型,對(duì)編碼為“000”~“111”的8 種DNA 分子和有無蛋白質(zhì)綁定進(jìn)行分類,訓(xùn)練集中編碼為“011”的分子與編碼為“100”的分子數(shù)量比為17∶1 等。從分類結(jié)果可以觀察到,少數(shù)類樣本的分類準(zhǔn)確率均低于其他類別。多數(shù)基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的分類任務(wù)研究表明,解決樣本不均衡問題,增加訓(xùn)練樣本數(shù)據(jù)量,可顯著提高模型的分類性能[17]。

生成式對(duì)抗網(wǎng)絡(luò)是一種基于對(duì)抗策略的生成式模型,可生成與訓(xùn)練樣本分布相同的仿真樣本,在深度學(xué)習(xí)、圖像領(lǐng)域和序列數(shù)據(jù)等領(lǐng)域都受到廣泛關(guān)注[18-19]。本文通過改進(jìn)深度卷積生成式對(duì)抗網(wǎng)絡(luò)(Deep Convolutional Generative Adversarial Networks,DCGAN)模型,研究類別不平衡的納米孔道單分子數(shù)據(jù)集,并實(shí)現(xiàn)數(shù)據(jù)集的擴(kuò)充與分類。首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,并將所有分子的阻斷事件處理為相同長(zhǎng)度;然后使用改進(jìn)DCGAN 模型對(duì)少數(shù)類樣本數(shù)據(jù)集進(jìn)行擴(kuò)充,生成相應(yīng)分子的仿真阻斷信號(hào);最后應(yīng)用QuipuNet 卷積神經(jīng)網(wǎng)絡(luò)對(duì)擴(kuò)充前后的數(shù)據(jù)集進(jìn)行分類。本文方法可顯著改善納米孔道對(duì)分子捕獲率不同所帶來的數(shù)據(jù)集不平衡問題,不僅可提高單個(gè)分子阻斷事件的識(shí)別準(zhǔn)確率,同時(shí)對(duì)深度學(xué)習(xí)等人工智能算法應(yīng)用于納米孔道研究提供了新的數(shù)據(jù)處理方法??偭鞒虉D如圖1 所示。

1 數(shù)據(jù)集描述

1.1 數(shù)據(jù)來源

數(shù)據(jù)來源于文獻(xiàn)[18]的多通道蛋白質(zhì)檢測(cè)實(shí)驗(yàn)。由32 個(gè)納米通道產(chǎn)生的58178個(gè)阻斷事件被存儲(chǔ)至HDF5 文件中,包含“000”~“111”8種編碼DNA分子的阻斷信息,每個(gè)分子被記錄了納米通道編號(hào)、編碼信息、有無蛋白質(zhì)綁定、表征阻斷信號(hào)的電流序列等信息。

1.2 數(shù)據(jù)預(yù)處理

采用閾值濾波[16]去除由于DNA 片段不完整、分子與孔道的非特異性相互作用而產(chǎn)生的異常阻斷信號(hào),對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,從而消除納米孔道作用時(shí)間差異所引起的阻斷信號(hào)變化。由于卷積神經(jīng)網(wǎng)絡(luò)輸入信號(hào)維度固定,為使阻斷信號(hào)長(zhǎng)度相同,采用如下處理方法:長(zhǎng)度大于700 的阻斷信號(hào),保留前700 個(gè)數(shù)據(jù)點(diǎn);取樣本集中所有阻斷信號(hào)開孔電流的前50 個(gè)數(shù)據(jù)點(diǎn),計(jì)算其均值為0.009 5,對(duì)長(zhǎng)度小于700 的信號(hào),用均值為0、標(biāo)準(zhǔn)差為0.0095的高斯白噪聲補(bǔ)齊至長(zhǎng)度為700。

2 結(jié)果與討論

2.1 基于改進(jìn)DCGAN 的數(shù)據(jù)集平衡

Goodfellow 等[20]提出的生成式對(duì)抗網(wǎng)絡(luò)是一種基于博弈理論擴(kuò)充數(shù)據(jù)集的方法,最初用于圖像的生成。生成式對(duì)抗網(wǎng)絡(luò)由生成器(Generator,G)和判別器(Discriminator,D)兩部分組成,其中生成器接收隨機(jī)噪聲用于學(xué)習(xí)和捕捉真實(shí)數(shù)據(jù)集的分布,并生成與之相似的新數(shù)據(jù)集;判別器的功能是一個(gè)二分類器,判斷數(shù)據(jù)是來自真實(shí)數(shù)據(jù)集還是由生成器生成的偽數(shù)據(jù)集。訓(xùn)練過程中,生成器的目標(biāo)是盡量生成與真實(shí)數(shù)據(jù)相似的偽數(shù)據(jù),使判別器難以區(qū)分;而判別器的目標(biāo)是盡量辨別出真實(shí)數(shù)據(jù)和偽數(shù)據(jù),最終達(dá)到納什平衡,即判別器無法判斷數(shù)據(jù)是否來自生成器。該模型繞過了求解似然函數(shù)的困難,可直接生成樣本,從而擬合訓(xùn)練數(shù)據(jù)的分布。

圖1總流程圖Fig.1General flow diagram

DCGAN 對(duì)原始生成式對(duì)抗網(wǎng)絡(luò)的改進(jìn)[21]:(1)采用帶步長(zhǎng)的卷積代替D 中的池化層;(2)在D 和G中加入批量標(biāo)準(zhǔn)化(Batch Normalization, BN)層,加快模型的收斂速度;(3)去除全連接層;(4)在G 中,除最后一層激活函數(shù)使用tanh,其余層的激活函數(shù)為ReLU;(5)在D 中,均使用LeakReLU 激活函數(shù),該激活函數(shù)可保證導(dǎo)數(shù)總是不為零,能減少靜默神經(jīng)元的出現(xiàn)。

圖2生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2Network structure of generator and discriminator

本文以DCGAN 為基本框架,設(shè)計(jì)了適合納米孔道單分子數(shù)據(jù)分析的網(wǎng)絡(luò)模型結(jié)構(gòu)(如圖2 所示),包含生成器和判別器兩部分。G 的輸入為服從正態(tài)分布、長(zhǎng)度為100 的特征向量,由4 層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成。其中,卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)為Conv1d+BN+ReLu,最后一層采用tanh 激活函數(shù),卷積核大小為3、3、3。D 的輸入為真實(shí)樣本 x 和G生成的偽樣本G( z ),主要由3 層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成,特征圖大小按16、32、64 逐級(jí)遞增,相應(yīng)的卷積核為7、5、3,使用LeakRelu 激活函數(shù),最后經(jīng)過一個(gè)全連接層,由sigmod 函數(shù)判斷當(dāng)前樣本為真實(shí)樣本(標(biāo)簽為1),或?yàn)閭螛颖荆?biāo)簽為0)。tanh、ReLU 和LeakReLU 激活函數(shù)表達(dá)式如式(1)~式(3)所示。

訓(xùn)練過程中,batch_size 設(shè)為64,初始學(xué)習(xí)率learning_rate=0.000 1, 采用Adam 優(yōu)化算法訓(xùn)練600次。因編碼DNA 分子的標(biāo)簽已知,本文在目標(biāo)函數(shù)中引入標(biāo)簽信息,構(gòu)成條件約束,解決深度卷積對(duì)抗網(wǎng)絡(luò)訓(xùn)練太過自由的問題。目標(biāo)函數(shù)用V(D,G)表示,如下式所示。

其中:x 為真實(shí)樣本,z 為隨機(jī)噪聲,E 表示數(shù)據(jù)分布,D(x|y)為判別器D 判斷真實(shí)樣本是否真實(shí)的概率,D(G(z))為判別器D 判斷生成器G 生成的偽樣本是否真實(shí)的概率。為防止判別器過于強(qiáng)大而造成訓(xùn)練不平衡,使用標(biāo)簽平滑,即當(dāng)判斷為正樣本時(shí),用0.95 代替1。以編碼為“100”的分子為例,圖3 示出了模型在不同的訓(xùn)練次數(shù)生成的阻斷事件。

2.2 編碼DNA 分子的識(shí)別

原始數(shù)據(jù)集中,編碼為“011”的分子在實(shí)驗(yàn)中的捕獲率最高,對(duì)應(yīng)的阻斷事件最多;而編碼為“100”和“010”的分子捕獲率較低,僅占“011”數(shù)據(jù)集的8%和23%,造成數(shù)據(jù)集的類別不平衡。將各阻斷事件預(yù)處理后,使用上述改進(jìn)DCGAN,對(duì)除“011”編碼之外的7種編碼DNA 分子的阻斷事件進(jìn)行擴(kuò)充。分別將原始數(shù)據(jù)集與平衡后的編碼DNA 載體數(shù)據(jù)集作為QuipuNet 的輸入,其中,兩次實(shí)驗(yàn)的測(cè)試集大小相同。為驗(yàn)證該網(wǎng)絡(luò)生成數(shù)據(jù)集的有效性,采用混淆矩陣以及平均準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)。混淆矩陣是以預(yù)測(cè)標(biāo)簽為橫坐標(biāo)、真實(shí)標(biāo)簽為縱坐標(biāo)的交叉表,用以直觀展示各類別分類情況。平均準(zhǔn)確率的計(jì)算公式如下:

圖3編碼為“100”的DNA 分子的阻斷事件生成過程Fig.3Generation process for blockage event of barcode ‘100’

其中:n 為類別數(shù);Ni為第i 類別中樣本的數(shù)量;Ti為第i 類別中預(yù)測(cè)正確的樣本數(shù)。QuipuNet 包含8層卷積網(wǎng)絡(luò),基本結(jié)構(gòu)為Conv1d+BN+ReLU,卷積核大小為{7,7,5,5,3,3},特征圖大小分別為{64,64,128,128,256,256},最后一層為softmax 分類器,進(jìn)行8 分類。訓(xùn)練時(shí),batch_size 設(shè)為32,使用Adam 優(yōu)化算法,初始學(xué)習(xí)率為0.001,損失函數(shù)選擇交叉熵?fù)p失函數(shù),表達(dá)式如下:

將測(cè)試集送入訓(xùn)練好的QuipuNet 模型,得到的混淆矩陣如圖5 所示?;煜仃嚨臋M坐標(biāo)為預(yù)測(cè)標(biāo)簽,縱坐標(biāo)為真實(shí)標(biāo)簽,對(duì)角線即為各類別的分類準(zhǔn)確率,顏色深淺代表數(shù)值的大小,混淆矩陣右邊為對(duì)應(yīng)的各類別訓(xùn)練數(shù)據(jù)的規(guī)模。可見,使用改進(jìn)DCGAN 對(duì)數(shù)據(jù)集進(jìn)行平衡后,少數(shù)類別的分類準(zhǔn)確率具有明顯的提升。平衡前后編碼為“100”極少數(shù)類樣本的分類準(zhǔn)確率由0.82 提升至0.96,編碼為“010”的分子的準(zhǔn)確率由0.89 提升至0.93,由于二者在原始數(shù)據(jù)集中本身所占比例不同,識(shí)別準(zhǔn)確率存在一定差異。此外,“110”和“001”等分子的識(shí)別準(zhǔn)確率也有了一定幅度的提升??梢?,在對(duì)數(shù)據(jù)集進(jìn)行平衡后,少數(shù)類分子信號(hào)的識(shí)別準(zhǔn)確率獲得了顯著提升,均達(dá)到0.93 及以上,總體平均準(zhǔn)確率由0.92 提升至0.96,說明改進(jìn)DCGAN 可用于生成阻斷事件以平衡數(shù)據(jù)集,從而提高混合分子中捕獲率低的分子的識(shí)別準(zhǔn)確率。

2.3 不同數(shù)據(jù)集平衡方法分類結(jié)果

目前常用的數(shù)據(jù)集擴(kuò)充方法有重采樣法和添加高斯噪聲等[22-23],為進(jìn)一步驗(yàn)證改進(jìn)DCGAN 模型在納米孔道數(shù)據(jù)分析中的有效性,將兩種傳統(tǒng)擴(kuò)充方法與改進(jìn)DCGAN 模型進(jìn)行對(duì)比。重采樣法對(duì)少數(shù)樣本進(jìn)行有放回抽樣m 次,數(shù)據(jù)集的數(shù)量與圖5(b)中各類別訓(xùn)練數(shù)據(jù)集大小相等;噪聲法在抽樣得到的阻斷電流信號(hào)上添加白噪聲。分別將兩種數(shù)據(jù)集送入分類模型,經(jīng)不同擴(kuò)充數(shù)據(jù)集訓(xùn)練后的QuipuNet模型對(duì)測(cè)試集的平均識(shí)別準(zhǔn)確率如表1 所示??芍?,用本文方法得到的平衡數(shù)據(jù)集訓(xùn)練QuipuNet 后,測(cè)試集的分類準(zhǔn)確率較高。重采樣法使數(shù)據(jù)集中含有較多重復(fù)樣本,尤其是數(shù)據(jù)傾斜較為嚴(yán)重的編碼為“100”分子的阻斷事件,使得模型產(chǎn)生過擬合,降低準(zhǔn)確率。而噪聲法在一定程度上增加了數(shù)據(jù)的多樣性,但所加隨機(jī)噪聲的大小不易控制。對(duì)比結(jié)果表明,兩種傳統(tǒng)的數(shù)據(jù)集擴(kuò)充方法不適用于納米孔道數(shù)據(jù)集的擴(kuò)充,將大數(shù)據(jù)分析方法應(yīng)用到納米通道數(shù)據(jù)分析領(lǐng)域時(shí),本文方法能在一定程度上解決納米通道對(duì)分子捕獲率不同而造成的數(shù)據(jù)集不平衡問題,提高分類準(zhǔn)確率。

圖4訓(xùn)練準(zhǔn)確率變化圖Fig.4Diagram of training accuracy

圖5模型在不同訓(xùn)練集下的測(cè)試數(shù)據(jù)的混淆矩陣Fig.5Confusion matrix of test data for model trained with different datasets

表1不同數(shù)據(jù)擴(kuò)充方法的分類結(jié)果Table1Classification results using different data augmentation methods

3 結(jié) 論

納米孔道單分子阻斷信號(hào)存在重疊或阻斷臺(tái)階不明顯的問題,使用傳統(tǒng)散點(diǎn)圖法較難進(jìn)行區(qū)分,同時(shí),由于納米孔對(duì)分子的捕獲率不同,致使不同分子阻斷事件數(shù)量不平衡,進(jìn)而影響模型的準(zhǔn)確率?;诰幋aDNA 分子的阻斷事件,本文將改進(jìn)DCGAN用于少數(shù)類單分子信號(hào)樣本的擴(kuò)充,避免類間不平衡問題。通過與原始數(shù)據(jù)集以及由重采樣法和噪聲法擴(kuò)充的數(shù)據(jù)集相比,本文方法顯著提高了模型訓(xùn)練后對(duì)單分子的識(shí)別準(zhǔn)確率。此外,本文的研究也展示了生成式對(duì)抗網(wǎng)絡(luò)擴(kuò)充訓(xùn)練數(shù)據(jù)的方法在納米孔道單分子數(shù)據(jù)分析算法研究中的重要意義和作用,并可進(jìn)一步用于基于納米孔道的復(fù)雜DNA 測(cè)序數(shù)據(jù)或基于多測(cè)量方法的納米孔道數(shù)據(jù)分析研究中。

猜你喜歡
孔道準(zhǔn)確率編碼
HEVC對(duì)偶編碼單元?jiǎng)澐謨?yōu)化算法
住院病案首頁(yè)ICD編碼質(zhì)量在DRG付費(fèi)中的應(yīng)用
正六邊形和四邊形孔道DPF性能的仿真試驗(yàn)研究
生活中的編碼
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
民國(guó)孔道的理解維度與儒學(xué)的發(fā)展理路
公路橋梁施工預(yù)應(yīng)力技術(shù)問題與對(duì)策
栾川县| 元江| 开原市| 博兴县| 满洲里市| 同仁县| 济宁市| 十堰市| 伊宁市| 夏邑县| 阳城县| 独山县| 孝义市| 肥东县| 芦溪县| 濮阳市| 三台县| 永顺县| 呈贡县| 斗六市| 花莲市| 浪卡子县| 麻江县| 靖西县| 霍山县| 阳曲县| 呼和浩特市| 梨树县| 长春市| 磴口县| 正宁县| 界首市| 理塘县| 阿城市| 贡觉县| 中阳县| 彭泽县| 临武县| 通江县| 和平县| 黄石市|