国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

藥物靶點預測中類別不平衡問題的研究進展

2023-10-09 01:57:14章新友李雪梅張春強張亞明王芝周小玲
科學技術(shù)與工程 2023年26期
關(guān)鍵詞:類別分類器靶點

章新友, 李雪梅, 張春強, 張亞明, 王芝, 周小玲

(江西中醫(yī)藥大學計算機學院, 南昌 330004)

近年來,相關(guān)學者已提出多種藥物靶點預測方法,傳統(tǒng)的通過生物實驗來進行預測的方法不僅需要耗費大量的時間和資金[1],而且技術(shù)繁瑣,僅限于小規(guī)模的識別,成功率低。隨著計算機技術(shù)的發(fā)展,越來越多的研究者開始使用計算的方法來預測藥物靶點間是否存在相互作用,并取得了不錯的預測效果,改善了傳統(tǒng)方法進行預測帶來的一系列的負面影響,但其在類別不平衡問題上仍存在預測能力不足的問題。藥物靶點預測中的類別不平衡問題即相對于現(xiàn)有的藥物和靶點數(shù)量,已知的藥物靶點相互作用對數(shù)量十分稀少,從而造成了數(shù)據(jù)的嚴重不平衡?,F(xiàn)有研究表明,在人類基因組中存在6 000~8 000[2]個具有藥理學意義的靶點,但是已批準的能用于臨床治療的藥物靶點數(shù)量僅有數(shù)百個,大量的靶點能否作為藥物靶點仍有待驗證[3]。因此,現(xiàn)對藥物靶點預測中類別不平衡問題的處理方法進行分析總結(jié),明確其發(fā)展方向與趨勢,為藥物靶點預測的相關(guān)研究提供有益參考。

1 藥物靶點預測中類別不平衡問題相關(guān)文獻的檢索與數(shù)據(jù)庫構(gòu)建

以中國知網(wǎng)、維普、萬方數(shù)據(jù)和PubMed作為主要文獻檢索平臺,檢索時,以“藥物靶點”或“靶點預測”或“DTI”或“靶點識別”和“類別不平衡”或“數(shù)據(jù)不平衡”或“負樣本”或“樣本選擇”等為關(guān)鍵詞,檢索時間為2010—2023年3月,檢索并下載藥物靶點預測中類別不平衡問題的相關(guān)文獻,共計272篇文獻,再從這272篇文獻的參考文獻中檢索并下載關(guān)于類別不平衡問題的文獻,共計37篇相關(guān)參考文獻。為了保證研究結(jié)果的質(zhì)量,在檢索到的309篇文獻中只選擇核心期刊或SCI文獻或碩士、博士學位論文,進行進一步的篩選,得到最終的文獻數(shù)據(jù)庫。最后,根據(jù)檢索得到的文獻,按照藥物靶點預測中處理類別不平衡問題的層面,形成3個文獻數(shù)據(jù)庫,再將單個數(shù)據(jù)庫中的文獻按照不同方法進行比較分析,檢索方法流程如圖 1 所示。

2 藥物靶點預測中類別不平衡問題的處理方法

2.1 類別不平衡問題的處理方法分析

經(jīng)統(tǒng)計分析,類別不平衡問題的處理方法主要從數(shù)據(jù)、學習算法以及構(gòu)造負樣本這3個層面來著手,具體統(tǒng)計結(jié)果如表1所示。

表1 類別不平衡問題的處理方法統(tǒng)計

由表1可知,藥物靶點預測中針對類別不平衡問題所提出的方法主要是從數(shù)據(jù)層面進行著手,從構(gòu)造負樣本層面出發(fā)的方法相對較少。在數(shù)據(jù)層面,采用過采樣方法的最多,其中又以SMOTE方法為主要方法,混合采樣中也多運用過采樣方法和其他方法相結(jié)合。

圖1 文獻收集與歸類分析流程

2.2 處理類別不平衡問題的數(shù)據(jù)層面

數(shù)據(jù)層面的方法指對原數(shù)據(jù)進行重采樣,即通過減少或增加一定的藥物靶點相互作用對來平衡數(shù)據(jù)集。按采樣策略進行分類,可以分為簡單隨機式采樣和啟發(fā)式采樣兩類不同的方法。簡單隨機式采樣的主要思想是對原數(shù)據(jù)集進行隨機的增加或者刪除一些樣本,如對有相互作用的藥物靶點對采用隨機過采樣[4]或?qū)ξ粗獦撕灥乃幬锇悬c對采用隨機欠采樣[5-6]。簡單隨機式采樣易使得預測效果存在很大的誤差且很少有學者使用此方法,故不再詳細介紹。啟發(fā)式采樣是指在重采樣時,充分利用原數(shù)據(jù)中樣本的特點或關(guān)聯(lián)信息,進行有指導的重采樣,主要可以分為過采樣、欠采樣和混合采樣3種方法。

2.2.1 過采樣

過采樣也叫上采樣,指從正樣本中重復抽取樣本,對正樣本進行多次復制,從而增加正樣本的數(shù)據(jù)規(guī)模,即從已知的藥物靶點對中重復抽取樣本,增加已知的藥物靶點對數(shù)量。該方法在平衡數(shù)據(jù)集的基礎(chǔ)上增加了正樣本的多樣性,但合成的正樣本并不是經(jīng)實驗驗證過的正樣本,使得合成的正樣本會包含一些原正樣本不具有的特征,即噪聲數(shù)據(jù),樣本學習噪聲數(shù)據(jù),進而降低模型對正樣本的分類正確率。

SMOTE是一種比較經(jīng)典的過采樣方法,它通過在正樣本中進行線性插值的方式來生成新的正樣本,從而擴大已知藥物靶點相互作用對的數(shù)量,達到正負樣本平衡的目的[7-8]。具體生成新樣本的算法原理如表2所示。

表2 SMOTE算法的原理[7-8]

諸多學者都采用了此方法[9-12],實驗也證明SMOTE算法有效地降低了數(shù)據(jù)的失衡程度,提高了藥物靶點預測性能,但其生成的新樣本存在一定的盲目性,合成新樣本的過程中未對負樣本進行充分的考慮,使得樣本易出現(xiàn)混淆現(xiàn)象,且易產(chǎn)生樣本分布邊緣化的問題。為此,改進的SMOTE算法有效改善了上述狀況。

蔡立葛[13]提出了一種改進的基于遺傳算法的SMOTE算法,該算法引入了遺傳算法中的選擇算子、交叉算子和變異算子。首先利用選擇算子和輪盤賭法來選擇若干符合要求的正樣本,然后從此正樣本的鄰域范圍內(nèi)隨機選擇一個近鄰樣本,若這個近鄰樣本也是正樣本,則利用交叉算子來合成一個新的樣本,若這個近鄰樣本是負樣本,則利用變異算子來合成一個新的樣本,最后將新合成的樣本標記為正樣本并添加到正樣本集中。該方法使得新合成的樣本滿足正樣本的屬性特征,且可以有效地平衡失衡數(shù)據(jù)。

葉志威[14]提出了Border Line-SMOTE算法,其優(yōu)點是有選擇地對正樣本進行合成,改善了SMOTE 算法在合成新樣本時易產(chǎn)生樣本分布邊緣化的問題,使新合成的正樣本更加合理。首先,對于正例中的每個樣本點,使用歐式距離公式計算該樣本與其他所有樣本的距離,并選出K個距離最短的樣本,然后根據(jù)樣本點的K近鄰中屬于負樣本的個數(shù),將樣本劃分為噪聲樣本、邊界樣本和安全樣本,針對這些邊界樣本進行SMOTE過采樣,最后,將新合成的正樣本加入正樣本集中,構(gòu)成新的平衡訓練樣本集。Azwaar Khan等[15]采用了6種不同的類別不平衡技術(shù),分別是SMOTE方法、隨機欠采樣方法、Border Line-SMOTE方法、ADASYN (adaptive synthetic)和SVM-SMOTE方法。ADASYN是一種類似于SMOTE的數(shù)據(jù)重采樣方法,不同的是,ADASYN對難以學習的正樣本進行合成。SVM-SMOTE是一種類似于Border Line-SMOTE的重采樣方法,支持向量機用于幫助在數(shù)據(jù)集中的類之間建立邊界,以便在邊界附近生成新的正樣本實例。實驗結(jié)果表明,這6種方法中SVM-SMOTE取得了最佳的效果。

2.2.2 欠采樣

欠采樣也叫下采樣,即從大量未知標簽的藥物靶點對數(shù)據(jù)集中,篩選出一些代表性的與已知藥物靶點對數(shù)量相當?shù)臉颖咀鳛樨摌颖尽T摲椒ㄆ胶饬擞柧毤?提升了正樣本的分類正確率,但也使得大量的負樣本特征丟失,降低了負樣本的分類正確率。

為了避免直接將未知標簽的藥物靶點相互作用對作為負樣本,一種比較常用的欠采樣方法是將數(shù)據(jù)集中所有正樣本拆分成單個藥物和其對應靶點,重新配對并把所有正樣本去除,形成備選負樣本集,再隨機從中選擇與正樣本等量的數(shù)量作為負樣本。Wang等[16]、Liu等[17]和王景虎[18]都采用了此方法,Cao等[19-20]和Ding等[21]隨機選擇正樣本的1~2倍的數(shù)量作為負樣本。鄭小平[22]和楊康[23]也采用了此方法,將數(shù)據(jù)集中的藥物和非靶點兩兩結(jié)合來生成備選負樣本,接著對生成的備選負樣本進行下采樣來平衡數(shù)據(jù)集。假設(shè)備選負樣本數(shù)量是正樣本的y倍,則將負樣本分成y份,不能整除情況下,最后一份包括余下的所有負樣本數(shù),從每份中隨機抽取一個樣本,從而得到與正樣本相同數(shù)量的負樣本。Mahmud[24]提出一種新的聚類欠采樣(cluster under sampling, CUS)技術(shù),利用K-means聚類算法對未知標簽的藥物靶點相互作用對進行聚類,劃分為K(K>1)個簇且每個簇中不包含空集,從這K個簇中隨機選擇樣本,直到選擇的樣本數(shù)量和正樣本相同[25]。該方法直接將未知標簽的藥物靶點相互作用對作為負樣本,預測模型可能學習錯誤的樣本特征,從而降低預測準確度,因為未知標簽的藥物靶點對中可能存在著一些正樣本。Mahmud等[26]提出MMIB(majority and minority instances balancing)技術(shù)來處理數(shù)據(jù)不平衡問題,首先將所有樣本劃分為k(k>1)個簇,如果簇中不存在正樣本,則視為一個,確保簇中至少有一個正樣本,根據(jù)公式確定應從每個簇中隨機選擇的未標記樣本數(shù)量,所有簇中選擇的樣本總和作為負樣本。

2.2.3 混合采樣

混合采樣是指同時對正樣本和負樣本進行處理,正樣本即經(jīng)實驗驗證的有相互作用的藥物靶點相互作用對,負樣本即未知標簽的藥物靶點相互作用對。例如,先用SMOTE方法對正樣本進行過采樣,再對負樣本進行隨機欠采樣,從而使正負樣本達到平衡[27]。混合采樣旨在減少正樣本的噪聲生成,同時減少負樣本的特征丟失,相比單一過采樣或欠采樣,混合采樣取得的效果要優(yōu)于這兩種方法。

Liu等[28]通過賦予正負樣本不同的權(quán)重來平衡數(shù)據(jù)集,對正樣本賦予更高的權(quán)重,因為正樣本是經(jīng)實驗驗證過的可靠樣本。Sharma等[29]還根據(jù)模型訓練后的性能來更新樣本權(quán)重,降低負樣本被選擇的概率,同時使分類器更好的學習正樣本。倪勝[30]首先計算每個藥物靶點對被采樣的概率并降序排序,然后對正樣本進行有放回的過采樣,根據(jù)被采樣的概率,使用輪盤賭的方法來抽取樣本作為新增加的正樣本,最后使用PU Learning(positive-unlabled learning)法對負樣本進行提取,Lin等[31]也采用了此方法。一般都是將數(shù)據(jù)庫中經(jīng)實驗驗證的藥物靶點對作為正樣本,但正樣本可能存在一些冗余,為了降低樣本的冗余度,趙明珠[32]利用局部相似性比對搜索工具(basic local alignment search tool, BLAST)對數(shù)據(jù)庫中數(shù)據(jù)根據(jù)靶蛋白序列進行聚類,從每類中隨機選擇一個靶蛋白及其配對的藥物組成最終的正樣本,再隨機從數(shù)據(jù)庫中選擇除正樣本外的與正樣本等量的藥物靶點對作為負樣本。

數(shù)據(jù)層面的方法只需對數(shù)據(jù)集進行處理,獨立于分類算法,具有簡單易實現(xiàn)、泛化能力強和可擴展性高的優(yōu)點,應用廣泛,其缺點是會改變樣本分布。其中SMOTE方法及其改進方法是比較常用的方法,不僅是在藥物靶點預測問題中,在風險評估[33-34]、異常監(jiān)測[35-36]、醫(yī)學診斷[37-38]等方面均有廣泛應用。過采樣和欠采樣都僅關(guān)注正負樣本中的其中一方,且最優(yōu)采樣率的確定還需進一步研究,所以一般混合采樣的方法要優(yōu)于單一過采樣和欠采樣,但混合采樣可能會存在過擬合的風險。

2.3 處理類別不平衡問題的學習算法層面

機器學習常用的分類算法,如決策樹、支持向量機、樸素貝葉斯等,在樣本分布不均時,更傾向于多數(shù)類,易使分類結(jié)果存在很大誤差,因此學習算法層面的方法多是通過改進現(xiàn)有的一些學習算法,使得模型在不平衡數(shù)據(jù)集上也能取得較好的效果或者構(gòu)造出平衡的數(shù)據(jù)集,提高算法對正樣本的識別,針對正樣本著重擬合,提高算法性能。這類方法主要是基于集成學習和半監(jiān)督學習的思想。集成學習方法主要是通過采用多個弱分類器組合的方式,來減少單一分類器對不平衡數(shù)據(jù)的錯分。半監(jiān)督學習算法可以充分利用海量的未知標簽的樣本,與藥物靶點預測中大量的藥物靶點對的標簽未知的特點相契合。與數(shù)據(jù)層面的方法不同的是,該類方法不會對原始樣本進行增加或者刪除,改變其原始樣本分布,因此更適用于數(shù)據(jù)分布較復雜的不平衡問題。

2.3.1 基于集成學習思想的方法

孫暢[39]和陳炳旭[40]建立了一個基于梯度提升決策樹的藥物靶點預測模型,Sun等[41]建立了一個基于Light GBM(light gradient boosting machine)的集成學習模型,他們都使用決策樹作為基學習器。假設(shè)數(shù)據(jù)集中的正樣本和未知樣本的比例為1∶g,則將所有未知樣本均分為g組并構(gòu)建g棵決策樹,每棵決策樹使用一組未知樣本和所有正樣本進行訓練,預測藥物靶點對之間的相互作用得分,最后對每棵決策樹的結(jié)果進行加權(quán)平均來得到最終的預測結(jié)果,選擇得分高的與正樣本等量的藥物靶點對作為負樣本。Ezzat等[42]也運用了該方法,該方法可以得到可靠的負樣本,減輕預測時對負樣本的預測誤差,同時緩解了正負樣本不平衡問題帶來的負面影響。姜志文[43]利用EasyEnsample方法,不同的是該方法將劃分后的負樣本子集和正樣本集一起輸入到AdaBoost基分類器中,集成各分類器的結(jié)果來得到最終的結(jié)果。

Pliakos等[44]提出了一種基于輸出空間重構(gòu)的多輸出預測的藥物靶點相互作用預測方法,將藥物靶點相互作用預測作為一個多輸出預測任務,使用鄰域正則化邏輯矩陣分解(neighborhood regularized logistic matrix factorization, NRLMF)法來重建問題中的目標空間,將邏輯矩陣分解與鄰域正則化相結(jié)合,可以消除現(xiàn)有的噪聲,識別訓練集中潛在的未標記的藥物靶點相互作用,這尤其減輕了類別不平衡問題帶來的負面影響。Lan等[45]和Wang等[46]將除正樣本外的藥物靶標對設(shè)為未標記的樣本,使用帶重啟的隨機游走、K最近鄰(K nearest neighbor, KNN)、Heat Kernel Diffusion 3種方法將未標記的樣本分為可靠的負樣本和可能的負樣本兩組,然后采用多數(shù)投票法對這3種方法的結(jié)果進行匯總,以確定未標記樣本的最終標簽,當有兩種以上的方法都標記為可靠的負樣本時,才將此樣本標記為可靠的負樣本,否則將其標記為可能的負樣本,最后,首選可靠的負樣本來平衡樣本集。

基于集成學習的方法主要采用了Boosting的集成方式,相比于單一分類器,普遍具有更好的分類準確性、更高的泛化性能,但也存在著比單一分類器時間復雜度高,面對高維數(shù)據(jù)時的性能不一定比單一分類器更優(yōu)的問題,而且如何更合理地設(shè)置集成規(guī)模的大小以及弱分類器的權(quán)重系數(shù)需要進一步考慮。

2.3.2 基于半監(jiān)督學習思想的方法

Shi等[47]采用一種基于半監(jiān)督學習的Spy策略,將已知藥物靶點相互作用對納入正樣本集P,所有未標記樣本納入集合U,從P中隨機選擇一組正例S,并注入U中,將P中剩余正樣本標記為P′,U和S的并集命名為U′。建立一個正則化最小二乘分類器對U′中的樣本進行分類預測,得到一個分數(shù)為正的預測分數(shù),以S中樣本的預測最小分數(shù)為識別可靠負樣本的閾值,在U中得分小于閾值的樣本確定為負樣本,和P集合中的正樣本一起作為最終的平衡樣本集。該方法可以從大量未標記的樣本中篩選出可靠的負樣本,即最大可能是沒有相互作用的藥物靶點對,從而使預測模型學習正確的負樣本特征。彭利紅[48]在此基礎(chǔ)上又考慮到了模糊樣本,采用一種基于多分類器組合的思想和PU Learning的方法[49],通過構(gòu)建兩個分類器分別對未知標簽的藥物靶點對進行分類,對每一個藥物靶點對,若兩個分類器的分類結(jié)果都為負樣本,則將這個藥物靶點對當作一個可靠的負樣本,并將它加入負樣本集中。若兩個分類器的分類結(jié)果都為正樣本,則將這個藥物靶點對當作一個可靠的正樣本,并將它加入正樣本集中。分類結(jié)果不同的樣本看作是模糊樣本,從正負樣本集中分別選取出一些代表性的正負樣本,考慮所有代表性的正負樣本和模糊樣本之間的局部和全局相似性,在此基礎(chǔ)上,計算出所有模糊樣本屬于正負例的概率,優(yōu)先選擇概率大的樣本,最后選取和正樣本等量負樣本來平衡數(shù)據(jù)集。該方法更進一步提升了負樣本選擇的準確度。

趙捷[50]主要針對原始標簽矩陣過于稀疏且標簽信息不平衡的問題,他提出一種基于半監(jiān)督學習和標簽擴充的藥物靶點相互作用預測方法(label extended semi-supervised learning, LESSL)在進行藥物靶點預測之前,通過引入一個正則化矩陣V,用矩陣V左乘以Y(Y為已知的藥物靶點相互作用矩陣),從而得到一個擴充了的新矩陣Z=VY,以新矩陣作為預測時的正樣本。該方法擴充了已知的藥物靶點相互作用矩陣Y,增加了正樣本的數(shù)量,從而平衡了數(shù)據(jù)集。Mahmud等[51]提出一種名為Fast Under Sampling的方法來處理數(shù)據(jù)不平衡問題,利用支持向量機(support vector machine, SVM)分類器分別對正樣本和負樣本的特征值進行學習,根據(jù)預測值和真實特征值計算歐式距離,并根據(jù)距離將樣本降序排列,從排序后的樣本中依次選擇與原始正樣本等量的負樣本作為最終的數(shù)據(jù)集,該方法去除了與正例相似的大多數(shù)樣本,同時,保留了距離正樣本較遠的負樣本,有效篩選出了負樣本。Wang等[52]利用SVM-SN法來平衡數(shù)據(jù)集,首先通過在正樣本集上訓練單類SVM來構(gòu)造一個分類器f1,用f1對未標記樣本集U中的樣本進行預測,預測得到的負樣本集合N1作為初始的黃金標準負樣本集,設(shè)置U1=U-N1;然后通過在黃金標準正樣本集和N1上訓練兩類SVM來構(gòu)造一個分類器f2,用f2對U1中的樣本進行預測,預測得到的負樣本集設(shè)為N2,此時N1=[N2;Nsv],Nsv為f2的負支持向量,設(shè)置U2=U1-N2;重復此步驟,直到負樣本數(shù)量接近正樣本數(shù)量。

● WISE-PaaS/APM:設(shè)備聯(lián)網(wǎng)遠程運維服務框架;可以對接廣泛的現(xiàn)場產(chǎn)業(yè)設(shè)備控制與通訊協(xié)議,支持最新的邊緣運算EdgeX Foundry開放標準,內(nèi)建設(shè)備管理與工作流程整合模板,并結(jié)合AFS加速設(shè)備智聯(lián)應用發(fā)展。

余冬華[53]利用爬蟲技術(shù)代替人工手動查詢,高效且準確的查詢給定數(shù)據(jù)集中所有未知的藥物靶標相互作用關(guān)系,并且搜集整理出實際已被驗證的藥物靶標互作關(guān)系,擴充了正樣本數(shù)量,一定程度上改善了數(shù)據(jù)集不平衡的問題。接著提出一種聚類分析輔助的超類方法和特征投影模糊分類方法融合的藥物靶標預測方法,超類方法融合了超靶與超藥的思想,通過聚類結(jié)果增添正樣本,降低正樣本集的稀疏程度;特征投影模糊分類方法克服了藥物和靶點在隱特征分解時的維數(shù)約束,可以有效降低將未知藥物靶點相互作用關(guān)系直接當作負樣本帶來的負面影響。在此基礎(chǔ)上,改善了數(shù)據(jù)集的不平衡問題,大大提高了藥物靶點預測性能。

基于半監(jiān)督學習思想的方法可以總結(jié)為生成模型算法和自訓練算法。生成模型算法的思想是從訓練集中學到了正樣本和負樣本的特征,對于新樣本,提取出這些特征后,拿去和正負樣本分別進行比較,得到一個概率,這個新樣本被認為是概率大的一方,如彭利紅[48]提出的方法;自訓練算法的思想是首先訓練正樣本集,得到一個分類器,然后使用這個分類器對未標識的樣本進行分類,根據(jù)分類結(jié)果,將可信程度較高的未標記樣本加入訓練集,擴充訓練集規(guī)模后,重新學習以得到新的分類器,如SVM-SN法。

2.4 處理類別不平衡問題的構(gòu)造負樣本層面

藥物靶點相互作用的預測中,導致數(shù)據(jù)集不平衡的主要原因是存在大量未知標簽的藥物靶點相互作用對以及缺少經(jīng)實驗驗證的負樣本數(shù)據(jù),通過對這些未知標簽進行處理,構(gòu)造出可靠的負樣本,避免了隨機從中選擇帶來的盲目性以及低預測性能。

王騰蛟[54]通過兩種策略來構(gòu)造負樣本,策略1是使用支持向量機作為分類器,利用松弛變量構(gòu)造約束條件,通過拉格朗日乘子求解相應的優(yōu)化問題,定義每個靶蛋白的權(quán)重,然后根據(jù)其分布偏差來選取符合一定條件的靶蛋白樣本作為備選負樣本。策略2是在策略1的基礎(chǔ)上,對于備選負樣本,求出其屬于負樣本的概率,接著以輪盤賭的方式隨機抽取同正樣本等量的靶蛋白樣本作為負例。第一種策略盡可能多地選取可能的藥物靶點對,第二種策略對于可能的藥物靶點對進行篩選,旨在選取高可靠的負樣本數(shù)據(jù)。

除了蛋白質(zhì)靶點外,疾病和藥物副作用也可被視為藥物的靶點,通過構(gòu)造一個非負矩陣分解模型,以處理藥物、疾病、蛋白質(zhì)、藥物副作用的數(shù)據(jù)和相似性的計算,根據(jù)相似性對未標記的藥物靶點對進行預測和排序,從而選取可靠的負樣本[55]。Manoochehri等[56]則根據(jù)藥物相似性和靶點相似性計算備選負樣本中藥物和靶點之間的相似性得分并遞減排序,選取得分高的與正例相等的樣本作為負樣本。高創(chuàng)等[57]構(gòu)建了一個包含多種藥物或靶標相關(guān)信息的異構(gòu)信息網(wǎng)絡,利用異構(gòu)信息網(wǎng)絡中的結(jié)點或者邊來提取負樣本,隨機選取與vi結(jié)點不具有相互作用關(guān)系的Vm結(jié)點來構(gòu)造負樣本邊(Vi,Vm),其中Vm的取樣根據(jù)分布p(p為通過softmax計算出的一個概率分布)來選取。Yu等[58]提出了BRS-nonint方法,該方法依次選取正樣本中最大頂點度的靶蛋白,從連接到當前靶蛋白的備選負樣本集中隨機選取,直到負樣本集合中的頂點度和正樣本集合中的頂點度相同,并且確保每個靶蛋白出現(xiàn)在負樣本中的次數(shù)等于其出現(xiàn)在正樣本中的次數(shù)。

Najm等[59]采用一種平衡抽樣的方法來選擇負樣本,定義數(shù)據(jù)庫中的每個靶蛋白和藥物都有一個初始對應于已知配體或靶標的數(shù)量;對于每種靶蛋白,從計數(shù)器最高的靶蛋白到計數(shù)器等于1的靶蛋白開始,從那些不與該靶蛋白相互作用且計數(shù)器大于或等于1的藥物中隨機選擇藥物;每選擇一個負樣本,相應的靶蛋白和藥物的計數(shù)器減少一個單位;重復這個過程,直到所有的靶蛋白和藥物計數(shù)器都等于0,最后使得負樣本數(shù)量等于正樣本數(shù)量。

將正樣本數(shù)據(jù)拆分成單個藥物和靶標后進行隨機組合,剔除有相互作用關(guān)系的藥物靶標對,得到備選負樣本集合,計算每個備選負樣本與整個正樣本數(shù)據(jù)間的歐式距離并降序排列,選擇與正樣本等量的最大距離的樣本作為最終的負樣本[60]。Liu等[61]則根據(jù)備選負樣本中藥物和靶標間的距離并降序排列,并利用藥物和靶標的特征差異對樣本進行進一步過濾,最后選取距離大于給定值且特征差異較大的與正樣本等量的樣本作為最終的負樣本。這個距離代表了藥物d不靶向靶點p的可能性,距離越大則可能性越大。Wang等[62]采用了NearMiss方法,該方法利用正負樣本間的距離來選擇樣本,它根據(jù)距離最近或者平均距離最小或最大的策略來選擇負樣本,從而平衡樣本集,該方法需要計算每個正負樣本間的距離,比較耗時和復雜。孟志昌[63]根據(jù)有相互作用關(guān)系的藥物靶點對,統(tǒng)計其屬于同一種藥物的靶蛋白在蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡中兩兩之間的平均最短路徑和最大最短路徑。將每種藥物所對應的靶蛋白集合中,所有小于或等于最大最短路徑的靶蛋白剔除,網(wǎng)絡中其余的藥物靶點對作為負樣本。隨后又提出一種新的構(gòu)造負樣本的思路,對于每種藥物,根據(jù)Random walk方法或者Prince方法計算其與所有靶點相互作用的概率并降序排列,取排在最后的與正樣本等量的靶蛋白作為負例。改進后的方法所取得的藥物靶點預測效果要優(yōu)于基于距離的方法,其中Prince方法又要優(yōu)于Random walk方法。

構(gòu)造負樣本層面的方法,多是根據(jù)距離以及權(quán)重等來從大量未知標簽的藥物靶點相互作用對中選取更可靠的負樣本,與數(shù)據(jù)層面的下采樣方法相比,這兩種類別的方法都是對負樣本進行處理,不同的是,該類方法選取的負樣本更有可能排除掉那些經(jīng)實驗驗證過的藥物靶點對,更能擬合分類器。

這3個層面的方法都各有一定的優(yōu)缺點,因此相關(guān)學者多選擇通過對比多種不同的不平衡處理方法來優(yōu)選出最佳方法,先利用數(shù)據(jù)層面或構(gòu)造負樣本層面的方法對原始數(shù)據(jù)集進行處理,再利用計算的方法提升分類器性能,可以有效處理不平衡問題的同時,也能保證分類器的泛化能力和算法的穩(wěn)定性。

3 藥物靶點預測中類別不平衡問題的應用分析

藥物靶點相互作用關(guān)系的研究是進行藥物研發(fā)、藥物重定位的關(guān)鍵所在,科學準確地識別藥物和靶點之間的關(guān)系有助于學者們對藥物運作機制和疾病病理的理解,處理類別不平衡問題可以有效提高藥物靶點預測的性能,除此之外,還可以為相似性研究、藥物的關(guān)聯(lián)預測、藥物副作用研究等領(lǐng)域提供重要輔助。

3.1 相似性研究

相似性研究的依據(jù)包括結(jié)構(gòu)相似性、功能相似性和混合相似性等,若某藥物與某靶點有相互作用,則與該藥物越相似的藥物越可能與該靶點產(chǎn)生相互作用,與該靶點越相似的靶點也越可能與該藥物產(chǎn)生相互作用,且與該藥物相似的藥物可能與該靶點相似的靶點產(chǎn)生相互作用。基于此,一些相似性計算方法,如經(jīng)典的利用Tanimoto系數(shù)[64]進行相似性計算、基于指紋相似度的方法[65]和整合了多種計算藥物或靶點間相似性算法的混合方法[66]等,都為藥物和靶點相似性研究提供了有力的幫助,同時,許多方法需要依據(jù)藥物靶點相互作用數(shù)據(jù)集來建立相似性矩陣,藥物靶點預測中類別不平衡問題的有效處理進一步為藥物靶點相似性研究提供了便利。

3.2 藥物的關(guān)聯(lián)預測

在藥物與藥物的關(guān)聯(lián)預測中,對各生物實體的關(guān)聯(lián)預測中,如IncRNA與疾病[67]、microRNA與疾病[68]等,由于負樣本數(shù)據(jù)的缺失或者隨機選擇未知標簽的樣本作為負樣本數(shù)據(jù),嚴重影響了模型的泛化能力,有效處理藥物靶點預測中類別不平衡的問題后,可以挖掘現(xiàn)有藥物和靶點中的關(guān)聯(lián)信息,為新的藥物和靶點相互作用關(guān)系進行預測。通常,疾病受諸多因素的影響,需要考慮多個藥物和多個靶點間的關(guān)聯(lián),類別不平衡問題的有效處理大大便利了藥物關(guān)聯(lián)預測的研究,為疾病的治療提供了新的線索,也為新藥物或新靶點關(guān)聯(lián)信息的挖掘提供了有益幫助。

3.3 藥物副作用

藥物副作用的研究既可以針對老藥又可以針對新藥,藥物副作用的研究重在發(fā)現(xiàn)藥物除療效靶點以外的潛在靶點,這些潛在靶點很可能會帶來不在預期范圍內(nèi)的藥物副作用。這些超出預期范圍的副作用可能會對人體的某些器官造成不可逆的損害,嚴重的甚至會危及生命,如抗凝血類藥物通常易導致腦出血中風[69]。藥物靶點相互作用的研究是制藥乃至整個藥學的重要階段,能否研發(fā)出療效令人滿意的新藥,能否預見某藥物的嚴重副作用,關(guān)鍵就在于能否挖掘出相應的藥物靶點,有效處理藥物靶點預測中類別不平衡的問題,提高藥物靶點相互作用預測模型的性能,進而加速藥物副作用的研究。

4 討論與結(jié)論

綜上所述,一是處理類別不平衡問題的方法眾多、各有特色,都一定程度上提高了藥物靶點相互作用預測的性能;二是藥物靶點預測性能提高后的應用研究,大大地推動了藥物研究科學化、規(guī)范化、現(xiàn)代化的進程。但是,藥物靶點預測中類別不平衡問題的研究仍在不斷的探索與拓展中,分析現(xiàn)有的文獻顯示,雖然不平衡問題的處理方法較多,但也很繁雜,且各方法使用的藥物靶點預測模型基本不同,使得各類方法難以進行比較??梢圆捎酶鞣N處理不平衡問題的方法,對同一類藥物靶點相互作用進行預測;或是在多種藥物靶點相互作用的預測模型上,采用同一種處理不平衡問題的方法。如此一來,即可綜合比較各方法,也可對比各模型效果,從而優(yōu)選最佳方案得到更好的預測性能。其次,隨著用計算的方法來預測藥物靶點相互作用的深入研究,諸多學者是從藥物靶點預測的數(shù)據(jù)集分布極不平衡這一特點切入來處理。雖然針對藥物靶點預測中類別不平衡問題的處理方法較多,但諸多針對其他數(shù)據(jù)集不平衡的有效處理方法,如旋轉(zhuǎn)平衡森林算法[70]、DPCR-ELM (imbalanced data classification algorithm based on DPC clustering resampling comb-ned with ELM)[71]和最近鄰三角區(qū)域SMOTE方法[72]等,卻很少有相關(guān)學者將其運用在藥物靶點相互作用預測研究中。最后,在藥物靶點預測中是否應該考慮不平衡問題,以及是否應該使用處理不平衡問題的方法是需要關(guān)注的一個重點,因為有時提高少數(shù)類精度的代價是犧牲更多的多數(shù)類的精度,那么不平衡恢復方法既會增加計算負擔,還會降低性能。Lu[73]提出了實例度量(individual bayes imbalance impact index, IBI3)和數(shù)據(jù)度量(bayes imbalance impact index, BI3),為此問題提供了有益的借鑒參考。

綜上所述,本文研究系統(tǒng)歸納了藥物靶點相互作用預測中類別不平衡問題的處理方法,分析了處理藥物靶點預測中類別不平衡問題的應用,揭示了其發(fā)展方向與趨勢,為藥物靶點相互作用的預測研究提供了有益參考。可見,處理類別不平衡問題可以大大提高藥物靶點相互作用預測性能,若能綜合比較來優(yōu)選各方法,或?qū)⑵渌幚聿黄胶鈫栴}的優(yōu)秀方法運用于藥物靶點預測研究,必將進一步提高其預測性能,進而加速藥物研發(fā)過程、推進醫(yī)藥事業(yè)的現(xiàn)代化發(fā)展。

猜你喜歡
類別分類器靶點
維生素D受體或是糖尿病治療的新靶點
中老年保健(2021年3期)2021-12-03 02:32:25
腫瘤免疫治療發(fā)現(xiàn)新潛在靶點
BP-GA光照分類器在車道線識別中的應用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
服務類別
新校長(2016年8期)2016-01-10 06:43:59
心力衰竭的分子重構(gòu)機制及其潛在的治療靶點
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
氯胺酮依賴腦內(nèi)作用靶點的可視化研究
同位素(2014年2期)2014-04-16 04:57:16
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
云梦县| 威海市| 琼结县| 阳江市| 福安市| 运城市| 五河县| 乌苏市| 泗阳县| 济宁市| 融水| 仙居县| 洛阳市| 淅川县| 沙洋县| 闽侯县| 五寨县| 屯门区| 华阴市| 南澳县| 甘孜县| 洞头县| 彭水| 招远市| 商都县| 金堂县| 新巴尔虎右旗| 大同市| 郧西县| 峨山| 怀宁县| 古蔺县| 尖扎县| 五原县| 桦甸市| 莱芜市| 文昌市| 连州市| 新宁县| 汝州市| 赤峰市|