基于模式物種的快速同源搜索軟件基準測試

2022-06-20 08:15:24王殷偉武晶菁張宸寧華宜家

南京師大學(xué)報(自然科學(xué)版) 2022年2期

王殷偉,武晶菁,張宸寧,華宜家,李鵬,嚴潔

(南京師范大學(xué)生命科學(xué)學(xué)院,江蘇南京 210023)

同源搜索對比較基因組學(xué)分析十分重要,是后續(xù)諸如基因組注釋、基因鑒定、基因家族聚類、GO[1]、KEGG[2]富集等一系列比較基因組學(xué)流程分析的基礎(chǔ). 以最流行的兩個直系同源推斷和基因家族聚類軟件OrthoMCL[3]和OrthoFinder[4]為例:OrthoMCL通常需要基于blastp結(jié)果進行分析,而OrthoFinder則是內(nèi)置了blastp、MMseqs和Diamond三種搜索軟件供用戶選擇. 直系同源被定義是一種在物種形成事件后分化的特征[5],一對在不同物種中相同的基因通常會被認定為直系同源基因. Reciprocal Best Hits(RBH)的方法因具有更少假陽性而被廣泛用于直系同源基因的推斷[6-8]. RBH指兩個物種中通過比對搜索軟件得到最佳匹配或者最高打分的一對基因. 隨著基因組時代的來臨,蛋白數(shù)據(jù)呈現(xiàn)爆炸式的指數(shù)增長,而傳統(tǒng)blastp搜索越來越難以應(yīng)對快速搜索的需求,帶來了對于快速同源搜索算法和軟件開發(fā)的需求. 各類算法的快速同源搜索軟件應(yīng)運而生,但速度的提升往往會帶來精度上的下降. 因此,基于時間消耗、同源對、RBH以及軟件錯誤率等指標對于各種同源搜索軟件的評估十分重要,它決定能否找到正確的直系同源基因,決定比較基因組學(xué)分析的正確與否.

近幾年來不乏有一些針對同源搜索軟件的比較分析. 2014年Ward等[9]將blast+[10]中的blastp與last[11]、ublast[12]和blat[13]進行了比較,結(jié)果發(fā)現(xiàn)雖然blat速度最快,但在RBH、同源對搜索上有著最低的預(yù)測數(shù),并且在RBH推斷上有著最高的錯誤率,而ublast和last則相比blat來說,有著更多的RBH和同源對預(yù)測數(shù)以及更低的錯誤率;隨著衡量物種親緣的指標基因組相似度GSS(Genomic Similarity Scores)[14]的降低,各個軟件在RBH和同源對預(yù)測數(shù)上都有著隨之下降的趨勢,而錯誤率則有著隨之升高的趨勢. 2016年Saripella等[15]基于16個模式物種以及結(jié)合蛋白結(jié)構(gòu)數(shù)據(jù)庫信息,對基于譜(profile-based)搜索的軟件cs-blast[16]、hhsearch[17]、phmmer[18]以及非基于譜搜索的軟件blast+中的blastp、usearch[12]、ublast和fasta[19]進行了綜合評估,結(jié)果發(fā)現(xiàn)基于譜搜索的軟件相比非基于譜的,有著更高的AUC值,表明其精度更高,但這同樣帶來了時間消耗的巨大增加. 2020年,Hernndez等[20]對last、blast、diamond[21]和MMseqs2[22]進行了類似于Ward等[9]的研究,在不同GSS下得到的結(jié)果和趨勢也是類似的,并且還發(fā)現(xiàn) diamond 的“very”模式在速度和RBH結(jié)果上有著良好的平衡,diamond是綜合來說最好的軟件.

盡管有了上述的一些研究,對更多優(yōu)秀、快速同源搜索的軟件進行比較仍然是必要的. 首先,上述的大部分軟件,都會不斷地進行定期更新,其運算的速率、精度是會改變的,需要進行重新評估;其次,上述的一些研究,選擇的軟件并不全面,一些主流和新開發(fā)的快速搜索軟件并未參與評估. 縱觀近十年的同源搜索軟件和算法的開發(fā)和進展,選取了具有代表性的快速搜索軟件,包括usearch/ublast、last、lambda[23]、ghostx[24]、diamond、MMseqs2以及blast在內(nèi),共8種非基于譜的軟件或算法進行評估. 為何僅選擇非基于譜的,這很大程度上是因為,基于譜的算法和軟件,雖然帶來了精度上的提升,速度卻相比blastp有著大幅下降[15],更難實現(xiàn)大規(guī)模數(shù)據(jù)情況下的同源蛋白搜索. 本文旨在篩選出相比blastp來說更快的算法或軟件,與此同時精度上有著更少下降或更高的替代品,以應(yīng)對大規(guī)模數(shù)據(jù)下的同源蛋白搜索.

1 材料與方法

1.1 蛋白序列收集

研究部分參照Saripella等[15]的做法,選取了15個具有代表性的、有一定跨度的模式物種(表1),涵蓋原核與真核生物,它們分別為,屬于細菌的Escherichiacoli和Staphylococcusaureus,原生動物的Chlamydomonasreinhardtii和Dictyosteliumdiscoideum,真菌的Aspergillusnidulans和Saccharomycescerevisiae,植物的Arabidopsisthaliana和Zeamays,無脊椎動物的Drosophilamelanogaster和Caenorhabditiselegans以及脊椎動物的Homosapiens、Daniorerio、Xenopustropicalis、Gallusgallus和Musmusculus,各自從NCBI基因組數(shù)據(jù)庫中下載對應(yīng)基因組序列和gff注釋,結(jié)合基因組序列和注釋信息,提取蛋白序列,而對于有著不同可變剪切轉(zhuǎn)錄本的基因,則保留最長的蛋白序列作為該基因的代表,因而得到對于每個物種來說都是非冗余的蛋白序列.

1.2 實驗機器、軟件運行以及時間與內(nèi)存消耗

本研究采用軟件usearch/ublast v11.0.667_i86linux32、last 1256、lambda2 v1.9.5、ghostx v1.3.6、diamond v2.0.6.144、MMseqs2 Release 13-45111和blast v2.5.0,以及部分軟件的不同精度,即diamond-fast、diamond-sensitive、diamond-more、diamond-very、diamond-ultra、MMseqs-s3、MMseqs-s5和MMseqs-s7.5,基于一臺系統(tǒng)為Centos8的中小型服務(wù)器以4線程以及1e-6的閾值設(shè)定運行(表2),物種的蛋白集合兩兩比對,并且包括自身比對. 服務(wù)器CPU型號為AMD Ryzen Threadripper 3970X 32-Core Processor,一共32核,每核兩線程,內(nèi)存總大小為120GB,使用unix命令“time”計算并記錄每次運行的真實時間(real times),在unix下的“while”循環(huán)中檢測監(jiān)測私有內(nèi)存與共有內(nèi)存的總即時消耗,程序運行完成后計算平均內(nèi)存消耗,每次運行時確保無其他任務(wù)運行占用計算額外資源導(dǎo)致時間計算出現(xiàn)偏差.

表1 選擇的15個模式物種基因組序列信息Table 1 Genome sequence information for candidate 15 model species

表2 用于運行軟件的命令行Table 2 Command lines used to run each program

1.3 同源對和RBH的統(tǒng)計計算

同源對數(shù)目即每個軟件運行得到的結(jié)果數(shù)目即hits數(shù),而RBH則是每次運行結(jié)果中每個Query對應(yīng)最佳的匹配. 首先繪制了每個軟件或不同精度對應(yīng)的箱線圖,然后根據(jù)blastp結(jié)果計算基因組相似度得分,即GSS. 在這里,計算了每對物種包括物種本身的GSSa[14],并且以相對于blastp的時間、同源對數(shù)目、RBH分別與GSS作誤差棒圖. 還計算了每種具有共線性順序支持的可信RBH數(shù)目,具體來說,如果一個物種相鄰的兩個基因a和b,與另一個物種相鄰的基因a′、b′相比,a和a′為RBH,b和b′為RBH,那么這兩個RBH都為真陽性結(jié)果[7,25-26],在這里稱之為可信RBH,在本文暫稱之為CRBH(Credible RBH),同樣,也繪制了CRBH與GSS的誤差棒圖,最后繪制了6種有較好表現(xiàn)軟件結(jié)果的韋恩圖,所有繪圖、統(tǒng)計計算均在Python 3.6下進行,以Matplotlib模塊繪制圖片.

1.4 計算錯誤發(fā)現(xiàn)率

為了評估不同模型或程序得到結(jié)果的準確性,首先用InterproScan v5.8[27]軟件的superfamily v1.75[28]蛋白家族結(jié)構(gòu)數(shù)據(jù)庫對所有蛋白進行了注釋,接下來對所有程序運行結(jié)果在不同期望閾值下的錯誤發(fā)現(xiàn)率進行統(tǒng)計計算. 具體來說,如果程序搜索匹配得到的一對蛋白,有著完全相同的superfamily注釋結(jié)果,則為陽性匹配;有著部分相同的superfamily注釋結(jié)果,則為模糊匹配,不參與后續(xù)計算;有著完全不同的superfamily注釋,則為陰性匹配,錯誤發(fā)現(xiàn)率則等于在不同期望閾值下的假陽性結(jié)果總數(shù)除以所有陽性結(jié)果的總數(shù).

2 結(jié)果與討論

2.1 運行時間

將所有程序運行計算得到的時間與blastp相除,來觀測其各自相對blastp所節(jié)省的時間. 結(jié)果發(fā)現(xiàn),大部分程序運行時間平均數(shù)不到blastp時間消耗的5%,而last、usearch和diamond-fast運行時間平均數(shù)則不到blastp時間消耗的2.5%,是速度最快的3個程序(圖1). 雖然從圖中看似并無太大差異,但配對樣本t檢驗表明,3個程序在時間消耗節(jié)省上來說,diamond-fast

除了關(guān)注不同軟件間的比較,還關(guān)注了相同軟件不同精度下的運行效率,即diamond和MMseqs2的不同精度模式下的表現(xiàn).

對于diamond來說,研究發(fā)現(xiàn),與之前的研究類似,“sensitive”、“more”和“very”的運行時間幾乎無太大差異[20],因此,在選擇這三種選項時,理論上來說一定是精度更高的“very”模式更好,而“fast”相比這三種精度下的運行速度明顯更快,“ultra”相比則更慢.

對于MMseqs2來說,不同的精度下,速度有著明顯的差異,尤其是s7.5精度模式,時間消耗已經(jīng)高于除了blastp外的所有程序,并且在一些運行中,速度慢于blastp,這體現(xiàn)了其運行時間的巨大變異性和不穩(wěn)定性,如果該精度下后續(xù)的評估中并沒有發(fā)現(xiàn)隨之帶來的各種指標評估下的良好改進,那么該精度模式則是個不被推薦的選項.

本研究并未發(fā)現(xiàn)不同程序時間消耗與GSS之間的關(guān)聯(lián)性(圖2),但可以發(fā)現(xiàn)的是,MMseqs的s7.5精度模式的相對耗時在不同GSS下波動較大,呈現(xiàn)“中間低,兩頭高”的模式,diamond的“ultra”模式也呈現(xiàn)類似模式,但較前者更加平穩(wěn)些,其他軟件之間的波動以及趨勢并不完全一致,但總體呈現(xiàn)在不同GSS下的平穩(wěn)均勻分布,這說明大部分軟件每次實驗相對于blastp節(jié)省時間的比例是一個穩(wěn)定的小區(qū)間,換言之,最不穩(wěn)定的MMseqs的s7.5精度模式,如果在精度上沒有表現(xiàn)出巨大優(yōu)越性,那么其在大規(guī)模同源搜索時就不是一個良好的選擇.

圖1 不同程序每次同源搜索相對blastp運行速度的差異Fig.1 Differences in the speed of homologous protein searchrelative to blastp by different programs

圖2 不同程序在不同GSS下的相對于blastp的時間消耗的誤差棒圖Fig.2 Error bar graph of time consumption relative to blastpfor different programs at different GSS

2.2 運行內(nèi)存

同樣如上,將所有程序計算得到的平均內(nèi)存消耗與blastp相除,得到相對blastp的內(nèi)存消耗. 結(jié)果顯示(圖3),除了MMseqs2,其余所有程序的相對運行內(nèi)存都顯著高于blastp,其中g(shù)hostx最為顯著,其平均運行內(nèi)存消耗約為blastp的22倍,這表明在運行g(shù)hostx進行同源搜索時,尤為需要注意可用內(nèi)存空間的大小. 其次比較高的是diamond的“ultra”精度模式,而usearch、ublast、last和lambda則有著比blastp較高但接近的內(nèi)存占用. 值得注意的是,這些結(jié)果在大體上與時間消耗表現(xiàn)一致,這可能表明有些內(nèi)存占用較少的軟件可能不需要太大的開銷進行更多的搜索,從而在時間消耗上表現(xiàn)較低.

當(dāng)關(guān)注到相同軟件不同精度下的內(nèi)存占用時,MMseqs2三種精度模式下相對平均內(nèi)存消耗的分布并無太大差異,但明顯低于其他程序,包括blastp(配對樣本t檢驗,p-value<1e-5),而diamond則隨著精度的提高,呈現(xiàn)出明顯的內(nèi)存消耗提升.

2.3 同源蛋白對

與時間消耗誤差棒圖(圖2)一致的是,研究發(fā)現(xiàn),不同軟件在不同GSS下鑒定出的相對于blastp的同源蛋白數(shù)的數(shù)目分布也呈現(xiàn)“中間低,兩頭高”的趨勢(圖4),并且總體分布趨勢與時間消耗圖吻合,這表明程序能夠鑒定出的結(jié)果數(shù)目的大小和時間是有一定關(guān)聯(lián)性的,這也與預(yù)期和直覺一致,結(jié)果數(shù)目越多,時間消耗越大.

幾乎所有軟件在不同GSS下鑒定出的同源蛋白對都要少于blastp的結(jié)果. 唯一的例外是ghostx在低GSS的情況下獲得的結(jié)果大大增加,最多可達blastp結(jié)果的3倍以上. 而ublast則在很高GSS的情況下,鑒定的結(jié)果數(shù)目越為接近blastp,但大部分情況下,MMseqs的s7.5和s5模式有更多的結(jié)果數(shù). 可以看到MMseqs的s7.5精度模式在時間消耗上的提升確實帶來了鑒定同源蛋白對數(shù)目上的提升,但提升并不明顯:在低GSS下顯著低于ghostx,在高GSS下的則略少于ublast. 如果僅從同源蛋白結(jié)果數(shù)目上來看,ghostx適用遠緣搜索,ublast適用于近緣搜索. 在中等GSS的情況下,MMseqs的s5精度模式獲得結(jié)果的數(shù)目僅次于s7.5精度模式,但考慮到時間消耗,并且s5與s7.5的數(shù)目差異并不太大,MMseqs的s5精度模式是更好的選擇.

圖3 不同程序每次同源搜索相對blastp運行內(nèi)存消耗的差異Fig.3 Differences in memory consumption of homologousprotein search relative to blastp by different programs

圖4 不同程序在不同GSS下鑒定出的相對于blastp的同源蛋白數(shù)的誤差棒圖Fig.4 Error bars of the number of homologous proteins identifiedby different programs relative to blastp at different GSS

2.4 RBH

除了考慮同源蛋白數(shù)目上的評估,對于RBH的評估也是非常重要的,因為前者關(guān)聯(lián)著基因鑒定,而后者則關(guān)聯(lián)著直系同源推斷,兩者都是比較基因組分析的重要步驟. 不同于相對時間消耗以及同源蛋白與GSS不明顯的關(guān)系模式,不同程序鑒定出的RBH相對于blastp鑒定出的數(shù)量,在大部分軟件中都呈現(xiàn)出了隨著GSS降低而降低的趨勢(圖5),而MMseqs的s7.5精度模式,則在所有GSS下與blastp數(shù)目保持一致和穩(wěn)定. 令人驚訝的是,diamond的“ultra”、“sensitive”、“more”和“very”的RBH數(shù)目,盡管在低GSS下有所波動下降,但整體都穩(wěn)定在blastp結(jié)果數(shù)目的約90%左右,而ghostx則呈現(xiàn)出隨著GSS降低相對RBH數(shù)顯著增高的趨勢,這同樣也表現(xiàn)出了ghostx在遠緣搜索的相對優(yōu)勢. 結(jié)合相對時間消耗來考慮,這些結(jié)果表明,在進行遠緣搜索進行直系同源推斷的時候,在不考慮錯誤率的情況下,ghostx是一個良好的選擇,可以獲得最多的結(jié)果數(shù)目,而在其他情況下,考慮到MMseqs7.5的耗時之多,以及diamond除了“fast”外其他精度結(jié)果數(shù)目的接近以及“sensitive”、“more”和“very”時間消耗的接近,diamond的“very”仍然是一個綜合來說非常優(yōu)秀的運行模式和優(yōu)先考慮的選擇.

然而,單純從數(shù)量上來評估RBH鑒定及直系同源推斷能力的優(yōu)秀與否是不可行的,因為更多的RBH有可能引入更多的假陽性結(jié)果,因此需要對RBH評估的錯誤率進行推斷,之前的兩個研究都是考慮共線性關(guān)系,以及旁系同源關(guān)系,來計算錯誤率[9,20].

然而,不同軟件鑒定的旁系同源基因,仍然有假陽性的可能,這里考慮以CRBH進行比較,即僅比較相對blastp來說,具有相鄰共線性位置關(guān)系支持的可信RBH數(shù)目,因而避免其他噪聲. 結(jié)果發(fā)現(xiàn),在高GSS的情況下,各程序CRBH數(shù)目與blastp結(jié)果數(shù)目差別不大,而隨著GSS的降低,各程序的相對CRBH出現(xiàn)了明顯的分歧(圖6). ghostx同樣在CRBH上,體現(xiàn)著其在遠緣搜索的優(yōu)勢,這表明,ghostx得到的RBH、同源蛋白數(shù)目在遠緣中的增加,同時確實會帶來真實的、可靠的RBH結(jié)果的增加,而其次優(yōu)秀的就是diamond的“ultra”、“sensitive”、“more”和“very”模式,在GSS降低的情況下,也展現(xiàn)出了比blastp更多的結(jié)果,并且彼此之間的差異不大,這說明,從CRBH上來考慮,diamond的“very”精度模式仍然是一個良好的選擇.

圖5 不同程序在不同GSS下鑒定出的相對于blastp的RBH數(shù)的誤差棒圖Fig.5 Error bars of the number of RBH identified by differentprograms relative to blastp at different GSS

圖6 不同程序在不同GSS下鑒定出的相對于blastp的CRBH數(shù)的誤差棒圖Fig.6 Error bars of the number of CRBH identified by differentprograms relative to blastp at different GSS

2.5 代表性軟件交集評估

對于各個軟件的結(jié)果重合情況評估,也是非常重要的,越多的重合也同樣表明了結(jié)果的可靠性. 為了使得繪圖具有可讀性,并且考慮到usearch和last在除了時間消耗之外其他指標上的評估表現(xiàn)較差以及MMseqs2和diamond的更高精度理論上應(yīng)有更好的結(jié)果表現(xiàn),僅選取了blastp、diamond的“ultra”精度模式、MMseqs2的s7.5精度模式、ublast和lambda作為代表,進行評估.

首先統(tǒng)計、繪制同源蛋白對結(jié)果的韋恩圖(圖7),如圖所示,大部分軟件之間所鑒定出的同源蛋白對之間都有著或多或少的重合,所有軟件的重合僅有4.8%,大部分軟件都與blastp之間有著重合,這些重合結(jié)果具有可靠性. ghostx,則有著22.0%的最多特有搜索結(jié)果,這表明其與其他軟件搜索結(jié)果交集比較少,原因正如前文所述,其鑒定出了更多的同源蛋白對、更多的RBH、更多的CRBH;而diamond的“ultra”精度模式僅有0.1%的特有搜索結(jié)果,這表明其大量的搜索結(jié)果與其余軟件都有交集,表明了其結(jié)果的可靠性,diamond軟件的優(yōu)秀之處又在此處展現(xiàn). ublast和lambda這些更加快速但精度相較來說更低、搜索結(jié)果更少的軟件,特有的結(jié)果分別僅有5.6%和3.0%,這可能表明,這些快速搜索軟件能夠快速搜索出一些與其他軟件重合的、可靠的同源搜索結(jié)果,然后快速結(jié)束搜索,保留下少部分可靠的結(jié)果,至少在其鑒定出的結(jié)果上來說,是比較可靠的.

接下來繪制了不同代表性軟件的RBH結(jié)果的韋恩圖(圖8),可以明顯看出,相比同源蛋白鑒定結(jié)果在各個軟件中的差異性,RBH結(jié)果的差異性明顯更少,所有軟件的共有的RBH占到了所有結(jié)果的 21.7%,這同樣也是可以預(yù)期的,因為真實的直系同源對相較于其他的同源基因?qū)?往往會有著最高的相似性,從而在軟件搜索中獲得最高得分而被保留. diamond的“ultra”精度模式和MMseqs2的s7.5模式所擁有的特有RBH最少,約為1.2%,但是仍然需要速度上的考量,diamond在快速預(yù)測出可靠的、準確的RBH上具有優(yōu)勢. 同樣符合預(yù)期的是,在遠緣預(yù)測以及RBH數(shù)量、CRBH數(shù)量上具有明顯優(yōu)勢的ghostx,具有顯著最多的特有RBH預(yù)測占比,達到了約43.4%,lambda和ublast在特有的搜索結(jié)果上占比同樣較低,分別有5.4%和3.8%.

總而言之,6種代表性軟件統(tǒng)計、繪制的韋恩圖與預(yù)期相符,ghostx在遠緣搜索上能夠鑒定出更多的同源蛋白對、RBH和CRBH,因此會有著更多的特有鑒定結(jié)果,而diamond軟件鑒定結(jié)果可靠性,也體現(xiàn)在其與各個軟件結(jié)果都互有交集,特有結(jié)果數(shù)目較少上.

圖7 代表性軟件鑒定的同源蛋白韋恩圖Fig.7 Venn diagram of homologous proteins identified byrepresentative software

圖8 代表性軟件鑒定的RBH韋恩圖Fig.8 Venn diagram of RBH identified byrepresentative software

圖9 不同程序搜索結(jié)果的錯誤發(fā)現(xiàn)率Fig.9 False discovery rate of search results for different programs

2.6 錯誤發(fā)現(xiàn)率

為了對不同軟件程序的準確性進行更進一步的評估,根據(jù)superfamily數(shù)據(jù)庫對所有搜索蛋白的注釋結(jié)果,計算了不同期望閾值下的錯誤發(fā)現(xiàn)率(圖9). 結(jié)果發(fā)現(xiàn),ghostx、MMseqs2的s5、s7.5以及diamond所有精度下的錯誤發(fā)現(xiàn)率均低于0.01,blastp的則低于0.02,lambda、ublast和usearch在低期望閾值(小于 1e-10)下能夠?qū)㈠e誤發(fā)現(xiàn)率總體控制在0.05以下,而last和MMseqs2的s3的錯誤發(fā)現(xiàn)率比較高,last總體在0.1以下但高于0.08,MMseqs2的s3則表現(xiàn)最差,總體在0.14以下但高于0.12,這可能表明s3模式相對來說要盡量避免使用.

值得注意的是,雖然從直覺上來說時間消耗較少、精度模式選擇較低的軟件應(yīng)該有著很高的錯誤率,但實際上并非如此,diamond和MMseqs2的不同精度模式就是很好的例子. diamond的“fast”精度模式下的錯誤發(fā)現(xiàn)率是最低的,這表明其雖然進行快速搜索后,在數(shù)量上要少于高精度的搜索,但其至少能保證得到的結(jié)果是準確的,這與MMseqs的s3模式是相對的. blastp、ghostx、MMseqs2和diamond高精度的搜索,在獲取的結(jié)果數(shù)量上高于其他快速搜索軟件的同時,也能將錯誤發(fā)現(xiàn)率控制在較低的值,可見這些軟件的可靠性和優(yōu)秀性.

3 結(jié)論

本研究選取了共7種快速同源搜索軟件或程序usearch/ublast、last、lambda、ghostx、diamond、MMseqs2,包括diamond的5種不同精度模式“fast”、“sensitive”、“more”、“very”、“ultra”以及MMseqs2的3種不同精度模式s3、s5、s7.5,與blastp在時間消耗、同源蛋白對、RBH、CRBH、重合狀況以及錯誤發(fā)現(xiàn)率上進行綜合比較,來選擇在不同狀況下對大數(shù)據(jù)進行搜索的blastp的替代品. 結(jié)果表明,如果追求速度同時保證準確性,diamond的“very”精度模式是最佳選擇,因為其有著最低的錯誤發(fā)現(xiàn)率以及最快的搜索速度,而MMseqs的s3精度模式則有著最高的錯誤發(fā)現(xiàn)率,可能需要避免使用;在進行遠緣物種同源搜索、直系同源推斷時,ghostx由于能夠得到更多的直系同源對、RBH、CRBH以及適中的時間消耗節(jié)省和非常低的錯誤發(fā)現(xiàn)率,成為最佳的選擇,盡管其有著最高的內(nèi)存消耗;而只有在進行近緣物種搜索時,快速搜索軟件ublast能得到更多的同源蛋白對結(jié)果,在大部分的GSS下,對于同源蛋白的搜索與鑒定,MMseqs7.5與MMseqs5差異不大,且兩者錯誤發(fā)現(xiàn)率均低于0.01,都是良好的兩個選擇,但考慮到時間消耗,MMseqs5應(yīng)是更好的選擇;如果是應(yīng)對于進行直系同源推斷的研究目的需求,diamond是綜合來說最佳的軟件,并且其最適合以“very”精度選項運行,能夠得到速度與精度良好的權(quán)衡. 本研究為不同目的下選擇和使用不同快速搜索軟件提供了參考和指南.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡