徐源超,蔡志明
(海軍工程大學(xué) 電子工程學(xué)院,湖北 武漢 430033)
機(jī)器學(xué)習(xí)中的許多指標(biāo)從不同側(cè)面反映分類算法性能,但它們有各自的使用限制[1]。樣本不平衡較嚴(yán)重時(shí),性能指標(biāo)的指示敏感性與波動(dòng)性將不可忽視[2-3];一些指標(biāo)具有相似性質(zhì)[4],應(yīng)避免重復(fù)選擇。因此,針對(duì)不同場(chǎng)景需求,須選擇合適指標(biāo),以便恰當(dāng)描述算法性能。例如醫(yī)學(xué)領(lǐng)域常用靈敏度和特異性,信息檢索領(lǐng)域中常用查全率和查準(zhǔn)率。水聲目標(biāo)分類研究中,傳統(tǒng)上只使用“正確率”等簡(jiǎn)單指標(biāo),這難以客觀、全面反映分類算法性能。在水聲目標(biāo)分類領(lǐng)域建立統(tǒng)一的性能指標(biāo)體系,將有助于分析和比較算法性能,指導(dǎo)算法研究。本文將分析常用性能指標(biāo)的性質(zhì),結(jié)合水聲場(chǎng)景需求,給出一套分類算法性能指標(biāo)體系。
確定性能指標(biāo)后,需設(shè)計(jì)評(píng)估方法,在有限的數(shù)據(jù)集上估計(jì)性能指標(biāo)值。任何評(píng)估方法都存在誤差(包括方差和偏差),它們不僅與數(shù)據(jù)集中的噪聲有關(guān),還與劃分訓(xùn)練集測(cè)試集的方式[5-7]、數(shù)據(jù)集的大小及平衡性[8]等因素有關(guān)。性能評(píng)估時(shí)要根據(jù)具體情況選擇合適的評(píng)估方法,權(quán)衡估計(jì)偏差和方差。本文將分析常用評(píng)估方法的估值差異,推薦適合水聲場(chǎng)景的評(píng)估方法。
常用分類算法性能指標(biāo)包括基于混淆矩陣和基于預(yù)測(cè)得分2大類[1]。分類器包括模型和門限2個(gè)部分,模型f對(duì)樣本xi的評(píng)分為f(xi),門限與之比較得到分類結(jié)果。模型和門限參數(shù)都在訓(xùn)練集中習(xí)得,測(cè)試集用于估計(jì)性能指標(biāo)值。基于混淆矩陣的指標(biāo)利用離散的分類結(jié)果評(píng)估分類器性能,基于預(yù)測(cè)得分的指標(biāo)則利用了樣本評(píng)分。
對(duì)二分類問(wèn)題,給定包含m個(gè)樣本的測(cè)試集,用分類器預(yù)測(cè)樣本類別,可得混淆矩陣如表1所示。常用的基于混淆矩陣的指標(biāo)定義如表2所示。
表1 混淆矩陣Table 1 Confusion matrix
表2 基于混淆矩陣的性能指標(biāo)Table 2 Performance metrics based on confusion matrix
1)真正例率和假正例率對(duì)應(yīng)信號(hào)檢測(cè)中的檢測(cè)率和虛警率。檢測(cè)理論中,檢測(cè)率和虛警率常由似然函數(shù)推導(dǎo)求得;而作為分類器性能指標(biāo),可理解為基于樣本集得到的估計(jì)值。2)靈敏度和特異性常用于醫(yī)療領(lǐng)域,分別描述分類器對(duì)陽(yáng)性和陰性的檢出能力。3)陽(yáng)性和陰性預(yù)測(cè)值也常用于醫(yī)療,描述檢出的陽(yáng)性(陰性)中確為陽(yáng)性(陰性)的概率。4)查全率和查準(zhǔn)率常用于信息檢索領(lǐng)域,分別描述檢索目標(biāo)信息的全面性和檢出信息的準(zhǔn)確性。
這4組指標(biāo)描述分類器對(duì)2類目標(biāo)的查全能力(TPR、TNR)和查準(zhǔn)能力(PPV、NPV),它們?cè)诓煌I(lǐng)域根據(jù)需求成對(duì)使用。TPR和TNR受樣本不平衡影響小,PPV和NPV則不然。
每組指標(biāo)通常相互制約,因此多個(gè)指標(biāo)雖有助于理解分類器卻不便于比較,而融合指標(biāo)可用于綜合判斷。融合方法一般包括算術(shù)、幾何和調(diào)和平均??扇诤戏诸惼鲗?duì)各類的查全能力,或融合對(duì)某一類的查全能力和查準(zhǔn)能力。
常用的指標(biāo)正確率實(shí)際上就是融合指標(biāo):
(1)
樣本不平衡時(shí),正確率受樣本更多的類別的查全率影響大。均衡正確率AccB對(duì)TPR和TNR作權(quán)值相等的算術(shù)平均,更適用于樣本不平衡的情況。
幾何/調(diào)和平均中的小值會(huì)“拉低”均值結(jié)果,而算術(shù)平均更容忍“偏科”的分類器。F1是查全率和查準(zhǔn)率的調(diào)和平均值。常用的還有查全率幾何平均GM1,查全率查準(zhǔn)率幾何平均GM2。
基于預(yù)測(cè)得分的指標(biāo)利用樣本評(píng)分信息,包括圖形指標(biāo)和標(biāo)量指標(biāo)。接收機(jī)工作特性(receiver operating characteristic, ROC)曲線是一種廣泛應(yīng)用的圖形指標(biāo)。信號(hào)檢測(cè)理論中,ROC用來(lái)分析檢測(cè)器的性能,確定合適的門限以平衡檢測(cè)率和虛警率。同樣地,ROC曲線描述分類器改變門限時(shí)的TPR與FPR關(guān)系。若某性能指標(biāo)可由TPR和FPR表示,就可利用ROC曲線來(lái)確定門限[9]。
雖然ROC可直觀表達(dá)分類器全局(不同門限)性能,但若存在標(biāo)量指標(biāo)將更方便:AUC是ROC曲線下面積[10],其值越大表明算法性能越好。
PR(precision-recall)曲線也是常用圖形指標(biāo),描述PPV與TPR關(guān)系。ROC曲線上的點(diǎn)與PR曲線上的點(diǎn)是對(duì)應(yīng)的:
(2)
式中:r=YN/YP指示樣本類分布。對(duì)于不平衡性很強(qiáng)的樣本集,PR曲線有時(shí)比ROC曲線更合適[11],因?yàn)镻R曲線包含了r的信息。PR曲線下的面積(AUC_PR)作為對(duì)應(yīng)的標(biāo)量指標(biāo)。
在選擇性能指標(biāo)時(shí)應(yīng)討論具體的應(yīng)用場(chǎng)景,以下分析典型水聲目標(biāo)分類場(chǎng)景:
1)假設(shè)分類在檢測(cè)之后且虛警很小,分類器對(duì)目標(biāo)做水下(正類)或水面的二分類。
2)水下目標(biāo)與水面目標(biāo)的類分布不平衡。文獻(xiàn)[12]顯示,水面目標(biāo)總量相對(duì)水下目標(biāo)而言絕對(duì)大。若僅考慮有威脅的軍用目標(biāo)以及在聲紋上較接近軍用目標(biāo)的部分民用目標(biāo),不妨假設(shè)聲吶檢測(cè)到水面與水下目標(biāo)數(shù)量比約在103量級(jí)。
3)錯(cuò)判水下目標(biāo)為水面目標(biāo)的代價(jià)大于錯(cuò)判水面目標(biāo)的代價(jià)。具體代價(jià)難以量化,但可容忍的FPR可被估計(jì)。假設(shè)聲吶工作24 h內(nèi)檢測(cè)到目標(biāo)1 000個(gè),聲吶員聽(tīng)音判型的可靠能力為每天100個(gè);如果機(jī)器自動(dòng)分類產(chǎn)生錯(cuò)誤或可信度不高,需人工進(jìn)一步甄別,那么可容忍的FPR=0.1。
4)類分布將隨海域、時(shí)間等動(dòng)態(tài)變化。不妨假設(shè)水面與水下目標(biāo)數(shù)量比在102~103。
5)樣本集不平衡,水下目標(biāo)樣本少是常態(tài)。
6)設(shè)想在應(yīng)用階段,分類器給出對(duì)目標(biāo)的評(píng)分需,并給出分類結(jié)果;對(duì)判為水下的目標(biāo),聲吶員根據(jù)對(duì)目標(biāo)的評(píng)分由高到低逐一驗(yàn)證或排除。
2.2.1 仿真方法
根據(jù)水聲場(chǎng)景分析和各指標(biāo)定義,基于仿真[2]討論指標(biāo)性質(zhì)及其在水聲目標(biāo)分類場(chǎng)景的適用性。
算法B1、B2對(duì)正負(fù)樣本評(píng)分的標(biāo)準(zhǔn)差分別為:
利用評(píng)分分布函數(shù)計(jì)算門限,使A1、A2、B1、B2分別控制其FPR于0.05、0.15、0.08、0.12的水平上。仿真產(chǎn)生106個(gè)樣本評(píng)分,使負(fù)正樣本數(shù)量比r=YN/YP在10-3~103內(nèi)變化,分別畫出各指標(biāo)與r的關(guān)系,結(jié)果如圖1所示。
2.2.2 結(jié)果分析
圖1(a)、(b)顯示TPR和FPR受r影響小,只是當(dāng)樣本極不平衡即其中一類樣本太少時(shí),指標(biāo)值將出現(xiàn)波動(dòng),是可靠指標(biāo)。圖1(c)顯示PPV隨r的變化是單邊的:r<1一側(cè),r減小時(shí)PPV變化很?。籸>1一側(cè),r增大時(shí)PPV隨之減少;r趨于103時(shí),PPV已失去對(duì)分類器的鑒別能力。但r變化時(shí),其指標(biāo)值反映的分類器性能比較結(jié)果不變。
圖1(d)表明,Acc受樣本集的影響大,不同r下分類器的比較結(jié)論差別較大,須謹(jǐn)慎使用。
聚焦于查全率的融合,圖1(e)、(f)顯示算術(shù)平均AccB和幾何平均GM1這2個(gè)指標(biāo)值均不隨r變化,AccB的區(qū)分度比GM1稍好些。
聚焦于正類查全率與查準(zhǔn)率的融合,圖1(i)、(l)中幾何平均GM2和調(diào)和平均F1隨r變化的曲線基本一致。注意到r在102~103范圍內(nèi)各F1值的相對(duì)大小與Acc一致,而GM2卻有所不同;相比之下,極不平衡條件下F1更能反映真實(shí)狀況。但這2個(gè)指標(biāo)也對(duì)r敏感,且r變化將導(dǎo)致比較結(jié)論不一致。
圖1(g)、(h)、(j)、(k)是基于預(yù)測(cè)得分的指標(biāo)相對(duì)r的變化。這類指標(biāo)是包含全體分類門限取值的系綜,因此只比較A、B這2個(gè)分類器。圖1(g)顯示AUC對(duì)r不敏感,這是由于TPR和FPR受r影響小。圖1(j)是A、B這2個(gè)分類器在r=1時(shí)的ROC曲線,r不同時(shí)ROC曲線變化不大。由于被評(píng)估分類器的ROC曲線可能很接近,這時(shí)AUC難以顯著展現(xiàn)分類器的差異,正如圖1(g)中A與B指標(biāo)值很接近。所以,ROC曲線與AUC雖可反映算法全局性能,且對(duì)r基本不敏感,但還不能完全替代基于混淆矩陣的指標(biāo)。
圖1(h)中AUC_PR從r>1開(kāi)始都可清晰穩(wěn)定地給出性能鑒別結(jié)果,因?yàn)樵撝笜?biāo)包含了樣本類分布的信息。圖1(k)是A、B這2種算法PR曲線,樣本集平衡即r=1時(shí),PR曲線下的面積較大;當(dāng)增大到r=100,曲線變化明顯,對(duì)應(yīng)AUC_PR減小。
性能評(píng)估的目標(biāo)包括易于比較和易于解釋,影響決策的因素有算法的知識(shí)建模能力、門限選擇和場(chǎng)景需求[13],依此構(gòu)建性能指標(biāo)體系。
基于預(yù)測(cè)得分的圖形指標(biāo)可較全面地反映算法的建模能力。因水聲場(chǎng)景中的r值在一定范圍內(nèi)變化,選擇對(duì)r不敏感的ROC曲線是自然的考慮。但進(jìn)一步地,水聲場(chǎng)景中r很大是確定的,從指標(biāo)的鑒別能力講,PR曲線及相應(yīng)的AUC_PR更有優(yōu)勢(shì)。因此選用PR曲線及AUC_PR指標(biāo)。
基于混淆矩陣的指標(biāo)反映評(píng)分分布結(jié)合門限后的分類性能。考慮到實(shí)際樣本類分布的不確定,顯然應(yīng)選擇隨r起伏變化小的指標(biāo)TPR和FPR??紤]到多個(gè)指標(biāo)不便于比較,應(yīng)設(shè)計(jì)融合指標(biāo)。水聲場(chǎng)景中希望控制FPR于小值(TNR較大值),更容許“偏科”的算術(shù)平均AccB與這一需求相適應(yīng)。
從學(xué)習(xí)的角度講,分類器對(duì)復(fù)雜知識(shí)的建模能力應(yīng)放在首位。若AUC_PR無(wú)顯著差異,則需進(jìn)一步比較AccB。由AccB的定義式可得:
TPR=FPR+2AccB-1
這是ROC曲線圖中斜率為1的一族直線,其截距越大表明對(duì)應(yīng)AccB越大。一般地,ROC曲線的切線斜率隨FPR單調(diào)遞減,則ROC曲線上切線斜率為1的切點(diǎn)AccB最大。在水聲場(chǎng)景中希望控制FPR=0.1,但FPR=0.1的點(diǎn)不一定是AccB最大點(diǎn)??尚拚鼳ccB使FPR=0.1的切點(diǎn)為AccB最大點(diǎn):
(3)
式中a為ROC曲線上FPR=0.1點(diǎn)的切線斜率。
被比較的分類器有各自的ROC曲線,為統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn),可混合各分類器的樣本評(píng)分作出平均ROC曲線,然后估計(jì)FPR=0.1處的斜率a。若修正AccB依然無(wú)顯著差異,則選擇FPR偏離較小的算法。
綜上,由PR曲線及AUC_PR、TPR、FPR及AccB構(gòu)建性能指標(biāo)體系。PR曲線反映算法的知識(shí)建模能力,標(biāo)量指標(biāo)AUC_PR用于比較。AccB和修正AccB反映模型聯(lián)合門限的分類能力,F(xiàn)PR體現(xiàn)約束,ROC曲線參與對(duì)AccB的修正。修正AccB使融合指標(biāo)更符合水聲場(chǎng)景中控制FPR的需求。
圖1 性能指標(biāo)與r的關(guān)系Fig.1 Relationships between performance metrics and r
將樣本數(shù)據(jù)劃分為訓(xùn)練和測(cè)試集,分別用于訓(xùn)練分類器和估計(jì)性能指標(biāo),這種評(píng)估方法稱為留置法,需要大量數(shù)據(jù)。水聲目標(biāo)分類場(chǎng)景中,由于數(shù)據(jù)有限,應(yīng)運(yùn)用重采樣的方法來(lái)評(píng)估算法性能。
重采樣是對(duì)數(shù)據(jù)集進(jìn)行多次劃分,綜合不同次劃分訓(xùn)練集與測(cè)試集得到的估計(jì)結(jié)果,以降低估計(jì)誤差。從數(shù)據(jù)集S中選取樣本進(jìn)入訓(xùn)練集,稱為采樣。重采樣方法的選擇,就是權(quán)衡估計(jì)的偏差和方差,以及權(quán)衡計(jì)算復(fù)雜度。本文重點(diǎn)考慮前者。
1)k折交叉驗(yàn)證。k折交叉驗(yàn)證把含有m樣本的數(shù)據(jù)集S隨機(jī)劃分為大小相等且互不相交的k個(gè)子集(k≥2)。每個(gè)子集輪流用于測(cè)試,其余數(shù)據(jù)用于訓(xùn)練,平均k次估計(jì)結(jié)果。k增大時(shí)估計(jì)偏差將變小,因?yàn)楦鄶?shù)據(jù)參與訓(xùn)練,但估計(jì)方差將變大且計(jì)算量增加[5]。一般將k設(shè)置為10[14]。
2)分層k折交叉驗(yàn)證。樣本不平衡時(shí),可控制對(duì)數(shù)據(jù)集S的劃分,使k個(gè)子集的樣本類分布與S的類分布一致,這樣可減小估計(jì)的方差[15]。
3)自助法。假設(shè)S中包含的類模式是充分的,能代表實(shí)際對(duì)象的全部特征形態(tài),則樣本不足時(shí),可通過(guò)“有放回采樣”得到足夠多的訓(xùn)練樣本。對(duì)含有m個(gè)樣本的S進(jìn)行m次有放回采樣得到訓(xùn)練集,未被采樣到的樣本構(gòu)成測(cè)試集,即完成一次劃分;如此重復(fù)n次(通常n≥200[1])取均值。
由于每次采樣后的樣本又被放回S,訓(xùn)練集中可能包含重復(fù)樣本,對(duì)于一些無(wú)法從重復(fù)樣本中獲得訓(xùn)練增益的算法,自助法將不適用。
4)632自助法。自助法是在每一輪訓(xùn)練中只使用了63.2%的數(shù)據(jù),估計(jì)偏差較大。可綜合訓(xùn)練集與測(cè)試集上的指標(biāo)估計(jì)值進(jìn)行修正:
5)重復(fù)k折交叉驗(yàn)證。n×k折交叉驗(yàn)證是重復(fù)n次k折交叉驗(yàn)證,每次交叉驗(yàn)證作出不同的訓(xùn)練集與測(cè)試集的隨機(jī)劃分。最常用的是5×2CV和10×10CV,即重復(fù)5次2折交叉驗(yàn)證和重復(fù)10次10折交叉驗(yàn)證。對(duì)重復(fù)的驗(yàn)證結(jié)果再做平均。
3.2.1 仿真方法
為探究各評(píng)估方法在數(shù)據(jù)集大小不同、樣本類分布不同情況下評(píng)估結(jié)果的差異,設(shè)計(jì)仿真試驗(yàn)。為簡(jiǎn)便且不失一般性,假設(shè)被評(píng)估算法對(duì)正類的評(píng)分服從N(1,0.52),對(duì)負(fù)類的評(píng)分服從N(0,0.52),算法在訓(xùn)練集上習(xí)得門限使AccB最優(yōu),并利用測(cè)試集估計(jì)AccB。由評(píng)分分布函數(shù)對(duì)稱性可知最佳門限為0.5,此時(shí)AccB≈0.841 3,以此作為真值考察各評(píng)估方法的估計(jì)偏差和方差。須注意,基于機(jī)器學(xué)習(xí)的分類算法可能存在過(guò)擬合,并非數(shù)據(jù)集S以及訓(xùn)練集在絕對(duì)意義上越大越有利。但這里討論的基于最優(yōu)AccB的門限選擇算法,將傾向于S的規(guī)模增長(zhǎng)與類分布平衡,這是不難理解的。
考察自助法(Boot.)、632自助法(632Boot.)、10折交叉驗(yàn)證(10CV)、分層10折交叉驗(yàn)證(S10CV)、5×2CV和10×10CV。2種自助法均迭代200次,5×2CV和10×10CV均采用分層方法。設(shè)置6組試驗(yàn):第1組考察樣本少的情況,第2、3組考察樣本不平衡的情況,第4、5、6組樣本量逐漸增加。
圖2為試驗(yàn)1 000次估值的箱線圖,展示不同樣本集設(shè)置下各評(píng)估方法的估值分布。圖中虛線為真值,三角為均值,箱子兩端為四分位數(shù),延長(zhǎng)線端點(diǎn)為極值。均值相對(duì)真值的偏離反映估計(jì)偏差,箱子及延長(zhǎng)線的長(zhǎng)短反映估計(jì)方差。為進(jìn)一步定量比較估計(jì)結(jié)果差異,在0.05的顯著性水平下利用F檢驗(yàn)考察方差差異,在0.1的顯著性水平下利用Games-Howell單因素方差分析考察偏差差異。
圖2 各評(píng)估方法在不同樣本集下的估計(jì)值分布Fig.2 Estimates distribution of each evaluation method in different sample sets
3.2.2 結(jié)果分析
總體上看,隨著樣本量增加,估計(jì)的方差和偏差都在減小。雖然第3、4組樣本量相當(dāng),但第3組估計(jì)誤差較大。這表明,估計(jì)誤差受樣本不平衡影響,且很大程度上取決于樣本最少類的樣本量。
2種自助法的方差都較小,特別是第1、2、3組中,2種自助法相對(duì)其他方法的方差差異更加顯著,其中632自助法偏差較小。因此,樣本很少或極不平衡時(shí),采用632自助法是很好的選擇。自助法關(guān)于模式充分的假設(shè),在水聲場(chǎng)景中難以滿足,實(shí)際上也不會(huì)被采用,但這里可合理地將632自助法(以下簡(jiǎn)稱自助法)作為良好的比較對(duì)象。
第1、2、3組中,5×2CV與自助法的方差最為接近。第2、3組中,5×2CV相對(duì)其他交叉驗(yàn)證的方差差異顯著。第2組中5×2CV相對(duì)S10CV和10×10CV的偏差差異顯著,但第3組的偏差差異已不明顯。因此整體上看,樣本少或不平衡時(shí)推薦5×2CV。
第2、3組中,S10CV與10CV的方差差異顯著,而二者偏差相當(dāng),說(shuō)明分層交叉驗(yàn)證可在樣本不平衡的情況下減小估計(jì)的方差卻不增大偏差。
第4、5、6組中,5×2CV、S10CV和10×10CV的偏差均無(wú)明顯差異;第4、5組中5×2CV相對(duì)S10CV和10×10CV方差差異顯著,而第6組中三者方差無(wú)明顯差異。數(shù)據(jù)集規(guī)模從小到大增加過(guò)程中,無(wú)論數(shù)據(jù)平衡性的變化,5×2CV方法始終相對(duì)較好,樣本足夠多時(shí)3種交叉驗(yàn)證方法則差異不大了。
當(dāng)然,若可掌握數(shù)據(jù)集規(guī)模與分布的詳實(shí)知識(shí),可給出其相適應(yīng)的最優(yōu)評(píng)估方法建議,如表3的歸納所示。但在實(shí)際的水聲場(chǎng)景中,確認(rèn)數(shù)據(jù)集S的規(guī)模為大、中、小是比較困難的。
表3 評(píng)估方法選擇參照表Table 3 Evaluation method selection reference table
由于信道時(shí)變空變以及目標(biāo)的動(dòng)態(tài)復(fù)雜性,水聲目標(biāo)測(cè)量數(shù)據(jù)模式豐富,短期局部范圍內(nèi)所形成的數(shù)據(jù)集往往難以代表實(shí)際,不宜使用自助法。
水聲目標(biāo)數(shù)據(jù)不平衡,往往水下目標(biāo)(正類)數(shù)據(jù)匱乏。推薦5×2CV,且采用分層交叉驗(yàn)證。
隨著數(shù)據(jù)規(guī)模的積累,數(shù)據(jù)模式逐漸豐富,在采用分層交叉驗(yàn)證的基礎(chǔ)上,可考慮根據(jù)不同的海域、海況、工況等因素,對(duì)數(shù)據(jù)進(jìn)一步分層劃分訓(xùn)練集和測(cè)試集,可保證訓(xùn)練集和測(cè)試集中有對(duì)應(yīng)的模式,有望減小估計(jì)的偏差。
在構(gòu)建水聲目標(biāo)樣本集時(shí),通常對(duì)一段長(zhǎng)時(shí)間的數(shù)據(jù)進(jìn)行分幀,每一幀作為一個(gè)樣本,時(shí)間上相近的樣本具有較強(qiáng)的相關(guān)性。若訓(xùn)練集和測(cè)試集中存在相關(guān)性強(qiáng)的樣本,將導(dǎo)致評(píng)估結(jié)果偏樂(lè)觀。如何在設(shè)計(jì)評(píng)估方法時(shí)考慮樣本相關(guān)性還需研究。
1)區(qū)別于文獻(xiàn)[2],本文針對(duì)水聲場(chǎng)景設(shè)計(jì)仿真試驗(yàn),并進(jìn)一步設(shè)計(jì)比較評(píng)估方法的仿真試驗(yàn)。
2)本研究關(guān)注水聲場(chǎng)景中數(shù)據(jù)匱乏而模式豐富的特點(diǎn),以及水下目標(biāo)(正類)相對(duì)其他目標(biāo)的不平衡性,具有現(xiàn)實(shí)意義。所提出的指標(biāo)體系針對(duì)當(dāng)前研究中指標(biāo)不全面、不統(tǒng)一、不嚴(yán)謹(jǐn)?shù)膯?wèn)題,給出一個(gè)有邏輯、有論據(jù)的解決方案。性能指標(biāo)不僅是評(píng)估手段,同時(shí)也可成為算法優(yōu)化的目標(biāo),對(duì)深入理解算法性質(zhì)、創(chuàng)新算法研究具有指導(dǎo)意義。
本研究構(gòu)建的性能指標(biāo)體系只考慮了二分類的情況,針對(duì)多分類的問(wèn)題的性能指標(biāo)還需進(jìn)一步研究,具體可圍繞“關(guān)注水下目標(biāo)”進(jìn)行拓展。