吳姚振 徐曉男 李肖年
(1.中國人民解放軍91001部隊(duì),北京,100036;2.第七一五研究所,杭州,310023)
水聲目標(biāo)線譜是指由于機(jī)械動(dòng)力裝置的往復(fù)運(yùn)動(dòng)引起的周期性噪聲成分,在噪聲功率譜上表現(xiàn)為在固定頻率位置上出現(xiàn)脈沖狀窄帶峰,強(qiáng)度大大超過附近頻率成分。水聲目標(biāo)線譜具有能穩(wěn)定觀測、物理意義相對明確、低頻線譜成分不易治理等特點(diǎn),是水聲目標(biāo)探測識別中關(guān)鍵的特征[1-3]。水聲目標(biāo)的輻射噪聲成因十分復(fù)雜,由多種因素決定,線譜成分并非一成不變。當(dāng)目標(biāo)采用不同的航速,或因工作需要開啟不同機(jī)械動(dòng)力設(shè)備的時(shí)候,噪聲功率譜中可能會有部分線譜幾乎不變,也會有部分線譜強(qiáng)度會變強(qiáng)、減弱,或完全消失、突然出現(xiàn)等。水聲目標(biāo)線譜組是指水聲目標(biāo)輻射噪聲頻譜中總是同時(shí)出現(xiàn)的結(jié)構(gòu)性線譜序列,通常與特定的航行工況、機(jī)械動(dòng)力結(jié)構(gòu)相對應(yīng),在統(tǒng)計(jì)意義上能夠準(zhǔn)確反映水聲目標(biāo)輻射噪聲的本質(zhì)性特征,對水聲目標(biāo)探測、識別等技術(shù)研究具有重要意義。
要掌握水聲目標(biāo)的線譜組特征,直接的方法是對目標(biāo)進(jìn)行系統(tǒng)性測試,獲得水聲目標(biāo)在各種條件下的理想數(shù)據(jù),按照試驗(yàn)條件對數(shù)據(jù)進(jìn)行簡單的統(tǒng)計(jì)分析即可。但是對水聲目標(biāo)進(jìn)行系統(tǒng)性測試的實(shí)現(xiàn)難度極大,代價(jià)極其高昂。一種可行的替代途徑是采用各種渠道采集的“不理想”的水聲目標(biāo)噪聲數(shù)據(jù),從中挖掘水聲目標(biāo)輻射噪聲線譜特征的分布規(guī)律,構(gòu)建形成水聲目標(biāo)輻射噪聲線譜組。但這種方式面臨的主要問題在于,大多數(shù)據(jù)都是在非可控條件下獲得,噪聲數(shù)據(jù)中可能混疊了若干未知的干擾成分,同時(shí)缺少完整必要的標(biāo)注說明,導(dǎo)致數(shù)據(jù)分析困難。
典型的如不具備方位分辨能力的無指向性水聽器數(shù)據(jù),在觀測時(shí)會同時(shí)接收來自所有方位的信號,記錄的時(shí)域噪聲數(shù)據(jù)是不同距離和方位上的多個(gè)目標(biāo)輻射噪聲以及海洋環(huán)境噪聲的線性疊加;在干擾過強(qiáng)或鄰近目標(biāo)方位時(shí),具有一定孔徑的聲吶基陣數(shù)據(jù)也會受干擾目標(biāo)的影響。所以,如何在未知干擾背景下分析線譜的分布規(guī)律、挖掘出屬于目標(biāo)的固有線譜特征,是水聲數(shù)據(jù)分析處理中常見的難題。
因此,本文提出了一種干擾條件下的水聲目標(biāo)線譜數(shù)據(jù)挖掘方法,該方法以水聲目標(biāo)低頻線譜數(shù)據(jù)作為樣本,構(gòu)建線譜特征的 FP-樹,挖掘獲取線譜組合的頻繁項(xiàng)作為水聲目標(biāo)的固有線譜組合特征,并利用仿真數(shù)據(jù)對算法有效性進(jìn)行了驗(yàn)證。
水聲目標(biāo)線譜分析一般是對來自水聽器直接錄取或來自聲吶基陣目標(biāo)跟蹤波束錄取的時(shí)域數(shù)據(jù)進(jìn)行功率譜估計(jì),從功率譜中提取[4-7]感興趣目標(biāo)的窄帶線譜成分,用于對水聲目標(biāo)的檢測、身份識別或特征建模。圖1~2分別給出了海上試驗(yàn)的實(shí)際數(shù)據(jù)的處理結(jié)果。
圖1 實(shí)測水聲目標(biāo)輻射噪聲功率譜
圖2 水聲目標(biāo)功率譜瀑布圖
從圖1可以看出,在水聲目標(biāo)輻射噪聲功率譜中會同時(shí)觀測到多個(gè)線譜。有時(shí)能夠通過先驗(yàn)信息已知錄取的噪聲數(shù)據(jù)中包含某種感興趣目標(biāo),但是通常無法確定是否存在其他干擾(非感興趣)目標(biāo)的成分,更無法辨識這些線譜都分別對應(yīng)于哪些目標(biāo)。從圖2的時(shí)頻結(jié)果中能夠看到有多個(gè)聲源的干涉條紋,其中左側(cè)低頻部分的黃色矩形區(qū)域1中功率譜條紋幾乎是豎直的,而區(qū)域2中功率譜條紋是傾斜的,根據(jù)水下聲場多途干涉理論可知,區(qū)域 1中的噪聲源與觀測之間的徑向距離幾乎不變,而區(qū)域2中噪聲源與觀測設(shè)備之間存在快速的徑向距離變化,顯然這些噪聲來自不同的目標(biāo)源。事實(shí)上由于海洋中存在大量的水面艦、商船等高噪聲目標(biāo),高強(qiáng)度的低頻線譜經(jīng)幾十公里遠(yuǎn)距離傳播衰減后仍能被水聲設(shè)備觀測,因此在水聲目標(biāo)數(shù)據(jù)中混入其他目標(biāo)干擾是十分常見的。
在多數(shù)情況下,我們?nèi)鄙僮銐蛳闰?yàn)信息對數(shù)據(jù)中的各種線譜進(jìn)行標(biāo)注,也很難利用傳統(tǒng)方法從時(shí)間或空間上把目標(biāo)線譜從干擾中辨識并提取出來。
面對已經(jīng)獲得的大量無準(zhǔn)確標(biāo)識的水聲目標(biāo)數(shù)據(jù),我們迫切需要一種方法來解決從大量干擾中準(zhǔn)確辨識挖掘出屬于水聲目標(biāo)的線譜組合特征。艦艇目標(biāo)在相同工況下的輻射噪聲中存在固有的低頻線譜序列,在水聲目標(biāo)數(shù)據(jù)中以固定成組的線譜形式存在。如果多批數(shù)據(jù)中包含同一目標(biāo),而該目標(biāo)的噪聲中存在穩(wěn)定的線譜特征組合,那么數(shù)據(jù)中一定包含特定線譜組合的頻繁模式(頻繁地出現(xiàn)在數(shù)據(jù)集中的模式,如項(xiàng)集、子序列或子結(jié)構(gòu))。
因此,這里我們以FP-growth算法為基礎(chǔ),提出一種干擾條件下的水聲目標(biāo)線譜數(shù)據(jù)挖掘方法,通過挖掘大量水聲目標(biāo)數(shù)據(jù)的頻繁項(xiàng),獲取高價(jià)值目標(biāo)的固有低頻線譜結(jié)構(gòu),并將其作為該型目標(biāo)的特征模板,為提高對該目標(biāo)的探測、識別性能提供技術(shù)支撐。
FP-growth算法[8]是一種挖掘頻繁模式而不產(chǎn)生候選的增長方法,由Han、Pei和Yin于2000年提出。該算法挖掘頻繁模式所采取的策略如下:首先,將代表頻繁項(xiàng)集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-樹),該樹仍保留項(xiàng)集的關(guān)聯(lián)信息。然后,把這種壓縮后的數(shù)據(jù)庫劃分成一組條件數(shù)據(jù)庫(一種特殊類型的投影數(shù)據(jù)庫),每個(gè)數(shù)據(jù)庫關(guān)聯(lián)一個(gè)頻繁項(xiàng)或“模式段”,并分別挖掘每個(gè)條件數(shù)據(jù)庫。對于每個(gè)“模式片段”,只需要考察與它相關(guān)聯(lián)數(shù)據(jù)集。FP-growth算法流程如圖3所示,輸入為事務(wù)數(shù)據(jù)集D,輸出為遍歷循環(huán)后的FP樹-T。
圖3 FP-growth算法流程圖
假定已經(jīng)獲得了一組有N個(gè)樣本構(gòu)成的水聲目標(biāo)輻射噪聲數(shù)據(jù)集X={x0,x1,…,xN-1},已知該數(shù)據(jù)集中大部分都包含有感興趣的某種目標(biāo)噪聲。但是由于試驗(yàn)條件限制,無法確切知曉哪些數(shù)據(jù)中有或哪些數(shù)據(jù)中沒有;同時(shí)這些數(shù)據(jù)中還不可避免地混合了很多干擾成分。
為了從數(shù)據(jù)集中挖掘出感興趣目標(biāo)的線譜特征組合,本文所提出算法的處理流程如下:
(1)對每個(gè)數(shù)據(jù)樣本進(jìn)行功率譜分析,提取得到對應(yīng)的低頻線譜序列[3]特征di(0≤i<N);di=[di,0,di,1,…,di,m-1],其中m為變量(不同的樣本數(shù)據(jù)能提取出的線譜數(shù)量各不相同),di,j,(j≥0)分別表示第i個(gè)樣本的第j根線譜頻率;
(2)利用 FP-growth算法對特征樣本數(shù)據(jù)集D={d0,d1,…,dN-1}進(jìn)行處理,構(gòu)建FP-樹;
(3)挖掘FP-樹中的頻繁項(xiàng),作為感興趣目標(biāo)線譜組合特征:
①遍歷并統(tǒng)計(jì)FP-樹各特征線譜的支持度si(出現(xiàn)次數(shù));
②設(shè)定頻繁項(xiàng)閾值S,按Si>S對FP-樹進(jìn)行剪枝,得到新FP-樹;
③提取新 FP-樹中的所有模式,作為最終的感興趣目標(biāo)線譜特征。
數(shù)據(jù)樣本來自多次的觀測試驗(yàn)(仿真),每次觀測的浮標(biāo)和目標(biāo)數(shù)量都是隨機(jī)產(chǎn)生。典型的試驗(yàn)條件如下:在某海域有若干枚浮標(biāo)對水聲目標(biāo)進(jìn)行觀測,相鄰浮標(biāo)間距為幾公里~十幾公里不等;浮標(biāo)附近存在感興趣的水聲目標(biāo),在幾十公里之外存在多個(gè)不感興趣的水聲目標(biāo)。圖4給出了典型試驗(yàn)條件的示意。
圖4 試驗(yàn)條件示意
各種目標(biāo)信號同時(shí)混疊在浮標(biāo)數(shù)據(jù)中。海洋背景噪聲為中等條件,68 dB @ 1 kHz,環(huán)境噪聲按照6 dB/oct模型產(chǎn)生;感興趣水聲目標(biāo)有2種工況,分別對應(yīng)不同的線譜組合特征(隨機(jī)設(shè)定,不具備實(shí)際意義),詳見表1。考慮到海洋傳播、背景噪聲以及各浮標(biāo)之間的系統(tǒng)差異,每個(gè)浮標(biāo)接收到的線譜信息都存在2 dB方差的獨(dú)立隨機(jī)誤差(與理想條件相比)。
表1 水聲目標(biāo)低頻線譜設(shè)定
在每次仿真試驗(yàn)中,感興趣目標(biāo)存在的概率為50%,對應(yīng)的工況也是各占50%;不感興趣水聲目標(biāo)數(shù)量M、每個(gè)艦船干擾的低頻線譜數(shù)N及其線譜頻率和強(qiáng)度都是隨機(jī)產(chǎn)生,其中整數(shù)M、N都在1~3之間均勻分布,線譜頻率分布范圍5~150 Hz。一共產(chǎn)生了1000批數(shù)據(jù),圖5給出了試驗(yàn)中目標(biāo)、干擾的空間位置分布,圖6給出了對數(shù)據(jù)進(jìn)行分析后提取的線譜特征的區(qū)間支持度,即線譜在該頻率區(qū)間出現(xiàn)的次數(shù)。
圖5 所有目標(biāo)位置分布
圖6 數(shù)據(jù)樣本線譜特征區(qū)間支持度
采用本文所提方法對數(shù)據(jù)集進(jìn)行處理,圖7~圖10分別給出了在不同頻繁項(xiàng)閾值S條件下得到的FP-樹。圖7給出了以1000組原始數(shù)據(jù)為基礎(chǔ)構(gòu)建的 FP-樹結(jié)構(gòu),從圖中可以看出由于干擾線譜的存在,原始 FP-樹枝葉結(jié)構(gòu)十分復(fù)雜,無法通過觀察直接得到樹的主干(感興趣目標(biāo)線譜組合特征)結(jié)構(gòu)。
圖7 S=0時(shí)(未剪枝)的FP-樹
在對原始 FP-樹進(jìn)行剪枝,去掉支持度低(出現(xiàn)頻次少)的枝葉留下了主要枝干后,情形得到了改觀。圖8~10中(a)為原始圖,(b)是在(a)的基礎(chǔ)上增加了節(jié)點(diǎn)名稱(圓圈內(nèi)的數(shù)字)與支持度(枝干上的藍(lán)色數(shù)字)的標(biāo)注圖。從圖8中可以看出,S=20時(shí)FP-樹剪枝的程度不夠,導(dǎo)致留下了很多屬于干擾的枝葉,例如99.1 Hz、43.2 Hz、56.2 Hz和22.8 Hz,這種情形往往是由于某些干擾目標(biāo)固定在觀測海域附近活動(dòng)導(dǎo)致其線譜特征也會頻繁出現(xiàn)。圖9中采用了更大力度的剪枝參數(shù)(S=50),有效地去除了干擾項(xiàng),只保留了感興趣目標(biāo)的線譜特征。圖10給出了S=150的結(jié)果,此時(shí)剪枝力度過大,感興趣目標(biāo)的89.5 Hz、93.4 Hz特征成分被當(dāng)作干擾剪除了,但保留了感興趣目標(biāo)最穩(wěn)定的兩組線譜結(jié)構(gòu)。
圖8 S=20時(shí)FP-樹
圖9 S=50時(shí)FP-樹
圖10 S=150時(shí)FP-樹
表2~4給出了從剪枝后的FP-樹中挖掘得到的頻繁模式(線譜組合模式)及其支持度。從表中可以看出,當(dāng)S=20、S=50時(shí)都能獲得感興趣目標(biāo)的所有線譜組合特征,區(qū)別在于S=20時(shí)還額外引入了4種干擾線譜的特征組合;S=150時(shí),由于剪除了目標(biāo)特定工況的線譜特征,只獲得了最穩(wěn)定的特征組合{34.7 Hz,61.2 Hz}、{32.4 Hz、48.6 Hz},其支持度變?yōu)檎鎸?shí)工況支持度之和。
表2 閾值S=20
表3 閾值S=50
表4 閾值S=150
實(shí)際環(huán)境中獲取的水聲目標(biāo)數(shù)據(jù)中往往混有大量的干擾線譜成分,在缺乏先驗(yàn)知識的條件下常規(guī)方法往往難以準(zhǔn)確提取感興趣目標(biāo)的線譜特征。利用本文提出的方法,能夠在大量干擾背景下準(zhǔn)確地挖掘出感興趣目標(biāo)固有的線譜特征組合及其對應(yīng)的支持度,仿真試驗(yàn)處理結(jié)果證明了本文算法的有效性。本文提出的方法能夠準(zhǔn)確獲取頻繁接觸的各類感興趣水聲目標(biāo)的固有線譜組合模式,對提高水聲目標(biāo)的探測與識別具有重要意義。
本文算法需要設(shè)定支持度閾值對生成的 FP-樹進(jìn)行剪枝,支持度閾值的設(shè)定需要以數(shù)據(jù)集特性作為依據(jù),例如數(shù)據(jù)集大小、感興趣目標(biāo)/干擾特征的集中度等,在挖掘分析過程中進(jìn)行適應(yīng)性調(diào)整,以實(shí)現(xiàn)去除干擾項(xiàng)和保留目標(biāo)信息之間的平衡。