王睿,牛海,徐亞光
(海軍大連艦艇學(xué)院 通信系,遼寧 大連 116018)
導(dǎo)航、制導(dǎo)與控制
基于評(píng)估需求的艦艇通信訓(xùn)練數(shù)據(jù)挖掘研究*
王睿,牛海,徐亞光
(海軍大連艦艇學(xué)院 通信系,遼寧 大連 116018)
數(shù)據(jù)是艦艇通信訓(xùn)練效果評(píng)估組織實(shí)施的基礎(chǔ),其質(zhì)量?jī)?yōu)劣直接關(guān)系到評(píng)估結(jié)果的準(zhǔn)確性。針對(duì)艦艇通信訓(xùn)練數(shù)據(jù)缺乏科學(xué)化、標(biāo)準(zhǔn)化管理的問(wèn)題,從訓(xùn)練效果評(píng)估需求出發(fā),將改進(jìn)優(yōu)化后的聚類劃分、立方體歸約、貝葉斯分類和直方圖歸約等技術(shù)方法應(yīng)用于訓(xùn)練數(shù)據(jù)挖掘工作中,構(gòu)建了一套規(guī)范化的訓(xùn)練數(shù)據(jù)挖掘體系,可為艦艇通信訓(xùn)練效果評(píng)估工作提供技術(shù)理論支撐。
評(píng)估;艦艇通信訓(xùn)練;體系架構(gòu);數(shù)據(jù)清洗;數(shù)據(jù)檢測(cè);數(shù)據(jù)挖掘
艦艇兵力是海上方向作戰(zhàn)的核心力量,可靠的通信保障是提升艦艇作戰(zhàn)能力的中樞神經(jīng)。各軍事強(qiáng)國(guó)廣泛開(kāi)展艦艇通信實(shí)戰(zhàn)化訓(xùn)練,旨在通過(guò)訓(xùn)練提高艦艇部隊(duì)通信保障能力,盡可能的發(fā)揮武器裝備最大作戰(zhàn)效能。訓(xùn)練效果評(píng)估,作為組訓(xùn)工作重要環(huán)節(jié),其成效直接關(guān)系到訓(xùn)練效益的發(fā)揮程度,評(píng)估結(jié)論將對(duì)各級(jí)決策產(chǎn)生重大影響。效果評(píng)估工作強(qiáng)烈依賴于獲取數(shù)據(jù)的質(zhì)量,艦艇通信訓(xùn)練數(shù)據(jù)量大、類雜,采集的數(shù)據(jù)中充斥著大量無(wú)法直接使用的問(wèn)題數(shù)據(jù),嚴(yán)重制約著訓(xùn)練效果評(píng)估工作的順利實(shí)施,因此,合理的數(shù)據(jù)挖掘是進(jìn)行訓(xùn)練評(píng)估的關(guān)鍵和基礎(chǔ)。
目前,國(guó)內(nèi)外許多學(xué)者已在數(shù)據(jù)挖掘理論方法方面進(jìn)行了深入的研究。文獻(xiàn)[1]從數(shù)據(jù)產(chǎn)品與傳統(tǒng)有形產(chǎn)品、軟件產(chǎn)品類比的視角,提出了包括準(zhǔn)備、檢測(cè)、定位、修正和驗(yàn)證的數(shù)據(jù)清洗一般性系統(tǒng)框架;文獻(xiàn)[2]引入D-S證據(jù)理論,提出了一種基于待測(cè)數(shù)據(jù)項(xiàng)置信區(qū)間檢測(cè)查詢結(jié)果中錯(cuò)誤數(shù)據(jù)的方法;文獻(xiàn)[3]以身份證信息識(shí)別為背景,構(gòu)建了一個(gè)針對(duì)性較強(qiáng)的數(shù)據(jù)清洗系統(tǒng),并給出了具體操作實(shí)施流程;文獻(xiàn)[4]運(yùn)用信息熵理論,提出了基于信息熵的異常數(shù)據(jù)挖掘算法;文獻(xiàn)[5]將數(shù)據(jù)清洗視做消除數(shù)據(jù)中錯(cuò)誤和不一致的問(wèn)題,提出了實(shí)體分辨問(wèn)題的解決過(guò)程。
綜上所述可知,相關(guān)研究成果主要集中在以下2個(gè)方面:一是從數(shù)據(jù)理論內(nèi)涵概念出發(fā),分析構(gòu)建具有較強(qiáng)通用性的數(shù)據(jù)挖掘體系架構(gòu);二是側(cè)重于數(shù)據(jù)挖掘中某一項(xiàng)技術(shù)方法的突破創(chuàng)新和在專向領(lǐng)域中的實(shí)際應(yīng)用。這些成果從不同程度研究了數(shù)據(jù)挖掘方法和技術(shù),但考慮問(wèn)題系統(tǒng)化程度不足,并未針對(duì)具體問(wèn)題將數(shù)據(jù)挖掘體系、流程和技術(shù)方法等強(qiáng)相關(guān)因子統(tǒng)一進(jìn)行分析研究。此外,由于專業(yè)領(lǐng)域特殊性,軍事訓(xùn)練數(shù)據(jù)挖掘問(wèn)題可見(jiàn)研究成果很少,這與訓(xùn)練效果評(píng)估需求迫切性呈現(xiàn)出極為強(qiáng)烈的矛盾。因此,本文以研究成果實(shí)用性為目標(biāo),以艦艇通信訓(xùn)練為任務(wù)背景,提出一套訓(xùn)練數(shù)據(jù)挖掘體系架構(gòu)和與之相匹配的數(shù)據(jù)挖掘處理方法,為效果評(píng)估工作提供可靠的基礎(chǔ)支撐。
1.1 數(shù)據(jù)整體量多類雜,迫切需要規(guī)范處理
根據(jù)訓(xùn)練計(jì)劃和具體任務(wù),為達(dá)到訓(xùn)練目的進(jìn)而最大限度提升訓(xùn)練效果,艦艇通信重點(diǎn)圍繞具體科目進(jìn)行短波、超短波、衛(wèi)星、數(shù)據(jù)鏈等多種通信手段進(jìn)行長(zhǎng)時(shí)間的針對(duì)性訓(xùn)練。艦艇通信訓(xùn)練效果評(píng)估指標(biāo)體系層次多,底層指標(biāo)可達(dá)到數(shù)十個(gè),而每個(gè)底層指標(biāo)都有相應(yīng)的數(shù)據(jù)進(jìn)行支撐,在長(zhǎng)時(shí)間的訓(xùn)練背景下通信數(shù)據(jù)整體量將十分龐大。數(shù)據(jù)類型上主要分為人為判定的主觀數(shù)據(jù)和提取計(jì)算的客觀數(shù)據(jù),體現(xiàn)形式為序數(shù)屬性和數(shù)值屬性。客觀數(shù)據(jù)又存在數(shù)據(jù)量綱不一致、聚焦方向相沖突等問(wèn)題。為保證后續(xù)數(shù)據(jù)使用的便捷,迫切需要將訓(xùn)練數(shù)據(jù)進(jìn)行規(guī)范處理。
1.2 采集形式人工為主,數(shù)據(jù)質(zhì)量難以保證
鑒于通信訓(xùn)練數(shù)據(jù)屬性特點(diǎn),艦艇通信訓(xùn)練的數(shù)據(jù)采集過(guò)程中,主要采取人工表格記錄、錄音、視頻錄像和系統(tǒng)自動(dòng)數(shù)據(jù)采集等形式,其中大多需要進(jìn)行人工分析,因此,數(shù)據(jù)采集中人為參與因素較大。數(shù)據(jù)處理和記錄人員能力素質(zhì)、責(zé)任感的不同,直接導(dǎo)致數(shù)據(jù)質(zhì)量的巨大差異。艦艇通信訓(xùn)練中的殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)和沖突數(shù)據(jù)廣泛存在,這些數(shù)據(jù)無(wú)法直接使用,在訓(xùn)練效果評(píng)估工作中嚴(yán)重制約著評(píng)估實(shí)效性和準(zhǔn)確性。此外,艦艇通信訓(xùn)練原始數(shù)據(jù)按照時(shí)間序列分布,可視化程度較低,無(wú)法與效果評(píng)估指標(biāo)的量化直接匹配,需要進(jìn)行多級(jí)轉(zhuǎn)換。
1.3 訓(xùn)練環(huán)境任務(wù)多變,特殊數(shù)據(jù)廣泛存在
艦艇通信訓(xùn)練中,外部環(huán)境和任務(wù)背景多樣,既有常態(tài)化的自然環(huán)境,又有強(qiáng)干擾的電磁環(huán)境,既有長(zhǎng)時(shí)間的適應(yīng)性訓(xùn)練,又有背靠背的編組對(duì)抗訓(xùn)練,外部電磁環(huán)境和任務(wù)背景不同將使得各類訓(xùn)練數(shù)據(jù)呈現(xiàn)跳躍性變化。此外,在同一訓(xùn)練環(huán)境和作戰(zhàn)任務(wù)的不同階段中,訓(xùn)練數(shù)據(jù)的屬性差異也較大。從數(shù)據(jù)清洗的角度講,特殊數(shù)據(jù)(異常數(shù)據(jù))常被視為噪聲數(shù)據(jù),應(yīng)予以檢測(cè)并刪除。而在艦艇通信訓(xùn)練中,特定環(huán)境、任務(wù)背景或作戰(zhàn)階段中的數(shù)據(jù)往往不同于訓(xùn)練全過(guò)程數(shù)據(jù)發(fā)展趨勢(shì),表現(xiàn)出較強(qiáng)離散性,但其可能并不屬于無(wú)用數(shù)據(jù),而是對(duì)訓(xùn)練評(píng)估工作極為重要的,并不應(yīng)刪除,而應(yīng)進(jìn)行提取歸類。
2.1 艦艇通信訓(xùn)練數(shù)據(jù)挖掘體系構(gòu)建思路
數(shù)據(jù)的價(jià)值體取決于需求,不同目標(biāo)任務(wù)對(duì)數(shù)據(jù)需求程度也不相同。艦艇通信訓(xùn)練數(shù)據(jù)用于對(duì)訓(xùn)練效果的評(píng)估,其評(píng)估對(duì)象主要包括整體訓(xùn)練效果評(píng)估和局部訓(xùn)練效果評(píng)估。整體訓(xùn)練評(píng)估指從訓(xùn)練開(kāi)始至結(jié)束這一整個(gè)訓(xùn)練過(guò)程中通信保障效果,局部訓(xùn)練評(píng)估指對(duì)作戰(zhàn)任務(wù)的某一關(guān)鍵階段通信保障能力的評(píng)估(如編組對(duì)抗任務(wù)中艦艇編隊(duì)抗擊來(lái)襲導(dǎo)彈階段)。評(píng)估對(duì)象不同,對(duì)相關(guān)支撐數(shù)據(jù)的質(zhì)量要求存在較大差異。整體訓(xùn)練評(píng)估需使用整個(gè)訓(xùn)練過(guò)程中的全部數(shù)據(jù),數(shù)據(jù)量十分龐大,數(shù)據(jù)處理過(guò)程中應(yīng)重點(diǎn)進(jìn)行異常數(shù)據(jù)清洗和常規(guī)數(shù)據(jù)歸約。局部訓(xùn)練評(píng)估的數(shù)據(jù)使用具有特殊性,當(dāng)使用數(shù)據(jù)量較大且無(wú)特殊性時(shí),可直接調(diào)用全域處理數(shù)據(jù);當(dāng)使用數(shù)據(jù)量較小時(shí),需調(diào)用經(jīng)過(guò)針對(duì)性處理的數(shù)據(jù),其重點(diǎn)應(yīng)是噪聲數(shù)據(jù)清洗和數(shù)據(jù)挖掘?;谏鲜鲆蛩兀炌ㄐ庞?xùn)練數(shù)據(jù)挖掘應(yīng)按照逐級(jí)遞進(jìn)的形式建立“三級(jí)處理”模型,并在第3級(jí)處理層級(jí)中采用不同的方法分類構(gòu)建具有不同特點(diǎn)的數(shù)據(jù)庫(kù),數(shù)據(jù)使用層面上根據(jù)需求差異對(duì)相同的數(shù)據(jù)庫(kù)調(diào)用,具體架構(gòu)如圖1所示。
2.2 艦艇通信訓(xùn)練數(shù)據(jù)挖掘體系構(gòu)建
(1) 數(shù)據(jù)1級(jí)處理。包括人工記錄數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、系統(tǒng)錄取數(shù)據(jù)采集及人工干預(yù)處理,其中人工記錄數(shù)據(jù)和采集系統(tǒng)錄取數(shù)據(jù)中的人工干預(yù)因素較輕,體現(xiàn)在數(shù)據(jù)整體分類方面;音頻數(shù)據(jù)和視頻數(shù)據(jù)的人工干預(yù)程度大,重點(diǎn)是將相關(guān)信息轉(zhuǎn)化為可解讀程度較高的可視化數(shù)據(jù)。
(2) 數(shù)據(jù)2級(jí)處理。該層級(jí)屬于數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)規(guī)范處理階段,包括數(shù)據(jù)檢測(cè)和預(yù)處理2部分。數(shù)據(jù)檢測(cè)主要進(jìn)行相似重復(fù)記錄、不完整數(shù)據(jù)記錄、邏輯錯(cuò)誤、異常數(shù)據(jù)等數(shù)據(jù)質(zhì)量問(wèn)題的檢測(cè),統(tǒng)計(jì)數(shù)據(jù)檢測(cè)的結(jié)果并進(jìn)行分類歸檔,這些是數(shù)據(jù)挖掘處理的基礎(chǔ);本層級(jí)的數(shù)據(jù)處理聚焦“通用性”,應(yīng)同時(shí)滿足全域評(píng)估和局域評(píng)估的需求,重點(diǎn)是重復(fù)數(shù)據(jù)的合并。
圖1 艦艇通信訓(xùn)練數(shù)據(jù)挖掘架構(gòu)Fig.1 Data mining framework of warship communication training
(3) 數(shù)據(jù)3級(jí)處理。本層級(jí)對(duì)數(shù)據(jù)進(jìn)行分類處理,首先進(jìn)行訓(xùn)練評(píng)估屬性判定,全域評(píng)估是將整個(gè)訓(xùn)練過(guò)程視為一個(gè)整體,對(duì)訓(xùn)練中的全部數(shù)據(jù)進(jìn)行規(guī)范化處理,根據(jù)“局部服從整體”的原則,主要對(duì)缺失數(shù)據(jù)、不完整數(shù)據(jù)進(jìn)行柔性挖掘(剔出與線性回歸相結(jié)合)和離群數(shù)據(jù)判定處理,而后為克服因數(shù)據(jù)集龐大而造成的數(shù)據(jù)挖掘速率降低,同時(shí)保證分析結(jié)果的正確性,對(duì)數(shù)據(jù)進(jìn)行歸約處理,進(jìn)而形成基于訓(xùn)練整體的全域數(shù)據(jù)庫(kù);局域評(píng)估聚焦于某一訓(xùn)練作戰(zhàn)階段,階段性數(shù)據(jù)規(guī)模較小、珍貴程度高,按照“深度挖掘”的原則,在最大限度進(jìn)行缺失數(shù)據(jù)分析、不完整數(shù)據(jù)填充和離群數(shù)據(jù)使用等處理,旨在充分挖掘采集數(shù)據(jù)的可用度,并形成針對(duì)性較強(qiáng)的局域數(shù)據(jù)庫(kù)。
(4) 數(shù)據(jù)使用對(duì)接[6-9]。建立的數(shù)據(jù)庫(kù)可滿足全域評(píng)估和局域評(píng)估時(shí)的數(shù)據(jù)調(diào)用,全域評(píng)估任務(wù)可直接調(diào)用全域數(shù)據(jù)庫(kù)存儲(chǔ)信息;局域評(píng)估任務(wù)在數(shù)據(jù)庫(kù)調(diào)用時(shí)應(yīng)結(jié)合數(shù)據(jù)使用需求進(jìn)行靈活選擇,可直接調(diào)用局域數(shù)據(jù)庫(kù)存儲(chǔ)信息,對(duì)數(shù)據(jù)無(wú)特殊性需求時(shí)(數(shù)據(jù)離群屬性較弱)也可調(diào)用全域數(shù)據(jù)庫(kù)信息。
3.1 基于聚類劃分的全域離群數(shù)據(jù)檢測(cè)處理
聚類劃分可把大數(shù)據(jù)對(duì)象劃分為多個(gè)分布廣泛且相互獨(dú)立的簇,簇內(nèi)數(shù)據(jù)具有高相似度,簇間數(shù)據(jù)具有高相異性,而游離于各簇之外的數(shù)據(jù)可認(rèn)定為全域離群數(shù)據(jù)。全域離群數(shù)據(jù)檢測(cè)采用k-均值方法對(duì)數(shù)據(jù)整體進(jìn)行聚類劃分[7-8],然后根據(jù)對(duì)象點(diǎn)與最近簇距離判定疑似離群點(diǎn),最后通過(guò)檢驗(yàn)考查點(diǎn)與距離均值差異度判定離群點(diǎn)。具體步驟如下:
步驟2:根據(jù)k—均值算法進(jìn)行迭代計(jì)算,多次改變簇內(nèi)變差。對(duì)每個(gè)簇,根據(jù)重新分配的對(duì)象不斷計(jì)算新的內(nèi)變差,直至最終形成穩(wěn)定的簇,即各簇包含數(shù)據(jù)不再變化,至此可確定各簇的中心點(diǎn)。
步驟4:對(duì)上述過(guò)程中確定的離群點(diǎn)數(shù)據(jù)進(jìn)行清除處理。
3.2 數(shù)據(jù)立方體歸約化處理
艦艇通信訓(xùn)練全域數(shù)據(jù)信息存儲(chǔ)體系龐大,可視化程度不高,難以高效對(duì)接不同類別的評(píng)估任務(wù)需求。數(shù)據(jù)立方體技術(shù)是一項(xiàng)高效的數(shù)據(jù)規(guī)約化處理方法,通過(guò)對(duì)數(shù)據(jù)進(jìn)行多維建模和觀察,將列表形式數(shù)據(jù)轉(zhuǎn)化為可視化較強(qiáng)的3D幾何結(jié)構(gòu),以此將海量數(shù)據(jù)分級(jí)壓縮進(jìn)而實(shí)現(xiàn)滿足用戶快速使用。以報(bào)文接收數(shù)量為例,贅述數(shù)據(jù)立方體歸約化處理。如表1。
將表1中緯度和數(shù)值轉(zhuǎn)化為數(shù)據(jù)立方體,如圖2。針對(duì)不同數(shù)據(jù)需求,數(shù)據(jù)立方體在使用過(guò)程中可充分利用上卷、下鉆、切片、切塊、轉(zhuǎn)軸、鉆過(guò)和鉆透等技術(shù)[10]。如使用1#, 2#網(wǎng)絡(luò)的接收?qǐng)?bào)文總量時(shí)可采用上卷技術(shù)將2個(gè)網(wǎng)絡(luò)維度合并處理形成新的壓縮立方體。
表1 基于多維度的接收?qǐng)?bào)文量統(tǒng)計(jì)Table 1 Receiving messages quantity statistics based on multi-dimensions
圖2 接收?qǐng)?bào)文量的3D數(shù)據(jù)立方體Fig.2 3D data cube of receiving messages quantity
上述是從3個(gè)維度考慮數(shù)據(jù)的歸約,當(dāng)需要多個(gè)維度(3個(gè)以上)時(shí)可把n維數(shù)據(jù)立方體顯示成(n-1)維“立方體”的序列具體實(shí)施操作。維度越多,構(gòu)建立方體越復(fù)雜,因此在使用數(shù)據(jù)時(shí)盡量壓縮在低維度空間。
4.1 缺失數(shù)據(jù)挖掘方法
(1) 定量數(shù)據(jù)挖掘
定量數(shù)據(jù)是指通過(guò)數(shù)值來(lái)描述事物屬性的一類統(tǒng)計(jì)數(shù)據(jù),從數(shù)據(jù)元組屬性出發(fā)進(jìn)行此類數(shù)據(jù)的挖掘需考慮的因素眾多、往往難以實(shí)現(xiàn),通常應(yīng)根據(jù)其它數(shù)據(jù)集量化值大小的規(guī)律性變化進(jìn)行預(yù)測(cè)。當(dāng)數(shù)據(jù)整體呈對(duì)稱分布時(shí),可用數(shù)據(jù)集的均值來(lái)代替;數(shù)據(jù)整體呈傾斜分布時(shí),應(yīng)使用中位數(shù)代替;數(shù)據(jù)集呈無(wú)規(guī)律性變化時(shí),可采用數(shù)據(jù)擬合光滑曲線的方法預(yù)測(cè)待挖掘值。但某些局域訓(xùn)練階段數(shù)據(jù)相對(duì)較少,可能造成上述方法產(chǎn)生大的誤差,若該缺失數(shù)據(jù)重要性巨大,則必須依靠情景復(fù)現(xiàn)并結(jié)合人工查找的方式實(shí)現(xiàn)。
(2) 定性數(shù)據(jù)的貝葉斯形式化挖掘
定性數(shù)據(jù)是指用語(yǔ)言文字來(lái)描述客觀事物屬性進(jìn)而形成的一類統(tǒng)計(jì)數(shù)據(jù),如優(yōu)秀、良好、合格與不合格等,此類數(shù)據(jù)與定量數(shù)據(jù)特點(diǎn)截然不同,其缺失值挖掘技術(shù)方法選擇上也具有很強(qiáng)的特殊性[11]。貝葉斯形式化方法可充分利用現(xiàn)有數(shù)據(jù)的元組屬性信息,通過(guò)挖掘缺失值與其數(shù)據(jù)屬性之間聯(lián)系,實(shí)現(xiàn)缺失的定性數(shù)據(jù)預(yù)測(cè)。根據(jù)貝葉斯定理和樸素貝葉斯分類,具體步驟如下:
步驟2:分別計(jì)算每個(gè)類的先驗(yàn)概率P(Ci),依據(jù)數(shù)據(jù)訓(xùn)練元組矩陣分別計(jì)算后驗(yàn)概率P(X|Ci)。
4.2 基于多情景制約的局域離群數(shù)據(jù)檢測(cè)與處理方法
艦艇通信訓(xùn)練局域數(shù)據(jù)具有明確的時(shí)間序列屬性,符合情景離群點(diǎn)判定概念范疇,但其外部情景并非單維,而可能在不同程度上融合了附加情景影響因子。局域數(shù)據(jù)檢測(cè)與處理時(shí),應(yīng)以時(shí)間序列為基本情景,選用非參數(shù)離群點(diǎn)檢測(cè)方法計(jì)算處理[12-13],在結(jié)論判定階段融入附加影響情景對(duì)可疑數(shù)據(jù)進(jìn)行判定。具體步驟如下:
步驟1:使用某一時(shí)間序列的全部數(shù)據(jù)(局域數(shù)據(jù))構(gòu)造一個(gè)直方圖。其中,寬度參數(shù)的確定需要人工干預(yù),通常由數(shù)據(jù)統(tǒng)計(jì)專家或評(píng)估專家依據(jù)數(shù)據(jù)特點(diǎn)給出。
步驟2:為確定一個(gè)待測(cè)數(shù)據(jù)o是否為離群點(diǎn),可直接對(duì)比直方圖來(lái)測(cè)試。如果該點(diǎn)在圖中所標(biāo)各組中,則為正常數(shù)據(jù),否則可判定為離群點(diǎn)。鑒于直方圖中箱寬度的人為影響誤差,為避免將正常數(shù)據(jù)誤判,可引入核函數(shù)K( )及核密度估計(jì)概念來(lái)進(jìn)一步精確檢測(cè)[10]。
核函數(shù)是一個(gè)非負(fù)實(shí)數(shù)值可積函數(shù),通??梢曌鼍禐?,方差為1的標(biāo)準(zhǔn)高斯函數(shù):
應(yīng)用過(guò)程中,設(shè)定x1,x2,…,xn是隨機(jī)變量f的獨(dú)立、同分布樣本,則概率密度函數(shù)的核函數(shù)近似為
本文以提升艦艇通信訓(xùn)練數(shù)據(jù)質(zhì)量和規(guī)范數(shù)據(jù)挖掘體系為目標(biāo),針對(duì)整體訓(xùn)練效果評(píng)估和局部訓(xùn)練效果評(píng)估的數(shù)據(jù)需求特點(diǎn),構(gòu)建基于任務(wù)的艦艇通信訓(xùn)練數(shù)據(jù)挖掘體系架構(gòu),將聚類劃分、立方體歸約、貝葉斯分類和直方圖歸約等技術(shù)方法應(yīng)用于全域數(shù)據(jù)庫(kù)和局域數(shù)據(jù)庫(kù)建設(shè)中,形成一套規(guī)范化的訓(xùn)練數(shù)據(jù)挖掘體系。提出的數(shù)據(jù)挖掘體系方法與計(jì)算機(jī)相結(jié)合形成艦艇通信訓(xùn)練數(shù)據(jù)處理系統(tǒng),可直接服務(wù)于艦艇通信訓(xùn)練效果評(píng)估工作,能夠有效拓展評(píng)估的效率。
[1] 曹建軍,刁興春,陳爽,等. 數(shù)據(jù)清洗及其一般性系統(tǒng)框架[J]. 計(jì)算機(jī)科學(xué), 2012, 39(11): 207-210. CAO Jian-jun, DIAO Xing-chun,CHEN Shuang, et al. Data Cleaning and Its General System Framework[J]. Computer Science, 2012, 39(11): 207-210.
[2] 樊金輝,岳昆. 基于D-S證據(jù)理論的不確定數(shù)據(jù)清洗[J]. 云南大學(xué)學(xué)報(bào), 2014, 36(6): 815-821. FAN Jin-hui, YUE Kun. Cleaning Uncertain Data Based on the D-S Evidence Theory[J]. Journal of Yunnan University, 2014, 36(6): 815-821.
[3] 武小平,左春. 基于工作流程的數(shù)據(jù)清洗系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008, 29(8): 1878-1880. WU Xiao-ping, ZUO Chun. Data Clean System Based on Work Flow[J]. Computer Engineering and Design, 2008, 29(8): 1878-1880.
[4] 陳玉明,吳克壽,李向軍. 一種基于信息熵的異常數(shù)據(jù)挖掘算法[J]. 控制與決策, 2013, 28(6): 867-872. CHEN Yu-ming, WU Ke-shou,LI Xiang-jun. A Kind of Outlier Mining Algorithm Based on Information Entropy[J]. Control and Decision, 2013, 28(6): 867-872.
[5] HERNANDEZ M A,STOLFO S J. Real-World Data is Dirty:Data Cleaning and the Merge/Purge Problem[J]. Data Ming and Knowledge Discover,1998,2(1):9-37.
[6] 陳曉峰,劉興,高元博,等. 基于數(shù)據(jù)挖掘的海戰(zhàn)場(chǎng)態(tài)勢(shì)可視化平臺(tái)構(gòu)建[J]. 火力與指揮控制, 2015, 40(4): 144-147. CHEN Xiao-feng, LIU Xing,GAO Yuan-bo, et al. Structure for Naval Battlefield Situation Visualization Platform Based on Data Mining[J]. Fire Control and Command Control, 2015, 40(4): 144-147.
[7] 陶雪嬌,胡曉峰,劉洋. 大數(shù)據(jù)研究綜述[J]. 系統(tǒng)仿真學(xué)報(bào),2013,25(3):142-146. TAO Xue-jiao, HU Xiao-feng, LIU Yang. Overview of Big Data Research[J]. Journal of System Simulation, 2013, 25(3):142-146.
[8] 謝娟英,蔣帥,王春霞,等.一種改進(jìn)的全局K均值聚類算法[J].陜西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2010,38(2):18-22. XIE Juan-ying, JIANG Shuai, WANG Chun-xia, et al. An Improved Global K-Means Clustering Algorithm[J]. Journal of Shaanxi Normal University:Natural Secience ed,2010, 38(2):18-22.
[9] 薛青,羅佳,鄭長(zhǎng)偉,等. 面向作戰(zhàn)仿真的數(shù)據(jù)挖掘[J]. 四川兵工學(xué)報(bào),2013,34(8):93-95. XUE Qing,LUO Jia,ZHENG Chang-wei, et al. Study on Data Mining for Combat Simulation[J]. Journal of Sichuan Ordnance, 2013,34(8):93-95.
[10] 范明,孟小峰. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2008. FAN Ming, MENG Xiao-feng. Data Mining Concepts and Techniques[M]. Beijing:China Machine Press,2008.
[11] 林印華,張春梅,劉潔. 基于清洗規(guī)則和主數(shù)據(jù)的數(shù)據(jù)修復(fù)算法實(shí)現(xiàn)[J]. 計(jì)算機(jī)科學(xué), 2012, 39(11): 174-176. LIN Yin-hua, ZHANG Chun-mei, LIU Jie. Realization of Data Cleaning Based on Editing Rules and Master Data[J]. Computer Science, 2012, 39(11): 174-176.
[12] 謝慶華,張寧蓉,宋以勝,等. 聚類數(shù)據(jù)挖掘可視化模型方法與技術(shù)[J]. 解放軍理工大學(xué)學(xué)報(bào), 2015, 16(1): 7-15. XIE Qing-hua, ZHANG Ning-rong,SONG Yi-sheng, et al. Visualization Methods and Techniques of Clustering Data Mining[J]. Journal of PLA University of Science and Technology, 2015, 16(1): 7-15.
[13] 唐懿芳,鐘達(dá)夫,嚴(yán)小衛(wèi). 基于聚類模式的數(shù)據(jù)清洗技術(shù)[J]. 計(jì)算機(jī)應(yīng)用, 2004, 24(5): 116-119. TANG Yi-fang, ZHONG Da-fu, YAN Xiao-wei. Data Cleaning Based on Clustering Technique[J]. Computer Applications, 2004, 24(5): 116-119.
[14] 周傲英,金澈清,王國(guó)仁,等.不確定性數(shù)據(jù)管理技術(shù)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(1):1-16. ZHOU Ao-ying,JIN Che-qing,WANG Guo-ren,et al. A survey on the Management of Uncertain Data[J]. Chinese Journal of Computers, 2009,23(1):1-16.
[15] MO L, CHENG R, LI X, et al. Cleaning Uncertain Data for Top-k Queries[C]∥ IEEE International Conference on Data Engineering, 2013:134-145.
Data Mining of Warship Communication Training Based on Evaluation Requirement
WANG Rui, NIU Hai, XU Ya-guang
(Dalian Naval Academy,Department of Communication,Liaoning Dalian 116018, China)
As the foundation of warship communication training evaluation, the data quality directly relates to the veracity of evaluation result. To deal with the problem of lacking scientific and standard management for warship communication training, from the aspects of the training requirement, the improved clustering partition, cube reduction, bayes classification and histogram reduction techniques are applied to the training data mining work, and a set of standard training data mining system is established. The result can provide technique theory support for warship communication training evaluation.
evaluation;warship communication training;system framework;data cleaning;data detection;data mining
2015-12-20;
2016-04-05
國(guó)家社會(huì)科學(xué)基金資助項(xiàng)目(15GJ003-208)
王睿(1982-),男,黑龍江巴彥人。講師,碩士,主要研究方向?yàn)橹笓]信息系統(tǒng)與作戰(zhàn)應(yīng)用、軍事通信。
10.3969/j.issn.1009-086x.2016.06.010
E925.6;TN92;TP274
A
1009-086X(2016)-06-0054-07
通信地址:116018 遼寧省大連市中山區(qū)解放路667號(hào)
E-mail:yuezhiying@yeah.net