馮 濤 常樹寶 任 煜
(1.陸軍軍官學院研究生隊 合肥 230031)(2.68310部隊 西安 710600)(3.68305部隊 蘭州 730305)
當前基層作戰(zhàn)部隊普遍積累了大量的作戰(zhàn)數(shù)據(jù),但對這些數(shù)據(jù)的處理還停留在簡單的備份、查詢及統(tǒng)計階段,從而使得這些數(shù)據(jù)還不能被充分利用。如何利用這些海量數(shù)據(jù)理性地分析各方面因素的成效得失,充分發(fā)揮數(shù)據(jù)潛在的作用,是指揮決策者共同關心的問題。比如,在部隊機動組織輸送裝載過程中,提供相關鐵路、空中、水路輸送標準數(shù)據(jù),優(yōu)化裝載方案,確保輸送途中安全可靠;在部隊行軍過程中,提供相關道路、橋梁、隧道以及沿途的兵要地志信息,優(yōu)化路線,提高機動能力;在作戰(zhàn)過程中,提供敵我識別數(shù)據(jù),有效避免誤傷事故的發(fā)生等。
目前,作戰(zhàn)數(shù)據(jù)還沒有一個統(tǒng)一的定義。通常認為,作戰(zhàn)數(shù)據(jù)是數(shù)據(jù)的一種。從廣義理解,作戰(zhàn)數(shù)據(jù)是指對作戰(zhàn)指揮、日常戰(zhàn)備、非戰(zhàn)爭軍事行動等具有影響和制約作用,且可以用人工方式或者用自動化裝置進行通信、翻譯轉換和加工處理的各種數(shù)據(jù)。從狹義理解,作戰(zhàn)數(shù)據(jù)是用于保障作戰(zhàn)指揮和部隊重要行動順利進行的各種數(shù)據(jù)。作戰(zhàn)數(shù)據(jù)主要包括基礎屬性數(shù)據(jù)、動態(tài)情況數(shù)據(jù)和決策意圖數(shù)據(jù),具有確定性、動態(tài)性、實時性、權威性等基本特征。作戰(zhàn)數(shù)據(jù)的建設應堅持源于作戰(zhàn),服務于作戰(zhàn)的原則[1]。
數(shù)據(jù)挖掘是人們多年來對數(shù)據(jù)庫技術進行大量研究和開發(fā)的成果,在20世紀80年代末有了很大的發(fā)展。數(shù)據(jù)挖掘是指從數(shù)據(jù)倉庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的過程。它的目標是將大容量數(shù)據(jù)轉化為有用的知識和信息。數(shù)據(jù)挖掘不但可以幫助人們從數(shù)據(jù)庫特別是數(shù)據(jù)倉庫的相關數(shù)據(jù)中提取出所感興趣的知識、規(guī)律或更高層次的信息,而且也可以幫助人們從不同程度上去分析它們,從而可以有效地利用數(shù)據(jù);它不僅可以用于描述過去數(shù)據(jù)的發(fā)展過程,而且還能進一步預測未來的發(fā)展趨勢[2]。
一般來說,在信息網(wǎng)絡和各類數(shù)據(jù)庫中,其大量數(shù)據(jù)的背后往往都隱藏著很多具有決策意義的信息。通過對大量數(shù)據(jù)的分析,發(fā)現(xiàn)數(shù)據(jù)之間的潛在聯(lián)系,為人們提供決策支持,這便是數(shù)據(jù)挖掘最基本的任務[3]。
關聯(lián)規(guī)則是數(shù)據(jù)挖掘諸多功能中的一種,也是目前最為重要和應用最廣泛的數(shù)據(jù)挖掘方法之一。設Iim}是m個不同項目的集合,其中的元素稱為項(Item)。記D為交易(Transaction)T的集合,這里交易T是項的集合,并且。對應每一個交易有唯一的標識,如交易號,記作TID。一個關聯(lián)規(guī)則是形如X=>Y的蘊涵式,這里?I,并且XY=?。X稱為規(guī)則的前提,Y是結果。規(guī)則X=>Y在交易數(shù)據(jù)庫D中的支持度(Support)是交易集中包含X和Y的交易數(shù)與所有交易數(shù)之比,記為Support(X=>Y),即Support(X=>Y)={T:X∪Y?T,TD}/|D|。規(guī)則X=>Y在交易集中的置信度(Confidence)是指包含X和Y的交易數(shù)與包含X的交易數(shù)之比。
給定一個交易集D,挖掘關聯(lián)規(guī)則問題就是產(chǎn)生支持度和置信度分別大于用戶給定的最小支持度(Minsup)和最小置信度(Minconf)的關聯(lián)規(guī)則,稱為強規(guī)則。關聯(lián)規(guī)則挖掘的任務就是要挖掘出數(shù)據(jù)庫D中所有的強規(guī)則。強規(guī)則X=>Y對應的項目集(X∪Y)必定是頻集,頻集(X∪Y)導出的關聯(lián)規(guī)則X=>Y的置信度可以用頻集X和(X∪Y)的支持度計算。因此,可以把關聯(lián)規(guī)則挖掘劃分為以下兩個子問題:
1)根據(jù)最小支持度找出數(shù)據(jù)集D中的所有頻集;
2)根據(jù)頻繁項目集和最小置信度產(chǎn)生關聯(lián)規(guī)則。
在目前的許多串行算法中,以Agrawal R.等人提出的Apriori算法最為著名,其他大多數(shù)算法也是以Apriori算法為核心的。這些算法的關鍵在于盡可能生成較小的候選項目集,它們都利用了這樣一個基本性質:即一個頻繁項目集的任一子集必定也是頻繁項目集。
Apriori算法是通過項目集元素數(shù)目不斷增長來逐步完成頻繁項目集發(fā)現(xiàn)的。首先產(chǎn)生1-頻繁項集L1,然后是2-頻繁項集L2,直到不再能擴展頻繁項集的元素數(shù)目而算法停止。在第k次循環(huán)中,過程先產(chǎn)生k-候選項集的集合Ck,然后通過掃描數(shù)據(jù)庫生成支持度,并測試產(chǎn)生k-頻繁項集LK。
Apriori算法主要包含以下三個步驟:
1)由頻繁k-1項集通過自連接產(chǎn)生長度為k的候選k項集Ck;
2)對至少有一個非頻繁子集的候選項進行剪枝;
3)掃描所有的事務來獲得候選項集的支持度。
Apriori的基本算法:
L1={頻繁1-項集};
for(k=2;Lk-1≠φ;k++) do begin
Ck=apriori_gen(Lk-1);
//產(chǎn)生新的候選項集
for all transactions T∈D do begin
CT=subset(Ck,T);
//事務T中包含的候選項集
for all candidates c∈CTdo
c.count++;
end
Lk={c∈CK|c.count≥min_sup}
end
answer=UKLk;
procedure apriori_gen(LK-1)
for each itemset l1∈LK-1
for each itemset l2∈Lk-1
c=l1∞l2//連接,產(chǎn)生候選項集
if has_infrequent_subset(c,Lk-1) then
delete c;
else{add c to Ck;
}
return Ck;
procedure has_infrequent_subset(c:candidate k-itemset;Lk-1:
frequent(k-1)_itemset)
for each(k-1)_subset s of c
if s?Lk-1then
{return true};
return false;
本文以某單位軍事訓練數(shù)據(jù)為研究對象,利用12個連隊2001~2011年間的實彈射擊成績,并抽取各連隊的10項屬性數(shù)據(jù):指揮員是否具備集訓經(jīng)歷,中士炮長數(shù)量,觀炮通信成績,測地準備成績,陣地準備成績,是否夜間射擊,當年有否安全事故,試射方法,是否首發(fā)命中,效力射命中目標概率。原始數(shù)據(jù)如表1所示。
表1 原始數(shù)據(jù)表
為了后面進行系統(tǒng)化分析與關聯(lián)規(guī)則挖掘,我們將原始數(shù)據(jù)表的各項屬性值按如下規(guī)則進行離散化處理,表2為處理后所得的數(shù)據(jù)表。
表2 挖掘用數(shù)據(jù)表
指揮員集訓經(jīng)歷(A):Q1:有Q2:無
中士炮長(B)
測地準備(D
運用Clementine挖掘軟件,設定最小支持度為15%,最小置信度為80%,對120條記錄進行關聯(lián)規(guī)則的挖掘,得到部分強關聯(lián)規(guī)則如表3所示。
表3 挖掘結果
表3中
1)規(guī)則1表明:測地準備成績在及格范圍且在夜間射擊的連隊有96.34%的概率首發(fā)不命中,且效力射命中目標概率小于30%。
調查:該部隊夜間射擊考核較少,連隊不夠重視;偵察兵夜間捕捉目標能力不足。
分析:加強夜訓,確保夜訓的時間和質量。
2)規(guī)則2表明:該年有安全事故的連隊有100%的概率陣地準備處于合格水平。
調查:因不遵守操作規(guī)程導致的訓練傷多發(fā)生在陣地,造成戰(zhàn)斗力減員,士氣低落。
分析:安全工作的重心放在陣地;軍醫(yī)跟隨陣地;政治主官做好安全教育和思想工作。
3)規(guī)則3表明:指揮員有過集訓經(jīng)歷,觀炮通信良好,測地和陣地準備優(yōu)秀的連隊有90.73%的概率首發(fā)命中。
調查:符合炮兵指揮員的一般認識。
分析:讓沒有參加過集訓的指揮員集訓。
4)規(guī)則4表明:有三個中士炮長且觀炮通信良好的連隊有93.21%的概率陣地準備良好。
調查:不符合炮兵指揮員的一般認識,可視為無用規(guī)則排除。
分析:中士炮長的能力素質一般比下士炮長要強,但陣地準備與觀炮通信關系不大。
綜合以上分析,可得知挖掘出的強關聯(lián)規(guī)則,有的能夠反映出部隊傳統(tǒng)評估分析方法無法得到的潛在重要信息,可用于指導部隊;也有的規(guī)則不能夠反映真實的,有價值的信息,這就需要決策者根據(jù)已有知識和經(jīng)驗進行判斷和篩選。該實例存在的最大問題是數(shù)據(jù)量不足,從而使挖掘出的關聯(lián)規(guī)則存在一定的局限性。
基于關聯(lián)規(guī)則的作戰(zhàn)數(shù)據(jù)挖掘以發(fā)現(xiàn)知識、獲取有用信息,是一種有益嘗試和重要應用。它對于部隊開展的軍事訓練、政治工作、后勤保障、安全保衛(wèi)等工作將會起到輔助性的決策支持作用,對決策者具有重要指導意義。此外,決策者應想用、敢用、會用作戰(zhàn)數(shù)據(jù)挖掘成果,通過以建促用、以用促建,推進作戰(zhàn)數(shù)據(jù)建用一體的良性循環(huán)。
[1]吳輝.數(shù)據(jù)挖掘技術的研究與應用[D].武漢:武漢理工大學,2009.
[2]陳乘風,何宇,趙偉.加強作戰(zhàn)數(shù)據(jù)建設的思考[J].軍隊信息化建設,2012,(2):16-17.
[3]劉輝,陳宇.數(shù)據(jù)挖掘,信息戰(zhàn)場“淘金術”[J].國防技術基礎,2012,(5):29-30.
[4]王東.加快推進我軍作戰(zhàn)數(shù)據(jù)建設[J].軍事學術,2012,(3):53-54.
[5]劉世平.數(shù)據(jù)挖掘技術及應用[M].北京:高等教育出版社,2010.
[6]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:科學出版社,2009.
[7]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學技術大學出版社,2008.
[8]蔣暉,陳允鋒.數(shù)據(jù)挖掘及其一種關聯(lián)規(guī)則算法[J].計算機與數(shù)字工程,2011(6).
[9]王宇杰,喬聰.數(shù)據(jù)挖掘中基于負邊界思想的關聯(lián)規(guī)則增量式更新算法[J].計算機與數(shù)字工程,2010(6).
[10]袁玉波.數(shù)據(jù)挖掘與最優(yōu)化技術及其應用[M].北京:科學出版社,2007.