陳文青
(中國人民解放軍91776部隊,北京 100161)
隨著軍事數(shù)據(jù)量爆炸式地增長,軍隊及軍工研究所需要在復雜多變的軍事環(huán)境中做出更好的戰(zhàn)略決策。為了應對復雜多變的軍事環(huán)境,軍隊及軍工研究所需要在戰(zhàn)略決策過程中收集大量的軍事數(shù)據(jù),將規(guī)范的軍事數(shù)據(jù)持久化保存,并且對軍事數(shù)據(jù)進行分析,挖掘出軍事數(shù)據(jù)中蘊含的軍事價值,進而制定出準確、長遠、全局的戰(zhàn)略決策[1]。
傳統(tǒng)的戰(zhàn)略決策模型如波士頓矩陣[2],應用于軍事環(huán)境中主要基于軍隊武器裝備的多樣性和軍工產品的先進性來分析軍事戰(zhàn)斗力,評估軍隊及軍工研究所的各類武器裝備和軍工產品的重要性,進而合理安排軍隊及軍工研究所的研發(fā)比例,對更有發(fā)展前景的武器裝備和軍工產品加大投資力度。然而,波士頓矩陣也存在著缺點。首先,波士頓矩陣假設各個軍事行動相對獨立,但是大量的軍事數(shù)據(jù)表明軍事行動之間往往具有強相關性,可能無法找到全局最優(yōu)策略;其次,對于復雜、多態(tài)和變化的軍事數(shù)據(jù),波士頓矩陣具有粗粒度的評價等級,不能精確地評估軍事戰(zhàn)斗力,使得軍隊及軍工研究所難以制定準確的戰(zhàn)略決策。
另一種經(jīng)典的戰(zhàn)略決策模型如麥肯錫矩陣[3],應用于軍事環(huán)境中加入了更多的評價指標。相比基于軍隊武器裝備的多樣性和軍工產品的先進性的波士頓矩陣,麥肯錫矩陣的結構更加復雜,能更準確地分析軍事戰(zhàn)斗力,可以基于軍事行動的相關性和武器裝備、軍工產品的綜合實力來制定戰(zhàn)略決策,包含了更多的軍事因素,能夠從全局角度制定更加準確的戰(zhàn)略決策。不過,麥肯錫矩陣也存在著局限性。首先,對于信息時代中海量多態(tài)的軍事數(shù)據(jù),麥肯錫矩陣的綜合指標的系數(shù)難以精確地分配,導致軍事行動的評價結果出現(xiàn)偏差;其次,對于一個大型復雜的軍事行動,將產生海量的軍事數(shù)據(jù)。由于麥肯錫矩陣的流程繁雜,使得軍隊及軍工研究所的人員不易操作,難以在有限的時間內提煉出有價值的軍事信息。
從傳統(tǒng)的戰(zhàn)略決策模型,如SWOT(Strengths,Weaknesses,Opportunities,and Threats)模型[4]、SCP(Structure-Conduct-Performance)分析模型[5]、AARRR(Acquisition,Activation,Retention,Revenue,Referral)模型[6]等,可以發(fā)現(xiàn),這些方法大多需要收集規(guī)范正確的軍事數(shù)據(jù)、制定合理的評價指標和基于專家經(jīng)驗制定特定的軍事分析規(guī)則。但是,傳統(tǒng)的戰(zhàn)略決策模型難以持久化存儲、清洗和處理海量多態(tài)的軍事數(shù)據(jù)。其次,對于復雜多變的軍事環(huán)境,軍隊及軍工研究所各個軍事行動的決策也會不斷調整,進而導致這些方法的評價指標不適用于各個軍事行動場景,需要重新制定特定的評價指標;最后,基于專家經(jīng)驗的方法需要極其嚴格地分析規(guī)則,但是對于大規(guī)模的軍事數(shù)據(jù)而言,人為制定的規(guī)則并不能挖掘出數(shù)據(jù)中隱含的信息,并且軍事人員需要消耗大量的時間進行分析。
由于大數(shù)據(jù)技術的蓬勃發(fā)展,許多行業(yè)中的機構,如醫(yī)療保健、社交媒體、智慧城市、智能交通、能源管理、金融管理和智能農業(yè)等[7],開始利用大數(shù)據(jù)技術來分析行業(yè)前景,挖掘出海量數(shù)據(jù)中隱含的有價值的信息,進而制定準確、長遠、全局的戰(zhàn)略決策。首先,相比傳統(tǒng)的戰(zhàn)略決策模型,大數(shù)據(jù)技術包含先進的工具(如NoSQL,BigQuery,MapReduce等),能夠存儲和處理海量多態(tài)的軍事數(shù)據(jù)[8]。并且大數(shù)據(jù)分析與挖掘能夠幫助軍工研究所和軍隊以可解釋的、合理的形式從數(shù)據(jù)中提取知識。其次,傳統(tǒng)的戰(zhàn)略決策模型的擴展性和適用性差,而各類數(shù)據(jù)挖掘技術和機器學習算法可適應不同的軍事行動場景,能夠分析海量多態(tài)的數(shù)據(jù),進而建立高可用、易擴展的戰(zhàn)略決策模型。最后,大數(shù)據(jù)分析與挖掘方法是由數(shù)據(jù)驅動的技術框架,能夠從軍事數(shù)據(jù)中獲得全面的軍事信息,進而在軍事行動的智能分析中提供全局性、前瞻性的戰(zhàn)略決策。
綜上所述,本文首次提出了新型基于大數(shù)據(jù)分析與挖掘的戰(zhàn)略決策框架——BDAM-SDF(Big Data Analysis and Mining-Strategic Decision Framework)。相比傳統(tǒng)的戰(zhàn)略決策模型,BDAM-SDF具有高可用、易擴展的特點,包含各種大數(shù)據(jù)技術與平臺,可靈活適應各種軍事行動場景,并且是一種大數(shù)據(jù)技術驅動型架構,能夠覆蓋制定戰(zhàn)略決策過程的全部生命周期,能夠全方位地獲取、存儲、分析軍事數(shù)據(jù),挖掘出有價值的軍事信息,進而精確、全面、長遠地制定戰(zhàn)略決策。
基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策框架是一種數(shù)據(jù)密集型架構,提供了用于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲和預處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定的各種技術和平臺。
BDAM-SDF整體架構如圖1所示。將對BDAM-SDF的各個階段進行概述,其中數(shù)據(jù)生成、數(shù)據(jù)采集和數(shù)據(jù)存儲與預處理為基礎設施架構層;數(shù)據(jù)分析為規(guī)范數(shù)據(jù)集中分析層;數(shù)據(jù)可視化和戰(zhàn)略決策制定為綜合管理應用層。
圖1 BDAM-SDF整體架構Fig.1 Overall architecture of BDAM-SDF
1.1.1 數(shù)據(jù)生成
大數(shù)據(jù)生成是指從各種來源生成數(shù)據(jù)。數(shù)據(jù)源包括機器、人和軍事行動等。不同數(shù)據(jù)源的相關性如圖2所示。
圖2 多源數(shù)據(jù)的相關性Fig.2 Correlation of multi-source data
其中,與機器相關的數(shù)據(jù)來自Web服務、傳感器、音頻設備和視頻設備等。與人相關的數(shù)據(jù)包括工作方向、日常任務和職業(yè)等。與軍事行動相關的數(shù)據(jù)包括軍隊訓練數(shù)據(jù)和聯(lián)合作戰(zhàn)數(shù)據(jù)等[9]。當討論基于大數(shù)據(jù)分析的軍事行動時,軍事行動相關的數(shù)據(jù)非常重要。
1.1.2 數(shù)據(jù)采集
數(shù)據(jù)采集是指從數(shù)據(jù)倉庫或各種數(shù)據(jù)庫中收集、過濾和清理數(shù)據(jù)的過程[10],如圖3所示。數(shù)據(jù)采集分為數(shù)據(jù)探索和數(shù)據(jù)收集2個階段。數(shù)據(jù)探索主要有2個目的:① 確定數(shù)據(jù)的性質和特征;② 擯棄可能嚴重影響數(shù)據(jù)質量的噪聲數(shù)據(jù)。而數(shù)據(jù)收集是指從現(xiàn)實世界中獲取未經(jīng)處理的數(shù)據(jù),例如從不同傳感器中收集海量復雜、未處理的數(shù)據(jù)。
圖3 數(shù)據(jù)采集過程Fig.3 Data collection process
1.1.3 數(shù)據(jù)存儲與預處理
數(shù)據(jù)存儲是指經(jīng)過數(shù)據(jù)采集后,將多種類型的數(shù)據(jù)以不同的形式存儲。大數(shù)據(jù)存儲的工具有HBase,NoSQL,Gluster,HDFS和GFS[11]。數(shù)據(jù)預處理通常使用2種模型進行處理,分別是流處理模型和批處理模型。預處理涉及到一系列步驟:如何集成數(shù)據(jù)、如何轉換數(shù)據(jù)、如何選擇正確的模型進行處理以及如何提供結果。流處理模型盡可能快地處理數(shù)據(jù),并且以非??斓乃俣冗B續(xù)輸出處理后的數(shù)據(jù)。主要的流處理模型包括Storm,S4和Kafka等[12]。批處理模型首先存儲數(shù)據(jù),然后進行集中處理,主要的批處理模型包括MapReduce[13]等。
1.1.4 數(shù)據(jù)分析
數(shù)據(jù)分析是指運用各種機器學習算法、數(shù)據(jù)挖掘技術和統(tǒng)計分析方法,對異構數(shù)據(jù)進行分析,挖掘出有價值的隱含信息[14]。大數(shù)據(jù)分析的目標是通過分析數(shù)據(jù)獲得前瞻性知識并更好地指導后續(xù)的戰(zhàn)略決策制定過程。進行數(shù)據(jù)分析時,通常使用機器學習技術。機器學習技術從學習方式分為監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習;從功能角度分為回歸算法(如線性回歸、邏輯回歸[15]等)、決策樹算法(如ID3算法[16]、C4.5算法等)、貝葉斯算法(如貝葉斯網(wǎng)絡和高斯貝葉斯算法等)、聚類算法(如K-均值[17]和期望最大化算法等)、基于核的算法(如支持向量機[18]和徑向基函數(shù)等)以及人工神經(jīng)網(wǎng)絡(如多層感知機[19]和反向傳播神經(jīng)網(wǎng)絡),如圖4所示。
圖4 機器學習技術分類Fig.4 Classification of machine learning techniques
其中,回歸算法是基于樣本數(shù)據(jù),并利用數(shù)理統(tǒng)計方法來建立因變量與自變量之間的回歸關系函數(shù)表達式,即回歸方程式。回歸算法也是一種預測性的建模技術,主要研究因變量和自變量之間的關系。通常這種技術應用于預測分析、時間序列模型以及探索變量之間的相關性。決策樹算法是通過一系列規(guī)則對數(shù)據(jù)進行分類的過程。決策樹的生成過程主要分為特征選擇、決策樹生成和剪枝。其中特征選擇是指從訓練數(shù)據(jù)的眾多的特征中選擇一個特征作為當前節(jié)點的分裂標準,并且如何選擇特征有很多不同的量化評估標準,從而衍生出不同的決策樹算法。決策樹生成是根據(jù)選擇的特征評估標準,從上至下遞歸地生成子節(jié)點,直到數(shù)據(jù)集不可再分為止。剪枝是克服決策樹容易過擬合的特點。貝葉斯分類算法是統(tǒng)計學的一種分類方法,是一類利用概率統(tǒng)計知識進行分類的算法。樸素貝葉斯分類是貝葉斯分類中最簡單的一種,主要是利用貝葉斯公式,并根據(jù)某特征的先驗概率計算出后驗概率,然后選擇具有最大后驗概率的類作為該特征所屬的類。并且樸素貝葉斯分類算法可以與決策樹和神經(jīng)網(wǎng)絡分類算法相媲美,能運用到大型數(shù)據(jù)庫中,而且方法簡單、分類準確率高、速度快。聚類算法中最普及的是K-均值算法,這是一種迭代算法,首先選擇k個隨機的點,稱為聚類中心,其次對數(shù)據(jù)集中的每一個數(shù)據(jù),按照距離k個中心點的距離,將其與距離最近的中心點關聯(lián)起來,與同一個中心點關聯(lián)的所有點聚成一類,然后計算每一個組的平均值,將該組所關聯(lián)的中心點移動到平均值的位置,最后重復步驟,直至中心點不再變化。人工神經(jīng)網(wǎng)絡如多層感知機,主要是由輸入層、隱藏層和輸出層組成,其中層與層之間均為全連接,且每個隱藏層的輸出通過激活函數(shù)進行變換。
1.1.5 數(shù)據(jù)可視化
數(shù)據(jù)可視化方法包括以表格、圖像和程序來顯示數(shù)據(jù)。目前有各種經(jīng)典的可視化分析工具,如Dive,Rattle,F(xiàn)lockDB,F(xiàn)lare,Amcharts和Protovis。最近,洛馬、波音、三菱重工、諾格和通用動力等公司都在尋找可視化工具以及基于軍事分析的智能可視化解決方案[20]。數(shù)據(jù)可視化也是解釋大數(shù)據(jù)的主要機制之一。從統(tǒng)計科學的角度來看,大數(shù)據(jù)的使用對數(shù)據(jù)可視化的發(fā)展具有重要意義[21]。
1.1.6 戰(zhàn)略決策制定
戰(zhàn)略決策制定是指將數(shù)據(jù)中挖掘出的軍事價值進行實現(xiàn)的過程。并且戰(zhàn)略決策制定將基于數(shù)據(jù)分析中挖掘出的有價值的隱含信息。戰(zhàn)略決策制定包括戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善3個步驟。
決策建模是指基于關鍵信息來設計和改進軍事行動部署方案,并分析軍事行動的作戰(zhàn)效率、保障水平和制勝要素。在決策建模過程中,需要提供全局性、完整性、長遠性的決策模型,包括武器裝備平臺、戰(zhàn)斗保障體系、火力系統(tǒng)和戰(zhàn)場通信系統(tǒng)的協(xié)同性、作戰(zhàn)要素互通性以及聯(lián)合指揮高效性等。
決策分析分為2個階段:第1階段,將決策模型置于各個軍事行動場景中,模擬分析決策模型在軍隊訓練中的可適用性和容錯性;第2階段,將決策模型置于軍事演習行動中,全方面測試決策模型的可擴展性和健壯性。
決策完善分為2個階段:第1階段,將決策分析中出現(xiàn)的問題整理為軍事行動調整報告,并且進行針對性地改進;第2階段,將修改后的決策模型實際置于軍事行動中,高效分析軍事情報,消除指揮人員的認知局限,精準找到制勝的關鍵要素,實現(xiàn)戰(zhàn)略決策智能化。
BDAM-SDF包括3個工作階段:數(shù)據(jù)價值發(fā)現(xiàn)、數(shù)據(jù)價值創(chuàng)造和數(shù)據(jù)價值實現(xiàn),工作流程如圖5所示。
圖5 BDAM-SDF的工作流程Fig.5 Workflow of BDAM-SDF
1.2.1 數(shù)據(jù)價值發(fā)現(xiàn)
在BDAM-SDF中,數(shù)據(jù)價值發(fā)現(xiàn)的目的是獲得能夠直接進行數(shù)據(jù)分析的規(guī)范數(shù)據(jù)。因此,數(shù)據(jù)價值發(fā)現(xiàn)基于數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲和預處理階段。為了更好地理解數(shù)據(jù)價值發(fā)現(xiàn)的流程,給出了一個例子。例如,將BDAM-SDF應用于軍工產品研發(fā)流程中,首先需要進行數(shù)據(jù)生成,列出軍工產品研發(fā)流程中產生的各類數(shù)據(jù),如軍工產品的性能數(shù)據(jù)、軍工產品的交易數(shù)據(jù)、市場反饋數(shù)據(jù)和財務數(shù)據(jù)等;其次,對各類數(shù)據(jù)進行探索,擯棄數(shù)據(jù)質量較低的數(shù)據(jù),盡可能地選擇先進的軍工產品研發(fā)流程中產生的數(shù)據(jù)。為了保證高質量的數(shù)據(jù),需建立數(shù)據(jù)清洗方法,包括檢查數(shù)據(jù)的完整性、數(shù)據(jù)的唯一性、數(shù)據(jù)的權威性和數(shù)據(jù)的合法性這4項規(guī)則。按照規(guī)則來檢查原始軍事數(shù)據(jù),發(fā)現(xiàn)質量較低的數(shù)據(jù),再對低質量數(shù)據(jù)采用對應方式進行處理。例如,對于數(shù)據(jù)不完整的情況,通常表現(xiàn)為數(shù)據(jù)值缺失,可以使用均值填補法。對于數(shù)據(jù)不唯一的情況,通常表現(xiàn)為數(shù)據(jù)中存在重復記錄或重復字段,需要進行去重處理,可以將數(shù)據(jù)按一定規(guī)則進行排序,再通過比較鄰近記錄是否相似來檢測數(shù)據(jù)是否重復。對于檢查數(shù)據(jù)的權威性和數(shù)據(jù)的合法性,可以使用基于密度的方法來檢測錯誤值、異常值,進而刪除錯誤數(shù)據(jù)和異常數(shù)據(jù)。另外,還需要統(tǒng)一數(shù)據(jù)類型和數(shù)據(jù)格式,對數(shù)據(jù)進行標準化處理以滿足數(shù)據(jù)的合法性和權威性。然后,將篩選出的數(shù)據(jù)進行存儲,可使用HDFS進行存儲,并且結合MapReduce對數(shù)據(jù)進行處理,可獲得待分析的規(guī)范數(shù)據(jù)。
1.2.2 數(shù)據(jù)價值創(chuàng)造
數(shù)據(jù)價值創(chuàng)造主要是將待分析的規(guī)范數(shù)據(jù)結合機器學習算法或數(shù)據(jù)挖掘技術從海量的規(guī)范數(shù)據(jù)中分析出有價值的關鍵信息,挖掘出數(shù)據(jù)中隱含的軍事價值。并且在數(shù)據(jù)價值創(chuàng)造中,選擇合適的數(shù)據(jù)分析技術至關重要。在軍工產品研發(fā)場景中,評估各種機器學習算法,選取一個最優(yōu)的方法能夠為后續(xù)階段提供更準確的軍事信息,使得后續(xù)階段能夠制定出更精確的戰(zhàn)略決策。在數(shù)據(jù)分析過程中對各類機器學習算法進行評估,首先需要定義機器學習算法的性能指標,通常不同的算法模型對應不同的性能指標,如對回歸模型進行評估時,使用平均絕對誤差和平均方差等;對分類模型進行評估時,使用預測準確率、召回率和F1值等。然后將數(shù)據(jù)集劃分為訓練集和測試集,并選取多個機器學習算法在訓練集上進行訓練,為了保證更準確、穩(wěn)定地評估算法模型,使用交叉驗證法,具體為將數(shù)據(jù)集劃分為k個大小相似的互斥子集,每個子集輪流作為測試集,其余的子集則作為訓練集,返回k個訓練結果的均值。最后基于各個機器學習算法的性能指標,綜合考慮選取各個性能指標均排名前列的機器學習算法作為最優(yōu)方法。后續(xù)依然需要使用更多的真實數(shù)據(jù)集反復對最終選取的機器學習算法進行調參、驗證,最終保證算法具有較高的穩(wěn)定性和泛化能力。
1.2.3 數(shù)據(jù)價值實現(xiàn)
數(shù)據(jù)價值實現(xiàn)的目的是為軍隊及軍工研究所制定全局性、準確性和長遠性的戰(zhàn)略決策,從而分別為軍隊的軍事行動提供制勝要素,為軍工研究所的軍工產品提供可持續(xù)發(fā)展的動力。數(shù)據(jù)價值實現(xiàn)需要結合戰(zhàn)略決策建模、戰(zhàn)略決策分析和戰(zhàn)略決策完善,并且每一個階段都需要基于數(shù)據(jù)分析得到有價值的軍事信息。在最終制定戰(zhàn)略決策之前,還需要結合專家的意見以及軍事場景的反饋信息。
大型的軍工研發(fā)機構如洛馬、波音、三菱重工、諾格和通用動力等都有推薦系統(tǒng)。推薦系統(tǒng)能夠向客戶方精準地提供武器裝備,使得客戶方產生購買意向,最終提高軍工產品的交易量。這表明,推薦系統(tǒng)對于整個軍工研發(fā)機構的戰(zhàn)略決策至關重要。
將BDAM-SDF應用于軍工研發(fā)機構中,首先是構建BDAM-SDF,如圖6所示。
圖6 BDAM-SDF應用于軍工研發(fā)Fig.6 Application of BDAM-SDF in military research and development
其中,數(shù)據(jù)生成階段是指客戶方產生交易數(shù)據(jù)、軍工產品數(shù)據(jù)和反饋數(shù)據(jù)的過程。這些數(shù)據(jù)將由數(shù)據(jù)服務器保存,然后軍工研發(fā)機構從數(shù)據(jù)服務器中采集數(shù)據(jù),并且擯棄疑似惡意交易和虛假購買的數(shù)據(jù),進而篩選出正常的客戶方數(shù)據(jù),由分布式文件系統(tǒng)進行存儲,如HDFS。其次,將經(jīng)過預處理后的數(shù)據(jù)統(tǒng)一由計算框架處理,如MapReduce,進而生成待分析的規(guī)范數(shù)據(jù)。在數(shù)據(jù)預處理過程中,進行數(shù)據(jù)清洗,盡可能地去掉噪聲數(shù)據(jù)。最關鍵的是數(shù)據(jù)分析階段,選取一個合適的機器學習算法能夠使得推薦更加準確。考慮近3年的機器學習算法,本文選擇2種機器學習算法:K-RecSys-CF[22]和SVM-CF[23],這2種算法均在推薦系統(tǒng)中取得了不錯的成果。其中,K-RecSys-CF由Hwangbo等人在2018年提出。該算法改進了協(xié)同過濾算法,合并了軍工產品的點擊信息和交易信息,利用項目類型的數(shù)據(jù),提出了替換項目的建議。
SVM-CF由Chang等人在2019年提出,這是一種融合協(xié)同過濾和支持向量機的新算法。與傳統(tǒng)的協(xié)同過濾方法不同,支持向量機將軍工產品分為正反饋和負反饋,選擇表現(xiàn)出積極反饋的軍工產品,計算出精確的分數(shù)和評價。在軍工產品數(shù)據(jù)上的實驗表明,該算法具有良好的推薦精度和有效性。
考慮到支持向量機分類效率較低,本文提出的BDAM-SDF框架采用ACO(Ant Colony Optimization)算法[24]來優(yōu)化支持向量機的參數(shù),得到最優(yōu)參數(shù)。將改進的SVM-CF命名為SVM-ACO-CF,它的推薦準確率更高,推薦效率也更高。然后,將K-RecSys-CF,SVM-CF和SVM-ACO-CF進行對比,通過實驗證明本文所提框架應用SVM-ACO-CF算法優(yōu)于其他2種主流算法。
在實驗準備過程中,將直接使用經(jīng)過數(shù)據(jù)預處理階段后的規(guī)范數(shù)據(jù)集。數(shù)據(jù)集包括7個軍工產品集合(如戰(zhàn)斗機、坦克、裝甲車、槍械、運輸機、導彈和雷達)和近34 000條評論。其中每個集合有4 000個數(shù)據(jù)項,其中2 500個數(shù)據(jù)項作為訓練集,其余的用于測試。所有算法在Matlab中實現(xiàn)。
預測精度P表示客戶方可能喜歡推薦列表中的項目的概率,可用于表示推薦系統(tǒng)的準確度。推薦系統(tǒng)的預測精度為:
式中,m為數(shù)據(jù)集中一共被劃分的個數(shù);u為下標;RLu表示數(shù)據(jù)集中模型預測為正反饋的所有項目;TLu表示數(shù)據(jù)集中實際為正反饋的所有項目。召回率R表示推薦列表中客戶方喜歡的項目的比率,可以反映用戶對推薦結果的滿意度??蛻舴綕M意度越高,召回率越高。計算推薦系統(tǒng)的召回率為:
式中,F(xiàn)表示整體上評估算法的推薦性能。算法的推薦能力越強,F(xiàn)-measure值越高。推薦系統(tǒng)的F-measure為:
對應不同的推薦項目值N下,K-RecSys-CF,SVM-CF和SVM-ACO-CF的預測精度P、召回率R和F-measure的結果如表1、表2和表3所示。
表1 不同N值下各個方法的預測精度PTab.1 Prediction accuracy P of each method with different N values 單位:%
表2 不同N值下各個方法的召回率RTab.2 Recall rate R of each method with different N values 單位:%
表3 不同N值下各個方法的F-measureTab.3 F-measure of each method with different N values 單位:%
3種分類器K-RecSys-CF,SVM-CF和SVM-ACO-CF的預測精度P如圖7所示。從圖7可以看出,SVM-ACO-CF分類器的預測精度最高,K-RecSys-CF的預測精度最低。主要是因為SVM-ACO-CF利用ACO算法能夠找到全局最優(yōu)參數(shù),相比SVM-CF和K-RecSys-CF,SVM-ACO-CF的參數(shù)設定更加準確,進而使得分類準確率提高。并且隨著推薦項數(shù)N值的增加,3種不同分類器的預測精度也會降低。
圖7 不同N值的各個方法的預測精度PFig.7 Prediction accuracy P of each method with different N values
不同的推薦項目數(shù)N的3種分類器的召回率R如圖8所示。從圖8可以看出,在不同的推薦項目數(shù)中,SVM-ACO-CF的召回率均高于K-RecSys-CF和SVM-CF。并且在推薦項目數(shù)N=30時,SVM-ACO-CF的召回率為39%,K-RecSys-CF和SVM-CF的召回率為35%和37%,略低于SVM-ACO-CF。主要是因為SVM-ACO-CF利用ACO算法的全局尋優(yōu)能力,相比SVM-CF和K-RecSys-CF,能夠為SVM-ACO-CF找到最佳參數(shù),進而使得召回率提高。隨著增加推薦項目數(shù),3種不同分類器的召回率也會增加。
圖8 不同N值的各個方法的召回率RFig.8 Recall rate R of each method with different N values
不同推薦項目數(shù)N對應的3種分類器的F-measure如圖9所示。從圖9可以看出,在推薦項目數(shù)為30時,SVM-ACO-CF的F-measure較好,為32%,而K-RecSys-CF,SVM-CF的F-measure較低,分別為25%和30%。隨著推薦項目數(shù)N的增加,3種分類器的F-measure也有所增加。
圖9 不同N值的各個方法的F-measure值Fig.9 F-measure of each method with different N values
經(jīng)過數(shù)據(jù)分析后,從規(guī)范數(shù)據(jù)中挖掘出了隱含的軍工產品信息,能夠準確地推薦軍工產品,促進交易量。并且本文所提BDAM-SDF在數(shù)據(jù)分析階段選取了較好的機器學習算法,根據(jù)實驗結果能夠證明選取的機器學習算法可以達到良好的推薦準確性和推薦效率。在實驗過程中,將實驗數(shù)據(jù)進行可視化,以圖像的方式更形象地發(fā)掘蘊含的有價值的軍事信息。
本文針對如何將大數(shù)據(jù)分析與挖掘應用到戰(zhàn)略決策中,更好地解決全局性、可持續(xù)發(fā)展性的重大決策問題,提出了一種基于大數(shù)據(jù)分析與挖掘的一體化戰(zhàn)略決策理論框架——BDAM-SDF。概述了BDAM-SDF的整體架構,分別從數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲與預處理、數(shù)據(jù)分析、數(shù)據(jù)可視化和戰(zhàn)略決策制定進行說明。其次,介紹了BDAM-SDF的工作機制,詳細描述了BDAM-SDF的數(shù)據(jù)價值發(fā)現(xiàn)、數(shù)據(jù)價值創(chuàng)造和數(shù)據(jù)價值實現(xiàn)這3個工作階段。然后,將BDAM-SDF應用于真實的軍工研發(fā)機構案例中,詳細描述了各個階段的流程,著重介紹了數(shù)據(jù)分析階段,選取了應用于推薦系統(tǒng)中的K-RecSy-CF和SVM-CF機器學習算法進行實驗,并且改進了SVM-CF算法,在BDAM-SDF框架中采用改進的SVM-ACO-CF算法,取得了最優(yōu)效果,使得后續(xù)階段能夠制定更加精確的戰(zhàn)略決策,進而應用于軍工機構的推薦系統(tǒng)。最終,從真實案例中證明大數(shù)據(jù)技術支撐戰(zhàn)略決策具有廣闊的前景和重要的戰(zhàn)略意義。
在最終的戰(zhàn)略決策制定中,基于數(shù)據(jù)分析階段的有價值的軍事信息,如隨著推薦項目數(shù)N的增加,3種分類器的預測準確率值降低。因此,在戰(zhàn)略決策建模中,可以設計和應用更好的機器學習算法,并且將進行更全面的分析,如考慮客戶的社交關系和網(wǎng)絡等。另一方面,嘗試優(yōu)化本文采用的SVM-ACO-CF算法,以提供較高的準確率。此外,還需要考慮盡可能保護客戶方的隱私和偏好,如推薦客戶偏好類型的軍工產品的程度可以隨時間減弱。
在戰(zhàn)略決策模型分析中,將戰(zhàn)略決策模型在推薦系統(tǒng)中進行應用,并且面向內部人員進行測試。然后,針對內部人員的反饋意見,修改戰(zhàn)略決策模型。最終,在戰(zhàn)略決策模型完善階段,結合軍工機構管理方的意見,進而制定戰(zhàn)略決策,并且實際應用于推薦系統(tǒng)中。