国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<noscript id="euqqw"><table id="euqqw"></table></noscript>

<th id="euqqw"><menu id="euqqw"></menu></th>

<th id="euqqw"></th>

<th id="euqqw"></th>

<cite id="euqqw"></cite>

?

基于大數(shù)據(jù)的情報分析和挖掘技術分析

2022-06-18 08:00韓培培

電子元器件與信息技術 2022年4期

關鍵詞：數(shù)據(jù)挖掘算法模型

韓培培

中國電子科技集團公司第五十四研究所，河北石家莊，050000

0 引言

對具有價值的數(shù)據(jù)信息的分析與識別，都是通過對大量、動態(tài)且能夠持續(xù)的數(shù)據(jù)運用新的系統(tǒng)、工具和模型進行充分的挖掘和分析得到的。隨著大數(shù)據(jù)的快速發(fā)展，各行業(yè)各已經(jīng)開始逐漸使用新技術來進行實時數(shù)據(jù)分析[1]。但如何在海量結構化和非機構化的數(shù)據(jù)中，對信息進行時空動態(tài)分析與利用，仍然是無法避免的問題?；诖?，本文結合數(shù)據(jù)信息的時空特征，利用ABI情報分析方法，對目標的活動規(guī)律展開探討。

1 大數(shù)據(jù)的情報分析領域機理分析

1.1 大數(shù)據(jù)概述

大數(shù)據(jù)作為一種從網(wǎng)絡多層次視角，對海量數(shù)據(jù)信息的收集與整合技術，自身具備了實時性特征。如果從技術角度來看，大數(shù)據(jù)技術和云計算技術兩者之間具有一定的聯(lián)系，且云存儲和數(shù)據(jù)庫、處理技術等都是實施數(shù)據(jù)信息收集的重要支撐。而數(shù)據(jù)挖掘作為在知識發(fā)現(xiàn)中的關鍵部分，是通過大量數(shù)據(jù)和算法的搜索，找尋其中存在的規(guī)則、規(guī)律等的一個過程。一般可以用于異常檢測、關聯(lián)規(guī)則學習、聚類分析以及回歸分析和分類、數(shù)據(jù)可視化等。經(jīng)過長時間的發(fā)展，在融合人工智能、機器學習、數(shù)據(jù)庫以及模式識別、神經(jīng)網(wǎng)絡和高性能計算、數(shù)據(jù)可視化等多種理論與技術后的數(shù)據(jù)挖掘，已經(jīng)變成了一門交叉學科[2]。

1.2 情報內涵的轉變

情報也被稱為信息或資訊，簡單來說就是代表被傳遞的信息或者知識，通過一定載體，在某個特定的時間、狀態(tài)下傳遞給某個特定的人物。現(xiàn)階段在信息技術不斷且快速的發(fā)展下，信息載體的數(shù)據(jù)呈現(xiàn)出幾何級數(shù)的規(guī)律提升，使得其存在模式也發(fā)生了根本性的變化。導致原有的情報分析、情報收集以及處理模式已經(jīng)無法適應于當前的大數(shù)據(jù)環(huán)境，必須要對其進行改造升級。

情報分析的方法是利用統(tǒng)計學當中的隨機抽樣理論，來強調事物之間存在的因果關系，并在部分信息的推斷下對全局事物的發(fā)展進行判斷，以此追求其準確性。因此，在情報工作當中，情報分析占據(jù)了重要地位。而隨著大數(shù)據(jù)的發(fā)展，大數(shù)據(jù)分析通過利用盡可能多的數(shù)據(jù)支持，實現(xiàn)對事物之間的關系判斷，只求相關性，并不強調準確性。所以，大數(shù)據(jù)分析從其本質上來看，就是針對大量結構化、半結構化以及非結構化的數(shù)據(jù)進行處理，以此實現(xiàn)得到應用的目的。而大數(shù)據(jù)分析和情報分析這兩者即使導向不同，仍然擁有密切的聯(lián)系[3]。

2 基于大數(shù)據(jù)的情報分析和挖掘技術分析

2.1 ABI情報分析方法

該方法是情報分析方法中的一種，通過從地理敘事的方向為切入點，在空間以及時間上實現(xiàn)活動連接。使得無序或雜亂的情報活動，變得有規(guī)律、有序可循，以此為目標活動分析提供新的方向，并且ABI情報分析方法也是多源情報的聚集和關聯(lián)。在時空數(shù)據(jù)的基礎上，通過對目標活動的發(fā)展規(guī)律進行分析，從而預測目標活動。與傳統(tǒng)的目標分析方法相比較來說，該目標方法通過構建目標的行為譜，為目標的所有特征和規(guī)律研究提供了數(shù)據(jù)上的支持。

而情報分析從本質方面來說，就是利用一系列處理規(guī)則，獲取對方的計劃或者意圖。不過，在實際數(shù)據(jù)集生成當中比較稀疏，只能夠代表小部分的數(shù)據(jù)。而ABI方法易于對未知事物的發(fā)現(xiàn)，并且可以通過活動或實際的層段來對相關的實體進行搜索，也能夠識別可能不為網(wǎng)絡所知的成員，ABI方法的分析框架如圖1所示。

圖1 ABI方法分析框架

時間和空間為ABI情報分析方法提供了時間相關性和空間相關性兩個數(shù)據(jù)過濾器，從上述框架中就能夠看出時空關系貫穿了整個數(shù)據(jù)情報的分析過程，從數(shù)據(jù)收集一直到知識管理等各個環(huán)節(jié)均和時空關系不斷迭代。

2.2 情報分析對目標的識別

在情報分析領域當中可以將實體目標識別劃分為多個步驟，具體情報分析流程如圖2所示。

圖2 情報分析流程

（1）數(shù)據(jù)采集。該方面主要來源于相關情報報文，如時間或者情報的內容等。

（2）數(shù)據(jù)管理。該部分是情報挖掘分析的基礎，通過對目標的活動規(guī)律、活動軌跡、目標特征以及平臺信息等方面的數(shù)據(jù)為基礎進行挖掘，并對其結果進行保存。數(shù)據(jù)管理也是對各種不同類型數(shù)據(jù)的提取、查詢以及存儲和整理調用。

（3）數(shù)據(jù)預處理。預處理是對模型進行訓練之前的重要部分，該部分主要包含了數(shù)據(jù)的清洗、數(shù)據(jù)分詞處理以及數(shù)據(jù)核驗等。數(shù)據(jù)清洗進一步解決了數(shù)據(jù)中存在的質量問題，而數(shù)據(jù)分詞處理的質量直接對模型質量有著相應的影響[5]。

（4）任務數(shù)據(jù)挖掘。基于大數(shù)據(jù)的數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘兩者進行相比較發(fā)現(xiàn)，從其概念內涵以及實現(xiàn)目標等方面上來看，兩者之間沒有存在本質上的差別。二者均是為了獲取數(shù)據(jù)當中所蘊藏的規(guī)律性知識，以此實現(xiàn)提前對事物的變化發(fā)展趨勢進行預知。不過，二者之間不相同的地方則是在對數(shù)據(jù)挖掘的環(huán)境方面出現(xiàn)了變化，其數(shù)據(jù)量和數(shù)據(jù)類型方面有了一定程度的提升。但通過對任務的分解，二者均可以滿足用戶在負載下的要求。由此可見，傳統(tǒng)數(shù)據(jù)挖掘方法同樣能夠適用于大數(shù)據(jù)。

例如，以對目標運動發(fā)展趨勢為例，給出大數(shù)據(jù)下情報信息分析挖掘的一種合理模型。具體的建模步驟如下：首先，需要對任務數(shù)據(jù)進行合理的分析，并對完整任務數(shù)據(jù)進行預處理；其次，在考慮到分解之后的單體數(shù)據(jù)集的體量依然具備一定規(guī)模，這時可以利用RBF神經(jīng)網(wǎng)絡模型或者ABI分析方法，將單體數(shù)據(jù)集中在每一個數(shù)據(jù)點上（這里選用了RBF神經(jīng)網(wǎng)絡模型），因此可以將單體數(shù)據(jù)集中在神經(jīng)網(wǎng)絡模型中，并且和神經(jīng)元組成龐大的訓練集體，最后形成映射；接著利用SVM（支持向量機）輔助方法，對神經(jīng)網(wǎng)絡模型的優(yōu)化實現(xiàn)求解，同時還需要針對神經(jīng)網(wǎng)絡中的隱形層進行改善，使得其能夠在大數(shù)據(jù)的幫助下促使數(shù)據(jù)處理的穩(wěn)定性得到提高[6]。

（5）數(shù)據(jù)挖掘算法實現(xiàn)。①特征分類。想要進一步實現(xiàn)數(shù)據(jù)挖掘算法，可以結合特定的領域進行模型建設分類。接著，利用數(shù)據(jù)挖掘工具和相關算法對數(shù)據(jù)源中存在的數(shù)據(jù)進行掃描分析與分類。其目的主要是利用分類模型，讓數(shù)據(jù)庫當中的數(shù)據(jù)項直接映射到某一個特定的類別當中。通過訓練和運行這些獨立的模塊，完成模型訓練。②關聯(lián)分析。該方面主要是連接特定的領域，在知識庫中建立相對應的關聯(lián)機制，并對數(shù)據(jù)園中的數(shù)據(jù)實施關聯(lián)分析。③聚合分析。結合研究所需，搭配知識、聚合相應的信息源，以此可以實現(xiàn)高效檢索、導航以及關聯(lián)等部分功能。同時，可以對數(shù)據(jù)的聚合進行展示，從而為更深層次的數(shù)據(jù)挖掘分析提供有力的支撐。④趨勢演變。該部分結合對特定領域的分析，利用預測模型建設的形式，在數(shù)據(jù)挖掘工具的作用下針對存在時空跨度的數(shù)據(jù)進行分析，并且對其趨勢演變實施預測，以此輔助用戶的研究分析。

2.3 分布式并行運算的大數(shù)據(jù)挖掘分析

在針對情報分析時，還需要注重單臺設備性能不足的問題。而Spark分布式并行運算框架的出現(xiàn)，能夠有效解決單臺設備在進行大數(shù)據(jù)的海量計算工作時性能不足的問題。Spark框架是當前最為流行的一種大數(shù)據(jù)處理框架，常常用于離線的大數(shù)據(jù)處理?？梢酝ㄟ^對大數(shù)據(jù)處理部分的改進，將計算的結果和所使用的數(shù)據(jù)存儲到相應的內存當中。這樣既可以降低對磁盤反復讀寫的消耗，還可以提高設備的運算性能，比較適合應用于迭代任務運算當中，以此促使數(shù)據(jù)挖掘算法的效率得到提升[6]。該框架的整體可以劃分為以下4層。

（1）工具層。該層次，Spark為數(shù)據(jù)挖掘提供了多種工具，如應用于查詢的Spark SQL和應用于流式計算的Spark Streaming以及最后應用于機器學習的MILib和圖處理的GraphX。

（2）計算層。將用戶的應用程序，分解成了內部執(zhí)行任務，同時還為其提供了執(zhí)行容器。

（3）存儲層。該層可以實現(xiàn)對分布式文件系統(tǒng)的讀取，還可以通過Hadoop集群中所存儲的組件數(shù)據(jù)訪問本地數(shù)據(jù)。

（4）資源調度層。在資源調度層，可以將集群管理器看作YARN，并且可以在自帶的集群管理器下實現(xiàn)獨立運行。

由此可見，在數(shù)據(jù)挖掘方面，基于分布式并行運算的挖掘分析方法對目標活動的規(guī)律分析具有一定程度的借鑒作用。并且，相對應的算法同樣能夠適用于對目標活動規(guī)律的大數(shù)據(jù)挖掘。而針對目標活動規(guī)律的挖掘分析是情報分析中的重點內容，因此，經(jīng)過長期積累的數(shù)據(jù)表明，對目標活動軌跡的分析，在相應的活動時，均會存在固定頻繁的活動區(qū)域或者軌跡，而這正是對目標進行身份識別或者多目標意圖識別的重要依據(jù)之一。所以在目標活動的過程當中針對目標活動軌跡的提取，雖然會存在大量的目標痕跡，但是痕跡越多則是越能夠充分、真實地反映出目標的活動軌跡。但目標活動軌跡數(shù)據(jù)量過多時，會對數(shù)據(jù)挖掘和情報分析以及數(shù)據(jù)存儲方面造成巨大的壓力。這時，就需要對其誤差范圍進行縮小，還要利用少量的數(shù)據(jù)表征目標運動軌跡。最后，將結果利用顯示功能進行顯示。例如以電子地圖為背景，將大數(shù)據(jù)挖掘的結果和目標的活動軌跡在地圖上進行顯示。在日益增長的數(shù)據(jù)量下，大數(shù)據(jù)的挖掘技術發(fā)揮其優(yōu)勢，已經(jīng)成了當前情報分析發(fā)展的一大趨勢[7]。

3 基于大數(shù)據(jù)的挖掘技術應用分析

大數(shù)據(jù)由于自身數(shù)據(jù)的復雜性、多樣性和廣泛性，在數(shù)據(jù)挖掘技術和相對應的挖掘工具方面具有豐富的經(jīng)驗。由此來看，可以將大數(shù)據(jù)的挖掘技術劃分為經(jīng)典數(shù)據(jù)挖掘方法以及智能挖掘方法兩種。

3.1 K-均值算法

該算法是聚類算法，通過將n個對象結合其自身的屬性劃分為K個分割，也就是K＜n。該算法與處理混合正態(tài)分布的算法有很大的相似之處。假設目標對象屬性源自于空間向量，且每個目標能夠使各個群組之間的平均誤差總和達到最小，則在大數(shù)據(jù)挖掘技術應用中，K-均值算法可以用于目標空間位置的聚類，也可以對輻射源參數(shù)等類型比較復雜的數(shù)據(jù)進行改進，然后再對其參數(shù)進行聚類。

3.2 頻繁項集方法

簡單來說，該方法就是支持度大于等于最小字支持度的結合，該挖掘方法是數(shù)據(jù)挖掘任務的關聯(lián)規(guī)則、相關性分析、因果關系以及序列項集或者周期性挖掘等基礎，擁有廣泛的應用前景，并且還可以用來發(fā)現(xiàn)目標的空間活動規(guī)律。

3.3 人工智能情報分析技術

在人工智能的不斷發(fā)展下，情報分析的自動化已經(jīng)成為必然趨勢。基于大數(shù)據(jù)的支撐使得情報分析取得了一定程度的突破，對于傳統(tǒng)情報分析的技術預測方面產(chǎn)生了重要的影響。因此，對智能情報分析的提升，不僅要提出技術方面的解決方案，還要結合實際需求建立起各種類型的情報研究任務的信息模型、分析模型以及問題模型等[8]。

4 結語

綜上所述，基于大數(shù)據(jù)的情報分析和數(shù)據(jù)挖掘在不同的領域中應用，由于數(shù)據(jù)類型、數(shù)據(jù)特征以及需求等方面的不同所產(chǎn)生的差異，可以結合實際情況有針對性地開發(fā)可視化數(shù)據(jù)挖掘系統(tǒng)。而傳統(tǒng)的數(shù)據(jù)挖掘與數(shù)據(jù)分析方法在對情報分析上，已經(jīng)無法充分滿足當前的需求。因此，本文針對該問題，研究了基于大數(shù)據(jù)的情報分析和挖掘技術分析方法，為更加準確地對目標進行身份識別、目標活動規(guī)律的把握以及對目標的關聯(lián)因素進行挖掘奠定了基礎。

猜你喜歡

數(shù)據(jù)挖掘算法模型

適用于BDS-3 PPP的隨機模型

導航定位學報(2022年4期)2022-08-15

改進支持向量機在特征數(shù)據(jù)挖掘中的智能應用

九江學院學報(自然科學版)(2022年2期)2022-07-02

自制空間站模型

小天使·三年級語數(shù)英綜合(2022年4期)2022-04-28

哪種算法簡便

小學生學習指導(低年級)(2021年12期)2021-12-31

探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢

大眾投資指南(2021年35期)2021-02-16

Travellng thg World Full—time for Rree

閱讀與作文（英語初中版）(2019年8期)2019-08-27

模型小覽（二）

汽車導報(2017年5期)2017-08-03

算法框圖的補全

中學生數(shù)理化·高一版(2017年1期)2017-04-25

算法初步知識盤點

中學生數(shù)理化·高一版(2017年1期)2017-04-25

軟件工程領域中的異常數(shù)據(jù)挖掘算法

電子技術與軟件工程(2016年24期)2017-02-23

電子元器件與信息技術2022年4期

電子元器件與信息技術的其它文章: DRAM的現(xiàn)狀及發(fā)展方向; 基于本特利3500控制器的軸振動信號淺析; 基于隨機森林和XGBoost的鐵路工期指標預測方法研究; 乳腺B超圖像結合形態(tài)學自動初始化的水平集分割算法; 高壓變頻器在冶金行業(yè)的應用研究; 基于二維磁性材料RuCl3的隧穿磁阻器件研究

棋牌| 北碚区| 昌吉市| 克山县| 佳木斯市| 安徽省| 历史| 光山县| 吉木萨尔县| 迭部县| 德惠市| 濮阳市| 会宁县| 宝应县| 东丽区| 五莲县| 汝城县| 梓潼县| 安塞县| 武安市| 大厂| 外汇| 札达县| 新津县| 庆云县| 苏尼特左旗| 岐山县| 自治县| 九江市| 临猗县| 麻江县| 苏尼特右旗| 青龙| 阿鲁科尔沁旗| 瓮安县| 社会| 锡林郭勒盟| 金寨县| 长沙县| 平南县| 湖南省|