国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的情報分析和挖掘技術分析

2022-06-18 08:00韓培培
電子元器件與信息技術 2022年4期
關鍵詞:數(shù)據(jù)挖掘算法模型

韓培培

中國電子科技集團公司第五十四研究所,河北石家莊,050000

0 引言

對具有價值的數(shù)據(jù)信息的分析與識別,都是通過對大量、動態(tài)且能夠持續(xù)的數(shù)據(jù)運用新的系統(tǒng)、工具和模型進行充分的挖掘和分析得到的。隨著大數(shù)據(jù)的快速發(fā)展,各行業(yè)各已經(jīng)開始逐漸使用新技術來進行實時數(shù)據(jù)分析[1]。但如何在海量結構化和非機構化的數(shù)據(jù)中,對信息進行時空動態(tài)分析與利用,仍然是無法避免的問題?;诖?,本文結合數(shù)據(jù)信息的時空特征,利用ABI情報分析方法,對目標的活動規(guī)律展開探討。

1 大數(shù)據(jù)的情報分析領域機理分析

1.1 大數(shù)據(jù)概述

大數(shù)據(jù)作為一種從網(wǎng)絡多層次視角,對海量數(shù)據(jù)信息的收集與整合技術,自身具備了實時性特征。如果從技術角度來看,大數(shù)據(jù)技術和云計算技術兩者之間具有一定的聯(lián)系,且云存儲和數(shù)據(jù)庫、處理技術等都是實施數(shù)據(jù)信息收集的重要支撐。而數(shù)據(jù)挖掘作為在知識發(fā)現(xiàn)中的關鍵部分,是通過大量數(shù)據(jù)和算法的搜索,找尋其中存在的規(guī)則、規(guī)律等的一個過程。一般可以用于異常檢測、關聯(lián)規(guī)則學習、聚類分析以及回歸分析和分類、數(shù)據(jù)可視化等。經(jīng)過長時間的發(fā)展,在融合人工智能、機器學習、數(shù)據(jù)庫以及模式識別、神經(jīng)網(wǎng)絡和高性能計算、數(shù)據(jù)可視化等多種理論與技術后的數(shù)據(jù)挖掘,已經(jīng)變成了一門交叉學科[2]。

1.2 情報內涵的轉變

情報也被稱為信息或資訊,簡單來說就是代表被傳遞的信息或者知識,通過一定載體,在某個特定的時間、狀態(tài)下傳遞給某個特定的人物。現(xiàn)階段在信息技術不斷且快速的發(fā)展下,信息載體的數(shù)據(jù)呈現(xiàn)出幾何級數(shù)的規(guī)律提升,使得其存在模式也發(fā)生了根本性的變化。導致原有的情報分析、情報收集以及處理模式已經(jīng)無法適應于當前的大數(shù)據(jù)環(huán)境,必須要對其進行改造升級。

情報分析的方法是利用統(tǒng)計學當中的隨機抽樣理論,來強調事物之間存在的因果關系,并在部分信息的推斷下對全局事物的發(fā)展進行判斷,以此追求其準確性。因此,在情報工作當中,情報分析占據(jù)了重要地位。而隨著大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)分析通過利用盡可能多的數(shù)據(jù)支持,實現(xiàn)對事物之間的關系判斷,只求相關性,并不強調準確性。所以,大數(shù)據(jù)分析從其本質上來看,就是針對大量結構化、半結構化以及非結構化的數(shù)據(jù)進行處理,以此實現(xiàn)得到應用的目的。而大數(shù)據(jù)分析和情報分析這兩者即使導向不同,仍然擁有密切的聯(lián)系[3]。

2 基于大數(shù)據(jù)的情報分析和挖掘技術分析

2.1 ABI情報分析方法

該方法是情報分析方法中的一種,通過從地理敘事的方向為切入點,在空間以及時間上實現(xiàn)活動連接。使得無序或雜亂的情報活動,變得有規(guī)律、有序可循,以此為目標活動分析提供新的方向,并且ABI情報分析方法也是多源情報的聚集和關聯(lián)。在時空數(shù)據(jù)的基礎上,通過對目標活動的發(fā)展規(guī)律進行分析,從而預測目標活動。與傳統(tǒng)的目標分析方法相比較來說,該目標方法通過構建目標的行為譜,為目標的所有特征和規(guī)律研究提供了數(shù)據(jù)上的支持。

而情報分析從本質方面來說,就是利用一系列處理規(guī)則,獲取對方的計劃或者意圖。不過,在實際數(shù)據(jù)集生成當中比較稀疏,只能夠代表小部分的數(shù)據(jù)。而ABI方法易于對未知事物的發(fā)現(xiàn),并且可以通過活動或實際的層段來對相關的實體進行搜索,也能夠識別可能不為網(wǎng)絡所知的成員,ABI方法的分析框架如圖1所示。

圖1 ABI方法分析框架

時間和空間為ABI情報分析方法提供了時間相關性和空間相關性兩個數(shù)據(jù)過濾器,從上述框架中就能夠看出時空關系貫穿了整個數(shù)據(jù)情報的分析過程,從數(shù)據(jù)收集一直到知識管理等各個環(huán)節(jié)均和時空關系不斷迭代。

2.2 情報分析對目標的識別

在情報分析領域當中可以將實體目標識別劃分為多個步驟,具體情報分析流程如圖2所示。

圖2 情報分析流程

(1)數(shù)據(jù)采集。該方面主要來源于相關情報報文,如時間或者情報的內容等。

(2)數(shù)據(jù)管理。該部分是情報挖掘分析的基礎,通過對目標的活動規(guī)律、活動軌跡、目標特征以及平臺信息等方面的數(shù)據(jù)為基礎進行挖掘,并對其結果進行保存。數(shù)據(jù)管理也是對各種不同類型數(shù)據(jù)的提取、查詢以及存儲和整理調用。

(3)數(shù)據(jù)預處理。預處理是對模型進行訓練之前的重要部分,該部分主要包含了數(shù)據(jù)的清洗、數(shù)據(jù)分詞處理以及數(shù)據(jù)核驗等。數(shù)據(jù)清洗進一步解決了數(shù)據(jù)中存在的質量問題,而數(shù)據(jù)分詞處理的質量直接對模型質量有著相應的影響[5]。

(4)任務數(shù)據(jù)挖掘。基于大數(shù)據(jù)的數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘兩者進行相比較發(fā)現(xiàn),從其概念內涵以及實現(xiàn)目標等方面上來看,兩者之間沒有存在本質上的差別。二者均是為了獲取數(shù)據(jù)當中所蘊藏的規(guī)律性知識,以此實現(xiàn)提前對事物的變化發(fā)展趨勢進行預知。不過,二者之間不相同的地方則是在對數(shù)據(jù)挖掘的環(huán)境方面出現(xiàn)了變化,其數(shù)據(jù)量和數(shù)據(jù)類型方面有了一定程度的提升。但通過對任務的分解,二者均可以滿足用戶在負載下的要求。由此可見,傳統(tǒng)數(shù)據(jù)挖掘方法同樣能夠適用于大數(shù)據(jù)。

例如,以對目標運動發(fā)展趨勢為例,給出大數(shù)據(jù)下情報信息分析挖掘的一種合理模型。具體的建模步驟如下:首先,需要對任務數(shù)據(jù)進行合理的分析,并對完整任務數(shù)據(jù)進行預處理;其次,在考慮到分解之后的單體數(shù)據(jù)集的體量依然具備一定規(guī)模,這時可以利用RBF神經(jīng)網(wǎng)絡模型或者ABI分析方法,將單體數(shù)據(jù)集中在每一個數(shù)據(jù)點上(這里選用了RBF神經(jīng)網(wǎng)絡模型),因此可以將單體數(shù)據(jù)集中在神經(jīng)網(wǎng)絡模型中,并且和神經(jīng)元組成龐大的訓練集體,最后形成映射;接著利用SVM(支持向量機)輔助方法,對神經(jīng)網(wǎng)絡模型的優(yōu)化實現(xiàn)求解,同時還需要針對神經(jīng)網(wǎng)絡中的隱形層進行改善,使得其能夠在大數(shù)據(jù)的幫助下促使數(shù)據(jù)處理的穩(wěn)定性得到提高[6]。

(5)數(shù)據(jù)挖掘算法實現(xiàn)。①特征分類。想要進一步實現(xiàn)數(shù)據(jù)挖掘算法,可以結合特定的領域進行模型建設分類。接著,利用數(shù)據(jù)挖掘工具和相關算法對數(shù)據(jù)源中存在的數(shù)據(jù)進行掃描分析與分類。其目的主要是利用分類模型,讓數(shù)據(jù)庫當中的數(shù)據(jù)項直接映射到某一個特定的類別當中。通過訓練和運行這些獨立的模塊,完成模型訓練。②關聯(lián)分析。該方面主要是連接特定的領域,在知識庫中建立相對應的關聯(lián)機制,并對數(shù)據(jù)園中的數(shù)據(jù)實施關聯(lián)分析。③聚合分析。結合研究所需,搭配知識、聚合相應的信息源,以此可以實現(xiàn)高效檢索、導航以及關聯(lián)等部分功能。同時,可以對數(shù)據(jù)的聚合進行展示,從而為更深層次的數(shù)據(jù)挖掘分析提供有力的支撐。④趨勢演變。該部分結合對特定領域的分析,利用預測模型建設的形式,在數(shù)據(jù)挖掘工具的作用下針對存在時空跨度的數(shù)據(jù)進行分析,并且對其趨勢演變實施預測,以此輔助用戶的研究分析。

2.3 分布式并行運算的大數(shù)據(jù)挖掘分析

在針對情報分析時,還需要注重單臺設備性能不足的問題。而Spark分布式并行運算框架的出現(xiàn),能夠有效解決單臺設備在進行大數(shù)據(jù)的海量計算工作時性能不足的問題。Spark框架是當前最為流行的一種大數(shù)據(jù)處理框架,常常用于離線的大數(shù)據(jù)處理??梢酝ㄟ^對大數(shù)據(jù)處理部分的改進,將計算的結果和所使用的數(shù)據(jù)存儲到相應的內存當中。這樣既可以降低對磁盤反復讀寫的消耗,還可以提高設備的運算性能,比較適合應用于迭代任務運算當中,以此促使數(shù)據(jù)挖掘算法的效率得到提升[6]。該框架的整體可以劃分為以下4層。

(1)工具層。該層次,Spark為數(shù)據(jù)挖掘提供了多種工具,如應用于查詢的Spark SQL和應用于流式計算的Spark Streaming以及最后應用于機器學習的MILib和圖處理的GraphX。

(2)計算層。將用戶的應用程序,分解成了內部執(zhí)行任務,同時還為其提供了執(zhí)行容器。

(3)存儲層。該層可以實現(xiàn)對分布式文件系統(tǒng)的讀取,還可以通過Hadoop集群中所存儲的組件數(shù)據(jù)訪問本地數(shù)據(jù)。

(4)資源調度層。在資源調度層,可以將集群管理器看作YARN,并且可以在自帶的集群管理器下實現(xiàn)獨立運行。

由此可見,在數(shù)據(jù)挖掘方面,基于分布式并行運算的挖掘分析方法對目標活動的規(guī)律分析具有一定程度的借鑒作用。并且,相對應的算法同樣能夠適用于對目標活動規(guī)律的大數(shù)據(jù)挖掘。而針對目標活動規(guī)律的挖掘分析是情報分析中的重點內容,因此,經(jīng)過長期積累的數(shù)據(jù)表明,對目標活動軌跡的分析,在相應的活動時,均會存在固定頻繁的活動區(qū)域或者軌跡,而這正是對目標進行身份識別或者多目標意圖識別的重要依據(jù)之一。所以在目標活動的過程當中針對目標活動軌跡的提取,雖然會存在大量的目標痕跡,但是痕跡越多則是越能夠充分、真實地反映出目標的活動軌跡。但目標活動軌跡數(shù)據(jù)量過多時,會對數(shù)據(jù)挖掘和情報分析以及數(shù)據(jù)存儲方面造成巨大的壓力。這時,就需要對其誤差范圍進行縮小,還要利用少量的數(shù)據(jù)表征目標運動軌跡。最后,將結果利用顯示功能進行顯示。例如以電子地圖為背景,將大數(shù)據(jù)挖掘的結果和目標的活動軌跡在地圖上進行顯示。在日益增長的數(shù)據(jù)量下,大數(shù)據(jù)的挖掘技術發(fā)揮其優(yōu)勢,已經(jīng)成了當前情報分析發(fā)展的一大趨勢[7]。

3 基于大數(shù)據(jù)的挖掘技術應用分析

大數(shù)據(jù)由于自身數(shù)據(jù)的復雜性、多樣性和廣泛性,在數(shù)據(jù)挖掘技術和相對應的挖掘工具方面具有豐富的經(jīng)驗。由此來看,可以將大數(shù)據(jù)的挖掘技術劃分為經(jīng)典數(shù)據(jù)挖掘方法以及智能挖掘方法兩種。

3.1 K-均值算法

該算法是聚類算法,通過將n個對象結合其自身的屬性劃分為K個分割,也就是K<n。該算法與處理混合正態(tài)分布的算法有很大的相似之處。假設目標對象屬性源自于空間向量,且每個目標能夠使各個群組之間的平均誤差總和達到最小,則在大數(shù)據(jù)挖掘技術應用中,K-均值算法可以用于目標空間位置的聚類,也可以對輻射源參數(shù)等類型比較復雜的數(shù)據(jù)進行改進,然后再對其參數(shù)進行聚類。

3.2 頻繁項集方法

簡單來說,該方法就是支持度大于等于最小字支持度的結合,該挖掘方法是數(shù)據(jù)挖掘任務的關聯(lián)規(guī)則、相關性分析、因果關系以及序列項集或者周期性挖掘等基礎,擁有廣泛的應用前景,并且還可以用來發(fā)現(xiàn)目標的空間活動規(guī)律。

3.3 人工智能情報分析技術

在人工智能的不斷發(fā)展下,情報分析的自動化已經(jīng)成為必然趨勢。基于大數(shù)據(jù)的支撐使得情報分析取得了一定程度的突破,對于傳統(tǒng)情報分析的技術預測方面產(chǎn)生了重要的影響。因此,對智能情報分析的提升,不僅要提出技術方面的解決方案,還要結合實際需求建立起各種類型的情報研究任務的信息模型、分析模型以及問題模型等[8]。

4 結語

綜上所述,基于大數(shù)據(jù)的情報分析和數(shù)據(jù)挖掘在不同的領域中應用,由于數(shù)據(jù)類型、數(shù)據(jù)特征以及需求等方面的不同所產(chǎn)生的差異,可以結合實際情況有針對性地開發(fā)可視化數(shù)據(jù)挖掘系統(tǒng)。而傳統(tǒng)的數(shù)據(jù)挖掘與數(shù)據(jù)分析方法在對情報分析上,已經(jīng)無法充分滿足當前的需求。因此,本文針對該問題,研究了基于大數(shù)據(jù)的情報分析和挖掘技術分析方法,為更加準確地對目標進行身份識別、目標活動規(guī)律的把握以及對目標的關聯(lián)因素進行挖掘奠定了基礎。

猜你喜歡
數(shù)據(jù)挖掘算法模型
適用于BDS-3 PPP的隨機模型
改進支持向量機在特征數(shù)據(jù)挖掘中的智能應用
自制空間站模型
哪種算法簡便
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
Travellng thg World Full—time for Rree
模型小覽(二)
算法框圖的補全
算法初步知識盤點
軟件工程領域中的異常數(shù)據(jù)挖掘算法
棋牌| 北碚区| 昌吉市| 克山县| 佳木斯市| 安徽省| 历史| 光山县| 吉木萨尔县| 迭部县| 德惠市| 濮阳市| 会宁县| 宝应县| 东丽区| 五莲县| 汝城县| 梓潼县| 安塞县| 武安市| 大厂| 外汇| 札达县| 新津县| 庆云县| 苏尼特左旗| 岐山县| 自治县| 九江市| 临猗县| 麻江县| 苏尼特右旗| 青龙| 阿鲁科尔沁旗| 瓮安县| 社会| 锡林郭勒盟| 金寨县| 长沙县| 平南县| 湖南省|