国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于人工智能技術(shù)的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法

2021-02-16 13:22
關(guān)鍵詞:計算結(jié)果聚類數(shù)據(jù)挖掘

朱 敏

(1.安徽警官職業(yè)學(xué)院,安徽 合肥 230031;2.合肥工業(yè)大學(xué),安徽 合肥 230009)

為了更好地處理物物相連的網(wǎng)絡(luò)延伸情況[1],提升物聯(lián)網(wǎng)設(shè)備的應(yīng)用性能,滿足快速增長的物聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用要求[2],數(shù)據(jù)挖掘技術(shù)成為當(dāng)前備受關(guān)注的問題。以信息有效利用為核心,涌現(xiàn)出多種數(shù)據(jù)挖掘算法。文獻(xiàn)[3]分析當(dāng)前網(wǎng)絡(luò)技術(shù)、計算機(jī)技術(shù)的發(fā)展情況,以此為依據(jù),匯總網(wǎng)絡(luò)上越來越多的數(shù)據(jù)信息,添加分布式隱私保護(hù)理念,實現(xiàn)聚類挖掘算法的設(shè)計。將大數(shù)據(jù)挖掘技術(shù),與隱私數(shù)據(jù)保護(hù)技術(shù)相結(jié)合,探索數(shù)據(jù)挖掘算法,在用戶隱私得到保護(hù)的基礎(chǔ)上,提升了大數(shù)據(jù)聚類挖掘準(zhǔn)確度,但算法的魯棒性較差。文獻(xiàn)[4]分析了現(xiàn)有數(shù)據(jù)挖掘算法的缺陷,提出以粗糙集原理為基礎(chǔ)的挖掘算法。該算法的重點在于動態(tài)聚類技術(shù),通過兩步離散化算法有效處理大數(shù)據(jù),并應(yīng)用并行計算技術(shù)達(dá)到提升算法執(zhí)行效率的目的。根據(jù)實例驗證結(jié)果,明確算法面對海量數(shù)據(jù)處理的可行性,雖然大大提升了數(shù)據(jù)處理效率,但算法拓展性較差。文獻(xiàn)[5]在數(shù)據(jù)挖掘過程中,采用聚類算法篩選出符合要求的數(shù)據(jù),根據(jù)數(shù)據(jù)結(jié)構(gòu)和相似度獲取數(shù)據(jù)類型距離計算結(jié)果。通過上述操作,在聚類分析框架中輸入數(shù)據(jù),根據(jù)挖掘算法策略與SLIO算法,輸出有價值的數(shù)據(jù)信息。該算法的挖掘速度穩(wěn)定,但數(shù)據(jù)挖掘精度不穩(wěn)定。

本文采用人工智能技術(shù),將其融入數(shù)據(jù)挖掘算法之中,完成物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法的設(shè)計,有效提升數(shù)據(jù)聚類精度。

1 物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法設(shè)計

1.1 建立數(shù)據(jù)模型樹

為了保證數(shù)據(jù)挖掘算法符合物聯(lián)網(wǎng)大數(shù)據(jù)的動態(tài)特性,建立了維度控制機(jī)制,并在此基礎(chǔ)上生成了數(shù)據(jù)模型樹[6]。在物聯(lián)網(wǎng)應(yīng)用過程中,獲取的用戶信息準(zhǔn)確度,對最終的數(shù)據(jù)挖掘結(jié)果具有極大影響。所以,在物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法設(shè)計時,需要利用信息模型樹挖掘用戶行為。

為了保證數(shù)據(jù)模型樹和物聯(lián)網(wǎng)應(yīng)用模式的匹配度,從數(shù)據(jù)模型樹自身出發(fā),全面掃描物聯(lián)網(wǎng)所有數(shù)據(jù)內(nèi)容,確保物聯(lián)網(wǎng)大數(shù)據(jù)的全面性。根據(jù)物聯(lián)網(wǎng)數(shù)據(jù)提取出具體的網(wǎng)絡(luò)節(jié)點,從而得出整體數(shù)據(jù)集。從數(shù)據(jù)集中選擇數(shù)據(jù)量最大的網(wǎng)絡(luò)節(jié)點,數(shù)據(jù)挖掘工作就是從該節(jié)點開始,通過排序處理的方式處理其余的數(shù)據(jù)節(jié)點[7]。根據(jù)上述節(jié)點選擇方式,得到每個排序周期的節(jié)點,形成圖1所示的數(shù)據(jù)模型樹。

圖1 數(shù)據(jù)模式樹

以圖1所示的數(shù)據(jù)模型樹為基礎(chǔ),考慮到物聯(lián)網(wǎng)用戶的行為習(xí)慣,判斷用戶行為與網(wǎng)絡(luò)節(jié)點之間的關(guān)聯(lián),初步得到數(shù)據(jù)挖掘范圍。除此之外,數(shù)據(jù)挖掘算法的設(shè)計還需要考慮大數(shù)據(jù)的形成特點,及其與用戶行為的關(guān)聯(lián)。在考慮周期性特征后,更改查看等行為,并完成用戶行為排序[8]。按照用戶行為排序結(jié)果,將與用戶行為關(guān)聯(lián)度較大的節(jié)點,對所對應(yīng)的數(shù)據(jù)總量階段進(jìn)行排序,作為后續(xù)物聯(lián)網(wǎng)大數(shù)據(jù)挖掘的基礎(chǔ)。

1.2 檢測物聯(lián)網(wǎng)特征數(shù)據(jù)

依靠維度綜合控制機(jī)制得到的數(shù)據(jù)模式樹,可以一定程度上獲取數(shù)據(jù)挖掘范圍,但是由于模型關(guān)聯(lián)度計算不夠準(zhǔn)確,無法獲得數(shù)據(jù)挖掘具體結(jié)果[9]。所以,本文采用特征提取方法,檢測出物聯(lián)網(wǎng)大數(shù)據(jù)中的特征數(shù)據(jù)。根據(jù)大數(shù)據(jù)的屬性維度,獲取信息數(shù)據(jù)的價值性維度,將需要挖掘的數(shù)據(jù)集設(shè)置為D,并且將該數(shù)據(jù)集的維度設(shè)置為d,根據(jù)數(shù)據(jù)屬性取值,得到集合W。

構(gòu)建數(shù)據(jù)挖掘所需的子空間S,子空間被包含在數(shù)據(jù)屬性值集合內(nèi),且子空間內(nèi)的數(shù)據(jù)對象o∈D。根據(jù)數(shù)據(jù)離群分布特點,可以得出子空間內(nèi)的數(shù)據(jù)對象最近鄰域(o,S),也呈現(xiàn)出非均勻分布的情況。子空間內(nèi)隨機(jī)選擇的一個數(shù)據(jù)對象,其在數(shù)據(jù)集中的離群概率可以表示為Id(o,S)。從多維數(shù)據(jù)屬性的角度分析,可以發(fā)現(xiàn)子空間的中心點就是數(shù)據(jù)對象o,則概率距離計算公式為:

(1)

式中,距離表示為d,倘若在待挖掘全體數(shù)據(jù)集內(nèi),數(shù)據(jù)對象o依舊處于中心位置,那么數(shù)據(jù)s與數(shù)據(jù)o之間的標(biāo)準(zhǔn)距離σ,可以通過公式(2)計算。

(2)

由于物聯(lián)網(wǎng)大數(shù)據(jù)內(nèi)局部離散數(shù)據(jù)呈現(xiàn)出非均勻分布狀態(tài),離散數(shù)據(jù)的特征需要通過離散數(shù)據(jù)的密度與標(biāo)準(zhǔn)距離之間的近似值來表示:

(3)

通過公式(3)得出離散特征λ的值,基于該結(jié)果得出所需數(shù)據(jù)在局部離散數(shù)據(jù)內(nèi)的分布情況。

綜合上述特征提取方法,在物聯(lián)網(wǎng)大數(shù)據(jù)挖掘中,采用基于信息熵的檢測算法,得到所需的數(shù)據(jù)信息。在待檢測數(shù)據(jù)集X中,對某一項數(shù)據(jù)x分布情況進(jìn)行檢測,依托于取值概率函數(shù)p獲得數(shù)據(jù)x的信息熵E(x):

(4)

通過信息熵計算結(jié)果,將數(shù)據(jù)空間內(nèi)包含的所有待檢測數(shù)據(jù),依據(jù)降序的方式排列。然后,按照待檢測數(shù)據(jù)集合從大到小的序列,選擇信息熵比較大的多個數(shù)據(jù),作為數(shù)據(jù)聚類中心完成其余數(shù)據(jù)的檢測。聚類中心之間的距離公式為:

(5)

公式(5)中,a、b是隨機(jī)選取的兩聚類中心,以聚類中心為核心,在分析所有數(shù)據(jù)信息熵后,通過平均值計算設(shè)置聚類閾值。當(dāng)聚類中心之間的距離dist比設(shè)置的閾值更小,則需要更換其他的數(shù)據(jù)作為聚類中心,并重復(fù)公式(5)的計算,直到所有的計算結(jié)果均大于給定閾值才可以終止。

在檢測數(shù)據(jù)集中,計算數(shù)據(jù)與聚類中心的距離。要檢測的數(shù)據(jù)是最近聚類中心的同一類數(shù)據(jù)對象。在分配物聯(lián)網(wǎng)所有大數(shù)據(jù)后,得到每個分類簇的平均值?;谏鲜鲇嬎憬Y(jié)果,使用數(shù)據(jù)集中的數(shù)據(jù)再次完成聚類處理[10]。通過重復(fù)上述聚類過程直到?jīng)]有新的聚類中心出現(xiàn),計算將終止。物聯(lián)網(wǎng)大數(shù)據(jù)集按照最終的聚類中心進(jìn)行處理,沒有任何分類聚類的數(shù)據(jù)稱為非局部離群數(shù)據(jù)。分類簇中已有的數(shù)據(jù)信息是基于信息熵算法檢測到的所有特征數(shù)據(jù)。為了提高數(shù)據(jù)挖掘的準(zhǔn)確性,所有檢測到的數(shù)據(jù)都被標(biāo)準(zhǔn)化。

1.3 特征數(shù)據(jù)標(biāo)準(zhǔn)化處理

通過上述特征數(shù)據(jù)檢測結(jié)果,提取出滿足要求的局部離散數(shù)據(jù)。然而,由于本文檢測到的特征信息具有很強(qiáng)的相關(guān)性,因此檢測到的數(shù)據(jù)中不可避免地存在一些噪聲數(shù)據(jù)。為了保證后續(xù)數(shù)據(jù)分析處理的正常運行,對上述操作檢測到的數(shù)據(jù)進(jìn)行了標(biāo)準(zhǔn)化處理。

由于檢測出來的數(shù)據(jù)量綱存在差異,對物聯(lián)網(wǎng)大數(shù)據(jù)挖掘結(jié)果產(chǎn)生一定負(fù)面影響,所以需要按照標(biāo)準(zhǔn)格式處理檢測出的數(shù)據(jù),如式(6)所示。

(6)

數(shù)據(jù)標(biāo)準(zhǔn)化處理結(jié)果α′,需要根據(jù)檢測出的數(shù)據(jù)的屬性均值α和數(shù)據(jù)的屬性標(biāo)準(zhǔn)差Yα進(jìn)行計算。在計算過程中,利用標(biāo)準(zhǔn)差使得數(shù)據(jù)特征更加顯著,以保證數(shù)據(jù)挖掘精度。除此之外,還可以采用檢測數(shù)據(jù)的屬性平均偏差Gα,獲得數(shù)據(jù)標(biāo)準(zhǔn)化處理結(jié)果,計算公式為:

(7)

通過上述公式達(dá)到提升算法抗干擾性能的目的,而數(shù)據(jù)屬性均值α、數(shù)據(jù)屬性標(biāo)準(zhǔn)差Yα、數(shù)據(jù)屬性平均偏差Gα的計算公式分別為:

(8)

式中,迭代次數(shù)為m,在完成數(shù)據(jù)標(biāo)準(zhǔn)化處理后,對處理后的數(shù)據(jù)應(yīng)用人工智能技術(shù),獲取最終的數(shù)據(jù)挖掘結(jié)果。

1.4 實現(xiàn)人工智能數(shù)據(jù)挖掘

本文利用人工智能技術(shù)的一個重要分支神經(jīng)網(wǎng)絡(luò)技術(shù)來實現(xiàn)物聯(lián)網(wǎng)大數(shù)據(jù)挖掘的目的。采用三層傳輸結(jié)構(gòu)的BP神經(jīng)網(wǎng)絡(luò)作為主體結(jié)構(gòu),將標(biāo)準(zhǔn)化數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)。由于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特殊性,采用數(shù)據(jù)信息熵的平均值E,代替網(wǎng)絡(luò)輸入層與中間層之間的連接權(quán)值ω,則權(quán)值計算公式為:

(9)

式中,通過數(shù)據(jù)的第i維屬性的熵值Hi,獲取神經(jīng)網(wǎng)絡(luò)的連接權(quán)值計算結(jié)果,按照圖2所示流程,在物聯(lián)網(wǎng)大數(shù)據(jù)中挖掘出所需數(shù)據(jù)信息。

圖2 神經(jīng)網(wǎng)絡(luò)挖掘流程

由圖2可知,在文中設(shè)計的人工智能數(shù)據(jù)挖掘流程中,添加了遺傳學(xué)習(xí)步驟,設(shè)計以網(wǎng)絡(luò)非線性分類能力、網(wǎng)絡(luò)結(jié)構(gòu)為核心的分類器。通過遺傳學(xué)習(xí)算法的優(yōu)化,輸出符合挖掘要求的數(shù)據(jù),這種人工智能技術(shù)方法的改進(jìn),在保證非線性能力的同時,與之前的處理方法相連接,確保數(shù)據(jù)挖掘精度。

數(shù)據(jù)挖掘過程中融合了遺傳算法,需要對輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)完成雜交算子與變異算子的修改。將雜交算子的計算表示為一種線性組合,表示為:

(10)

式中,θ1、θ2為線性組合的兩個數(shù)據(jù),而常數(shù)u的取值范圍在0到1之間,并依據(jù)實際情況縮小取值范圍。當(dāng)常數(shù)取值處于固定不變的狀態(tài),表示計算過程中的雜交算子具有非一致性。當(dāng)常量值隨著迭代次數(shù)的變化而變化時,可以提高雜交算子的平均性能,使物聯(lián)網(wǎng)大數(shù)據(jù)完成漸進(jìn)混合。

數(shù)據(jù)挖掘中變異算子的修改,每一個隨機(jī)數(shù)據(jù)vk都可能會有一定幾率發(fā)生變異情況,將該數(shù)據(jù)一次變異后的值Vk隨機(jī)表示為:

(11)

根據(jù)變量k的左、右鄰居LB、UB,以及函數(shù)Δ返回值生成數(shù)據(jù)變異值。數(shù)據(jù)變異值往往會伴隨著代數(shù)t的增大,而無限接近于0。

基于以上操作,完成算子在數(shù)據(jù)集的整體搜索,并輸出符合數(shù)據(jù)挖掘要求的物聯(lián)網(wǎng)數(shù)據(jù)信息。通過上述所有處理步驟,實現(xiàn)基于人工智能技術(shù)的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法設(shè)計。

2 仿真實驗

2.1 獲取實驗數(shù)據(jù)集

為了驗證數(shù)據(jù)挖掘算法的應(yīng)用性能,根據(jù)仿真實驗結(jié)果判斷算法實際應(yīng)用效果。選擇含有3500個二維特征向量的物聯(lián)網(wǎng)數(shù)據(jù),構(gòu)成實驗數(shù)據(jù)集。將數(shù)據(jù)點劃分為圖3所示的數(shù)據(jù)分布情況。

圖3 數(shù)據(jù)分布圖

如圖3所示,數(shù)據(jù)劃分結(jié)果為15類,數(shù)據(jù)點聚類時的模糊系數(shù)為1.7,每一個聚類中的傳遞點數(shù)量為2。為了保證向量的維度數(shù)值在0~1的范圍內(nèi),在每一維度中去除最小值,利用計算結(jié)果除以維度中最大值,完成數(shù)據(jù)的正則化處理。

此外,當(dāng)數(shù)據(jù)集中包含的數(shù)據(jù)量較大時,為了提升數(shù)據(jù)挖掘質(zhì)量,往往會將原始數(shù)據(jù)集分成多個數(shù)據(jù)塊,文中采用不放回的隨機(jī)抽樣法,劃分實驗數(shù)據(jù)集。確保劃分后的每個數(shù)據(jù)塊大小相同,從而降低實驗計算復(fù)雜度。在仿真實驗中,設(shè)置數(shù)據(jù)集子塊的大小分別為10%、20%、25%和50%。

2.2 性能指標(biāo)

除了文中設(shè)計的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法,在實驗中應(yīng)用文獻(xiàn)[3]與文獻(xiàn)[4]所提出的算法進(jìn)行數(shù)據(jù)挖掘測試。采用F-measure與RI作為判斷算法性能的兩個指標(biāo)。其中,F(xiàn)-measure評價法是一種最為常用的評價標(biāo)準(zhǔn),計算公式為:

(12)

如公式(12)所示,指標(biāo)F的計算結(jié)果,取決于精度P與召回率R。精度指的是數(shù)據(jù)挖掘結(jié)果中特定類所占據(jù)的比例,而召回率則表示含有特定類的所有對象數(shù)量。兩個數(shù)據(jù)類i、j的精度與召回率計算為公式(13)和公式(14)。

(13)

(14)

數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性還可以通過RI指標(biāo)來判斷。依靠計算獲得數(shù)據(jù)集X的聚類結(jié)果CIN,以及實際聚類結(jié)果CT。對于一個無序的數(shù)據(jù)點對(xi,xj),可以定義出四個計算RI值所需的集合TP、TN、FP、FN:

(15)

基于上述集合,得出RI計算公式:

(16)

根據(jù)公式(16)計算結(jié)果得出兩個聚類結(jié)果的相似程度,由于RI的取值范圍在0到1之間,所以計算結(jié)果越接近1表示數(shù)據(jù)挖掘結(jié)果與實際結(jié)果相似度越高,數(shù)據(jù)挖掘算法的聚類精度更高。相反,計算結(jié)果越接近于零,則表明數(shù)據(jù)挖掘結(jié)果準(zhǔn)確度較低,算法性能較差。

2.3 算法性能對比分析

在實驗數(shù)據(jù)集中運行文中設(shè)計挖掘算法,和文獻(xiàn)[3]、文獻(xiàn)[4]所提出的算法。獲取三種算法運行后的F-measure和RI結(jié)果,為了更加直觀地體現(xiàn)出對比結(jié)果,設(shè)置每種算法在數(shù)據(jù)集上的運行次數(shù)為20次,計算20次實驗的平均值、方差,以及最大值和最小值。其中,平均值計算結(jié)果反映了平均意義上的數(shù)據(jù)挖掘性能,而算法的魯棒性則與方差計算結(jié)果密切相關(guān)。不同算法F-measure結(jié)果對比如圖4所示。

(a)平均值mean對比

(b)方差var對比

(c)最大值max對比

(d)最小值min對比圖4 不同算法F-measure結(jié)果對比

根據(jù)圖4(b)顯示的方差可知,文中算法具有較強(qiáng)的魯棒性。并且分析圖4(a)(c)(d)數(shù)據(jù)后,得出文中設(shè)計算法F-measure結(jié)果的平均值、最大值、最小值測試結(jié)果均高于其他兩種文獻(xiàn)算法。以F-measure結(jié)果的平均值為例,文中設(shè)計算法的數(shù)據(jù)挖掘精度相比文獻(xiàn)[3]最高提升了15.01%,相比文獻(xiàn)[4]算法的數(shù)據(jù)挖掘精度提升的最高值為17.52%。從F-measure指標(biāo)來看,文中設(shè)計挖掘算法具有更好的性能。

根據(jù)三種算法的RI值計算結(jié)果,繪制圖5所示的不同算法RI結(jié)果對比圖。

(a)平均值mean對比

(b)方差var對比

(c)最大值max對比

(d)最小值min對比圖5 不同算法RI結(jié)果對比

從三種算法RI結(jié)果分析可以發(fā)現(xiàn),與F-measure結(jié)果相似,文中設(shè)計挖掘算法的整體優(yōu)于文獻(xiàn)[3]和文獻(xiàn)[4]算法。特別是當(dāng)數(shù)據(jù)塊大小為4%時,文中設(shè)計算法的RI值提高了20.32%、25.03%,此時數(shù)據(jù)挖掘精度提高最為明顯。

在物聯(lián)網(wǎng)大數(shù)據(jù)挖掘過程中,由于挖掘技術(shù)的不同,原有的數(shù)據(jù)挖掘算法往往會導(dǎo)致一些數(shù)據(jù)受到內(nèi)存的限制而無法有效處理。本文采用人工智能中的神經(jīng)網(wǎng)絡(luò)技術(shù),加入了遺傳學(xué)習(xí)方法。通過對數(shù)據(jù)集的獨特處理,解決了大數(shù)據(jù)集中聚類信息傳遞不準(zhǔn)確的問題,從而提高了數(shù)據(jù)挖掘算法的性能。通過仿真結(jié)果可以發(fā)現(xiàn),與文獻(xiàn)[3]和文獻(xiàn)[4]中的算法相比,本文設(shè)計的算法在F-測度結(jié)果和RI結(jié)果上都有所改進(jìn),證明了人工智能技術(shù)與物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法的融合促進(jìn)了數(shù)據(jù)挖掘技術(shù)的發(fā)展。

3 結(jié)論

本文以人工智能技術(shù)為核心,構(gòu)建了一種新的物聯(lián)網(wǎng)大數(shù)據(jù)挖掘算法,采用特征提取方法,檢測出物聯(lián)網(wǎng)大數(shù)據(jù)中的特征數(shù)據(jù),在分析所有數(shù)據(jù)信息熵后,引入遺傳學(xué)習(xí)方法,通過平均值計算設(shè)置聚類閾值,大大提高了數(shù)據(jù)挖掘的精度和算法的性能。

基于本文的研究內(nèi)容,未來可以進(jìn)一步研究如何在高度移動場景中提高算法挖掘的質(zhì)量,從而提高數(shù)據(jù)挖掘算法的適用性。

猜你喜歡
計算結(jié)果聚類數(shù)據(jù)挖掘
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
改進(jìn)支持向量機(jī)在特征數(shù)據(jù)挖掘中的智能應(yīng)用
一種改進(jìn)K-means聚類的近鄰傳播最大最小距離算法
AR-Grams:一種應(yīng)用于網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)的文本聚類方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
趣味選路
扇面等式
求離散型隨機(jī)變量的分布列的幾種思維方式
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
高淳县| 图木舒克市| 麻栗坡县| 深州市| 衡水市| 酒泉市| 余干县| 鸡泽县| 宾阳县| 葵青区| 康平县| 淳安县| 浦城县| 利川市| 蓝田县| 西安市| 神木县| 晋宁县| 昭通市| 皋兰县| 道真| 仪陇县| 淅川县| 崇义县| 乌海市| 于田县| 儋州市| 张家港市| 锡林郭勒盟| 湘西| 广昌县| 华亭县| 安乡县| 乌鲁木齐县| 宝丰县| 东乡族自治县| 新安县| 武冈市| 南靖县| 图们市| 固镇县|