国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于云計算的電子信息技術(shù)在大數(shù)據(jù)處理與分析中的應(yīng)用

2024-05-23 01:02:16
通信電源技術(shù) 2024年7期
關(guān)鍵詞:查全率最低值查準(zhǔn)率

高 陽

(單縣教育和體育局,山東 菏澤 274300)

0 引 言

現(xiàn)如今,電子信息共享技術(shù)日趨便捷,大數(shù)據(jù)處理平臺上的數(shù)據(jù)量也在持續(xù)增長,因此需要對相關(guān)大數(shù)據(jù)進(jìn)行篩選處理和挖掘分析,以確保后續(xù)的數(shù)據(jù)分析和應(yīng)用質(zhì)量。但針對目前的傳統(tǒng)算法應(yīng)用來看,普遍存在查詢完整性和精度不高、處理分析精度低等缺點[1]。

云服務(wù)器是大數(shù)據(jù)技術(shù)的硬件支持,為電子信息技術(shù)融合提供了客觀條件。但是,以往的云計算在數(shù)據(jù)處理中存在硬件資源占用高的問題,而改進(jìn)云計算方法能有效提升信息化建設(shè)水平。文章針對上述問題進(jìn)行深入探討,并基于云計算技術(shù),形成大數(shù)據(jù)處理分析和挖掘的聚合算法模型[2]。

1 相關(guān)概念分析

1.1 基于云計算的大數(shù)據(jù)采集技術(shù)

云計算實施的前提是對采集數(shù)據(jù)的預(yù)處理,而標(biāo)準(zhǔn)化處理指標(biāo)體系是預(yù)處理的保障機(jī)制,能夠通過標(biāo)準(zhǔn)值進(jìn)行采集數(shù)據(jù)的刪減、補(bǔ)充。在標(biāo)準(zhǔn)化處理過程中,依據(jù)指標(biāo)體系完成實際采集值和標(biāo)準(zhǔn)值的對比,以獲取采集值的權(quán)重[3]。在大數(shù)據(jù)采集過程中,數(shù)據(jù)采集量與采集模型Wtr中的指標(biāo)數(shù)量呈正相關(guān),大數(shù)據(jù)采集模型為

式中:Ni表示評價指標(biāo)體系中的指標(biāo)值;Nm表示標(biāo)準(zhǔn)值。利用算術(shù)平均法獲得指標(biāo)綜合評價的指數(shù)Vi,即

式中:Nt表示評價指標(biāo)體系中的評價系數(shù);Yi表示評級指標(biāo)體系中設(shè)置的評價指標(biāo)權(quán)數(shù);Di表示第i類大數(shù)據(jù)采集指標(biāo)值?;谏鲜瞿P徒?gòu)分析,精準(zhǔn)推進(jìn)大數(shù)據(jù)采集工作[4]。

1.2 基于改進(jìn)算法的大數(shù)據(jù)處理與分析

數(shù)據(jù)處理分析算法中,隨機(jī)森林表現(xiàn)出色。然而,該方法在處理分析的流程中可能存在過度模仿的情況,增加數(shù)據(jù)的錯誤率,降低處理分析的準(zhǔn)確率。為解決該問題,文章構(gòu)建代價敏感學(xué)習(xí)函數(shù)R(A),以便將錯誤數(shù)據(jù)Ai的出現(xiàn)率降至最低。R(A)的計算公式為

式中:Mc表示的是在未分離情況下錯誤處理分析的成本;Mc(Ai)表示錯誤數(shù)據(jù)Ai的特征值。Mc(Ai)具有i個不同的值,分裂后會產(chǎn)生i個不同的分裂節(jié)點[5]。本研究需要計算每個子節(jié)點帶來的錯誤處理分析值,由此測算最終分裂后的代價,Mc(Ai)的計算公式為

式中:n表示分裂節(jié)點數(shù);ni表示第i個分裂處的節(jié)點數(shù);pi表示第i個分裂處出現(xiàn)特性值的概率;FP表示錯誤分析的復(fù)雜程度;FN表示誤處理分析指數(shù)。由于引入了代價敏感性,所建立的代價函數(shù)無法處理相關(guān)的數(shù)據(jù)。首先,計算多數(shù)類c1、少數(shù)類c0、數(shù)據(jù)集N的中心[6]。為實現(xiàn)對大數(shù)據(jù)的簡化處理,文章提出改進(jìn)代價函數(shù)。聚類中心的權(quán)重為IG(xk,ci),相關(guān)計算公式為

式中:xk表示第k個樣本數(shù)據(jù)的特征值;ci表示第i個類型數(shù)據(jù);p(x,c)表示在類型c中x出現(xiàn)的概率;p(x)表示數(shù)據(jù)集N中x的出現(xiàn)比率;p(c)表示數(shù)據(jù)集N中c的出現(xiàn)比率。

最終可知,聚類過程函數(shù)Hc(x)的計算公式為

式中:argmin(·)表示最小輸出函數(shù);αk表示第k個樣本數(shù)據(jù)的差異系數(shù);F[hk(x)]表示改進(jìn)算法的大數(shù)據(jù)處理分析測算值[7]。

1.3 計算過程

在Map Reduce 模型里,本研究采用Canopy 與K-means 兩種聚類算法,通過并行化的方式集成已經(jīng)被劃分的數(shù)據(jù),從而完成數(shù)據(jù)處理、分析以及探索?;谠朴嬎愕拇髷?shù)據(jù)處理分析挖掘算法的實施步驟如下。

步驟1:數(shù)據(jù)集的劃分階段。假設(shè)利用改進(jìn)隨機(jī)森林處理分析后的數(shù)據(jù)集用[x1,x0,…,xn]表示,對其進(jìn)行隨機(jī)分片處理,處理結(jié)果用[splitl,split2,…,splitn]表示,將所有分片處理結(jié)果轉(zhuǎn)換為格式。

步驟2:Map 計算階段。在轉(zhuǎn)換后的數(shù)據(jù)分割結(jié)果中,本研究隨機(jī)挑選了k個數(shù)據(jù)點作為初始聚類的核心。然后,利用歐氏距離來估算其他數(shù)據(jù)點與核心數(shù)據(jù)點的距離。其目的是為了進(jìn)行數(shù)據(jù)類別的初步劃分。在完成上述數(shù)據(jù)點的類別劃分后,會生成。

步驟3:融合階段。依據(jù)Map 函數(shù)的輸出數(shù)據(jù),進(jìn)行數(shù)據(jù)融合和分析,融合結(jié)果用表示。

步驟4:Reduce 操作階段。讀取的相關(guān)數(shù)據(jù),然后求出各種類別的平均數(shù),并利用該數(shù)據(jù)確定下一個新的聚類中心。當(dāng)準(zhǔn)則函數(shù)的收斂性和迭代次數(shù)都達(dá)到最大值后,算法就會結(jié)束。如果滿足上述條件,就會得到聚類的結(jié)果。如果不是,就用新的聚類中心取代原有的聚類中心,重復(fù)步驟2,直到所有的迭代都完成,得到大數(shù)據(jù)處理分析挖掘的最終結(jié)果。

2 實驗結(jié)果分析

本研究收集的數(shù)據(jù)均進(jìn)行標(biāo)準(zhǔn)化處理,且處理過程均在Hadoop 云平臺上執(zhí)行。其中,實驗數(shù)據(jù)從數(shù)據(jù)集Amazon_initial、20-Newgroups、waveform 以及Covtype 中獲取,并在此基礎(chǔ)上對其展開電子信息數(shù)據(jù)映射分析,最終得到處理后的試驗樣本。為驗證文章提出方法的有效性,與Canopy 算法和K-means 算法進(jìn)行對比,指標(biāo)包括查全率、查準(zhǔn)率以及準(zhǔn)確率。其中,查全率、查準(zhǔn)率如表1 所示。

表1 查全率及查準(zhǔn)率的對比分析 單位:%

由表1 可知,Canopy 算法的全查率和準(zhǔn)查率最高值分別為86.5%和90.3%,最低值是72.1%、79.8%,平均值為79.89% 和84.09%;K-means 算法的查全率和查準(zhǔn)率最高值是78.5%和86.1%,最低值是70.3%和73.7%,平均值分別是74.03%和80.45%;聚合算法的查全率和查準(zhǔn)率最高值是98.7%和98.7%,最低值是95.6% 和94.1%,平均值是97.25%和95.76%。這表明文章所提算法的查全率和查準(zhǔn)率最優(yōu)。為進(jìn)一步驗證該算法的有效性,對比不同算法的準(zhǔn)確率,如表2 所示。

表2 基于云計算的大數(shù)據(jù)處理分析的對比結(jié)果

由表2 可知,在大數(shù)據(jù)處理準(zhǔn)確率方面,Canopy算法的準(zhǔn)確率最高值為86.3%,K-means 算法的準(zhǔn)確率最高值為86.9%,而聚合算法的準(zhǔn)確率最高值為98.7%,比Canopy 算法準(zhǔn)確率最高值高12.4%,比K-means 算法準(zhǔn)確率最高值高11.8%;Canopy 算法的處理準(zhǔn)確率最低值為72.3%,K-means 算法的準(zhǔn)確率最低值為79.4%,而聚合算法的準(zhǔn)確率最低值為94.6%,比Canopy 算法準(zhǔn)確率最低值高22.3%,比K-means 算法準(zhǔn)確率最低值高15.2%。對3 種算法處理準(zhǔn)確率的平均值進(jìn)行評估,結(jié)果顯示:Canopy 算法的平均準(zhǔn)確率為83.1%,K-means 算法的平均準(zhǔn)確率為83.4%,聚合算法的平均準(zhǔn)確度為96.4%,分別比Canopy 算法和K-means 算法高13.3%和13.0%。

總體來說,上述模型中大數(shù)據(jù)計算的準(zhǔn)確率基本保持在較高的水平,表明所用處理分析方式具有較強(qiáng)的精確度,能夠有效實現(xiàn)對海量數(shù)據(jù)的準(zhǔn)確處理分析。

3 結(jié) 論

綜合上述研究表明,文章提出的聚合算法的平均準(zhǔn)確率高于Canopy 算法和K-means 算法,應(yīng)用效果較好。經(jīng)過案例分析可知,聚合算法可以有效提高數(shù)據(jù)處理的準(zhǔn)確率、查全率以及查準(zhǔn)率,并確保海量數(shù)據(jù)的有效處理,提高云計算在電子信息技術(shù)領(lǐng)域的應(yīng)用效果。

猜你喜歡
查全率最低值查準(zhǔn)率
美國制造業(yè)PMI降至15個月最低值
債券(2019年1期)2019-09-05 04:39:41
海量圖書館檔案信息的快速檢索方法
基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
Effects of Bi on the microstructure and mechanical property of ZK60 alloy
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
基于Web的概念屬性抽取的研究
石门县| 宝清县| 加查县| 堆龙德庆县| 郧西县| 嘉禾县| 静安区| 汉源县| 和政县| 青岛市| 苗栗市| 依安县| 长垣县| 镇巴县| 库车县| 通州区| 清徐县| 酉阳| 中宁县| 察哈| 沙河市| 盈江县| 横峰县| 勃利县| 财经| 吉隆县| 揭阳市| 新邵县| 临漳县| 广宁县| 鄱阳县| 湟源县| 金山区| 周口市| 富川| 南京市| 剑河县| 喀什市| 精河县| 屏东市| 华宁县|