鄭涵
摘 要: 為了提高云計(jì)算Web數(shù)據(jù)分類的準(zhǔn)確性,針對(duì)當(dāng)前C均值分類的模糊性較大的問題,提出一種基于概率分析的云技術(shù)Web數(shù)據(jù)的分類數(shù)學(xué)模型構(gòu)建方法,首先結(jié)合數(shù)理統(tǒng)計(jì)理論建立云技術(shù)Web數(shù)據(jù)分類的狀態(tài)特征方程,構(gòu)建Web數(shù)據(jù)準(zhǔn)確分類的邊值收斂條件,采用概率隨機(jī)泛函進(jìn)行云技術(shù)Web數(shù)據(jù)分類的穩(wěn)定特征優(yōu)化解求解,然后在有限論域內(nèi)實(shí)現(xiàn)Web數(shù)據(jù)準(zhǔn)確分類的置信區(qū)間準(zhǔn)確計(jì)算,實(shí)現(xiàn)數(shù)據(jù)有效分類。最后進(jìn)行仿真分析,結(jié)果表明,采用該文方法進(jìn)行云技術(shù)Web數(shù)據(jù)分類的準(zhǔn)確性較好、置信度較高。
關(guān)鍵詞: 概率分析; 云技術(shù); Web數(shù)據(jù); 數(shù)據(jù)分類
中圖分類號(hào): TN911?34; TP211.62 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)16?0041?03
Abstract: In order to improve the accuracy of cloud computing Web data classification, in allusion to the fuzzification of C means classification, a method of constructing the probability analysis based classification mathematical model of cloud technology Web data is put forward. The state feature equation of cloud technology Web data classification is established according to the mathematical statistics theory. The boundary value convergence condition of accurate classification of Web data is built. probability random functional is used to solve stable feature optimization solution of cloud technology Web data classification, and then realize the Web data classification calculation at confidence interval in finite domain and implement the effective data classification. The simulation analysis results show that the method has high accuracy and high confidence coefficient for cloud technology Web data classification.
Keywords: probability analysis; cloud technology; Web data; data classification
0 引 言
在云計(jì)算的大數(shù)據(jù)信息時(shí)代下,大量數(shù)據(jù)通過云技術(shù)實(shí)現(xiàn)網(wǎng)格化并行計(jì)算,提高了數(shù)據(jù)的處理速度,采用云計(jì)算進(jìn)行Web數(shù)據(jù)處理,首先需要進(jìn)行海量數(shù)據(jù)的分類處理,數(shù)據(jù)分類是實(shí)現(xiàn)海量數(shù)據(jù)的分區(qū)域分屬性計(jì)算的基礎(chǔ),數(shù)據(jù)分類是提高云計(jì)算處理速度的關(guān)鍵,研究數(shù)據(jù)的優(yōu)化分類技術(shù),同樣在模式識(shí)別和信息檢索中具有廣闊的應(yīng)用前景。傳統(tǒng)的數(shù)據(jù)分類方法主要有模糊C均值聚類方法[1]、支持向量機(jī)分類算法[2]、Bagging的概率神經(jīng)網(wǎng)絡(luò)集成分類方法等[3],上述方法在進(jìn)行數(shù)據(jù)分類中容易出現(xiàn)局部收斂和對(duì)初始值敏感性較強(qiáng)的問題,對(duì)此本文提出一種基于概率分析的云技術(shù)Web數(shù)據(jù)的分類數(shù)學(xué)模型構(gòu)建方法,構(gòu)建數(shù)據(jù)分類的數(shù)學(xué)模型并應(yīng)用在Web數(shù)據(jù)分類中,取得了較好的效果。
1 數(shù)據(jù)分類狀態(tài)特征方程構(gòu)建
為了實(shí)現(xiàn)云技術(shù)Web數(shù)據(jù)分類的數(shù)學(xué)模型構(gòu)建,需要首先構(gòu)建數(shù)據(jù)分類狀態(tài)特征方程,給定云技術(shù)Web數(shù)據(jù)信息流的一向量組[x1,x2,…,xn∈Cm](m維復(fù)數(shù)空間),采用隨機(jī)概率密度泛函進(jìn)行數(shù)據(jù)分類的高階矩分布計(jì)算,取數(shù)據(jù)分類的階數(shù)[q=4],在凸優(yōu)化聚類約束條件下,數(shù)據(jù)分類的周期解系數(shù)[bk]取作[b2=b-2=1,] [b1=b-1=2,b0=0]。采用類決策樹分類的特征層融合方法[4],構(gòu)建數(shù)據(jù)分類的Bernoulli空間,在無窮維向量空間得到Web數(shù)據(jù)分類的平衡狀態(tài)分布向量組為:
4 實(shí)驗(yàn)測(cè)試分析
對(duì)云技術(shù)Web數(shù)據(jù)的分類仿真實(shí)驗(yàn)建立在Deep Web大型云計(jì)算數(shù)據(jù)庫基礎(chǔ)上,以Matlab 2012為仿真工具,采用爬蟲算法爬取網(wǎng)絡(luò)中的云計(jì)算Web數(shù)據(jù)進(jìn)行樣本采集,采集的采樣率為[fS=10 kHz],迭代次數(shù)為500次,樣本集和測(cè)試集的查詢個(gè)數(shù)分別為200個(gè)和500個(gè)查詢,云技術(shù)Web數(shù)據(jù)分別設(shè)定5和6個(gè)屬性類別,得到數(shù)據(jù)分類的輸出結(jié)果如圖2所示。
圖2 數(shù)據(jù)分類的輸出結(jié)果
從圖2得知,采用本文方法進(jìn)行云技術(shù)Web數(shù)據(jù)分類的準(zhǔn)確性較好,能有效實(shí)現(xiàn)對(duì)各個(gè)屬性類別的數(shù)據(jù)分類,誤分概率較低,圖3給出了不同方法進(jìn)行數(shù)據(jù)分類的誤分率對(duì)比結(jié)果。
圖3中給出了4個(gè)數(shù)據(jù)集采用三種方法進(jìn)行數(shù)據(jù)分類的誤分概率統(tǒng)計(jì),分析得知,采用本文方法進(jìn)行數(shù)據(jù)分類的誤分率最低、置信度較高、性能最好。
5 結(jié) 語
本文提出一種基于概率分析的云技術(shù)Web數(shù)據(jù)的分類數(shù)學(xué)模型構(gòu)建方法,結(jié)合數(shù)理統(tǒng)計(jì)理論建立云技術(shù)Web數(shù)據(jù)分類的狀態(tài)特征方程,構(gòu)建Web數(shù)據(jù)準(zhǔn)確分類的邊值收斂條件,采用概率隨機(jī)泛函進(jìn)行云技術(shù)Web數(shù)據(jù)分類的穩(wěn)定特征優(yōu)化解求解,然后在有限論域內(nèi)實(shí)現(xiàn)Web數(shù)據(jù)準(zhǔn)確分類的置信區(qū)間準(zhǔn)確計(jì)算,實(shí)現(xiàn)數(shù)據(jù)有效分類。仿真結(jié)果表明,采用本文方法進(jìn)行云技術(shù)Web數(shù)據(jù)分類的準(zhǔn)確性較好、置信度較高,性能優(yōu)于傳統(tǒng)方法。
參考文獻(xiàn)
[1] 孫力娟,陳小東,韓崇,等.一種新的數(shù)據(jù)流模糊聚類方法[J].電子與信息學(xué)報(bào),2015,37(7):1620?1625.
[2] 朱珍.基于神經(jīng)網(wǎng)絡(luò)集成分類器預(yù)處理的支持向量機(jī)分類算法[J].科技通報(bào),2013,29(4):26?30.
[3] 蔣蕓,陳娜,明利特,等.基于Bagging的概率神經(jīng)網(wǎng)絡(luò)集成分類算法[J].計(jì)算機(jī)科學(xué),2013,40(5):242?246.
[4] 尚朝軒,王品,韓壯志,等.基于類決策樹分類的特征層融合識(shí)別算法[J].控制與決策,2016,31(6):1009?1014.
[5] 張紅蕊,張永,于靜雯.云計(jì)算環(huán)境下基于樸素貝葉斯的數(shù)據(jù)分類[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(3):27?30.
[6] 劉俊,劉瑜,何友,等.雜波環(huán)境下基于全鄰模糊聚類的聯(lián)合概率數(shù)據(jù)互聯(lián)算法[J].電子與信息學(xué)報(bào),2016,38(6):1438?1445.endprint