(廈門市美亞柏科信息股份有限公司 福建 361008)
社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等的出現(xiàn)帶領(lǐng)人們進(jìn)入到全新的世界,同時(shí)也給人們的生活注入了新鮮的血液,滿足了人們對(duì)高品質(zhì)生活的追求,讓人們的生活上升到了新的高度。但大量信息出現(xiàn)的同時(shí)也讓數(shù)據(jù)不斷地增加,如何有效地得到更加精確的數(shù)據(jù)呢?這是一個(gè)值得我們?nèi)フJ(rèn)真思考的問題。
大數(shù)據(jù)中所具有的數(shù)據(jù)是復(fù)雜多變的,面對(duì)這種情況就需要采用合理的方式將數(shù)據(jù)進(jìn)行有效區(qū)分,讓收集到的數(shù)據(jù)能夠快速地被辨別。在實(shí)踐證明下發(fā)現(xiàn)傳統(tǒng)的方式不能夠?qū)?shù)據(jù)進(jìn)行有效區(qū)分,還會(huì)讓所收集到的數(shù)據(jù)出現(xiàn)不完整的情況,這是由于傳統(tǒng)方式主要以數(shù)據(jù)采樣為切入口,從而以縮小數(shù)據(jù)范圍的形式對(duì)數(shù)據(jù)庫進(jìn)行高效地管理,雖然這種方式在一定程度上減少了對(duì)數(shù)據(jù)進(jìn)行分析的時(shí)間,但會(huì)導(dǎo)致所掌握的數(shù)據(jù)有誤差并出現(xiàn)無用的數(shù)據(jù),不能夠讓數(shù)據(jù)發(fā)揮最大的價(jià)值,還會(huì)讓數(shù)據(jù)在被收集后不能夠進(jìn)行二次使用。傳統(tǒng)方式還會(huì)將數(shù)據(jù)進(jìn)行強(qiáng)制性的聚類,但這種方式會(huì)對(duì)數(shù)據(jù)的多維結(jié)構(gòu)造成影響,讓數(shù)據(jù)的多維結(jié)構(gòu)出現(xiàn)不完整的情況,使得計(jì)算的結(jié)果出現(xiàn)誤差。
而數(shù)據(jù)聚類分析在對(duì)數(shù)據(jù)進(jìn)行處理的過程中將數(shù)據(jù)原有的特征與數(shù)據(jù)具有的多維關(guān)系進(jìn)行保留,根據(jù)不同數(shù)據(jù)所具有的不同特征采取相應(yīng)的方式對(duì)數(shù)據(jù)進(jìn)行分析,能夠讓同類數(shù)據(jù)與異類數(shù)據(jù)被有效地分析。
采用多維分析是推動(dòng)聚類區(qū)分的重要內(nèi)容,要想開啟多維分析的按鈕,就需要采取相應(yīng)的方式讓維度能夠被改變,充分借助數(shù)據(jù)非結(jié)構(gòu)的特征能夠?qū)?shù)據(jù)維度的改變產(chǎn)生一定的效果,在事實(shí)表中將所收集到的數(shù)據(jù)維度融合到其中,能夠有效地應(yīng)對(duì)復(fù)雜多變的問題,讓數(shù)據(jù)維度有所變化,這也說明了數(shù)據(jù)中的維度無論上升多少,都不會(huì)讓數(shù)據(jù)分析的性能產(chǎn)生改變。
多維聚類分析算法主要是一個(gè)決策樹的模式,在整個(gè)過程中能夠通過命令將內(nèi)容環(huán)環(huán)執(zhí)行并得出最終的結(jié)果。這種算法能夠通過分析數(shù)據(jù)項(xiàng)的形式,在所有檢測(cè)規(guī)則產(chǎn)生的結(jié)果分布中,對(duì)數(shù)據(jù)項(xiàng)打上各種維度的標(biāo)簽,依據(jù)標(biāo)簽動(dòng)態(tài)地對(duì)該類數(shù)據(jù)類型的質(zhì)量檢測(cè)流程進(jìn)行調(diào)整,讓檢測(cè)的數(shù)據(jù)質(zhì)量能夠得到保證。
所謂非結(jié)構(gòu)化數(shù)據(jù)就是沒有完整結(jié)構(gòu)的數(shù)據(jù),它能夠?qū)?shù)字、符號(hào)等具有明顯結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理,還能夠?qū)β曇?、圖像文本等非結(jié)構(gòu)性數(shù)據(jù)進(jìn)行處理。全部字段的記錄對(duì)字段并未做過多的要求。但不能夠利用數(shù)據(jù)庫二維邏輯表對(duì)數(shù)據(jù)進(jìn)行表示。多維去重聚類分析算法主要是借助貝葉斯網(wǎng)絡(luò)的特殊模型結(jié)構(gòu)對(duì)隱形結(jié)構(gòu)進(jìn)行分析,并讓顯變量能夠與隱變量具有關(guān)聯(lián)性,所有的隱變量能夠與數(shù)據(jù)聚類相互對(duì)應(yīng),能夠接納多個(gè)隱變量的存在。
多維去重聚類算法在對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行有效分析的過程中會(huì)采用相應(yīng)的方式進(jìn)行,在很大程度上能夠提升去重效果,讓去重的效果能夠上升到新的高度,以下是對(duì)數(shù)據(jù)去重的具體步驟:①為了讓數(shù)據(jù)能夠有效地被清理,可以以數(shù)據(jù)預(yù)處理為突破口找到打開去重?cái)?shù)據(jù)的鑰匙,有效地對(duì)數(shù)據(jù)進(jìn)行保護(hù),在對(duì)數(shù)據(jù)進(jìn)行處理的過程中對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換主要是通過屬性內(nèi)連續(xù)值來區(qū)分。②使用統(tǒng)計(jì)學(xué)中的概率模式能夠讓數(shù)據(jù)預(yù)處理的效果更高,可以將數(shù)據(jù)集劃分成清晰易懂的形式,能夠在一定程度上使得結(jié)果準(zhǔn)確率更高。在借助分類器進(jìn)行評(píng)估的過程中,若能夠讓分類器正常使用,就說明評(píng)估的結(jié)果準(zhǔn)確率高;若分類器不能夠被使用,就應(yīng)該采取相應(yīng)的措施讓分類器能夠達(dá)到理想中的狀態(tài)。③為了讓文本通過計(jì)算機(jī)的識(shí)別環(huán)節(jié),就需要借助向量空間模型,在將文本進(jìn)行轉(zhuǎn)換的過程中應(yīng)該利用文本中詞的表現(xiàn)形式進(jìn)行量化處理。④為了對(duì)維數(shù)進(jìn)行有效控制,使得結(jié)果更加精確,就需要采取合理且有效的方式進(jìn)行,使得分類的速度有所提升并讓分類的結(jié)果更加精確。
依據(jù)非結(jié)構(gòu)化數(shù)據(jù)的特征能夠?qū)Χ嗑S數(shù)據(jù)聚類分析函數(shù)模型的概念有所了解。以下是多維數(shù)據(jù)聚類分析函數(shù)模型的含義:①利用數(shù)據(jù)集的形式對(duì)數(shù)據(jù)進(jìn)行分析,例如給定數(shù)據(jù)集E={E1,E2,E3,…,En},類別集合F={F1,F(xiàn)2,F(xiàn)3,…,F(xiàn)n},主要是為了讓集合D 中的D1、D2等能夠與其中的類別進(jìn)行對(duì)應(yīng)并得到反映。②若給定大數(shù)據(jù)變量集合為O={O1,O2,O3,…On},變量Oi主要依賴于節(jié)點(diǎn)集合O,那么每一個(gè)變量都可以表示一個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都能夠從集合O 中的所有向節(jié)點(diǎn)引導(dǎo)一條有向邊到達(dá)Oi。③若W 與N 是貝葉斯網(wǎng)S 中的兩個(gè)變量,P 是O 中與W 與N 集合無關(guān)的節(jié)點(diǎn)集合。若Pd對(duì)W、N 進(jìn)行分割,就會(huì)讓W(xué)、N 在條件P 出現(xiàn)時(shí)獨(dú)立,進(jìn)一步說明了貝葉斯網(wǎng)絡(luò)圖論側(cè)面與概率論側(cè)面所具有的聯(lián)系。④為了對(duì)樣本空間進(jìn)行區(qū)分,將貝葉斯公式設(shè)定為{l1,l2,l3,…,ln},若Q(Ii)能夠反映Ii所出現(xiàn)的概率,同時(shí)Q(Ii)>0,且i 是自然數(shù)。任意時(shí)間出現(xiàn)時(shí)都會(huì)使得Q(x)>0。⑤如果依據(jù)特征矢量x 提供的證據(jù)對(duì)某個(gè)物體進(jìn)行分類,,p(wj/x)>p(wi/x)(i≠j)。應(yīng)用貝葉斯公式展開后可以得到:p(x/wj)p(wj)>p(x/wi)p(wi),決策規(guī)則具有一定的似然率測(cè)試規(guī)則。⑥借助概率的形式讓推理的過程難度得到快速地降低,以消元過程為突破口,能夠找到數(shù)據(jù)被有效處理的過程,從而計(jì)算出概率很小的樣本。
在對(duì)數(shù)據(jù)進(jìn)行篩選的過程中傳統(tǒng)的數(shù)據(jù)去重算法已經(jīng)不能夠滿足去重的要求了,會(huì)使得去重的結(jié)果產(chǎn)生誤差并將有用的數(shù)據(jù)篩選出去,讓結(jié)果達(dá)不到預(yù)期的效果。所以對(duì)數(shù)據(jù)去重算法進(jìn)行大力的升級(jí)是十分重要的內(nèi)容。在通過多種算法對(duì)數(shù)據(jù)去重后發(fā)現(xiàn)聚類算法具有明顯的篩選優(yōu)勢(shì),數(shù)據(jù)去重的精確率比其他同類算法的精確率提高了30%,同時(shí)對(duì)數(shù)據(jù)檢測(cè)的速度十分快速且準(zhǔn)確率很高,能夠推動(dòng)多維數(shù)據(jù)去重。
多維數(shù)據(jù)在對(duì)所收集到的數(shù)據(jù)進(jìn)行檢測(cè)的過程中能夠提升數(shù)據(jù)檢測(cè)的準(zhǔn)確率,傳統(tǒng)的檢測(cè)數(shù)據(jù)的方式已經(jīng)不能夠滿足數(shù)據(jù)準(zhǔn)確率高的要求了,主要是由于傳統(tǒng)算法在面對(duì)突發(fā)情況的時(shí)候,會(huì)出現(xiàn)對(duì)數(shù)據(jù)進(jìn)行檢測(cè)的誤差,讓數(shù)據(jù)的質(zhì)量下降到最低點(diǎn),使得檢測(cè)的結(jié)果達(dá)不到理想中的狀態(tài),同時(shí)對(duì)數(shù)據(jù)進(jìn)行去重需要很長的時(shí)間來進(jìn)行,加大了數(shù)據(jù)去重的時(shí)間成本,讓數(shù)據(jù)去重的整個(gè)過程變得十分復(fù)雜,不利于提升數(shù)據(jù)去重的效率。而多維數(shù)據(jù)去重能夠?qū)?shù)據(jù)進(jìn)行及時(shí)且有效地分析,大力提升了數(shù)據(jù)去重的速度。在對(duì)數(shù)據(jù)進(jìn)行有效分析后能夠主動(dòng)地對(duì)檢測(cè)的結(jié)果反饋,讓所收集到的數(shù)據(jù)質(zhì)量能夠提升,從而使得整個(gè)數(shù)據(jù)庫是有用的且重復(fù)率很低,切實(shí)地幫助了使用者。
充分借助多維數(shù)據(jù)對(duì)數(shù)據(jù)庫進(jìn)行篩選,能夠及時(shí)地將所要的數(shù)據(jù)進(jìn)行精確定位,同時(shí)保留了價(jià)值很高的數(shù)據(jù)。充分利用規(guī)則相似性評(píng)估算法與多維標(biāo)簽,能夠及時(shí)地將類型不明確的數(shù)據(jù)項(xiàng)的質(zhì)量直觀地展現(xiàn)出來,使得不明確類型的數(shù)據(jù)項(xiàng)能夠主動(dòng)地對(duì)檢測(cè)相關(guān)的規(guī)定進(jìn)行有效反映,對(duì)數(shù)據(jù)的準(zhǔn)確性及時(shí)地進(jìn)行了篩選,能夠在一定程度上推動(dòng)多維數(shù)據(jù)檢測(cè)的速率,使得數(shù)據(jù)檢測(cè)的工作壓力得到了緩解。
多維數(shù)據(jù)檢測(cè)能夠使得檢測(cè)的整個(gè)過程逐漸簡單化,在對(duì)傳統(tǒng)算法進(jìn)行優(yōu)化的過程中,運(yùn)用這種算法對(duì)數(shù)據(jù)進(jìn)行去重能夠縮減去重的時(shí)間,在很大程度上使得時(shí)間成本得到了降低,在執(zhí)行某個(gè)命令的過程中,能夠按照命令的要求執(zhí)行,透過每一環(huán)的執(zhí)行最終將結(jié)果快速地得出,相比于傳統(tǒng)的方式,能夠讓整個(gè)過程具有簡便性特征。
在大數(shù)據(jù)環(huán)境中對(duì)多維數(shù)據(jù)去重具有多種方式,但在實(shí)際去重的過程中能夠知道聚類算法的效果更佳,并且聚類算法所花費(fèi)的成本更低。例如,模糊信息?;绞綄?duì)數(shù)據(jù)分析的效果很差,并且不能夠有效地分析數(shù)據(jù)與數(shù)據(jù)之間的明顯區(qū)別,這使得最終篩選的數(shù)據(jù)并不是理想中的狀態(tài);粗糙集近似法在對(duì)多維數(shù)據(jù)去重的過程中不僅擁有較強(qiáng)的表達(dá)方式,而且對(duì)數(shù)據(jù)分析的能力要求很高。在對(duì)不同去重方式進(jìn)行對(duì)比后能夠知道不同算法擁有自己獨(dú)特的優(yōu)勢(shì),在大數(shù)據(jù)環(huán)境下應(yīng)該依據(jù)不同領(lǐng)域進(jìn)行有效運(yùn)用,才能夠讓不同算法發(fā)揮最大的價(jià)值。
隨著信息化時(shí)代的不斷推進(jìn),在大數(shù)據(jù)環(huán)境中多維數(shù)據(jù)去重成了十分艱巨且重大的內(nèi)容,人們開始大力注重對(duì)多維數(shù)據(jù)的去重,讓所收集到的數(shù)據(jù)能夠降低重復(fù)率并且讓所得到的數(shù)據(jù)能夠更加精確化。而聚類算法的運(yùn)用能夠在很大程度上提升對(duì)多維數(shù)據(jù)去重的效率,在與其他算法進(jìn)行對(duì)比后能夠明顯看到聚類算法比同類算法的精確度更高,按動(dòng)了去重質(zhì)量優(yōu)化的加速鍵。