黃偉
摘要:該文將基于大數(shù)據(jù)挖掘技術(shù)的基本,分析大數(shù)據(jù)與大數(shù)據(jù)挖掘之間的相互聯(lián)系,對當(dāng)今主流數(shù)據(jù)挖掘算法進(jìn)行分類說明,最后以大數(shù)據(jù)時代中主流數(shù)據(jù)形態(tài)——非結(jié)構(gòu)數(shù)據(jù)為例,闡述大數(shù)據(jù)挖掘的數(shù)據(jù)處理方法,以期能夠為業(yè)內(nèi)人士提供理論參考。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)處理方法
中圖分類號:TP3? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)08-0023-02
隨著信息技術(shù)的不斷發(fā)展和普及,如今人們?nèi)粘;顒舆^程中所產(chǎn)生的數(shù)據(jù)信息也越來越龐大,該如何在龐大的數(shù)據(jù)信息中挖掘出可以促進(jìn)科學(xué)技術(shù)及社會發(fā)展的有用信息,其將是大數(shù)據(jù)時代中需要解決的重要難題。大數(shù)據(jù)挖掘技術(shù)的出現(xiàn)促使人們可以在海量的數(shù)據(jù)信息中挖掘出有用的知識和信息、總結(jié)出相關(guān)規(guī)律,進(jìn)而促使原本“無用”的數(shù)據(jù)信息發(fā)揮出更大的利益價值。
1 大數(shù)據(jù)挖掘的基本概念
所謂數(shù)據(jù)挖掘,就是指在大量的、不完善的、沒有規(guī)律的數(shù)據(jù)信息中,挖掘出可以對當(dāng)今科學(xué)技術(shù)以及社會發(fā)展有價值的知識和規(guī)律?,F(xiàn)如今,數(shù)據(jù)挖掘多是采用相應(yīng)的分析工具,在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)與分析模型之間的關(guān)系,此過程中會經(jīng)過數(shù)據(jù)清洗與集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析、模型評估、知識表示等一系列過程,最終為數(shù)據(jù)挖掘工具使用者提供有價值的數(shù)據(jù)信息[1]。為能夠有效發(fā)揮數(shù)據(jù)挖掘效果,數(shù)據(jù)挖掘分析工具中不僅融入了數(shù)據(jù)庫、模式識別、數(shù)據(jù)建模、數(shù)理統(tǒng)計等一系列信息分析處理技術(shù),還集成了人工智能等高新科學(xué)技術(shù),促使分析工具可以不斷進(jìn)行完善升級,進(jìn)而更快、更有效地獲取數(shù)據(jù)挖掘結(jié)果。其中數(shù)據(jù)庫、數(shù)理統(tǒng)計以及人工智能三種技術(shù)是數(shù)據(jù)挖掘的核心技術(shù)組成。
大數(shù)據(jù)是指常規(guī)軟件工具無法實現(xiàn)短時間內(nèi)抓取、管理的數(shù)據(jù)集成,此類數(shù)據(jù)具有海量性、高速性、多樣性、真實性以及價值性等特點。隨著信息技術(shù)的不斷發(fā)展和普及,如今人們?nèi)粘;顒又兴a(chǎn)生的數(shù)據(jù)信息也越來越多,這些信息中雖然包含著諸多有價值的數(shù)據(jù)信息,但由于數(shù)據(jù)體量過大,難以實現(xiàn)有效抓取,使得相關(guān)數(shù)據(jù)信息難以得到有效利用。為能夠解決這一問題,眾多科研人員以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),結(jié)合大數(shù)據(jù)的實際特點開發(fā)出了大數(shù)據(jù)挖掘技術(shù),也就是人們常說的大數(shù)據(jù)技術(shù)[2]。
從表面上來看,大數(shù)據(jù)技術(shù)和數(shù)據(jù)挖掘均是以在海量的數(shù)據(jù)信息中挖掘出有價值數(shù)據(jù)信息為目的,但從實際上來說,數(shù)據(jù)挖掘雖然發(fā)展起步時間更早,其并非僅適用于少量的數(shù)據(jù)挖掘過程中,對于海量數(shù)據(jù)信息中的數(shù)據(jù)挖掘也同樣可以使用,只不過隨著技術(shù)手段的革新發(fā)展,其被人們命以新的稱呼“大數(shù)據(jù)”,進(jìn)而使得很多未進(jìn)行過深入研究的人們認(rèn)為數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)是兩種目的相同,但內(nèi)容不同的兩種技術(shù)手段。另外,大數(shù)據(jù)雖然是以“大”來命名,但其關(guān)鍵點卻不是“大”,而是采用一種全新的數(shù)據(jù)挖掘思維和技術(shù)手段,對海量的數(shù)據(jù)信息進(jìn)行分析研究,進(jìn)而獲取到其中有價值的數(shù)據(jù)信息,這些數(shù)據(jù)信息不僅可以用于對未來發(fā)展的分析和評估,還可以根據(jù)其中所表現(xiàn)的趨勢,對技術(shù)和產(chǎn)品進(jìn)行有效更新[3]。因此,在未來的一段時間內(nèi),數(shù)據(jù)挖掘和大數(shù)據(jù)技術(shù)將會出現(xiàn)共存的情況,此時間將會持續(xù)到大數(shù)據(jù)技術(shù)可以完全替代數(shù)據(jù)挖掘為止。
2 數(shù)據(jù)挖掘算法
對當(dāng)今主流的數(shù)據(jù)挖掘算法進(jìn)行歸納匯總,可以分為關(guān)聯(lián)規(guī)則分析算法、聚類算法、預(yù)測與回歸算法以及索引排序算法四大類,具體內(nèi)容如下。
2.1 關(guān)聯(lián)規(guī)則分析算法
關(guān)聯(lián)規(guī)則分析算法可以有效確定頻繁項集。以著名的啤酒和尿布為例,關(guān)聯(lián)規(guī)則分析算法可以通過超市現(xiàn)有的購物數(shù)據(jù)發(fā)現(xiàn),很多男人在購買啤酒的同時,還會購買尿布,基于此種特點,超市可以通過縮小啤酒和尿布擺放距離的方式來提高兩種產(chǎn)品的實際銷量。常見的關(guān)聯(lián)規(guī)則分析算法有Apriori算法、FP-Growth等,這些算法可以通過設(shè)置最小支持度的方式在海量的數(shù)據(jù)信息中快速搜索頻繁項集[4]。
2.2 聚類算法
聚類算法可以在海量的數(shù)據(jù)信息中尋找出較為相似的數(shù)據(jù)項集。聚類算法可以將諸多具有相似屬性的數(shù)據(jù)信息聚為一類,常見的聚類算法應(yīng)用如電子商務(wù)商品中的相似推薦、音樂軟件的相似推薦等。聚類算法中以Kmeans算法和KNN算法最具代表性。很多電子商務(wù)平臺在為相似的商品推薦相似的用戶的時候,就可以通過KNN算法來對相似用戶進(jìn)行尋找,進(jìn)而達(dá)成用戶商品推薦效果。
2.3 預(yù)測與回歸算法
預(yù)測與回歸算法可以以海量的數(shù)據(jù)為基礎(chǔ),對數(shù)據(jù)信息的未來走勢和發(fā)展趨向進(jìn)行分析判斷。常見的預(yù)測與回歸算法有樸素貝葉斯算法、線性回歸算法等。這些算法在實際應(yīng)用過程中可以通過訓(xùn)練集來有效獲取數(shù)據(jù)預(yù)測模型,再通過數(shù)據(jù)預(yù)測模型來獲取某些數(shù)據(jù)信息的未來的預(yù)測返回值。其中線性回歸算法一般是通過梯度下降法來獲取到與模型最匹配的數(shù)據(jù)參數(shù)。
2.4 索引排序法
索引排序法中最具代表性的就是谷歌的PageRank算法,此算法是谷歌網(wǎng)絡(luò)搜索排序中所采用的主要算法,在實際應(yīng)用過程中,PageRank算法會將某一網(wǎng)站上所鏈接的數(shù)量視作此網(wǎng)站的“熱度”,鏈接數(shù)量越多,網(wǎng)站的“熱度”也就越高,如此算法便可以判斷此網(wǎng)站的潛在價值越高,可以賦予更高的排序,進(jìn)而使得此網(wǎng)站的實際排序越靠前。具體來說,PageRank算法會將網(wǎng)站視作為圖片的節(jié)點,將訪問網(wǎng)站的鏈接視作為此網(wǎng)站圖片的有向邊,并通過鄰近矩陣對圖片進(jìn)行表示,通過矩陣的相乘和轉(zhuǎn)置等方式來獲取相應(yīng)的運算結(jié)果。
3 非結(jié)構(gòu)化數(shù)據(jù)處理流程及方法
通常來說,非結(jié)構(gòu)化數(shù)據(jù)處理流程主要分為信息采集、網(wǎng)頁分類以及網(wǎng)絡(luò)預(yù)處理三個環(huán)節(jié),具體內(nèi)容如下。
3.1 信息采集
信息采集過程就是在海量的,雜亂無序的數(shù)據(jù)信息中采集到具有一定循序的數(shù)據(jù),并將數(shù)據(jù)存儲分門別類存儲到數(shù)據(jù)庫中的過程。從功能上來說,信息采集的主要面向?qū)ο鬄闃I(yè)內(nèi)專業(yè)技術(shù)人員,且在結(jié)合硬件設(shè)備性能以及信息采集成本考慮后,信息采集一般不考慮實現(xiàn)全網(wǎng)絡(luò)信息的快速收集,而是會局限在一定范圍中,此范圍就是信息采集過程中對互聯(lián)網(wǎng)上海量的網(wǎng)頁進(jìn)行判斷分析,確定哪些網(wǎng)頁值得訪問,哪些網(wǎng)絡(luò)不需要進(jìn)行訪問,值得訪問的網(wǎng)頁就是信息采集局限范圍[5]。在確定信息采集范圍后,信息采集還會根據(jù)自主確定采用何種訪問策略進(jìn)行網(wǎng)頁訪問,在此過程中不僅需要確保網(wǎng)頁訪問效率,還需要確保信息采集效果。即先合理設(shè)置種子鏈接集,然后經(jīng)由HTTP協(xié)議訪問頁面,并對頁面進(jìn)行下載,再通過數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析、模型評估等一系列確定網(wǎng)頁與主題之間是否具有聯(lián)系,最后提取出與主題關(guān)聯(lián)性較大的鏈接,通過各不相同的爬行策略來獲取與主題相關(guān)的信息。以采集信息主題的不同對當(dāng)今常見的信息采集方法進(jìn)行劃分,可以分為基于內(nèi)容的主體信息采集和基于超鏈接的主體信息采集兩大類。前一類方法在實際應(yīng)用過程中需要預(yù)先構(gòu)建出一個較為完善,且具有針對性的主題詞表;后一類方法則是根據(jù)網(wǎng)頁之間的相互應(yīng)用關(guān)系進(jìn)行信息采集。
3.2 網(wǎng)頁預(yù)處理
網(wǎng)頁預(yù)處理就是對信息采集所收集到的數(shù)據(jù)信息進(jìn)行篩選的過程,其不僅可以有效提高非結(jié)構(gòu)化數(shù)據(jù)處理效率,還能夠確保數(shù)據(jù)信息的精準(zhǔn)性和有效性。常用的網(wǎng)頁預(yù)處理算法有哈希算法和文本相似度算法等。其中哈希算法主要用于網(wǎng)頁的URL對比去重;文本相似度算法則主要是用于對網(wǎng)頁內(nèi)容的對比去除,兩種方法雖然針對的內(nèi)容不同的,但均是采用的網(wǎng)頁歸類去重方式。在實際應(yīng)用過程中,網(wǎng)頁預(yù)處理需要先對網(wǎng)頁內(nèi)容進(jìn)行特征提取,即將網(wǎng)頁內(nèi)容分解成為若干個特征集合,此步驟的主要作用是方便后續(xù)的特征提取以及相似度對比分析[6]。然后,網(wǎng)頁預(yù)處理會對特征信息進(jìn)行壓縮編碼,此過程不僅可以有效降低特征信息所占用的存儲空間,還可能進(jìn)一步提高網(wǎng)頁預(yù)處理效率。最后,網(wǎng)頁預(yù)處理會對分解壓縮后的特征信息進(jìn)行相似度計算分析,基恩洛根據(jù)一定的重復(fù)比例來判斷各網(wǎng)頁中是否存在重復(fù)網(wǎng)頁。在網(wǎng)頁預(yù)處理過程中,在對網(wǎng)頁進(jìn)行特征信息提取后,通過特定的算法將可以對特征信息轉(zhuǎn)化為一組特定的代碼,此代碼如指紋一樣具有不重復(fù)性,所以也被稱之為信息指紋。網(wǎng)頁預(yù)處理的實質(zhì)就是對信息指紋進(jìn)行對比分析,若是兩網(wǎng)頁之間的信息指紋重復(fù)量非常大,那么便可以確定此兩個網(wǎng)頁就是重復(fù)網(wǎng)頁,需要進(jìn)行去重處理。
3.3 網(wǎng)頁分類
網(wǎng)頁分類就是通過數(shù)據(jù)挖掘所獲取的分類模型,對去重后的網(wǎng)頁進(jìn)行分類提煉,進(jìn)而在網(wǎng)頁中獲取到相關(guān)有價值的信息。結(jié)合實際情況來看,很多時候人們在對數(shù)據(jù)信息進(jìn)行處理時所面臨的問題就是信息分類問題,合理的分類將可以將世界變得井井有條,進(jìn)而降低人們對世界的理解難度。非結(jié)構(gòu)化數(shù)據(jù)處理流程中的網(wǎng)頁分類也發(fā)揮著相同的作用,所以在實際應(yīng)用過程中網(wǎng)頁分類環(huán)節(jié)多使用于信息檢索、機(jī)器翻譯、信息審核、消息分類等領(lǐng)域中,此過程中網(wǎng)頁分類會合理選擇分類特征詞,然后判斷數(shù)據(jù)信息與分類特征值的相似權(quán)重來對數(shù)據(jù)信息進(jìn)行合理分配。
4 結(jié)束語
在大數(shù)據(jù)時代,互聯(lián)網(wǎng)中海量的數(shù)據(jù)信息中蘊含著諸多具有利用價值的信息內(nèi)容,如何對有價值信息進(jìn)行有效挖掘,是數(shù)據(jù)使用的重要環(huán)節(jié)內(nèi)容。大數(shù)據(jù)挖掘作為海量數(shù)據(jù)發(fā)掘的技術(shù)工具,其可以根據(jù)數(shù)據(jù)信息中某些規(guī)律,對海量數(shù)據(jù)信息進(jìn)行有效分類整合,然后供使用者進(jìn)行使用。隨著大數(shù)據(jù)技術(shù)的不斷普及應(yīng)用,如今各行各業(yè)對于大數(shù)據(jù)挖掘均有著一定的應(yīng)用,且隨著社會經(jīng)濟(jì)與科學(xué)技術(shù)的不斷發(fā)展,此應(yīng)用需求還會不斷增加。因此,對大數(shù)據(jù)挖掘進(jìn)行相關(guān)研究將有著極為重要的現(xiàn)實意義,需要對相關(guān)技術(shù)進(jìn)行不斷地完善和升級。
參考文獻(xiàn):
[1] 龍虎,張小梅.基于大數(shù)據(jù)的多媒體弱關(guān)聯(lián)數(shù)據(jù)智能壓縮方法研究[J].現(xiàn)代電子技術(shù),2020,43(19):102-105,110.
[2] 權(quán)潔,王麗.基于云計算技術(shù)的數(shù)據(jù)挖掘平臺建設(shè)策略[J].計算機(jī)產(chǎn)品與流通,2020(11):11.
[3] 郝林倩.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分析[J].太原學(xué)院學(xué)報(自然科學(xué)版),2020,38(3):42-45.
[4] 郭偉偉,吳文臣,隋亮.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2020,38(8):103-105.
[5] 李金玲.智慧檔案系統(tǒng)的功能與數(shù)據(jù)挖掘及智能利用系統(tǒng)設(shè)計研究[J].蘭臺內(nèi)外,2020(25):4-6.
[6] 王茜,平金珍.基于大數(shù)據(jù)背景的數(shù)據(jù)挖掘技術(shù)算法研究[J].信息與電腦(理論版),2020,32(15):56-58.
【通聯(lián)編輯:代影】