謝 芳
(紅河學(xué)院 云南 蒙自 661100)
大數(shù)據(jù),也被稱為巨量資料,是依托計(jì)算機(jī)、互聯(lián)網(wǎng)及信息技術(shù)而出現(xiàn)的一個(gè)新概念,大數(shù)據(jù)具有數(shù)據(jù)種類多、數(shù)據(jù)量大、數(shù)據(jù)處理快以及數(shù)據(jù)價(jià)值密度低等特點(diǎn)?;ヂ?lián)網(wǎng)大數(shù)據(jù)指的是,用戶使用終端的過程中所產(chǎn)生的數(shù)據(jù),包括流量、網(wǎng)絡(luò)協(xié)議等方面的內(nèi)容,供應(yīng)商提供網(wǎng)絡(luò),通過數(shù)據(jù),供應(yīng)商便可以獲取用戶的相關(guān)信息。當(dāng)今時(shí)代背景下,大數(shù)據(jù)處理已經(jīng)成為互聯(lián)網(wǎng)技術(shù)的主要發(fā)展方向,大數(shù)據(jù)處理過程中,大數(shù)據(jù)挖掘占據(jù)著十分重要的地位。下文中,筆者就基于互聯(lián)網(wǎng)的大數(shù)據(jù)挖掘關(guān)鍵技術(shù)進(jìn)行了分析。
互聯(lián)網(wǎng)大數(shù)據(jù)采集可以劃分為2個(gè)階段,一是基礎(chǔ)支撐層大數(shù)據(jù)采集,二是智能感知層大數(shù)據(jù)采集?;A(chǔ)支撐層大數(shù)據(jù)采集,主要目的是為數(shù)據(jù)平臺的建立提供物聯(lián)網(wǎng)、數(shù)據(jù)庫等技術(shù);智能感知層大數(shù)據(jù)采集,主要是進(jìn)行數(shù)據(jù)識別、數(shù)據(jù)傳輸以及數(shù)據(jù)感知等[1]。運(yùn)營商通過合理處理互聯(lián)網(wǎng)大數(shù)據(jù),便可以根據(jù)用戶需求變化情況,及時(shí)做出反應(yīng),更好地滿足用戶的數(shù)據(jù)需求。
互聯(lián)網(wǎng)之中,時(shí)時(shí)刻刻產(chǎn)生著大量數(shù)據(jù)信息,主要以互動信息、日志、視頻等形式存在,雖然為用戶提供了一定的便利,但給運(yùn)營商的數(shù)據(jù)采集帶來了沉重的壓力,具體體現(xiàn)在:首先,多源數(shù)據(jù)獲取方面存在著一定的問題。大數(shù)據(jù)有著動態(tài)性、多元異構(gòu)的特征,雖然單個(gè)用戶的信息價(jià)值不高,但整合多個(gè)用戶的信息之后,便可以提高信息的整體價(jià)值。但就現(xiàn)階段來說,大數(shù)據(jù)采集過程中,多元化數(shù)據(jù)的采集難度非常大,給供應(yīng)商造成了嚴(yán)重的影響。其次,數(shù)據(jù)實(shí)時(shí)挖掘的難度較大。信息化時(shí)代背景下,數(shù)據(jù)信息處理過程中已經(jīng)應(yīng)用了關(guān)聯(lián)分析、聚類分析手段,但采取模擬分析方法,不能獲取實(shí)時(shí)數(shù)據(jù)。最后,海量異構(gòu)管理方面存在著一定的問題[2]?;ヂ?lián)網(wǎng)之中的異構(gòu)數(shù)據(jù)信息非常多,一些異構(gòu)數(shù)據(jù)缺乏注冊結(jié)構(gòu),價(jià)值參差不齊,為提高數(shù)據(jù)質(zhì)量,必須對關(guān)鍵數(shù)據(jù)進(jìn)行異構(gòu)分析,但其難度相對較大。
互聯(lián)網(wǎng)大數(shù)據(jù)挖掘前期,必須做好預(yù)處理,采取科學(xué)合理的手段,對互聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)行有效的預(yù)處理,主要內(nèi)容包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約等?;ヂ?lián)網(wǎng)大數(shù)據(jù)有著龐大的數(shù)據(jù)量,但其中有價(jià)值的數(shù)據(jù)并不是很多,數(shù)據(jù)量的增加,也導(dǎo)致了數(shù)據(jù)噪音問題的加劇,一些不常用的數(shù)據(jù),數(shù)據(jù)量也在不斷增加,使得媒體數(shù)據(jù)處理并不完善,甚至被碎片化處理[3]。面對這樣的問題,互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)處理過程中,可以應(yīng)用數(shù)據(jù)清洗技術(shù)、數(shù)據(jù)降噪技術(shù),對大數(shù)據(jù)進(jìn)行有效處理。與此同時(shí),采取數(shù)據(jù)挖掘技術(shù),便可以在預(yù)處理階段獲得數(shù)據(jù)的分類知識、時(shí)序知識,這對于數(shù)據(jù)價(jià)值的深入挖掘,有著十分重要的意義。
互聯(lián)網(wǎng)大數(shù)據(jù)的速度較快,在進(jìn)行大數(shù)據(jù)處理的過程中,若處理不及時(shí)或者是處理不到位,便會導(dǎo)致數(shù)據(jù)信息價(jià)值越來越低。面對這樣的情況,大數(shù)據(jù)處理過程中,應(yīng)對多個(gè)領(lǐng)域進(jìn)行數(shù)據(jù)實(shí)時(shí)挖掘,并采取在線處理手段,實(shí)現(xiàn)數(shù)據(jù)處理效率的提高,并要對數(shù)據(jù)算法、數(shù)據(jù)處理模式進(jìn)行改進(jìn)??梢暬夹g(shù)指的是,有機(jī)結(jié)合計(jì)算機(jī)的認(rèn)知能力、融合能力以及大數(shù)據(jù)挖掘技術(shù),通過可視化技術(shù)、人機(jī)交互技術(shù),來進(jìn)行數(shù)據(jù)分析。互聯(lián)網(wǎng)大數(shù)據(jù)可視化技術(shù)可以實(shí)現(xiàn)數(shù)據(jù)分析能力、數(shù)據(jù)處理能力的提高。
互聯(lián)網(wǎng)大數(shù)據(jù)具有一定的復(fù)雜性,不僅給用戶體驗(yàn)帶來了不良影響,也給故障診斷帶來了很大的難度。互聯(lián)網(wǎng)大數(shù)據(jù)挖掘,主要是在明確掌握無線網(wǎng)絡(luò)原理的基礎(chǔ)上,應(yīng)用數(shù)據(jù)分析技術(shù)、數(shù)據(jù)挖掘技術(shù),獲取數(shù)據(jù)報(bào)表,以達(dá)到開放API接口的目的。通過API接口可以獲取數(shù)據(jù)信息,主要包括以下幾種類型:一是網(wǎng)絡(luò)分析數(shù)據(jù)信息,對會話、流量等方面進(jìn)行分析,便可以對網(wǎng)絡(luò)性能的KPI進(jìn)行評估;二是用戶分析數(shù)據(jù)信息,通過對比分析用戶數(shù)據(jù),便能獲得用戶資源的實(shí)際使用情況;三是網(wǎng)元分析數(shù)據(jù)信息,通過分析網(wǎng)元組對比、網(wǎng)元對比的趨勢,便能獲得RNC性能負(fù)載;四是應(yīng)用分析數(shù)據(jù)信息,通過分析用戶應(yīng)用業(yè)務(wù),便能獲得單個(gè)用戶時(shí)間變化、用戶累計(jì)分布的實(shí)際情況;五是終端分析數(shù)據(jù)信息,通過分析終端設(shè)備的具體應(yīng)用狀態(tài),便能獲得實(shí)時(shí)數(shù)據(jù)變化情況,進(jìn)而得到相關(guān)性能指標(biāo);此外,通過分析QoS、QoE等相關(guān)指標(biāo),還能得到負(fù)荷、用戶網(wǎng)絡(luò)狀況方面的信息。
計(jì)算機(jī)、互聯(lián)網(wǎng)的迅速發(fā)展,推動著海量異構(gòu)數(shù)據(jù)的產(chǎn)生,海量異構(gòu)數(shù)據(jù)有著類型多、數(shù)量大、處理速度快、價(jià)值密度低的特點(diǎn),要求在秒級時(shí)間內(nèi)完成數(shù)據(jù)分析、得到數(shù)據(jù)分析結(jié)果。若是海量異構(gòu)數(shù)據(jù)的處理時(shí)間過長,則會導(dǎo)致數(shù)據(jù)價(jià)值越來越低。為實(shí)現(xiàn)海量異構(gòu)數(shù)據(jù)的有效處理,需要科學(xué)設(shè)計(jì)海量異構(gòu)數(shù)據(jù)處理模塊,具體包括海量異構(gòu)數(shù)據(jù)集成模塊、海量異構(gòu)數(shù)據(jù)處理模塊、數(shù)據(jù)庫模塊、文件系統(tǒng)模塊、易用性模塊以及接口數(shù)據(jù)訪問模塊。針對海量異構(gòu)數(shù)據(jù)處理問題,需要將數(shù)據(jù)探測模塊安裝在數(shù)據(jù)處理系統(tǒng)之中。根據(jù)數(shù)據(jù)處理時(shí)間的差異,可以將數(shù)據(jù)分為離線信息、近線信息、在線信息三種不同的類型。處理秒級信息的時(shí)候,多采取流處理技術(shù)。流式處理系統(tǒng)的實(shí)際應(yīng)用過程中,主要采取Storm架構(gòu)或者是Flume架構(gòu),數(shù)據(jù)處理完成之后,將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)庫之中進(jìn)行保存,從而實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)處理[4]。設(shè)計(jì)批處理系統(tǒng)的時(shí)候,應(yīng)依次進(jìn)行數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析以及數(shù)據(jù)計(jì)算,數(shù)據(jù)存儲系統(tǒng)主要采取HBase技術(shù)。處理冷數(shù)據(jù)的時(shí)候,可采取Gluster FS技術(shù),可實(shí)現(xiàn)數(shù)據(jù)管理成本的降低。除此之外,數(shù)據(jù)處理過程中,可應(yīng)用OLAP來建模,并利用組件分析,以實(shí)現(xiàn)數(shù)據(jù)處理效率的提高。隨著互聯(lián)網(wǎng)、計(jì)算機(jī)技術(shù)的迅速發(fā)展,各種新技術(shù)不斷涌現(xiàn),為海量異構(gòu)數(shù)據(jù)處理提供了新的思路。如,利用Spark技術(shù),可存放中間數(shù)據(jù),有利于迭代效率的提高;借助計(jì)算模型,可以繪制圖形數(shù)據(jù)庫,等等。
綜上所述,計(jì)算機(jī)、互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,給大數(shù)據(jù)挖掘提出了新的要求,也帶來了更加嚴(yán)峻的挑戰(zhàn),加強(qiáng)對大數(shù)據(jù)挖掘相關(guān)技術(shù)的研究,有著重要的價(jià)值與意義。本文主要對互聯(lián)網(wǎng)大數(shù)據(jù)采集、互聯(lián)網(wǎng)大數(shù)據(jù)預(yù)處理、互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與互聯(lián)網(wǎng)大數(shù)據(jù)可視化技術(shù)、互聯(lián)網(wǎng)大數(shù)據(jù)實(shí)時(shí)挖掘、海量異構(gòu)數(shù)據(jù)處理等大數(shù)據(jù)挖掘涉及到的關(guān)鍵技術(shù)進(jìn)行了分析,以供參考借鑒。