国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

并行計(jì)算視域下大數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)

2021-04-04 10:22:42汪澤宇
信息記錄材料 2021年6期
關(guān)鍵詞:數(shù)據(jù)挖掘聚類(lèi)分類(lèi)

汪澤宇

(三亞學(xué)院 海南 三亞 572022)

1 引言

隨著大數(shù)據(jù)等新興技術(shù)的出現(xiàn),人們生活的各個(gè)方面都受到了影響。通過(guò)大數(shù)據(jù)技術(shù)可以輕松實(shí)現(xiàn)數(shù)據(jù)的特征分析,為個(gè)性化推薦服務(wù)提供技術(shù)支持。在目前的導(dǎo)航領(lǐng)域、人工智能領(lǐng)域、交通管理領(lǐng)域等多個(gè)不同領(lǐng)域中,大數(shù)據(jù)技術(shù)都發(fā)揮著出色的作用。比如通過(guò)大數(shù)據(jù)對(duì)比技術(shù),交通管理部門(mén)就可以根據(jù)車(chē)主的駕駛行為分辨出哪些車(chē)主屬于飲酒駕駛,這種精準(zhǔn)化的分辨方式可以很大程度上提高執(zhí)行的有效率,減少因酒駕、醉駕而引發(fā)的交通意外情況,從而保護(hù)了人民的財(cái)產(chǎn)、人身安全。

隨著數(shù)據(jù)量的增長(zhǎng),大數(shù)據(jù)時(shí)代正式來(lái)臨,在大數(shù)據(jù)時(shí)代中最重要的資源就是數(shù)據(jù),它已經(jīng)由簡(jiǎn)單的處理對(duì)象演化為了一種基礎(chǔ)性資源,而大數(shù)據(jù)計(jì)算就是對(duì)這種資源的有效利用。并行計(jì)算在大數(shù)據(jù)中技術(shù)優(yōu)勢(shì)在于計(jì)算的并發(fā)性,高并發(fā)性使得數(shù)據(jù)處理更加快速,可同時(shí)處理的數(shù)據(jù)量也得到提高。

2 大數(shù)據(jù)的基本概念

2.1 大數(shù)據(jù)的定義

大數(shù)據(jù)其實(shí)包含很多概念,可以將達(dá)到一定數(shù)量級(jí)的數(shù)據(jù)體稱(chēng)為大數(shù)據(jù),也可以將數(shù)據(jù)處理方式稱(chēng)為大數(shù)據(jù),總之大數(shù)據(jù)在業(yè)界沒(méi)有形成統(tǒng)一的定義,人們?nèi)粘K佑|到的大數(shù)據(jù)也是比較模糊的,是多類(lèi)技術(shù)的組合。

大數(shù)據(jù)的特征十分明顯,首先,數(shù)據(jù)體量大,大數(shù)據(jù)是在數(shù)據(jù)爆炸時(shí)代提出的新理論,本身“大數(shù)據(jù)”三個(gè)字就說(shuō)明了這一特點(diǎn)。其次,數(shù)據(jù)類(lèi)型復(fù)雜、數(shù)據(jù)價(jià)值密度低,大數(shù)據(jù)的計(jì)算就是在許多類(lèi)型復(fù)雜的數(shù)據(jù)中尋找有特征、有價(jià)值的數(shù)據(jù),所以以上兩點(diǎn)也是大數(shù)據(jù)的基本特點(diǎn)。面對(duì)如此龐大的數(shù)據(jù)量,大數(shù)據(jù)必須有一個(gè)快速處理數(shù)據(jù)的解決方案,否則處理時(shí)的時(shí)間成本過(guò)高,數(shù)據(jù)便失去了原有的價(jià)值。大數(shù)據(jù)技術(shù)想要獲得更加準(zhǔn)確的數(shù)據(jù)特征就必須要處理足夠多的數(shù)據(jù)量。數(shù)據(jù)類(lèi)型復(fù)雜和價(jià)值密度低也是大數(shù)據(jù)的基本特征之一,由于大數(shù)據(jù)本身的數(shù)量級(jí)十分龐大,其中所包含的數(shù)據(jù)類(lèi)型十分復(fù)雜,很多數(shù)據(jù)都是無(wú)理化的無(wú)用數(shù)據(jù)或者重復(fù)數(shù)據(jù),想要在大量的數(shù)據(jù)中找到有用的信息,就需要進(jìn)行數(shù)據(jù)處理和數(shù)據(jù)挖掘。

2.2 大數(shù)據(jù)挖掘

大數(shù)據(jù)挖掘有非常重要的應(yīng)用價(jià)值,最常見(jiàn)的是在電商領(lǐng)域的應(yīng)用。通過(guò)數(shù)據(jù)挖掘可以獲得商品的評(píng)價(jià)特征,從而確定商品的使用人群和目標(biāo)客戶(hù)。另一方面,通過(guò)數(shù)據(jù)挖掘也可以實(shí)現(xiàn)商品廣告的精準(zhǔn)化推送,實(shí)現(xiàn)定向廣告和智能推薦的宣傳模式[1]。在互聯(lián)網(wǎng)中,每一個(gè)網(wǎng)民都有獨(dú)特的用網(wǎng)特征,大數(shù)據(jù)挖掘就是發(fā)現(xiàn)這種特征數(shù)據(jù)并進(jìn)行分析,使其變成一種可用資源。大數(shù)據(jù)處理的一般流程分為用戶(hù)使用、數(shù)據(jù)解釋、數(shù)據(jù)分析、數(shù)據(jù)抽取集成和數(shù)據(jù)準(zhǔn)備五個(gè)步驟。

大數(shù)據(jù)挖掘的應(yīng)用十分廣泛,可以為很多商業(yè)決策提供參考,但是在某個(gè)產(chǎn)品的市場(chǎng)分析領(lǐng)域,大數(shù)據(jù)挖掘技術(shù)可以比較準(zhǔn)確地找出商品的潛在客戶(hù),同時(shí)也可以分析商品宣傳的實(shí)際效果,相對(duì)于看廣告轉(zhuǎn)化率這一固定方法,大數(shù)據(jù)挖掘技術(shù)有更高的容錯(cuò)率,可以發(fā)現(xiàn)更多的意向客戶(hù)和潛在客戶(hù)。

3 并行數(shù)據(jù)挖掘

3.1 并行計(jì)算技術(shù)

通過(guò)并行計(jì)算來(lái)實(shí)現(xiàn)并行數(shù)據(jù)處理,通常使用Hadoop平臺(tái)MapReduce工具。并行計(jì)算與普通計(jì)算最大的區(qū)別是允許一組數(shù)據(jù)同時(shí)執(zhí)行計(jì)算,在非并行計(jì)算方式中,一組數(shù)據(jù)計(jì)算的執(zhí)行是順序式的,而并行計(jì)算可以將一個(gè)計(jì)算任務(wù)拆分成多個(gè)子任務(wù)同時(shí)進(jìn)行,并行計(jì)算適用于大型且復(fù)雜的計(jì)算問(wèn)題。表面看起來(lái)并行計(jì)算和多線(xiàn)程差不多,但是兩者之間又存在區(qū)別,并行計(jì)算還與分布式計(jì)算有關(guān)聯(lián),分布式計(jì)算可以在一臺(tái)計(jì)算機(jī)上進(jìn)行也可以在多臺(tái)計(jì)算機(jī)上同步進(jìn)行,這些計(jì)算機(jī)只需要通過(guò)一定的網(wǎng)絡(luò)協(xié)議進(jìn)行連接即可[2]。

3.2 利用MapReduce進(jìn)行并行數(shù)據(jù)挖掘

MapReduce是Hadoop計(jì)算平臺(tái)的核心部分,通過(guò)MapReduce可以方便地實(shí)現(xiàn)并行數(shù)據(jù)挖掘。MapReduce模型屬于一種簡(jiǎn)化的分布式程序設(shè)計(jì),在處理大量數(shù)據(jù)的時(shí)候非常有優(yōu)勢(shì),其基本的工作原理就是將要計(jì)算的數(shù)據(jù)集拆分之后自動(dòng)分布到一個(gè)計(jì)算機(jī)集群中去進(jìn)行并發(fā)運(yùn)算,這些由普通計(jì)算機(jī)組成的計(jì)算機(jī)集群同時(shí)進(jìn)行演算工作,最后將結(jié)果進(jìn)行整理,并行計(jì)算模型可以節(jié)省大量的時(shí)間。MapReduce在執(zhí)行操作時(shí),會(huì)按照創(chuàng)建挖掘任務(wù)、設(shè)置數(shù)據(jù)頭文件和算法參數(shù)、啟動(dòng)任務(wù)、結(jié)果展示這幾個(gè)步驟依次完成,其中設(shè)置數(shù)據(jù)頭文件和算法參數(shù)這一步驟中,Map操作將數(shù)據(jù)一對(duì)一的映射為另外的一組數(shù)據(jù),Reduce則是對(duì)數(shù)據(jù)進(jìn)行規(guī)約,通過(guò)函數(shù)完成規(guī)則的指定。

4 并行數(shù)據(jù)挖掘算法設(shè)計(jì)

通過(guò)并行計(jì)算來(lái)完成挖掘算法,最主要的目的是利用并行計(jì)算的特性來(lái)減少數(shù)據(jù)挖掘執(zhí)行所花費(fèi)的時(shí)間,當(dāng)通過(guò)平臺(tái)下發(fā)一個(gè)數(shù)據(jù)挖掘任務(wù)時(shí),平臺(tái)會(huì)分配給這個(gè)任務(wù)一些執(zhí)行ID,得到ID的任務(wù)會(huì)進(jìn)入到任務(wù)執(zhí)行隊(duì)列中,在檢查了任務(wù)信息、計(jì)算作業(yè)的輸入分片、分局集群感知后,將任務(wù)交由JobTracker去執(zhí)行。TaskTracker在接收到分配的任務(wù)之后,會(huì)采用對(duì)應(yīng)的分類(lèi)算法對(duì)任務(wù)進(jìn)行特征分析,得出分類(lèi)分析的模型之后就代表整個(gè)任務(wù)已經(jīng)執(zhí)行完畢,分類(lèi)模型是由計(jì)算得出的,這一過(guò)程使用的是并行計(jì)算模式??蛻?hù)端在收到任務(wù)已經(jīng)執(zhí)行完畢的信息之后,就會(huì)將接收到的分類(lèi)模型以可視化數(shù)據(jù)的形式展示給用戶(hù)。

4.1 并行分類(lèi)算法

并行分類(lèi)算法最常使用的解決方案是決策樹(shù),決策樹(shù)是一個(gè)分類(lèi)器,可以對(duì)數(shù)據(jù)進(jìn)行劃分。決策樹(shù)實(shí)現(xiàn)所有的算法有很多種,這些算法各有各自的優(yōu)勢(shì),所以適用的場(chǎng)景也存在差異,實(shí)際的算法選擇要根據(jù)數(shù)據(jù)挖掘任務(wù)的特征來(lái)靈活選用。以SLIO算法為例,SLIO分類(lèi)器是可以處理連續(xù)和離散特征決策樹(shù),其主要特點(diǎn)是通過(guò)預(yù)排序技術(shù)來(lái)有效減少計(jì)算連續(xù)屬性所帶來(lái)的代價(jià),這一過(guò)程發(fā)生在樹(shù)的構(gòu)建環(huán)節(jié)[3]。

4.2 并行聚類(lèi)算法

聚類(lèi)算法具有自我學(xué)習(xí)功能,相當(dāng)于一個(gè)無(wú)監(jiān)督的環(huán)境中仍然可以實(shí)現(xiàn)自我學(xué)習(xí)。聚類(lèi)自救的基本原理是尋找一個(gè)數(shù)據(jù)集中的特征,并根據(jù)特征將擁有相同特征的數(shù)據(jù)聚集在一起,通過(guò)聚類(lèi)算法將數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行劃分,得到子數(shù)據(jù)集都是具有一定意義的,并且去除了無(wú)理化數(shù)據(jù)。子類(lèi)的數(shù)據(jù)一般都有一種或多種共同特征,甚至是子類(lèi)的數(shù)據(jù)都是相同、相近的,較為典型的聚類(lèi)算法有并行K-均值算法和K-最近鄰算法。

4.3 K-均值算法

K-均值算法被認(rèn)為是非常簡(jiǎn)單而有效地統(tǒng)計(jì)算法,其基本實(shí)現(xiàn)步驟是選擇一個(gè)K值,用以確定簇的總數(shù),總數(shù)確定好之后在中間任一位置選定K個(gè)樣本為中心點(diǎn),所有的數(shù)據(jù)計(jì)算都是圍繞這些中心點(diǎn)進(jìn)行,除去K個(gè)樣本中心點(diǎn)之外,其他樣本數(shù)據(jù)都使用簡(jiǎn)單的歐式距離進(jìn)行樣本賦予,直到新的平均值等于上次迭代的平均值時(shí)被終止。

4.4 K-最近鄰算法

K-最近鄰算法是基于類(lèi)比學(xué)習(xí)的分類(lèi)算法,在理論上這種方法比較成熟,且執(zhí)行起來(lái)的可靠性也比較高,被看作是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法。在數(shù)據(jù)特征空間中,當(dāng)樣本附近的K個(gè)樣本滿(mǎn)足某個(gè)分類(lèi)的歸屬關(guān)系,這個(gè)樣本就會(huì)被認(rèn)為是屬于此分類(lèi)的。在K-最近鄰算法中,K值的選擇是非常重要的,K值的選擇會(huì)直接影響到整個(gè)算法的結(jié)果,K值過(guò)小和過(guò)大都不可以,比如當(dāng)K值過(guò)小的時(shí)候,就意味著只有非常相鄰的幾個(gè)樣本會(huì)被納入到結(jié)果計(jì)算之中,如果這幾個(gè)樣本恰好都不具備某一分類(lèi)的特征,那么這個(gè)樣本就無(wú)法被認(rèn)為是屬于這一分類(lèi),這顯然會(huì)導(dǎo)致計(jì)算結(jié)果的不確定性。但是如果當(dāng)K值過(guò)大時(shí),整個(gè)樣本區(qū)間也會(huì)被放大,所以通常會(huì)用交叉算法得出一個(gè)最優(yōu)解作為K值[4]。

5 結(jié)語(yǔ)

在民用領(lǐng)域中,數(shù)據(jù)挖掘的實(shí)踐意義越來(lái)越被看重,不管是在科學(xué)研究領(lǐng)域還是在商業(yè)決策方面,數(shù)據(jù)挖掘技術(shù)都有著不可替代的價(jià)值。并行計(jì)算與數(shù)據(jù)挖掘結(jié)合而實(shí)現(xiàn)的并行數(shù)據(jù)挖掘技術(shù),不僅能節(jié)約大量的計(jì)算時(shí)間成本,還能讓數(shù)據(jù)挖掘所能處理的數(shù)據(jù)量級(jí)得到提升,具有深遠(yuǎn)的社會(huì)意義和經(jīng)濟(jì)意義,本文正是基于數(shù)據(jù)挖掘和并行計(jì)算理論的研究,提出了并行分類(lèi)算法和并行聚類(lèi)算法,希望能為并行數(shù)據(jù)挖掘技術(shù)提供一定的參考價(jià)值。

猜你喜歡
數(shù)據(jù)挖掘聚類(lèi)分類(lèi)
分類(lèi)算一算
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
分類(lèi)討論求坐標(biāo)
數(shù)據(jù)分析中的分類(lèi)討論
基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
教你一招:數(shù)的分類(lèi)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
眉山市| 小金县| 景泰县| 涞水县| 福海县| 翁牛特旗| 德钦县| 常熟市| 凤凰县| 灵石县| 龙泉市| 南城县| 阳信县| 陆河县| 荥经县| 田阳县| 雷山县| 涪陵区| 健康| 乐东| 镇雄县| 巴东县| 沛县| 澎湖县| 汉寿县| 乌拉特前旗| 托克托县| 定西市| 杨浦区| 东乡县| 綦江县| 景宁| 南平市| 旬阳县| 高平市| 界首市| 泗水县| 海伦市| 滦南县| 海丰县| 凌源市|