李慧敏
(福建船政交通職業(yè)學(xué)院 信息工程系,福建 福州 350000)
當(dāng)前,各個(gè)領(lǐng)域每時(shí)每刻都產(chǎn)生了大量的數(shù)據(jù),我們已進(jìn)入大數(shù)據(jù)時(shí)代。誰(shuí)能有效分析和利用這些海量數(shù)據(jù),誰(shuí)將掌握創(chuàng)新和轉(zhuǎn)型的關(guān)鍵。其中的一項(xiàng)關(guān)鍵技術(shù)就是大數(shù)據(jù)的聚類算法,在商業(yè)、農(nóng)業(yè)、移動(dòng)網(wǎng)絡(luò)、醫(yī)療、科學(xué)、教育等應(yīng)用領(lǐng)域都具有重要應(yīng)用價(jià)值。
文中將已有的大數(shù)據(jù)聚類算法劃分成兩種:?jiǎn)螜C(jī)聚類算法和多機(jī)聚類算法[1]。
單機(jī)聚類算法主要有傳統(tǒng)聚類算法、基于抽樣的聚類以及基于降維的聚類3種。
傳統(tǒng)聚類算法包含分區(qū)聚類算法、分層聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法、基于模型的聚類算法。其中,分區(qū)聚類算法根據(jù)點(diǎn)和點(diǎn)之間在單個(gè)分區(qū)中的分離距離聚類;分層聚類算法根據(jù)數(shù)據(jù)的層次進(jìn)行劃分;基于密度的聚類算法能發(fā)現(xiàn)不同密度的區(qū)域;基于網(wǎng)格的聚類能降低算法復(fù)雜度;基于模型的聚類算法可以較好地避免測(cè)量劃分的不確定性問(wèn)題,但是速度較慢。
基于抽樣的聚類算法先從大數(shù)據(jù)中抽取一個(gè)樣本,對(duì)樣本進(jìn)行聚類,再應(yīng)用到整個(gè)大數(shù)據(jù)上,提高了效率并節(jié)省了空間。抽樣聚類主要有以下3種聚類算法:基于隨機(jī)選擇的聚類算法(CLARANS)、利用層次方法的平衡迭代規(guī)約和聚類(BTRCH)和針對(duì)大型數(shù)據(jù)庫(kù)的高效的聚類算法(CURE)。其中,CLARANS的優(yōu)勢(shì)在動(dòng)態(tài)處理上;BTRCH提高數(shù)據(jù)處理效率的方式是充分利用其自身的數(shù)據(jù)結(jié)構(gòu)節(jié)省空間;CURE的特點(diǎn)是用一組分散的數(shù)據(jù)點(diǎn)來(lái)表示聚類,這樣能較好地表示不同類型的聚類。
基于降維的聚類算法是在聚類時(shí)先對(duì)兩個(gè)主要維度—變量的數(shù)量和實(shí)例的數(shù)量中的一個(gè)進(jìn)行預(yù)處理,通過(guò)降維可以消除無(wú)關(guān)信息和冗余信息,同時(shí)縮小樣本空間,有效改善高維度下的復(fù)雜性,降低失誤率。
多機(jī)聚類又分為并行聚類和基于Map Reduce的聚類。并行聚類是指將數(shù)據(jù)進(jìn)行分塊,然后分發(fā)給不同的機(jī)器,讓它們并行運(yùn)行聚類算法,以此提高速率,并且后續(xù)可以很方便地進(jìn)行擴(kuò)展。
Map Reduce是一種將任務(wù)分布在大量的服務(wù)器上執(zhí)行的任務(wù)分解機(jī)制。目前已有大量研究將各種傳統(tǒng)聚類算法改寫成Map Reduce版本,并通過(guò)實(shí)驗(yàn)證明了可行性。
目前大數(shù)據(jù)聚類算法的應(yīng)用才剛起步,我們需要探索更多、更高效的應(yīng)用模式。商業(yè)、農(nóng)業(yè)、移動(dòng)網(wǎng)絡(luò)、醫(yī)療、科學(xué)、工程、法律、教育等特定領(lǐng)域都能看到大數(shù)據(jù)聚類算法應(yīng)用的影子。下面從幾個(gè)關(guān)鍵領(lǐng)域來(lái)分析大數(shù)據(jù)聚類算法的研究現(xiàn)狀。
商業(yè)智能[2]可以說(shuō)是大數(shù)據(jù)聚類應(yīng)用的“前輩”,對(duì)企業(yè)內(nèi)部的大數(shù)據(jù)進(jìn)行聚類分析,可以挖掘出很多隱藏的規(guī)律和知識(shí),這可能是企業(yè)創(chuàng)新和轉(zhuǎn)型的關(guān)鍵。目前已經(jīng)廣泛應(yīng)用于客戶關(guān)系管理、異常消費(fèi)行為檢測(cè)、股票數(shù)據(jù)分析等方面。比如說(shuō)通過(guò)聚類從客戶基本信息庫(kù)中挖掘出不同的客戶群,更準(zhǔn)確地了解客戶的使用行為,以此制定新的策略。
在金融領(lǐng)域,大數(shù)據(jù)聚類的應(yīng)用也在快速發(fā)展。在各大商業(yè)銀行中,利用大數(shù)據(jù)聚類的結(jié)果,針對(duì)性地制定個(gè)性化產(chǎn)品來(lái)滿足客戶的個(gè)性化金融需求,增加客戶忠誠(chéng)性。海沫等[3]根據(jù)盈利能力指標(biāo)、償債能力指標(biāo)、資產(chǎn)管理質(zhì)量指標(biāo)等15項(xiàng)財(cái)務(wù)指標(biāo)對(duì)中國(guó)股票市場(chǎng)上所有上市公司進(jìn)行了聚類實(shí)驗(yàn),得到股票板塊分類,為投資者的投資決策提供有益參考。
在通信領(lǐng)域,王海晶[4]將聚類結(jié)果結(jié)合運(yùn)營(yíng)商生命周期理論,分析得到了不同的用戶群,然后分別從用戶個(gè)性化營(yíng)銷策略方面和用戶挽留策略方面提出了相關(guān)的對(duì)策建議,為黑龍江移動(dòng)公司的發(fā)展提供決策參考。
在農(nóng)業(yè)領(lǐng)域,大數(shù)據(jù)聚類算法也應(yīng)用廣泛,因?yàn)檗r(nóng)業(yè)數(shù)據(jù)具有沒(méi)有先驗(yàn)知識(shí)的特點(diǎn),通過(guò)有效聚類可以挖掘到隱藏其中的規(guī)律和知識(shí),為農(nóng)民的種植、養(yǎng)殖等生產(chǎn)、銷售環(huán)節(jié)給出指導(dǎo)意見。
徐勇[5]提出了改進(jìn)的譜聚類算法并應(yīng)用到農(nóng)業(yè)大數(shù)據(jù)平臺(tái)上,對(duì)黑龍江省的農(nóng)墾系統(tǒng)各個(gè)農(nóng)場(chǎng)的農(nóng)業(yè)機(jī)械裝備水平數(shù)據(jù)進(jìn)行聚類,將聚類結(jié)果結(jié)合黑龍江省墾區(qū)地理環(huán)境一同分析,提供解決方案應(yīng)對(duì)機(jī)械裝備水平差異大的問(wèn)題;對(duì)全國(guó)豬肉價(jià)格聚類,通過(guò)聚類結(jié)果幫助養(yǎng)豬用戶根據(jù)市場(chǎng)走勢(shì)科學(xué)養(yǎng)豬,以取得更好的經(jīng)濟(jì)效益。
隨著時(shí)代發(fā)展,移動(dòng)終端(如手機(jī)、傳感器等)和應(yīng)用也越來(lái)越多,產(chǎn)生了大量的數(shù)據(jù)。其中,比較有價(jià)值的就是軌跡數(shù)據(jù),目前人們主要通過(guò)語(yǔ)義軌跡聚類挖掘相似性用戶、推薦用戶下一個(gè)目的地以及軌跡數(shù)據(jù)中熱點(diǎn)區(qū)域識(shí)別。
于喆[6]提出了基于聚類的GSRM原型系統(tǒng),通過(guò)對(duì)原始數(shù)據(jù)的預(yù)處理找到具有語(yǔ)義的停留點(diǎn),然后通過(guò)分布式聚類算法挖掘用戶公認(rèn)的“熱點(diǎn)”,最后通過(guò)對(duì)用戶行為模式的挖掘,對(duì)用戶進(jìn)行位置服務(wù)。
廖律超等[7]提出了一種交通路網(wǎng)譜聚類方法(TSSC),其實(shí)現(xiàn)的路網(wǎng)網(wǎng)格聚類能跟實(shí)際交通路網(wǎng)相匹配,還可用于交通擁堵點(diǎn)發(fā)現(xiàn)等應(yīng)用場(chǎng)景。牟向偉等[8]將流式數(shù)據(jù)兩階段方法,應(yīng)用在北京市出租車的定位數(shù)據(jù)上,聚類得到出租車活動(dòng)較為頻繁的熱點(diǎn)區(qū)域和線路,與日常出行經(jīng)驗(yàn)相符合,還可應(yīng)用到交通活動(dòng)情況實(shí)時(shí)分析、交通規(guī)劃和擁堵治理等方面。
醫(yī)療數(shù)據(jù)的產(chǎn)生具有持續(xù)性、高增長(zhǎng)性、復(fù)雜性,同樣其中蘊(yùn)涵可觀的信息價(jià)值。故在醫(yī)療領(lǐng)域,大數(shù)據(jù)聚類算法也得到快速發(fā)展。
2013年,張煥君等[9]提出了基于模糊聚類分析的臨床路徑?jīng)Q策方法,栗偉等[10]使用短文本自適應(yīng)聚類算法解決電子病歷中醫(yī)學(xué)名詞的識(shí)別問(wèn)題。Lenart等[11]對(duì)患者的血壓、血紅蛋白等生理指標(biāo)進(jìn)行聚類,聚類結(jié)果將慢性腎病患者劃分成幾個(gè)群,分別對(duì)應(yīng)慢性腎病發(fā)展的不同階段。孫磊磊[12]使用改進(jìn)的AP聚類算法對(duì)電子病歷進(jìn)行數(shù)據(jù)挖掘,將人口統(tǒng)計(jì)學(xué)信息和診斷信息進(jìn)行聚類得到病人分組,將聯(lián)合用藥網(wǎng)絡(luò)進(jìn)行聚類挖掘出聯(lián)合用藥模塊,對(duì)治療記錄進(jìn)行聚類得到典型治療方案,最后對(duì)照病人分組和治療記錄評(píng)估典型治療方案的可行性。
隨著技術(shù)進(jìn)步和應(yīng)用的需要,大數(shù)據(jù)聚類算法發(fā)展迅速,越來(lái)越多,主要有下面3個(gè)研究方向:(1)對(duì)大數(shù)據(jù)進(jìn)行抽樣或降維得到樣本,采用傳統(tǒng)聚類算法進(jìn)行聚類,再應(yīng)用到大數(shù)據(jù)上,主要缺點(diǎn)是樣本可能會(huì)出現(xiàn)偏差,精確性低。(2)并行聚類算法的優(yōu)點(diǎn)是效率高、可擴(kuò)展性好,但同樣復(fù)雜性也高。(3)基于Map Reduce實(shí)現(xiàn)的大數(shù)據(jù)聚類算法具有高可擴(kuò)展性,但在任務(wù)分解過(guò)程中會(huì)占用較多的軟硬件資源??梢娂毙柩芯亢?jiǎn)單、高效、可擴(kuò)展、低耗和精確的大數(shù)據(jù)聚類算法。另外,各個(gè)領(lǐng)域的數(shù)據(jù)都有各自的特點(diǎn),需要針對(duì)各個(gè)領(lǐng)域,探索更多、更高效的應(yīng)用模式,科學(xué)、商業(yè)、農(nóng)業(yè)、工程、醫(yī)學(xué)、醫(yī)療、法律、教育、運(yùn)輸、零售、電信等特定領(lǐng)域的大數(shù)據(jù)聚類算法應(yīng)用都是重點(diǎn)研究方向。