周 蕾
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院泰州機(jī)電分院 江蘇泰州 225300)
?
對(duì)分布式數(shù)據(jù)挖掘解決方案的思考
周 蕾
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院泰州機(jī)電分院 江蘇泰州 225300)
傳統(tǒng)數(shù)據(jù)挖掘解決方案計(jì)算能力有限,對(duì)數(shù)據(jù)挖掘算法迭代復(fù)雜性,難以發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,不能根據(jù)現(xiàn)有數(shù)據(jù)預(yù)測未來發(fā)展趨勢。分布式數(shù)據(jù)挖掘工具的出現(xiàn)則是解決非關(guān)系型數(shù)據(jù)庫或者非結(jié)構(gòu)化模式的數(shù)據(jù)庫系統(tǒng)最佳選擇。通過對(duì)傳統(tǒng)數(shù)據(jù)挖掘解決方案和分布式數(shù)據(jù)挖掘解決方案的綜述和功能分析,對(duì)數(shù)據(jù)挖掘解決方案進(jìn)行了思考:注重?cái)?shù)據(jù)挖掘平臺(tái),避免誤入大數(shù)據(jù)的陷阱,同時(shí)分析大數(shù)據(jù)出現(xiàn)的新問題,希望借此引起人們的重視。
數(shù)據(jù)挖掘; 大數(shù)據(jù); 平臺(tái); 系統(tǒng)工具
對(duì)大量的數(shù)據(jù)進(jìn)行分析處理的龐大工作量,其計(jì)算效率和效果精準(zhǔn)程度等都會(huì)影響到用戶的工作效率和實(shí)際工作判斷。當(dāng)數(shù)據(jù)量規(guī)模不斷增大,維度升高時(shí),性能就會(huì)急劇下降。而現(xiàn)實(shí)生活中的數(shù)據(jù)大部分又都屬于規(guī)模比較大、維度比較高的數(shù)據(jù)集。加之目前的許多算法處于理論上,經(jīng)常處于某種假設(shè)之下,比如聚類能很好地被分離,沒有突出的孤立點(diǎn)等,但是,現(xiàn)實(shí)數(shù)據(jù)通常很復(fù)雜,噪聲很大。因此,提高處理現(xiàn)實(shí)數(shù)據(jù)的能力,正確選擇數(shù)據(jù)解決方案成為當(dāng)務(wù)之急。同時(shí),對(duì)于結(jié)果也需要在客觀分析的基礎(chǔ)上進(jìn)行綜合分析才能達(dá)到最終目的。分布式數(shù)據(jù)挖掘解決方案是伴隨著分布式計(jì)算技術(shù)、云計(jì)算技術(shù)、Hadoop生態(tài)圈、內(nèi)存數(shù)據(jù)庫、非結(jié)構(gòu)化數(shù)據(jù)庫等新技術(shù)的涌現(xiàn)和對(duì)大數(shù)據(jù)挖掘的需求而產(chǎn)生的。主要代表性有:Apache推出的基于Hadoop的Mahout[1]、加利福尼亞大學(xué)伯克利分校AMP實(shí)驗(yàn)室開發(fā)的基于Spark的MLBase。
Mahout是一個(gè)基于Hadoop機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的分布式計(jì)算框架,這種基于Hadoop的分布式數(shù)據(jù)挖掘平臺(tái),提供了具備可擴(kuò)充能力的機(jī)器學(xué)習(xí)類庫。通過和Apache Hadoop分布式框架結(jié)合,Mahout能使用分布式系統(tǒng)來實(shí)現(xiàn)高性能計(jì)算。這個(gè)跨學(xué)科產(chǎn)品,能為數(shù)據(jù)分析人員解決大數(shù)據(jù)時(shí)代出現(xiàn)的問題,為算法工程師提供基礎(chǔ)的算法庫,并且能夠幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序,有效地?cái)U(kuò)展到云中。Mahout數(shù)據(jù)挖掘工具擁有Mahout推薦系統(tǒng)、Mahout聚類系統(tǒng)、Mahout分類系統(tǒng)數(shù)據(jù)挖掘[2],要運(yùn)用Mahout的分類器,必須先訓(xùn)練模式,然后使用該模式對(duì)新內(nèi)容或正規(guī)內(nèi)容進(jìn)行分類。用戶可以根據(jù)實(shí)際具體需求選擇使用。不過,在統(tǒng)計(jì)認(rèn)知上可能會(huì)存在意想不到的種種陷阱,這些陷阱不會(huì)隨著數(shù)據(jù)量的增大而自動(dòng)填平。大數(shù)據(jù)中常常隱藏著小數(shù)據(jù)的問題,在使用工具采集中會(huì)出現(xiàn)一些統(tǒng)計(jì)上的偏差。如同Google公司的流感預(yù)測連年失靈,原因在于搜索推薦等人為干預(yù)造成統(tǒng)計(jì)誤差[3]。實(shí)踐工作中要將邏輯演繹和歸納相結(jié)合、大數(shù)據(jù)方法與小數(shù)據(jù)方法相結(jié)合等,運(yùn)用合適的軟件工具在合理的時(shí)間內(nèi)采集、存儲(chǔ)、處理數(shù)據(jù)集。此外,對(duì)于一個(gè)優(yōu)秀的推薦系統(tǒng)需要具備高質(zhì)量和高數(shù)量的數(shù)據(jù)、高效存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)以及高效的數(shù)學(xué)運(yùn)算庫、優(yōu)秀的算法架構(gòu)和調(diào)參技術(shù)、優(yōu)秀的架構(gòu)設(shè)計(jì),防止數(shù)據(jù)的多次拷貝,并且利于數(shù)據(jù)的更新和一致性,形成優(yōu)秀的用戶體驗(yàn)和人機(jī)交互設(shè)計(jì)。
MLBase是基于Spark的分布式數(shù)據(jù)挖掘解決方案,它包括ML Optimizer、MLI、Mllib和Spark四個(gè)組成部分[4],它能更好地支持迭代計(jì)算,其核心部分包括了一個(gè)優(yōu)化器ML Optimizer,它把數(shù)據(jù)拆分成若干份,對(duì)每一份使用不同的算法和參數(shù)來運(yùn)算出結(jié)果,看哪一種搭配方式得到的初步最優(yōu)的結(jié)果。從MLI、Mllib到ML Optimizer能夠支持不同程度的算法用戶使用不同程度的接口。MLBase設(shè)計(jì)架構(gòu)的最大優(yōu)勢是不僅考慮分布式的數(shù)據(jù)挖掘,還考慮讓數(shù)據(jù)挖掘的門檻更低,讓一些可能并不了解數(shù)據(jù)挖掘的用戶也能使用MLBase工具來處理自己的數(shù)據(jù)。
MLBase處理數(shù)據(jù)的整個(gè)透明過程的邏輯是:用戶輸入類Pig的任務(wù),比如做分類doClassify(X,Y),或者做協(xié)同過濾doCollabFilter(X,Y),還可以做一些圖計(jì)算之類的任務(wù)。這些任務(wù)首先會(huì)經(jīng)過解析器處理,然后交給邏輯學(xué)習(xí)計(jì)劃LLP(Logical Learning Plan)組件。LLP是一個(gè)學(xué)習(xí)選擇過程中完成ML算法選擇、特征提取方法選擇和參數(shù)選擇。LLP完成后,交給優(yōu)化器。它是MLBase的核心,它把數(shù)據(jù)拆分成若干份,對(duì)每一份使用不同的算法和參數(shù),運(yùn)算出結(jié)果,看哪一種搭配方式得到的結(jié)果最優(yōu)。優(yōu)化器做完這些事之后就交給物理學(xué)習(xí)計(jì)劃(PLP)組件。PLP會(huì)執(zhí)行之前選好的算法方案,把結(jié)果計(jì)算出來并返回到學(xué)習(xí)模型。該流程從Task、Parser、LLP、Optimizer、PLP、Execute、Result/Model,即先從邏輯上,在已有的算法里選幾個(gè)適合場景的組合,讓優(yōu)化器做一遍,再把最優(yōu)的組合交給實(shí)際執(zhí)行的部分去執(zhí)行,返回結(jié)果。此外,LLP內(nèi)部實(shí)現(xiàn)的算法可以擴(kuò)充,MLBase的可擴(kuò)展性讓ML專家增加新的ML算法到MLBase里去,這樣可以基于眾包的概念來發(fā)展和壯大其算法庫。
3.1 數(shù)據(jù)挖掘平臺(tái)很重要
在算法選型和數(shù)據(jù)驗(yàn)證階段,高效的數(shù)據(jù)挖掘單機(jī)平臺(tái)尤為重要。選擇Python作為數(shù)據(jù)挖掘平臺(tái)的優(yōu)勢是語法清晰、易于操作純文本文件、使用廣泛,存在大量的開發(fā)文檔。由于很多數(shù)據(jù)挖掘項(xiàng)目大多以Python作首選,也促使Python相關(guān)的庫越來越豐富龐大,并且有利于找到有效的數(shù)據(jù)源。Python在各個(gè)領(lǐng)域存在大量的模塊庫,能夠縮短開發(fā)周期;Python提供的諸如強(qiáng)大的正則表達(dá)工函數(shù)以及Web數(shù)據(jù)提取接口,能夠有效提高處理源數(shù)據(jù)的效率;Python開發(fā)環(huán)境集成了許多諸多列表、元組、字典、集合、隊(duì)列等高級(jí)數(shù)據(jù)類型,使得編程人員在實(shí)現(xiàn)數(shù)學(xué)概念時(shí)比較方便;Python還支持諸如面向?qū)ο缶幊?、面向過程編程以及函數(shù)式編程等諸多編程范式。Python的SciPy和NumPy模塊為高效的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)提供了基礎(chǔ)。Matplotlib為Python提供了強(qiáng)大的繪圖功能。
與MATLAB等工具相比,Python作為支持矩陣運(yùn)算的強(qiáng)大免費(fèi)數(shù)據(jù)挖掘工具有著良好的性能、低廉的成本以及它們所不具備的活躍的開發(fā)源社區(qū)支持。與Java和C等強(qiáng)類型編程工具相比,Python語言清晰簡練,可以將程序員從代碼中解放出來,專注于模型和數(shù)據(jù)。不過,Python最大缺陷是性能問題,只是它可以通過調(diào)用C模塊部分來解決。可以在實(shí)際運(yùn)用中先使用Python驗(yàn)證算法,然后在后續(xù)過程中再使用C代碼替換Python。
3.2 避免誤入大數(shù)據(jù)的陷阱
不論采用何種數(shù)據(jù)挖掘工具,大數(shù)據(jù)主要難點(diǎn)不是數(shù)據(jù)量大,而是數(shù)據(jù)類型多樣?,F(xiàn)有數(shù)據(jù)庫軟件解決不了非結(jié)構(gòu)化數(shù)據(jù)的問題,采用的數(shù)據(jù)往往會(huì)出現(xiàn)數(shù)據(jù)質(zhì)量不高、有效性不強(qiáng)等問題。因此,要將數(shù)據(jù)融合、數(shù)據(jù)格式標(biāo)準(zhǔn)化和數(shù)據(jù)互操作。因此,大數(shù)據(jù)挖掘不要追求數(shù)據(jù)規(guī)模大,拋棄小數(shù)據(jù);避免技術(shù)驅(qū)動(dòng)優(yōu)先,要關(guān)注構(gòu)建大平臺(tái)的成本,避免能源消耗大,資金投入多等,防止不實(shí)用,造成資源浪費(fèi)。開始數(shù)據(jù)要精、發(fā)展過程要穩(wěn)、近期期望不能太高,但目標(biāo)規(guī)劃要遠(yuǎn)大。
3.3 面對(duì)大數(shù)據(jù)出現(xiàn)的新問題
3.3.1 數(shù)據(jù)復(fù)雜難分析
面對(duì)大數(shù)據(jù)出現(xiàn)的新問題,要有較好心理準(zhǔn)備,良好的解決方案,避免在數(shù)據(jù)挖掘中對(duì)關(guān)聯(lián)規(guī)則、回歸、分類、聚類、預(yù)測、診斷等出現(xiàn)嚴(yán)重偏離,從而導(dǎo)致決策失誤。由于大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性,加之對(duì)圖文檢索、主題發(fā)現(xiàn)、語義分析、情感分析等數(shù)據(jù)的分析工作難度又大。同時(shí),人們對(duì)大數(shù)據(jù)背后的物理意義缺乏理解、對(duì)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)律認(rèn)識(shí)不足、對(duì)大數(shù)據(jù)的復(fù)雜性和計(jì)算復(fù)雜性的內(nèi)在聯(lián)系也缺少足夠的理解,以及對(duì)大數(shù)據(jù)相關(guān)技術(shù)領(lǐng)域知識(shí)的貧乏等都嚴(yán)重制約了人們對(duì)大數(shù)據(jù)模型的發(fā)現(xiàn)和高效計(jì)算方法的設(shè)計(jì)。包括當(dāng)前比較出色的數(shù)據(jù)挖掘的分布工具也是如此,數(shù)據(jù)挖掘在于機(jī)器,操作管理和分析卻在于人為。尤其是面對(duì)PB級(jí)數(shù)據(jù)時(shí),即使只有線性復(fù)雜性的計(jì)算也難以實(shí)現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無效計(jì)算。
3.3.2 從快到多失數(shù)據(jù)
與傳統(tǒng)科學(xué)計(jì)算有所不同的是,傳統(tǒng)數(shù)據(jù)挖掘是針對(duì)一定規(guī)模的問題,如何算得快,而在大數(shù)據(jù)應(yīng)用中,尤其是流式計(jì)算中,往往對(duì)數(shù)據(jù)處理和分析的時(shí)間、空間有時(shí)效限制,比如網(wǎng)絡(luò)服務(wù)如果回應(yīng)時(shí)間超過幾秒甚至是幾毫秒,就會(huì)丟失許多用戶。大數(shù)據(jù)應(yīng)用是在給定的時(shí)間、空間限制下如何算得多。從算得快到算得多,考慮計(jì)算復(fù)雜性的思維邏輯有很大區(qū)別轉(zhuǎn)變。
3.3.3 數(shù)據(jù)搬運(yùn)待提升
現(xiàn)在越來越多的數(shù)據(jù)挖掘需要從數(shù)據(jù)圍繞著處理器轉(zhuǎn)變?yōu)樘幚砟芰鴶?shù)據(jù)轉(zhuǎn),關(guān)注的重點(diǎn)不是數(shù)據(jù)加工,而是數(shù)據(jù)搬運(yùn),而且系統(tǒng)結(jié)構(gòu)設(shè)計(jì)的出發(fā)點(diǎn)從重視單個(gè)任務(wù)的完成時(shí)間轉(zhuǎn)變到提高系統(tǒng)吞吐效率和并行處理能力,并發(fā)執(zhí)行的規(guī)模要有巨大提升突破。
無論大數(shù)據(jù)或是小數(shù)據(jù),數(shù)據(jù)挖掘工具是解決人們工作或生活中出現(xiàn)的問題而誕生的。檢驗(yàn)一切技術(shù)的唯一標(biāo)準(zhǔn)是應(yīng)用。數(shù)據(jù)挖掘的優(yōu)劣評(píng)判標(biāo)準(zhǔn)應(yīng)以實(shí)踐應(yīng)用為準(zhǔn)則,能為實(shí)用為需,實(shí)用優(yōu)化實(shí)踐之中才是最佳。在諸多數(shù)據(jù)挖掘解決方案中,隨著人們使用范圍的拓展,許多數(shù)據(jù)挖掘系統(tǒng)工具也會(huì)越來越龐大,功能也會(huì)越來越多,人們在不斷學(xué)習(xí)運(yùn)用中,這些系統(tǒng)工具也在不斷改進(jìn)升級(jí)。但是,無論是采用Mahout或是MLBase何種工具,在實(shí)際應(yīng)用或拓展中,只有根據(jù)實(shí)際需求內(nèi)容,選擇最佳的搭配方式,才能達(dá)到最優(yōu)使用效果。在特殊情況下,還需要配助其他算法進(jìn)行數(shù)據(jù)規(guī)整分析。用戶需要不斷提升數(shù)掘挖掘的實(shí)用水平,還要對(duì)工具之外業(yè)務(wù)水平有所了解,才能在數(shù)據(jù)挖掘中產(chǎn)生最好的效能。
[1] (美)維賈伊·阿涅斯瓦蘭. 顛覆大數(shù)據(jù)分析: 基于Storm、Spark等Hadoop替代技術(shù)的實(shí)時(shí)應(yīng)用[M]. 吳京潤, 黃經(jīng)業(yè), 譯. 北京: 電子工業(yè)出版社, 2015: 11-36.
[2] 張明輝. 基于Hadoop的數(shù)據(jù)挖掘算法的分析與研究[D]. 昆明: 昆明理工大學(xué), 2012: 24-26
[3] 李國杰. 發(fā)展大數(shù)據(jù)不能拋棄“小數(shù)據(jù)”[N]. 中國科學(xué)報(bào), 2016-03-29(5).
[4] 張俊林. 大數(shù)據(jù)日知錄: 架構(gòu)與算法[M]. 北京: 電子工業(yè)出版社, 2014: 20-28.
[責(zé)任編輯:李娟]
Reflection on Solution of Distributed Data Mining
ZHOU Lei
(Jiangsu Union Technical Institute Taizhou Electrical Branch, Taizhou 225300, China)
The traditional data mining is limited in computing power, such as the data mining algorithm iteration complexity, the difficulty in finding relationship between data and rules, and the disability in predicting the future development trend based on existing data. Distributed data mining tools appear to be the best choice for the database system which can solve the non relational database or the non structural model. The review and functional analysis on the traditional data mining solution and distributed data mining lead to the use of data mining solution using, the focus on data mining platform, and avoiding straying into the trap of big data, and facing new problems emerged in large data, which is to draw people's attention.Key words:data mining; big data; platform; system tools
2016-07-08
周 蕾(1978-),女,講師,主要研究方向:計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)
TP 311.13
A
1672-2434(2016)05-0022-03