国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分布式數(shù)據(jù)流分類關(guān)鍵技術(shù)研究

2015-05-07 03:19:56徐花芬毛國君
華北科技學院學報 2015年4期
關(guān)鍵詞:同構(gòu)數(shù)據(jù)流異構(gòu)

徐花芬,毛國君,吳 靜

(1.華北科技學院計算機學院,北京東燕郊 101601;2.中央財經(jīng)大學信息學院,北京 100039)

0引言

作為一門應用技術(shù),數(shù)據(jù)挖掘可謂涵蓋廣泛,尤其是在發(fā)達國家,數(shù)據(jù)挖掘技術(shù)的觸角已經(jīng)伸向了各行各業(yè)。只要企業(yè)擁有具有分析價值的數(shù)據(jù)源,皆可利用數(shù)據(jù)挖掘工具進行有目的的挖掘分析。如在銷售數(shù)據(jù)中發(fā)掘顧客的消費習慣,找出顧客偏好的產(chǎn)品組合;分析信用不良的客戶數(shù)據(jù),從而預測可能的欺詐交易。然而上個世紀末開始在一些新型應用中出現(xiàn)的數(shù)據(jù),卻對傳統(tǒng)數(shù)據(jù)挖掘技術(shù)提出了新的挑戰(zhàn),例如傳感器網(wǎng)絡、網(wǎng)絡監(jiān)控、WEB日志以及多站點的信用卡交易數(shù)據(jù)等。這些數(shù)據(jù)不僅具有實時、連續(xù)、規(guī)模大的特點,還具有分布式的特征,為了從這些數(shù)據(jù)中獲取有價值的信息,就需要相關(guān)的分布式數(shù)據(jù)流挖掘算法,正是在此背景下,分布式數(shù)據(jù)流挖掘技術(shù)被廣泛研究。

分布式數(shù)據(jù)流(Distributed Data Stream)是指相互聯(lián)系的多個數(shù)據(jù)流[1]。與之相對應,目前大多數(shù)文獻所說的數(shù)據(jù)流(Data Stream)或稱流數(shù)據(jù)(Streaming Data)是指單數(shù)據(jù)流。近年來,(單)數(shù)據(jù)流的挖掘得到了廣泛的研究[2-5],提出了許多有價值的模型和算法。然而,分布式數(shù)據(jù)流挖掘的研究剛剛起步,一些關(guān)鍵的科學問題已經(jīng)提出,但是對應的理論和方法有限。本文主要討論了分布式數(shù)據(jù)流分類算法的最新進展,歸納了分布式數(shù)據(jù)流挖掘面臨的問題和挑戰(zhàn)。

1 定義

分布式數(shù)據(jù)流挖掘是數(shù)據(jù)流挖掘技術(shù)與分布式計算的有機結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn)。分布式數(shù)據(jù)流挖掘是一個快速的發(fā)展領域,受到國內(nèi)外的廣泛關(guān)注。它考慮兩種分布式數(shù)據(jù)——同構(gòu)和異構(gòu)。在同構(gòu)的分布式環(huán)境下,每個站點觀測相同的屬性集,即一個實體(或事件)的全部信息集中在一個局部節(jié)點上,每個局部節(jié)點上收集整個系統(tǒng)的一個數(shù)據(jù)子集,所有局部節(jié)點上數(shù)據(jù)的并集構(gòu)成整個系統(tǒng)的完整數(shù)據(jù)集。同構(gòu)分布式數(shù)據(jù)流的形式化描述如下。

定義1 同構(gòu)分布式數(shù)據(jù)流HoDDS。給定屬性集 A{A1,A2,…,Am}和它的數(shù)據(jù)定義域 D{D1,D2,…,Dm},同構(gòu)分布式數(shù)據(jù)流表示為:HoDDS=S1∪S2∪,…,∪Sk∪,…,∪Sn,其中 m 為被觀察的屬性個數(shù);n為節(jié)點的個數(shù);Sk(k=1,2,…,n)是一個節(jié)點上的數(shù)據(jù)流,Ak表示節(jié)點k上觀測的屬性集,滿足:Ai∩Aj=A 且Ai∪Aj=A(i≠j,i,j1,2,…,n)。

在異構(gòu)的分布式環(huán)境下,每個站點觀測不同的屬性集。即一個實體(或事件)的完整信息分布在不同的局部節(jié)點上。每個局部節(jié)點上觀測的數(shù)據(jù)是相關(guān)實體(或事件)的部分信息。異構(gòu)分布式數(shù)據(jù)流的形式化描述如下。

定義2 異構(gòu)分布式數(shù)據(jù)流HeDDS。給定屬性集 A{A1,A2,…,Am}和它的數(shù)據(jù)定義域 D{D1,D2,…,Dm},異構(gòu)分布式數(shù)據(jù)流表示為:HeDDS=S1∞S2∞,…,∞ Sk∞,…,∞ Sn,其中 m 為被觀察的屬性個數(shù);n為節(jié)點的個數(shù)(n≤m);Sk(k=1,2,…,n)是一個節(jié)點上的數(shù)據(jù)流,它對應著 A的一個屬性子集,len(k)表示節(jié)點k上觀測的屬性個數(shù),并且滿足:Ai≠Aj(i≠j,i,j1,2,…,n)且∪i=1,2,…nAiA。

同構(gòu)和異構(gòu)有時也被稱為水平和垂直劃分。在同構(gòu)站點的情況,每行定義了一個特有的實體,然而在異構(gòu)的情況下,同一個實體的觀測屬性被分布在不同的位置。因此異構(gòu)的情況下必須預先定義一些方法來關(guān)聯(lián)同一實體的不同屬性,行索引和關(guān)鍵字可用于識別不同站點上不同行之間的對應關(guān)系,在數(shù)據(jù)流環(huán)境下,可以時間戳來關(guān)聯(lián)。

2 分布式數(shù)據(jù)流處理框架

圖1 集中式流處理架構(gòu)

目前,很多系統(tǒng)采用集中式模式挖掘分布式數(shù)據(jù)流[6],如圖1所示。在這種模式下,分布式數(shù)據(jù)流被集中到一個中心結(jié)點,在中心結(jié)點上進行數(shù)據(jù)挖掘。這種計算模式受到如下幾個方面的限制,首先,數(shù)據(jù)流的集中式挖掘?qū)е马憫獣r間長,除中心節(jié)點外,其它節(jié)點的計算資源也是可利用的,而集中式數(shù)據(jù)挖掘沒有充分利用這些資源。集中式數(shù)據(jù)收集導致關(guān)鍵通訊鏈路的嚴重阻塞,如果這些通訊鏈路已經(jīng)限制了網(wǎng)絡帶寬,那么網(wǎng)絡I/O可能成為性能瓶頸。而且,在能源受限的領域,比如傳感器網(wǎng)絡,就會因過量的數(shù)據(jù)通訊導致過量的能源消耗。

為緩解以上提到的問題,Cherniack M、Balakrishnan H、Balazinska M等學者討論了大規(guī)模的分布式流處理系統(tǒng)設計中面臨的架構(gòu)問題,提出了一種分布式模型[7],如圖2所示。在這種分布式流挖掘模型中,不用集中數(shù)據(jù)到中心節(jié)點,分布式的計算節(jié)點執(zhí)行部分計算,同時當需要時傳輸計算得到的局部模式到中心結(jié)點,這樣的架構(gòu)有幾個優(yōu)點:首先,通過使用分布式的計算節(jié)點(這些結(jié)點是并行計算的),降低了響應時間;第二,節(jié)點之間只傳輸局部模式,不傳輸源數(shù)據(jù),因而降低了通信量,節(jié)省了大量的時間和空間開銷,在能源受限的領域可以降低能源消耗。

圖2 分布式流處理架構(gòu)

3 分布式數(shù)據(jù)流分類算法

目前,大部分分布式數(shù)據(jù)挖掘文獻考慮同構(gòu)的數(shù)據(jù)站點,同構(gòu)站點的分布式數(shù)據(jù)挖掘包括合并來自不同站點的模型。幾種集成模型已經(jīng)應用于同構(gòu)分布式數(shù)據(jù)挖掘環(huán)境。Bagging方法是同構(gòu)DDM環(huán)境下合并模型的候選方法之一,其觀點在文章[10]中有具體講述。和Bagging方法一樣,Stacking也能被擴展用于合并分布式環(huán)境下的局部模式,這些合并多個模型的技術(shù)在文章[17]中通過實驗給出了相關(guān)評價。

元學習[12,13,15]提供了挖掘同構(gòu)分布式數(shù)據(jù)的另一類技術(shù)。這種技術(shù)跟Bagging和Stacking方法具有相似之處。在這種技術(shù)中,局部數(shù)據(jù)站點引用有監(jiān)督學習思想來學習分類,然后將局部學習分類生成的數(shù)據(jù)集成到Meta-level級后,再進行分類學習。Meta—learning學習過程主要包括以下三個步驟:1)在每個站點使用分類學習算法生成基分類器;2)將基分類器集中到一個中心站點上,用每個基分類器產(chǎn)生的預測信息和一個獨立的數(shù)據(jù)效驗序列來生成元數(shù)據(jù);3)由元-級數(shù)據(jù)產(chǎn)生最終分類器。

同構(gòu)分布式數(shù)據(jù)使用的基于集成學習的分類方法并不適用于異構(gòu)分布式數(shù)據(jù)。由于在分布的數(shù)據(jù)站點上的數(shù)據(jù)是異構(gòu)的,從局部數(shù)據(jù)挖掘結(jié)果中不能得到系統(tǒng)的全部信息。Provost和Buchanan于1995年提出通過將大問題分解為小問題來實現(xiàn)基于特性空間的異構(gòu)劃分,但這種方法要求站點間必須具有相關(guān)性。WORLD系統(tǒng)使用一種“激活傳播方法”來進行異構(gòu)數(shù)據(jù)的概念學習:首先計算各個站點數(shù)據(jù)屬性的主要分布,然后分布信息在個站點問傳播,并根據(jù)前幾階統(tǒng)計近似值來確定概念空間中具有強相似性的屬性值[8]。但當概念學習要求使用高階統(tǒng)計信息時,這種方法并不適用。

以上這些方法并不是基于分布式數(shù)據(jù)流環(huán)境,2004年,Agrawal等給出了分布式數(shù)據(jù)流的概念,并建立了Gates原型系統(tǒng)[1]。Ghoting等人給出了分布式數(shù)據(jù)流的信息交換方法和評估策略。文章[16]從誘導偏見的角度討論了異構(gòu)數(shù)據(jù)站點的學習。該工作指出屬性空間的劃分可通過將問題分解成更小的子問題來解決。

文章[18]考察了通過傳輸部分數(shù)據(jù)的方法處理異構(gòu)和同構(gòu)數(shù)據(jù)的問題,作者定義了一個包含通訊代價和計算代價的代價函數(shù),問題簡化成編程問題從而使得傳統(tǒng)技術(shù)得以應用。

在DDM的實際應用中,經(jīng)常不能充分存取異構(gòu)分布式數(shù)據(jù)集的公共值,為了推廣應用DDM,1998年Kargupta和Park等人提出了匯集型數(shù)據(jù)挖掘系統(tǒng)(CDM)[9]。它使用正交基函數(shù)進行局部分析,解決通常的局部數(shù)據(jù)分析方法不能正確生成構(gòu)造全局數(shù)據(jù)模型所需要的局部模型的問題。CDM是一種在分布式垂直劃分特征空間中進行歸納學習的新方法,其基本思想是將待學習的函數(shù)用一組合適的基函數(shù)按分布式方式表示,整個CDM算法與不同站點發(fā)現(xiàn)模式的特定歸納學習算法無關(guān)。允許各數(shù)據(jù)點選擇不同的學習算法,CDM能夠生成整個數(shù)據(jù)集的全局分布式模式,不必假定按照各站點上特征空間的特殊劃分方式,將整個建模問題進行分解。

Kargupta又于2000年提出將CDM技術(shù)拓展到?jīng)Q策樹領域,提出了分布式?jīng)Q策樹生成算法[14]。該算法先在各分站點采用boosting算法建立局部模型,并確定出置信度低于某事先設定閾值的數(shù)據(jù)為交叉項;然后將局部模型和交叉項數(shù)據(jù)傳送到總站點運用boosting算法進行集成。由于boosting算法得出的分類模型難于理解,分布式?jīng)Q策樹運用傅立葉技術(shù)將各站點模型轉(zhuǎn)化為決策樹表示形式。最后由競爭策略,若事例在某個站點模型上的分類置信度大于設定閾值且最高,則選用該分站點決策樹進行預測;否則,采用全局模型進行預測?;贑DM思想的分布式?jīng)Q策樹生成算法首先采用boosting算法來構(gòu)造局部和全局站點模型,然后采用TCFS(Tree Construction from Fourier Spec)算法將得到的模型轉(zhuǎn)化為更易于理解的決策樹表示形式。該算法的優(yōu)點是:(1)產(chǎn)生的分類規(guī)則直觀易懂;(2)可以直接從函數(shù)的傅立葉頻譜計算出各屬性的信息增益,運算速度較快;(3)函數(shù)的傅立葉系數(shù)隨階數(shù)增長呈指數(shù)衰減形式,即只選用幾個低階的傅氏系數(shù)即可近似表征決策樹的傅氏頻譜。該算法的不足之處在于仍然沒有產(chǎn)生一個整體的用于分類預測的模型。

Chen et al,給出了一種集合方法挖掘來自分布式異構(gòu)網(wǎng)絡日志數(shù)據(jù)流的貝葉斯網(wǎng)絡[11]。在他們的方法中,他們在每個站點上用局部數(shù)據(jù)學習局部貝葉斯網(wǎng)絡,然后,每個站點鑒別可能是局部和非局部變量結(jié)合跡象的觀測數(shù)據(jù),并且傳輸這些觀測數(shù)據(jù)的一個子集到中心站點。用來自局部站點的數(shù)據(jù)在中心點學習另一個貝葉斯網(wǎng)絡,結(jié)合局部和中心站點的貝葉斯網(wǎng)絡得到一個集合貝葉斯網(wǎng)絡,這個集合貝葉斯網(wǎng)絡模擬了全部數(shù)據(jù)。這種技術(shù)尤其適合非零通訊代價(如無線網(wǎng)絡)中分布式數(shù)據(jù)流的挖掘應用。

Gianluigi等通過構(gòu)建一個適應的助推集成分類器(An adaptive boosting ensemble of classifiers)處理大規(guī)模的分布式數(shù)據(jù)流分類問題[19],適應的助推集成分類器(An Adaptive Boosting Ensemble of Classifiers)綜合在分布式網(wǎng)絡結(jié)點上訓練的模式,學到的局部模式是通過GP(Genetic Programming)獲得的,它誘導地生成決策樹。

Liu等提出了一種分布式交通流挖掘系統(tǒng)[20]。中心服務器僅在訓練和更新階段執(zhí)行各種數(shù)據(jù)挖掘任務,發(fā)送感興趣的模式到傳感器。傳感器監(jiān)視并預測將到來的交通流,跟歷史交通流中觀測的模式相比較,獨立發(fā)出警報。傳感器提供實時響應,只需較少的無線通信和少量資源需求,降低了中心服務器上的通信負擔。

4 分布式數(shù)據(jù)流挖掘面臨的挑戰(zhàn)

在網(wǎng)絡環(huán)境下,不僅數(shù)據(jù)流的產(chǎn)生源分布在不同的網(wǎng)絡節(jié)點,而且數(shù)據(jù)的傳輸路由以及目標地址也具有分布性。很多時間關(guān)鍵的應用像傳感器網(wǎng)絡、網(wǎng)絡入侵檢測和欺詐性交易檢測產(chǎn)生像“流”一樣的數(shù)據(jù)。它要求基于觀測的新數(shù)據(jù)立刻做出決策。一般來說,這樣的流數(shù)據(jù)在更多的新數(shù)據(jù)到達之前的短時間內(nèi)有效。因此,從異構(gòu)的分布式數(shù)據(jù)流中進行知識挖掘是一個重要的研究課題,面臨著許多挑戰(zhàn)性的問題。

1)作為分布式數(shù)據(jù)流挖掘的基礎,(單)數(shù)據(jù)流提出的問題對分布式數(shù)據(jù)流來說也同樣需要面對。數(shù)據(jù)流的潛在無限性和達到速率的不可預測性等,使得傳統(tǒng)的數(shù)據(jù)挖掘理論與算法不可能被直接利用。因為傳統(tǒng)的處理大數(shù)據(jù)樣本的多遍掃描或者非在線的處理方式顯然不能來處理隨時間變化的動態(tài)數(shù)據(jù)流。目前研究表明,數(shù)據(jù)流挖掘采用增量式算法是必須的,即隨著流數(shù)據(jù)的到達不斷更新模式。當然,分布式數(shù)據(jù)流挖掘的增量式模式更新問題,面臨著新的挑戰(zhàn):同一時間或者時間段,多個節(jié)點都可能有數(shù)據(jù)到達,而且速率可能差異很大。因此,如何準確而高效的對全局模式進行增量式更新需要有新的構(gòu)架和模型來支撐。

2)集中式解決分布式數(shù)據(jù)流的模式挖掘問題是不現(xiàn)實的。由于分布式數(shù)據(jù)流的每個節(jié)點的局部數(shù)據(jù)流的數(shù)據(jù)達到速率都是不可控的,假如設想將所有節(jié)點的到達數(shù)據(jù)都及時送到一個中心節(jié)點來統(tǒng)一處理,那么網(wǎng)絡傳輸時間和對中心節(jié)點的存儲需求都是無法克服的問題。因此,研究分布式的模式更新策略是必需的,需要從可用的模型和應用構(gòu)架到關(guān)鍵的問題(如局部模式與全局模式的融合)的解決算法等方面進行深入研究。另外,對于大規(guī)模的分布式數(shù)據(jù)流來說,為了在線實時跟蹤數(shù)據(jù)的變化,采用“準精確”挖掘手段也是必需的,于是提高挖掘精度成了一個不可回避的問題。

3)為了提高數(shù)據(jù)流的挖掘精度,近年來人們開始關(guān)注數(shù)據(jù)流的集成學習(Ensemble Learning)模型和方法研究[21-23]。集成學習需要同時維護多個模式,這樣可以有效避免高速流動的數(shù)據(jù)帶來的概念顛簸(即由于只保留最新的一個,可能使最近幾個常出現(xiàn)的模式頻繁切換),也可以改善傳統(tǒng)的非集成學習對樣本數(shù)據(jù)的過分擬合的情況。對于分布式數(shù)據(jù)流而言,這樣的問題存在而且更復雜。雖然,目前有些文獻提到了相關(guān)問題,但是研究還是策略性的。因此,利用集成學習方法來解決分布式數(shù)據(jù)流的模式挖掘問題有很好的研究價值

4)早期的數(shù)據(jù)流挖掘方法都假設數(shù)據(jù)是平穩(wěn)分布的,即沒有考慮潛在的概念漂移(Concept Drift)現(xiàn)象,因此對許多應用(如網(wǎng)絡入侵檢測、信用卡欺詐等)無法取得好的預測效果。概念漂移是指數(shù)據(jù)流的數(shù)據(jù)在很短的時間內(nèi)從一種概率分布變?yōu)榱硗庖环N概率分布的突變式現(xiàn)象。很顯然,對于分布式數(shù)據(jù)流而言,它的概念漂移挖掘問題的解決需要更有效和高效的方法。近期出現(xiàn)的分布式數(shù)據(jù)流的概念漂移檢測方法主要還是基于時間或者頻率(區(qū)間)估計的[23-24]。根據(jù)我們的分析,研究基于數(shù)據(jù)分布評估的概念漂移挖掘問題具有更好的應用價值。解決這個問題,需要從合適的數(shù)據(jù)概要結(jié)構(gòu)和有效的數(shù)據(jù)分布評估算法等方面進行研究。

5 結(jié)論

本文介紹了同構(gòu)分布式數(shù)據(jù)流和異構(gòu)分布式數(shù)據(jù)流的概念及相應形式化描述,分析了集中式流處理架構(gòu)與分布式流處理架構(gòu)的優(yōu)勢與不足,討論了分布式數(shù)據(jù)流分類算法的最新進展,歸納了分布式數(shù)據(jù)流挖掘面臨的問題和挑戰(zhàn)。通過本文的闡述可知,分布式數(shù)據(jù)流需要分布式的挖掘架構(gòu),由此帶來的理論和方法上的問題需要解決,表現(xiàn)為如何進行分布式數(shù)據(jù)流集成模式的更新;研究適合于分布式數(shù)據(jù)流處理的節(jié)點級數(shù)據(jù)流的增量式集成模式學習算法、節(jié)點級數(shù)據(jù)流的數(shù)據(jù)概要模型與挖掘算法,進一步研究分布式數(shù)據(jù)流的全局模式挖掘模型與算法;針對數(shù)據(jù)到達速率不均勻的分布式數(shù)據(jù)流特點研究概念漂移問題。

[1] Chen L,Reddy K,and Agrawal G.GATES:A Grid-based Middleware for Processing Distributed Data Streams[C].High Performance Distributed Computing(HPDC),2004.[S.l]:IEEE.

[2] Aggarwal C,Han Jiawei,WangJianyong et al.On Demand Classification of Data Streams[C].Proc.of 2004 Int.Conf on KDD,Seattle,WA,Aug.2004.

[3] Qin S,Qian W,Zhou A.Adaptively Detecting Aggregation Bursts in Data Streams[C].Proc.of the 10th Intl Conf on Database Systems for Advanced Applications,2005.

[4] QINShou-Ke,QIAN Wei-Ning,ZHOU Ao-YING.Fractal- Based Algorithms for Burst Detection over Data Stream[J].Journal of Software,2006,17(9):1969 -1979.

[5] Wang Tao,Li Zhoujun,Yan Yuejin,et al.A Survey of Classification of Data Streams[J].Journal of Computer Research and Development,2007,44(11):1809-1815.

[6] Babcock B,Babu S,Datar M,et al.Models and issues in data stream systems[C].Proceedings of the Symposium on Principles of Database Systems(PODS).2002:1-16.

[7] Cherniack M,Balakrishnan H,Balazinska M.Scalable Distributed Stream Processing[C].Proc.of the 2003 CIDR Conference.2003:196-205.

[8] Aronis J M,Kollufi V,Buchanan B G.The WoRLD:Knowledge Discovery From Multiple Distributed Databases[C].Proc.of Florida Artificial Intelligence Research Symposium(FLAIRS-97),1997:337 -341.

[9] Kargupta H,Park B.Collective Data Mining:A New Perspective Toward Distributed Data Mining[C].In Advances in Distributed and Parallel Knowledge Discovery,Eds:H.Kargupta and P.Chan,AAAI/MIT Press,2000:133 -184.

[10] Breiman L.Pasting Small Votes for Classification in Large Databases and On-line[J].Machine Learning.1999,36(1 -2):85-103.

[11] Chen R,Sivakumar D,and Kargupta H.An Approach to Online Bayesian[C].Proc.of the Inter- network learning from multiple data streams.national Conference on Principles of Data Mining and Knowledge Discovery,2001:21-25.

[12] Chan P,Stolfo S.Experiments on Multistrategy Learning by Meta-learning[C].Proc.of the Second International Conference on Information Knowledge Management,1993.[S.l]:[s.n],1993:314 -323.

[13] Chan P,Stolfo S.Toward Parallel and Distributed Learning by Meta-learning[C].In Working Notes AAAI Work.Knowledge Discovery in Databases.1993.AAAI,1993:227 -240.

[14] Johannes G,Venkatesh G,Raghu R et al.BOAT—Optimistic Decision Tree Construction[C].Proc.of SIGMOD,ACM,1999:169-180.

[15] Prodromidis A L,Stolfo S J,and Chan P K.Pruning Classifiers in A Distributed Meta-learning System[C].Proc.of the First National Conference on New Information Technologies,1998,[S.l]:[s.n],1998:151 -160.

[16] Provost F J,Buchanan B.Inductive Policy:The Pragmatics of Bias Selection[J].Machine Learning,1995,20:35 -61.

[17] Ting K M,Low B T.Model Combination in the Multiple-database Scenario[C].In 9th European Conference on Machine Learning,1997,[S.l]:[s.n],1997:250 -265.

[18] Turinsky A L,Grossman R L.A Framework for Finding Distributed Data Mining Strategies That Are Intermediate between Centralized Strategies and In-place Strategies[C].In Workshop on Distributed and Parallel Knowledge Discovery,Boston,MA,USA,2000:167-174.

[19] Gianluigi F,Clara P,Giandomenico S.An Adaptive Distributed Ensemble Approach to Mine Concept-Drifting Data Streams[C].Proc.Of 19th IEEE Intl Conf on Tools with Artificial Intelligence,2007,2007:183-187.

[20] Liu Y ,Choudhary A,Zhou J,Khokhar A.A Scalable Distributed Stream Mining System for Highway Traffic data[C].Proc.Of PKDD,2006:309-321.

[21] Wen Yimin,Yang Yang,Lu Baoliang.Research on the Application of Ensemble Learning Algorithms to Incremental Learning[J].Journal of Computer Research and Development,2005,42(extra edition):222-227.

[22] Wang H,F(xiàn)an W,Yu P S,Han J.Mining Concept-drifting Data Streams Using Ensemble Classifiers[C].The 9th ACM Int’l Conf on KDD,Washington,ACM.,2003.

[23] Gianluigi F,Clara P,Giandomenico S.An Adaptive Distributed Ensemble Approach to Mine Concept-Drifting Data Streams[C].Proc.Of 19th IEEE Intl Conf on Tools with Artificial Intelligence,2007,Volume 2.

[24] Zhang D,Li J,Kimeli K,Wang W.Sliding Window based Multi- Join Algorithms over Distributed Data Streams[C].Proc.of the 22nd International Conference on Data Engineering,Apr.2006.

[25] Ghoting A,Parthasarathy S,F(xiàn)acilitating Interactive Distributed Data Stream Processing and Mining[C].Proc.of the IEEE Intl Symposium on Parallel and Distributed Processing Systems(IPDPS),April 2004.

[26] LIU Bin,Survey on distributed data mining[J].Journal of Hebei University ofScience and Technology.2012.2,35(1):80-90.

[27] QU Wu,SUI Hai- feng,YANG Bing-ru.Advances in study of Distributed Mining of Data Streams[J].Computer Science,2012.1,39(1):1-7.

猜你喜歡
同構(gòu)數(shù)據(jù)流異構(gòu)
巧用同構(gòu)法解決壓軸題
試論同課異構(gòu)之“同”與“異”
指對同構(gòu)法巧妙處理導數(shù)題
同構(gòu)式——解決ex、ln x混合型試題最高效的工具
高等代數(shù)教學中關(guān)于同構(gòu)的注記
汽車維修數(shù)據(jù)流基礎(下)
一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
overlay SDN實現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
電信科學(2016年11期)2016-11-23 05:07:56
LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
基于數(shù)據(jù)流聚類的多目標跟蹤算法
庆阳市| 方山县| 长沙县| 工布江达县| 临湘市| 蒲城县| 绍兴市| 黎川县| 洪江市| 淮滨县| 巴青县| 巴中市| 三亚市| 弋阳县| 循化| 策勒县| 沿河| 乐东| 方城县| 启东市| 广安市| 临汾市| 南召县| 绥阳县| 兴隆县| 兴安盟| 韶山市| 平罗县| 图们市| 万源市| 泽库县| 大城县| 郓城县| 石门县| 富源县| 南和县| 遂昌县| 新安县| 杨浦区| 曲阳县| 舟曲县|