李 濤,曾春秋,周武柏,周綺鳳,鄭 理
1. 南京郵電大學(xué)計算機(jī)學(xué)院 南京 210023;2. 美國佛羅里達(dá)國際大學(xué) 邁阿密 33199;3. 廈門大學(xué)自動化系 廈門 361005
大數(shù)據(jù)時代的數(shù)據(jù)挖掘
——從應(yīng)用的角度看大數(shù)據(jù)挖掘
李 濤1,2,曾春秋1,2,周武柏1,2,周綺鳳3,鄭 理1,2
1. 南京郵電大學(xué)計算機(jī)學(xué)院 南京 210023;2. 美國佛羅里達(dá)國際大學(xué) 邁阿密 33199;3. 廈門大學(xué)自動化系 廈門 361005
介紹了大數(shù)據(jù)時代數(shù)據(jù)挖掘的特點、任務(wù)及難點,分析了大數(shù)據(jù)挖掘的核心架構(gòu),提出大數(shù)據(jù)的核心和本質(zhì),即應(yīng)用、算法、數(shù)據(jù)和平臺4個要素的有機(jī)結(jié)合。在此基礎(chǔ)上介紹了本團(tuán)隊研究設(shè)計的大數(shù)據(jù)挖掘系統(tǒng)FIU-Miner。該系統(tǒng)是一個用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計算和算法快速集成的數(shù)據(jù)挖掘系統(tǒng)平臺,使得數(shù)據(jù)分析人員能夠快速有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)。最后,介紹了基于FIU-Miner的3個典型的成功應(yīng)用案例:高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘。
大數(shù)據(jù);數(shù)據(jù)挖掘;FIU-Miner;高端制造業(yè);空間數(shù)據(jù)挖掘;商務(wù)智能
大數(shù)據(jù)(big data)一詞經(jīng)常被用以描述和指代信息爆炸時代產(chǎn)生的海量信息。研究大數(shù)據(jù)的意義在于發(fā)現(xiàn)和理解信息內(nèi)容及信息與信息之間的聯(lián)系。研究大數(shù)據(jù)首先要理清和了解大數(shù)據(jù)的特點及基本概念,進(jìn)而理解和認(rèn)識大數(shù)據(jù)。
1.1 大數(shù)據(jù)的特點“4V+4V”
從數(shù)據(jù)的表現(xiàn)形式看,業(yè)界普遍認(rèn)為大數(shù)據(jù)具有如下的“4V”特點[1]。
· volume(大量):數(shù)據(jù)體量巨大,從TB級別躍升到PB級別。
· variety(多樣):數(shù)據(jù)類型繁多,如網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
· velocity(高速):處理速度快,實時分析,這也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)的本質(zhì)上的不同。
· value(價值):價值密度低,蘊含有效價值高,合理利用低密度價值的數(shù)據(jù)并對其進(jìn)行正確、準(zhǔn)確的分析,將會帶來巨大的商業(yè)和社會價值。
上述“4V”特點描述了大數(shù)據(jù)與以往部分抽樣的“小數(shù)據(jù)”的主要區(qū)別。然而,實踐是大數(shù)據(jù)的最終價值體現(xiàn)的唯一途徑。從實際應(yīng)用和大數(shù)據(jù)處理的復(fù)雜性看,大數(shù)據(jù)還具有如下新的“4V”特點。
· variable(變化性):在不同的場景、不同的研究目標(biāo)下數(shù)據(jù)的結(jié)構(gòu)和意義可能會發(fā)生變化,因此,在實際研究中要考慮具體的上下文場景。
· veracity(真實性):獲取真實、可靠的數(shù)據(jù)是保證分析結(jié)果準(zhǔn)確、有效的前提。只有真實而準(zhǔn)確的數(shù)據(jù)才能獲取真正有意義的結(jié)果。
· volatility(波動性):由于數(shù)據(jù)本身含有噪音及分析流程的不規(guī)范性,導(dǎo)致采用不同的算法或不同分析過程與手段會得到不穩(wěn)定的分析結(jié)果。
· visualization(可視化):在大數(shù)據(jù)環(huán)境下,通過數(shù)據(jù)可視化可以更加直觀地闡釋數(shù)據(jù)的意義,幫助理解數(shù)據(jù),解釋結(jié)果。
1.2 對大數(shù)據(jù)的理解
國內(nèi)外不同的專家和學(xué)者對大數(shù)據(jù)有不同的理解,中國科學(xué)院計算技術(shù)研究所李國杰院士認(rèn)為:大數(shù)據(jù)就是“海量數(shù)據(jù)”加“復(fù)雜數(shù)據(jù)類型”[2]。維基百科對大數(shù)據(jù)的定義是:“大數(shù)據(jù)是由于規(guī)模、復(fù)雜性、實時性而導(dǎo)致的使之無法在一定時間內(nèi)用常規(guī)軟件工具對其進(jìn)行獲取、存貯、搜索、分享、分析、可視化的數(shù)據(jù)集合”1https:// en.wikipedia.org/ wiki/Big_data。Gartner咨詢公司給出的定義是:“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)”2http://www. gartner.com/itglossary/bigdata。而互聯(lián)網(wǎng)數(shù)據(jù)中心將大數(shù)據(jù)定義為:“為更經(jīng)濟(jì)地從高頻率、大容量、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值而設(shè)計的新一代架構(gòu)和技術(shù)”3https://www. idc.com/ prodserv/ 4Pillars/ bigdata。
結(jié)合上述大數(shù)據(jù)的“8V”特征,筆者認(rèn)為大數(shù)據(jù)的核心和本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺4個要素的有機(jī)結(jié)合,如圖1所示。大數(shù)據(jù)是應(yīng)用驅(qū)動的,大數(shù)據(jù)來源于實踐,海量數(shù)據(jù)產(chǎn)生于實際應(yīng)用中。
圖1 大數(shù)據(jù)架構(gòu)
數(shù)據(jù)挖掘源于實踐中的實際應(yīng)用需求,用具體的應(yīng)用數(shù)據(jù)作為驅(qū)動,以算法、工具和平臺作為支撐,最終將發(fā)現(xiàn)的知識和信息用到實踐中去,從而提供量化、合理、可行、能夠產(chǎn)生巨大價值的信息。另外,挖掘大數(shù)據(jù)所蘊含的有用信息,需要設(shè)計和開發(fā)相應(yīng)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。算法的設(shè)計和開發(fā)要以具體的應(yīng)用數(shù)據(jù)為驅(qū)動,同時也要在實際問題中得到應(yīng)用和驗證,而算法的實現(xiàn)與應(yīng)用需要高效的處理平臺。高效的處理平臺需要有效地分析海量的數(shù)據(jù)及對多源數(shù)據(jù)進(jìn)行集成,同時有力支持?jǐn)?shù)據(jù)挖掘算法以及數(shù)據(jù)可視化的執(zhí)行,并對數(shù)據(jù)分析的流程進(jìn)行規(guī)范??偠灾?,這個應(yīng)用、算法、數(shù)據(jù)和平臺相結(jié)合的思想是對上述大數(shù)據(jù)的理解和認(rèn)識的一個綜合與凝練,體現(xiàn)了大數(shù)據(jù)的本質(zhì)和核心。建立在此架構(gòu)上的大數(shù)據(jù)挖掘,能夠有效處理大數(shù)據(jù)的復(fù)雜特征,挖掘大數(shù)據(jù)的價值。
本文在此框架下,從應(yīng)用的角度探討了大數(shù)據(jù)時代的數(shù)據(jù)挖掘的機(jī)遇與挑戰(zhàn),介紹了研究團(tuán)隊開發(fā)的大數(shù)據(jù)挖掘平臺FIU-Miner以及成功應(yīng)用該平臺實現(xiàn)的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能3個大型、復(fù)雜數(shù)據(jù)挖掘案例。
2.1 數(shù)據(jù)挖掘
在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生和收集是基礎(chǔ),數(shù)據(jù)挖掘是關(guān)鍵。數(shù)據(jù)挖掘是大數(shù)據(jù)中最關(guān)鍵也最有價值的工作。通常,數(shù)據(jù)挖掘或知識發(fā)現(xiàn)泛指從大量數(shù)據(jù)中挖掘出隱含的、先前未知但潛在的有用信息和模式的一個工程化和系統(tǒng)化的過程。數(shù)據(jù)挖據(jù)可以用以下4個特性概括[3]。
(1)應(yīng)用性:數(shù)據(jù)挖掘是理論算法和應(yīng)用實踐的完美結(jié)合。數(shù)據(jù)挖掘源于實際生產(chǎn)生活中應(yīng)用的需求,挖掘的數(shù)據(jù)來自于具體應(yīng)用,同時通過數(shù)據(jù)挖掘發(fā)現(xiàn)的知識又要運用到實踐中去,輔助實際決策。所以,數(shù)據(jù)挖掘來自于應(yīng)用實踐,同時也服務(wù)于應(yīng)用實踐。
(2)工程性:數(shù)據(jù)挖掘是一個由多個步驟組成的工程化過程。數(shù)據(jù)挖掘的應(yīng)用特性決定了數(shù)據(jù)挖掘不僅僅是算法分析和應(yīng)用,而是一個包含數(shù)據(jù)準(zhǔn)備和管理、數(shù)據(jù)預(yù)處理和轉(zhuǎn)換、挖掘算法開發(fā)和應(yīng)用、結(jié)果展示和驗證以及知識積累和使用的完整過程。而且在實際應(yīng)用中,典型的數(shù)據(jù)挖掘過程還是一個交互和循環(huán)的過程。
(3)集合性:數(shù)據(jù)挖掘是多種功能的集合。常用的數(shù)據(jù)挖掘功能包括數(shù)據(jù)探索分析、關(guān)聯(lián)規(guī)則挖掘、時間序列模式挖掘、分類預(yù)測、聚類分析、異常檢測、數(shù)據(jù)可視化和鏈接分析等。一個具體的應(yīng)用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術(shù)基礎(chǔ),而且每一個功能都有不同的算法支撐。
(4)交叉性:數(shù)據(jù)挖掘是一個交叉學(xué)科,它利用了來自統(tǒng)計分析、模式識別、機(jī)器學(xué)習(xí)、人工智能、信息檢索、數(shù)據(jù)庫等諸多不同領(lǐng)域的研究成果和學(xué)術(shù)思想。同時,一些其他領(lǐng)域如隨機(jī)算法、信息論、可視化、分布式計算和最優(yōu)化也對數(shù)據(jù)挖掘的發(fā)展起到重要的作用。數(shù)據(jù)挖掘與這些相關(guān)領(lǐng)域的區(qū)別可以由前面提到的數(shù)據(jù)挖掘的3個特性來總結(jié),最重要的是它更側(cè)重于應(yīng)用。
具體而言,實際應(yīng)用的需求是數(shù)據(jù)挖掘領(lǐng)域很多方法提出和發(fā)展的根源。從最開始的顧客交易數(shù)據(jù)分析(market basket analysis)、多媒體數(shù)據(jù)挖掘(multimedia data mining)、隱私保護(hù)數(shù)據(jù)挖掘(privacy-preserving data mining)到文本數(shù)據(jù)挖掘(text mining)和 Web 挖掘(Web mining),再到社交媒體挖掘(social media mining)都是由應(yīng)用推動的。工程性和集合性決定了數(shù)據(jù)挖掘研究內(nèi)容和方向的廣泛性。其中,工程性使得整個研究過程里的不同步驟都屬于數(shù)據(jù)挖掘的研究范疇。而集合性使得數(shù)據(jù)挖掘有多種不同的功能,而如何將多種功能聯(lián)系和結(jié)合起來,從一定程度上影響了數(shù)據(jù)挖掘研究方法的發(fā)展。比如,20世紀(jì)90年代中期,數(shù)據(jù)挖掘的研究主要集中在關(guān)聯(lián)規(guī)則和時間序列模式的挖掘。到20世紀(jì)90年代末,研究人員開始研究基于關(guān)聯(lián)規(guī)則和時間序列模式的分類算法(如classification based on association),將兩種不同的數(shù)據(jù)挖掘功能有機(jī)地結(jié)合起來。21世紀(jì)初,一個研究的熱點是半監(jiān)督學(xué)習(xí)(semisupervised learning)和半監(jiān)督聚類(semi-supervised clustering),也是將分類和聚類這兩種功能有機(jī)結(jié)合起來。近年來的一些其他研究方向如子空間聚類(subspace clustering)(特征抽取和聚類的結(jié)合)和圖分類(graph classification)(圖挖掘和分類的結(jié)合)也是將多種功能聯(lián)系和結(jié)合在一起。最后,交叉性導(dǎo)致了研究思路和方法設(shè)計的多樣化。
2.2 從數(shù)據(jù)挖掘應(yīng)用的角度看大數(shù)據(jù)
大數(shù)據(jù)是現(xiàn)象,核心是要挖掘數(shù)據(jù)的價值。結(jié)合數(shù)據(jù)挖掘的各種特性,尤其是其應(yīng)用性,從應(yīng)用業(yè)務(wù)的角度對大數(shù)據(jù)提出如下兩點的認(rèn)識[3]。
首先,大數(shù)據(jù)是“一把手工程”。在一個企業(yè)里,大數(shù)據(jù)通常涉及多個業(yè)務(wù)部門,業(yè)務(wù)邏輯復(fù)雜。一方面,要對大數(shù)據(jù)進(jìn)行收集和整合,需要業(yè)務(wù)部門的配合和溝通以及業(yè)務(wù)人員的大力參與,這些需要企業(yè)決策人員的重視和認(rèn)可,提供必要的資源調(diào)配和支持。另一方面,要對數(shù)據(jù)挖掘的結(jié)果進(jìn)行驗證和運用,更離不開相關(guān)人員的決策。數(shù)據(jù)挖掘的結(jié)果大多是相關(guān)關(guān)系,而不是因果關(guān)系,這些結(jié)果還可能有不確定性。另外,有時候數(shù)據(jù)挖掘的結(jié)果與企業(yè)運作的常識不一致,甚至相悖。所以,如何看待這些可能的不確定性和反常識的分析結(jié)論,充分利用好數(shù)據(jù)挖掘結(jié)果,必然離不開決策者的遠(yuǎn)見卓識。
其次,大數(shù)據(jù)需要數(shù)據(jù)導(dǎo)入、整合和預(yù)處理。當(dāng)面對來自不同數(shù)據(jù)源的大量復(fù)雜數(shù)據(jù)時,具體業(yè)務(wù)邏輯復(fù)雜與數(shù)據(jù)之間的關(guān)系瑣碎直接導(dǎo)致企業(yè)的業(yè)務(wù)流程和數(shù)據(jù)流程很難理解。因此,企業(yè)在實施大數(shù)據(jù)時可能并不清楚要挖掘和發(fā)現(xiàn)什么,對數(shù)據(jù)挖掘到底能幫助企業(yè)做什么并沒有直觀和清楚的認(rèn)識。所以,很多時候都不可能先把數(shù)據(jù)事先規(guī)劃好和準(zhǔn)備好,這樣在具體的數(shù)據(jù)挖掘中,就需要在數(shù)據(jù)的導(dǎo)入、整合和預(yù)處理上有很大的靈活性,只有通過業(yè)務(wù)人員和數(shù)據(jù)挖掘工程師的配合,不斷嘗試,才能有效地將企業(yè)的業(yè)務(wù)需求與數(shù)據(jù)挖掘的功能聯(lián)系起來。
2.3 大數(shù)據(jù)時代應(yīng)用數(shù)據(jù)挖掘的挑戰(zhàn)
大數(shù)據(jù)時代的來臨使得數(shù)據(jù)的規(guī)模和復(fù)雜性都出現(xiàn)爆炸式的增長,促使不同應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析。在應(yīng)用領(lǐng)域中,如醫(yī)療保健、高端制造、金融等,一個典型的數(shù)據(jù)挖掘任務(wù)往往需要復(fù)雜的子任務(wù)配置,整合多種不同類型的挖掘算法以及在分布式計算環(huán)境中高效運行。因此,在大數(shù)據(jù)時代進(jìn)行數(shù)據(jù)挖掘應(yīng)用的一個當(dāng)務(wù)之急是要開發(fā)和建立計算平臺和工具,支持應(yīng)用領(lǐng)域的數(shù)據(jù)分析人員能夠有效地執(zhí)行數(shù)據(jù)分析任務(wù)。
現(xiàn)有的數(shù)據(jù)挖掘工具(如Weka[4]、SPSS和SQL Server等)提供了友好的界面,方便用戶進(jìn)行分析。然而,這些工具并不適合進(jìn)行大規(guī)模的數(shù)據(jù)分析。同時使用這些工具時,用戶很難添加新的算法程序。流行的數(shù)據(jù)挖掘算法庫(如Mahout[5]、MLC++4http://www.sgi. com/tech/mlc和MILK5http:// pythonhosted. org/milk)提供了大量的數(shù)據(jù)挖掘算法。但是,這些算法庫需要有高級編程技能才能在一個具體的數(shù)據(jù)挖掘任務(wù)中進(jìn)行任務(wù)配置和算法集成。最近出現(xiàn)的一些集成的數(shù)據(jù)挖掘產(chǎn)品(如Radoop[6]和BC-PDM[7])通過提供友好的用戶界面來快速配置數(shù)據(jù)挖掘任務(wù)。然而,這些產(chǎn)品是基于Hadoop框架的,對非Hadoop算法程序的支持非常有限。此外,這些產(chǎn)品并沒有明確地解決在多用戶和多任務(wù)情況下的資源分配問題。
為了解決現(xiàn)有工具和產(chǎn)品在大數(shù)據(jù)挖掘中的局限性,開發(fā)了一個新的平臺——FIUMiner(a fast, integrated, and user-friendly system for data mining in distributed environment[8]),是一個用戶友好并支持在分布式環(huán)境中進(jìn)行高效率計算和快速集成的數(shù)據(jù)挖掘系統(tǒng),該平臺支持?jǐn)?shù)據(jù)分析人員快速、有效地進(jìn)行數(shù)據(jù)挖掘任務(wù)。
3.1 FIU-Miner平臺介紹
與現(xiàn)有數(shù)據(jù)挖掘平臺相比,F(xiàn)IUMiner提供了一組新的功能,能夠幫助數(shù)據(jù)分析人員方便并有效地開展各項復(fù)雜的數(shù)據(jù)挖掘任務(wù)。
具體而言,F(xiàn)IU-Miner 具有以下突出的優(yōu)點。
(1)用戶友好、人性化、快速的數(shù)據(jù)挖掘任務(wù)配置:基于“軟件即服務(wù)”這一模式,F(xiàn)IU-Miner隱藏了與數(shù)據(jù)分析任務(wù)無關(guān)的低端細(xì)節(jié)。通過FIU-Miner提供的人性化用戶界面,用戶可以通過將現(xiàn)有算法直接組裝成工作流,輕松完成一個復(fù)雜數(shù)據(jù)挖掘問題的任務(wù)配置,而不需要編寫任何代碼。
(2)靈活的多語言程序集成:FIUMiner允許用戶將目前最先進(jìn)的數(shù)據(jù)挖掘算法直接導(dǎo)入系統(tǒng)算法庫中,以此對分析工具集合進(jìn)行擴(kuò)充和管理。同時,由于FIU-Miner 能夠正確地將任務(wù)分配到有合適運行環(huán)境的計算節(jié)點上,所以對這些導(dǎo)入的算法沒有實現(xiàn)語言的限制。
(3)異構(gòu)環(huán)境中有效的資源管理:FIU-Miner支持在異構(gòu)的計算環(huán)境中(包括圖形工作站、單個計算機(jī)、和服務(wù)器等)運行數(shù)據(jù)挖掘任務(wù)。FIU-Miner綜合考慮各種因素(包括算法實現(xiàn)、服務(wù)器負(fù)載平衡和數(shù)據(jù)位置)來優(yōu)化計算資源的利用率。
3.2 FIU-Miner系統(tǒng)架構(gòu)
圖2 FIU-Miner系統(tǒng)架構(gòu)
FIU-Miner的系統(tǒng)架構(gòu)如圖2所示。該系統(tǒng)分為4層:user interface(用戶接口層)、task and system management(任務(wù)與系統(tǒng)管理層)、abstracted resources(抽象資源層)和heterogeneous physical resource(異構(gòu)物理資源層)。這種分層架構(gòu)充分考慮了海量數(shù)據(jù)的分布式存儲、不同數(shù)據(jù)挖掘算法的集成、多種分析任務(wù)的配置以及系統(tǒng)和用戶的交互功能6http:// dataminingnode08.cs.fiu. edu/FIU-Miner。
3.2.1 用戶接口層
為了最大限度地提高系統(tǒng)的兼容性,用戶接口層是完全用HTML5開發(fā)的Web應(yīng)用程序。如圖3所示,用戶接口層有如下3個功能模塊。
(1)任務(wù)配置和執(zhí)行(task configuration and execution)
該模塊支持面向工作流的數(shù)據(jù)挖掘任務(wù)配置。一個數(shù)據(jù)挖掘任務(wù)的工作流可以被表示為一個有向圖,其中圖的節(jié)點表示特定的算法,圖的邊表示算法中的數(shù)據(jù)相關(guān)性。在FIU-Miner 中,一個工作流程可通過圖形用戶界面來快速配置,而不需要編程。此外,用戶可以設(shè)置數(shù)據(jù)挖掘任務(wù)的執(zhí)行計劃,包括程序的定時、循環(huán)、順序等執(zhí)行方式。
(2)程序注冊(program registration)
圖3 用戶接口層功能模塊
該模塊可以讓用戶輕松地導(dǎo)入外部數(shù)據(jù)挖掘算法,充實FIU-Miner的算法庫。如果要導(dǎo)入外部程序,用戶需要上傳可執(zhí)行文件,提供詳細(xì)的描述信息,包括程序的功能描述、需要的運行環(huán)境、程序和相關(guān)數(shù)據(jù)以及參數(shù)規(guī)范。導(dǎo)入的程序可以使用任何語言編寫,只要后端服務(wù)器能支持它需要的運行環(huán)境。FIUMiner目前支持Java(包括Hadoop的環(huán)境)、Shell、Python和C/C++等語言編寫的程序,因此幾乎所有實現(xiàn)的主流數(shù)據(jù)挖掘算法,如基于Weka、Mahout、MILK等數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法庫的程序,都可以很容易地導(dǎo)入FIUMiner。用戶還可以將自己實現(xiàn)的算法導(dǎo)入系統(tǒng)中。
(3)系統(tǒng)監(jiān)控(system monitoring)
該模塊實時監(jiān)測FIU-Miner 的資源利用率,并且動態(tài)跟蹤系統(tǒng)中提交任務(wù)的運行狀態(tài)。注意該模塊只顯示了抽象的資源(邏輯存儲和計算資源包括數(shù)據(jù)庫、文件系統(tǒng)、計算單元等),使底層物理資源對用戶透明。
3.2.2 任務(wù)及系統(tǒng)管理層
任務(wù)及系統(tǒng)管理層包含了兩個主要功能模塊:任務(wù)管理和系統(tǒng)管理。
(1)任務(wù)管理
FIU-Miner允許用戶動態(tài)配置數(shù)據(jù)挖掘任務(wù),以滿足他們的分析需求。用戶可以選擇在算法庫(algorithm library)中注冊的算法作為基本模塊來構(gòu)造工作流。工作流集成器(workflow integrator)負(fù)責(zé)工作流的任務(wù)集成和驗證,同時發(fā)現(xiàn)和報告無效的流程。一旦新的數(shù)據(jù)挖掘任務(wù)集成和配置完成后,它將被自動添加到任務(wù)庫(task library),可以隨時被調(diào)度運行。作業(yè)調(diào)度器(job scheduler)負(fù)責(zé)分配計算資源及優(yōu)化運行時間。FIU-Miner里的調(diào)度比較復(fù)雜。一方面,F(xiàn)IU-Miner支持不同編程語言實現(xiàn)的程序在異構(gòu)的計算環(huán)境中運行。一個任務(wù)里的不同程序可能會有不同的運行環(huán)境要求。所以,簡單地把任務(wù)分配到空閑的計算單元不一定可行。另一方面,將一個作業(yè)分成不同的步驟,讓每個步驟在不同的計算單元上運行,可能會增加I/O成本。如果再考慮多用戶、多任務(wù)的情況,F(xiàn)IU-Miner里的調(diào)度就會變得更加困難和復(fù)雜。為了解決上面的難題,在實現(xiàn)FIU-Miner的調(diào)度時,綜合考慮了如下因素:給定任務(wù)每一步的運行環(huán)境要求;每個計算單元支持的運行環(huán)境;每個計算結(jié)點的當(dāng)前運行狀態(tài);輸入數(shù)據(jù)的大小。
(2)系統(tǒng)管理
作業(yè)管理器(job manager)跟蹤執(zhí)行作業(yè)的運行狀態(tài)。用戶會收到作業(yè)的實時狀態(tài)。除了作業(yè)監(jiān)視,F(xiàn)IU-Miner還會跟蹤計算單元以及相關(guān)計算資源的狀態(tài)。資源監(jiān)視器(resource monitor)監(jiān)視計算單元并提供作業(yè)調(diào)度程序的運行狀態(tài),以幫助調(diào)度決策。資源管理器(resource manager)管理所有可用的計算單元。FIU-Miner的一個獨特的優(yōu)點是,它不需要人工登記可用物理資源。一旦計算單元部署在物理服務(wù)器上,它會將服務(wù)器的信息發(fā)送給資源管理器,自動將服務(wù)器在FIU-Miner里注冊。
3.2.3 抽象資源層
抽象資源層包括存儲和計算資源。存儲資源建立在物理設(shè)備的基礎(chǔ)上,包括傳統(tǒng)數(shù)據(jù)庫、本地文件系統(tǒng)、分布式文件系統(tǒng)(比如HDFS)等。計算單元是邏輯上的計算資源。平臺的計算能力依賴計算單元的數(shù)量。通過擴(kuò)展配置計算單元的數(shù)量,能有效地支撐上層的數(shù)據(jù)挖掘任務(wù)。
在FIU-Miner中,物理服務(wù)器的計算能力是由計算單元的數(shù)量和安排的數(shù)據(jù)挖掘任務(wù)來量化的。這種機(jī)制是一個系統(tǒng)虛擬化的簡化版本,能夠最大限度地提高計算資源的利用率。為了有效地管理計算資源,每個計算單元都包含詳細(xì)規(guī)范的配置文件(信息包括計算能力、支持的運行環(huán)境、運行狀態(tài)等)。一臺物理服務(wù)器的存儲(包括可用的數(shù)據(jù)庫、HDFS和本地文件系統(tǒng))由該服務(wù)器上布置的計算單元共享。
3.2.4 異構(gòu)物理資源層
異構(gòu)物理資源層亦稱物理資源層,主要包括底層的物理設(shè)備。這些物理設(shè)備能有效地支撐數(shù)據(jù)存儲和擴(kuò)展。
3.3 FIU-Miner系統(tǒng)亮點評述
FIU-Miner 建立于分布式異構(gòu)環(huán)境之上,大大減少了不同物理環(huán)境給構(gòu)建數(shù)據(jù)分析任務(wù)帶來的復(fù)雜度,充分利用分布式計算的能力提升數(shù)據(jù)分析的效率。另外,F(xiàn)IU-Miner的計算資源是可動態(tài)增減的,使其具備根據(jù)具體分析任務(wù)數(shù)量進(jìn)行在線調(diào)整計算物理資源的能力。最后,友好的用戶接口為基于FIU-Miner構(gòu)建不同的大數(shù)據(jù)挖掘應(yīng)用提供了極大的便捷。
4.1 高端制造業(yè)大數(shù)據(jù)挖掘任務(wù)
制造業(yè)是指大規(guī)模地把原材料加工成成品的工業(yè)生產(chǎn)過程。高端制造業(yè)是指制造業(yè)中新出現(xiàn)的具有高技術(shù)含量、高附加值、強(qiáng)競爭力的產(chǎn)業(yè)。典型的高端制造業(yè)[9]包括電子半導(dǎo)體生產(chǎn)、精密儀器制造、生物制藥等。這些制造領(lǐng)域往往涉及嚴(yán)密的工程設(shè)計、復(fù)雜的裝配生產(chǎn)線、大量的控制加工設(shè)備與工藝參數(shù)、精確的過程控制和材料的嚴(yán)格規(guī)范。產(chǎn)量和品質(zhì)極大地依賴流程管控和優(yōu)化決策。因此,制造企業(yè)不遺余力地采用各種措施優(yōu)化生產(chǎn)流程,調(diào)優(yōu)控制參數(shù),提高產(chǎn)品品質(zhì)和產(chǎn)量,從而提高企業(yè)的競爭力。
隨著工藝、裝備和信息技術(shù)的不斷發(fā)展,現(xiàn)代制造業(yè)(特別是高端制造業(yè))產(chǎn)生和積累了大量生產(chǎn)過程的歷史數(shù)據(jù)。這些數(shù)據(jù)中蘊含對生產(chǎn)和管理有很高價值的知識和信息。高端制造企業(yè)利用這些技術(shù)能夠更好地收集和管理生產(chǎn)流程數(shù)據(jù),也使得企業(yè)累積的相關(guān)數(shù)據(jù)在日益增多的同時,也變得更加豐富、完備、準(zhǔn)確。
這些采集的數(shù)據(jù)來源于實際生產(chǎn),并與生產(chǎn)設(shè)計、機(jī)器設(shè)備、原材料、環(huán)境條件、生產(chǎn)流程等生產(chǎn)要素信息高度相關(guān)。通常情況下,工程人員通過人工分析很難察覺到參數(shù)間的關(guān)聯(lián)模式和影響品質(zhì)的重要生產(chǎn)要素等信息。然而,如何有效地利用這些數(shù)據(jù)優(yōu)化生產(chǎn)過程,提升生產(chǎn)效率,成為了企業(yè)關(guān)注的焦點。因此,制造企業(yè)需要一種高效、可靠的分析方法及工具,把隱藏在海量數(shù)據(jù)中有用的、深層次的知識和信息挖掘出來,以提升高端制造業(yè)在控制、優(yōu)化、調(diào)度、管理等各個層面分析和解決問題的能力。幸運的是,利用數(shù)據(jù)挖掘可以對這些數(shù)據(jù)進(jìn)行有效的分析并轉(zhuǎn)換成有價值的生產(chǎn)知識,從而能夠在實際應(yīng)用中改進(jìn)產(chǎn)品品質(zhì),提升產(chǎn)品性能和生產(chǎn)效率,最終達(dá)到提高企業(yè)行業(yè)競爭力的目的。因此,數(shù)據(jù)挖掘技術(shù)是解決制造業(yè)海量信息數(shù)據(jù)處理的關(guān)鍵技術(shù)之一。
4.2 高端制造業(yè)大數(shù)據(jù)挖掘挑戰(zhàn)
高端制造業(yè)中的數(shù)據(jù)挖掘面臨很多挑戰(zhàn),比如:如何有效分析大規(guī)模數(shù)據(jù)、如何保證數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性?在實際應(yīng)用中,從海量數(shù)據(jù)中依靠傳統(tǒng)信息系統(tǒng)進(jìn)行查詢和報警或單純利用專家經(jīng)驗來分析和發(fā)現(xiàn)潛在有價值的信息已經(jīng)變得不太現(xiàn)實。因此,企業(yè)需要利用數(shù)據(jù)分析技術(shù)、工具或平臺,智能地從大量復(fù)雜的生產(chǎn)原始數(shù)據(jù)中發(fā)現(xiàn)新的模式和知識作為改善生產(chǎn)過程的決策依據(jù),系統(tǒng)性地提高生產(chǎn)效率。
4.3 具體案例
FIU-Miner已經(jīng)被成功地應(yīng)用在四川虹歐顯示器件有限公司,作為等離子屏制造過程的數(shù)據(jù)分析平臺[3,10]。
4.3.1 等離子顯示器制造
等離子顯示器(plasma display panel,PDP)是一種利用氣體等離子效應(yīng)放出紫外線,從而激發(fā)三原色發(fā)光體獨立發(fā)光,達(dá)到顯示不同顏色和控制亮度的高端圖像顯示器。它具有亮度高、色彩多、面積大、視角廣、圖像清晰等眾多優(yōu)勢,是大面積顯示需求(如家庭影院、電子廣告墻)的首選顯示器。
四川虹歐顯示器件有限公司是國內(nèi)最大的等離子生產(chǎn)公司,每天生產(chǎn)超過1萬張等離子顯示面板,其生產(chǎn)線的一些指標(biāo)包括[10]:20個大工序、151個小工序;1 000多臺設(shè)備串聯(lián);工藝設(shè)備共計279臺,設(shè)備種類達(dá)83種;2 225個物流單元,全長6 000 m;產(chǎn)品制造時間約76 h;單臺產(chǎn)品涉及的過程設(shè)備參數(shù)超過1.17萬個。
具體而言,在生產(chǎn)實踐中,技術(shù)人員關(guān)注如何提高產(chǎn)品的良品率。實現(xiàn)這個目標(biāo),需要回答下面的一些問題:哪些是關(guān)鍵的工藝參數(shù)(它們對產(chǎn)品的良品率有顯著的影響)、參數(shù)值的變動會怎樣影響產(chǎn)品的良品率、哪些是有效的可以確保高良品率的工藝參數(shù)配方等。從PDP的數(shù)據(jù)特點來說,每天生產(chǎn)的數(shù)據(jù)存儲量是10 GB以上,每月有3~5億筆制造過程記錄,在數(shù)量、維度和數(shù)據(jù)產(chǎn)生速度上具有海量大數(shù)據(jù)特征。在生產(chǎn)工序復(fù)雜、設(shè)備參數(shù)眾多、數(shù)據(jù)量大的背景下,人為分析PDP生產(chǎn)過程,以期達(dá)到提高生產(chǎn)質(zhì)量的效果幾乎是無法實現(xiàn)的。因此,迫切需要研究基于等離子顯示屏制造過程的自動化流程和產(chǎn)品優(yōu)化工具,從而提升制造過程參數(shù)管控能力和產(chǎn)品品質(zhì)。
4.3.2 基于FIU-Miner 的解決方案
在過去的幾年里,筆者的研究團(tuán)隊一直與四川虹歐顯示器件有限公司的技術(shù)人員和工程師緊密合作,利用數(shù)據(jù)挖掘來提高等離子屏的生產(chǎn)良品率。在這個合作過程中,確定了如下兩個主要的分析難點,并提出了相應(yīng)的基于FIU-Miner 的解決方案。
· 7×24 h的自動化生產(chǎn)方式和新數(shù)據(jù)采集工具的使用,使得數(shù)據(jù)量急劇增長,需要強(qiáng)大的數(shù)據(jù)分析能力來支撐。
· 大量過程控制參數(shù)造成的數(shù)據(jù)高維特性對數(shù)據(jù)分析效率和分析結(jié)果的準(zhǔn)確性提出了更高要求。生產(chǎn)數(shù)據(jù)分析是對生產(chǎn)工作流程的一個認(rèn)知過程。這個過程本身就是對數(shù)據(jù)進(jìn)行探索、分析和理解的一個循序漸進(jìn)的迭代過程。因此,一個實用的系統(tǒng)應(yīng)該提供一個集成的、高效率的分析平臺來支持這個過程。
筆者的研究團(tuán)隊在FIU-Miner 的基礎(chǔ)上,開發(fā)了離子屏制造過程數(shù)據(jù)挖掘系統(tǒng)(PDP-Miner)[10]來解決PDP數(shù)據(jù)分析的難題。PDP-Miner的架構(gòu)如圖4所示。具體而言,在FIU-Miner的基礎(chǔ)上增加了數(shù)據(jù)分析層。
數(shù)據(jù)分析層提供具體分析任務(wù)的用戶執(zhí)行接口。以等離子屏數(shù)據(jù)挖掘系統(tǒng)為例,數(shù)據(jù)分析任務(wù)主要包括數(shù)據(jù)立方、對比分析、回歸分析、參數(shù)選擇、參數(shù)配方、操作平臺、結(jié)果展示和報告管理。
圖4 PDP-Miner的系統(tǒng)架構(gòu)
其中,數(shù)據(jù)立方使分析人員能夠?qū)?shù)據(jù)進(jìn)行宏觀理解和快速預(yù)覽。數(shù)據(jù)立方子系統(tǒng)可以通過OLAP技術(shù)建立數(shù)據(jù)立方來幫助分析人員大致掌握數(shù)據(jù)特性。通過選擇維度和建立測度來對數(shù)據(jù)集進(jìn)行分析。通過數(shù)據(jù)立方操作(下鉆、上卷等)實現(xiàn)對數(shù)據(jù)的多粒度、多角度的理解。
對比分析子系統(tǒng),能快速發(fā)現(xiàn)敏感參數(shù)和驗證重要參數(shù),因此,在PDP生產(chǎn)系統(tǒng)中顯得特別重要。通過比較參數(shù)在不同時期取值的統(tǒng)計特性,有效發(fā)現(xiàn)異常參數(shù)值,從而定位敏感設(shè)備或數(shù)據(jù)集。
數(shù)據(jù)分析子系統(tǒng)主要負(fù)責(zé)集成數(shù)據(jù)挖掘算法,提供業(yè)務(wù)操作接口。由于該系統(tǒng)面向非專業(yè)領(lǐng)域的操作人員,并聚焦到具體的分析業(yè)務(wù),因此數(shù)據(jù)挖掘算法被合理封裝到各個業(yè)務(wù)中,對操作人員透明。現(xiàn)在的挖掘算法主要支持回歸分析、參數(shù)選擇、參數(shù)配方等任務(wù)。
分析報告系統(tǒng)基于業(yè)務(wù)分析結(jié)果產(chǎn)生分析報告。這些分析報告可以直接給決策者提供決策依據(jù)。同時報告系統(tǒng)也為領(lǐng)域?qū)<姨峁┦占答伒慕涌凇nI(lǐng)域?qū)<抑R的引入對優(yōu)化模型、改進(jìn)算法具有很大的指導(dǎo)意義。
圖5給出了兩個具體PDP挖掘的工作流。其中第一個工作流(workflow 1)先集成多種特征選擇的方法來選出影響PDP生產(chǎn)的重要工藝參數(shù),然后利用回歸分析來建立這些參數(shù)與產(chǎn)品質(zhì)量的關(guān)系。第二個工作流(workflow 2)是利用頻繁模式分析來挖掘重要工藝參數(shù)的關(guān)聯(lián)關(guān)系,從而產(chǎn)生可能的參數(shù)配方。圖6給出了工作流的配置界面。
使用等離子屏制造過程數(shù)據(jù)挖掘系統(tǒng)大大降低了對前臺使用人員的要求,可以使得操作人員能夠?qū)⒕劢沟娇焖侔l(fā)現(xiàn)問題和解決問題上。
圖5 PDP-Miner工作流程
圖6 PDP-Miner工作流配置界面
表1 PDP-Miner數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)比較
通過技術(shù)人員將數(shù)據(jù)挖掘研究的結(jié)果和平臺進(jìn)行有效應(yīng)用,提高了對制造過程中所出現(xiàn)問題的分析和解決的效率(見表1),使PDP屏生產(chǎn)線的綜合良品率及生產(chǎn)效率得到了快速提升。一方面,在顯示器件制造業(yè)首次采用大數(shù)據(jù)挖據(jù)技術(shù),實現(xiàn)了由傳統(tǒng)離散型的試驗設(shè)計方法到數(shù)據(jù)挖掘模型來進(jìn)行制造過程參數(shù)管控的動態(tài)在線分析處理方法,降低了制造過程品質(zhì)管控的試驗成本。另一方面,通過數(shù)據(jù)挖掘平臺,建立了等離子屏制造過程單工序/全工序的參數(shù)管控的主要數(shù)據(jù)挖掘分析模型,通過挖據(jù)結(jié)果的有效應(yīng)用,促進(jìn)了等離子顯示屏的制造良品率和生產(chǎn)效率的提升。最后,利用平臺挖掘方便快捷地指導(dǎo)技術(shù)人員進(jìn)行參數(shù)管控的常態(tài)化螺旋式提升。在成果應(yīng)用的這些年里,促進(jìn)了PDP良品率和產(chǎn)能的快速提升,給公司帶來了巨大的生產(chǎn)經(jīng)濟(jì)效益。圖7給出了PDP-Miner的實際應(yīng)用的主界面,該系統(tǒng)的功能模塊包括數(shù)據(jù)探索(對比分析、數(shù)據(jù)立方)、數(shù)據(jù)分析(操作平臺、參數(shù)選擇、回歸分析、判別分析)、結(jié)果管理(可視化、結(jié)果列表和反饋收集)。需要特別指出的是,等離子顯示屏制造挖掘平臺可方便地移植于液晶面板、OLED面板等其他平板顯示領(lǐng)域,具備向整個平板行業(yè)推廣的基礎(chǔ)。
圖7 PDP-Miner實際應(yīng)用的主界面
4.4 應(yīng)用亮點評述
將FIU-Miner應(yīng)用于高端制造業(yè)的實際案例,在國際上率先將數(shù)據(jù)挖掘技術(shù)應(yīng)用于顯示器件制造業(yè),為四川虹歐顯示器件有限公司構(gòu)建了制造過程單工序/全工序數(shù)據(jù)挖掘分析模型,開發(fā)了基于數(shù)據(jù)挖掘的PDP-Miner平臺,有效提升了生產(chǎn)效率和產(chǎn)品質(zhì)量。該公司應(yīng)用PDP-Miner平臺后,產(chǎn)品綜合良品率得到了很大提高,同時,生產(chǎn)效率的提升也帶來了很大的經(jīng)濟(jì)效益。該研究獲得2013年“中國制造業(yè)IT新興技術(shù)應(yīng)用最佳實踐獎”7http://news. e-works.net.cn/ category146/ news55123.htm。
FIU-Miner 已被成功應(yīng)用于TerraFlyGeocloud[11],支持多種在線空間數(shù)據(jù)分析的平臺。
5.1 空間數(shù)據(jù)挖掘
隨著衛(wèi)星科技的發(fā)展及移動設(shè)備的普及,獲取一個對象實時完整的空間信息變得越來越容易。為了能夠從中實時性地獲取有用信息,需要有效的方法進(jìn)行空間數(shù)據(jù)挖掘??臻g數(shù)據(jù)挖掘是從大型空間數(shù)據(jù)庫里發(fā)現(xiàn)有趣的、不知道的但非常有價值的模式的一個過程。但由于空間數(shù)據(jù)類型和空間關(guān)系的復(fù)雜性,從空間數(shù)據(jù)庫里挖掘有趣和有價值的模式比從傳統(tǒng)數(shù)據(jù)庫里挖掘難度更大。
5.2 TerraFlyGeocloud介紹
空間數(shù)據(jù)挖掘可以應(yīng)用在很多領(lǐng)域,包括水資源管理、交通管理、災(zāi)難管理、犯罪分析、疾病分析和房地產(chǎn)等。一個典型的空間挖掘系統(tǒng)應(yīng)支持以下功能:在線的空間數(shù)據(jù)分析、空間數(shù)據(jù)可視化和空間數(shù)據(jù)查詢。這里,介紹一個具體的空間數(shù)據(jù)挖掘系統(tǒng):美國佛羅里達(dá)國際大學(xué)(FIU)計算機(jī)學(xué)院的高性能數(shù)據(jù)研究中心實驗室開發(fā)的TerraFlyGeoCloud 系統(tǒng)。TerraFlyGeoCloud是建立在TerraFly系統(tǒng)之上的、支持多種在線空間數(shù)據(jù)分析的一個平臺。圖8和圖9分別給出了TerraFlyGeoCloud的系統(tǒng)界面和工作流程。
為了方便使用,TerraFlyGeoCloud還提供了一種支持類SQL語句的空間數(shù)據(jù)查詢語言MapQL。它不但支持類SQL語句,更重要的是可根據(jù)用戶的不同要求,渲染和畫圖查詢得到空間數(shù)據(jù),比如學(xué)校周邊一定距離內(nèi)所有的開放住宅、離某條公路一定距離內(nèi)所有的賓館、特定地區(qū)的交通情況及不同郵政區(qū)域的平均收入情況等。MapQL的實現(xiàn)如圖10(a)所示,其中MapQL語句是整個過程的輸入,如圖10(b)所示,輸出則是通過MapQL引擎渲染得到的可視化地圖,如圖10(c)所示。
下面簡要講述一下使用MapQL的具體過程。如圖10(a)所示,第一步語法檢查,保證語法符合語法規(guī)則,不出現(xiàn)關(guān)鍵字拼寫錯誤;第二步語義檢查,確保MapQL將要訪問的數(shù)據(jù)是正確并存在的。接下來,系統(tǒng)會進(jìn)行語句解析并把包含樣式信息的解析結(jié)果存入空間數(shù)據(jù)庫中。樣式信息包括“渲染什么”及“在哪渲染”。當(dāng)所有的樣式信息保存入庫時,系統(tǒng)就會為接下來的渲染創(chuàng)建樣式配置對象。最后,從空間數(shù)據(jù)庫里加載樣式信息,并根據(jù)樣式信息為每個對象進(jìn)行渲染。比如想查詢佛羅里達(dá)國際大學(xué)周圍的房價,可通過如圖10(b)的MapQL語句查詢,結(jié)果如圖10(c)。
圖8 TerraFlyGeoCloud系統(tǒng)界面
圖9 分析工作流程
MapQL提供了一個比地理信息系統(tǒng)應(yīng)用程序編程接口(API)更友好的界面,使得開發(fā)人員和終端用戶能夠便捷自如地使用TerraFly地圖,同時能夠靈活地創(chuàng)建自己的地圖。
圖10 MapQL的實現(xiàn)、語句查詢及可視化地圖
除了支持地理信息系統(tǒng)的各種應(yīng)用外,TerraFly平臺還有豐富的GIS數(shù)據(jù)集,包括美國和加拿大的道路數(shù)據(jù)、美國人口普查和社會經(jīng)濟(jì)數(shù)據(jù)、1 500萬企業(yè)的統(tǒng)計和管理記錄、200萬專業(yè)醫(yī)生的數(shù)據(jù)、各種公共場所的數(shù)據(jù)集和全球環(huán)境數(shù)據(jù)等,用戶可以通過TerraFlyGeoCloud瀏覽、使用和挖掘這些數(shù)據(jù)集。
5.3 TerraFlyGeocloud使用難點
通過對TerraFlyGeoCloud的進(jìn)一步使用和研究,發(fā)現(xiàn)了如下幾個問題。這些問題非常典型,普遍存在于這類空間數(shù)據(jù)挖掘系統(tǒng)中。
(1)寫MapQL查詢語句的難度。雖然大多數(shù)開發(fā)人員熟悉SQL語句,可以很快地寫MapQL查詢。但對不熟悉SQL的用戶而言,學(xué)習(xí)MapQL還是比較困難的。所以,對絕大多數(shù)用戶而言,利用MapQL來完成空間分析任務(wù)仍然比較困難。
(2)空間分析任務(wù)的復(fù)雜性。一個典型的空間分析任務(wù)往往涉及幾個子任務(wù)。此外,這些子任務(wù)之間并不是完全獨立的。其中一些子任務(wù)的輸出往往是其他子任務(wù)的輸入。根據(jù)這種依賴關(guān)系,一個空間數(shù)據(jù)分析任務(wù)可以自然地表示為一個工作流。但構(gòu)造和管理這樣一個復(fù)雜的工作流程是空間數(shù)據(jù)分析的一個難點。
(3)順序執(zhí)行空間數(shù)據(jù)分析的工作流的效率往往很低。盡管一個工作流中的子任務(wù)并不是互相依賴,但這些子任務(wù)只能由最終用戶來順序執(zhí)行。這種順序執(zhí)行的方式?jīng)]有充分利用分布式計算環(huán)境來并行執(zhí)行獨立的子任務(wù)和優(yōu)化系統(tǒng)性能。
這3個問題給空間數(shù)據(jù)挖掘系統(tǒng)帶來了很大的局限,限制了用戶對系統(tǒng)的有效使用。將FIU-Miner 與TerraFlyGeocloud結(jié)合來解決這些問題。首先,根據(jù)序列模式挖掘算法從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式[11]。然后利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner來最大化子任務(wù)的并行執(zhí)行,優(yōu)化工作流的執(zhí)行效率。
TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)如圖11所示。主要有4層:用戶界面層、地理空間服務(wù)層、計算服務(wù)層和空間數(shù)據(jù)存儲和管理層。其中,從MapQL的查詢?nèi)罩局型诰虿樵兡J绞且粋€關(guān)鍵的步驟,這個步驟發(fā)生在地理空間服務(wù)層。挖掘出的順序查詢模式可以用來產(chǎn)生查詢模板和構(gòu)造空間分析的工作流。序列模式里面的每個查詢對應(yīng)于工作流里面的一個子任務(wù)。FIU-Miner在計算服務(wù)層,主要負(fù)責(zé)工作流的構(gòu)建、管理、調(diào)度和執(zhí)行。
5.4 應(yīng)用實例
利用FIU-Miner,系統(tǒng)可以通過構(gòu)建空間數(shù)據(jù)分析的工作流來優(yōu)化分析流程,提高分析效率。下面通過一個詳細(xì)的房產(chǎn)投資案例來展示[12]。
房產(chǎn)投資案例的目的是要尋找具有良好升值潛力的房產(chǎn)。如果一棟房產(chǎn)本身價值很低,但它周圍的房產(chǎn)卻相對來說比其高,那么對此房產(chǎn)進(jìn)行投資將是一個非常不錯的選擇。根據(jù)歷史查詢數(shù)據(jù),通過序列模式挖掘,發(fā)現(xiàn)這個任務(wù)一般有下面幾個步驟:
· 計算不同地區(qū)的平均價格,比較鄰近地區(qū)的價格,確定感興趣的地區(qū);
· 對感興趣的地區(qū)進(jìn)行空間自相關(guān)分析,確定候選地區(qū);
圖11 TerraFlyGeocloud+FIU-Miner系統(tǒng)架構(gòu)
· 驗證候選地區(qū)罪案率和平均收入,確定選擇結(jié)果;
· 在地圖上對結(jié)果進(jìn)行可視化。
這個任務(wù)的工作流如圖12所示。工作流里面所有的子任務(wù)都是由FIU-Miner來調(diào)度并在分布式環(huán)境中執(zhí)行的。
5.5 應(yīng)用亮點評述
上述實際案例中,將FIU-Miner應(yīng)用于空間數(shù)據(jù)挖掘,解決了空間數(shù)據(jù)挖掘中寫MapQL查詢語句困難、空間分析任務(wù)復(fù)雜性高及順序執(zhí)行空間數(shù)據(jù)分析工作流效率低這3個主要的難題。用戶可以輕松地從TerraFlyGeoCloud的MapQL查詢?nèi)罩局邪l(fā)現(xiàn)順序查詢模式,并利用這些順序查詢模式,在FIU-Miner里面構(gòu)建空間數(shù)據(jù)分析任務(wù)的工作流。最后使用FIU-Miner強(qiáng)大的分布式處理能力,提高工作流的執(zhí)行效率。
基于 FIU-Miner的TerraFlyGeoCloud在線空間數(shù)據(jù)挖掘系統(tǒng),已成功應(yīng)用于地理(如國土邊界、水位圖等)、自然(颶風(fēng)數(shù)據(jù)分析)、經(jīng)濟(jì)(如房產(chǎn)價格分析、人均收入等數(shù)據(jù)分析)、醫(yī)療(肝癌、關(guān)節(jié)炎等疾病數(shù)據(jù)分析)、社會(犯罪數(shù)據(jù)聚類等分析)等眾多領(lǐng)域,受到政府、企業(yè)、研究機(jī)構(gòu)及個人的極大重視。
FIU-Miner作為庫存管理數(shù)據(jù)挖掘平臺已被成功應(yīng)用于企業(yè),成為商務(wù)智能數(shù)據(jù)挖掘應(yīng)用中一個典范[13]。
6.1 庫存管理數(shù)據(jù)挖掘任務(wù)
圖12 房產(chǎn)投資案例的工作流程
庫存管理是指對制造業(yè)或服務(wù)業(yè)生產(chǎn)、經(jīng)營全過程的各種物品、產(chǎn)品以及其他資源進(jìn)行管理和控制,使其儲備保持在經(jīng)濟(jì)合理的水平上。高效、可靠的庫存管理可以為制定合理的貨物安全庫存量和訂貨量提供可靠的依據(jù),提高企業(yè)管理人員的決策質(zhì)量,從而減小資金的占用和缺貨損失,提高企業(yè)的經(jīng)濟(jì)效益。當(dāng)今的零售業(yè),供應(yīng)商往往需要給不同的地區(qū)存儲大量的貨物,且交易活動復(fù)雜頻繁,必須提前合理規(guī)劃好庫存方案?,F(xiàn)有的庫存管理系統(tǒng)(如InFlow和Inventoria)僅僅應(yīng)用傳統(tǒng)的統(tǒng)計分析方法分析現(xiàn)存的庫存數(shù)據(jù),對當(dāng)前的庫存信息分布進(jìn)行跟蹤監(jiān)控。進(jìn)行庫存決策時僅考慮單一算法模型,而無法根據(jù)綜合分析歷史數(shù)據(jù)和市場的實際狀況快速做出正確決策方案。因此,如何利用大數(shù)據(jù)挖掘技術(shù)開發(fā)智能庫存管理平臺,實現(xiàn)高效可靠的庫存預(yù)測、庫存異常檢測及庫齡分析等任務(wù),成為當(dāng)前大型零售企業(yè)亟需解決的問題。
6.2 庫存管理數(shù)據(jù)挖掘挑戰(zhàn)
隨著庫存管理數(shù)據(jù)日益龐大,庫存管理系統(tǒng)處理問題的難度也在不斷攀升。以國內(nèi)某大型電子消費產(chǎn)品制造企業(yè)的兩大類電視產(chǎn)品(液晶和等離子)交易為例,其庫存管理數(shù)據(jù)挖掘面臨的主要挑戰(zhàn)如下。
(1)交易記錄繁多:現(xiàn)代大型零售企業(yè)業(yè)務(wù)規(guī)模龐大,產(chǎn)生的交易記錄繁多,從2011年1月到2013年12月有將近6 000萬條,約50 GB數(shù)據(jù)。
(2)屬性關(guān)系復(fù)雜:庫存數(shù)據(jù)屬性繁多,記錄中包含種類眾多的屬性,有將近200個;數(shù)據(jù)層次繁多,在不同數(shù)據(jù)維度上,記錄可屬于不同的層次;庫存數(shù)據(jù)和屬性相關(guān)性復(fù)雜等。
(3)處理速度緩慢:現(xiàn)有數(shù)據(jù)分析工具大多基于內(nèi)存,無法加載龐大數(shù)據(jù)集,對數(shù)據(jù)輸入格式要求嚴(yán)格,適用性不強(qiáng),運行速度慢,無法響應(yīng)大數(shù)據(jù)的要求。
因此,現(xiàn)代庫存管理需要采用大數(shù)據(jù)挖掘技術(shù)開發(fā)高效、可靠、能處理大規(guī)模數(shù)據(jù)的智能庫存管理系統(tǒng)。
6.3 具體例子
筆者的研究團(tuán)隊開發(fā)了基于FIU-Miner的智能庫存管理系統(tǒng)iMiner[13],該系統(tǒng)為智能庫存管理定制了專門的數(shù)據(jù)挖掘算法,實現(xiàn)了多個功能模塊,開發(fā)了大規(guī)模的數(shù)據(jù)分析平臺系統(tǒng)。
6.3.1 系統(tǒng)概況
圖13展示了iMiner系統(tǒng)整體框架、各功能層次和模塊。系統(tǒng)自底向上分為物理資源層、任務(wù)和系統(tǒng)管理層、數(shù)據(jù)分析層、用戶界面層。該系統(tǒng)分析平臺建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺可提供高效率的數(shù)據(jù)分析處理工作流,并且可以有效地集成多種數(shù)據(jù)分析工具和語言,如R、Weka、Python、Hadoop等。數(shù)據(jù)分析層包括了數(shù)據(jù)預(yù)處理和各類數(shù)據(jù)挖掘算法,其中關(guān)鍵因素提取算法有助于提取對入庫/出庫量產(chǎn)生較大影響的因素或者對物料異常情況有決定性影響的因素;分布式K近鄰算法有助于查找入庫/出庫行為相似的物料;分布式回歸分析有助于對大盤及具體物料的入庫/出庫量進(jìn)行有效預(yù)測。
系統(tǒng)主要聚焦于庫存預(yù)測、庫存異常檢測、庫齡挖掘三大核心功能,通過綜合評價和集成各種算法的輸出使得分析結(jié)果更加穩(wěn)定和準(zhǔn)確。用戶界面層囊括了多種庫存分析結(jié)果的展示,用戶可以通過屬性選擇來查看不同的分析結(jié)果,也可以通過對個別參數(shù)的修改來更新分析結(jié)果,實現(xiàn)實時的人機(jī)互動。展示結(jié)果不僅有列表顯示,還提供了各種直觀的圖表顯示,更有利于用戶接收到數(shù)據(jù)整體分布、趨勢和關(guān)鍵信息點。
圖13 iMiner系統(tǒng)架構(gòu)
6.3.2 系統(tǒng)功能模塊
iMiner主要包含庫存預(yù)測(inventory forecasting)、庫存異常檢測(inventory anomaly detection)及庫齡分析(inventory aging analysis)三大功能模塊,如圖14所示。
(1)庫存預(yù)測
庫存管理中,精確和可信的庫存預(yù)測是關(guān)鍵。高效、可靠的預(yù)測可以大大減少庫存負(fù)荷,降低額外的貨物維護(hù)和損耗。庫存數(shù)據(jù)為標(biāo)準(zhǔn)的時序數(shù)據(jù),數(shù)據(jù)量大、時間跨度長、涵蓋面廣、規(guī)律性差。iMiner采用一種動態(tài)預(yù)測模型,首先根據(jù)歷史數(shù)據(jù)對出庫的基數(shù)進(jìn)行預(yù)測,而后結(jié)合出庫數(shù)據(jù)的長期趨勢、周期性因素及事件性因素對基數(shù)進(jìn)行動態(tài)調(diào)整,從而得到最終的預(yù)測結(jié)果。
(2)庫存異常檢測
對庫存指標(biāo)進(jìn)行監(jiān)控而達(dá)到異常檢測的目的,是庫存管理中不可或缺的部分。iMiner提供了多種庫存指標(biāo)的實時監(jiān)控(如庫存周轉(zhuǎn)率、庫存周轉(zhuǎn)天數(shù)、存銷比、周轉(zhuǎn)提升率、庫存資金周轉(zhuǎn)率)和不同粒度下的指標(biāo)查詢(如按時間周期包括按周和按月、按指定公司和物料、按指定物料類別和公司、按指定物料類別等)。同時,系統(tǒng)從庫存數(shù)據(jù)多個角度入手,及時、準(zhǔn)確地發(fā)現(xiàn)庫存的波動;采用相關(guān)物料的協(xié)同異常判定,使得對于異常結(jié)果的判定更有意義,系統(tǒng)還能夠同時準(zhǔn)確判定整體性指標(biāo)變化和個別指標(biāo)異常。
圖14 iMiner主要功能模塊
(3)庫齡分析
庫齡挖掘是為了防止貨物積壓,提前發(fā)現(xiàn)潛在積壓貨物,減小貨物積壓投資。iMiner系統(tǒng)利用統(tǒng)計回歸模型實現(xiàn)庫齡分析,并提供了庫齡分析的基本工具和高級工具?;竟ぞ咴试S用戶可視化分析給定貨物的庫齡分布,比較不同貨物中當(dāng)前的和歷史的庫齡變化,高級工具能夠幫助用戶找到與積壓相關(guān)的貨物屬性。iMiner系統(tǒng)中,庫齡挖掘主要包含了庫齡相關(guān)分類和標(biāo)準(zhǔn)、庫齡計算、庫齡金額計算以及安全庫存的計算等功能模塊。
6.4 應(yīng)用亮點評述
iMiner是一種新的智能庫存管理系統(tǒng),該系統(tǒng)能夠幫助大型供應(yīng)商實現(xiàn)高效的庫存管理,著力解決大數(shù)據(jù)時代現(xiàn)有庫存管理面臨的兩大關(guān)鍵問題。
(1)大規(guī)模庫存數(shù)據(jù)分析
iMiner系統(tǒng)分析平臺建立在支持高效數(shù)據(jù)分析的分布式系統(tǒng)——FIUMiner中。這一分析平臺是在分布式環(huán)境中管理所有的交易數(shù)據(jù),因此,iMiner能夠自動配置和執(zhí)行大規(guī)模庫存數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析任務(wù)。
(2)復(fù)雜庫存任務(wù)管理
iMiner結(jié)合多種先進(jìn)的數(shù)據(jù)挖掘算法來分析庫存數(shù)據(jù)。在實踐中,系統(tǒng)采用多種回歸模型,結(jié)合時間序列分析方法來實現(xiàn)庫存預(yù)測;運用情境感知異常檢測算法來識別異常貨物;利用統(tǒng)計回歸模型來進(jìn)行庫齡分析。從而實現(xiàn)高效、準(zhǔn)確的復(fù)雜庫存任務(wù)管理。
基于FIU-Miner的iMiner商務(wù)智能庫存管理平臺已經(jīng)應(yīng)用于企業(yè),成功解決了產(chǎn)品出庫預(yù)測、指標(biāo)異常檢查、庫齡挖掘等對企業(yè)產(chǎn)品生產(chǎn)和經(jīng)濟(jì)效益有重要影響的實際問題。
大數(shù)據(jù)的復(fù)雜特征對數(shù)據(jù)挖掘在理論和算法研究方面提出了新的要求和挑戰(zhàn)。大數(shù)據(jù)是現(xiàn)象,核心是挖掘數(shù)據(jù)中蘊含的潛在信息,并使它們發(fā)揮價值。數(shù)據(jù)挖掘是理論技術(shù)和實際應(yīng)用的完美結(jié)合。
本文通過目前業(yè)界對大數(shù)據(jù)的理解和認(rèn)識,結(jié)合筆者及其研究團(tuán)隊多年來對大數(shù)據(jù)挖掘的深入理論研究及廣泛的應(yīng)用研究,綜合凝練出大數(shù)據(jù)的核心架構(gòu),即大數(shù)據(jù)挖掘的本質(zhì)是應(yīng)用、算法、數(shù)據(jù)和平臺4個要素的有機(jī)結(jié)合。在此架構(gòu)下,從應(yīng)用的角度重點介紹了研究團(tuán)隊開發(fā)的能夠快速、有效地進(jìn)行各類數(shù)據(jù)挖掘任務(wù)的數(shù)據(jù)挖掘系統(tǒng)FIU-Miner,并具體介紹了基于FIU-Miner的高端制造業(yè)數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和商務(wù)智能數(shù)據(jù)挖掘3個典型的應(yīng)用案例。FIU-Miner在這些領(lǐng)域的成功應(yīng)用也說明了提出的數(shù)據(jù)挖掘核心架構(gòu)的效用。
致謝
本文總結(jié)介紹了筆者研究團(tuán)隊近幾年開展的與大數(shù)據(jù)相關(guān)的部分研究和成果?;谶@些研究,給出了對大數(shù)據(jù)的理解和看法,希望能起到拋磚引玉的目的。在這些相關(guān)研究中,筆者研究團(tuán)隊得到了許多人的幫助和機(jī)構(gòu)的資助,在此表示衷心感謝。
首先,要大力感謝長虹集團(tuán)以及其相關(guān)科研人員Bing Duan、Ming Lei、Pengnian Wang、Jun Tang、 Dong Liu。他們不僅為筆者研究團(tuán)隊的科研提供了資助,而且其相關(guān)研究人員為筆者研究團(tuán)隊提供了非常多寶貴的專業(yè)領(lǐng)域知識指導(dǎo)。
其次,要深深感謝美國佛羅里達(dá)國際大學(xué)的Knowledge Discovery and Research Group(KDRG)研究組的成員:Dr Lei Li、Dr Yexi Jiang、Mr Wei Xue、Dr Jingxuan Li、Dr Chao Shen、Mr Hongtai Li、Dr Liang Tang、Mr Long Wang和Mr Longhui Zhang。他們在相關(guān)的研究及項目中付出了辛勤的勞動,提供了許多寶貴的反饋。
最后,要感謝美國佛羅里達(dá)國際大學(xué)的Naphtali Rishe教授以及其帶領(lǐng)的High Performance Database Research Center(HPDRC)研究組里的成員: Mr Mingjin Zhang、Ms Huibo Wang、Dr Yun Lu、Mr Yudong Guang、Mr Chang Liu和Mr Erik Edrosa。他們在TerrayFlyGeocloud項目上與筆者研究團(tuán)隊開展了非常有成效的合作。
[1] 嚴(yán)霄鳳, 張德馨. 大數(shù)據(jù)研究. 計算機(jī)技術(shù)與發(fā)展, 2013, 23(4): 168~172 Yan X F, Zhang D X. Big data research. Computer Technology and Development, 2013, 23(4): 168~172
[2] 李國杰. 對大數(shù)據(jù)的再認(rèn)識. 大數(shù)據(jù), 2015001 Li G J. Further understanding of big data. Big Data Research, 2015001
[3] 李濤. 數(shù)據(jù)挖掘的應(yīng)用與實踐: 大數(shù)據(jù)時代的案例分析. 廈門: 廈門大學(xué)出版社, 2013 Li T. Data Mining Where Theory Meets Practice. Xiamen: Xiamen Press, 2013
[4] Hall M, Frank E, Holmes G,et al. The Weka data mining software: an update. SIGKDD Explorations, 2009, 11(1): 10~18
[5] Owen S, Anil R, Dunning T,et al. Mahout in Action. Shelter Island: Manning Publications, 2011
[6] Prekopcsak Z, Makrai G, Henk T,et al. Radoop: analyzing big data with rapid miner and hadoop. Proceedings of RapidMiner Community Meeting and Conference, Dublin, Ireland, 2011
[7] Yu L, Zheng J, Wu B,et al. Bc-pdm: data mining, social network analysis and text mining system based on cloud computing. Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’12), Beijing, China, 2012
[8] Zeng C Q, Jiang Y X, Zheng L,et al. Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment. Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’13), Chicago, Illinois, USA, 2013: 1506~1509
[9] Lei D, Hitt M A, Goldhar J D. Advanced manufacturing technology: organizational design and strategic flexibility. Organization Studies, 1996, 17(3): 501~523
[10] Zheng L, Zeng C Q, Li L,et al. Applying data mining techniques to address critical process optimization needs in advanced manufacturing. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD’14), New York, USA, 2014: 1739~1748
[11] Zhang M J, Wang H B, Lu Y,et al. TerraFly GeoCloud: an online spatial data analysis and visualization system. ACM Transactions on Intelligent Systems and Technology (TIST), 2015, 6(3)
[12] Zeng C Q, Li H T, Wang H B,et al. Optimizing online spatial data analysis with sequential query patterns. Proceedings of the 15th IEEE International Conference on Information Reuse and Integration, San Francisco, CA, USA, 2014
[13] Li L, Shen C, Wang L,et al. iMiner: mining inventory data for intelligent management. Proceedings of the 23rd ACM International Conference on Information and Knowledge Management, Shanghai, China, 2014
作者簡介
李濤,男,南京郵電大學(xué)計算機(jī)學(xué)院、軟件學(xué)院院長,南京郵電大學(xué)大數(shù)據(jù)研究院院長。2004年7月獲美國羅徹斯特大學(xué)(University of Rochester)計算機(jī)科學(xué)博士學(xué)位,2004-2014年先后任美國佛羅里達(dá)國際大學(xué)(Florida International University)計算機(jī)學(xué)院助理教授、副教授(終身教授)、教授(full professor)、研究生主管(graduate program director)。由于在數(shù)據(jù)挖掘及應(yīng)用領(lǐng)域成效顯著的研究工作,曾多次獲得各種榮譽和獎勵,其中包括2006年美國國家自然科學(xué)基金委頒發(fā)的杰出青年教授獎,2010年IBM大規(guī)模數(shù)據(jù)分析創(chuàng)新獎,并于2009年獲得佛羅里達(dá)國際大學(xué)最高學(xué)術(shù)研究獎。
曾春秋,男,美國佛羅里達(dá)國際大學(xué)計算機(jī)科學(xué)博士生,南京郵電大學(xué)計算機(jī)學(xué)院大數(shù)據(jù)項目組成員。2009年7月-2012年1月為阿里巴巴(中國)網(wǎng)絡(luò)技術(shù)有限公司高級數(shù)據(jù)工程師。主要研究興趣包括大規(guī)模分布式數(shù)據(jù)挖掘和系統(tǒng)管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周武柏,男,美國佛羅里達(dá)國際大學(xué)計算機(jī)科學(xué)博士生,南京郵電大學(xué)計算機(jī)學(xué)院大數(shù)據(jù)項目組成員。主要研究興趣包括數(shù)據(jù)挖掘和計算機(jī)系統(tǒng)管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍的編寫工作。
周綺鳳,女,博士,廈門大學(xué)自動化系副教授。2002年起從事數(shù)據(jù)挖掘及智能系統(tǒng)方面的研究工作,2014-2015年在美國佛羅里達(dá)國際大學(xué)訪學(xué),主要研究興趣包括機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘及其在可持續(xù)發(fā)展等領(lǐng)域的應(yīng)用。
鄭理,男,2014年在美國佛羅里達(dá)國際大學(xué)獲得計算機(jī)科學(xué)博士學(xué)位,南京郵電大學(xué)計算機(jī)學(xué)院項目研究員。主要研究興趣包括信息檢索、推薦系統(tǒng)及災(zāi)難信息管理,發(fā)表多篇頂級數(shù)據(jù)挖掘國際期刊和會議論文,參與多本數(shù)據(jù)挖掘相關(guān)應(yīng)用領(lǐng)域書籍編寫。
Li T, Zeng C Q, Zhou W B,et al. Data mining in the era of big data: from the application perspective. Big Data Research, 2015041
Data Mining in the Era of Big Data: From the Application Perspective
Li Tao1,2, Zeng Chunqiu1,2, Zhou Wubai1,2, Zhou Qifeng3, Zheng Li1,2
1. School of Computer Science & Technology, Nanjing University of Posts and Telecommunications, Nanjing 210023, China;
2. School of Computer Science, Florida International University, Miami 33199, USA;
3. Department of Automation, Xiamen University, Xiamen 361005, China
The technical characteristics, tasks, and difficulties of data mining in big data era were introduced. The system architecture of large-scale data mining was analyzed. Then, the developed FIU-Miner which is a fast, integrated, and user-friendly system for data mining, was introduced. FIU-Miner supports user-friendly rapid data mining task configuration, flexible cross-language program integration, and effective resource management in heterogeneous environments. Finally three successful real-world applications of FIU-Miner: advanced manufacturing data mining, spatial data mining, and business intelligence data mining, were presented to demonstrate its efficacy and effectiveness.
big data, data mining, FIU-Miner, advanced manufacturing, spatial data mining, business intelligence
10.11959/j.issn.2096-0271.2015041
2015-09-30
李濤,曾春秋,周武柏等. 大數(shù)據(jù)時代的數(shù)據(jù)挖掘——從應(yīng)用的角度看大數(shù)據(jù)挖掘. 大數(shù)據(jù), 2015041