張維群,岳 雪
(1.西安交通大學(xué) 經(jīng)濟與金融學(xué)院,陜西 西安 710049;2.西安財經(jīng)學(xué)院 統(tǒng)計學(xué)院,陜西 西安 710100)
基于Copula連接函數(shù)的數(shù)據(jù)挖掘關(guān)聯(lián)算法的設(shè)計
張維群1,2,岳 雪2
(1.西安交通大學(xué) 經(jīng)濟與金融學(xué)院,陜西 西安 710049;2.西安財經(jīng)學(xué)院 統(tǒng)計學(xué)院,陜西 西安 710100)
現(xiàn)實中海量數(shù)據(jù)往往持續(xù)地產(chǎn)生,如何實現(xiàn)信息和知識的動態(tài)挖掘已成為人們關(guān)注的理論問題。根據(jù)數(shù)據(jù)集分批分步輸入處理的思想,以Copula連接函數(shù)為理論基礎(chǔ),給出一種有效海量數(shù)據(jù)的關(guān)聯(lián)分步測度算法,通過模擬實驗驗證了該算法的可行性,結(jié)果顯示所設(shè)計的關(guān)聯(lián)算法能顯著提高關(guān)聯(lián)效應(yīng)測量的效率,并能有效地解決超海量數(shù)據(jù)關(guān)聯(lián)效應(yīng)的測度問題。
關(guān)聯(lián)效應(yīng);連接函數(shù);挖掘算法
隨著信息技術(shù)的進步,人們能以更快速、更簡單、更方便的方式獲取和存儲數(shù)據(jù),必然使數(shù)據(jù)信息量以指數(shù)方式增長,海量數(shù)據(jù)本身并不能直接地體現(xiàn)其價值,有價值的是從中抽取到有用的知識和信息,因此數(shù)據(jù)挖掘越來越受到重視。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中有用的信息?,F(xiàn)實中存在著海量數(shù)據(jù)集,但因相對應(yīng)有限的存儲空間及有限生命體時間限制的問題,設(shè)計出了高效數(shù)據(jù)挖掘算法,此算法能夠快速挖掘出海量數(shù)據(jù)的知識和信息,并提供即時決策,已成為當前理論研究的熱點問題。
對于數(shù)據(jù)關(guān)聯(lián)性測度算法的研究較多,不同文獻根據(jù)問題的特殊性設(shè)計了相應(yīng)的算法。Roecker J A.為解決在多目標數(shù)據(jù)關(guān)聯(lián)中存在的噪聲問題,提出了一種多重掃描聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)(JPDA)算法,該算法先利用標準單向掃描JPDA算法對目標進行追蹤更新,然后進行后向掃描,并將隨著后向掃描目標信息所產(chǎn)生的更好加權(quán)數(shù)據(jù)關(guān)聯(lián)反饋給服務(wù)器,從而解決同時在多目標和噪聲的環(huán)境下測量跟蹤數(shù)據(jù)關(guān)聯(lián)的問題[1];陳玉坤等人運用現(xiàn)代數(shù)學(xué)中的綜合分析法得出模糊相似性測度數(shù)據(jù)關(guān)聯(lián)算法,其處理速度較快,存儲和通信量要求較低,且具有良好的關(guān)聯(lián)效果[2];Wang Hansheng提出了迭代邊緣優(yōu)化擬合算法(IMO),旨在保證MRC目標函數(shù)的單調(diào)遞增,該算法不僅有效穩(wěn)定,且計算速度也非常令人滿意[3];Michael Kaess等人針對邊際協(xié)方差陣估計數(shù)據(jù)關(guān)聯(lián)問題很難得到計算完整的密集協(xié)方差矩陣,提出使用一個平方根信息矩陣作為維護增量平滑和映射(iSAM)算法,并允許刪除不提供信息的測量降低估計的復(fù)雜性,該算法用真實數(shù)據(jù)模擬實驗結(jié)果較好[4];唐冬麗等人針對聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法需要知道目標總數(shù)并對矩陣差分計算量呈指數(shù)增長的問題,提出了一種模糊多門限概率關(guān)聯(lián)算法,該算法利用計算測量與目標的關(guān)聯(lián)概率來替代概率數(shù)據(jù)關(guān)聯(lián)算法中可行聯(lián)合事件概率,在改善性能的同時又減少了計算量[5];安振等人認為數(shù)據(jù)關(guān)聯(lián)算法的研究是多目標跟蹤中的核心問題,多目標跟蹤的精度和計算過程的復(fù)雜度均取決于所采取的數(shù)據(jù)關(guān)聯(lián)算法的優(yōu)劣,繼而提出了一種改進的次優(yōu)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法[6];Aziz Ashraf M.為了在很大程度上降低聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)方法和傳統(tǒng)模糊邏輯數(shù)據(jù)關(guān)聯(lián)方法的計算復(fù)雜度,提出加權(quán)模糊關(guān)聯(lián)方法解決在嘈雜環(huán)境中多目標的跟蹤問題,利用模糊聚類來生成一個似然測度代替?zhèn)鹘y(tǒng)的馬哈拉諾比斯距離,實驗結(jié)果表明該算法具有比最近鄰馬哈拉諾比斯距離、聯(lián)合數(shù)據(jù)關(guān)聯(lián)算法和傳統(tǒng)模糊邏輯數(shù)據(jù)關(guān)聯(lián)方法更好的性能[7]。
綜合文獻研究可以看出,雖然以往的算法對于變量的關(guān)聯(lián)測度算法有很大的提高,但都是針對有限數(shù)據(jù)集進行研究,在超大數(shù)據(jù)集和連續(xù)數(shù)據(jù)流的情況下,算法復(fù)雜度太高且運算量較大,算法的效率改進有限。張維群利用迭代思想提出了分步測量關(guān)聯(lián)性的算法[8],但是該算法需要系統(tǒng)存儲上步計算的諸多參數(shù),使算法的適用性受到限制。筆者在此基礎(chǔ)上,利用云計算思想,將數(shù)據(jù)分步分批進行處理,利用連接函數(shù)的概念,對分批樣本的估算結(jié)果進行連接,依據(jù)收斂后的結(jié)論快速地得出關(guān)聯(lián)測度結(jié)果。
對于現(xiàn)實中連續(xù)生成的海量數(shù)據(jù)而言,傳統(tǒng)的關(guān)聯(lián)測度算法已經(jīng)不能保證結(jié)果的準確性和有效性,這是因為海量數(shù)據(jù)或無限數(shù)據(jù)交由一個處理器處理,難免會降低處理效率,也不可能一次性進行即時處理。因此,利用云計算的資源交互概念,對傳統(tǒng)海量數(shù)據(jù)關(guān)聯(lián)挖掘算法進行改進,提出將分“塊”數(shù)據(jù)分步關(guān)聯(lián)性測度計算結(jié)果通過連接函數(shù)進行連接,依據(jù)結(jié)果收斂的性質(zhì)提出了一種快速有效的關(guān)聯(lián)測度算法。在利用海量數(shù)據(jù)的有限樣本情況下,給出了海量數(shù)據(jù)目標變量間關(guān)聯(lián)性測度結(jié)果,使海量數(shù)據(jù)的關(guān)聯(lián)算法更有效率。
1.連接函數(shù)的構(gòu)造
張堯庭最先將Copula函數(shù)應(yīng)用到相關(guān)分析中,在Copula連接函數(shù)原型的基礎(chǔ)上構(gòu)造連接函數(shù)。常用Copula連接函數(shù)分為兩大類:橢圓Copula函數(shù)族和阿基米德Copula函數(shù)族。在此,以阿基米德Copula函數(shù)為原型,形式如下:
關(guān)于“連接函數(shù)”,即將邊緣分布通過連接函數(shù)與聯(lián)合分布函數(shù)形成等式關(guān)系這一概念,由于該函數(shù)具有形式簡單、對稱性和可結(jié)合性等優(yōu)良性質(zhì),基于樣本量與綜合信息量相關(guān)的客觀事實,將權(quán)重這一信息加入式(1),再綜合考慮相關(guān)系數(shù)的取值范圍,對連接函數(shù)設(shè)計為:
根據(jù)數(shù)據(jù)分“塊”的思想,將海量數(shù)據(jù)中的一個小樣本集si交由終端處理,以較為常用的皮爾遜相關(guān)系數(shù)為例,在已知實際的數(shù)據(jù)分布關(guān)聯(lián)測度分析中,可根據(jù)數(shù)據(jù)的具體特征來選擇具體的相關(guān)系數(shù)計算方法,估計出樣本集si中變量x對y的關(guān)聯(lián)效應(yīng)水平:
為了驗證設(shè)計算法的有效性,用Matlab軟件處理來自移動通信行業(yè)的26 300組數(shù)據(jù),從而計算通話時長與話費開銷的關(guān)聯(lián)測度。隨機進行分組,可將各組數(shù)據(jù)分步交由處理器進行處理。為了剔除參數(shù)α取值的影響,實驗中均令α的取值從0.1取到0.9,輸出每次的結(jié)果,然后再選取最優(yōu)結(jié)果。實驗分別進行了12次,輸出結(jié)果見表1。
如果利用全部26 300組樣本得到計算通話時長與話費開銷的關(guān)聯(lián)測度為0.745 9,根據(jù)本文算法的實驗結(jié)果顯示,上述數(shù)據(jù)在實驗中最多用了159組數(shù)據(jù),樣本利用率為60.45%,最少的實驗僅通過2組數(shù)據(jù)就得到了收斂結(jié)果,樣本利用率只有0.76%。綜合實驗結(jié)果,本文設(shè)計的關(guān)聯(lián)算法樣本利用率均沒有超過61%,最差精度為0.71%,結(jié)果說明所設(shè)計的關(guān)聯(lián)算法具有明顯的優(yōu)勢,大大地降低了處理器運算量,從而節(jié)約了處理時間,提高了處理效率,也降低了處理過程對于計算機硬件的要求。
現(xiàn)實中數(shù)據(jù)平臺可能會不斷地生成新的數(shù)據(jù),傳統(tǒng)算法需要將所有數(shù)據(jù)重新計算。本文設(shè)計的算法只需要對新生成數(shù)據(jù)進行關(guān)聯(lián)性測量,并運用連接函數(shù)生成新的測量結(jié)果,如果新的測量結(jié)果收斂,則可以在一段時期內(nèi)不用對海量數(shù)據(jù)進行再挖掘,其關(guān)聯(lián)性測度水平只要通過云平臺提供給用戶就可以。
本文以數(shù)據(jù)集分“塊”和連接函數(shù)為基礎(chǔ),討論海量數(shù)據(jù)關(guān)聯(lián)測度算法的設(shè)計,并設(shè)計了一種有效準確的關(guān)聯(lián)測度算法,驗證了該算法具有顯著的處理效率和應(yīng)用的可行性。同樣,設(shè)計的算法對于測量超海量數(shù)據(jù)集的關(guān)聯(lián)性水平仍然有效,也為海量數(shù)據(jù)挖掘的云服務(wù)提供了可能。
[1] Roecker J A.Multiple Scan Joint Probabilistic Data Association[J].IEEE Transactions on Aerospace and Electronic Systems,1995,31(3).
[2] 陳玉坤,司錫才,李偉彤.基于模糊相似性測度的數(shù)據(jù)關(guān)聯(lián)算法研究[J].彈箭與制導(dǎo)學(xué)報,2007(2).
[3] Wang H.A Note on Iterative Marginal Optimization:A Simple Algorithm for Maximum Rank Correlation Estimation[J].Computational Statistics & Data Analysis,2007(6).
[4] Kaess M,Dellaert F.Covariance Recovery from a Square Root Information Matrix for Data Association[J].Robotics and Autonomous Systems,2009(12).
[5] 唐冬麗,李小兵,王志清.一種改進的聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法的研究[J].彈箭與制導(dǎo)學(xué)報,2010(6).
[6] 安振,姜秋喜,李業(yè)春.次優(yōu)聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)算法的研究[J].現(xiàn)代雷達,2011(4).
[7] Aziz Ashraf M.A New Nearest-Neighbor Association Approach Based on Fuzzy Clustering[J].Aerospace Science and Technology,2013(1).
[8] 張維群.基于海量數(shù)據(jù)關(guān)聯(lián)效應(yīng)測度算法的設(shè)計[J].統(tǒng)計與信息論壇,2012(7).
A Design of Correlation Algorithm of Data Mining Based on the Copula Function
ZHANG Wei-qun1,2,YUE Xue2
(1.School of Economics and Finance,Xi'an Jiaotong University,Xi'an 710049,China;2.School of Statistics,Xi'an University of Finance and Economics,Xi'an 710100,China)
In reality,the massive data are generated continuously,how to realize the dynamic mining of information and knowledge is a theoretical problem which people concerned.According to the idea of batch wise and stepwise input data processing,an effective stepwise algorithm on mass data correlation is introduced which is based on the theory of copula function.Further,the feasibility of the algorithm is verified by simulation experiments.The results show that the efficiency of measurement on the data association effect can be highly improved through the algorithm referred in this paper,and the measurement of super mass data or even infinite data will be solved effectively.
correlation effect;Copula function;mining algorithm
F224.0∶O213.9
A
1007-3116(2014)04-0010-04
2013-11-18;修復(fù)日期:2014-01-12
國家社會科學(xué)基金項目《基于多因素的空間抽樣調(diào)查理論與應(yīng)用研究》(13BTJ006)
張維群,男,陜西旬邑人,博士生,副教授,研究方向:電子商務(wù)數(shù)據(jù)挖掘,統(tǒng)計測度理論;
岳 雪,女,貴州遵義人,碩士生,研究方向:統(tǒng)計理論,數(shù)據(jù)挖掘算法。
(責任編輯:郭詩夢)