陸興華 李國恒 余文權(quán) 陳永聰
(廣東工業(yè)大學(xué)華立學(xué)院 廣州 511325)
基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法
陸興華李國恒余文權(quán)陳永聰
(廣東工業(yè)大學(xué)華立學(xué)院廣州511325)
摘要在科研管理系統(tǒng)設(shè)計中,需要對科研管理數(shù)據(jù)庫進(jìn)行優(yōu)化調(diào)度處理,提高數(shù)據(jù)庫中科研管理信息的訪問和調(diào)度能力。傳統(tǒng)方法采用K均值聚類算法進(jìn)行數(shù)據(jù)庫的信息屬性聚類和調(diào)度,數(shù)據(jù)個體間的子空間配對容易使得數(shù)據(jù)訪問過程陷入局部最優(yōu)解,數(shù)據(jù)庫調(diào)度性能不好。提出一種基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法。首先構(gòu)建了科研管理數(shù)據(jù)庫多層矢量自回歸空間,進(jìn)行數(shù)據(jù)庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現(xiàn)對數(shù)據(jù)庫的優(yōu)化調(diào)度。仿真結(jié)果表明,采用該算法進(jìn)行科研管理數(shù)據(jù)庫的數(shù)據(jù)信息聚類和調(diào)度,具有較好的特征峰值,數(shù)據(jù)的特征信息反映準(zhǔn)確,提高數(shù)據(jù)庫訪問的信息定位能力,數(shù)據(jù)庫調(diào)度的準(zhǔn)確性和收斂性較好。
關(guān)鍵詞模糊C均值聚類; 科研管理系統(tǒng); 數(shù)據(jù)庫; 調(diào)度
Class NumberTP391.9
1引言
隨著信息處理技術(shù)的發(fā)展,人類進(jìn)入大數(shù)據(jù)存儲和處理時代,通過構(gòu)建數(shù)據(jù)庫進(jìn)行數(shù)據(jù)調(diào)度和訪問,實現(xiàn)信息共享和利用。在高校的科研管理信息系統(tǒng)構(gòu)建過程中,需要對科研管理數(shù)據(jù)進(jìn)行數(shù)據(jù)優(yōu)化存儲和屬性分析,結(jié)合云計算和云儲存技術(shù)實現(xiàn)數(shù)據(jù)的分類處理和聚類分析,研究科研信息管理系統(tǒng)的數(shù)據(jù)庫優(yōu)化調(diào)度算法,提高數(shù)據(jù)庫中科研管理信息的訪問和調(diào)度能力,在科研管理信息的調(diào)度和數(shù)據(jù)分析中具有重要意義,相關(guān)的算法研究受到人們的極大重視[1]。
本文研究的科研管理信息系統(tǒng)的數(shù)據(jù)庫就是采用分布式數(shù)據(jù)庫構(gòu)建方法,對這類分布式數(shù)據(jù)庫的數(shù)據(jù)信息訪問和調(diào)度建立在數(shù)據(jù)聚類分析的基礎(chǔ)上,傳統(tǒng)方法中,對數(shù)據(jù)庫的調(diào)度和數(shù)據(jù)聚類分析采用的是K均值聚類算法,在K均值聚類過程中,由于數(shù)據(jù)個體間的子空間配對容易導(dǎo)致數(shù)據(jù)訪問過程陷入局部最優(yōu)解,數(shù)據(jù)庫調(diào)度性能不好[2~3]。對此,相關(guān)文獻(xiàn)進(jìn)行了算法改進(jìn)設(shè)計,其中,文獻(xiàn)[4]提出一種基于多層空間模糊減法聚類的數(shù)據(jù)庫優(yōu)化訪問算法,采用圖模型的科研管理數(shù)據(jù)庫采樣方法,實現(xiàn)數(shù)據(jù)的屬性聚類,提高數(shù)據(jù)庫的調(diào)度能力,但是該算法具有計算開銷大,特征空間維數(shù)較高的問題;文獻(xiàn)[5]提出一種基于時頻特征提取的數(shù)據(jù)庫訪問算法,采用數(shù)據(jù)庫訪問指令信息流的屬性相關(guān)度時頻特征提取實現(xiàn)數(shù)據(jù)庫優(yōu)化調(diào)度和訪問,提高數(shù)據(jù)調(diào)度和屬性特征分解能力,但該算法在進(jìn)行多次迭代后容易出現(xiàn)系統(tǒng)發(fā)散,性能不好,針對上述問題,本文提出一種基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法,首先構(gòu)建了科研管理數(shù)據(jù)庫多層矢量自回歸空間,進(jìn)行數(shù)據(jù)庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現(xiàn)對數(shù)據(jù)庫的優(yōu)化調(diào)度,仿真實驗進(jìn)行了性能驗證,展示了本文算法在優(yōu)化數(shù)據(jù)庫訪問性能,提高科研管理系統(tǒng)的數(shù)據(jù)分析能力方面的優(yōu)越性。
2科研管理數(shù)據(jù)庫矢量空間構(gòu)建和特征提取
2.1科研管理數(shù)據(jù)庫矢量空間構(gòu)建
為了實現(xiàn)對科研管理系統(tǒng)的數(shù)據(jù)庫的訪問和調(diào)度能力,需要構(gòu)建數(shù)據(jù)庫的矢量空間,在矢量空間中進(jìn)行特征信息流分析,通過特征提取進(jìn)行信號模型構(gòu)建[6],以此為基礎(chǔ)進(jìn)行數(shù)據(jù)聚類分析,實現(xiàn)數(shù)據(jù)庫調(diào)度,基于數(shù)據(jù)聚類的科研管理系統(tǒng)數(shù)據(jù)庫調(diào)度模型的基本實現(xiàn)流程如圖1所示。
圖1 數(shù)據(jù)庫調(diào)度設(shè)計流程
假設(shè)數(shù)據(jù)庫庫信息流屬性集為一個分布式數(shù)據(jù)庫屬性集合,首先對科研管理數(shù)據(jù)庫信息流進(jìn)行多維相空間重建,把科研管理數(shù)據(jù)庫的數(shù)據(jù)信息流信息聚焦為時間序列A={a1,a2,…,an},B={b1,b2,…,bm}為數(shù)據(jù)庫屬性類別集,ai的科研管理信息的模糊聚類中心,表現(xiàn)為{c1,c2,…,ck}??蒲泄芾頂?shù)據(jù)庫信息流通過數(shù)據(jù)聚類進(jìn)行屬性集分類,得到多層矢量空間的信息增益表達(dá)式為
(1)
(2)
Gain(A)=Info(B)-InfoA(B)
(3)
令ax屬性中的cv值為科研管理數(shù)據(jù)庫信息流的息增益,數(shù)據(jù)信息流矢量場映射到一個多維狀態(tài)空間中進(jìn)行特征提取,得到多層矢量空間系統(tǒng)表示為:
Φ(z)=(h(z),h(φ1(z)),…,h(φ2d(z)))T
(4)
其中,數(shù)據(jù)庫訪問的時間序列{x(t0+iΔt)},i=0,1,…,N-1,在多層空間的狀態(tài)特征矩陣描述為
X=[x(t0),x(t0+Δt),…,x(t0+(K-1)Δt)]
(5)
------------------------------
式中,x(t)表示數(shù)據(jù)庫信息流傾斜因子,J是數(shù)據(jù)聚類簇的總數(shù),m是相空間重構(gòu)的維數(shù)。在上述重構(gòu)的科研管理數(shù)據(jù)庫矢量空間中,進(jìn)行信息特征提取實現(xiàn)數(shù)據(jù)聚類分析和數(shù)據(jù)庫調(diào)度。
2.2數(shù)據(jù)庫的訪問狀態(tài)信息特征提取
在上述構(gòu)建的多維矢量空間中,進(jìn)行數(shù)據(jù)庫的訪問狀態(tài)信息特征提取。數(shù)據(jù)庫的訪問狀態(tài)信息特征提取的流程分以下五個部分:
1) 考察科研管理數(shù)據(jù)庫信息流矢量x和xn+τ,選擇一個C值,確定數(shù)據(jù)訪問的聚類簇總數(shù)。若數(shù)據(jù)集為m,令A(yù)j(L)作為多層空間模糊聚類中心,其中j=1,2,…,k,并特征空間中矢量軌跡的距離,采用歐式距離表示;
2) 在數(shù)據(jù)集中變尺度調(diào)整聚類中心矢量,兩個數(shù)據(jù)庫訪問時刻t和t+τ相互關(guān)聯(lián)的初始化簇中心F(xi,Aj(L)),i=1,2,…,m,j=1,2,…,k;
3) 使用關(guān)聯(lián)維特征提取方法得到剩余簇分配到的數(shù)據(jù)屬性的聚類密度特征,如滿足:
D(xi,Aj(L))=min{D(xi,Aj(L))}
(6)
那么xi∈ωk;
4) 使用散布查詢類別S(t)的平均值作為下一次數(shù)據(jù)聚類迭代的簇平均值:
(7)
5) 如果數(shù)據(jù)信息流x(t)的聚類中心的迭代平均值小于閾值,‖C(l)-C(l-1)‖<ξ,則中止程序,否則返回步驟2),令l=l+1,進(jìn)行數(shù)據(jù)聚類中心搜索:
(8)
通過上述方法,完成數(shù)據(jù)庫的訪問狀態(tài)信息特征提取。
3模糊C均值聚類算法和數(shù)據(jù)庫調(diào)度算法改進(jìn)設(shè)計
3.1模糊C均值聚類算法的提出
在上述特征空間重構(gòu)和數(shù)據(jù)庫訪問信息的特征提取的基礎(chǔ)上,采用K均值聚類算法進(jìn)行數(shù)據(jù)庫的信息屬性聚類和調(diào)度,數(shù)據(jù)個體間的子空間配對容易導(dǎo)致數(shù)據(jù)訪問過程陷入局部最優(yōu)解,數(shù)據(jù)庫調(diào)度性能不好[7~10]。為了克服傳統(tǒng)方法的弊端,本文提出一種基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法。首先進(jìn)行模糊C均值聚類算法的描述,假設(shè)數(shù)據(jù)庫中存在有限數(shù)據(jù)集:
X={x1,x2,…,xn}?Rs
(9)
根據(jù)某個距離函數(shù)把數(shù)據(jù)庫訪問中的狀態(tài)信息數(shù)據(jù)集合分為C個類別,其中樣本xi,i=1,2,…,n的初始的聚類中心為
xi=(xi1,xi2,…,xis)T
(10)
當(dāng)所有個體分配完畢,聚類數(shù)目中的屬性值X分為c類,其中1 V={vij|i=1,2,…,c;j=1,2,…,s} (11) 其中Vi為數(shù)據(jù)庫訪問過程中的聚類中心的第i個矢量,確定聚類簇的總數(shù),得到數(shù)據(jù)庫屬性的模糊劃分矩陣表示為 U={μik|i=1,2,…,c;k=1,2,…,n} (12) 通過定義,對初始群體進(jìn)行處理,得到數(shù)據(jù)屬性聚類目標(biāo)函數(shù)為(定義聚類目標(biāo)函數(shù)): (13) 式中,m為交叉運算權(quán)重,(dik)2為數(shù)據(jù)集采樣樣本xk與Vi的特征空間分布概率密度函數(shù),群體P(t)經(jīng)過篩選: (dik)2=‖xk-Vi‖2 (14) 且 (15) 結(jié)合模糊C均值聚類約束條件式,采用Lagrange定理,求得數(shù)據(jù)庫調(diào)度的模糊C均值聚類的聚類中心為 (16) (17) 在聚類中心初始值已知的情況,設(shè)定代數(shù),結(jié)合模糊度指標(biāo)m,得到的適應(yīng)度最優(yōu)解作為最終的聚類解結(jié)果。 for(i in1∶2 000){x=runif(n,0,1); y=(sum(x)-n×0.5)/sqrt(n/12); A[i]=y} 3.2科研管理數(shù)據(jù)庫調(diào)度優(yōu)化實現(xiàn) 根據(jù)上述模糊C均值聚類算法,進(jìn)行科研管理數(shù)據(jù)看的優(yōu)化調(diào)度設(shè)計,假設(shè)科研管理數(shù)據(jù)庫調(diào)度響應(yīng)函數(shù)為 (18) 逐層挖大數(shù)據(jù)信息流的頻繁模式集,進(jìn)行數(shù)據(jù)信息流的特征提取,設(shè)計數(shù)據(jù)庫調(diào)度傳輸算子hi(t),進(jìn)行卷積,其中npi(t)為數(shù)據(jù)庫調(diào)度的干擾項,得到數(shù)據(jù)庫調(diào)度的尋優(yōu)子集表示為 pri(t)=p(t)*hi(t)+npi(t) (19) 式中,hi(t)表示p(t)在科研管理數(shù)據(jù)集查詢均勻遍歷特征,計算孤立點的隸屬度: (20) (21) 式中: *hi(-t)+nsi(t)*npi(-t) (22) 通過上述處理,設(shè)置為變異遺傳散布控制量,由此實現(xiàn)對科研管理數(shù)據(jù)庫的優(yōu)化調(diào)度,算法實現(xiàn)過程如圖2所示。 圖2 基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度實現(xiàn)流程 4仿真實驗與結(jié)果分析 為了測試本文算法在實現(xiàn)科研管理數(shù)據(jù)庫庫調(diào)度,提高數(shù)據(jù)庫訪問能力方面的性能,進(jìn)行仿真實驗,實驗平臺計算機(jī)使用Intel i5-3230M 2.6GHz雙核CPU,采用Matlab仿真軟件進(jìn)行數(shù)學(xué)編程,首先進(jìn)行數(shù)據(jù)聚類參數(shù)的初始化設(shè)置。設(shè)定參量Gmax=30,D=12,c=3,NP=30,數(shù)據(jù)采樣樣本的個數(shù)為1024,科研管理數(shù)據(jù)庫采用分布式數(shù)據(jù)庫設(shè)計,數(shù)據(jù)采樣的周期為T=12s,數(shù)據(jù)聚類算法運行100次,采用多層矢量空間重構(gòu),對采樣的數(shù)據(jù)庫訪問信息狀態(tài)進(jìn)行特征分解,獲得的3層8個特征量,得到數(shù)據(jù)庫調(diào)度的屬性特征分解結(jié)果如圖3所示。 圖3 數(shù)據(jù)庫調(diào)度的屬性特征分解結(jié)果 以上述特征分解結(jié)果為原始測試樣本集,進(jìn)行模糊C均值聚類,實現(xiàn)數(shù)據(jù)庫的優(yōu)化調(diào)度,采用Monte Carlo算法,進(jìn)行10000次運算,得到數(shù)據(jù)集的聚類結(jié)果,為了對比算法性能,采用本文算法和傳統(tǒng)的K均值聚類算法進(jìn)行對比,得到科研管理數(shù)據(jù)庫的數(shù)據(jù)聚類對比結(jié)果如圖4所示。 圖4 數(shù)據(jù)聚類性能對比 從圖可見,采用本文算法進(jìn)行科研管理數(shù)據(jù)庫的數(shù)據(jù)聚類,具有較好的特征峰值,旁瓣干擾較少,數(shù)據(jù)的特征信息反映準(zhǔn)確,展示了較好的數(shù)據(jù)分析和聚類能力,以此為基礎(chǔ)實現(xiàn)數(shù)據(jù)庫的信息調(diào)度,提高數(shù)據(jù)庫訪問的信息定位能力,以數(shù)據(jù)庫調(diào)度準(zhǔn)確度為測試指標(biāo),得到本文算法和傳統(tǒng)算法下數(shù)據(jù)庫調(diào)度性能對比結(jié)果如圖5所示。 圖5 數(shù)據(jù)庫調(diào)度性能對比 從圖可見,采用本文算法進(jìn)行數(shù)據(jù)庫調(diào)度的準(zhǔn)確度較高,收斂性好,性能優(yōu)越于傳統(tǒng)算法。 5結(jié)語 通過研究科研信息管理系統(tǒng)的數(shù)據(jù)庫優(yōu)化調(diào)度算法,提高數(shù)據(jù)庫中科研管理信息的訪問和調(diào)度能力,本文提出一種基于模糊C均值聚類的科研管理數(shù)據(jù)庫調(diào)度算法,首先構(gòu)建了科研管理數(shù)據(jù)庫多層矢量自回歸空間,進(jìn)行數(shù)據(jù)庫中訪問信息流的特征提取,采用模糊C均值聚類算法實現(xiàn)對數(shù)據(jù)庫的優(yōu)化調(diào)度,仿真實驗進(jìn)行了性能驗證,展示了本文算法在優(yōu)化數(shù)據(jù)庫訪問性能,提高科研管理系統(tǒng)的數(shù)據(jù)分析能力方面的優(yōu)越性,本文方法將在科研管理系統(tǒng)的優(yōu)化設(shè)計和數(shù)據(jù)庫優(yōu)化訪問設(shè)計中具有較好的應(yīng)用價值。 參 考 文 獻(xiàn) [1] 高志春,陳冠瑋,胡光波,等.傾斜因子K均值優(yōu)化數(shù)據(jù)聚類及故障診斷研究[J].計算機(jī)與數(shù)字工程,2014,42(1):14-18. GAO Zhichun, CHEN Guanwei, HU Guangbo, et al. Fault Diagnosis and Optimal Data Clustering Based on K-Means with Slope Factor[J]. Computer & Digital Engineering,2014,42(1):14-18. [2] 張冬冬,李宏元.醫(yī)療設(shè)備計算機(jī)管理系統(tǒng)的設(shè)計與應(yīng)用[J].電子設(shè)計工程,2015,(19):104-106. ZHANG Dongdong, LI Hongyuan. Medical equipment design and application of computer management system[J]. SAMSON,2015,(19):104-106. [3] 田剛,何克清,王健,等.面向領(lǐng)域標(biāo)簽輔助的服務(wù)聚類方法[J].電子學(xué)報,2015,43(7):1266-1274. TIAN Gang, HE Keqing, WANG Jian, et al. Domain-Oriented and Tag-Aided Web Service Clustering Method[J]. Chinese Journal of Electronics,2015,43(7):1266-1274. [4] 吳濤,陳黎飛,郭躬德.優(yōu)化子空間的高維聚類算法[J].計算機(jī)應(yīng)用,2014,34(8):2279-2284. WU Tao, CHEN Lifei, GUO Gongde. High-dimensional data clustering algorithm with subspace optimization[J]. Journal of Computer Applications,2014,34(8):2279-2284. [5] 余曉東,雷英杰,岳韶華,等.基于粒子群優(yōu)化的直覺模糊核聚類算法研究[J].通信學(xué)報,2015,(5):74-80. YU Xiaodong, LEI Yingjie, YUE Shaohua, et al. Research on PSO-based intuitionistic fuzzy kernel clustering algorithm[J]. Journal of Communication,2015,(5):74-80. [6] 張博,郝杰,馬剛,等.混合概率典型相關(guān)性分析[J].計算機(jī)研究與發(fā)展,2015,52(7):1463-1476. ZHANG Bo, HAO Jie, MA Gang, et al. Mixture of Probabilistic Canonical Correlation Analysis[J]. Journal of Computer Research and Development,2015,52(7):1463-1476. [7] 孫超,楊春曦,范莎,等.能量高效的無線傳感器網(wǎng)絡(luò)分布式分簇一致性濾波算法[J].信息與控制,2015,44(3):379-384. SUN Chao, YANG Chunxi, FAN Sha, et al. Energy Efficient Distributed Clustering Consensus Filtering Algorithm for Wireless Sensor Networks[J]. Information and Control,2015,44(3):379-384. [8] 文天柱,許愛強(qiáng),程恭.基于改進(jìn)ENN2聚類算法的多故障診斷方法[J].控制與決策,2015,30(6):1021-1026. WEN Tianzhu, XU Aiqiang, CHNEG Gong. Multi-fault diagnosis method based on improved ENN2 clustering algorithm[J]. Control and Decision,2015,30(6):1021-1026. [9] Kumar A, Pooja R, Singh G K. Design and performance of closed form method for cosine modulated filter bank using different windows functions[J]. International Journal of Speech Technology,2014,17(4):427-441. [10] Rajapaksha N, Madanayake A, Bruton L T. 2D space- time wave-digital multi-fan filter banks for signals consistingof multiple plane waves[J]. Multidimensional Systems and Signal Processing,2014,25(1):17-39. Management Database Scheduling Algorithm Based on Fuzzy C Means Clustering LU XinghuaLI GuohengYU WenquanCHEN Yongcong (Huali College, Guangdong University of Technology, Guangzhou511325) AbstractIn the design of scientific research management system, it is necessary to optimize the management of scientific research management database to improve the access and scheduling ability of scientific research management information in the database. The traditional method uses K means clustering algorithm to carry out the information attribute clustering and scheduling of the database, and the sub space of the data is easy to make the data access process into local optimal solution, and the database scheduling performance is not good. A research management database scheduling algorithm based on fuzzy C means clustering is proposed. Firstly, the database of research management database is constructed, and the feature extraction of the information flow is extracted. The fuzzy C means clustering algorithm is adopted to optimize the database. Simulation results show that the data information clustering and scheduling of scientific research management database using the proposed algorithm has good characteristics, and the characteristics of data can reflect accurately, improve the information location ability of database access, and the accuracy and convergence of database scheduling is better. Key Wordsfuzzy C means clustering, scientific research management system, database, scheduling 收稿日期:2015年12月10日,修回日期:2016年1月20日 基金項目:2015年度廣東大學(xué)生科技創(chuàng)新培育專項資金立項項目(編號:pdjh2015b0940);2012廣東省質(zhì)量工程項目“獨立學(xué)院電子信息創(chuàng)新人才培養(yǎng)實驗區(qū)”(編號:粵教高函[2012]204號)資助。 作者簡介:陸興華,男,碩士,講師,研究方向:計算機(jī)控制算法、人工智能。李國恒,男,研究方向:人工智能。余文權(quán),男,研究方向:通訊技術(shù)。陳永聰,男,實驗員,研究方向:計算機(jī)網(wǎng)絡(luò)技術(shù)。 中圖分類號TP391.9 DOI:10.3969/j.issn.1672-9722.2016.06.006