孫劍 ,楊澎濤, 張媛
(1.勝利油田物探研究院計(jì)算室,山東 東營 257000;2. 勝利油田中心醫(yī)院,山東 東營 257000)
?
基于統(tǒng)計(jì)分析的許可回收規(guī)則定義與應(yīng)用
孫劍1,楊澎濤1, 張媛2
(1.勝利油田物探研究院計(jì)算室,山東 東營 257000;2. 勝利油田中心醫(yī)院,山東 東營 257000)
摘要:針對許可回收規(guī)則中特征項(xiàng)和閾值的選取缺少定量分析的模型和方法的問題,本文在形式化定義參數(shù)模型的基礎(chǔ)上,綜合使用差分編碼、信息熵和相關(guān)矩陣等統(tǒng)計(jì)分析方法描述特征敏感性和相關(guān)性,并提出了敏感突出、代價(jià)最小化、趨零一致性和翻倍穩(wěn)定原則,以篩選特征項(xiàng)、界定閾值。根據(jù)用戶使用企業(yè)級軟件的數(shù)據(jù),該方法能夠從多個(gè)候選項(xiàng)中,選定CPU利用率作為許可回收規(guī)則唯一的特征項(xiàng),并設(shè)定閾值為8%,判定時(shí)間間隔為1 136 s。實(shí)驗(yàn)結(jié)果表明,該方法簡單有效,而且易于編程實(shí)現(xiàn)。
關(guān)鍵詞:特征選擇;統(tǒng)計(jì)分析;規(guī)則定義;熵;相關(guān)系數(shù)
企業(yè)中的專業(yè)軟件許可是一種價(jià)格昂貴且數(shù)量有限的重要資源,因此如何有效監(jiān)控、回收“占而不用”的許可資源,降低許可應(yīng)用成本,成為企業(yè)必須面對的一個(gè)現(xiàn)實(shí)問題。傳統(tǒng)的軟件許可管理是基于Flexnet軟件的集中式管理方法[1-2],最近幾年,一種許可證動態(tài)控制技術(shù)[3-4]逐漸在企業(yè)級軟件的應(yīng)用環(huán)境中部署使用。它通過在客戶端安裝插件,定時(shí)采集、分析CPU、網(wǎng)絡(luò)IO、鍵盤/鼠標(biāo)動作等特征,基于預(yù)定義的回收規(guī)則,判斷許可的使用狀態(tài),主動釋放“占而不用”的許可,能夠有效減少管理員的參與。其邏輯處理流程如圖1所示。此外,隨著云計(jì)算、網(wǎng)格計(jì)算的應(yīng)用實(shí)踐不斷深入,許可證的授權(quán)管理機(jī)制[5-6]和云環(huán)境中軟件許可的管理[7-8]也逐漸成為研究的熱點(diǎn)。
但是,文獻(xiàn)[1-2]采用的方法管理員無法獲知用戶的實(shí)際使用狀態(tài),在許可不夠用時(shí),只能人工強(qiáng)制回收許可。文獻(xiàn)[3-4]缺少對回收規(guī)則定義的定量規(guī)定,需要管理員根據(jù)經(jīng)驗(yàn)設(shè)置;而且這種方式?jīng)]有考慮特征項(xiàng)的顯著性,以及特征項(xiàng)之間的相關(guān)性,所以會導(dǎo)致采集數(shù)據(jù)的大量冗余,進(jìn)而影響分析的性能。因此,研究回收規(guī)則中特征項(xiàng)和閾值定義方法的重要性就日益凸顯。
圖1 客戶端插件監(jiān)控用戶使用許可的流程Fig.1 Flowchart of client plug-in monitoring user's license
本文在形式化定義參數(shù)模型的基礎(chǔ)上,綜合使用差分編碼、信息熵和相關(guān)矩陣等統(tǒng)計(jì)分析方法,描述特征的敏感性和相關(guān)性,并提出了“敏感突出原則”、“代價(jià)最小化原則”、“趨零一致性原則”和“翻倍穩(wěn)定原則”,用于特征項(xiàng)篩選和閾值界定。
1參數(shù)建模
定量統(tǒng)計(jì)分析方法的基礎(chǔ)是建立形式化的參數(shù)模型。下面依次給出了假設(shè)、參數(shù)形式化和數(shù)據(jù)預(yù)處理的形式化定義,并說明了其實(shí)際含義。
1.1假設(shè)
設(shè)定假設(shè)條件有利于降低建模復(fù)雜度,是形式化建模、分析的基礎(chǔ)。四條基本的假設(shè)為:
(1)企業(yè)級應(yīng)用軟件占用的本地硬件資源,會隨著軟件的運(yùn)行而變化;
(2)用戶可隨機(jī)使用軟件;
(3)采樣間隔為8 s,能夠準(zhǔn)確反映特征值的變化;
(4)統(tǒng)計(jì)分析間隔是采樣間隔的整數(shù)倍,記為N倍。
假設(shè)(1)是根據(jù)客戶端硬件資源使用情況,判斷許可使用狀態(tài)的最基本的前提條件;假設(shè)(2)指出了用戶操作之間的獨(dú)立性,進(jìn)而可以推導(dǎo)出采樣點(diǎn)之間,以及統(tǒng)計(jì)分析點(diǎn)之間是獨(dú)立的;假設(shè)(3)、(4)簡化了采樣、統(tǒng)計(jì)的計(jì)算,使程序易于實(shí)現(xiàn)。因此,根據(jù)一個(gè)統(tǒng)計(jì)分析點(diǎn),就可以確定出許可的當(dāng)前狀態(tài)。
1.2參數(shù)形式化定義
根據(jù)前面的假設(shè),對涉及的概念進(jìn)行了抽象,給出了形式化的定義:
(1)候選特征:CF={cf1,cf2,…,cfn},表示候選特征集合;
(2)采樣時(shí)間點(diǎn):T={t1,t2,…,tn|ti∈[00:00:00,23:59:59]},根據(jù)假設(shè)(3),?ti,ti+1∈T,ti+1-ti=8 s;
(3)采樣值:v(i,j)表示在采樣時(shí)間點(diǎn)tj,候選特征項(xiàng)cfi的數(shù)值。V(i)={v(i,j)|j∈{1,2,…,n}},表示cfi的采樣值集合;
(4)統(tǒng)計(jì)分析時(shí)間點(diǎn):S={s1,s2,…,sn|si∈[00:00:00,23:59:59]},根據(jù)假設(shè)(4),有si+1-si=tN(i+1)-tNi=8N;
(5)統(tǒng)計(jì)分析狀態(tài):z(si)∈{0,1},表示在統(tǒng)計(jì)分析時(shí)間點(diǎn)si軟件的使用狀態(tài)。其中0表示空閑,1表示忙碌。
1.3預(yù)處理
針對連續(xù)型數(shù)值,比如:網(wǎng)絡(luò)IO,由于統(tǒng)計(jì)流量不可避免的誤差,需要定義一個(gè)誤差區(qū)間,這里選取波動范圍是±0.5。經(jīng)過區(qū)間限定,連續(xù)型數(shù)值退化為離散型數(shù)值。
2特征統(tǒng)計(jì)分析
2.1特征敏感性分析
本文借鑒了差分編碼和信息熵[10-12]的思想,通過信息熵衡量特征項(xiàng)的變化程度。特征敏感性分析包括三步:首先記錄相鄰采樣點(diǎn)的特征值的絕對變化,可表示為
d(i,j)=|v(i,j+1)-v(i,j)|,v(i,j+1),v(i,j)∈V(i)。
然后計(jì)算不確定性,假設(shè)cfi差分值的集合為D(i)={d(i)1,d(i)2…},差分值d(i)k出現(xiàn)的概率記為p(i,k)=P{D(i)=d(i)k},則候選特征i的信息熵定義為
H(D(i))=-∑p(i,k)×logp(i,k)。
最后,根據(jù)“敏感突出原則”,選擇H(D(i))的候選特征項(xiàng)。根據(jù)假設(shè)(1),特征項(xiàng)應(yīng)該對應(yīng)用軟件運(yùn)行狀態(tài)的變化反應(yīng)快速,而且差異顯著。根據(jù)實(shí)踐經(jīng)驗(yàn),這里選擇H(D(i))的閾值為1?!懊舾型怀鲈瓌t”正是基于該條件,對候選特征項(xiàng)進(jìn)行過濾。
2.2特征相關(guān)性分析
特征項(xiàng)之間的相關(guān)性分析是降維的一個(gè)基本方法,本文采用Pearson相關(guān)性分析方法[13-16],衡量特征項(xiàng)之間線性相關(guān)性的強(qiáng)弱。值得注意的是,奇異點(diǎn)對相關(guān)性影響很大[17]。因此,首先要過濾奇異點(diǎn),這里奇異點(diǎn)集合簡單定義為
S={v(i,j)>2*Max(V(i)-{v(i,j)})∩p(i,v(i,j))≤0.001|v(i,j)∈V(i)}。
然后,候選特征cfi,cfj的相關(guān)系數(shù)可表示為
如果rcfi,cfj≥0.6,說明兩個(gè)候選特征顯著線性相關(guān)[16]。在取舍時(shí),本文提出了“代價(jià)最小原則”,即應(yīng)該選擇候選特征采集、計(jì)算時(shí),占用資源較少的一方?!按鷥r(jià)最小原則”考慮了監(jiān)控程序的性能指標(biāo),如果某個(gè)候選特征項(xiàng)的統(tǒng)計(jì)需要占用較大內(nèi)存,或者涉及大量浮點(diǎn)數(shù)計(jì)算,會影響用戶的操作體驗(yàn)。因此,“廉價(jià)”的候選特征是必然選擇。
如果0.3≤rcfi,cfj<0.6,說明二者是中等相關(guān)性[16],但是具有統(tǒng)計(jì)顯著性時(shí),“趨零一致性原則”提出需要檢驗(yàn)cfi,cfj同時(shí)為零值的條件概率,記為
P(V(i)=0|V(j)=0)=P(v(i,k)=0∩v(j,k)=0)/P(V(j)=0),P(V(j))≠0。
如果P(V(i)=0|V(j)=0)>0.6,表示cfi,cfj在零值處的變化具有很強(qiáng)的一致性。根據(jù)假設(shè)(1),如果特征值為0,也就意味著該硬件資源空閑,用戶沒有與應(yīng)用軟件交互。所以,即使cfi,cfj在相關(guān)性上表現(xiàn)不強(qiáng),只要二者具有趨零的特性,仍然可以認(rèn)為cfi,cfj在判斷空閑狀態(tài)上,具有較強(qiáng)的“相關(guān)性”。
2.3閾值選擇
在統(tǒng)計(jì)分析間隔時(shí)間內(nèi),如果存在特征值大于下限,那么回收規(guī)則判斷該軟件狀態(tài)為 “活躍”,這意味著有交互或者后臺任務(wù);否則判定為“空閑”狀態(tài)。根據(jù)假設(shè)(4),形式化定義為
顯然,需要界定的閾值有統(tǒng)計(jì)分析間隔N,特征值下限W。文獻(xiàn)[17]發(fā)現(xiàn),當(dāng)樣本達(dá)到一定規(guī)模時(shí),從新個(gè)體中獲得的信息越來越少。因此,本文提出了“翻倍穩(wěn)定原則”來簡化N和W的選擇,其形式化的定義為
“翻倍穩(wěn)定原則”通過減半的方式,能夠快速找到N和W的一個(gè)近似下限,并且能夠保證監(jiān)控程序的實(shí)現(xiàn)性能。
3實(shí)驗(yàn)驗(yàn)證
為了驗(yàn)證2中的統(tǒng)計(jì)分析方法,本文對單一用戶一天中(10:04:35~17:34:38)的工作狀態(tài)進(jìn)行監(jiān)控。該用戶通過Xmanager軟件遠(yuǎn)程登錄應(yīng)用服務(wù)器,操作GeoFrame企業(yè)版軟件。實(shí)驗(yàn)選取4個(gè)典型的候選特征項(xiàng),見表1。需要注意的是如果用戶直接使用本地的應(yīng)用軟件,則需要監(jiān)控本地磁盤IO,而不是網(wǎng)絡(luò)IO。
表1 候選特征項(xiàng)列表
根據(jù)2.1中描述的方法,首先計(jì)算候選特征的信息熵,然后根據(jù)“敏感突出原則”,選擇H(D(i))>1的候選特征,結(jié)果見表2。
表2 候選特征項(xiàng)敏感性列表
根據(jù)2.2中描述的方法,首先計(jì)算cf1,cf3,cf4之間兩兩的Pearson相關(guān)系數(shù),并驗(yàn)證雙尾顯著性,結(jié)果見表3。顯然,cf3,cf4具有顯著相關(guān)性,并且前者的統(tǒng)計(jì)數(shù)值偏小易于計(jì)算,根據(jù)“代價(jià)最小化原則”,選擇cf3。而cf1,cf3雖然線性相關(guān)系數(shù)不高,但是,P(V(3)=0|V(1)=0)=0.868,也就是說在CPU利用率為0時(shí),上行網(wǎng)絡(luò)IO也趨于零。根據(jù)“趨零一致性原則”,二者的相關(guān)性是有價(jià)值的,進(jìn)而可以使用“代價(jià)最小化原則”,選擇cf1作為回收規(guī)則中的特征項(xiàng),因?yàn)閺谋镜孬@取CPU信息比循環(huán)中斷計(jì)算上行網(wǎng)絡(luò)IO更廉價(jià)。
表3 CPU、網(wǎng)絡(luò)IO的Pearson相關(guān)矩陣
注:N=2799;**P<0.01,雙尾。
根據(jù)2.3中描述的方法,計(jì)算得到N=142,即統(tǒng)計(jì)分析間隔1 136 s,近19 min;因?yàn)檫x的是閾值下限,所以對應(yīng)的W=8。
至此,可以將精煉后的許可回收規(guī)則描述為:如果在1 136 s的142次采樣結(jié)果中,Xmanager的CPU占用率都低于8%,則判定軟件應(yīng)用空閑,需要釋放占用的許可資源。從圖2中,可以比較直觀地看到cf1,cf3,cf4在時(shí)間軸上特征值的變化趨勢。虛線表示W(wǎng)=8的CPU閾值,實(shí)線表示CPU利用率的變化,細(xì)點(diǎn)線表示IO_up的變化,頓點(diǎn)間隔線表示內(nèi)存的變化,許可回收規(guī)則判定為軟件應(yīng)用忙碌的時(shí)間點(diǎn)由三角形標(biāo)記??梢钥闯鲆陨吓卸ㄒ?guī)則對空閑發(fā)現(xiàn)是有效的,候選特征和閾值的選擇過程清晰易懂,而且算法簡單,易于編程實(shí)現(xiàn)。
圖2 上行網(wǎng)絡(luò)IO、CPU利用率和內(nèi)存的數(shù)據(jù)變化Fig.2 Statistics of upstream IO, CPU utilization and memory
4結(jié)語
實(shí)驗(yàn)證明,許可回收規(guī)則定義時(shí),基于統(tǒng)計(jì)分析的方法能夠通過定量的計(jì)算,明確候選特征項(xiàng)的敏感性和相關(guān)性,而本文提出的“敏感突出原則”、“代價(jià)最小化原則”、“趨零一致性原則”和“翻倍穩(wěn)定原則”綜合運(yùn)用后,能夠有效篩選特征項(xiàng),并確定閾值。從另一方面來看,CPU、內(nèi)存和IO僅僅反映了軟件自身的運(yùn)行狀態(tài),沒有考慮用戶與軟件的交互行為。下一步的研究可能需要結(jié)合用戶點(diǎn)擊鍵盤、鼠標(biāo)的操作行為,運(yùn)用統(tǒng)計(jì)學(xué)原理,進(jìn)一步充實(shí)回收規(guī)則。但是,植入鉤子(hook)[18]采集用戶行為,不僅CPU資源開銷巨大,可能影響正常的軟件使用,而且用戶會有安全性的擔(dān)憂。
參考文獻(xiàn):
[1]史明宏,唐浩.FlexNetManager在大慶油田研究院軟件集中管理中的應(yīng)用[J].辦公自動化,2013(4):28-30.
[2]鄧?yán)?范德軍, 孫胤航. 大型專業(yè)軟件集中管控技術(shù)探索與實(shí)踐[J].中國管理信息化,2014(22):93-94.
[3] 上海萊曼特信息科技有限公司.萊曼特軟件許可證動態(tài)釋放軟件LMT licRecycler:中國, 2013SR005134[P] .2013-01-16.
[4] 無錫云科軟件科技有限公司.許可證動態(tài)控制器[EB/OL].(2012-08-02)[2014-08-02].http://www.yunketech.com/index.php/2012-08-01-10-56-54/helper.
[5] 陳智聰. 基于浮動授權(quán)管理的許可證使用報(bào)表系統(tǒng)的研究與實(shí)現(xiàn)[D].廣州:華南理工大學(xué),2011.
[6] 李美蓉. 軟件許可證授權(quán)管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2011.
[7] 侯正雄,周興社,王云嵐,等.網(wǎng)格環(huán)境中面向按需服務(wù)的軟件license管理方法[J]。華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,35(s2):140-143.
[8] 王寅峰,董小社,郭華, 等. 網(wǎng)格環(huán)境中軟件共享系統(tǒng)的License管理器[J]. 華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2006, 34 (s1):5-8.
[9] KIM M, CHEN H, MUNSON J, et al. Management-based license discovery for the cloud[M]//Service-Oriented Computing. Berlin :Springer ,2012: 499-506.
[10] 周炯槃,龐沁華,續(xù)大我,等.通信原理[M], 北京:北京郵電大學(xué)出版社,2005: 67.
[11] SHANNON C E,WEAVER W. The mathematical theory of communication[M]. Urbana: University of Illinois Press,1971:1-10.
[12] 崔穎.差分編碼關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2013.
[13] 李秀敏,江衛(wèi)華.相關(guān)系數(shù)與相關(guān)性度量[J].數(shù)學(xué)的實(shí)踐與認(rèn)識:2006,36(12):188-192.
[14] 張宇鐳,黨琰,賀平安.利用Pearson相關(guān)系數(shù)定量分析生物親緣關(guān)系[J],計(jì)算機(jī)工程與應(yīng)用,2005(33): 79-82.
[15] 丁劍潔.相關(guān)性分析技術(shù)在軟件度量中的應(yīng)用[J].陜西教育學(xué)院學(xué)報(bào),2008,24(1):100-103.
[16] STIGLERS M. Francis Galton's account of the invention of correlation [J]. Statistical Science,1989,4(2):73-79.
[17] NEYMAN J. On the two different aspects of the representative method: The method of stratified sampling and the method of purposive selection [M] //Breakthroughts in Statistics. New York: Springer,1992:123-150.
[18] 倪步喜.Windows的鉤子技術(shù)及實(shí)現(xiàn)[J].計(jì)算機(jī)與現(xiàn)代化,2007(1):28-30.
Statistics-based rule definition and application for license recycling
SUN Jian1,YANG Peng-tao1,ZHANG Yuan2
(1.Computing Office, Geophysical Research Institute of Shengli Oil Field, Dongying 257000, China;
2.Central Hospital,Shengli Oil Field, Dongying 257000, China)
Abstract∶Existing feather and threshold selection lack quantitative models and methods in license recycling rule.We analyze feature sensitivity and correlation by such statistical methods as differential coding, information entropy, correlation matrix, based on formalization defined parameter model.We also define feathers and threshold with sensitivity,cost minimization,convergence consistency and stability principles.The method can select CPU utilization rate as the only feature item from several candidates and set the threshold of 8% and status-check interval of 1 136 s.Experimental results show that it is simple, effective and easily programed.
Key words∶feature selection; statistics; rule definition;entropy; correlation coefficient
中圖分類號:TP39
文獻(xiàn)標(biāo)識碼:A
文章編號:1002-4026(2015)04-0101-06
作者簡介:孫劍(1986-),男,助理工程師,碩士研究生,研究方向?yàn)榉植际较到y(tǒng)和系統(tǒng)集成。
基金項(xiàng)目:勝利油田企業(yè)級解釋系統(tǒng)綜合支持技術(shù)研究(YKJ1001);專業(yè)軟件網(wǎng)上共享管理系統(tǒng)完善與推廣(YT1112)
收稿日期:2014-10-09
DOI:10.3976/j.issn.1002-4026.2015.04.019