李恩寧 梁山清 葛紅志 劉榮斌 王曉玲 王玨
摘要:針對科研院所設(shè)備管理過程中普遍存在的設(shè)備真實(shí)使用率統(tǒng)計難、設(shè)備租借分配不合理等問題,將數(shù)據(jù)挖掘方法與實(shí)際問題相結(jié)合,根據(jù)設(shè)備管理系統(tǒng)采集的各設(shè)備電流數(shù)據(jù),用支持向量機(jī)(Support Vector Machine,SVM)算法判定各設(shè)備的工作狀態(tài),進(jìn)而分析出真實(shí)使用情況。根據(jù)各部門的設(shè)備歷史租借清單,用Apriori關(guān)聯(lián)規(guī)則算法分析得出不同設(shè)備間的共同關(guān)聯(lián)關(guān)系,為科研設(shè)備管理部門采購及出租設(shè)備提供合理的分配方案。
關(guān)鍵詞:數(shù)據(jù)挖掘;支持向量機(jī);關(guān)聯(lián)規(guī)則
中圖分類號:TP18文獻(xiàn)標(biāo)志碼:A文章編號:1008-1739(2020)13-60-4
0引言
科研院所和院校通用設(shè)備作為固定資產(chǎn)的組成部分,是現(xiàn)代化建設(shè)事業(yè)的重要物質(zhì)保障??茖W(xué)、有效地管理固定資產(chǎn),發(fā)揮最大使用效益,對提高經(jīng)濟(jì)和社會效益、保證資產(chǎn)保值增值及保持和提高科研生產(chǎn)能力具有重要意義。
目前的設(shè)備管理系統(tǒng)[1-3],可實(shí)現(xiàn)設(shè)備信息的存儲與查詢,可采集設(shè)備電流、位置等信息,對使用情況做簡單的統(tǒng)計分析。系統(tǒng)在信息化上有所突破,但智能化尚有不足。
數(shù)據(jù)挖掘[4]是人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點(diǎn)問題,涉及的分類算法[5]和關(guān)聯(lián)規(guī)則[6-7]算法可應(yīng)用于眾多領(lǐng)域。本文借助設(shè)備管理系統(tǒng),基于多分類SVM[8]思想,探究設(shè)備狀態(tài)判定算法,分析單個設(shè)備的真實(shí)使用率;基于Apriori[9]思想,探究設(shè)備關(guān)聯(lián)分析算法,分析設(shè)備間的借用和使用關(guān)聯(lián)關(guān)系,對設(shè)備的購買、預(yù)期使用等提供合理的建議。
1優(yōu)化算法
1.1優(yōu)化方向
科研設(shè)備管理系統(tǒng)的優(yōu)化方向有2個:①設(shè)備租用后使用率是一個受關(guān)注的問題,目前只能以電流值來識別關(guān)機(jī)和開機(jī)2種模式,認(rèn)為開機(jī)就是在工作,并未深度探尋設(shè)備的真實(shí)工作情況,即無法判別開機(jī)工作還是開機(jī)空轉(zhuǎn)的情況,以及工作中處于何種工作模式。將其抽象成分類問題,可考慮用SVM算法來建模判定狀態(tài),獲取設(shè)備的真實(shí)使用率。②對于設(shè)備購置和借用分配問題,目前也未有更合理的解決方案,如果能夠通過各借用部門對每類設(shè)備的歷史使用情況分析出規(guī)律,則可作為一種輔助決策。將其抽象成關(guān)聯(lián)規(guī)則問題,可考慮用Apriori算法從歷史借用清單和使用數(shù)據(jù)中找出不同設(shè)備的關(guān)聯(lián)關(guān)系,進(jìn)而為每類設(shè)備的借用去向和數(shù)量提供參考。
1.2設(shè)備狀態(tài)判定算法
SVM方法是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力[10]。
傳統(tǒng)的SVM只能進(jìn)行二分類,對于多分類問題,可組合多個二分類器來實(shí)現(xiàn)多分類器的構(gòu)造,即訓(xùn)練出多個SVM分類函數(shù),并構(gòu)成類似二叉樹的分類結(jié)構(gòu),對輸入數(shù)據(jù)進(jìn)行判定。
在設(shè)備管理系統(tǒng)中,簡單的設(shè)備狀態(tài)很少,通過電流加上允許的誤差就可以判斷出狀態(tài),復(fù)雜的設(shè)備有很多狀態(tài),且各種狀態(tài)下,電流差別不大。為了進(jìn)行精確分析,需要掌握準(zhǔn)確的狀態(tài)。為此,可將設(shè)備型號、電流值以及設(shè)備所處狀態(tài)3個指標(biāo)作為一個樣本進(jìn)行存儲,生成訓(xùn)練樣本集合和驗(yàn)證樣本集合,其中設(shè)備所處狀態(tài)作為標(biāo)簽,運(yùn)用SVM方法訓(xùn)練和驗(yàn)證多個SVM分類模型的組合。具體算法如下:
④再以同樣的方式,每次將工作狀態(tài)中的第一個設(shè)置為-1,其余設(shè)置為1,重復(fù)上述步驟,得到更多的分類函數(shù),最終分類函數(shù)為( ),2( ),...,+1( )。
根據(jù)設(shè)備的實(shí)際數(shù)據(jù),生成輸入項,依次經(jīng)過( ),2( ),...,+1( )的判斷,如果在+1( )之前的任一分類函數(shù)得到-1則停止,得到對應(yīng)的設(shè)備狀態(tài);否則+1( )=1,即工作狀態(tài)為對應(yīng)的設(shè)備狀態(tài)。根據(jù)算法實(shí)時判定的工作狀態(tài),可統(tǒng)計單臺設(shè)備每天的真實(shí)使用率。
1.3設(shè)備關(guān)聯(lián)分析算法
Apriori是布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的原創(chuàng)性算法,使用一種稱作逐層搜索的迭代方法,查找存在于項目集合或?qū)ο蠹现g的頻繁模式、關(guān)聯(lián)性或因果結(jié)構(gòu)[11-12]。
在設(shè)備管理系統(tǒng)中,根據(jù)設(shè)備歷史租用和使用數(shù)據(jù),分析設(shè)備間的關(guān)聯(lián)關(guān)系。此項分析中,考慮靜態(tài)和動態(tài)2種情況:
①靜態(tài):根據(jù)設(shè)備出借情況,分析設(shè)備間的關(guān)聯(lián)程度,從共同出借的設(shè)備找關(guān)聯(lián)關(guān)系。從各部門大量的歷史借用清單入手,用Apriori算法挖掘哪些設(shè)備總是一起被借用,這個不限于指定的部門,也許好幾個部門都需要同時借某幾種設(shè)備,這個結(jié)果反映了對各種設(shè)備的需求關(guān)聯(lián)。
②動態(tài):以同一部門使用的設(shè)備、相同時間段處于工作狀態(tài)以及地理位置相互靠近為條件,選取滿足條件的設(shè)備,分析設(shè)備間的使用關(guān)聯(lián)關(guān)系。從使用數(shù)據(jù)中找到共同使用的設(shè)備,反映具體的科研項目對設(shè)備的需求。
上述分析,使用關(guān)聯(lián)規(guī)則算法。具體算法如下:
支持度:所有設(shè)備借用清單中,某幾類設(shè)備同時出現(xiàn)的次數(shù)與總的清單數(shù)的比例。
最小支持度閾值:設(shè)置支持度的最小值,大于或等于該閾值的可稱為頻繁項集;小于該閾值的項集則被過濾掉。
項:指單臺設(shè)備。
項集:幾類設(shè)備的組合。
頻繁項集:指頻繁在清單中出現(xiàn)的項集,所謂“頻繁”的標(biāo)準(zhǔn)就是這個項集出現(xiàn)的次數(shù)滿足最小支持度閾值。
頻繁項集:種設(shè)備同時在清單中頻繁出現(xiàn)。
算法運(yùn)行結(jié)束,可從1到最大數(shù)目輸出有關(guān)聯(lián)關(guān)系的設(shè)備組,并給出每組關(guān)聯(lián)的支持度和置信度等指標(biāo)。在找出相互關(guān)聯(lián)的設(shè)備后,可對管理部門在設(shè)備數(shù)量購置和借用去向上提供參考建議。
2算法應(yīng)用示例
2.1設(shè)備狀態(tài)判定算法
離線訓(xùn)練階段:采集數(shù)據(jù),形成數(shù)據(jù)矩陣,=[示波器A 10 mA待機(jī);頻譜儀R 200 mA開機(jī);信號發(fā)生器B 170 mA工作狀態(tài)2;……],是一個100行3列的矩陣,即數(shù)據(jù)采集了100條,x是這個矩陣的前2列,第1列設(shè)備型號可用數(shù)字代替,便于數(shù)值計算,且要求同類設(shè)備數(shù)字相同;第2列是電流值,單位為mA;是最后一列,表示設(shè)備狀態(tài),假如所有設(shè)備狀態(tài)共有{待機(jī)、開機(jī)、工作狀態(tài)1、工作狀態(tài)2}4種,因?yàn)镾VM分類函數(shù)要求每次只能分成2類,值標(biāo)簽只有{-1,1},故先將=[{待機(jī)}、{開機(jī)、工作狀態(tài)1、工作狀態(tài)2}],將{待機(jī)}置為-1,{開機(jī)、工作狀態(tài)1、工作狀態(tài)2}置為1,訓(xùn)練分類函數(shù)( ),得到的結(jié)果可判定新數(shù)據(jù)處于待機(jī)還是其他3種狀態(tài);再以同樣的方式,以=[{開機(jī)}、{工作狀態(tài)1、工作狀態(tài)2}]為標(biāo)簽,其中將{開機(jī)}置為-1,{工作狀態(tài)1、工作狀態(tài)2}置為1,再次劃分得到分類函數(shù)2( ),得到的結(jié)果可判定新數(shù)據(jù)處于開機(jī)還是其他2種工作狀態(tài);再以同樣的方式可得到3( ),能區(qū)分新數(shù)據(jù)處于工作狀態(tài)1還是工作狀態(tài)2。
在線判定階段:如前所述生成了分類函數(shù)組合,現(xiàn)在輸入一組新數(shù)據(jù)=[信號發(fā)生器B 210 mA],經(jīng)( )判定,結(jié)果為1,則繼續(xù)由2( )判斷,結(jié)果為1,則繼續(xù)由3( )判定,結(jié)果為-1,則表示處于工作狀態(tài)1,結(jié)束。具體過程如圖1所示。
圖中藍(lán)色部分為數(shù)據(jù)經(jīng)過的判定流程,上述結(jié)果為設(shè)備狀態(tài)的一次判定結(jié)果,可設(shè)定時段為5 min判定一次,則該設(shè)備當(dāng)天進(jìn)行了288次判斷,其中122次處于待機(jī),54次處于開機(jī),112次處于工作狀態(tài)1,則該設(shè)備當(dāng)天的實(shí)際時長為9 h 20 min,真實(shí)使用率為38.9%,有4.5 h處于開機(jī)不工作的狀態(tài),其余時段處于待機(jī)狀態(tài)。
2.2設(shè)備關(guān)聯(lián)分析算法
現(xiàn)在有9份設(shè)備借用清單,共涉及5類設(shè)備,即:{E1,E2,E5},{E2,E4},{E2,E3},{E1,E2,E4},{E1,E3},{E2,E3},{E1,E3},{E1,E2,E3,E5},{E1,E2,E3},其中,E1代表示波器,E2代表頻譜儀,E3代表信號發(fā)生器,E4代表電源,E5代表噪聲發(fā)生器,最小支持度閾值min_sup=2。通過L1過程可知5種設(shè)備支持度都大于設(shè)定閾值,即都屬于頻繁被借用的;通過L2過程可知E1示波器分別與E2頻譜儀、E3信號發(fā)生器、E5噪聲發(fā)生器相關(guān)聯(lián),E2頻譜儀分別與E3信號發(fā)生器、E4電源、E5噪聲發(fā)生器相關(guān)聯(lián);通過L3過程可知,3種設(shè)備相互關(guān)聯(lián)的有E1示波器、E2頻譜儀、E3信號發(fā)生器,還有E1示波器、E2頻譜儀、E5噪聲發(fā)生器。具體過程如圖2所示。
算法得出互相關(guān)聯(lián)的若干類設(shè)備后,可進(jìn)一步搜尋這幾種設(shè)備的使用關(guān)聯(lián)關(guān)系,具體實(shí)施步驟為:在管理平臺上將檢索條件設(shè)置為同一部門、同一地理位置,并統(tǒng)計每類設(shè)備的使用時間段,兩兩進(jìn)行比較,如果某2種設(shè)備的工作時間段T1,T2的重合度大于50%,則說明這2種設(shè)備間具有使用關(guān)聯(lián)關(guān)系,依次類推。例如,在分析出E1示波器和E2頻譜儀具有關(guān)聯(lián)關(guān)系后,根據(jù)歷史GPS定位數(shù)據(jù),查詢到在某天這2種設(shè)備處在同一部門,并根據(jù)統(tǒng)計由設(shè)備狀態(tài)判定算法給出的真實(shí)使用時段,得出當(dāng)天這2種設(shè)備有67.3%的時間段在同時使用,則它們具備使用關(guān)聯(lián)關(guān)系。
3結(jié)束語
通過介紹數(shù)據(jù)挖掘方法中的SVM、Apriori兩種經(jīng)典算法,以及科研設(shè)備管理系統(tǒng)的特點(diǎn)和存在問題,提出將SVM、Apriori算法分別應(yīng)用在設(shè)備工作狀態(tài)判定以及設(shè)備間的關(guān)聯(lián)關(guān)系分析上,發(fā)揮2種算法的獨(dú)特優(yōu)勢,可為科研部門在設(shè)備管理、租借、購置等方面提供合理的參考依據(jù)。
參考文獻(xiàn)
[1]閆偉.以使用單位為主體的資產(chǎn)綜合管理系統(tǒng)的構(gòu)建[J].實(shí)驗(yàn)室科學(xué),2018,21(6):71-73,77.
[2]王昆.探討實(shí)驗(yàn)室儀器設(shè)備的管理[J].中國檢驗(yàn)檢測,2017, 25(3):59-61.
[3]陸琳睿,李光輝.大數(shù)據(jù)背景下的儀器設(shè)備信息化管理探究[J].實(shí)驗(yàn)技術(shù)與管理,2018,35(4):155-158.
[4]張曾蓮.基于非營利性、數(shù)據(jù)挖掘和科學(xué)管理的高校財務(wù)分析、評價與管理研究[M].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社, 2014.
[5]田文英.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[J].石家莊職業(yè)技術(shù)學(xué)院學(xué)報, 2004(6):30-32.
[6] MITCHELL T M.機(jī)器學(xué)習(xí)[M].曾華軍,張銀奎,等,譯.北京:機(jī)械工業(yè)出版社,2003.
[7]穆瑞輝,付歡.淺析數(shù)據(jù)挖掘概念與技術(shù)[J].新鄉(xiāng)教育學(xué)院學(xué)報,2008,21(3):105-106.
[8]羅娜.數(shù)據(jù)挖掘中的新方法———支持向量機(jī)[J].軟件導(dǎo)刊, 2008(10):30-31.
[9]夏火松.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:科學(xué)出版社, 2004.
[10] GRUNWALD P D,RISSANEN J. The Minimum Description Length Principle[M].Cambridge,Ma:MIT Press,2007.
[11]胡可云,田鳳占,黃厚寬.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社,2008.
[12]吳昱.大數(shù)據(jù)精準(zhǔn)挖掘[M].北京:化學(xué)工業(yè)出版社,2014.