孫赫,劉蜜,2,劉林琳,2,丁成波
(1.上海威克鮑爾通信科技有限公司,貴州 貴陽 550000;2.貴州航天電器股份有限公司,貴州 貴陽 550000)
“工業(yè)4.0”[1]和中國“兩化深度融合”[2]發(fā)展戰(zhàn)略的提出,是當(dāng)今世界制造業(yè)的發(fā)展趨勢(shì)和需求。在新一輪以信息技術(shù)為核心的制造業(yè)變革中,我國實(shí)施了“中國制造2025”戰(zhàn)略,并且提出了“互聯(lián)網(wǎng)+”技術(shù)。電子信息技術(shù)的發(fā)展,促進(jìn)了制造系統(tǒng)與信息系統(tǒng)的融合,“制造物聯(lián)”趨勢(shì)明顯[3]。在制造生產(chǎn)過程中,產(chǎn)生了海量的異構(gòu)數(shù)據(jù),對(duì)工業(yè)數(shù)據(jù)的統(tǒng)一表達(dá)是對(duì)數(shù)據(jù)進(jìn)一步處理的迫切需求,對(duì)統(tǒng)一格式的數(shù)據(jù)挖掘是促進(jìn)產(chǎn)業(yè)變革,工業(yè)迅速發(fā)展的必由之路。面對(duì)產(chǎn)品制造與服務(wù)過程提升的需求,制造物聯(lián)數(shù)據(jù)的感知、處理等難題,攻克生產(chǎn)過程中信息感知、處理問題,將為生產(chǎn)過程優(yōu)化控制提供有效支持。
XML(eXtensible Markup Language,可擴(kuò)展標(biāo)記語言)是1998 年2 月由W3C 組織制定的一種通用語言規(guī)范,它被設(shè)計(jì)為混合語[4]。XML 的諸多優(yōu)點(diǎn),使它為異構(gòu)的信息系統(tǒng)的數(shù)據(jù)交換格式提供了一個(gè)全新的思路。在XML 的發(fā)展過程中,產(chǎn)生諸多種XML 數(shù)據(jù)模式語言[5]。在這些模式語言中,最廣泛的是文檔類型定義DTD和W3C XML Schema,DTD 是Web 標(biāo) 準(zhǔn),任何能 處理XML 文檔的瀏覽器都能對(duì)照DTD 模式來檢查文檔。XML Schema 是一種模式語言,它利用XML 語言規(guī)范定義,并且支持更廣泛的數(shù)據(jù)類型,可以通過特定映射機(jī),實(shí)現(xiàn)更高層次的數(shù)據(jù)交換。
現(xiàn)階段基于數(shù)據(jù)庫的數(shù)據(jù)挖掘的相關(guān)研究主要有以下幾種[6-7]:蘭建鑫[8]等提出了一種基于深度遞歸與散列技術(shù)改進(jìn)的Apriori 算法,并對(duì)改進(jìn)算法進(jìn)行了分析;Liu T[9]基于Apriori 和gradient 算法,采用最優(yōu)解的迭代過程,達(dá)到提升全局收斂速度和計(jì)算速度的目的;Zhou Y[10]等提出一種基于Apriori 算法分析空間關(guān)聯(lián)模式在點(diǎn)和線功能描述的算法過程,并對(duì)相關(guān)數(shù)據(jù)進(jìn)行了空間概率和空間問題預(yù)測(cè)的分析。
本文針對(duì)海量制造異構(gòu)數(shù)據(jù)的統(tǒng)一表達(dá)及分析應(yīng)用的迫切需求,基于XML 對(duì)離散車間中的異構(gòu)數(shù)據(jù)統(tǒng)一表達(dá),采用改進(jìn)的Carma-Apriori 關(guān)聯(lián)規(guī)則算法對(duì)XML 數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析。
算法基本描述如圖1 所示。
圖1 Apriori 算法基本描述
Apriori 算法是通過對(duì)數(shù)據(jù)庫多次掃描然后建立頻繁項(xiàng)集,Carma[12]算法相對(duì)于傳統(tǒng)的Ariori 算法而言的優(yōu)勢(shì):①占用內(nèi)存更小,②可以處理在線連續(xù)數(shù)據(jù),③掃描一次最多兩次可以構(gòu)造數(shù)據(jù)集,④允許算法執(zhí)行過程中按需設(shè)置支持度。本文采用改進(jìn)的Carma-Apriori 算法對(duì)XML 數(shù)據(jù)進(jìn)行分析實(shí)現(xiàn),改進(jìn)的Carma-Apriori 算法分析過程如下。
(1)產(chǎn)生頻繁項(xiàng)集Lk1)從項(xiàng)目包含相對(duì)較多的子集開始判斷Lk的真子集,即
式中,beginTrans(n)表示n被插入Lk時(shí)所在的事務(wù)序號(hào),count(n) 表示Lk中n在事務(wù)數(shù)據(jù)庫出現(xiàn)的次數(shù),maxMissed(n)表示Lk中n已添加的事務(wù)個(gè)數(shù),σi表示支持度閥值。
2)剪枝,每讀入一條剪枝一次,對(duì)小于最小支持度的maxSupport(n),將其從Lk中移除。
(2)對(duì)頻繁項(xiàng)集Lk進(jìn)行去除得到結(jié)果集 通過第一步中找出的項(xiàng)集Lk和最后一個(gè)支持度σi;對(duì)于支持度小于σi的項(xiàng)集,將其去除出U;針對(duì)祛除的項(xiàng)集,將其相關(guān)集也同樣去除。采用Carma-Apriori 算法生成的關(guān)聯(lián)規(guī)需要滿足以下支持度條件:
XML 是一種基于文本的數(shù)據(jù)描述語言的通用標(biāo)準(zhǔn),可用于定義數(shù)據(jù)的結(jié)構(gòu)、屬性、類型和格式的相關(guān)規(guī)范[13]。XML 為Internet 的通用語,其主要適用范圍有分布式和web 發(fā)布計(jì)算、數(shù)據(jù)交換,是web 的基礎(chǔ)。文中所分析的一種基于XML 制造信息的表述示意圖,如圖2 所示。
圖2 基于XML 制造信息的表述示意圖
XML 數(shù)據(jù)的結(jié)構(gòu)屬于半結(jié)構(gòu)化并且是易擴(kuò)展數(shù)據(jù)表示方法,針對(duì)離散制造車間中多源異構(gòu)數(shù)據(jù)采集與異構(gòu)數(shù)據(jù)同構(gòu)化,XML 數(shù)據(jù)可以做到映射轉(zhuǎn)換和結(jié)構(gòu)化的統(tǒng)一表達(dá),文獻(xiàn)[14]采用Express-XML 可以完成對(duì)異構(gòu)數(shù)據(jù)繼承、聚合和屬性的統(tǒng)一描述。在生產(chǎn)制造過程中,通過傳感器網(wǎng)采集數(shù)據(jù),并預(yù)處理之后采用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)分析與實(shí)現(xiàn)。
Carma-Apriori 算法對(duì)XML 數(shù)據(jù)的分析流程如圖3所示。
圖3 關(guān)聯(lián)規(guī)則挖掘過程
1)對(duì)XML 數(shù)據(jù)庫進(jìn)行掃描并提取出事務(wù)T 和相關(guān)集,產(chǎn)生候選項(xiàng)集的集合,構(gòu)成事務(wù)集合數(shù)據(jù)庫D。
2)計(jì)算最小支持度:maxSupport(n)=(maxMissed(n)+count(n))i,掃描數(shù)據(jù)庫,對(duì)候選項(xiàng)集的集合進(jìn)行統(tǒng)計(jì),并去除小于最小支持度的項(xiàng)集,構(gòu)成集合L1。
3)通過Lk-1對(duì)自身作連接產(chǎn)生候選k-項(xiàng)集合。按照L1,L2,…Lk-1,Lk,…,Ln的次序?qū)ふ翌l繁項(xiàng)集可以避免對(duì)事務(wù)數(shù)據(jù)庫中不可能發(fā)生的項(xiàng)集所進(jìn)行的搜索和統(tǒng)計(jì)。連接l1和l2產(chǎn)生的結(jié)果項(xiàng)(l1[1],l1[2],…,l1[k-1],l2[k-1])。
4)頻繁k-項(xiàng)集的任何子集合必須是頻繁項(xiàng)集。由連接生成的集和真子集進(jìn)行驗(yàn)證,去除不滿足支持度的非頻繁k-項(xiàng)集。
5)通過候選(k+1)-項(xiàng)集的集合,對(duì)其不滿足最小支持度的項(xiàng)集去除,產(chǎn)生頻繁(k+1)-項(xiàng)集的集合Lk+1。
6)通過3)~5)的循環(huán)迭代運(yùn)算,直到頻繁項(xiàng)集Lk為空集,根據(jù)最小置信度產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
在離散制造車間中,制造數(shù)據(jù)感知環(huán)境包括有線和無線、傳感器網(wǎng)絡(luò)、現(xiàn)場(chǎng)總線網(wǎng)絡(luò)等,用于實(shí)時(shí)制造數(shù)據(jù)的感知。數(shù)據(jù)感知主要面向異構(gòu)傳感設(shè)備組成的傳感器群,進(jìn)行多源制造信息的采集及異構(gòu)傳感器的管理。通過無線網(wǎng)、互聯(lián)網(wǎng)、工業(yè)局域網(wǎng)、射頻、藍(lán)牙和紅外等感知采集的信息,實(shí)現(xiàn)多源制造信息的實(shí)時(shí)控制。然后通過XML 數(shù)據(jù)處理最后進(jìn)行關(guān)聯(lián)規(guī)則的分析與實(shí)現(xiàn),其流程如圖4 所示。
圖4 數(shù)據(jù)感知處理流程
針對(duì)物聯(lián)制造過程產(chǎn)生的實(shí)時(shí)數(shù)據(jù),采用關(guān)聯(lián)規(guī)則算法進(jìn)行分析,在XML 中經(jīng)過處理后的數(shù)據(jù)生成的數(shù)據(jù)內(nèi)容包含銷售商、地點(diǎn)、購買數(shù)量及在產(chǎn)品生產(chǎn)過程由傳感器獲取的生生產(chǎn)過程中壓力、溫度及時(shí)間等?;赬ML 數(shù)據(jù)庫,本文對(duì)實(shí)際生產(chǎn)的數(shù)據(jù)包括不同溫度、壓力、時(shí)間下,生成的事務(wù)數(shù)據(jù)如圖5 所示,項(xiàng)目名稱如圖6 所示。
圖5 事務(wù)數(shù)據(jù)
圖6 項(xiàng)目名稱
強(qiáng)關(guān)聯(lián)規(guī)則的產(chǎn)生需要給定最小支持度minsup,這里設(shè)定最小支持度minsup=10%。找出支持度大于等于最小支持度的頻繁項(xiàng)集進(jìn)而找出關(guān)聯(lián)規(guī)則。carma-apriori 算法挖掘過程示意圖如圖7 所示。
圖7 算法挖掘過程示意圖
基于XML 整合的離散制造車間中由傳感器獲取的異構(gòu)數(shù)據(jù)同構(gòu)化處理,以某辣椒醬生產(chǎn)線數(shù)據(jù)感知及整個(gè)過程的匹配數(shù)據(jù)為例,其中包括溫度、壓力傳感器及整個(gè)生產(chǎn)過程的時(shí)間記錄,匹配數(shù)據(jù)包括供應(yīng)商、產(chǎn)品銷售數(shù)量及其出貨地址等。采用NVIDIA GeForce GTX960并運(yùn)用Modeler 軟件進(jìn)行數(shù)據(jù)挖掘的分析,Modeler[15]可以充分利用計(jì)算機(jī)系統(tǒng)的運(yùn)算處理能力,將方法、應(yīng)用于工具有機(jī)的融合一體,是解決數(shù)據(jù)挖掘的工具之一。設(shè)置支持度support=10%,置信度為confidence=40%,基于出傳統(tǒng)Apriori 和Carma-Apriori 算法的運(yùn)行結(jié)果及網(wǎng)格關(guān)聯(lián)如圖8、圖9 所示。
圖8 Apriori 數(shù)據(jù)分析結(jié)果
圖9 Carma-Apriori 數(shù)據(jù)分析結(jié)果
針對(duì)離散制造中,基于XML 統(tǒng)一表達(dá)的數(shù)據(jù)分析結(jié)果可以看出,以第一組關(guān)聯(lián)數(shù)據(jù)為例,溫度在40℃、壓力在101kPa、時(shí)間為4h 的強(qiáng)關(guān)聯(lián)規(guī)則中傳統(tǒng)Apriori 算法的數(shù)據(jù)支持度為16.683%,而Carma-Apriori 算法的支持度為18.453%,也就是說在生產(chǎn)過程中采用Apriori 算法的支持度比Carma-Apriori 算法的支持度要低,這是因?yàn)镃arma-Apriori 算法的支持度support=關(guān)聯(lián)規(guī)則產(chǎn)生的數(shù)據(jù)量/有效數(shù)據(jù)量,而傳統(tǒng)Apriori 算法的支持度support=關(guān)聯(lián)規(guī)則產(chǎn)生的數(shù)據(jù)量/全部數(shù)據(jù)量。以第二組數(shù)據(jù)為例,Apriori 產(chǎn)生的數(shù)據(jù)置信度為85.882%,Carma-Apriori 算法產(chǎn)生算法置信度為86.275%。
因?yàn)镃arma-Apriori 算法的置信度:
而傳統(tǒng)Apriori 算法的置信度:
式中,Consequent表示后項(xiàng)在數(shù)據(jù)中的pressure(101kPa),Antecedent表示前項(xiàng)在數(shù)據(jù)中包含的temperature(40℃)和time(4h),縱觀全部數(shù)據(jù)可以得出Apriori 算法的支持度比Carma-Apriori 算法的支持度要低,而置信度上進(jìn)行數(shù)據(jù)分析得出,Carma-Apriori 算法的置信度比Apriori算法的置信度要高。造成這樣的原因是因?yàn)樵趯?duì)制造過程數(shù)據(jù)的處理的過程中有些數(shù)據(jù)是無效的,Carma-Apriori算法直接將其祛除,而傳統(tǒng)的Apriori 算法將其保留并進(jìn)行預(yù)測(cè)計(jì)算,也就是說Carma-apriori 算法的計(jì)算數(shù)據(jù)的基數(shù)為全部有效數(shù)據(jù),而Apriori 算法的數(shù)據(jù)基數(shù)中包含一些無效數(shù)據(jù)。另外在數(shù)據(jù)分析過程存在一個(gè)參數(shù)是rule support,即規(guī)則關(guān)聯(lián)度關(guān)聯(lián)支持度公式如下。
傳統(tǒng)Apriori 算法的規(guī)則支持度:
Carma-Apriori 算法的規(guī)則支持度:
在數(shù)據(jù)分析中,Apriori 的規(guī)則支持度比Carma-Apriori 的均要低,所以說Carma-Aprirori 算法對(duì)數(shù)據(jù)分析的關(guān)聯(lián)支持度要比Apriori 算法關(guān)聯(lián)支持度高,在數(shù)據(jù)處理方面更有效,準(zhǔn)確性與預(yù)測(cè)性比傳統(tǒng)的Apriori 算法要更加精確。
在此關(guān)聯(lián)規(guī)則中,基于XML 的面向離散制造的數(shù)據(jù)有supplier(供應(yīng)商)、value(價(jià)值)、總量(quality)、時(shí)間(time)、溫度(temperature)及壓力(pressure)等?;贑arma-Apriori 算法建立的數(shù)據(jù)網(wǎng)格為所有關(guān)聯(lián)規(guī)則的關(guān)聯(lián)線建立,將分析數(shù)據(jù)調(diào)制144~200,存在的關(guān)聯(lián)規(guī)則有temperature(50℃)關(guān)聯(lián)pressure(121kPa)、pressure(131kPa)關(guān)聯(lián)time(3h)及pressure(101kPa)與time(4h)、temperature(40℃)的關(guān)聯(lián),在167~200的高頻區(qū)域,強(qiáng)關(guān)聯(lián)線為pressure(101kPa)與time(4h)、temperature(40℃)的關(guān)聯(lián)。在此數(shù)據(jù)分析中,關(guān)聯(lián)規(guī)則為生產(chǎn)過程針對(duì)供應(yīng)商提供的商品價(jià)格及銷售總量與物理參數(shù)相匹配形成的數(shù)據(jù)關(guān)聯(lián)。分析三種物理參數(shù)。得出的三條關(guān)聯(lián)規(guī)則是溫度在40℃、壓力在101kPa、時(shí)間為4h 的強(qiáng)關(guān)聯(lián)規(guī)則,其置信度在85%以上。也就是說在此物理常態(tài)下所生產(chǎn)的產(chǎn)品是需求最高的?;谒惴▽?duì)數(shù)據(jù)分析建立的網(wǎng)狀圖,可以看出各個(gè)物理參數(shù)都存在關(guān)聯(lián),但是在頻數(shù)較高的區(qū)域里溫度在40℃、壓力在101kPa、時(shí)間為4h 三個(gè)的關(guān)聯(lián)度最高,與Carma-Apriori算法的關(guān)聯(lián)規(guī)則的分析結(jié)果相一致。
本文基于XML 數(shù)據(jù)庫對(duì)物聯(lián)制造過程中產(chǎn)生的數(shù)據(jù)采用XML 數(shù)據(jù)模型首先做了統(tǒng)一表達(dá),然后通過Carma-Apriori 對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行了分析,得出結(jié)果的置信度在85%以上。但是在實(shí)際生產(chǎn)過程中還有能量散失、損耗等問題,也就是說針對(duì)離散制造過程的實(shí)時(shí)數(shù)據(jù)采集量還略顯不足,只能在離散制造中做參考之用,研究工作上還要繼續(xù)深入。現(xiàn)階段已經(jīng)對(duì)離散制造過程的數(shù)據(jù)包含UWB 定位數(shù)據(jù)及相關(guān)人員生產(chǎn)數(shù)據(jù)完成了系統(tǒng)界面,下一階段將針對(duì)生產(chǎn)過程中的實(shí)時(shí)數(shù)據(jù)分析集成在系統(tǒng)界面中,以便對(duì)生產(chǎn)過程數(shù)據(jù)實(shí)時(shí)進(jìn)行關(guān)聯(lián)分析處理,達(dá)到對(duì)生產(chǎn)過程的實(shí)時(shí)監(jiān)控與數(shù)據(jù)處理的目的。