国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

云制造資源文本信息的特征提取與關(guān)聯(lián)分析方法

2020-10-10 01:02王珊珊高新勤魏鋒濤
制造業(yè)自動化 2020年9期
關(guān)鍵詞:項集關(guān)鍵字詞條

王珊珊,高新勤,張 輝,魏鋒濤

(西安理工大學(xué) 機械與精密儀器工程學(xué)院,西安 710048)

0 引言

隨著云計算、物聯(lián)網(wǎng)等新興技術(shù)的不斷發(fā)展,一種面向服務(wù)的網(wǎng)絡(luò)化制造新模式—云制造應(yīng)運而生[1]。在云制造模式下,制造企業(yè)通過云平臺,形成一個覆蓋面極廣的網(wǎng)絡(luò)資源服務(wù)體系[2]。云制造資源是云平臺管理的主要對象,是用于產(chǎn)品制造全生命周期中的各種要素,包括硬資源、軟資源、計算資源和人力資源等[3]。資源提供方將這些閑置的制造資源上傳到云平臺,供資源需求方搜索選擇。由于云制造資源量大類多,具有分布性、多樣性、異構(gòu)性等特點,若不對云制造資源信息進(jìn)行任何預(yù)處理,會造成存儲空間龐大、查詢效率低下、與用戶期望不匹配等問題[4,5]。因此,如何對云制造資源信息進(jìn)行統(tǒng)一化描述,已經(jīng)成為云制造模式落地應(yīng)用的關(guān)鍵問題[6,7]。

目前,關(guān)于云制造資源信息主要有基于語義、基于本體以及基于資源屬性的描述方法等。湯華茂等構(gòu)造了制造資源的分布式語義描述模型,在信息表示的更高層次實現(xiàn)了制造資源粒子的虛擬化描述[8]。汪衛(wèi)星將制造資源描述問題轉(zhuǎn)化為Web語義描述問題,提出了一種通用的制造資源描述框架[9]。陳友玲等針對云制造環(huán)境下資源難以統(tǒng)一描述、資源云池內(nèi)可用資源更新滯后等問題,提出了一種顯形表達(dá)資源動態(tài)變化的層次環(huán)境視頻語義模型[10]。李孝斌等研究了元數(shù)據(jù)本體表示方法,構(gòu)建了一種基于語義服務(wù)建模本體的機床裝備資源描述框架[11]。許峰等提出了一種基于云制造平臺的“框架建立—框架獲取—資源描述”三階段的資源語義描述,建立了資源服務(wù)與服務(wù)請求的本體描述模型[12]。程臻等提出了基于本體的資源描述及虛擬化方法,建立了制造資源本體模型[13]。高新勤等建立了云模式下加工設(shè)備的制造屬性描述模型,提出了基于相似度的加工設(shè)備云服務(wù)聚類方法[14]。周際鋒等以制造軟件資源為研究對象,在面向服務(wù)的構(gòu)架下,建立了軟件資源屬性的描述模型[15]。耿超等將云制造資源描述模型通過映射函數(shù)轉(zhuǎn)化成文本信息處理中的形式化模型,提出了一種基于文本信息處理的云制造資源發(fā)現(xiàn)方法[16]。Hao等考慮了服務(wù)的演化特性,通過添加服務(wù)組合,提出了一種面向時間的可重構(gòu)服務(wù)描述方法(T-TRSD)[17]。

已有研究對云制造資源信息的描述、存儲、查找等進(jìn)行了探索,但大多數(shù)以字段的形式將云制造資源信息存儲于數(shù)據(jù)庫中,對以文本形式存在的云制造資源信息的描述涉及較少。實際上,以段落文本形式存在的資源信息在云制造模式中占有很大比例。本文提出一種針對云制造資源文本信息的特征提取和關(guān)聯(lián)分析方法,為實現(xiàn)云平臺上云制造資源的供需準(zhǔn)確匹配提供支持。

1 特征提取和關(guān)聯(lián)分析方法

在云制造模式下,不同制造企業(yè)在共享資源、尋找服務(wù)的過程中,會產(chǎn)生大量紛繁復(fù)雜的信息,以段落文本存在的云制造資源描述信息就是其中之一。為了滿足用戶的使用需求,準(zhǔn)確地對文本類資源信息進(jìn)行描述,并根據(jù)存儲索引實現(xiàn)快速查找與匹配,云平臺服務(wù)方需要預(yù)先對上傳的云制造資源文本信息進(jìn)行處理,獲取其以關(guān)鍵字為代表的關(guān)鍵特征和不同資源信息之間的共性聯(lián)系,建立關(guān)聯(lián)規(guī)則。

圖1所示為針對云制造資源文本信息提出的預(yù)處理方法,即特征提取和關(guān)聯(lián)分析方法。該方法主要包括兩大步驟,第一步是以各個云制造資源描述文本為輸入,采用TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆向文本頻率)算法,獲取它們的關(guān)鍵字,并計算權(quán)重值。第二步是對各個云制造資源描述文本進(jìn)行關(guān)聯(lián)分析,采用基于Apriori算法改進(jìn)的FPgrowth(Frequent Pattern,頻繁模式)算法,對不同云制造資源描述文本之間的關(guān)聯(lián)關(guān)系進(jìn)行分析,獲得關(guān)聯(lián)規(guī)則,為后續(xù)建立云制造資源文本信息的存儲索引以及實現(xiàn)云平臺上云制造資源的供需準(zhǔn)確匹配奠定基礎(chǔ)。

圖1 云制造資源本文信息的特征提取和關(guān)聯(lián)分析方法

2 制造資源配置評價函數(shù)構(gòu)造

在云制造模式下,以段落文本存在的云制造資源描述信息通常都比較冗長,如果不對其關(guān)鍵字等特征信息進(jìn)行提取而隨意存儲,勢必造成存儲空間龐大且雜亂無序,影響云制造資源供需匹配的效率和準(zhǔn)確性。本文以各個云制造資源描述文本為輸入,采用TF-IDF算法,獲取關(guān)鍵字,并計算其權(quán)重值。

TF-IDF是一種信息檢索與文本挖掘的統(tǒng)計方法和加權(quán)技術(shù),用以評估一個詞條對于一個文本集或一個語料庫中的其中一份文本的重要程度[18]。詞條的重要性隨著它在文本中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

在第j個云制造資源描述文本dj中,詞頻(Term Frequency,TF)是第i個詞條ti在描述文本dj中出現(xiàn)的頻率,用tfi,j表示,計算公式為:

式中:ni,j為詞條ti在描述文本dj中出現(xiàn)的次數(shù);∑knk,j為描述文本dj中所有詞條出現(xiàn)的次數(shù)總和。

逆向文本頻率(Inverse Document Frequency,IDF)是衡量詞條ti是否為常用詞的權(quán)重調(diào)整參數(shù),表達(dá)詞條的類別區(qū)分能力,用idfi表示,計算公式為:

式中:|D|為一個語料庫中文本的總數(shù);|{j|ti∈dj}|為包含詞條ti的文本數(shù)量。

如果某一云制造資源描述文本中的高頻詞條,在所有云制造資源描述文本中呈現(xiàn)低頻率,那么該詞條可以產(chǎn)生出高權(quán)重的TF-IDF。TF-IDF旨在濾除區(qū)分度低的高頻常見詞,保留區(qū)分度高的低頻詞,用tfi,j表示,計算公式為。

采用TF-IDF算法對云制造資源文本信息提取關(guān)鍵詞、計算權(quán)重值的流程如圖2所示。基于已知語料庫和結(jié)巴分詞工具[19],對云制造資源文本信息進(jìn)行分詞處理。在此基礎(chǔ)上,執(zhí)行TF-IDF算法,獲取云制造資源文本信息的關(guān)鍵字及權(quán)重值,主要步驟如下:

Step 1:文本預(yù)處理:利用結(jié)巴分詞工具對文本信息進(jìn)行分詞;

Step 2:權(quán)重值計算:計算詞頻(tfi,j)、逆向文本頻率(idfi)以及權(quán)重值(tfidfi,j);

Step 3:提取關(guān)鍵詞:濾除常用詞,獲得有效關(guān)鍵詞;

Step 4:關(guān)鍵詞輸出:按照權(quán)重值排序,輸出關(guān)鍵字及其對應(yīng)的權(quán)重值。

圖2 云制造資源文本信息關(guān)鍵詞獲取及權(quán)重值計算流程

3 文本信息的關(guān)聯(lián)規(guī)則構(gòu)建

云模式下的制造資源由不同的制造企業(yè)提供,但它們不是孤立的,相互之間存在著千絲萬縷的關(guān)聯(lián)。分析這種關(guān)聯(lián)關(guān)系并用于建立存儲索引,對于實現(xiàn)云制造資源文本信息的分類存儲以及云制造資源的供需快速、準(zhǔn)確匹配具有重要的意義。

關(guān)聯(lián)分析是一種簡單、實用的分析技術(shù),旨在發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性,其概念和Apriori算法率先由Agrawal等人提出[20]。Apriori算法應(yīng)用頻繁項集性質(zhì)的先驗知識,逐層迭代搜索,用k-項集搜索(k+1)-項集,直到不能找到更高一維頻繁項集為止。在Apriori算法的執(zhí)行過程中,需要多次掃描數(shù)據(jù)集,且生成大量的候選項集,導(dǎo)致該算法的執(zhí)行效率低下,時間和空間復(fù)雜性提高[21,22]。針對Apriori算法的缺點,Han等在2000年提出了FP-Growth(Frequent Pattern-growth)關(guān)聯(lián)分析算法[23],將提供頻繁項集的數(shù)據(jù)庫壓縮到一棵頻繁模式樹(FP-tree),但仍保留項集關(guān)聯(lián)信息。

把云制造資源文本信息的關(guān)鍵字及權(quán)重值組成的數(shù)據(jù)集,作為FP-Growth算法的輸入事務(wù)數(shù)據(jù)庫,經(jīng)過兩次搜索,得到每個事務(wù)所包含的頻繁項,按其支持度降序排列后壓縮存儲到FP-tree中。在后續(xù)搜索頻繁模式的過程中,不需要再掃描事務(wù)數(shù)據(jù)庫,在FP-Tree中進(jìn)行查找即可,不再產(chǎn)出候選模式。

根據(jù)頻繁項集產(chǎn)生既滿足最小支持度又滿足最小置信度的強關(guān)聯(lián)規(guī)則,置信度的計算公式為:

式中:support_count(A∪B)表示包含項集(A∪B)的記錄條數(shù),support_count(A)表示包含項集A的記錄條數(shù)。

采用FP-growth算法從云制造資源文本信息中獲得頻繁項集的流程如圖3所示,主要步驟如下:

Step 1:設(shè)置最小支持度minsup;

Step 2:掃描數(shù)據(jù)庫,得到頻繁項集和每個頻繁項的支持度;

Step 3:將頻繁項集按照支持度降序排列得到頻繁項集L(刪去支持度小于minsup的頻繁項);

Step 4:對于每個頻繁項,構(gòu)造它的條件投影數(shù)據(jù)庫和投影FP-tree;

Step 5:對每個新構(gòu)建的FP-tree重復(fù)Step 4,直到構(gòu)造的新FP-tree為空,或者只包含一條路徑;

Step 6:當(dāng)構(gòu)造的FP-tree為空時,其前綴即為頻繁模式;當(dāng)只包含一條路徑時,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁模式。

最后,計算云制造資源文本信息中頻繁項集所對應(yīng)的置信度值,根據(jù)置信度值大小產(chǎn)生關(guān)聯(lián)規(guī)則。

4 實例分析

4.1 云制造資源文本信息

圖3 云制造資源文本信息的頻繁項集獲取流程

在云制造模式下,云制造資源的文本信息通常由資源提供方上傳到云平臺,然后由云平臺服務(wù)方對其進(jìn)行特征提取和關(guān)聯(lián)分析的基礎(chǔ)上,按索引分類存儲后供資源需求方搜索、選擇和使用。如圖4所示,以硬制造、軟制造以及計算等三類云制造資源的文本信息為例,驗證本文所提理論和方法的可行性。其中,硬制造資源為數(shù)控加工中心、數(shù)控磨床和數(shù)控銑床,軟制造資源為AutoCAD、SolidWorks和UG,計算資源為中央處理器、輸入輸出設(shè)備和華為云。

圖4 云制造資源文本信息

4.2 獲取關(guān)鍵字及權(quán)重值

利用Eclipse軟件,基于Java語言編寫TF-IDF算法程序,以三類云制造資源文本信息為輸入,提取關(guān)鍵字,計算權(quán)重值并按大小進(jìn)行排序。程序運行結(jié)果如圖5所示,三類云制造資源文本信息的關(guān)鍵字及權(quán)重值如表1、表2和表3所示。

圖5 關(guān)鍵詞及權(quán)重提取結(jié)果

表1 硬制造資源文本信息的關(guān)鍵字及權(quán)重值

表2 軟制造資源文本信息的關(guān)鍵字及權(quán)重值

表3 計算資源文本信息的關(guān)鍵字及權(quán)重值

4.3 構(gòu)建關(guān)聯(lián)規(guī)則

利用Eclipse軟件,基于Java語言編寫FP-Growth算法程序,挖掘三類云制造資源文本信息關(guān)鍵字的頻繁項集。設(shè)置最小支持度minsup=2,以硬制造資源文本信息為例,程序運行結(jié)果如圖6所示,頻繁項集以及置信度如表4所示。

圖6 硬制造資源文本信息頻繁項集獲取結(jié)果

基于計算所得的置信度對所有頻繁項集進(jìn)行分析,硬制造資源組“機床-數(shù)控-加工”之間具有強關(guān)聯(lián)規(guī)則。軟制造資源組和計算資源組的強關(guān)聯(lián)規(guī)則分別是“設(shè)計-產(chǎn)品-解決方案-用戶”與“計算機-數(shù)據(jù)-操作”,具體過程不再贅述。云平臺服務(wù)方可根據(jù)關(guān)聯(lián)規(guī)則分類存儲云制造資源文本信息,資源需求方可按照關(guān)鍵字搜索、選擇和使用云制造資源。

表4 硬制造資源文本信息的關(guān)聯(lián)規(guī)則

5 結(jié)語

隨著先進(jìn)制造技術(shù)與信息技術(shù)的深度融合,云制造成為了智能制造發(fā)展的新模式。在云制造模式下,存在著大量的云制造資源信息,對它們進(jìn)行統(tǒng)一化描述,直接關(guān)系到云制造資源的存儲與匹配,是云制造模式落地應(yīng)用的關(guān)鍵所在。本文針對以文本形式存在的云制造資源信息,提出了一種特征提取和關(guān)聯(lián)分析方法。對云制造資源的文本信息執(zhí)行TF-IDF算法和FP-Growth算法,獲得關(guān)鍵字及其權(quán)重值,在頻繁項集挖掘與置信度分析的基礎(chǔ)上構(gòu)建了云制造資源文本信息的關(guān)聯(lián)規(guī)則,最后通過實例驗證了本文所提理論和方法的可行性。隨著云制造資源文本信息的增多,關(guān)聯(lián)規(guī)則將得到不斷豐富。本研究為云制造資源的分類存儲、按關(guān)鍵字快速匹配提供了有力支持,后續(xù)將進(jìn)一步完善權(quán)重值的計算方法,確保云制造資源文本信息的特征提取與關(guān)聯(lián)分析更加高效。

猜你喜歡
項集關(guān)鍵字詞條
履職盡責(zé)求實效 真抓實干勇作為——十個關(guān)鍵字,盤點江蘇統(tǒng)戰(zhàn)的2021
基于共現(xiàn)結(jié)構(gòu)的頻繁高效用項集挖掘算法
利用簡單的公式快速分隔中英文詞條
成功避開“關(guān)鍵字”
基于矩陣相乘的Apriori改進(jìn)算法
不確定數(shù)據(jù)中的代表頻繁項集近似挖掘
智能垃圾箱