国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本相似度算法在核電廠備件管理上的應(yīng)用

2022-05-07 11:15:34周自強(qiáng)王文浩李政翰姜久超
關(guān)鍵詞:特征詞壓力表余弦

周自強(qiáng),王文浩,李政翰,姜久超

(1.遼寧紅沿河核電有限公司儀控處,遼寧省大連市中山區(qū)南山路127號(hào) 116000;2.中海油田服務(wù)股份有限公司,中國(guó)天津市塘沽海洋高新技術(shù)開發(fā)區(qū)海川路1581號(hào) 300459;3.廣西科技大學(xué)電氣電子與計(jì)算機(jī)科學(xué)學(xué)院,廣西省柳州市官塘大道19號(hào) 545106;4.河北水利電力學(xué)院電氣自動(dòng)化系,河北省滄州市黃河西路49號(hào) 061001)

核電廠設(shè)備紛繁復(fù)雜,各類備品備件種類多、數(shù)量大,備品備件的管理工作直接影響企業(yè)的效益和生產(chǎn)任務(wù)的保障。由于核電機(jī)組的建設(shè)維護(hù)中用到了數(shù)以萬(wàn)計(jì)的備品備件,用科學(xué)的方法對(duì)備件進(jìn)行管理對(duì)于控制企業(yè)庫(kù)存資金占用、降低采購(gòu)成本、提高機(jī)組保障水平有重要意義。

現(xiàn)代企業(yè)備件管理一般采用信息系統(tǒng)來(lái)完成,通過備件的描述和數(shù)字編碼將不同的備件進(jìn)行區(qū)分,在備件信息錄入管理系統(tǒng)之前將備件進(jìn)行去重、分類等前期工作,對(duì)后續(xù)的備件管理大有裨益。技術(shù)人員進(jìn)行備件分類、去重等工作時(shí),主要根據(jù)設(shè)備名稱、規(guī)格等文字信息,可以將名稱、規(guī)格等文字描述組成描述特定備件的文本,這類問題就可以通過文本相似度計(jì)算來(lái)解決[1]。例如在重復(fù)備件識(shí)別中,第一步要做的是從備件清單中篩選出名稱相近的備件,例如壓力表[Y-100BF 0-1.6MPa 1.6級(jí)m20*1.5]和壓力表[Y-100B-FZ 0~1.6MPa m20*1.5],這兩塊壓力表的量程、接口及部分型號(hào)信息相同,有較大的的可能是相同設(shè)備,之后通過查詢?cè)O(shè)備說明書或?qū)?kù)存設(shè)備進(jìn)行檢查就可以判斷出二者是否為同一設(shè)備。相同備件識(shí)別開始于對(duì)相似描述的篩選,該任務(wù)可轉(zhuǎn)換為在自然語(yǔ)言處理(Natural Language Processing,NLP)中的文本相似度的計(jì)算問題。計(jì)算文本相似度的計(jì)算步驟包括:將目標(biāo)文本碎片化;創(chuàng)建文本集合的詞向量空間并將目標(biāo)文本向量化;通過文本距離、TF-IDF、LSI以及深度學(xué)習(xí)相關(guān)算法計(jì)算相似度值。

1 常用文本相似度算法介紹

1.1 基于詞袋模型的文本余弦距離算法

在比較多個(gè)文本之間的相似程度時(shí),可將其中的詞語(yǔ)映射到空間中,將文本以空間向量的形式表示[2],通過計(jì)算向量的相似程度得到文本的相似度。用S表示某段文字,組成這段文字的特征詞用W表示,則文字的向量空間表示為S(W1,W2,…Wk…,Wn),其中Wk是文本中的第k個(gè)特征詞,由x1,x2,x3,x4,x5這5個(gè)特征詞組成的一段文字,可以用S(a,b,c,d,e)表示,其中a,b,c,d,e是各個(gè)特征詞出現(xiàn)的次數(shù)。為了將向量歸一化,將需要進(jìn)行相似度比較文本的特征詞并集作為分母,將各個(gè)文檔以特征詞的權(quán)重進(jìn)行表示,則有

S=S(T1,T2,…Tk…,Tn)

(1)

其中Tk是Wk的權(quán)重。

圖1 二維空間向量Fig.1 Two dimensional space vector

兩個(gè)文本S1,S2的余弦相似度公式Similarity(S1,S2)為

(2)

式中Ai,Bi表示文本S1,S2中第i個(gè)特征詞的權(quán)重。從式中得出,兩個(gè)文本的余弦相似度就是多維空間兩點(diǎn)與所設(shè)定的點(diǎn)形成夾角的余弦值,把向量看成從原點(diǎn)[0,0……,0]開始的兩條線段,它們的余弦值在[-1,1],文本相似度比較轉(zhuǎn)化成比較兩個(gè)向量的長(zhǎng)度和夾角。若向量之間角度為0且長(zhǎng)度相同,則兩段文字越接近;相反若角度為180度余弦為-1,則表示兩段文字差異越大。這種計(jì)算方法簡(jiǎn)單易懂,能對(duì)文字進(jìn)行統(tǒng)計(jì)比較,在實(shí)際工作中有較多的應(yīng)用。

為了將文本相似度算法應(yīng)用在備件管理中,需要對(duì)設(shè)備名稱、規(guī)格等文字描述進(jìn)行碎片化處理,從而得到特征詞,該過程可通過自然語(yǔ)言處理的分詞過程來(lái)實(shí)現(xiàn)[3],如對(duì)表1中的5種壓力表的名稱利用詞袋模型進(jìn)行相似度計(jì)算時(shí),首先需要將文字描述碎片化,將描述分割成詞語(yǔ)、數(shù)字或符號(hào)的集合,找出設(shè)備特征詞的字典。碎片化后描述中有無(wú)意義的符號(hào)如“[“、"]"、“-"等,因此在確定詞語(yǔ)的字典時(shí)需要將這些符號(hào)剔除,最后得到5種設(shè)備描述的字典為[“*”,“1Mpa”,“MPa”,“150B”,“1.0”,“Y”,“1.6”,“不銹鋼”,“FZ”,“YBFZ”,“級(jí)”,“1.5”,“150”,“100BF”,“60B”,“壓力表”,“0”,“0.4”,“F”,“m20”,“ ”]。

表1 描述分割

在得到備件描述的字典模型后,將設(shè)備描述分別用向量進(jìn)行表示,之后計(jì)算向量的余弦值。表2是5種壓力表的向量表示和“壓力表[Y-60B-FZ 0-1.0MPa 1.6級(jí)]”與5種壓力表描述的余弦相似度。

表2 余弦相似度

通過上述介紹的基于詞袋模型的文本余弦距離算法進(jìn)行計(jì)算,可以得到幾種備件的相似度。從中可以看出“壓力表[Y-60B-FZ 0-1.0MPa 1.6級(jí)]”與“壓力表[Y-60B-FZ 0-0.4MPa 1.6級(jí)]”相似度很高,兩者只是量程范圍不同。

1.2 基于TF-IDF模型的文本相似度算法

一個(gè)詞語(yǔ)在文章中出現(xiàn)的頻率越高,那么這個(gè)詞語(yǔ)與文章主題越接近,出現(xiàn)頻率越低,則與文章的主題關(guān)系越小[4],因此詞頻TF(Term Frenquency)是反映文章主題的重要標(biāo)志。逆向文檔頻率IDF(Inverse Document Frequency)指的是在不同的文章庫(kù)中,包含某個(gè)特定詞語(yǔ)的文章越少,則該特定詞語(yǔ)對(duì)區(qū)別文章的作用越大,是詞語(yǔ)對(duì)于整個(gè)文章集重要性的判斷依據(jù)。在文章或者其他語(yǔ)料中,包含某個(gè)詞語(yǔ)的文章越少,則IDF值越大[5]。一個(gè)詞語(yǔ)在一篇文章中出現(xiàn)的頻率(TF)高而在其他文章中出現(xiàn)頻率(IDF)低,那么這個(gè)詞語(yǔ)就有較高的區(qū)分度,能夠以此為依據(jù)對(duì)文章進(jìn)行識(shí)別。

在文本Sj里詞語(yǔ)wi出現(xiàn)的頻率可以表示為:

(3)

式中nij表示詞語(yǔ)wi在文章Sj中出現(xiàn)的次數(shù),分母表示文章Sj中所有詞語(yǔ)出現(xiàn)的總次數(shù)。例如在文章中詞語(yǔ)出現(xiàn)了25次,文章中所有詞語(yǔ)一共出現(xiàn)了250次,則TF為25/250=0.10。

對(duì)于特定詞的IDF,由文章集合或文本集合中包含對(duì)象的數(shù)量除以包含該詞語(yǔ)的文章數(shù)來(lái)表示,為了防止在實(shí)際統(tǒng)計(jì)中出現(xiàn)某文章中不包含特定詞語(yǔ)而導(dǎo)致分母為零的情況,可在實(shí)際統(tǒng)計(jì)時(shí)將分母加1,之后對(duì)上述結(jié)果取對(duì)數(shù),表示為

加強(qiáng)對(duì)土壤的監(jiān)測(cè)和科技管理,是提高土壤耕地地力水平的重要措施。相關(guān)部門必須要明確自身的職責(zé),加強(qiáng)土壤監(jiān)測(cè)力度。同時(shí)還需要加強(qiáng)對(duì)土壤監(jiān)測(cè)過程中的科技投入,成立專門的監(jiān)測(cè)調(diào)查小組,加強(qiáng)對(duì)土壤質(zhì)量的調(diào)查和監(jiān)測(cè),形成長(zhǎng)期跟蹤監(jiān)測(cè)機(jī)制。一旦發(fā)現(xiàn)土壤出現(xiàn)被污染的情況,要及時(shí)對(duì)土壤進(jìn)行治理,減少土壤的耕作量,等到土壤條件恢復(fù)之后再進(jìn)行耕作。

(4)

式中{S}表示文檔庫(kù)中包含文章的篇數(shù),分母為含有指定特征詞的文章篇數(shù)。在某個(gè)文檔集合中有500篇文章,其中包含某個(gè)特征詞的文章數(shù)為39,則這個(gè)特征詞的IDF值為ln(500/40)=2.526。

基于TF-IDF的向量空間相似度計(jì)算是以詞頻TF和逆向文檔頻率IDF的乘積來(lái)衡量不同文章的相似度,它與該詞出現(xiàn)的頻率成正比,與在文章集合中出現(xiàn)的次數(shù)成反比[6]。一個(gè)詞在不同文章中出現(xiàn)的頻率越低,它來(lái)區(qū)別不同文章的意義越強(qiáng)。通過TF-IDF方法,可以得出文章中詞語(yǔ)的重要性,找出文章的特征項(xiàng),通過計(jì)算詞頻,建立權(quán)重向量空間,最后通過計(jì)算權(quán)重向量的余弦值判斷文本的相似性[7]。

同樣以上述5種壓力表的描述進(jìn)行TF-IDF相似度計(jì)算得到表3。

表3 TF-IDF相似度

2 文本相似度在備件管理上的應(yīng)用

2.1 相似備件的識(shí)別

由于核電廠大量設(shè)備從國(guó)外采購(gòu),在后期倉(cāng)儲(chǔ)管理時(shí)同一備品備件普遍存在多個(gè)相似名稱,給設(shè)備采購(gòu)和現(xiàn)場(chǎng)使用帶來(lái)諸多不便,也給倉(cāng)儲(chǔ)管理、成本控制等帶來(lái)挑戰(zhàn)。為了解決該問題,需要備件管理人員花費(fèi)大量的精力去對(duì)備件的名稱和詳細(xì)信息進(jìn)行篩選,應(yīng)用文本相似度算法對(duì)相似備件進(jìn)行篩查,能極大降低人員工作量。

把某工廠倉(cāng)庫(kù)中部分壓力表清單進(jìn)行相似度比較,基準(zhǔn)對(duì)象為“壓力表[Y-60B-FZ 0-1.0MPa 1.6級(jí)]”,相似度見表4,序號(hào)1為對(duì)象本身相似度約等于1,與其相似度最高的為序號(hào)21。通過比較相似度不難發(fā)現(xiàn)相似度接近的設(shè)備是相同設(shè)備的可能性越高。

表4 壓力表描述相似性排列

2.2 備件的分類及檢索

文本相似度算法還可應(yīng)用于備件分類及檢索。通過計(jì)算庫(kù)存清單中備件之間的相似性后設(shè)定相應(yīng)的分類區(qū)間閾值,就可以完成對(duì)備件清單的分類任務(wù),文本相似度算法實(shí)現(xiàn)備件分類的流程如圖2。

圖2 備件分類流程圖Fig.2 Flow chart of spare parts classification

備件的檢索功能與分類類似,通過將要搜索的設(shè)備名稱信息與庫(kù)存總清單進(jìn)行切分,構(gòu)成全體集合的空間向量集合,之后通過計(jì)算目標(biāo)設(shè)備名稱與庫(kù)存總清單各項(xiàng)設(shè)備的相似度并進(jìn)行排序,將檢索對(duì)象依據(jù)相似度由高到低依次排列從而實(shí)現(xiàn)了備件的檢索功能,如圖3。

圖3 備件檢索流程圖Fig.3 Flow chart of spare parts retrieval

3 結(jié)論

核電廠的備件管理是一項(xiàng)復(fù)雜的系統(tǒng)工程,對(duì)海量備件進(jìn)行去重、分類等細(xì)化管理無(wú)疑能夠有效提高管理效率。文章中詳細(xì)介紹了備件去重、分類及檢索的原理和實(shí)現(xiàn)方法[8-9],將語(yǔ)言文字問題和工程技術(shù)問題轉(zhuǎn)換成數(shù)學(xué)計(jì)算,能夠拓寬計(jì)算機(jī)在企業(yè)管理中的應(yīng)用,對(duì)提高人員效率有較大幫助,對(duì)于優(yōu)化工廠備品備件數(shù)據(jù)庫(kù),解決倉(cāng)儲(chǔ)管理問題有一定價(jià)值。而在遇到復(fù)雜設(shè)備時(shí),僅依靠名稱特征詞描述難以有效識(shí)別,需要將設(shè)備的具體參數(shù)加入識(shí)別特征詞當(dāng)中,或者考慮將相似設(shè)備的說明書加入相似識(shí)別過程中,從而提高設(shè)備的準(zhǔn)確度。

猜你喜歡
特征詞壓力表余弦
彈性元件式一般壓力表檢定過程中幾個(gè)問題的探討
壓力表在煉化裝置上的應(yīng)用
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
兩個(gè)含余弦函數(shù)的三角母不等式及其推論
壓力表半自動(dòng)化檢定系統(tǒng)的組建及應(yīng)用
分?jǐn)?shù)階余弦變換的卷積定理
圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
自來(lái)水電子壓力表的設(shè)計(jì)
面向文本分類的特征詞選取方法研究與改進(jìn)
齐河县| 团风县| 化州市| 颍上县| 扎囊县| 容城县| 白朗县| 凯里市| 屯门区| 洛川县| 南岸区| 鹰潭市| 隆昌县| 达拉特旗| 长治市| 杭州市| 仪陇县| 华宁县| 福清市| 青川县| 个旧市| 陈巴尔虎旗| 林芝县| 南乐县| 屏东市| 玉林市| 县级市| 延吉市| 中阳县| 来凤县| 佳木斯市| 醴陵市| 昌都县| 宝鸡市| 泉州市| 中方县| 滨州市| 志丹县| 大悟县| 大余县| 会同县|