崔晴洋 梁小峰 倪靜 李帥 張生 仲梁維
摘? 要:為了實(shí)現(xiàn)機(jī)械手對(duì)衛(wèi)星的自動(dòng)裝配,保證在裝配過程中機(jī)械手能明確每一步的操作類型。本文主要基于對(duì)人工作業(yè)的衛(wèi)星裝配工藝規(guī)程文件進(jìn)行文本挖掘,以裝配工步內(nèi)容作為短文本進(jìn)行操作類型的分類。利用自然語言處理中常用的TF-IDF算法與TextRank算法提取關(guān)鍵字,結(jié)合基于裝配工藝術(shù)語的分級(jí)加權(quán)方法,構(gòu)建三種不同的詞向量模型與詞袋空間。最后使用K-means聚類算法,分別對(duì)上述三種方案下的聚類結(jié)果進(jìn)行比較與評(píng)估。結(jié)果表明,基于裝配技術(shù)術(shù)語的分級(jí)加權(quán)方案表現(xiàn)最好,平均準(zhǔn)確率、召回率、F值分別為88.67%、88.71%、88.66%?;谘b配技術(shù)術(shù)語的短文本聚類方法不僅能自動(dòng)對(duì)復(fù)雜的操作類型進(jìn)行自動(dòng)分類,大大減少了人工干預(yù),而且極大地提升了分類的準(zhǔn)確率。
關(guān)鍵詞:操作類型;TF-IDF;TextRank;分級(jí)加權(quán);K-means
中圖分類號(hào):TP391.1? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:In order to realize the automatic assembly of the manipulator to the satellite,the manipulator can specify the operation type of each step in the assembly process.This paper is mainly based on the text mining of manual satellite assembly process documents and classifies the operation types with the assembly step content as the short text.Keywords were extracted by TF-IDF and TextRank algorithms commonly used in natural language processing.Three different word vector models and word pocket spaces were constructed by combining the hierarchical weighting method based on assembly technology terms.Finally,the K-means clustering algorithm is used to compare and evaluate the clustering results under the above three schemes.The results showed that the grade-weighted scheme based on assembly technical terms had the best performance,with average accuracy,recall rate,and F value of 88.67%,88.71%,and 88.66%,respectively.The method based on assembly technical terms can automatically classify complex operation types,reducing manual intervention,and significantly improve the classification accuracy.
Keywords:operation type;TF-IDF;textrank;hierarchical weighting;K–means
1? ?引言(Introduction)
隨著計(jì)算機(jī)技術(shù)與物聯(lián)網(wǎng)的飛速發(fā)展,人工智能在每個(gè)領(lǐng)域的地位也顯得越來越有分量,各行各業(yè)的人士對(duì)人工智能的探索也在不斷加深[1]。自然語言處理作為人工智能的一個(gè)分支,也正在很多的地方發(fā)光發(fā)熱。它主要是以電子計(jì)算機(jī),編程語言作為工具對(duì)人類特有的書面和口頭形式的自然語言信息進(jìn)行各種類型的處理和加工的技術(shù),是一門涉及語言學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)的交叉性學(xué)科。
衛(wèi)星的零部件裝配都是在狹小空間中進(jìn)行,裝配存在著視野受限、目標(biāo)位置不可見等問題,因此采用一種基于雙目視覺定位的機(jī)器人輔助裝配路徑規(guī)劃方法,通過機(jī)械手實(shí)現(xiàn)自動(dòng)裝配。機(jī)械手需要在原有的裝配工藝規(guī)程文件中獲取工藝信息來完成不同的裝配動(dòng)作,因此基于對(duì)原工藝規(guī)程文件的裝配工步操作類型的劃分至關(guān)重要。
2? ?文本預(yù)處理(Text preprocessing)
針對(duì)原有的衛(wèi)星工藝規(guī)程文件,由于其文件格式復(fù)雜,內(nèi)容繁多,而我們只需要對(duì)其工步內(nèi)容進(jìn)行分類,因此選擇對(duì)工步內(nèi)容進(jìn)行單獨(dú)提取,并將提取得到的工步內(nèi)容分行存儲(chǔ)進(jìn)文本中,此時(shí)的工步內(nèi)容雜亂無序,很難進(jìn)行歸類,此時(shí)需要進(jìn)行文本預(yù)處理,這里的操作包括了對(duì)文本的分詞,去除停用詞,利用TF-IDF算法與TextRank算法提取關(guān)鍵詞。
2.1? ?分詞處理
對(duì)于存儲(chǔ)進(jìn)文本中的工步內(nèi)容進(jìn)行分詞處理,由于屬于中文短文本,這里選用了Python中的jieba分詞組件對(duì)文本內(nèi)容進(jìn)行分詞。該組之間具有三種分詞模式:精確模式、全模式和搜索引擎模式,這里由于做的是對(duì)裝配操作的分類,只需要對(duì)已有的內(nèi)容進(jìn)行最精準(zhǔn)的切分,不需要擴(kuò)充詞語,因此選用精確模式來切詞。
2.2? ?去除停用詞
在分詞完成之后,所有的工步內(nèi)容都被劃分為一個(gè)個(gè)的詞組,詞組是可以表達(dá)中文文本語義的最好的形式。但在每一條由詞組組成的工步中,存在著很多對(duì)語義的表達(dá)沒有任何代表性的詞,如“!”“,”“【】”這一類的符號(hào),又如“的”“了”“啊”之類的助詞,還有一些連詞,這都屬于停用詞,這里引用了中文停用詞詞典,去除了分詞完的文本中存在于停用詞詞典中的詞,重新儲(chǔ)存為文本格式,這樣就使得每一個(gè)工步中的詞組更加具有代表性,之后就需要提取關(guān)鍵詞賦予一定的權(quán)值。
2.3? ?TF-IDF提取關(guān)鍵詞
TF-IDF算法是關(guān)鍵詞提取算法中的一種十分有效且簡單的算法,并且效果較為顯著,它的主要原理是用,即給定的詞語i在第j文檔中出現(xiàn)的頻率乘以,即詞語i的逆文檔頻率,用總文檔數(shù)目除以包含指定詞語的文檔數(shù)目,再將得到的商取對(duì)數(shù)實(shí)現(xiàn)[2],計(jì)算公式如式(1):
2.4? ?TextRank提取關(guān)鍵詞
TextRank是一種基于圖排序的算法,主要是通過把文本分割成若干詞組并建立圖模型,利用投票機(jī)制對(duì)文本中的重要成分進(jìn)行排序,僅僅利用單篇文檔本身的信息就可以實(shí)現(xiàn)關(guān)鍵詞的提取,做文摘[3]。由于這里估計(jì)的是工步中每個(gè)詞組的重要性,因此我們假設(shè)每個(gè)詞的連接權(quán)重都為1,則可得如公式(2):
其中,表示阻尼系數(shù),一般為0.85,表示圖中的任一節(jié)點(diǎn),表示指向頂點(diǎn)的所有頂點(diǎn)集合。表示由頂點(diǎn)連接出去的所有頂點(diǎn)的集合個(gè)數(shù)。表示頂點(diǎn)的最終排序權(quán)重。
通過TextRank算法提取關(guān)鍵詞權(quán)值最大的前五個(gè),詳見表2。
3? ?構(gòu)建向量空間(Construct vector space)
在利用TF-IDF和TextRank分別取得所有裝配工步內(nèi)的前30個(gè)關(guān)鍵詞和權(quán)重值之后,我們就需要將文本進(jìn)行向量化了,向量化的每一個(gè)工步內(nèi)容所組合而成的向量空間就可以作為文本聚類算法的輸入項(xiàng)參與到分類的工作中。
3.1? ?文本向量化
對(duì)于每一條工步內(nèi)容,可以視作一個(gè)由若干個(gè)具有語義代表性的詞組組合而成的短文本,這里采用了基于詞頻的計(jì)數(shù)向量構(gòu)造方法來初始化這一個(gè)文本向量,簡而言之,對(duì)于一個(gè)工藝短文本,例如:“1.檢查設(shè)備表及熱敏電阻表面狀態(tài)是否完好?!保ㄟ^分詞與去除停用詞的處理之后產(chǎn)生的詞組包括了“檢查/設(shè)備/ 表面/熱敏電阻/表面/狀態(tài)/完好”,此時(shí)就可以構(gòu)建該文本向量的初始化狀態(tài),詳見表3。
3.2? ?生成詞袋模型
根據(jù)上述生成計(jì)數(shù)向量的方法,將所有的向量累積起來,創(chuàng)建一個(gè)包含了以所有計(jì)數(shù)向量的詞組作為特征值的初始化詞袋空間模型[4],如式(3):
在該模型中,代表了特征,即劃分出來的詞組,而代表的是在語料庫中,第i個(gè)短文本第j個(gè)位置的詞組的頻次,如果不存在這個(gè)詞組,則為0。這樣構(gòu)造出的詞袋模型沒有增加權(quán)值,因此存在的問題是每個(gè)詞相較于其他詞都具有一樣的代表性。這時(shí)我們就需要發(fā)揮TF-IDF和TextRank提取的關(guān)鍵詞的作用,對(duì)前30個(gè)關(guān)鍵詞進(jìn)行加權(quán)處理,全面提升這30個(gè)關(guān)鍵詞在空間向量中所占有的地位,構(gòu)建加權(quán)矩陣,將詞袋模型VSM乘以加權(quán)后矩陣W,所得到的加權(quán)后的詞袋模型VSMend就是最終聚類的輸入項(xiàng),如下式:
3.3? ?分級(jí)加權(quán)法
上述通過兩種關(guān)鍵詞提取的方法來對(duì)詞袋模型進(jìn)行加權(quán),但其實(shí)都存在缺陷。對(duì)TF-IDF來講,短文本的詞頻通常來講不會(huì)太高,并且文檔數(shù)目較少,這會(huì)導(dǎo)致大多數(shù)情況下提取關(guān)鍵詞的表現(xiàn)不是很好[5]。TextRank則會(huì)對(duì)文本中多次出現(xiàn)的詞賦予更大的權(quán)重,這會(huì)導(dǎo)致一些可能沒有被停用詞去除的連詞具有較大的權(quán)值,如果無法做到非常準(zhǔn)確的詞性過濾。也會(huì)導(dǎo)致該算法的表現(xiàn)力下降[6]。
這里探究一種新的加權(quán)方法,既可以將關(guān)鍵詞的代表性突顯出來,又可以不讓大頻次的無用詞出現(xiàn)。結(jié)合機(jī)械工藝裝配的專業(yè)知識(shí),了解到關(guān)于機(jī)械裝配方面和其他專業(yè)一樣存在專業(yè)術(shù)語,在工藝規(guī)程文件中,往往裝配工藝術(shù)語可以最好地代表短文本的內(nèi)容。進(jìn)一步按照研究的目的將術(shù)語分為動(dòng)詞,名詞兩種。顯然由于要對(duì)操作類型進(jìn)行分類,動(dòng)詞的權(quán)重肯定大于名詞。
按照上述思路,從網(wǎng)上下載機(jī)械裝配工藝術(shù)語,并將其分成動(dòng)詞術(shù)語庫、名詞術(shù)語庫,將加權(quán)矩陣分為三級(jí),若特征屬于動(dòng)詞術(shù)語庫則賦予一級(jí)因子權(quán)值,若特征屬于名詞術(shù)語庫則賦予第二級(jí)因子權(quán)值,其他則賦予三級(jí)因子權(quán)值[7]。例如:“緊固”,為一級(jí)因子,賦予最大權(quán)值,“螺釘”為二級(jí)因子,賦予第二權(quán)值,“人員”為三級(jí)因子,賦予最小權(quán)值,此時(shí)加權(quán)矩陣W由三級(jí)因子權(quán)值組成,如圖1所示。
在規(guī)劃完分級(jí)加權(quán)大致的流程之后,下一步需要考慮加權(quán)規(guī)則等細(xì)節(jié)問題,由于初始化的詞袋模型為每一個(gè)計(jì)數(shù)向量累加而得到的,對(duì)于一些代表性不強(qiáng)的而在每一個(gè)文本中出現(xiàn)次數(shù)頻繁的詞組,即三級(jí)因子,可能會(huì)導(dǎo)致它的權(quán)值在一開始就可能是一級(jí)因子或二級(jí)因子的n倍,如果直接進(jìn)行加權(quán),可能會(huì)導(dǎo)致一級(jí)因子與二級(jí)因子的加權(quán)效果變得不夠顯著甚至小于三級(jí)因子,從而無法達(dá)到突出關(guān)鍵詞的效果。在這里,我們引入了一個(gè)約束來限制三級(jí)因子權(quán)值可能過大的問題。每一級(jí)因子的權(quán)重系數(shù)原理如式(6):
這里的是加權(quán)矩陣W上的第m行n列的權(quán)重系數(shù),代表的是每一行計(jì)數(shù)向量對(duì)應(yīng)該特征值的頻次,w1、w2、w3則是通過名詞裝配術(shù)語庫,動(dòng)詞裝配術(shù)語庫篩選所得因子的權(quán)重值,這里從一級(jí)到三級(jí)賦值5、3、1,該系數(shù)主要是先將計(jì)數(shù)向量中的頻次乘以倒數(shù)從而抹除所有向量受頻次影響的權(quán)重比例,之后乘以重新提升頻次的影響力,但由于在短文本的環(huán)境下,不會(huì)出現(xiàn)頻次大的出奇的情況,因此相對(duì)于w1、w2、w3的權(quán)值而言,大大減小了頻次的影響力,這也大大提高了分級(jí)加權(quán)的影響力。此時(shí),加權(quán)矩陣W不再是一個(gè)對(duì)角矩陣,構(gòu)建詞袋模型也由原來的矩陣相乘變?yōu)榫仃圏c(diǎn)乘的形式,如式(7):
4? ?文本聚類(Text clustering)
4.1? ?K-means聚類分析
K-means聚類算法是劃分法中比較經(jīng)典的算法,可以高效準(zhǔn)確地對(duì)龐大的數(shù)據(jù)進(jìn)行聚類。K-means算法的邏輯主要是確定k各初始的點(diǎn)作為質(zhì)心,然后將數(shù)據(jù)集中的每個(gè)點(diǎn)分配到一個(gè)簇中,為每個(gè)點(diǎn)找距離最近的質(zhì)心,并將其分配給該質(zhì)心對(duì)應(yīng)的簇。完成之后,每個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值[8]。迭代上述過程至質(zhì)心不再發(fā)生變動(dòng)。
將上述TF-IDF算法、TextRank算法,以及分級(jí)加權(quán)法加權(quán)得到的詞袋模型分別輸入到K-means聚類算法中進(jìn)行聚類。這里K值得選擇根據(jù)兩種方法獲取。①基于平均離差得肘部方法選擇,②基于輪廓系數(shù)的分?jǐn)?shù)評(píng)價(jià)[9],如圖2所示。
根據(jù)工藝規(guī)程文件內(nèi)容,K的選取應(yīng)該在3到8種,即存在3到8種的操作類型,分類太少肯定達(dá)不到分類的效果,分類太多可能效果顯著,但很多相同的操作類型可能會(huì)因?yàn)橹鲀?nèi)容不相似而被分成了幾類,也不符合實(shí)情。如圖2所示,當(dāng)K值為8時(shí),三種方法的輪廓系數(shù)最高同時(shí)平均離差最小,所以我們選擇K值為8。在這之后,通過人工分類的方法將裝配工藝內(nèi)容正確分出八類。這樣就可以用這三種K-means的聚類結(jié)果與實(shí)際結(jié)果進(jìn)行比較。
4.2? ?K-means聚類評(píng)估
對(duì)于通過三種不同的加權(quán)方式聚類得到的八個(gè)類別,我們分別使用準(zhǔn)確率、召回率、F值來來進(jìn)行對(duì)比評(píng)價(jià),在這里準(zhǔn)確率即為每一類中預(yù)測(cè)正確的操作類型數(shù)量與全部文本數(shù)量的比值[10],如式(8):
由圖4可以明顯地看出基于分級(jí)加權(quán)法的K-means聚類大體上相較于其他兩種關(guān)鍵詞提取方法,在準(zhǔn)確率、召回率上面都有所提升,分別為88.67%、88.71%,同時(shí)在綜合評(píng)定的F值上也有較大的提高,為88.66%。這意味著通過這種方法可以更好地對(duì)裝配工藝的操作類型進(jìn)行自動(dòng)分類,提升了分類的精確度,為后續(xù)自動(dòng)裝配的工作做出了貢獻(xiàn)。
5? ?結(jié)論(Conclusion)
本文基于衛(wèi)星裝配工藝規(guī)程文件,按照常規(guī)的短文本聚類步驟,采用TF-IDF、TextRank關(guān)鍵詞提取加權(quán)和基于機(jī)械裝配術(shù)語庫的分級(jí)加權(quán)法,三種方法確定特征的權(quán)重系數(shù),生成詞袋模型[11],之后采用K-means聚類進(jìn)行對(duì)機(jī)械手操作類型的分類,評(píng)估結(jié)果發(fā)現(xiàn)基于專業(yè)術(shù)語庫的加權(quán)方法對(duì)于這種專業(yè)性較強(qiáng)的短文本聚類效果更佳。本研究著力在加權(quán)方法上進(jìn)行研究,目的就是增強(qiáng)關(guān)鍵詞的代表性,實(shí)現(xiàn)高效聚類。
參考文獻(xiàn)(References)
[1] 張國鋒,吳國文.基于核函數(shù)的改進(jìn)k-means文本聚類[J].計(jì)算機(jī)應(yīng)用與軟件,2019,36(9):281-284;301.
[2] 王露瑤,張濤,陳才,等.基于卡方統(tǒng)計(jì)改進(jìn)的TF-IDF的文本分類的研究[J].電子世界,2019,(6):24-25;28.
[3] 周錦章,崔曉暉.基于詞向量與TextRank的關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用研究,2019,36(4):1051-1054.
[4] 薛蘇琴,牛永潔.基于向量空間模型的中文文本相似度的研究[J].電子設(shè)計(jì)工程,2016,24(10):28-31.
[5] 張莉婧,李業(yè)麗,曾慶濤,等.基于改進(jìn)TextRank的關(guān)鍵詞抽取算法[J].北京印刷學(xué)院學(xué)報(bào),2016,24(4):51-55.
[6] 徐馨韜,柴小麗,謝彬,等.基于改進(jìn)TextRank算法的中文文本摘要提取[J].計(jì)算機(jī)工程,2019,45(3):273-277.
[7] 蔡志川,李運(yùn)懷.基于分級(jí)加權(quán)法的城鎮(zhèn)垃圾填埋場(chǎng)選址評(píng)價(jià)[J].地質(zhì)學(xué)刊,2019,43(2):341-348.
[8] (美)哈林頓(Harington,P.).李銳,譯.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].北京:人民郵電出版社,2013.
[9] (美)加文·??耍℅avin Hackeling).scikit-learn機(jī)器學(xué)習(xí)[M].張浩然,譯.北京:人民郵電出版社,2019.
[10] 曹曉.文本聚類研究綜述[J].情報(bào)探索,2016(01):131-134.
[11] (美)愛麗絲·鄭(Alice Zheng).陳光欣,譯.精通特征工程[M].北京:人民郵電出版社,2019.
作者簡介:
崔晴洋(1996-),男,碩士生.研究領(lǐng)域:計(jì)算機(jī)輔助設(shè)計(jì)與智能制造.
梁小峰(1981-),男,碩士,高級(jí)工程師.研究領(lǐng)域:機(jī)械設(shè)計(jì).
倪? ?靜(1972-),女,博士,副教授.研究領(lǐng)域:信息系統(tǒng).
李? ?帥(1985-),男,博士,工程師.研究領(lǐng)域:機(jī)械工程.
張? 生(1968-),男,學(xué)士,高級(jí)工程師.研究領(lǐng)域:計(jì)算機(jī)應(yīng)用.
仲梁維(1962-),男,碩士,教授.研究領(lǐng)域:計(jì)算機(jī)輔助設(shè)計(jì),企業(yè)信息化.本文通訊作者.