国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的專利文本分類算法研究綜述

2016-05-18 02:37:10劉紅光馬雙剛劉桂鋒
圖書情報(bào)研究 2016年3期
關(guān)鍵詞:分類器專利向量

劉紅光 馬雙剛 劉桂鋒

(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)

基于機(jī)器學(xué)習(xí)的專利文本分類算法研究綜述

劉紅光 馬雙剛 劉桂鋒

(江蘇大學(xué)科技信息研究所鎮(zhèn)江212013)

總結(jié)國內(nèi)外專利文本分類情況,簡要敘述基于機(jī)器學(xué)習(xí)的專利文本分類的一般框架,介紹專利文本分類的文本預(yù)處理、特征提取、文本表示、分類器構(gòu)建及效果評(píng)價(jià)等過程。將應(yīng)用于專利文本分類的機(jī)器學(xué)習(xí)算法分為單一分類算法和組合分類算法著重探討:單一分類算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;組合分類算法主要有兩種組合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,還有多種組合算法。指出各種機(jī)器學(xué)習(xí)算法應(yīng)用在專利文本分類上的優(yōu)勢與不足,從專利文本預(yù)處理、特征提取、專利文本表示、分類器的構(gòu)建、新方法的探索等五個(gè)方面對(duì)專利文本自動(dòng)分類技術(shù)進(jìn)行展望。

專利文本自動(dòng)分類機(jī)器學(xué)習(xí)樸素貝葉斯支持向量機(jī)

Key wordspatent document;automatic classification;machine learning;Naive Bayes;Support Vector Machine

1 引言

專利申請數(shù)量的不斷增加,產(chǎn)生了爆炸式增長的專利文本。一個(gè)國家的發(fā)展和民族的進(jìn)步,越來越多地依賴于科技創(chuàng)新,而專利文本中蘊(yùn)含著豐富的創(chuàng)新性科學(xué)技術(shù)信息,如何從專利文本中獲取這些技術(shù)信息,從而獲得有用的專利情報(bào),進(jìn)而為國家和民族的發(fā)展戰(zhàn)略提供幫助,成為國內(nèi)外專家研究的重點(diǎn)。專利文本分類作為基礎(chǔ)性工作,在專利檢索、專利聚類、專利挖掘等方面有著重要的作用,因此,專利文本自動(dòng)分類技術(shù)應(yīng)運(yùn)而生。

國外如歐洲、美國和日本,對(duì)專利的自動(dòng)分類研究起步較早[1],我國的專利研究起步相對(duì)較晚,但是近些年也開始逐步重視專利文本分類的自動(dòng)化,取得了很大的進(jìn)展。專利文本分類研究主要分為理論研究和實(shí)踐研究兩大方面,理論研究主要包括專利文本分類的方法、特征提取方法以及各種機(jī)器學(xué)習(xí)算法等方面的研究,如屈鵬和王惠臨[2]詳細(xì)分析了術(shù)語作為專利文本分類特征的適用性、主權(quán)項(xiàng)字段分類研究和相近主題對(duì)分類結(jié)果的影響等專利文本分類的基礎(chǔ)性問題;He和Han[3]介紹了基于TRIZ理論的專利文本分類系統(tǒng),并與支持向量機(jī)算法、樸素貝葉斯算法和決策樹算法構(gòu)建的分類結(jié)果比較,實(shí)驗(yàn)證明,該系統(tǒng)取得了更優(yōu)的分類效果;Liu和Shih[4]提出基于專利網(wǎng)絡(luò)分析的混合專利分類方法,并與采用K近鄰等三個(gè)機(jī)器學(xué)習(xí)算法的分類進(jìn)行比較;Chiu和Huang[5]采用蜜蜂交配優(yōu)化算法獲得的關(guān)鍵詞概率結(jié)合詞頻來提取特征,并采用支持向量機(jī)算法進(jìn)行分類;Fall、T rcsvári和Benzineb等[6]基于IPC分類號(hào),在英語和德語專利文本分類中對(duì)樸素貝葉斯算法、支持向量機(jī)算法、K近鄰算法進(jìn)行比較,最后發(fā)現(xiàn)支持向量機(jī)算法的分類效果最好。實(shí)踐研究主要探討專利文本分類在專利申請、專利檢索、專利聚類分析、戰(zhàn)略決策等方面的應(yīng)用,如Krier和Agrave[7]基于歐洲專利分類系統(tǒng)進(jìn)行專利自動(dòng)分類,以便將相關(guān)專利申請分配給技術(shù)背景接近的審查員;Lai和Wu[8]提出了應(yīng)用于企業(yè)研發(fā)技術(shù)定位的專利分類方法;Li和Shawe-Taylor[9]進(jìn)行跨語言的專利文本分類與檢索研究。

為了更加清晰地把握專利文本分類算法的最新發(fā)展趨勢,本文利用文獻(xiàn)調(diào)研法對(duì)專利文本分類的研究成果進(jìn)行詳細(xì)地梳理和分析,在對(duì)基于機(jī)器學(xué)習(xí)的專利文本分類的一般框架進(jìn)行簡要敘述的基礎(chǔ)上,著重介紹了專利文本分類算法的研究現(xiàn)狀,最后從五個(gè)方面對(duì)相關(guān)研究進(jìn)行展望。

2 專利文本分類一般框架

專利文本分類分為訓(xùn)練和分類兩個(gè)過程。筆者研究之后,得出基于機(jī)器學(xué)習(xí)的專利文本分類的一般框架如圖1所示:

圖1 專利文本自動(dòng)分類的一般框架

訓(xùn)練階段利用訓(xùn)練專利文本集,經(jīng)過①~④過程,得到分類器;測試階段對(duì)測試專利文本集也經(jīng)過①~③過程,并利用訓(xùn)練階段得到的分類器對(duì)其進(jìn)行⑤~⑥過程,并根據(jù)評(píng)價(jià)后的結(jié)果對(duì)訓(xùn)練階段不斷地進(jìn)行改進(jìn),最后得到比較精確地分類準(zhǔn)確率。

2.1 專利文本預(yù)處理

專利文本預(yù)處理是從專利文本中提取特征詞來表示專利文本的處理過程,它的主要任務(wù)是進(jìn)行專利文本分詞和去除停用詞。去除停用詞即是去除與專利文本分類關(guān)系不大的符號(hào)和詞語,比較簡單,本文不做贅述。

西文如英文、德文等的文本分詞可以利用空格符號(hào),實(shí)現(xiàn)起來比較簡單;而中文之間沒有明顯的分詞界限,相對(duì)比較復(fù)雜。中文分詞的難點(diǎn)在于歧義詞的切分和專利術(shù)語的識(shí)別,專利文本的撰寫格式比較規(guī)范,歧義現(xiàn)象較少,因此相關(guān)專家學(xué)者專注于專利術(shù)語的識(shí)別。經(jīng)過研究發(fā)現(xiàn),單純注重詞頻的分詞方法很容易將一些在專利文本中出現(xiàn)較少但很重要的專利術(shù)語忽略,需要先將這些專利術(shù)語識(shí)別并抽取出來,如蔣健安、陸介平、倪巍偉等[10]用基于后綴數(shù)組統(tǒng)計(jì)的方法來獲得相應(yīng)領(lǐng)域的詞匯構(gòu)成領(lǐng)域詞典,能夠有效地提取出領(lǐng)域詞匯;谷俊[11]抽取出文檔詞元,計(jì)算詞元權(quán)重并篩選出熱點(diǎn)詞元,通過詞間距測算對(duì)熱點(diǎn)詞元進(jìn)行組配,經(jīng)權(quán)重計(jì)算和閾值篩選后得到術(shù)語集,最后由專家人工判定識(shí)別出有效的新技術(shù)術(shù)語;屈鵬和王惠臨[12]通過對(duì)專利術(shù)語的抽取方法進(jìn)行研究,從專利文本中抽取出比較生僻的專業(yè)詞匯,然后進(jìn)行有效識(shí)別;侯婷、呂學(xué)強(qiáng)和李卓[13]提出一種層次過濾的專利文本術(shù)語抽取方法。

2.2 專利文本特征提取

專利文本特征提取的難點(diǎn)在于特征的選擇和權(quán)值的計(jì)算。專利文本的特征空間維數(shù)過大將導(dǎo)致分類效率低下且分類準(zhǔn)確率不高,因此需要降低專利文本特征空間的維數(shù),選擇出對(duì)分類貢獻(xiàn)比較大的詞匯用于分類;詞匯的權(quán)值在分類過程中被計(jì)算處理,權(quán)值大小代表了詞匯對(duì)分類起到的作用大小。

常用的特征選擇方法有文檔頻次、互信息量、信息增益、X2統(tǒng)計(jì)量(CHI)等,在專利文本分類中一般采用信息增益的方法來進(jìn)行特征選擇。關(guān)于特征提取的相關(guān)研究[14]表明:盡管各種特征提取方法的差異不是很明顯,但信息增益方法的性能相對(duì)較好。

最常見的權(quán)值計(jì)算方法包括布爾加權(quán)法、詞頻統(tǒng)計(jì)法、TF/IDF權(quán)值法以及TFC權(quán)值計(jì)算法,其中TF/IDF權(quán)值法應(yīng)用最為廣泛,但傳統(tǒng)的TF/ IDF權(quán)值計(jì)算法沒有考慮詞匯位置對(duì)詞匯權(quán)重的影響,胡冰和張建立[15]通過在TF/IDF的基礎(chǔ)上引入類間分散度加權(quán)因子和位置權(quán)重因子,考慮了位置對(duì)詞匯的影響,取得了不錯(cuò)的效果。

2.3 專利文本表示

專利文本表示是對(duì)專利文本進(jìn)行形式化處理,使計(jì)算機(jī)能夠理解自然語言文本的過程。一般文本表示模型有概率模型、潛在語義索引模型和向量空間模型等。

向量空間模型易于操作,在專利文本分類領(lǐng)域中應(yīng)用最廣,其缺點(diǎn)在于假設(shè)特征詞項(xiàng)之間線性無關(guān),而在專利文本中詞項(xiàng)之間存在著語義聯(lián)系,因此該假設(shè)不能保證計(jì)算結(jié)果的可靠性,丁月華、文貴華和郭煒強(qiáng)[16]提出了一種核向量空間模型,將專利文本特征轉(zhuǎn)換到高維特征空間,在高維空間中實(shí)現(xiàn)原空間中的非線性判別函數(shù),巧妙地解決了這個(gè)問題。

2.4 專利文本分類器的構(gòu)造

應(yīng)用機(jī)器學(xué)習(xí)算法對(duì)經(jīng)過良好表達(dá)的專利文本進(jìn)行分類實(shí)驗(yàn),并不斷優(yōu)化實(shí)驗(yàn)使分類效果達(dá)到最優(yōu)的過程,即為專利文本分類器的構(gòu)造過程。分類器是文本分類系統(tǒng)的核心模塊,是各種分類算法的具體表現(xiàn)形式,所以如何訓(xùn)練構(gòu)造分類器是專利文本分類過程中的關(guān)鍵問題。

構(gòu)造一個(gè)具有良好效果的分類器,需要選擇合適的機(jī)器學(xué)習(xí)算法,訓(xùn)練完成后要不斷地對(duì)分類器進(jìn)行實(shí)驗(yàn)驗(yàn)證,并根據(jù)驗(yàn)證結(jié)果調(diào)整分類器的各項(xiàng)參數(shù),使其達(dá)到最優(yōu)。

3 專利文本分類算法

應(yīng)用于專利文本分類的機(jī)器學(xué)習(xí)算法主要分為兩類,即單一分類算法和組合分類算法。單一分類算法是指只使用一種機(jī)器學(xué)習(xí)算法應(yīng)用于專利文本的自動(dòng)分類,組合分類算法是指使用兩種或多種機(jī)器學(xué)習(xí)算法應(yīng)用于專利文本的自動(dòng)分類。

3.1 單一分類算法

在專利文本分類領(lǐng)域應(yīng)用比較廣泛的算法有樸素貝葉斯算法(Naive Bayes,NB)、人工神經(jīng)網(wǎng)絡(luò)算法(Artificial Neural Networks,ANN)、Rocchio算法、K-近鄰算法(K-Nearest Neighbor,KNN)、支持向量機(jī)算法(Support Vector Machine, SVM)等,在一般文本分類領(lǐng)域中應(yīng)用比較廣泛的決策樹算法側(cè)重的是單層次的分類,與專利文本多層次多分類的情況不符,因此應(yīng)用較少,本文不做敘述。

(1)NB算法。NB算法是一種統(tǒng)計(jì)學(xué)分類方法,其基本思路是計(jì)算文本屬于類別的概率,文本屬于某類別的概率等于文本中每個(gè)特征詞屬于類別的概率的綜合表達(dá)。

NB算法能運(yùn)用到大型數(shù)據(jù)庫中,方法簡單、易實(shí)現(xiàn),分類準(zhǔn)確率高、速度快,算法穩(wěn)定,利用這些優(yōu)點(diǎn),郭煒強(qiáng)、文軍和文貴華[17]基于NB算法設(shè)計(jì)了一個(gè)專利文本分類系統(tǒng),具有較好的分類準(zhǔn)確率;IBM的研究人員[18-19]用NB算法構(gòu)建了一個(gè)層次結(jié)構(gòu)的分類系統(tǒng),用于對(duì)專利等文本進(jìn)行層次性分類,成功地在12個(gè)子類三個(gè)層次的小規(guī)模測試中提高了分類效率,但是對(duì)一些無法準(zhǔn)確判斷類別的文本可能會(huì)直接分類至較淺的層次。

(2)ANN算法。ANN算法是采用感知器進(jìn)行分類,一般包括訓(xùn)練部分和測試部分,訓(xùn)練部分首先將訓(xùn)練專利文本的特征項(xiàng)構(gòu)造輸入神經(jīng)元,然后通過不斷迭代調(diào)整得到輸入與輸出的連接權(quán)值矩陣;測試部分根據(jù)訓(xùn)練部分得到的權(quán)值矩陣,得到待分類專利文本的特征項(xiàng)輸出值,也即該待分專利文本的所屬分類。

ANN算法具有很強(qiáng)的非線性擬合能力,可映射任意復(fù)雜的非線性關(guān)系,而且學(xué)習(xí)規(guī)則簡單,便于計(jì)算機(jī)實(shí)現(xiàn),因此在專利文本分類領(lǐng)域得到了廣泛的應(yīng)用,Trappey、Hsu、Trappey等[20]利用向后傳播的ANN算法構(gòu)建了一個(gè)專利文本分類系統(tǒng),專利文本分類效率和準(zhǔn)確率都大大提高;馬芳[21]采用改進(jìn)后的徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)算法完成專利文本的訓(xùn)練和分類,兼顧了專利信息大規(guī)模與非結(jié)構(gòu)的特性;李生珍、王建新、齊建東等[22]提出了一種基于后向傳播神經(jīng)網(wǎng)絡(luò)的專利文本自動(dòng)分類方法,與一般神經(jīng)網(wǎng)絡(luò)算法相比,提高了系統(tǒng)的靈活性和準(zhǔn)確性。

Winnow[23]算法是一種類感知器的人工神經(jīng)網(wǎng)絡(luò)算法,能夠同時(shí)學(xué)習(xí)一系列的超平面而被應(yīng)用在多標(biāo)簽分類的情況,Koster、Seutter和Beney[24]利用Winnow算法在歐洲專利局進(jìn)行專利文本分類,提出多分類問題比單分類問題的準(zhǔn)確度低的原因在于多分類問題中的噪音比較大,初步解決了多分類問題精確度較低的問題。

(3)Rocchio算法。Rocchio算法[25]基于向量空間模型和最小距離,根據(jù)算術(shù)平均為每類專利文本集生成一個(gè)代表該類的中心向量,確定待分類專利文本的空間向量,計(jì)算該向量與每類中心向量間的距離(相似度),最后判定該待分類專利文本屬于與其距離最近的類。

Rocchio算法的訓(xùn)練階段生成所有類別的中心向量,在分類階段,系統(tǒng)采用最近距離判別法把專利文本分類到與其最相似的類別中,針對(duì)類間距離大而類內(nèi)距離小的類別分布情況,該算法能達(dá)到較好的分類效果。該算法計(jì)算簡單、迅速、容易實(shí)現(xiàn),在實(shí)際應(yīng)用中一般先用其對(duì)分類文本進(jìn)行粗分類,再用其它算法進(jìn)一步細(xì)分。

(4)KNN算法。KNN算法是一種基于類比的分類方法,在訓(xùn)練過程中,KNN生成所有訓(xùn)練文本的特征向量,在測試過程中比較測試文本的特征向量與所有訓(xùn)練文本特征向量的相似度,從中找出K個(gè)最接近的訓(xùn)練文本,然后將測試文本分到這K個(gè)近鄰中所處最多的類別中去。

KNN算法依靠周圍有限的鄰近的樣本來確定所屬類別,較其他方法更為適合于類域重疊較多的待分樣本集,在專利文本的分類中得到了廣泛的應(yīng)用,日本國家科學(xué)咨詢系統(tǒng)中心(NACSIS)策劃主辦的NTCIR(NACSIS Test Collections for IR)在theme以及F-term的專利文本分類實(shí)驗(yàn)中,KNN取得了最好的結(jié)果;Kim和Choi[26]利用KNN算法進(jìn)行專利文本分類,達(dá)到了74%的改善性能;Richter和MacFarlane[27]用KNN算法設(shè)計(jì)了兩個(gè)(一個(gè)注重元數(shù)據(jù),另一個(gè)忽略元數(shù)據(jù))相似的專利文本分類系統(tǒng)并對(duì)其進(jìn)行比較,關(guān)注元數(shù)據(jù)的系統(tǒng)取得了更高的準(zhǔn)確率。國內(nèi)這方面研究也較多,季鐸、蔡云雷、蔡?hào)|風(fēng)等[28]提出基于共享最近鄰的KNN專利文本自動(dòng)分類方法,在NTCIR-8專利分類評(píng)測任務(wù)中充分驗(yàn)證了其有效性;苑迪文[29]基于KNN算法并對(duì)其進(jìn)行改進(jìn),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)專利文本分類系統(tǒng),取得了比傳統(tǒng)KNN算法更優(yōu)的效果。

(5)SVM算法。SVM算法的訓(xùn)練過程是要找到一個(gè)超平面,使得這個(gè)超平面的正反例分別落在兩側(cè),在所有超平面中與正反例的距離最大且到最近的正反例的距離相等,然后對(duì)未知類別的專利文本,計(jì)算其位于超平面的一側(cè),即為其分屬的類別。

SVM算法憑借高維災(zāi)難問題處理得當(dāng)、數(shù)據(jù)稀疏性以及文本特征相關(guān)性不敏感、準(zhǔn)確率很高的優(yōu)勢,在專利文本分類中得到了廣泛的應(yīng)用:Chen和Chang[30]利用開放源代碼的LibSVM對(duì)專利文本的分類進(jìn)行學(xué)習(xí)和預(yù)測,并提出了一個(gè)三階段專利文本分類法;Wu、Ken和Huang[31]提出一個(gè)基于新的遺傳算法SVM的專利分類系統(tǒng),在應(yīng)用不同的內(nèi)核后均取得了80%以上的準(zhǔn)確率;上海交通大學(xué)的呂寶糧教授及其團(tuán)隊(duì)[32]基于SVM算法,實(shí)現(xiàn)了一個(gè)改進(jìn)的并行化最小最大模塊化SVM(Min-Max Modular Support Vector Machine,M3-SVM)算法,在大規(guī)模專利文本分類問題上比SVMlight算法更加準(zhǔn)確,更加節(jié)省時(shí)間。

3.2 組合分類算法

傳統(tǒng)的單一的機(jī)器學(xué)習(xí)算法都有自身的缺點(diǎn),NB算法假設(shè)文本中各個(gè)特征詞之間是相互獨(dú)立、互不影響的,但是專利文本特征詞之間存在明顯的相關(guān)關(guān)系,因此存在一定的偏差;ANN算法把一切問題的特征轉(zhuǎn)變成數(shù)字,推理轉(zhuǎn)變成數(shù)值計(jì)算,丟失了不少信息;Rocchio算法受分類之間距離影響較大,故而在實(shí)際的分類系統(tǒng)很少用其來解決具體的分類問題;KNN算法在判斷一篇新的專利文本的類別時(shí),需要把它與現(xiàn)存所用訓(xùn)練文本都比較一遍,比較耗時(shí),而且當(dāng)訓(xùn)練樣本不平衡時(shí),可能導(dǎo)致待分類專利文本的K個(gè)鄰居中大容量樣本占多數(shù);SVM算法在不同分類問題中核函數(shù)參數(shù)的選擇較復(fù)雜,分類精度不高,大規(guī)模分類的訓(xùn)練時(shí)間較長,在大樣本環(huán)境下,計(jì)算的周期過長、降低了運(yùn)算速率。

因此,針對(duì)單一算法的缺點(diǎn),國內(nèi)外一些專家學(xué)者在研究過程中越來越多地采用組合的分類算法,以求對(duì)單一算法揚(yáng)長避短,取得更好的分類效果。相關(guān)研究一般采用兩種組合算法,應(yīng)用多種組合算法的分類相對(duì)較少,但是也有專家進(jìn)行了研究。

3.2.1 兩種組合算法

(1)NB-KNN算法。NB算法基于概率論,對(duì)缺失數(shù)據(jù)不敏感,規(guī)避了KNN算法對(duì)數(shù)據(jù)分布不平衡導(dǎo)致的分類錯(cuò)誤,而KNN算法在類域重疊較多的樣本集中有著優(yōu)勢,兩個(gè)算法的結(jié)合可以有效地實(shí)現(xiàn)優(yōu)勢互補(bǔ),劣勢互消,Larkey[33]基于美國的專利分類體系,將NB算法和KNN算法相結(jié)合開發(fā)出一個(gè)專利分類系統(tǒng),NB算法利用專利子類之間的相關(guān)關(guān)系選擇不同的類別構(gòu)造更多的分類,KNN算法基于向量空間模型,可以在系統(tǒng)中表示文檔結(jié)構(gòu),使得系統(tǒng)在實(shí)際中得到了較好的應(yīng)用。

(2)Rocchio-KNN算法。Rocchio算法基于中心度理論,在類別區(qū)分度比較大的分類中效果明顯,KNN算法在小范圍類間區(qū)分度比較小的分類中,能取得很好的效果,Rocchio算法與KNN算法結(jié)合,適用于專利文本分類大類之間區(qū)別大而小類之間區(qū)別較小的情況,蔣健安、陸介平、倪巍偉等[10]設(shè)計(jì)的層次分類算法先采用Rocchio算法進(jìn)行專利大類的區(qū)分,再對(duì)各個(gè)大類之間的文本采用KNN方法進(jìn)行小類的細(xì)分,由于大類之間的區(qū)分度比較大,因此可以使用Rocchio算法,而相同大類之間的小類分別較小,采用KNN算法更能區(qū)分。

(3)KNN-SVM算法。KNN算法將每類中所有的支持向量都作為代表點(diǎn),可以改善SVM算法只將一個(gè)點(diǎn)作為代表點(diǎn)的不足,李程雄、丁月華和文貴華[34]提出并分析了結(jié)合SVM算法和KNN算法的組合改進(jìn)算法SVM-KNN,當(dāng)樣本和SVM最優(yōu)超平面的距離大于給定的閾值,即樣本離分界面較遠(yuǎn),則用SVM分類,反之用KNN算法對(duì)測試樣本分類,比單一的算法取得了更優(yōu)的分類效果。

(4)SVM-其它算法。SVM算法在專利文本分類中得到了廣泛的應(yīng)用,取得了更好的效果,但是單一的SVM算法存在著缺點(diǎn),需對(duì)其進(jìn)行改進(jìn),或者將其與其它的方法結(jié)合,張曉宇[35]提出多分類器融合和主動(dòng)學(xué)習(xí)的方法來分類專利文本,其中在每個(gè)子分類器中利用SVM算法對(duì)每個(gè)專利類別進(jìn)行訓(xùn)練,都取得了更好的效果。

3.2.2 多種組合算法專利文本分類的研究是一個(gè)不斷探索的過程,沒有哪一個(gè)單一算法或者組合算法能夠?qū)崿F(xiàn)完美的分類,因此可以綜合多種算法的優(yōu)勢,Liu、Liao、Pi等[36]構(gòu)建了一個(gè)結(jié)合了NB算法、KNN算法和Rocchio算法的專利文本分類系統(tǒng),應(yīng)用在實(shí)際的分類過程中,取得了比單一分類器更加穩(wěn)定的效果。

3.3 各種算法的優(yōu)缺點(diǎn)比較

筆者通過對(duì)相關(guān)文獻(xiàn)的仔細(xì)梳理和深入比較,總結(jié)出各種算法或算法組合的優(yōu)缺點(diǎn),如表1所示。

表1 各種算法的優(yōu)缺點(diǎn)

4 總結(jié)和展望

由于專利文本分類是大規(guī)模、多層次結(jié)構(gòu)、多標(biāo)號(hào)和不均衡的文本分類問題,大多數(shù)傳統(tǒng)的機(jī)器學(xué)習(xí)算法都是針對(duì)小規(guī)模、單標(biāo)號(hào)且平衡的問題設(shè)計(jì)的,無法很好地解決類似專利分類這樣的問題。因此在專利文本分類的研究過程中,從文本預(yù)處理到分類器構(gòu)建的各個(gè)環(huán)節(jié)都有很大的發(fā)展?jié)摿Α?/p>

4.1 總結(jié)

歐美發(fā)達(dá)國家比較注重實(shí)踐,在各自專利分類體系(如IPC等分類體系)和大型專利數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建了許多自動(dòng)分類系統(tǒng),并將其實(shí)際運(yùn)用到了專利預(yù)分類、檢索和分類中,能夠比較合理的進(jìn)行改進(jìn)和創(chuàng)新;而我國在專利自動(dòng)分類中的研究大部分處于理論階段,構(gòu)建的幾個(gè)系統(tǒng)可移植性不高,并沒有很好的運(yùn)用到實(shí)際中去。

在整個(gè)專利文本的自動(dòng)分類過程中,相關(guān)專家學(xué)者抓住了自動(dòng)分類這個(gè)主干,對(duì)分類過程中的每一個(gè)枝節(jié)進(jìn)行了研究改進(jìn),或是專注于一個(gè)枝節(jié),或是專注于多個(gè)枝節(jié),取得了很好的分類效果,也使得研究能夠順利進(jìn)行下去。

4.2 展望

本文從專利文本預(yù)處理、特征提取、專利文本表示、分類器的構(gòu)建、新方法的探索等五個(gè)方面對(duì)專利文本自動(dòng)分類進(jìn)行展望。

(1)文本預(yù)處理:帶有專業(yè)術(shù)語與生僻詞的中文分詞系統(tǒng)亟需出現(xiàn)。專利文本與普通文本不同,其中摻雜著大量的專業(yè)術(shù)語或特指詞匯,因此在專利文本預(yù)處理過程中,需要特別注意專業(yè)術(shù)語與生僻詞?,F(xiàn)有的比較成熟、應(yīng)用廣泛的中文分詞系統(tǒng)如中科院的ICTCLAS中文分詞系統(tǒng),在對(duì)專利文本中生僻詞的處理中還存在一些問題,而專利領(lǐng)域跨專業(yè)的特性使得專業(yè)術(shù)語及生僻詞太多,也不太可能建立專利領(lǐng)域通用的詞典,因此如何找出更加精確的中文分詞系統(tǒng)對(duì)后期專利文本的成功分類將起到很大的作用。

(2)特征提?。禾卣鬟x擇和權(quán)值計(jì)算的改進(jìn)至關(guān)重要。特征選擇很重要,因?yàn)檫@關(guān)系到后邊分類的效果,在一篇文本之中,特征詞的選取不能單純的依靠一種辦法,很多時(shí)候要綜合利用多種辦法,以應(yīng)對(duì)待分類樣本由于分布不同而產(chǎn)生的誤差。

權(quán)值的計(jì)算一般采用TF/IDF方法,但是專利文本的特殊性使得學(xué)者在進(jìn)行專利文本的分類時(shí),根據(jù)其特點(diǎn)選擇不同的改進(jìn)方法,加入一些考慮因素及影響因子,考慮特征詞之間的關(guān)系等,得到了比較好的實(shí)驗(yàn)效果。

在以后的研究中,可以繼續(xù)研究特征的選擇和權(quán)值的計(jì)算,設(shè)計(jì)更加精確的方法,使得被表示成向量空間模型的專利文本特征能夠充分的代表文本,以取得更加精確的分類效果。

(3)專利文本表示:常用模型的改進(jìn)和新模型的引進(jìn)齊頭并舉。在專利文本表示中,概率模型、潛在語義索引模型使用的不多見,大部分專利文本表示用的都是向量空間模型,而向量空間模型應(yīng)用于專利分類中也存在著很多的問題,如維數(shù)不好控制,即如果一部分樣本比較分散,而另一部分樣本比較集中的話,分類結(jié)果會(huì)非常差。因此,需要對(duì)向量空間模型改進(jìn),或者提出一種更好的文本表示辦法,以更好的應(yīng)用于專利分類。

(4)分類器構(gòu)建:多種機(jī)器學(xué)習(xí)算法相融合成為主流。在專利文本分類算法上,傳統(tǒng)的文本分類采用的算法普遍含有移植性差的缺點(diǎn),因此以后的研究將更加專注于機(jī)器學(xué)習(xí)算法的創(chuàng)新以及改進(jìn)符合專利文本特點(diǎn)的分類算法。通過對(duì)相關(guān)文獻(xiàn)的研究,發(fā)現(xiàn)采用多種機(jī)器學(xué)習(xí)算法相融合的方法更加適合專利文本的特點(diǎn),更能取得精確的分類效果。因此以后的研究可以注重多種機(jī)器學(xué)習(xí)算法的融合,找到不同算法的結(jié)合點(diǎn),除去不同算法中不相適應(yīng)的部分。另外,可以研究更加精確的分類算法,更好地運(yùn)用到專利文本分類中去。

(5)新方法的研究探索:突破或創(chuàng)立新的方法迫在眉睫。文本分類的研究取得了很大的成果,專家在研究專利文本分類的時(shí)候自然而然地借鑒了一般文本的分類方法。而專利文本分類與一般文本分類雖有很大的相似之處,但專利文本是一種特殊的文本,如果機(jī)械的借鑒或是應(yīng)用傳統(tǒng)的文本分類方法,肯定收不到最好的效果。因此以后的研究方向可以集中在方法的創(chuàng)新,另辟蹊徑,找到新方法應(yīng)用于專利文本的分類。

[1]Fall C J,Benzineb K.Literature survey:Issues to be considered in the automatic classification of patents[R].2002.

[2]屈鵬,王惠臨.專利文本分類的基礎(chǔ)問題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013(3):38-44.

[3]He C,Han T L.Pattern-oriented associative rule-based patent classification[J].Expert Systems with Applications, 2010,37(3):2395-2404.

[4]Liu D,Shih M.Hybrid-patent classification based on patentnetwork analysis[J].Journal of the American Society for Information Science and Technology,2011,62(2):246-256.

[5]Chiu C,Huang P.Application of the honeybee mating optimization algorithm to patent document classification in combination with the support vector machine[J].International Journal of Automation and Smart Technology,2013,3(3):179-191.

[6]Fall C J,T rcsváriA,Benzineb K,et al.Automated categorization in the international patent classification[C]//ACM SIGIR Forum,2003,37(4):10-25.

[7]Krier M,Agrave F Z.Automatic categorisation applications at the European patent office[J].World Patent Information,2002 (24):187-196.

[8]Lai K K,Wu S J.Using the patent co-citation approach to establishanewpatentclassificationsystem[J].InformationProcessing&Management,2005(41):313-330.

[9]Li Y,Shawe-Taylor J.Advanced learning algorithms for crosslanguage patent retrieval and classification[J].Information Processing&Management,2007,43(5):1183-1199.

[10]蔣健安,陸介平,倪巍偉,等.一種面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類方法[J].計(jì)算機(jī)應(yīng)用,2008,28(1):159-161.

[11]谷俊.專利文獻(xiàn)中新技術(shù)術(shù)語識(shí)別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2012(11):53-59.

[12]屈鵬,王惠臨.面向信息分析的專利術(shù)語抽取研究[J].圖書情報(bào)工作,2013,57(1):130-135.

[13]侯婷,呂學(xué)強(qiáng),李卓.專利術(shù)語抽取的層次過濾方法[J].現(xiàn)代圖書情報(bào)技術(shù),2015(1):24-30.

[14]Peters C,Koster C H.Uncertainty-based noise reduction and term selection in text categorization[M].Heidelberg:Springer, 2002:248-267.

[15]胡冰,張建立.基于統(tǒng)計(jì)分布的中文專利自動(dòng)分類方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013(Z1):101-106.

[16]丁月華,文貴華,郭煒強(qiáng).基于核向量空間模型的專利分類[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,33(8):58-61.

[17]郭煒強(qiáng),文軍,文貴華.基于貝葉斯模型的專利分類[J].計(jì)算機(jī)工程與設(shè)計(jì),2006,26(8):1986-1987.

[18]ChakrabartiS,DomB,Indyk P.Enhanced hypertext categorization using hyperlinks[J].Sigmod Record,1998,27(2):307-318.

[19]Chakrabarti S,Dom B,Agrawal R,et al.Using taxonomy,discriminants,and signatures for navigating in text databases[C]//Proceedings of the 23rd VLDB Conference,1997:446-455.

[20]Trappey A J C,Hsu F C,Trappey C V,et al.Development of a patent document classification and search platform using a back-propagation network[J].Expert Systems with Applications,2006,31(4):755-765.

[21]馬芳.基于RBFNN的專利自動(dòng)分類研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011,27(12):58-63.

[22]李生珍,王建新,齊建東,等.基于BP神經(jīng)網(wǎng)絡(luò)的專利自動(dòng)分類方法[J].計(jì)算機(jī)工程與設(shè)計(jì),2010(23):5075-5078.

[23]Littlestone N.Learning quickly when irrelevant attributes abound:A new linear-threshold algorithm[J].Machine learning,1988,2(4):285-318.

[24]Koster C H A,Seutter M,Beney J.Multi-classification of patent applications with Winnow[C]//Perspectives of System Informatics.Berlin Heidelberg:Springer,2003:546-555.

[25]Sebastiani F.Machine learning in automated text categorization[J].ACM computing surveys(CSUR),2002,34(1):1-47.

[26]Kim J H,Choi K S.Patent document categorization based on semantic structural information[J].Information processing& management,2007,43(5):1200-1215.

[27]Richter G,MacFarlane A.The impact of metadata on the accuracy of automated patent classification[J].World Patent Information,2005,27(1):13-26.

[28]季鐸,蔡云雷,蔡?hào)|風(fēng),等.基于共享最近鄰的專利自動(dòng)分類技術(shù)研究[J].沈陽航空工業(yè)學(xué)院學(xué)報(bào),2010,27(4):41-46.

[29]苑迪文.基于KNN的專利文本分類算法研究[D].焦作:河南理工大學(xué),2012.

[30]Chen Y L,Chang Y C.A three-phase method for patent classification[J].Information Processing&Management,2012,48 (6):1017-1030.

[31]Wu C H,KenY,Huang T.Patent classification system using a new hybrid genetic algorithm support vector machine[J].Applied Soft Computing,2010,10(4):1164-1177.

[32]Mahr B,Huanye S,Ye Z,et al.Patent Classification Using Parallel Min-Max Modular Support Vector Machine[C]// Mahr B,Huanye S.Autonomous Systems-Self-Organization, Management,and Control.Berlin:Springer Netherlands,2008:157-167.

[33]Larkey L S.A patent search and classification system[C]// Proceedings of the fourth ACM conference on Digital libraries.ACM,1999:179-187.

[34]李程雄,丁月華,文貴華.SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(20):193-195.

[35]Zhang X.Interactive patent classification based on multiclassifier fusion and active learning[J].Neurocomputing,2014, 127:200-205.

[36]Liu S H,Liao H L,Pi S M,et al.Patent Classification Using Hybrid Classifier Systems[J].Advanced Materials Research, 2011,187:458-463.

(責(zé)任編校駱雪松)

A Review of Research on Patent Document Classification Algorithms Based On Machine Learning

Liu Hongguang,Ma Shuanggang,Liu Guifeng
Institute of Science and Technology Information,Jiangsu University, Zhenjiang 212013,China

This article firstly summarized the patent document classification at home and abroad,and then based on machine learning,briefly described the general framework of patent document classification,followed by an introduction to text preprocessing,feature extraction,text representation,classifier building and the evaluation process of patent document classification.Also this article paid more attention to discussing the machine learning algorithms in patent document classification which could be divided into single algorithm and combined algorithms.Single algorithm mainly consisted of NB algorithm,ANN algorithm, Rocchioalgorithm,KNN algorithm,and SVM algorithm;combined algorithms could be classified into bi-algorithm(e.g.NB-KNN algorithm,Rocchio-KNN algorithm,KNN-SVM algorithm,and SVM-other algorithm)and multi-algorithm.In addition,the advantages and disadvantages of the application of various kinds of machine learning algorithms to patent document classification were pointed out,and future development of automatic patent document classification techniques were also presented from 5 aspects(text preprocessing,feature extraction,text representation,classifier building and the exploration of new methods of patent document classification).

G350

劉紅光,女,1956年生,副教授,碩士生導(dǎo)師,研究方向?yàn)榍閳?bào)分析,發(fā)表論文30余篇;馬雙剛,男,1990年生,2013級(jí)圖書情報(bào)與檔案管理專業(yè)碩士研究生,研究方向?yàn)榍閳?bào)分析,發(fā)表論文1篇;劉桂鋒,男,1980年生,博士,副研究館員,碩士生導(dǎo)師,副所長,研究方向?yàn)榍閳?bào)分析,發(fā)表論文20余篇,主編教材1部。

猜你喜歡
分類器專利向量
專利
向量的分解
聚焦“向量與三角”創(chuàng)新題
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
杂多县| 鹤岗市| 临沂市| 江永县| 东乌珠穆沁旗| 英德市| 崇仁县| 丹东市| 岳阳县| 平罗县| 铁岭市| 信宜市| 西吉县| 安多县| 永昌县| 青河县| 毕节市| 蕲春县| 祁阳县| 沅江市| 余江县| 姜堰市| 杭锦后旗| 乌拉特前旗| 大连市| 大理市| 中江县| 满城县| 岳阳市| 富裕县| 雅江县| 德清县| 平江县| 禄丰县| 曲沃县| 文登市| 子洲县| 汉中市| 天全县| 荆门市| 明水县|