国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

LDA模型在專利文本分類中的應(yīng)用

2017-04-07 16:18廖列法勒孚剛朱亞蘭
現(xiàn)代情報(bào) 2017年3期

廖列法+勒孚剛+朱亞蘭

〔摘要〕對(duì)傳統(tǒng)專利文本自動(dòng)分類方法中,使用向量空間模型文本表示方法存在的問題,提出一種基于LDA模型專利文本分類方法。該方法利用LDA主題模型對(duì)專利文本語料庫建模,提取專利文本的文檔-主題和主題-特征詞矩陣,達(dá)到降維目的和提取文檔間的語義聯(lián)系,引入類的類-主題矩陣,為類進(jìn)行主題語義拓展,使用主題相似度構(gòu)造層次分類,小類采用KNN分類方法。實(shí)驗(yàn)結(jié)果:與基于向量空間文本表示模型的KNN專利文本分類方法對(duì)比,此方法能夠獲得更高的分類評(píng)估指數(shù)。

〔關(guān)鍵詞〕LDA;主題模型;專利文本分類;主題相似度

DOI:10.3969/j.issn.1008-0821.2017.03.007

〔中圖分類號(hào)〕G25553;G2541〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)03-0035-05

〔Abstract〕A new text classification method based on LDA model is proposed to solve the problem of traditional VSM text categorization.The LDA topic model was used to model the patent text corpus,and the document-topic and topic-feature word matrix of the patent text was extracted to achieve the purpose of dimension reduction and to extract semantic links between documents.The class-topic matrix was introduced,Topic semantic extension,hierarchical classification using theme similarity,and KNN classification by subclass.Experimental results:Compared with the KNN patent text classification method based on vector space text representation model,this method can obtain higher classification evaluation index.

〔Key words〕LDA;topic model;patent text classification;topic similarity

根據(jù)2016年世界知識(shí)產(chǎn)權(quán)組織(WIPO)在日內(nèi)瓦總部發(fā)布的《世界知識(shí)產(chǎn)權(quán)指標(biāo)》年度報(bào)告顯示,2015年中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局受理的專利申請(qǐng)數(shù)量超過110萬件,相當(dāng)于美國(guó)、日本和韓國(guó)的專利申請(qǐng)數(shù)量總和。從全球排名來看,中國(guó)位居首位;美國(guó)居于第二,數(shù)量為589萬件;日本第三,數(shù)量為318萬件。我們國(guó)家實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,對(duì)于科研人員的科技成果轉(zhuǎn)化方面的激勵(lì)和科技創(chuàng)新企業(yè)的納稅政策優(yōu)惠等都有效地推動(dòng)了專利申請(qǐng)數(shù)量的提升。面對(duì)如此海量的專利文獻(xiàn)數(shù)據(jù),僅僅依靠工作人員采用傳統(tǒng)的手工分類不僅效率低下,而且人力和物力資源耗費(fèi)量巨大。因此,專利文獻(xiàn)的自動(dòng)分類方法研究顯得極為重要和迫不及待,它已成為科研人員現(xiàn)階段一個(gè)研究熱點(diǎn)和重點(diǎn)[1]。與一般的文本相對(duì),專利文本具有結(jié)構(gòu)特殊、專業(yè)性強(qiáng)、領(lǐng)域詞匯較多等特點(diǎn),因此相對(duì)傳統(tǒng)的文本分類而言,專利文本需要采用更加針對(duì)的分類方法[2]。

在文本分類中,文本的表示直接影響到特征值的選取,好的特征值選取方法可以有效提高分類方法的效率,目前的專利文本分類方法的文本表示都是基于向量空間模型(Vector Space Model,VSM)算法[3],并沒有涉及概率主題模型。例如:李程雄、丁月華和文貴華[4]提出并分析結(jié)合SVM算法和KNN算法的組合改進(jìn)算法SVM-KNN,當(dāng)樣本和SVM最優(yōu)超平面的距離大于給定的闕值,即樣本離分界面較遠(yuǎn),則用SVM分類,反之用KNN算法對(duì)測(cè)試樣本分類,比單一的算法取得了更優(yōu)的分類效果。蔣健安、陸介平、倪巍偉等[5]設(shè)計(jì)的層次分類算法先采用Rocchio算法進(jìn)行專利大類的區(qū)分,再對(duì)各個(gè)大類之間的文本采用KNN方法進(jìn)行小類的細(xì)分,由于大類之間的區(qū)分度較大,故可以使用Rocchio算法,而相同大類之間的小類分別較小,采用KNN算法更能區(qū)分。郭煒強(qiáng)、戴天、文貴華[6]根據(jù)改進(jìn)的詞語權(quán)重計(jì)算方法構(gòu)造給定文本的特征向量,從分類表IPC中直接提取類別的概念向量和待分類專利文本的特征向量,然后采用向量空間模型實(shí)現(xiàn)專利的自動(dòng)分類。

結(jié)合計(jì)算機(jī)語言學(xué),概率空間模型在文本表示上具有更加優(yōu)異的效果,能夠提取變現(xiàn)力更強(qiáng)的特征詞匯,能使文本的分類效果更好。則概率空間模型代替詞向量模型運(yùn)用在文本表示中是一種趨勢(shì),故本文提出一種基于LDA(Latent Dirichlet Allocation)模型[7]的專利文本分類方法,LDA模型是符合文本生成規(guī)律的全概率生成模型,具有好的文本表示能力,提取具有語義信息的主題,運(yùn)用在專利文本分類中,能夠有效提升分類效率。

31向量空間模型用于專利文本分類的不足分析[8]

在對(duì)專利文本進(jìn)行分類時(shí),文本表示一般采用向量空間模型算法,該算法把對(duì)文本內(nèi)容處理簡(jiǎn)化為向量空間中的向量運(yùn)算。在向量空間模型中,文檔被映射成由向量組成的多維向量空間,其中每個(gè)詞表示1個(gè)維度。假設(shè)向量的空間維數(shù)為n,則每篇文檔d映射為由二元組組成的特征向量V(d)=(t1,w1(d);…tn,wn(d)),其中ti(i=1,2,…,n)為一列互不相同的特征詞,wi(d)為特征詞ti在文檔d中的權(quán)重。傳統(tǒng)的特征詞權(quán)重計(jì)算普遍采用TF-IDF算法[9],TF-IDF算法考慮了特征詞的詞頻、逆文本頻、歸一化等因素,這些都是文本權(quán)重計(jì)算中很重要的概念。

但是,在專利文本自動(dòng)分類中,該算法在處理專利數(shù)據(jù)時(shí)有二個(gè)明顯的不足:

1)向量空間模型是依據(jù)語料庫中的特征詞,使用TF-IDF算法計(jì)算它們的權(quán)重,構(gòu)造文檔-特征詞向量,并將整個(gè)文檔集構(gòu)造為一個(gè)高維、稀疏的特征值-文檔矩陣。其中模型的對(duì)向量的維數(shù)難以控制,語料庫特征詞越多則矩陣維數(shù)越高、越稀疏,矩陣的高維稀疏使得實(shí)際用來計(jì)算的數(shù)值很少,大部分?jǐn)?shù)值都為0,增加了算法的計(jì)算開銷,降低了算法的效率。維數(shù)過大對(duì)于算法的產(chǎn)生巨大的計(jì)算量,時(shí)間和空間復(fù)雜度會(huì)提高。

2)對(duì)于專利的分類,不僅要考慮專利詞匯上的相似性,還要考慮專利的語義內(nèi)容上的相似性。由于專利文本中使用的詞匯都比較專業(yè)化,因此產(chǎn)生的詞匯集相對(duì)比較狹窄,產(chǎn)生的專利文本在詞集上會(huì)有很多的相似,而VSM模型是根據(jù)詞的頻率及逆文本頻來計(jì)算特征詞的權(quán)重,并不能很好的對(duì)文本進(jìn)行區(qū)分,所以基于VSM模型的專利文本分類方法的效果很差。應(yīng)該考慮特征詞間的語義聯(lián)系,及特征詞與類的關(guān)聯(lián),從專利文本所表達(dá)的語義層面上去理解文本,在語義層面上對(duì)專利文本進(jìn)行分類,這樣才能取得更好的分類效果。

基于上面的兩種問題,傳統(tǒng)的基于VSM模型的專利文本分類方法已經(jīng)不能很好地應(yīng)用在專利文本分類中了。

2LDA主題模型

LDA模型是一種對(duì)文本數(shù)據(jù)進(jìn)行有效降維和發(fā)掘潛藏主題信息的方法[10]。它是一個(gè)三層貝葉斯概率生成模型,把文檔表示成隱含主題的概率分布,主題表示成詞匯的概率分布,其中主題是對(duì)文檔內(nèi)容的匯集,因此模型可以很好地模擬大規(guī)模語料的語義信息。模型的把文檔由主題構(gòu)成,而主題的數(shù)量是一定的,對(duì)文檔具有良好的降維能力。LDA的概率模型圖如圖1所示:

LDA模型的生成過程較好地模擬了在生成實(shí)際文本的大體思維過程,其具體的數(shù)學(xué)化描述如下:

1)對(duì)每一篇文檔dm,根據(jù)N~Poisson(ξ)生成文檔dm中詞的數(shù)目Nm;

2)對(duì)于每一篇文檔dm,根據(jù)θm~Dir(α)生成文檔dm關(guān)于主題多項(xiàng)式分布的參數(shù)θm;

3)對(duì)于每一個(gè)主題z,根據(jù)φz~Dir(β)生成主題z關(guān)于語料庫中詞多項(xiàng)式分布的參數(shù)φz;

4)對(duì)于文檔dm的第n個(gè)詞wm,n:

a)根據(jù)多項(xiàng)式分布zm,n~Multi(θd),抽樣得到詞wm,n所屬的主題zm,n;

b)根據(jù)多項(xiàng)式分布wm,n~Multi(φz),抽樣得到具體的詞wm,n。

參數(shù)估計(jì)是LDA模型的關(guān)鍵步驟,假如要直接計(jì)算LDA模型的參數(shù)是不能實(shí)現(xiàn)的,需要使用間接推理算法來估算模型的參數(shù)值,LDA模型常用的算法有Gibbs抽樣、EM算法、Expectation-Propagation方法、變分推理算法等。其中因?yàn)镚ibbs抽樣算法具有快速、高效等優(yōu)點(diǎn),故常被用于LDA模型的參數(shù)估算。

Gibbs抽樣算法詳述如下:

1)初始化。zi被初始化為1到K之間的某個(gè)隨機(jī)整數(shù)。i從1循環(huán)到N,N是語料庫中所有出現(xiàn)于文本中的詞匯記號(hào)個(gè)數(shù)。

2)迭代。i從1循環(huán)到N,根據(jù)公式(1)將詞匯分配給主題,獲取Markov鏈的下一個(gè)狀態(tài)。

3)估算φ和θ的值。迭代第(2)步足夠次數(shù)以后,認(rèn)為Markov鏈已經(jīng)接近目標(biāo)分布,遂取zi(i從1循環(huán)到N)的當(dāng)前值作為樣本記錄下來。為了保證自相關(guān)較小,每迭代一定次數(shù),記錄其他的樣本。舍棄詞匯記號(hào),以w表示惟一性詞,對(duì)于每一個(gè)單一樣本,可以按下式估算φ和θ:

3基于LDA模型的專利文本分類算法

31確定語義主題數(shù)

LDA模型要進(jìn)行Gibbs抽樣就要先確認(rèn)所有的參數(shù),但是主題參數(shù)事先無法確定的,而主題數(shù)的多少對(duì)模型的影響非常大,主題數(shù)目過多,將會(huì)產(chǎn)生很多不具有明顯語義信息的主題,反之?dāng)?shù)目過少將會(huì)出現(xiàn)一個(gè)主題包含多層語義信息的狀況,兩種狀況都很糟糕,所以科學(xué)的確定主題的個(gè)數(shù)非常重要。本文采用LDA標(biāo)準(zhǔn)的評(píng)價(jià)函數(shù)Perplexity(困惑度)來確定最優(yōu)主題數(shù)。

困惑度衡量主題模型對(duì)于未觀測(cè)數(shù)據(jù)的預(yù)測(cè)能力,困惑度越小,模型預(yù)測(cè)能力越強(qiáng),模型的推廣性越高。其中:Dtest為測(cè)試集;wd為文檔d中的可觀測(cè)單詞序列;Nd為文檔d的單詞數(shù)目。困惑度公式如下:

32文檔的主題向量提取

對(duì)于專利文本數(shù)據(jù),有意義的文本內(nèi)容是標(biāo)題、摘要、主權(quán)項(xiàng),而標(biāo)題中出現(xiàn)的特征詞往往更具有代表性,其次是摘要。在不同位置的特征詞對(duì)文檔的貢獻(xiàn)程度是不同的,假如直接利用LDA模型對(duì)語料庫建模,不考慮特診詞匯在文檔中的位置信息對(duì)該文本的區(qū)分度影響,將嚴(yán)重影響文本的分類效果。故結(jié)合專利文本數(shù)據(jù)的結(jié)構(gòu)特殊性,體現(xiàn)特征詞匯的位置信息因素,使用一種位置加權(quán)來計(jì)算文本的主題向量。將標(biāo)題、摘要和主權(quán)項(xiàng)分為3篇文檔,即一篇專利文獻(xiàn)包含3個(gè)子文檔,定義為一個(gè)三元組D=D(P1,P2,P3),其中P1表示標(biāo)題,P2表示摘要,P3表示主權(quán)項(xiàng),將3篇子文檔中的主題向量按位置權(quán)重計(jì)算,從而得到該專利文檔的主題向量,其中θP1表示標(biāo)題文檔的主題向量,θP2表示摘要文檔的主題向量,θP3表示主權(quán)項(xiàng)的主題向量,計(jì)算公式如下:

33類-主題矩陣

LDA模型將文檔表示成三層模型,即文檔層、主題層和詞匯層,文檔由主題向量構(gòu)成,主題由詞匯向量構(gòu)成,從而對(duì)文檔進(jìn)行降維表示。根據(jù)已有的LDA模型討論:文檔集是由各種類別的文檔組成,文檔集和類別之間存在一對(duì)多映射關(guān)系,類別和文檔之間也存在一對(duì)多映射關(guān)系,可理解為類別就是一個(gè)子文檔集,由主題和文檔的關(guān)系,用主題向量對(duì)子文檔集降維,即類和隱含主題之間存在著一定的概率分布,向標(biāo)準(zhǔn)的LDA模型中添加一層即文檔類別層。類的隱含主題信息拓?fù)浣Y(jié)構(gòu)如圖2所示:

從帶類別標(biāo)簽訓(xùn)練文檔的文檔-主題矩陣中提取類-主題矩陣。把帶相同類別標(biāo)簽的文檔建立成一個(gè)文檔-主題矩陣,計(jì)算這個(gè)矩陣每列的平均值,得到該類的類-主題向量,所有的類-主題向量構(gòu)成類-主題矩陣。其中γci表示類別c關(guān)于主題i的概率,M表示關(guān)于類別c的文檔數(shù),θmi是類別c中第m篇文檔關(guān)于主題i的概率,計(jì)算公式如下:

在上面的公式中,若主題i在c類文檔中出現(xiàn)的概率高,則表示這一隱含主題對(duì)于類別i具有強(qiáng)表現(xiàn)性,在類間具有較強(qiáng)的類別區(qū)分能力,概率較小的主題,則表示與該類具有弱變現(xiàn)性,與該類的關(guān)聯(lián)程度較低。

34基于LDA模型的專利文本分類算法

專利分類擁有一套國(guó)際專利分類體系(簡(jiǎn)稱IPC分類),它是我國(guó)常用的分類體系,IPC分類[11]號(hào)包括了與發(fā)明創(chuàng)造有關(guān)的全部知識(shí)領(lǐng)域。IPC分類號(hào)采用層級(jí)的形式,將技術(shù)內(nèi)容注明:部-分部-大類-小類-大組-小組,逐級(jí)形成完整的類別體系。故需要對(duì)專利文本進(jìn)行層次分類,部屬于專利分類的最高級(jí),屬于不同學(xué)科領(lǐng)域,較好分類,大類屬于同一學(xué)科里的不同方面,類別區(qū)分難度一般,故部和大類的分類都采用類間相似度構(gòu)造分類器進(jìn)行分類;而小類屬于同一技術(shù)的不同研究方向,較難區(qū)分,故采用普遍認(rèn)為具有高分類性能的KNN方法。

具體的算法步驟描述如下:

輸入:帶類別標(biāo)記的訓(xùn)練文本集,測(cè)試文本

輸出:測(cè)試文本的所屬類別

步驟1:獲取專利文本數(shù)據(jù),并將文本分為訓(xùn)練文本集和測(cè)試文本集。

步驟2:對(duì)訓(xùn)練文本和測(cè)試文本進(jìn)行預(yù)處理,包括:分詞、去停頓詞,及使用TF-IDF算法對(duì)詞匯過濾,將權(quán)重小于01的詞除去,建立訓(xùn)練文本的語料庫。

步驟3:利用LDA模型對(duì)語料庫建模,提取語料庫的文檔-主題和主題-詞匯矩陣。

步驟4:根據(jù)帶標(biāo)簽的文檔-主題矩陣提取部-主題矩陣和大類-主題矩陣。計(jì)算每一篇待測(cè)試專利文本的主題與各個(gè)部和類別主題間的相似度,相似度度量采用余弦相似度算法來計(jì)算。其中Cz為類別的主題向量,θz為測(cè)試文檔的主題向量。計(jì)算公式如下:

步驟5:部。將待分類文檔與各部的部-主題向量計(jì)算相似度,相似度最大的為文本所屬部號(hào)。

步驟6:大類。將具有部號(hào)的待分類文本與本部的各大類計(jì)算主題相似度,其中相似度值最大的為文本所屬大類。

步驟7:小類。對(duì)確定大類的文本與屬于該大類的訓(xùn)練文本計(jì)算主題相似度,KNN分類方法確定該專利所屬小類。

步驟8:實(shí)驗(yàn)結(jié)果評(píng)價(jià)。

具體專利文本分類算法基本框架如圖3所示:

4實(shí)驗(yàn)及結(jié)果分析

41實(shí)驗(yàn)數(shù)據(jù)集

為驗(yàn)證此方法的有效性,本文利用從專利局獲取的稀土專利數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集包含2007-2015年共31 000篇稀土專利文本,每個(gè)部選取大類和小類數(shù)量較均勻的1 000篇專利文檔進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)將數(shù)據(jù)集的80%用來訓(xùn)練模型,20%用來驗(yàn)證分類算法性能。數(shù)據(jù)具體分布情況見表2。

42評(píng)估指標(biāo)

文本分類性能結(jié)果的評(píng)估指標(biāo)采用F值。F度量值是信息檢索中的一種組合P(準(zhǔn)-確率)和R(召回率)指標(biāo)的平衡指標(biāo)。計(jì)算公式如下:

F的值越與1靠近說明P和R的平衡性越好。相反F的值與0越靠近,則兩個(gè)參數(shù)的平衡性越差。

43參數(shù)設(shè)定

在LDA建模過程中,確定最優(yōu)主題數(shù)采用Perplexity函數(shù),參數(shù)估計(jì)采用MCMC方法中的Gibbs抽樣算法,在LDA建模過程中,根據(jù)經(jīng)驗(yàn)設(shè)置α=50/K、β=001,Gibbs抽樣的迭代次數(shù)參數(shù)Iteration為2000,保存迭代參數(shù)Save Step為1000。其中主題數(shù)K的取值依次為5、10、25、50、100直到200,利用不同的主題數(shù)進(jìn)行Perplexity函數(shù)分析,獲得最小困惑度得到最優(yōu)主題數(shù)K。

從圖4看出,隨著主題數(shù)目的增加,模型的困惑度值慢慢收斂到一個(gè)較小較穩(wěn)定的值,在圖中可以發(fā)現(xiàn)當(dāng)主題數(shù)K=100時(shí)模型的困惑度值開始最小且平穩(wěn),則此時(shí)模型的性能最好,所以本實(shí)驗(yàn)的主題數(shù)目取值為100。

44實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)分兩組進(jìn)行,第一組采用基于向量空間模型的專利文本分類方法,首先采用向量空間模型表示文本,然后運(yùn)用TF-IDF計(jì)算特征值的權(quán)重,最后采用KNN方法分類;第二組采用本文提出的基于LDA模型的專利文本分類方法,首先運(yùn)用LDA方法對(duì)語料庫建模,提取各文檔、部和類的主題分布,然后部和大類的分類采用相似度構(gòu)造分類器,計(jì)算主題相似度,最后小類的分類采用KNN分類方法。實(shí)驗(yàn)分詞采用的是基于R軟件Rwordseg包segmentCN分詞方法。實(shí)驗(yàn)結(jié)果見表3、表4和圖5。

由實(shí)驗(yàn)結(jié)果可以得知,基于LDA模型的分類方法在正確率、召回率和F值方面均優(yōu)于基于VSM模型的分類方法,故基于LDA模型的專利文本分類方法是有效的,大大提高了專利文本的分類效率。

5結(jié)語

本文主要從文本表示方向?qū)@谋痉诸愡M(jìn)行改善。

將LDA主題模型應(yīng)用到專利文本分類中,使得文檔和類由低維具有語義匯集的主題向量表示,達(dá)到了較好的降維效果,并引入類-主題矩陣用于文本分類,有效提高分類準(zhǔn)確性,使模型的分類性能更加優(yōu)越。本文運(yùn)用LDA模型專利文本分類時(shí),存在專利文本的標(biāo)題文本過短的問題,本文并沒有考慮到,下一步工作將結(jié)合短文本的特性設(shè)計(jì)更優(yōu)的分類方法,進(jìn)一步提高專利文本分類效率和分類精度。

參考文獻(xiàn)

[1]屈鵬,王惠臨.專利文本分類的基礎(chǔ)問題研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(3):38-44.

[2]劉紅光,馬雙剛,劉桂鋒.基于機(jī)器學(xué)習(xí)的專利文本分類算法研究綜述[J].圖書情報(bào)技術(shù),2016,(3):79-86.

[3]龐劍鋒,卜東波.基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)應(yīng)用研究,2001,18(9):23-26.

[4]李程雄,丁月華,文貴華.SVM-KNN組合改進(jìn)算法在專利文本分類中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(20):193-195.

[5]蔣健安,陸介平,倪巍偉,等.一種面向?qū)@墨I(xiàn)數(shù)據(jù)的文本自動(dòng)分類方法[J].計(jì)算機(jī)應(yīng)用,2008,28(1):159-161.

[6]郭煒強(qiáng),戴天,文貴華.基于領(lǐng)域知識(shí)的專利自動(dòng)分類[J].計(jì)算機(jī)工程,2005,31(23):52-54.

[7]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning research,2003,3(1):993-1022.

[8]胡冰,張建立.基于統(tǒng)計(jì)分布的中文專利自動(dòng)分類方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013,(Z1):101-106.

[9]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計(jì)算機(jī)應(yīng)用,2009,29(s1):167-170.

[10]姚全珠,宋志理,彭程.基于LDA模型的文本分類研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(13):150-153.

[11]繆建明,賈廣威,張運(yùn)良.基于摘要文本的專利快速自動(dòng)分類方法[J].情報(bào)理論與實(shí)踐,2016,(8):103-105.

(本文責(zé)任編輯:孫國(guó)雷)