艾楚涵,姜 迪,吳建德
(1. 昆明理工大學 知識產(chǎn)權(quán)發(fā)展研究院,云南 昆明 650500; 2. 昆明理工大學 計算中心,云南 昆明 650500;3. 昆明理工大學 民航與航空學院,云南 昆明 650500)
近年來,我國的專利數(shù)量不斷增加,截至2018年年底,不計港澳臺發(fā)明專利數(shù)量,我國發(fā)明專利擁有量共計160.2萬件,每萬人口發(fā)明專利擁有量達到11.5件,專利文本呈現(xiàn)海量的特征. 為了深度挖掘?qū)@谋局须[含的關(guān)聯(lián)信息,數(shù)據(jù)挖掘(Data Mining)技術(shù)慢慢地被引入到了專利文獻中來. 如何通過挖掘海量的數(shù)據(jù)來獲得相關(guān)聯(lián)的專利主題特征,并將挖掘出的關(guān)聯(lián)關(guān)系應(yīng)用到實際中成為了當前研究者要深入研究的課題,而關(guān)聯(lián)規(guī)則的興起,讓數(shù)據(jù)挖掘技術(shù)能夠真正對數(shù)據(jù)庫中不同數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系進行有效的利用[1].
目前,我國對于專利的關(guān)聯(lián)規(guī)則挖掘應(yīng)用研究還處于起步階段,可參考的文獻數(shù)量很少. 周磊等從專利IPC的規(guī)模和前向引用的規(guī)模入手,構(gòu)建了加權(quán)的關(guān)聯(lián)規(guī)則來挖掘技術(shù)的融合規(guī)律,能夠通過加權(quán)的關(guān)聯(lián)規(guī)則很好地區(qū)分不同技術(shù)之間的差別[2]. 陳亮等使用頻繁項集之間的關(guān)聯(lián)規(guī)則建立起術(shù)語層次網(wǎng)絡(luò),并創(chuàng)建技術(shù)路線圖,該方法能夠描繪出更貼近真實情況的技術(shù)路線圖[3]. 許海云等提出了一種基于專利功效矩陣的技術(shù)主題關(guān)聯(lián)方法,通過使用關(guān)聯(lián)規(guī)則獲取領(lǐng)域內(nèi)技術(shù)主題與達成功效主題的關(guān)聯(lián)度,來獲取低支持度、 高置信度的關(guān)聯(lián)規(guī)則,彌補了低共現(xiàn)-弱關(guān)系技術(shù)主題的遺漏[4].
主題模型(Topic Model)是一種多項式分布的概率生成模型,是可以通過非監(jiān)督學習的方式對目標文本集的隱含語義結(jié)構(gòu)進行聚類的一種統(tǒng)計模型,運用主題模型進行挖掘是目前常見的研究手段之一. 在對專利文本進行自動化的聚類處理上,目前大多數(shù)針對專利文本內(nèi)容的研究都是使用由Blei等提出的LDA主題模型來完成對專利的聚類[5]. 范宇等從聚類的效率出發(fā),將LDA主題模型和OPTICS、 K-Means算法相結(jié)合,大幅降低了專利信息的維度,并提高了專利聚類的準確率[6]. 孫偉等從詞匯的共現(xiàn)關(guān)系出發(fā),提出一種基于詞加權(quán)的有監(jiān)督的LDA主題模型用于專利的聚類[7],在聚類時能分離出專業(yè)詞匯和一些普通高頻詞匯,使主題關(guān)聯(lián)度更高. 王博等在原LDA模型的基礎(chǔ)上擴展構(gòu)建了機構(gòu)-主題的模型,得到了申請機構(gòu)和專利主題之間的關(guān)系,深度挖掘了專利主體和客體之間的關(guān)聯(lián)性[8].
綜合以上關(guān)于專利文本數(shù)據(jù)挖掘的研究,發(fā)現(xiàn)大多數(shù)現(xiàn)有研究都沒有考慮具有相同行業(yè)背景和專業(yè)術(shù)語的同一產(chǎn)業(yè)的專利文本中,其主題之間所具有的關(guān)聯(lián)性,沒有將關(guān)聯(lián)規(guī)則和聚類的結(jié)果有效地結(jié)合起來,并且在對專利文本進行降維時,沒有考慮到“文檔-主題”維度對專利信息挖掘的重要性,直接將專利文檔以“主題-主題詞”的形式表示,從而遺漏了很多隱含的信息. 基于此,本文結(jié)合關(guān)聯(lián)規(guī)則和主題模型,提出一種基于Apriori和LDA主題模型的專利文本分析方法,對專利文本進行降維,分別從“文檔-主題”,“主題-主題詞”的維度來對物流產(chǎn)業(yè)的專利文本進行深度挖掘,探索各專利文本間隱含的關(guān)聯(lián)規(guī)則,以及當前行業(yè)內(nèi)的熱點研究領(lǐng)域等潛在的信息. 實驗結(jié)果表明,該方法能夠挖掘出專利文本中的隱含的關(guān)聯(lián)規(guī)則和主題細分,實驗的方法和結(jié)果也能為后續(xù)研究提供理論和數(shù)據(jù)上的支撐.
本文所使用的研究數(shù)據(jù)來自于Incopat專利數(shù)據(jù)庫,首先以中國物流產(chǎn)業(yè)為研究對象,在專利數(shù)據(jù)庫中檢索出相關(guān)的專利文本信息,主要是專利的摘要信息. 然后使用Python腳本對數(shù)據(jù)進行文本分詞、 停用詞過濾等預處理. 接著,通過Apriori算法設(shè)置最小支持度閾值和最小貢獻度閾值來找到所有符合要求的強關(guān)聯(lián)規(guī)則,并在“文檔-主題”的維度下構(gòu)建物流產(chǎn)業(yè)下的共享主題網(wǎng)絡(luò). 通過LDA主題模型挖掘?qū)@闹黝}詞信息,在“主題-主題詞”的維度下發(fā)現(xiàn)當前物流產(chǎn)業(yè)專利申請的熱門領(lǐng)域. 最后根據(jù)共享主題網(wǎng)絡(luò)并結(jié)合專利主題詞進行關(guān)聯(lián)規(guī)則分析,挖掘出專利之間隱含的關(guān)聯(lián),同時對未來關(guān)聯(lián)規(guī)則在專利文本中的應(yīng)用給出建議. 具體研究流程如圖 1 所示.
圖 1 研究流程圖Fig.1 Research flow chart
為了保證實驗數(shù)據(jù)的有效性和排除一些無效高頻詞的干擾,需要對數(shù)據(jù)進行預處理,預處理分為文本分詞和停用詞過濾兩個步驟[9].
1) 由于中文文本不像英文那樣是由空格來將每一個單詞分隔開,為了對文本進行挖掘,就必須將其分成粒度更細的詞或詞組的形式. 關(guān)于如何將中文進行分詞,現(xiàn)有的技術(shù)已經(jīng)非常成熟,本文使用基于Python第三方庫的“jieba”的精確模式來實現(xiàn)中文分詞,精確模式可以將句子最精確地切開,是文本分析最適合的模式.
2) 將連接詞和高頻無意義詞整合成停用詞表,并在分詞后遍歷停用詞表,將這類詞語剔除. 本文實驗所使用的停用詞表綜合了哈工大、 四川大學機器智能實驗室和百度的停用詞表,并且將專利文本和物流產(chǎn)業(yè)常出現(xiàn)的無意義高頻詞和高頻術(shù)語等加入到停用詞表中,如“專利” “實用新型” “一種” “幾種”等詞語,以期使分詞的結(jié)果更加“干凈”.
所謂關(guān)聯(lián)規(guī)則,就是在大量數(shù)據(jù)中挖掘出一個事物與其他事物之間的相互依賴性和關(guān)聯(lián)性,反映出有價值的數(shù)據(jù)項之間的相關(guān)關(guān)系,它是數(shù)據(jù)挖掘中的一個重要技術(shù)[10]. 其中,“超市銷售分析”作為經(jīng)典運用已經(jīng)成為了關(guān)聯(lián)規(guī)則挖掘的入門級案例,將關(guān)聯(lián)規(guī)則應(yīng)用到專利文本中時,可以參考該經(jīng)典案例,將一條專利看作是一個“購物籃”,專利的各主題詞看作是購物籃中的“商品”,對整個“交易數(shù)據(jù)庫”進行關(guān)聯(lián)規(guī)則挖掘,就可以得到頻繁出現(xiàn)的專利主題詞. 設(shè)D為整個專利數(shù)據(jù)庫事務(wù)的集合,I={I1,I2,…,IM}是M條不同專利的集合,將每個IK都視為一個項目,事務(wù)T是不同項的集合,使得T?I. 對于項集X和項集Y在X?I,Y?I,X∩Y=?的條件下有X?Y,這就是一條關(guān)聯(lián)規(guī)則,表示項集X在某專利中出現(xiàn)時,會導致Y也以某一概率出現(xiàn)在該專利中[11].
通常用支持度(Support)、 置信度(Confidence)和提升度(Lift)來度量關(guān)聯(lián)規(guī)則的強度. 對于上述案例,關(guān)聯(lián)規(guī)則的支持度表示為交易集合同時包含X和Y的專利數(shù)與所有專利事務(wù)|D|的比值,即
(1)
支持度是X和Y同時出現(xiàn)的概率,而置信度則表示為同時包含X和Y的專利數(shù)與只包含X的專利數(shù)之比,即
Confidence(X?Y)=P(X|Y)=
(2)
置信度反映了假如某專利中包含X,則也包含Y的概率. 而提升度表示專利在含有Y的情況下同時含有X的概率,與Y總體發(fā)生的概率之比,即
(3)
通常把支持度和置信度都高于閾值的關(guān)聯(lián)規(guī)則認為是強關(guān)聯(lián)規(guī)則,而把提升度當作一種評價指標來看待,一般情況下,提升度>1的關(guān)聯(lián)規(guī)則認為是有效的強關(guān)聯(lián)規(guī)則,反之,則認為是無效的強關(guān)聯(lián)規(guī)則.
Apriori算法是關(guān)聯(lián)規(guī)則挖掘中最常用的一個算法,Apriori規(guī)定:如果一個項集是頻繁項集,那么它的所有非空子集都是頻繁項集[12]. 也就是說,如果一個項集不是頻繁項集,那么它的所有超集(父集)都不是頻繁項集[13]. Apriori采用迭代的方法來找出頻繁項集:第一步,將每個項都視為候選1項集C1,對數(shù)據(jù)庫進行掃描,搜索出所有候選1項集及其對應(yīng)的支持度,而后剪枝掉小于指定支持度的候選1項集,得到頻繁1項集L1. 第二步,連接剩余的頻繁1項集,則得到候選2項集C2,篩選去掉低于支持度的候選2項集,得到頻繁2項集L2. 依此類推,一直進行迭代,直到無法搜索出頻繁K+1項為止,那么就得到了頻繁K項集LK,也就是算法的輸出結(jié)果. 通過Apriori算法發(fā)現(xiàn)頻繁項集的過程如圖 2 所示.
圖 2 Apriori中頻繁項集的發(fā)現(xiàn)過程Fig.2 Discovery process of frequent item sets in Apriori
圖 2 中,C1,C2,…,CK分別表示候選1項集,候選2項集,…,候選K項集.L1,L2,…,LK分別表示頻繁1項集,頻繁2項集,…,頻繁K項集. Scan表示掃描數(shù)據(jù)集的函數(shù),起到過濾作用,只有滿足最小支持度的項集才被保留,不滿足的直接將其舍掉.
LDA(Latent Dirichlet Allocation)是一種無監(jiān)督的,可抽取文本特征的概率增長模型. LDA不需要事先對模型進行訓練,可以通過無監(jiān)督的學習方法來挖掘出文本中隱含的語義信息,將其應(yīng)用到專利文本中時,不需要手動對文檔添加標簽,只需要給出期望生成的主題數(shù)K和主題中的TopN關(guān)鍵詞N即可[14]. LDA是一種“主題-文檔-詞匯”的三層貝葉斯模型,把主題視為詞匯出現(xiàn)的概率分布,而文檔認為是主題出現(xiàn)的概率分布,而構(gòu)成主題的每一個詞匯又都是無序的,那么就降低了文檔的維度,大大簡化了問題的復雜度[15]. LDA主題模型如圖 3 所示,模型的符號解釋如表 1 所示.
圖 3 LDA主題模型Fig.3 LDA theme model
符號含義K主題個數(shù)M文檔個數(shù)N文檔中詞匯的總數(shù)α每個主題的先驗概率β每個詞匯的先驗概率θm第m個文檔的主題的分布概率Zm,n第m個文檔的第n個詞的主題Wm,n第m個文檔中的第n個詞Φzm,n第z個主題的詞語分布概率
在LDA中,一篇文檔的生成要經(jīng)過以下幾個步驟:
1) 從先驗狄利克雷分布α中取樣生成文檔m的主題分布θm.
2) 從主題的多項式分布θm中取樣生成文檔m第n個詞的主題Zm,n.
3) 從詞匯的狄利克雷分布β中取樣生成主題Zm,n的詞語分布Φzm,n.
4) 從詞語的多項式分布Φzm,n中采樣最終生成詞語Wm,n.
根據(jù)檢索式TI=(物流 or 運輸 or 倉儲 or 庫存 or 裝卸 or 搬運or流通加工or配送or信息平臺or郵政 or 分揀 or 裝配 or 保管 or 鐵路or公路or水運or航空or管道 or 貨運 or 裝運 or 空運 or 陸運 or 快遞站 or 菜鳥驛站 or 快遞 or 菜鳥鄉(xiāng)村 or 儲存 or 中轉(zhuǎn) or 貨場 or 集裝 or 貨垛 or 堆碼 or 儲備 or 散裝 or 換裝 or 揀選 or 集貨 or 冷鏈 or 承運 or 拆箱 or 揀貨 or 直送 or 條板式輸送機 or 條板式輸送帶 or 盤式輸送機 or 盤式輸送帶 or 直送 or 轉(zhuǎn)盤 or 運送 or 貨代 or 卸貨 or 裝貨 or 包裹 or 流通加工 or 郵電)and IPC=(B65 or B23P or G06Q or B60P or B25B or B62B or B32B or E04B )在Incopat專利數(shù)據(jù)庫中隨機選擇發(fā)明申請、 發(fā)明授權(quán)、 實用新型專利各1 000條,將數(shù)據(jù)保存在專利數(shù)據(jù).xls文件下. 采用Python第三方庫jieba分詞組件進行分詞,使用2.2節(jié)整理好的文本作為停用詞表stopword.txt. 對數(shù)據(jù)進行預處理后的專利文本示例見表 2.
表 2 預處理后的專利文本數(shù)據(jù)示例
本文專利文本關(guān)聯(lián)規(guī)則挖掘的實驗在R語言環(huán)境下進行,將每篇專利作為一項事務(wù)tk,其中tk={w1,w2,…,wi},wi是專利中第i個主題的詞項,對應(yīng)關(guān)聯(lián)規(guī)則中的一個項目. 在R語言中安裝并加載arules和Matrix包,加載實驗數(shù)據(jù)時將數(shù)據(jù)格式format設(shè)置為“basket”,將每一條專利記錄看作是一個購物籃,專利主題詞就是購物籃里的商品. 使用apriori()函數(shù)進行關(guān)聯(lián)規(guī)則挖掘,最小支持度閾值和最小置信度閾值分別為0.006和0.05,將最小規(guī)則長度minlen設(shè)置為2,避免規(guī)則中空項的出現(xiàn). 共生成規(guī)則552條,其中置信度、 支持度和提升度最高的5條規(guī)則如表 3~表 5 所示. 在表中,lhs是英文left hand side的縮寫,表示規(guī)則的前項,rhs是right hand side的縮寫,表示規(guī)則的后項. 通過對表3和表4進行分析,可以挖掘出以下規(guī)則:
1) 有2.9%的專利中同時包含了“保鮮” “存儲”和“設(shè)備”這三個主題詞; 如果一篇專利以“保鮮”和“存儲”為主題詞,那么該發(fā)明人有90%的可能性會對以“設(shè)備”為主題的專利感興趣.
2) 有0.9%的專利中同時包含了“訂單” “物流”和“信息”三個主題詞; 當一篇專利中同時包含“訂單”,“物流”兩個主題詞時,則該發(fā)明人有71.05% 的幾率會對物流信息化為主題的專利感興趣.
3) 有1.4%的專利中同時出現(xiàn)了“減震”和“運輸”兩個主題詞,可以推斷,當一篇專利中包含有“減震”這個主題詞時,那么該專利有53.84%的可能性是“運輸”主題的專利. 依此類推,還可以得到其他相關(guān)規(guī)則.
表 3 置信度最高的5條規(guī)則
表 4 支持度最高的5條規(guī)則
表 5 提升度最高的5條規(guī)則
通過表 5 可以看出,“節(jié)能”?“環(huán)?!边@一條規(guī)則的置信度大于56%,提升度更是遠大于1,說明該條規(guī)則具有很強的關(guān)聯(lián)性,以“節(jié)能”為主題詞的專利在很大程度上都是與“環(huán)?!边@一主題相關(guān)聯(lián),事實上,在Incopat專利數(shù)據(jù)庫中限定“物流”和“節(jié)能”兩個關(guān)鍵詞檢索出的專利與“環(huán)?!敝黝}有很強的關(guān)聯(lián)性,證實了這一結(jié)論.
對所有專利數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘后,規(guī)則總體關(guān)于置信度、 提升度和支持度的散點圖如圖 4 所示.
圖 4 支持度-置信度散點圖Fig.4 Support-confidence scatter plot
圖 4 中散點顏色的深淺程度代表著其提升度的大小. 由圖可知,大部分規(guī)則支持度都分布在0.01以內(nèi),置信度都在0.2~0.6之間,提升度都在10左右,說明通過Apriori算法挖掘出來的強關(guān)聯(lián)規(guī)則都是有意義的,有一定的參考價值. 根據(jù)提升度的大小選取了100條提升度較大的規(guī)則生成共享主題網(wǎng)絡(luò)圖,生成的共享主題網(wǎng)絡(luò)圖如圖 5 所示.
圖 5 共享主題網(wǎng)絡(luò)圖Fig.5 Patent network diagram
圖 5 中,源頭表示規(guī)則的左項,箭頭指向的主題詞表示規(guī)則的右項,圓圈的大小則代表該條規(guī)則置信度的大小,圓圈越大則置信度越大; 圓圈顏色的深度表示提升度的高低,圓圈顏色越深則該規(guī)則提升度越高. 基于此,可以從圖中直觀地看到,“環(huán)?!焙汀肮?jié)能”這條規(guī)則的顏色最深,提升度最大. 而剩余的規(guī)則被分成了包括關(guān)于“物流運輸”和“信息控制”的兩大主題集,其中“物流運輸”方面的主題集置信度都較大,說明以“運輸”為主題的專利和以“運輸系統(tǒng)” “碰撞” “保鮮” “減震”等為主題的專利有很強的關(guān)聯(lián)性,也可以看出,在“物流運輸”的過程中,發(fā)明人比較關(guān)心運輸?shù)陌踩珕栴}. 而在“信息控制”的主題集下,規(guī)則較多,主題為“數(shù)據(jù)”或“系統(tǒng)”的專利與主題為“服務(wù)” “監(jiān)控” “識別” “管理”等主題的專利關(guān)聯(lián)性較強,說明物流過程的信息化是當前物流產(chǎn)業(yè)內(nèi)研究的熱點領(lǐng)域.
對預處理后的專利數(shù)據(jù)在Python環(huán)境下使用LDA主題模型進行主題詞抽取,在重復實驗多次后,發(fā)現(xiàn)在將主題數(shù)K設(shè)置為5,α和β的值分別設(shè)置為0.1和0.01,迭代500次后輸出的主題分布區(qū)分度較高,聚類明顯. 使用上述參數(shù)對主題模型進行提取,在每個主題中選取出現(xiàn)概率最大的前5個主題詞,其主題-主題詞分布如表 6 所示.
表 6 物流產(chǎn)業(yè)專利的主題-主題詞分布
通過表 6 主題詞分布結(jié)果可以看出,Topic 0是物流產(chǎn)業(yè)中的“搬運裝卸”環(huán)節(jié)的內(nèi)容,Topic 1是“倉儲保管”環(huán)節(jié)的內(nèi)容,Topic 2是“配送”環(huán)節(jié)的內(nèi)容,Topic 3是“包裝”環(huán)節(jié)的內(nèi)容,Topic 4是“運輸”環(huán)節(jié)的內(nèi)容. 當前物流產(chǎn)業(yè)的熱點研究領(lǐng)域集中在“運輸”環(huán)節(jié)上,其專利申請的數(shù)量占了整個產(chǎn)業(yè)的29.4%,說明發(fā)明人對“運輸”環(huán)節(jié)的專利最感興趣.
結(jié)合2.2節(jié)的研究進行分析,根據(jù)置信度的定義,通過關(guān)聯(lián)規(guī)則挖掘出的一篇專利以“箱” “箱蓋” “箱體”作為主題詞時,該專利的發(fā)明人會有75%的可能性會對以“倉儲”為主題的專利感興趣,而通過表6可知,通過主題模型挖掘出“倉儲”在物流產(chǎn)業(yè)中屬于“倉儲保管”的環(huán)節(jié),所以該發(fā)明人也有可能會對“倉儲保管”環(huán)節(jié)下的專利感興趣. 在接下來將主題模型和關(guān)聯(lián)規(guī)則應(yīng)用在專利文本的研究中,可以將某一類別中主題詞出現(xiàn)概率較大的主題的專利推薦給與其關(guān)聯(lián)度較高的主題下的專利發(fā)明人,例如,可以根據(jù)本文的實驗結(jié)果,將整個“倉儲保管”環(huán)節(jié)中以排名Top-5主題詞,如“保存” “倉儲” “儲存” “緩沖”和“收集”作為主題的專利推薦給以“箱” “箱蓋” “箱體”為主題詞的專利的發(fā)明人,實現(xiàn)對發(fā)明人的專利推薦.
本文研究將關(guān)聯(lián)規(guī)則挖掘和LDA主題模型應(yīng)用在專利文本上,用于挖掘大量文本中隱含的主題關(guān)聯(lián). 通過設(shè)計實驗,將專利文本進行離散化處理,使用Apriori算法對數(shù)據(jù)進行降維,將專利在“文檔-主題”維度上進行描述,深度挖掘出專利文本中的強關(guān)聯(lián)規(guī)則,所選取的關(guān)聯(lián)規(guī)則的提升度都高于2.9,并通過散點圖和網(wǎng)絡(luò)圖直觀地表示了各規(guī)則間的聯(lián)系,接著將LDA主題模型引入到了專利文本的分類中,將專利在“主題-主題詞”維度上進行描述,挖掘出了整個物流領(lǐng)域?qū)@鞔蟓h(huán)節(jié)中出現(xiàn)頻次最高的主題詞,對領(lǐng)域內(nèi)的主題實現(xiàn)了細分,不僅挖掘出了當前物流產(chǎn)業(yè)內(nèi)專利申請的熱點領(lǐng)域,還將主題模型和關(guān)聯(lián)規(guī)則進行結(jié)合來對專利文本進一步挖掘,并對未來的工作給出建議. 所使用的方法和挖掘得出的結(jié)論都對未來專利數(shù)據(jù)庫基于主題模型和關(guān)聯(lián)規(guī)則的個性化推薦功能的研究有積極的意義.
當然,本文只是針對物流領(lǐng)域的專利文本進行了研究,且在數(shù)據(jù)預處理時也針對物流領(lǐng)域進行了優(yōu)化,并未使用其他領(lǐng)域的數(shù)據(jù). 所以在接下來的研究中,需要在更大數(shù)據(jù)量的基礎(chǔ)上,對不同產(chǎn)業(yè)領(lǐng)域內(nèi)的專利文本使用此方法,進一步對這種基于主題模型和關(guān)聯(lián)規(guī)則的專利文本挖掘方法進行提高和改進,取得更精確、 更貼近產(chǎn)業(yè)現(xiàn)狀的效果.