摘要:[目的/意義]無(wú)監(jiān)督的專利實(shí)體抽取方法可以有效解決之前方法高度依賴標(biāo)注資源的痼疾,進(jìn)而推動(dòng)智能技術(shù)在專利數(shù)據(jù)上的廣泛應(yīng)用并提升專利信息服務(wù)的能力和水平。[方法/過(guò)程] 將專利文獻(xiàn)固有的技術(shù)分類號(hào)與主題模型相結(jié)合,利用技術(shù)分類號(hào)指導(dǎo)專利詞匯上的主題分配過(guò)程,進(jìn)而提出一種無(wú)需實(shí)體標(biāo)注信息的專利實(shí)體抽取方法。[結(jié)果/結(jié)論] 利用硬盤(pán)驅(qū)動(dòng)器薄膜磁頭領(lǐng)域?qū)@麛?shù)據(jù)集和IPC技術(shù)分類體系進(jìn)行實(shí)證分析,實(shí)驗(yàn)結(jié)果顯示,不同層級(jí)的技術(shù)分類號(hào)在實(shí)體抽取上效果差異巨大,而基于IPC第五層級(jí)技術(shù)分類號(hào)方法的實(shí)體抽取效果遠(yuǎn)優(yōu)于常規(guī)的SAO方法。
關(guān)鍵詞:實(shí)體抽?。恢黝}模型;專利挖掘;技術(shù)分類號(hào)
分類號(hào):G202; TP181
引用格式:陳亮, 尚瑋姣, 余池, 等. 利用技術(shù)分類號(hào)輔助的無(wú)監(jiān)督專利實(shí)體抽取方法研究[J/OL]. 知識(shí)管理論壇, 2024, 9(4): 422-436 [引用日期]. http://www.kmf.ac.cn/p/403/. (Citation: Chen Liang, Shang Weijiao, Yu Chi, et al. Research on Unsupervised Patent Entity Extraction Method Assisted by Technology ClassifiR+SZbWRDsLlIlfjAu0Is9WR2TEoHsTTruKGGmh3RVHQ=cation Codes[J/OL]. Knowledge Management Forum, 2024, 9(4): 422-436 [cite date]. http://www.kmf.ac.cn/p/403/.)
1 引言/Introduction
當(dāng)前企業(yè)、科研院所等技術(shù)創(chuàng)新主體對(duì)專利情報(bào)的需求不僅包括宏觀數(shù)據(jù)統(tǒng)計(jì),更需要在理解專利內(nèi)容的基礎(chǔ)上,直接為其提供專利侵權(quán)風(fēng)險(xiǎn)規(guī)避、技術(shù)機(jī)會(huì)發(fā)現(xiàn)、技術(shù)路線選擇等決策支持服務(wù)。傳統(tǒng)通過(guò)人工閱讀來(lái)理解專利內(nèi)容的方式,受制于稀缺的專家資源,耗時(shí)耗力、效率低下,而作為計(jì)算機(jī)理解文本內(nèi)容之根基的信息抽取技術(shù),則凸顯出重要的研究?jī)r(jià)值和廣闊的應(yīng)用前景。
信息抽取旨在將自由文本轉(zhuǎn)化為結(jié)構(gòu)化語(yǔ)義信息,實(shí)體抽取是其中的關(guān)鍵環(huán)節(jié)。然而相比常規(guī)文本(如新聞、論文等),專利文本從形式上更加冗長(zhǎng)復(fù)雜,大量科技術(shù)語(yǔ)形式缺乏規(guī)范,且新術(shù)語(yǔ)層出不窮;從內(nèi)容上講,專業(yè)知識(shí)高度密集,實(shí)體類型、數(shù)量繁多,語(yǔ)義關(guān)系錯(cuò)綜復(fù)雜,從而導(dǎo)致直接套用面向常規(guī)文本的自然語(yǔ)言處理技術(shù)會(huì)出現(xiàn)一定程度的性能下降;此外,當(dāng)前效果最好的實(shí)體抽取方法均為有監(jiān)督學(xué)習(xí)方法,然而標(biāo)注數(shù)據(jù)是一種極為稀缺、昂貴的信息資源,尤其以專利挖掘領(lǐng)域?yàn)樯?,截至目前,可公開(kāi)獲取的專利信息抽取標(biāo)注數(shù)據(jù)集僅有3個(gè),即CPC-2014[1]、ChemProt[2]和TFH-2020[3]。不僅如此,由于專利的領(lǐng)域特定(domain-specific)屬性,不同技術(shù)領(lǐng)域的專利無(wú)論技術(shù)內(nèi)容還是語(yǔ)言特性均存在較大差別。以技術(shù)內(nèi)容為例,在硬盤(pán)磁頭驅(qū)動(dòng)器專利標(biāo)注數(shù)據(jù)集TFH-2020中的實(shí)體類型包括零件、原材料、形狀、功能、物理流、信息流等,而醫(yī)藥化學(xué)專利標(biāo)注數(shù)據(jù)集ChemProt中的實(shí)體類型則是化合物、基因、蛋白質(zhì),從而造成不同技術(shù)領(lǐng)域的標(biāo)注數(shù)據(jù)難以跨領(lǐng)域使用。
在這種情況下,研究者更青睞無(wú)標(biāo)注的實(shí)體抽取方法,諸如利用句法解析軟件從專利文本中獲取詞性、句法依存關(guān)系等特征,并在此基礎(chǔ)上制定相關(guān)規(guī)則以獲取專利實(shí)體,從而使專利實(shí)體抽取不再受到標(biāo)注數(shù)據(jù)的限制。然而,L. Chen等[3]發(fā)現(xiàn),這種方法在專利文本上的實(shí)體抽取效果并不盡如人意,在精確匹配標(biāo)準(zhǔn)下實(shí)體抽取的F1值僅為1.7%。如何在無(wú)標(biāo)注數(shù)據(jù)集的條件下提升實(shí)體抽取效果,成為一個(gè)亟待解決的問(wèn)題。實(shí)際上,專利文獻(xiàn)具有豐富的題錄數(shù)據(jù),如專利家族、法律狀態(tài)和技術(shù)分類號(hào)等,尤其技術(shù)分類號(hào),指示了當(dāng)前專利所屬的技術(shù)領(lǐng)域或所實(shí)現(xiàn)的功能應(yīng)用,當(dāng)該專利具備多種多技術(shù)交叉屬性時(shí),會(huì)被同時(shí)賦予多個(gè)技術(shù)分類號(hào)。這些技術(shù)分類號(hào)雖然面向整篇專利,但在專利文本中均有相應(yīng)的技術(shù)內(nèi)容,如果智能算法能將這些技術(shù)分類號(hào)與專利文本中的技術(shù)內(nèi)容自動(dòng)對(duì)應(yīng)起來(lái),則可以形成一套無(wú)需實(shí)體標(biāo)注信息的專利實(shí)體抽取方法。
因此,筆者將專利文獻(xiàn)固有的技術(shù)分類號(hào)與主題模型相結(jié)合,利用技術(shù)分類號(hào)指導(dǎo)專利詞匯上的主題分配過(guò)程,進(jìn)而提出一種新的無(wú)標(biāo)注專利實(shí)體抽取方法。實(shí)驗(yàn)結(jié)果表明,在精確匹配標(biāo)準(zhǔn)下該方法將實(shí)體抽取的F1值提升至13.2%,而在將停用詞去除后F1值能進(jìn)一步提升至15.4%,提升幅度巨大。本文研究思路如下:①對(duì)相關(guān)研究?jī)?nèi)容進(jìn)行文獻(xiàn)調(diào)研和梳理;②闡述筆者提出的基于主題模型的專利實(shí)體抽取方法;③以TFH-2020數(shù)據(jù)集為基礎(chǔ),形成擴(kuò)展數(shù)據(jù)集TFH-2020-extension,進(jìn)而展開(kāi)實(shí)證分析;④總結(jié)本方法的優(yōu)勢(shì)和不足,并對(duì)下一步工作進(jìn)行展望。
2 相關(guān)研究/Literature review
2.1 專利實(shí)體內(nèi)涵辨析
實(shí)體抽取任務(wù)旨在從文本中識(shí)別具有特定意義的實(shí)體的邊界和類型。在自然語(yǔ)言處理技術(shù)通常處理的文本(如新聞、評(píng)論)中,常見(jiàn)的實(shí)體類型包括地址、人物、機(jī)構(gòu)、貨幣、百分?jǐn)?shù)、日期、時(shí)間等[4-5]。然而專利文本中包含著對(duì)發(fā)明創(chuàng)新及其技術(shù)背景、實(shí)現(xiàn)細(xì)節(jié)和權(quán)利要求等內(nèi)容的描述,其所定義的實(shí)體類型會(huì)因分析目的和所在領(lǐng)域不同而有所差異,通常有兩種定義方式:①根據(jù)分析目標(biāo)劃分,比如為識(shí)別行業(yè)創(chuàng)新方向和可能的技術(shù)機(jī)會(huì),S. Dewulf[6]、H. Park等[7]將可標(biāo)記物劃分為功能、屬性兩類,進(jìn)而從不同專利文本中提取出技術(shù)組成、功能效果、新穎性、先進(jìn)性等核心內(nèi)容以拼接出技術(shù)發(fā)展趨勢(shì);S. Y. Yang等[8]從工藝流程角度分析技術(shù)的發(fā)展變化,將機(jī)械領(lǐng)域?qū)嶓w類型劃分為方法、步驟、方式、屬性、實(shí)體、值,將實(shí)體之間關(guān)系劃分為動(dòng)作、包含、前置,實(shí)體和關(guān)系可進(jìn)一步細(xì)分為實(shí)際類型(real)、輔助類型(auxiliary)、領(lǐng)域依賴(dependent)、領(lǐng)域無(wú)關(guān)(independent)等;S. Choi等[9]側(cè)重實(shí)體的句法特征和保存狀態(tài),將實(shí)體分為概念、主語(yǔ)概念、賓語(yǔ)概念、事實(shí)類型、部分事實(shí)類型、效果事實(shí)類型、概念狀態(tài)、固體、氣體、液體、場(chǎng)等。②根據(jù)所在領(lǐng)域的技術(shù)特點(diǎn)劃分,比如薛馳等[10]將機(jī)械領(lǐng)域的可標(biāo)記物劃分為技術(shù)系統(tǒng)、流、屬性,技術(shù)系統(tǒng)分為系統(tǒng)、零部件,流分為物流、能量流、信息流,屬性分為性狀、位置、方向等;I. Bergmann等[11]針對(duì)化學(xué)生物專利提出一套包含疾病、蛋白質(zhì)靶向、行為模式(mode of action, MOA)、公式等12種類型的可標(biāo)記物劃分標(biāo)準(zhǔn)。
2.2 專利實(shí)體抽取方法的發(fā)展
專利領(lǐng)域的實(shí)體抽取方法研究以應(yīng)用為導(dǎo)向,除了考量方法本身的效率、效果、可解釋性、可移植性等,方法執(zhí)行所需的支撐資源(如句法解析器、領(lǐng)域詞表、標(biāo)注數(shù)據(jù)集等)和方法的處理對(duì)象(專利數(shù)據(jù))的特點(diǎn)也在考慮范圍之內(nèi)。由于專利的領(lǐng)域特定特點(diǎn),即不同技術(shù)領(lǐng)域?qū)@恼Z(yǔ)言特點(diǎn)和描述對(duì)象差別較大、標(biāo)注數(shù)據(jù)集難以作為訓(xùn)練集跨領(lǐng)域使用,以及標(biāo)注數(shù)據(jù)集規(guī)模有限、領(lǐng)域覆蓋面嚴(yán)重不足等問(wèn)題,專利實(shí)體通常在句法解析工具對(duì)專利文本進(jìn)行句法解析和詞性標(biāo)注的基礎(chǔ)上,使用規(guī)則匹配加以識(shí)別。當(dāng)然,隨著深度學(xué)習(xí)技術(shù)的崛起和成熟,這些方法逐漸被用于進(jìn)行領(lǐng)域適配或任務(wù)適配并應(yīng)用于專利實(shí)體抽取工作中,現(xiàn)已成為重要的研究方向。
(1)基于規(guī)則的方法。長(zhǎng)期以來(lái),專利實(shí)體抽取是在使用句法解析工具、詞表資源等對(duì)專利文本處理后,采用人工規(guī)則篩選出其中的實(shí)體信息。這一流程共有技術(shù)信息獲取、技術(shù)信息規(guī)范化和技術(shù)信息分類3個(gè)步驟,具體為:①技術(shù)信息獲取即從專利文本中初步識(shí)別實(shí)體邊界,具體方法以句法解析工具和規(guī)則匹配為主,即使用句法解析工具完成對(duì)專利文本的句法解析、詞性識(shí)別和語(yǔ)義角色標(biāo)注,進(jìn)而結(jié)合人工規(guī)則來(lái)獲取文本中的實(shí)體和語(yǔ)義關(guān)系[12-16];②技術(shù)信息規(guī)范化就是將具有相同、相近含義的技術(shù)信息用一種統(tǒng)一的形式表示出來(lái),以消除上一步所獲技術(shù)信息的不確定性,目前技術(shù)信息標(biāo)準(zhǔn)化主要借助領(lǐng)域詞典[17]或知識(shí)庫(kù)[18]等信息資源中的層次結(jié)構(gòu)和關(guān)系結(jié)構(gòu)來(lái)計(jì)算兩個(gè)實(shí)體的語(yǔ)義相似度[19],或者將某實(shí)體泛化為其上位實(shí)體來(lái)判斷兩個(gè)實(shí)體是否屬于同一實(shí)體,并進(jìn)一步推斷與之相關(guān)的實(shí)體組合是否具有相同含義[18,20];③經(jīng)過(guò)上述處理后的實(shí)體仍然存在信息粒度不一的問(wèn)題,即便經(jīng)過(guò)規(guī)范化處理后仍然不宜分析解讀,因而需要將其進(jìn)一步分門(mén)別類,常見(jiàn)的分類方法包括借助自定義規(guī)則,如詞匯組合[18]或詞性組合[21]將實(shí)體劃分到對(duì)應(yīng)類別上。
(2)深度學(xué)習(xí)方法。與自然語(yǔ)言處理領(lǐng)域龐大的實(shí)體抽取方法家族不同,專利實(shí)體抽取所使用的深度學(xué)習(xí)方法集中于歷經(jīng)驗(yàn)證的少數(shù)經(jīng)典方法,如BiLSTM(Bidirectional Long Short-Term Memory,雙向長(zhǎng)短期記憶網(wǎng)絡(luò))[22]、BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)—條件隨機(jī)場(chǎng))[3]、BiLSTM-CNN-CRF(Bidirectional Long Short-Term Memory-Convolutional Neural Networks- Conditional Random Field,雙向長(zhǎng)短期記憶網(wǎng)絡(luò)—卷積神經(jīng)網(wǎng)絡(luò)—條件隨機(jī)場(chǎng))[23]等。在這些方法中專利實(shí)體抽取均被作為序列標(biāo)引問(wèn)題加以建模,研究者重點(diǎn)探索能夠提升專利領(lǐng)域?qū)嶓w識(shí)別的特征,并將這些特征集成到深度學(xué)習(xí)模型之中,L. Chen等[3]發(fā)現(xiàn)相比基于新聞、百科等通用語(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量,基于全領(lǐng)域?qū)@Z(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量并未提升專利實(shí)體抽取效果,但用與實(shí)證領(lǐng)域相同或者臨近領(lǐng)域的專利語(yǔ)料訓(xùn)練的靜態(tài)詞嵌入向量,則可以使專利實(shí)體抽取獲得0.3%的提升(以加權(quán)平均F1值測(cè)度);Z. Zhai等[23]發(fā)現(xiàn)該結(jié)論在化學(xué)領(lǐng)域?qū)@贤瑯映闪ⅲ鄳?yīng)的提升幅度在0.61%—1.68%之間,不僅如此,還發(fā)現(xiàn)針對(duì)領(lǐng)域語(yǔ)料優(yōu)化后的分詞器更能適應(yīng)目標(biāo)領(lǐng)域?qū)@谋镜姆衷~特點(diǎn),將其集成進(jìn)來(lái)同樣可以提升專利實(shí)體的識(shí)別效果。
但詞匯本身具有一詞多義現(xiàn)象,且其含義也會(huì)隨著上下文語(yǔ)境不同而有所差別,靜態(tài)詞嵌入向量將詞匯映射到某個(gè)固定向量的做法并不符合這一詞匯特點(diǎn),而B(niǎo)ERT(Bidirectional Encoder Representations from Transformers,雙向基于變形器網(wǎng)絡(luò)的編碼器表示)、GPT(Generative Pre-Training,生成式預(yù)訓(xùn)練網(wǎng)絡(luò))、ELMo(Embeddings from Language Models,基于語(yǔ)言模型的詞嵌入網(wǎng)絡(luò))等所產(chǎn)生的動(dòng)態(tài)詞嵌入向量則可以捕捉到同一詞匯在不同語(yǔ)境的差異,因此具有更加強(qiáng)大的實(shí)體抽取能力。Z. Zhai等[23]發(fā)現(xiàn),當(dāng)將基于CNN(Convolutional Neural Networks,卷積神經(jīng)網(wǎng)絡(luò))所獲取的靜態(tài)詞嵌入向量替換為基于ELMo所產(chǎn)生的動(dòng)態(tài)詞嵌入向量后,專利實(shí)體抽取在BioSemantics[24]和Reaxys Gold[25]上分別取得了1.3%和4.8%的提升(以微平均F1值測(cè)度)。邢曉昭等[26]以類腦智能領(lǐng)域?qū)@麨槔?,通過(guò)消融實(shí)驗(yàn)發(fā)現(xiàn)當(dāng)將基于通用語(yǔ)料訓(xùn)練的BERT與BiLSTM-CRF模型拼接后,專利實(shí)體抽取效果從72%急劇提升至78%(以加權(quán)平均F1值測(cè)度),而將上述BERT替換為使用專利語(yǔ)料的BERT-for-Patents后,這一效果上升到80%。
雖然利用深度學(xué)習(xí)技術(shù)開(kāi)展專利實(shí)體抽取的研究日漸增多,但這種技術(shù)需要高質(zhì)量標(biāo)注數(shù)據(jù)集來(lái)保障其強(qiáng)大的實(shí)體識(shí)別能力[27-28],而標(biāo)注高質(zhì)量數(shù)據(jù)集需要耗費(fèi)大量時(shí)間和人力,成本高昂,同時(shí)不同技術(shù)領(lǐng)域的實(shí)體類型也互不相同,這使得高質(zhì)量標(biāo)注數(shù)據(jù)集難以跨領(lǐng)域共用。針對(duì)這些困難,學(xué)者們嘗試各種方法,以期在減少標(biāo)注數(shù)據(jù)的條件下開(kāi)展專利實(shí)體抽取。例如,白如江等[29]利用提示模板將專利實(shí)體識(shí)別任務(wù)包裝為問(wèn)題,通過(guò)向大語(yǔ)言模型ChatGPT提問(wèn)以實(shí)現(xiàn)基于小樣本標(biāo)注數(shù)據(jù)的專利實(shí)體抽取;原之安等[30]提出一種基于預(yù)訓(xùn)練模型的半監(jiān)督專利實(shí)體抽取方法,即讓預(yù)訓(xùn)練模型先在小樣本標(biāo)注數(shù)據(jù)上識(shí)別實(shí)體,之后將識(shí)別結(jié)果中的高置信度實(shí)體合并到標(biāo)注數(shù)據(jù)中以提升實(shí)體識(shí)別效果。但這些方法并未充分利用專利本身富含題錄信息的優(yōu)勢(shì),同時(shí)也沒(méi)有使用公開(kāi)數(shù)據(jù)基準(zhǔn)進(jìn)行方法評(píng)測(cè),方法效果的可復(fù)現(xiàn)性和方法先進(jìn)性的可驗(yàn)證程度上存在一定不足。
3 方法/Methodology
3.1 基本思想
筆者將專利所包含的技術(shù)分類號(hào)作為類別標(biāo)簽、將技術(shù)分類號(hào)在技術(shù)分類體系中的相關(guān)節(jié)點(diǎn)作為主題標(biāo)簽,以指導(dǎo)專利文本的主題分配進(jìn)而抽取專利實(shí)體(見(jiàn)圖1)。具體步驟如下:①利用專利語(yǔ)料庫(kù)訓(xùn)練主題模型PC-LDA(Patent Classification - Latent Dirichlet Allocation,專利分類—潛在狄里克萊分配)[15],獲取每個(gè)主題標(biāo)簽對(duì)應(yīng)的主題—詞匯概率分布;②當(dāng)對(duì)一篇專利進(jìn)行實(shí)體抽取時(shí),首先獲取這個(gè)專利的類別標(biāo)簽和主題標(biāo)簽,以CN107427363B及其IPC(International Patent Classification,國(guó)際專利分類)號(hào)碼為例,其類別標(biāo)簽包括A61F2/18、A61F11/00、A61F11/04、H01R25/00,而主題標(biāo)簽A61F2/18、A61F11/00、A61F11/04、H01R25/00及其上層的A61F2、A61F11、H01R25、A61F、H01R、A61、H01、A、H;
③利用訓(xùn)練好的PC-LDA對(duì)這個(gè)專利執(zhí)行折入查詢(fold-in query),即計(jì)算這個(gè)專利中每個(gè)詞匯在各個(gè)主題標(biāo)簽下的概率值;④對(duì)每個(gè)主題標(biāo)簽下的詞匯按照概率降序排列;⑤按照主題標(biāo)簽層次分配該專利中詞匯的主題,進(jìn)而識(shí)別專利實(shí)體。
3.2 PC-LDA模型
使用主題模型PC-LDA[31]來(lái)計(jì)算專利主題標(biāo)簽的主題—詞匯概率分布,PC-LDA的概率圖表示見(jiàn)圖2。在該模型中,專利文本的撰寫(xiě)過(guò)程被設(shè)定如下:需要預(yù)先拿到標(biāo)引所使用技術(shù)分類體系以及這篇專利所分配的技術(shù)分類號(hào)集合Sd(集合中元素?cái)?shù)量通常多于1個(gè)),并為這個(gè)技術(shù)分類體系的頂級(jí)節(jié)點(diǎn)設(shè)立一個(gè)虛擬父節(jié)點(diǎn),從而將技術(shù)分類體系連成一個(gè)完整的樹(shù)。當(dāng)撰寫(xiě)專利時(shí),首先從Sd中等概率抽取一個(gè)分類號(hào)Y;之后獲取從技術(shù)分類體系根節(jié)點(diǎn)到Y(jié)這條通路上的主題列表,并隨機(jī)從對(duì)應(yīng)的分類號(hào)—主題分布θ(Y)中抽取一個(gè)主題;最后,從被選中主題對(duì)應(yīng)的主題—詞匯概率分布φ中抽取一個(gè)詞匯w,從而生成該專利的第一個(gè)詞匯;依此類推最終生成該專利的全部?jī)?nèi)容。
以圖3為例加以說(shuō)明。在該例中,一件專利被分配了A1、A2、B1三個(gè)技術(shù)分類號(hào),這3個(gè)技術(shù)分類號(hào)在技術(shù)分類體系中的位置如圖3(a)所示;當(dāng)撰寫(xiě)專利的一個(gè)詞匯時(shí),首先從這3個(gè)技術(shù)分類號(hào)中隨機(jī)抽取一個(gè)分類號(hào)作為要撰寫(xiě)的技術(shù)方向,假設(shè)是A1如圖3(b)所示;此時(shí)從技術(shù)分類體系的根節(jié)點(diǎn)root到A1會(huì)確定一條通路,即rootAA1如圖3(c)所示,這條通路上的不同節(jié)點(diǎn)代表著從不同抽象層次上撰寫(xiě)A1的技術(shù)內(nèi)容;隨機(jī)從這條通路上抽取一個(gè)節(jié)點(diǎn),假設(shè)是A如圖3(d)所示,表示從第二個(gè)層次上撰寫(xiě)A1的技術(shù)內(nèi)容;從A所對(duì)應(yīng)的主題—詞匯分布上隨機(jī)抽取一個(gè)詞匯,至此完成專利中一個(gè)詞匯的撰寫(xiě)過(guò)程。
在PC-LDA中有兩類待估參數(shù),分別是S個(gè)分類號(hào)—主題概率分布θ和T個(gè)主題—詞匯概率分布φ。使用慣常的坍縮吉布斯采樣方法(Collapsed Gibbs Sampling)進(jìn)行參數(shù)估計(jì),具體采樣公式見(jiàn)公式(1)、公式(2)、公式(3),各個(gè)模型符號(hào)的含義見(jiàn)表1。
3.3 折入查詢和詞匯排序
在利用PC-LDA抽取專利中的實(shí)體時(shí)設(shè)立一個(gè)假設(shè):專利中的實(shí)體偏向于具體內(nèi)容的描述,而非對(duì)技術(shù)領(lǐng)域的總體概括,舉例來(lái)說(shuō),實(shí)體并非“人類生活必需品”“智能技術(shù)”“運(yùn)輸”這種高度抽象的概括性內(nèi)容,而是“褲子”“深度神經(jīng)網(wǎng)絡(luò)”“直升飛機(jī)”這種指向明確物品(無(wú)論物理物品還是虛擬物品)的實(shí)詞,這些實(shí)詞所對(duì)應(yīng)的技術(shù)分類號(hào)標(biāo)簽通常處于技術(shù)分類體系的較低層次。基于該假設(shè),當(dāng)對(duì)一個(gè)新專利進(jìn)行實(shí)體抽取時(shí),需要執(zhí)行兩個(gè)子步驟:①獲取該專利在各個(gè)主題標(biāo)簽上的主題分布,即折入查詢;②在不同主題標(biāo)簽下對(duì)該專利中的詞匯進(jìn)行重要性排序,進(jìn)而將層次較低主題標(biāo)簽下較為重要的詞匯標(biāo)識(shí)出來(lái)。由于層次越低的主題標(biāo)簽(或技術(shù)分類號(hào))越具有明確、具體的技術(shù)指向,而在該技術(shù)分類號(hào)下越重要的詞匯,它的技術(shù)指向就越明確、越具體,越可能是表示技術(shù)內(nèi)容的實(shí)體。因此,當(dāng)將技術(shù)分類體系最低層次標(biāo)簽下的所有重要詞匯都被標(biāo)識(shí)出來(lái)后,就獲取了這一專利上的實(shí)體列表。
在折疊查詢上,相比將新專利加入訓(xùn)練集重新運(yùn)行主題模型的做法,筆者提出的策略更加高效:固定主題—詞匯概率分布不變,只在新文檔上應(yīng)用坍縮吉布斯采樣方法,來(lái)產(chǎn)生每個(gè)詞匯所分配的主題和分類號(hào)。在PC-LDA中,新文檔包括專利文本及其所屬分類號(hào),首先將新文檔中各個(gè)詞匯隨機(jī)分配到其所屬分類號(hào)及其相關(guān)主題上,然后利用坍縮吉布斯采樣方法對(duì)這些詞匯抽取其所屬分類號(hào)及其相關(guān)主題,抽樣公式同樣是公式(1),在專利m中,主題標(biāo)簽z下詞匯w的重要性計(jì)算方法如公式(4)所示:
其含義是獲取專利m中的3類概率分布,即專利—技術(shù)標(biāo)簽分布、技術(shù)標(biāo)簽—主題標(biāo)簽分布、主題標(biāo)簽—詞匯分布,進(jìn)而在將主題標(biāo)簽和詞匯設(shè)定為z和w的條件下對(duì)不同技術(shù)標(biāo)簽下的概率值進(jìn)行累加,以消除技術(shù)標(biāo)簽變量s并得到t=z和w=w時(shí)的聯(lián)合概率分布。
3.4 模型評(píng)價(jià)
在主題模型評(píng)價(jià)上,除了常規(guī)用于語(yǔ)言模型的困惑度評(píng)價(jià)指標(biāo)外,鑒于本文專利實(shí)體抽取任務(wù)的特殊性,筆者采用另外一種模型評(píng)價(jià)方法,即對(duì)照實(shí)體標(biāo)注數(shù)據(jù)的評(píng)價(jià)方法。
(1)困惑度(perplexity)評(píng)價(jià)方法。困惑度是評(píng)價(jià)語(yǔ)言模型泛化能力的標(biāo)準(zhǔn)指標(biāo),其通用公式為(5),困惑度越小的模型泛化能力越強(qiáng)[32]。具體到PC-LDA模型中,對(duì)測(cè)試集中文檔Dtest的困惑度計(jì)算公式為(6)。其中G是坍縮吉布斯采樣方法的重復(fù)執(zhí)行次數(shù),通過(guò)多次執(zhí)行坍縮吉布斯采樣方法然后求平均,以使困惑度結(jié)果相對(duì)穩(wěn)定;|Dtest|是測(cè)試集的文檔數(shù)量;|Sm|是測(cè)試文檔m所包含的技術(shù)分類號(hào)數(shù)量;θijg是在第g次折疊查詢時(shí)所推導(dǎo)出在技術(shù)分類號(hào)i上主題j的概率值。
(2)對(duì)照實(shí)體標(biāo)注的評(píng)價(jià)方法。隨著可公開(kāi)獲取的專利文本標(biāo)注數(shù)據(jù)集的日益增多,以專利實(shí)體標(biāo)注作為金標(biāo)準(zhǔn)的評(píng)價(jià)方法成為可能。本文提供兩種匹配策略:①精確匹配,只有標(biāo)注實(shí)體和主題詞完全一致時(shí),才被認(rèn)為是一次正確識(shí)別;②重疊匹配,只要標(biāo)注實(shí)體和主題詞存在重疊詞匯,就被認(rèn)為是一次正確識(shí)別。為清楚起見(jiàn),以圖4中的句子為例加以說(shuō)明,該句子包含3個(gè)實(shí)體,即inductive head、leading write pole、and trailing write pole. 根據(jù)精確匹配策略,只有inductive head被正確識(shí)別, 但當(dāng)標(biāo)準(zhǔn)換成重疊匹配時(shí),3個(gè)實(shí)體均被認(rèn)為被正確識(shí)別出來(lái)。
金標(biāo)準(zhǔn) The inductive head includes a leading write pole and a trailing write pole
主題詞 The inductive head includes a leading write pole and atrailing write pole
4 實(shí)證分析/Experiment and result analysis
4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備
為驗(yàn)證筆者提出的專利實(shí)體抽取方法的效果,本研究基于硬盤(pán)磁頭領(lǐng)域的專利標(biāo)注數(shù)據(jù)集TFH-2020[3]展開(kāi)實(shí)證分析,該數(shù)據(jù)集由美國(guó)專利商標(biāo)局的1 010篇專利摘要經(jīng)過(guò)人工精心標(biāo)注而成。但由于該數(shù)據(jù)集中僅包含1 010篇專利摘要,數(shù)量偏少,又從美國(guó)專利商標(biāo)局檢索平臺(tái)上另外檢索得到硬盤(pán)磁頭相關(guān)專利10 000件,將其中信息缺失、內(nèi)容重復(fù)專利去除后,得到有效專利8 648件,將其作為訓(xùn)練集,TFH-2020作為測(cè)試集,形成最終包含9 658條記錄的英文專利數(shù)據(jù)集TFH-2020-extention。
在TFH-2020-extention中,用于標(biāo)注的IPC號(hào)碼共8 781個(gè),上鉆到大組、小類、大類、部層級(jí)后,分別包含IPC號(hào)碼2 360個(gè)、488個(gè)、129個(gè)和8個(gè)。以圖3為例加以說(shuō)明,在該例中專利被分配了A1、A2、B1三個(gè)原始分類號(hào),當(dāng)將其上鉆到第二層級(jí)時(shí)該專利的分類號(hào)是A、B,繼續(xù)上鉆后分類號(hào)歸并為root。從中看到不同IPC號(hào)碼上的專利分布嚴(yán)重不均衡,以部層級(jí)為例,A-H中包含的專利數(shù)量分別為585個(gè)、2 092個(gè)、1 062個(gè)、79個(gè)、79個(gè)、273個(gè)、3 311個(gè);下探到大類、小類、大組、小組后的專利分布情況如圖5(a)-(d)所示,其中橫軸是包含同一IPC號(hào)的專利數(shù)量,縱軸是具有相同專利數(shù)量的IPC號(hào)的數(shù)量。舉例來(lái)說(shuō),假設(shè)4個(gè)專利包含的IPC號(hào)分別是(A,B,C)、(B,C、D)、(A,C、D)、(D),那么包含A、B、C、D的專利數(shù)量就對(duì)應(yīng)著橫軸坐標(biāo)上的2、2、3、3,而具有相同專利數(shù)量2的IPC號(hào)的數(shù)量為2,具有相同專利數(shù)量3的IPC號(hào)的數(shù)量也為2,它們對(duì)應(yīng)著縱軸上的相應(yīng)坐標(biāo)。從圖中可以看到,在這4個(gè)層次上大多數(shù)IPC只存在于5件專利以內(nèi),存在于1 000件專利以上的IPC數(shù)量在10以下。
4.2 模型設(shè)置
為探索各個(gè)主題模型在不同IPC層級(jí)上的效果,除了使用原始IPC標(biāo)簽,筆者同時(shí)將IPC標(biāo)簽上鉆到大組、小類級(jí)別,形成了IPC大組標(biāo)簽和IPC小類標(biāo)簽,以在不同層次分類號(hào)的處理策略下分別展開(kāi)實(shí)證分析。在模型超參數(shù)設(shè)置上,按照慣例將α、β分別設(shè)置為0.5和0.1,迭代輪次設(shè)置為100。由于對(duì)照實(shí)體標(biāo)注的評(píng)價(jià)方法需要將主題標(biāo)簽分配到原始文本的每個(gè)詞匯,以識(shí)別命名實(shí)體并與金標(biāo)準(zhǔn)進(jìn)行比對(duì),所以文本預(yù)處理僅去除標(biāo)點(diǎn)符號(hào),不再執(zhí)行刪除停用詞、低頻詞、抽詞干等常規(guī)操作。
4.3 模型評(píng)價(jià)
4.3.1 困惑度評(píng)價(jià)
在不同層次技術(shù)分類號(hào)的處理策略下,PC-LDA模型的困惑度變化曲線見(jiàn)圖6??梢?jiàn)隨著IPC上鉆層次的提升,困惑度在不斷增長(zhǎng)。IPC上鉆層次越高,專利中所包含的IPC號(hào)碼就越少,而困惑度通常會(huì)隨主題數(shù)量的減少而增長(zhǎng),反映到單一主題上來(lái)說(shuō),就是隨著IPC上鉆層次的提升,主題的指向愈發(fā)抽象、模糊,內(nèi)容逐漸混雜。
為進(jìn)一步探索PC-LDA的主題抽取效果,隨機(jī)選出兩個(gè)技術(shù)標(biāo)簽G11B5/596、H01L27/146及其上層標(biāo)簽,并輸出這些標(biāo)簽對(duì)應(yīng)的重要詞匯(見(jiàn)表2)。從中可以明顯看到,高層級(jí)的IPC標(biāo)簽,其主題內(nèi)容多為沒(méi)有實(shí)際含義的冠詞、介詞、連詞等,而隨著層級(jí)的下探,相應(yīng)主題愈發(fā)貼近具體技術(shù)內(nèi)容。雖然低層次主題標(biāo)簽對(duì)應(yīng)的詞匯與PC-LDA的預(yù)期相符,但高層次主題標(biāo)簽并沒(méi)有對(duì)應(yīng)相關(guān)技術(shù)領(lǐng)域的寬泛概念,諸如G對(duì)應(yīng)物理學(xué)的寬泛概念、H對(duì)應(yīng)電學(xué)的寬泛概念并不相符。其原因在于文本預(yù)處理未將停用詞去除造成了對(duì)主題結(jié)果的干擾,為方便對(duì)比分析,將語(yǔ)料庫(kù)中的停用詞去掉后,重新訓(xùn)練PC-LDA,得到G11B5/596、H01L27/146及其上層標(biāo)簽對(duì)應(yīng)的重要詞匯(見(jiàn)表3),從中不難發(fā)現(xiàn)G主題中signal、system、circuit、apparatus、device、output、include、first、data、signals占據(jù)排名前10的位置,H主題中film、thin、metal、substrate、least、amorphous、layer、electrode、said、device占據(jù)排名前10的位置,符合PC-LDA的設(shè)計(jì)預(yù)期。
4.3.2 實(shí)體標(biāo)注評(píng)價(jià)
該評(píng)價(jià)方法利用實(shí)體識(shí)別的評(píng)價(jià)指標(biāo),即準(zhǔn)確率、召回率和F1值來(lái)度量PC-LDA的性能表現(xiàn)。由前面所述得知,層級(jí)較高的IPC號(hào)中主題詞匯多為通用詞匯,其作用在于過(guò)濾無(wú)關(guān)詞匯;而層級(jí)較低的IPC號(hào)中主題詞匯偏向具體、細(xì)節(jié)的技術(shù)術(shù)語(yǔ),具有一定的命名實(shí)體識(shí)別能力。因此,對(duì)照實(shí)體標(biāo)注的模型評(píng)價(jià)從兩個(gè)方面開(kāi)展:①沿用Recall@K的思路,探討在不同層級(jí)IPC號(hào)上,隨著K值的增加專利中重要性得分位于前K位置的詞匯在命名實(shí)體識(shí)別準(zhǔn)確率、召回率和F1值上的變化情況;②確定K值,并將此時(shí)PC-LDA的命名實(shí)體識(shí)別效果與專利中常用的免標(biāo)注命名實(shí)體識(shí)別方法,即SAO(Subject Action Object,主語(yǔ)—行為—賓語(yǔ))方法進(jìn)行對(duì)比分析,以評(píng)價(jià)PC-LDA的模型表現(xiàn)。
(1)不同層級(jí)IPC號(hào)的命名實(shí)體識(shí)別。由于部、大類層級(jí)較高,所抽主題中無(wú)實(shí)際含義的詞匯較多,筆者將分析目標(biāo)限定在層級(jí)較低的小類、大組、小組上(見(jiàn)圖7)。其中,精確匹配策略下命名實(shí)體識(shí)別的準(zhǔn)確率、召回率和F1值隨K值變化情況見(jiàn)圖7(a)-(c),重疊匹配策略下的對(duì)應(yīng)情況見(jiàn)圖7(d)-(f)。從中可見(jiàn),無(wú)論是精確匹配策略還是重疊匹配策略,小類、大組層級(jí)的命名實(shí)體識(shí)別效果均相差細(xì)微,不僅如此,它們隨K值的變化情況也高度一致;與此相對(duì),小類層級(jí)的命名實(shí)體識(shí)別效果要明顯優(yōu)于前兩者。從匹配策略上來(lái)說(shuō),不同匹配策略下命名實(shí)體識(shí)別效果的差別不大,以小組層級(jí)為例,它在精確匹配下的最優(yōu)召回率和F1值分別為9.73%和13.2%,而在重疊匹配下的最優(yōu)召回率和F1值分別為19.2%和26.1%,約為前者的2倍。由于小組準(zhǔn)確率在重疊匹配策略和精確匹配下變化趨勢(shì)不同,所以這里不做比較。
(2)PC-LDA與SAO的對(duì)比分析。選定K=100來(lái)獲取PC-LDA模型在命名實(shí)體識(shí)別上固定的準(zhǔn)確率、召回率和F1值,以開(kāi)展對(duì)比分析。之所以選擇K為100,是因?yàn)楫?dāng)取該值時(shí)除重疊匹配策略下的準(zhǔn)確率外,PC-LDA在其他命名實(shí)體識(shí)別指標(biāo)的得分均為最優(yōu)值。同時(shí),筆者也用基線方法(SAO方法)對(duì)測(cè)試集進(jìn)行命名實(shí)體識(shí)別,這些實(shí)驗(yàn)結(jié)果匯總見(jiàn)表4。從中可見(jiàn),與PC-LDA模型完全不同,SAO方法在不同匹配策略下的命名實(shí)體識(shí)別效果存在極大差異。在精確匹配策略下,SAO方法在3種命名實(shí)體識(shí)別指標(biāo)上的得分均在4%以下;但在重疊匹配策略下,SAO方法卻在準(zhǔn)確率和F1值上取得了最高值,即74.2%和41.4%。
SAO方法的這種矛盾性表現(xiàn)反映了兩個(gè)事實(shí):①命名實(shí)體的組成方式靈活多樣,但SAO方法僅將部分組成方式納入考量范圍,從而造成抽取結(jié)果準(zhǔn)確率高、召回率低;②SAO方法雖然能有效識(shí)別存在于專利中的命名實(shí)體線索,
但在根據(jù)這些線索判斷命名實(shí)體邊界時(shí)也引入了大量錯(cuò)誤,并對(duì)識(shí)別準(zhǔn)確度造成了災(zāi)難性的影響??紤]到專利命名實(shí)體識(shí)別中精確匹配的價(jià)值遠(yuǎn)大于重疊匹配,可以得出結(jié)論:在不需要命名實(shí)體標(biāo)注語(yǔ)料的命名實(shí)體識(shí)別方法中,PC-LDA的效果要顯著優(yōu)于SAO方法。
4.4 錯(cuò)誤分析
錯(cuò)誤分析是智能算法研究中至關(guān)重要的步驟,能夠幫助研究者理解和識(shí)別模型預(yù)測(cè)失敗的原因,從而優(yōu)化模型性能。從表2中可以看出,模糊匹配模式下PC-LDA的命名實(shí)體識(shí)別效果約為精確匹配的2倍,這反映出PC-LDA在抽取實(shí)體時(shí)候容易出現(xiàn)邊界判斷錯(cuò)誤的問(wèn)題,同時(shí)實(shí)體識(shí)別的準(zhǔn)確率也遠(yuǎn)高于召回率。為深入探究這些現(xiàn)象,筆者分別在未去停用詞和去掉停用詞的語(yǔ)料庫(kù)中訓(xùn)練PC-LDA,進(jìn)而對(duì)比分析在精確匹配和重疊匹配模式下的實(shí)體抽取效果,其中IPC層次設(shè)置為小組,詳情見(jiàn)圖8。這里需要指出的是,由于PC-LDA中實(shí)體類型以IPC號(hào)碼表示,并非TFH-2020中人工設(shè)置的實(shí)體類型,因此需要利用召回率測(cè)度實(shí)體識(shí)別效果。
從圖8中不難看出,當(dāng)使用去掉停用詞后的語(yǔ)料訓(xùn)練后,PC-LDA在實(shí)體識(shí)別效果普遍得到了提高,精確匹配模式下基于去掉停用詞的語(yǔ)料訓(xùn)練的PC-LDA相比未去停用詞訓(xùn)練的PC-LDA,其識(shí)別效果從13.2%提升至15.4%(F1值),而重疊匹配模式下的識(shí)別效果則從26.1%提升至30.1%(F1值)。這顯示出PC-LDA會(huì)在一定程度上將停用詞錯(cuò)判為實(shí)體或?qū)嶓w的一部分。
具體到單一專利文本上,這里以專利US4740855A為例,PC-LDA在該專利的摘要文本上所識(shí)別的重要詞匯如藍(lán)色字體所示。為方便對(duì)比,金標(biāo)準(zhǔn)中的實(shí)體用灰底方框標(biāo)出。
A magnetic thin-film head with layer-wise buildup on a nonmagnetic substrate is provided for a recording medium which can be magnetized perpendicularly (vertically), and contains a conduction body which carries the magnetic flux, and the magnet legs of which form a mainand an auxiliary pole. With these magnet legs which are arranged on the substrate with predetermined spacing side by side, a write/read coil windingis associated, the conductor turns of which extend through a spaceformed between the magnet legs. This magnetic head should be able to fly at a very small flying altitude above the recording and should at the same time be easy to realize in a thin film technique. To this end, it is provided that only the partially overlapping magnet legs serve as the magnetic conduction body, which are connected together in their common overlap zone, forming a magnetic return in a partial regionand are spaced outside of this return region, forming the intermediate space for the conductors.
從上面結(jié)果可以觀察到3種錯(cuò)誤類型:①完全漏標(biāo),如recording medium、small flying altitude、conductors等。②部分漏標(biāo),如magnetic thin-film head,其中head被遺漏;nonmagnetic substrate,其中substrate被遺漏。③將非實(shí)體的形容詞、副詞、動(dòng)詞等標(biāo)注出來(lái),如main、vertically、fly、carries等。對(duì)于第前兩種錯(cuò)誤類型,其原因在于使用IPC小組(在本專利US4740855A中,即G11B5/31和G11B5/127)對(duì)應(yīng)的詞匯分布進(jìn)行實(shí)體標(biāo)注,使得標(biāo)注內(nèi)容更加關(guān)注技術(shù)具體細(xì)節(jié),但實(shí)際上有些實(shí)體(如recording medium、conductor)由較為宏觀、上位的詞匯構(gòu)成,而這些詞匯存在于表1中G11B對(duì)應(yīng)的詞匯或者表2的G、G11、G11B對(duì)應(yīng)的詞匯列表中,因此在實(shí)體識(shí)別時(shí),需要將不同層次技術(shù)分類號(hào)對(duì)應(yīng)的重要詞匯進(jìn)行綜合考量后,才能覆蓋更多不同特點(diǎn)的實(shí)體;對(duì)于第三種錯(cuò)誤,其原因在于主題模型本身并未考慮詞匯的詞性屬性,但詞匯在構(gòu)成實(shí)體時(shí)需要遵從一定的規(guī)則,比如實(shí)體必須是名詞或名詞性短語(yǔ),形容詞、副詞、動(dòng)詞無(wú)法獨(dú)自構(gòu)成實(shí)體,因此在基于PC-LDA模型進(jìn)行實(shí)體抽取時(shí),需要輔以規(guī)則方法、通過(guò)后處理將不符合實(shí)體構(gòu)成要求的識(shí)別結(jié)果排除掉。
5 總結(jié)和前瞻/Conclusions and future work
對(duì)專利文本進(jìn)行實(shí)體識(shí)別以反映發(fā)明創(chuàng)新的實(shí)質(zhì)內(nèi)容是技術(shù)情報(bào)分析的基礎(chǔ)工作之一,然而在當(dāng)前實(shí)體識(shí)別范式下,識(shí)別工作需要代價(jià)高昂的標(biāo)注數(shù)據(jù)做支持才能獲得良好的效果,而且不同技術(shù)領(lǐng)域的標(biāo)注數(shù)據(jù)也難以跨領(lǐng)域共用,從而限制了專利實(shí)體識(shí)別技術(shù)的應(yīng)用和推廣。針對(duì)該問(wèn)題,筆者利用PC-LDA主題模型抽取不同層次技術(shù)分類號(hào)所對(duì)應(yīng)的主題—詞匯概率分布的特點(diǎn),提出一種無(wú)需實(shí)體標(biāo)注信息也可以進(jìn)行專利實(shí)體抽取的方法,即利用低層級(jí)技術(shù)分類號(hào)所對(duì)應(yīng)的重要詞匯中富含具體技術(shù)和實(shí)現(xiàn)細(xì)節(jié)的現(xiàn)象,將這些詞匯提取并拼接起來(lái)以實(shí)現(xiàn)無(wú)標(biāo)注信息的專利文本實(shí)體自動(dòng)識(shí)別。
在基于公開(kāi)專利數(shù)據(jù)基準(zhǔn)TFH-2020的實(shí)證分析中,基于PC-LDA的實(shí)體識(shí)別方法展示出遠(yuǎn)優(yōu)于SAO的性能;同時(shí)研究發(fā)現(xiàn),低層級(jí)技術(shù)分類號(hào)所訓(xùn)練出的PC-LDA在困惑度上要低于高層級(jí)技術(shù)分類號(hào),而最低層級(jí)技術(shù)分類號(hào)(即IPC的小組層級(jí))在這方面尤為明顯,基于最低技術(shù)分類號(hào)所訓(xùn)練出的PC-LDA在實(shí)體識(shí)別正確率上也遠(yuǎn)超其他層次技術(shù)分類號(hào)所訓(xùn)練的PC-LDA。這也從一個(gè)側(cè)面反映出隨著技術(shù)層級(jí)分類體系的復(fù)雜化,最低層級(jí)技術(shù)分類號(hào)提供的信息量要遠(yuǎn)大于其他層級(jí),在這一層級(jí)上準(zhǔn)確標(biāo)注和識(shí)別出對(duì)應(yīng)實(shí)體尤為重要。
不過(guò),基于PC-LDA的無(wú)標(biāo)注專利實(shí)體識(shí)別方法的識(shí)別效果還有較大提升空間,尤其在實(shí)體識(shí)別召回率上,通過(guò)錯(cuò)誤分析發(fā)現(xiàn),其原因一方面在于部分實(shí)體由較為宏觀、上位的詞匯構(gòu)成,這些詞匯并沒(méi)有出現(xiàn)在低層級(jí)技術(shù)分類號(hào)所對(duì)應(yīng)的重要詞匯中,而是存在于其上位技術(shù)分類號(hào)所對(duì)應(yīng)的重要詞匯中,因此在實(shí)體識(shí)別時(shí),需要將不同層次技術(shù)分類號(hào)對(duì)應(yīng)的重要詞匯綜合考量后,才能覆蓋更多不同特點(diǎn)的實(shí)體;另一方面,PC-LDA會(huì)將一些形容詞、副詞、動(dòng)詞和無(wú)實(shí)際含義的虛詞識(shí)別為實(shí)體或?qū)嶓w的組成部分,因此需要使用規(guī)則或詞表方法來(lái)輔助PC-LDA方法,以進(jìn)一步提升方法效果,這也是下一步工作的重點(diǎn)方向。
參考文獻(xiàn)/References:
[1] AKHONDI S A, KLENNER A G, TYRCHAN C, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): 1-8.
[2] PéREZ-PéREZ M, PéREZ-RODRíGUEZ G, VAZQUEZ M, et al. Evaluation of chemical and gene/protein entity recognition systems at BioCreative V.5: the CEMP and GPRO patents tracks[EB/OL].[2024-07-22]. https://biocreative.bioinformatics.udel.edu/media/store/files/2017/BioCreative_V5_paper2.pdf.
[3] CHEN L, XU S, ZHU L, et al. A deep learning based method for extracting semantic information from patent documents[J]. Scientometrics, 2020, 125(1): 289-312.
[4] The Stanford Natural Language Processing Group. Stanford Named Entity Recognizer (NER)[EB/OL].[2024-06-08].http://nlp.stanford.edu/software/CRF-NER.shtml.
[5] 英格索爾, 莫頓, 法里斯.駕馭文本:文本的發(fā)現(xiàn)、組織和處理[M].王斌, 譯.北京:電子工業(yè)出版社, 2015. (INGERSOLL G S, MORTON T S, FARRIS A L. Taming text: how to find, organize and manipulate it[M].Shelter Island: Manning Publications.)
[6] DEWULF S. Directed variation of properties for new or improved function product DNA: a base for connect and develop[J]. Procedia engineering, 2011(9): 646-652.
[7] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientometrics, 2012, 90(2): 515-529.
[8] YANG S Y, SOO V W. Extract conceptual graphs from plain texts in patent claims[J]. Engineering applications of artificial intelligence, 2012, 25(4): 874-887.
[9] CHOI S, KANG D, LIM J, et al. A fact-oriented ontological approach to SAO-based function modeling of patents for implementing function-based technology database[J]. Expert system with application, 2012, 39(10): 9129-9140.
[10] 薛馳, 邱清盈, 馮培恩, 等. 機(jī)械產(chǎn)品專利作用結(jié)構(gòu)知識(shí)提取方法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2013, 44(1): 222-229. (XUE C, QIU Q Y, FENG P E, et al. Acquisition method for principle solution of mechanical patent[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(1): 222-229.)
[11] BERGMANN I, BUTZKE D, WALTER L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D management, 2008, 38(5): 550-562.
[12] YANG C, ZHU D, WANG X, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017, 112(3): 1229-1248.
[13] MOEHRLE M G, WALTER L, GERITZ A, et al. Patent‐based inventor profiles as a basis for human resource decisions in research and development[J]. R&d management, 2005, 35(5): 513-524.
[14] GUO J, WANG X, LI Q, et al. Subject-action-object-based morphology analysis for determining the direction of technological change[J]. Technological forecasting and social change, 2016, 105:27-40.
[15] AN J, KIM K, MORTARA L, et al. Deriving technology intelligence from patents: preposition-based semantic analysis[J]. Journal of informetrics, 2018, 12(1): 217-236.
[16] 胡菊香, 呂學(xué)強(qiáng), 劉秀磊, 等.專利技術(shù)功效短語(yǔ)獲取研究[J].科學(xué)技術(shù)與工程, 2016, 16(14): 228-235.(HU J X, LV X Q, LIU X L, et al. Extracting technologies efficacy phrases of patent for research[J]. Science technology and engineering, 2016, 16(14): 228-235.)
[17]馬建紅, 張明月, 趙亞男.面向創(chuàng)新設(shè)計(jì)的專利知識(shí)抽取方法[J].計(jì)算機(jī)應(yīng)用, 2016, 36(2): 465-471.(MA J H, ZHANG M Y, ZHAO Y N. Patent knowledge extraction method for innovation design[J]. Journal of computer applications , 2016, 36(2): 465-471.)
[18] YOON J, KO N, KIM J. A function-based knowledge base for technology intelligence[J].Industrial engineering & management systems, 2015, 14(1): 73-87.
[19] HOI S, PARK H, KANG D, et al. An SAO-based text mining approach to building a technology tree for technology planning[J].Expert system with application, 2012, 39(13): 11443-11455.
[20] 王琰炎, 王裴巖, 蔡?hào)|風(fēng).一種用于專利實(shí)體的實(shí)體消歧方法[J].沈陽(yáng)航空航天大學(xué)學(xué)報(bào), 2015, 32(1): 77-83.(WANG Y Y, WANG P Y, CAI D F. An entity disambiguation method for patent entity[J].Journal of Shenyang Aerospace University, 2015, 32(1): 77-83.)
[21] WANG X, QIU P, ZHU D, et al. Identification of technology development trends based on subject-action-object analysis: the case of dye-sensitized solar cells[J].Technological forecasting and social change, 2015, 98: 24-46.
[22] SAAD F. Named entity recognition for biomedical patent text using Bi-LSTM variants[C]//Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services. New York: ACM Press, 2019: 617-621.
[23] ZHAI Z, NGUYEN D Q, AKHONDI S A, et al. Improving chemical named entity recognition in patents with contextualized word embeddings[J]. arXiv preprint, 2019, arXiv:1907.02679.
[24] SABER A, ALEXANDER G K, CHRISTIAN T, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): e107477.
[25] SABER A, HINNERK R, MARKUS S, et al. Automatic identification of relevant chemical compounds from patents[EB/OL]. [2024-06-30]. https://academic.oup.com/database/article-pdf/doi/10.1093/database/baz001/27636778/baz001.pdf.
[26] 邢曉昭, 苑朋彬, 陳亮, 等.面向技術(shù)識(shí)別的專利實(shí)體抽取研究——以類腦智能領(lǐng)域?yàn)槔齕J].情報(bào)雜志, 2024, 43(6): 126-133, 144.(XING X Z, YUAN P B, CHEN L, et al. Research on patent entity extraction for technology recognition: a case study of brain-inspired intelligence[J].Journal of intelligence, 2024, 43(6): 126-133, 144.)
[27] ZHANG H, ZHANG C, WANG Y, et al. Revealing the technology development of natural language processing: a scientific entity-centric perspective[J]. Information processing and management, 2024, 61(1): 103574.
[28] 章成志, 謝雨欣, 張恒, 等.學(xué)術(shù)文獻(xiàn)全文內(nèi)容中的方法實(shí)體細(xì)粒度抽取及演化分析研究[J].情報(bào)學(xué)報(bào), 2023, 42(8): 952-966. (ZHANG C Z, XIE Y X, ZHANG H, et al. Extraction and evolution analysis of fine-grained method entities from full text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(8): 952-966.)
[29] 白如江, 陳啟明, 張玉潔, 等.基于ChatGPT+Prompt的專利技術(shù)功效實(shí)體自動(dòng)生成研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2024, 8(4): 14-25. ( BAI R J, CHEN Q M, ZHANG Y J, et al. Generating effectiveness entities of patent technology based on ChatGPT+Prompt[J]. Data analysis and knowledge discovery, 2024, 8(4): 14-25.)
[30] 原之安, 彭甫镕, 谷波, 等. 面向標(biāo)注數(shù)據(jù)稀缺專利文獻(xiàn)的科技實(shí)體抽取[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版), 2021, 53(4): 61-68. (YUAN Z A, PENG F R, GU B, et al. Technology entity extraction of patent literature with limited annotated data[J]. Journal of Zhengzhou University(natural science edition), 2021, 53(4): 61-68.)
[31] 陳亮. 面向?qū)@治龅腜atent Classification LDA模型[J]. 情報(bào)學(xué)報(bào), 2016, 35(8): 864-874. (CHEN L. Patent classification LDA: topic model for patent analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(8): 864-874.)
[32] JELINEK F, MERCER R L, BAHL L R, et al. Perplexity: a measure of the difficulty of speech recognition tasks[J]. The journal of the Acoustical Society of America, 1977, 62(S1): S63-S63.
作者貢獻(xiàn)說(shuō)明/Author contributions:
陳 亮:論文構(gòu)思與方法設(shè)計(jì),文獻(xiàn)調(diào)研,代碼編寫(xiě),實(shí)證分析和論文撰寫(xiě);
尚瑋姣:論文思路梳理,實(shí)驗(yàn)數(shù)據(jù)整理與分析,論文撰寫(xiě);
余 池:文獻(xiàn)調(diào)研,材料整理和論文撰寫(xiě);
牟 琳:文獻(xiàn)調(diào)研,專利數(shù)據(jù)集整理和統(tǒng)計(jì),論文撰寫(xiě);
夏春姊:文章審閱,提出修改意見(jiàn)及論文修改;
葛 川:實(shí)體抽取相關(guān)算法的調(diào)研和梳理。
Research on Unsupervised Patent Entity Extraction Method Assisted by Technology Classification Codes
Chen Liang Shang Weijiao Yu Chi Mou Lin Xia Chunzi Ge Chuan
1Institute of Scientific and Technical Information of China, Beijing 100038
2Research Institute of Forestry Policy and Information, Chinese Academy of Forestry, Beijing 100091
3Shanxi Center of Science and Technology Intelligence and Strategic Studies, Taiyuan 030032
Abstract: [Purpose/Significance] Unsupervised method of patent entity extraction is capable of addressing the issue of previous methods that are highly dependent on labeled resources, thus promoting the widespread of artificial intelligence technology in the intellectual property field and improving the ability of patent information service. [Method/Process] By combining the inherent technology classification codes of patent documents with topic modeling, this study proposed a new method that utilizes patent classification code to guide the topic allocation process in patent text, thus extracting entities without annotation dataset. [Result/Conclusion] To demonstrate the advantages of our method, the empirical analysis was conducted using a patent dataset from the field of thin-film magnetic heads in hard disk drives, along with the IPC technology classification system. The experimental results show that there is a significant difference in the performance of entity extraction for different levels of technology classifications. Moreover, the entity extraction performance based on the fifth-level IPC technology classification code is far superior to the conventional Subject-Action-Object (SAO) method.
Keywords: entity extraction topic model patent mining patent classification code
Fund project(s): This work is supported by Shanxi Province Science and Technology Cooperation and Communication Special Project titled “Research and Development of Shanxi Province Research Project Similarity Monitoring Technology Based on Big Data and its Application Demonstration” (Granted No. 202204041101034).
Author(s): Chen Liang, associate research fellow, PhD; Shang Weijiao, engineer, master; Yu Chi, master candidate; Mou Lin, senior engineer, PhD; Xia Chunzi, assistant research fellow, master; Ge Chuan, research fellow, master, corresponding author, E-mail: 10600491@qq.com.
Received: 2024-03-12 Published: 2024-08-29