国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA模型的中藥專利內(nèi)容熱點領(lǐng)域分析方法

2019-06-07 15:08丁鵬斐吳建德
軟件導(dǎo)刊 2019年1期
關(guān)鍵詞:三七

丁鵬斐 吳建德

摘 要:為解決中藥材相關(guān)專利分類粗泛性、熱點研究領(lǐng)域不明確的問題,提高其主題分類時效性和科學(xué)性,分析明確中藥相關(guān)熱點領(lǐng)域。通過引入LDA主題模型對中藥材相關(guān)專利內(nèi)容進行分析,對中藥專利主題進行劃分,以中藥材“三七”為例,使用1萬條專利數(shù)據(jù)進行實驗。實驗結(jié)果表明,專利主體得到明確劃分,實現(xiàn)了熱門研究領(lǐng)域分類。基于LDA主題模型方法分析中藥相關(guān)專利,實現(xiàn)中藥專利領(lǐng)域主題細(xì)分、熱點子領(lǐng)域判斷,揭示了中藥專利熱門研究領(lǐng)域,實現(xiàn)了中藥相關(guān)產(chǎn)業(yè)未來發(fā)展趨勢的預(yù)測。

關(guān)鍵詞: LDA主題模型; 熱門技術(shù)領(lǐng)域; 中藥專利內(nèi)容分析; 三七

DOI:10. 11907/rjdk. 181746

中圖分類號:TP319文獻標(biāo)識碼:A文章編號:1672-7800(2019)001-0148-04

Abstract: To solve the crudeness of related patent classifications of Chinese herbal medicines and the unclear issues in the research field of related patent hotspots for Chinese herbal medicines, improve the timeliness and scientific nature of its subject classification, and identify the hot areas related to traditional Chinese medicine, this article analyzes the patent content of Chinese herbal medicines by the LDA theme model and divides the patent subject of traditional Chinese medicines. Taking Panax notoginseng as an example, 10 thousand patents are used for experiment. After? analyzing traditional Chinese medicine patent content of Sanqi by LDA theme model, we can achieve the subject division of Chinese medicine patents and issues will be resolved such as the overly broad classification of past patent topics, poor timeliness, and lack of scientific. Based on the LDA theme model, the hot research fields of Chinese medicine patents are portrayed and the development trend of traditional Chinese medicine is indicated.

0 引言

我國在中藥現(xiàn)代化過程中,除利用現(xiàn)代科學(xué)技術(shù)解釋古老的中醫(yī)藥原理外,還應(yīng)具備創(chuàng)新思維,積極發(fā)現(xiàn)新藥、新用途,才能保持勃勃生機。國家知識產(chǎn)權(quán)局規(guī)劃發(fā)展司2013年12月發(fā)布《中國區(qū)域產(chǎn)業(yè)專利密集度統(tǒng)計報告》,在全部41個工業(yè)大類中,醫(yī)藥制造業(yè)分別以2007-2011年28.6l件/萬人和2008-2012 年39.59件/萬人的專利密集度名列第5位,細(xì)化到與中藥直接或間接相關(guān)的工業(yè)種類時,專利密集度也在全部20個工業(yè)種類中名列前茅[1]。與中藥直接或間接相關(guān)專利的專利密集度在所有工業(yè)種類中屬于前列。目前對于中藥相關(guān)專利主題的分析研究通常以專利數(shù)據(jù)結(jié)構(gòu)化信息挖掘為主,而進行文本分析時,關(guān)鍵詞分析是最常見的主題分析方法,但是在專利文獻中并不包含關(guān)鍵詞字段,所以研究人員通常采用專利分類代碼進行分析研究[2],或?qū)χ兴幉南嚓P(guān)專利采用專利分類代碼替代專利關(guān)鍵詞進行技術(shù)主題分析[3]。這些方法主要存在以下局限性:中藥專利分類代碼不能與相對應(yīng)的技術(shù)領(lǐng)域充分契合,分類過于粗泛,需要深入專利文本內(nèi)容進行挖掘分析[4-7]。

本文采用LDA 主題模型可判斷文本的相關(guān)程度,從而識別大數(shù)據(jù)語料集背后潛藏的主題信息,其效果優(yōu)于混合主題模型等其它主題劃分方法[8-10]。LDA 模型對新興領(lǐng)域潛在主題分析研究具有明顯優(yōu)勢,在中藥相關(guān)專利新領(lǐng)域中所體現(xiàn)的前沿技術(shù)主題分析上也具有優(yōu)勢。本文采用LDA 主題模型與中藥材相關(guān)專利文本相結(jié)合,解決以往專利主題分類中的問題,采用語義分析的文本挖掘研究方式對中藥材相關(guān)專利進行文本分析研究。

1 中藥材專利主體分析

1.1 LDA主體模型

LDA (Latent Dirichlet Allocation)是一種文檔主題生成模型,是一個包含詞、主題和文檔3層結(jié)構(gòu)的貝葉斯概率模型[11-12]。其中文檔與主題、主體與主題詞分別服從多項分布。LDA是一種非監(jiān)督機器學(xué)習(xí),在訓(xùn)練時不需要人工標(biāo)注訓(xùn)練集,只需要指明文檔的主題數(shù)就可以分析識別潛藏在大規(guī)模文檔集或語料庫中的主題信息。LDA采用詞袋模型,即每一篇文章都是由一組詞構(gòu)成的集合,且詞與詞之間是無序的,詞的無序性降低了整個問題的復(fù)雜度[13]。在LDA模型中每一篇文檔代表一些主題所構(gòu)成的概率分布,在每一個主題中主題又代表了很多單詞所構(gòu)成的一個概率分布[14]。主題模型的主要前提假設(shè)是,一系列主題鏈接了一系列詞和文檔集合,而主題則可以理解為是字和詞的一種概率分布,采用概率推斷算法,是一種全概率生成過程[15]。每一篇文檔可以包含多個主題,文檔中的每一個詞都由主題生成。LDA是目前主要的主題生成模型,與其它生成式概率模型相比,使用Dirichlet 分布作為主題分布信息的先驗知識。文檔、主題以及詞可以表示為圖1。

圖1中,K為文檔主題個數(shù);M為文檔總數(shù);Nm為第m個文檔的詞的總數(shù); [β]為每個主題(Topic)下詞的多項分布的Dirichlet先驗參數(shù);[α]為每個文檔下主題的多項分布的Dirichlet先驗參數(shù);Zm,n為第m個文檔中第n個詞的主題;Wm,n為第m個文檔中的第n個詞;[θm]為第m個文檔下的主題的分布;[φk]為第k個主題下詞的分布[16]。

1.2 LDA主體模型應(yīng)用于專利文本

專利文本是一種比較特殊的文本,與一般文本相比具有結(jié)構(gòu)特殊、專業(yè)性強、領(lǐng)域詞匯較多等特點,因此與傳統(tǒng)文本分類方法相比,專利文本需要采用更有針對性的文本分類方法和文本分析方法[17]。在文本分析中,文本的表示直接影響到特征值選取,好的特征值選取方法可以提高分類方法效率,目前專利文本分類方法的文本表示都基于向量空間模型(Vector Space Model,VSM)算法[18]。本文采用LDA主體模型對專利摘要進行分析。深入挖掘?qū)@谋鹃g內(nèi)在關(guān)系,需要對當(dāng)前專利中所展現(xiàn)的技術(shù)特征應(yīng)用領(lǐng)域作進一步分析,有助于了解各細(xì)分主題專利主體的發(fā)展方向,判斷各細(xì)分市場專利知識主體地位,了解當(dāng)前領(lǐng)域內(nèi)技術(shù)發(fā)展動向。在LDA主題模型中分析計算的基數(shù)是詞頻,因此專利文件的詞頻可以被看作是表現(xiàn)專利主題的重要特征,而專利文獻的數(shù)據(jù)具有多元性,可進一步挖掘中藥材相關(guān)專利主題、專利技術(shù)應(yīng)用領(lǐng)域的潛在關(guān)系。通過LDA主題模型得到專利—主題、主題—特征詞的概率分布,從多個角度深入分析專利文本,得出專利技術(shù)發(fā)展動向。

1.3 中藥專利LDA主體模型應(yīng)用實現(xiàn)

專利文本的特殊性使其并不具有類似于期刊論文的關(guān)鍵詞字段,從而需要從專利文本中提取主題詞。根據(jù)專利文本特性,著重對專利摘要進行分析。專利摘要包含其所屬技術(shù)領(lǐng)域、需解決的技術(shù)問題、主要技術(shù)特征和用途。本文對從專利數(shù)據(jù)庫中獲取的“三七”相關(guān)專利數(shù)據(jù)摘要進行處理。

首先對專利數(shù)據(jù)進行去噪。由于檢索式不精確,從數(shù)據(jù)庫中獲取的“三七”中藥材專利文獻中有少數(shù)不相關(guān)專利數(shù)據(jù)。因為對具有大量數(shù)據(jù)的專利數(shù)據(jù)進行人工去噪,將會浪費大量時間,所以本文以字符串對比的方法進行初步數(shù)據(jù)處理,通過對比剔除摘要中明顯不屬于“三七”專利的文本數(shù)據(jù)。中藥材專利摘要中存在許多特定的詞匯、單位、數(shù)字,例如外觀設(shè)計、設(shè)計、第一、當(dāng)歸、甘草、黃芪、紅花等,會嚴(yán)重影響LDA主題分析,對分析熱門技術(shù)領(lǐng)域有很大影響,所以需要對初步去噪的摘要文本進行去停用詞分詞。本文采用jieba分詞對文本進行處理,將專利文本中常用的不具有實際意義的量詞、連接詞、專用詞組去除,切割形成一個“三七”摘要的詞頻矩陣,運用LDA對專利摘要進行處理,提取出“三七”專利的主題模型。然后對“三七”專利主題模型的特征詞進行評估,如果特征不明顯或者有明顯錯誤則對所采集專利數(shù)據(jù)進行再清洗,直至得到準(zhǔn)確明顯的特征詞。專利文本分析具體流程見圖2。

2 實驗與分析

以含有“三七”中藥材的專利數(shù)據(jù)為研究對象,在智慧芽數(shù)據(jù)庫中,以“主題=三七 AND”為檢索式進行檢索,“時間跨度=所有年份”,更新至2018年3月20 日,下載“三七”直接相關(guān)技術(shù)10 000 項。通過該數(shù)據(jù)將LDA主題模型應(yīng)用于中藥相關(guān)專利分析,并進行可操作性和有效性檢驗。

2.1 數(shù)據(jù)來源

研究數(shù)據(jù)來自于智慧芽專利數(shù)據(jù)庫。該數(shù)據(jù)庫包括中國、美國、歐洲專利局、世界知識產(chǎn)權(quán)局等專利信息,涵蓋了全球一億多個專利數(shù)據(jù)。采用該數(shù)據(jù)庫的主要原因是: 數(shù)據(jù)庫提供專利的所有字段信息,且提供完整的摘要和全文,并對以上專利信息進行了標(biāo)準(zhǔn)化處理。采用該數(shù)據(jù)庫,便于獲取專利摘要、權(quán)利要求等文本的標(biāo)準(zhǔn)化信息,能夠有效提高提取專利中技術(shù)詞的效率,因此能夠使專利主題詞抽取結(jié)果更有意義,直接影響用LDA模型對專利文本數(shù)據(jù)處理分析的結(jié)果。

2.2 文本聚類分析

以往對專利文本處理通常使用文本聚類的方法。本文采用文本聚類中非常成熟的K-means算法,對“三七”專利摘要進行聚類,提取“三七”目前的主要熱門技術(shù)。為了盡可能區(qū)分“三七”不同的研究領(lǐng)域,根據(jù)其主流研究方向?qū)⒕垲悅€數(shù)設(shè)為6個,通過對“三七”摘要文本的聚類,測試K-means算法是否符合目前幾大研究方向。聚類結(jié)果見圖3,不同顏色和形狀的標(biāo)志代表各個不同類簇(彩圖見封底)。

由圖3可以看出聚類效果并不明顯,幾個簇是相交包含關(guān)系,不能清晰區(qū)分出目前“三七”專利主要涉及領(lǐng)域,不能有效指出“三七”熱門技術(shù)領(lǐng)域。通過聚類分析可以看出,傳統(tǒng)的文本聚類方法具有不確定性,聚類結(jié)果不穩(wěn)定,達不到對具體研究領(lǐng)域細(xì)分的效果。

2.3 LDA模型分析結(jié)果

本文以中藥材“三七”的專利數(shù)據(jù)作為研究對象,以驗證LDA對整個中藥專利技術(shù)熱點的分析結(jié)果。通過對實驗數(shù)據(jù)處理,再以LDA主體模型進行測試,得出“三七”專利數(shù)據(jù)摘要中的高頻主題詞。高頻主題詞主要為:混合物、制劑、提取物、止血、止痛、系統(tǒng)、飼料、種植、毒副作用、保健、食用、人參、藥物。這些高頻詞反映了目前“三七”應(yīng)用研究的主要領(lǐng)域,所以通過對“三七”專利摘要進行分詞抽取能很好地反映專利主題內(nèi)容。

LDA主體模型是全概率生成模型,對“三七”相關(guān)專利進行主題劃分,主題數(shù)通常由人為定義,所以定義主題數(shù)可能會嚴(yán)重影響實驗結(jié)果。本文對“三七”專利數(shù)據(jù)主題劃分設(shè)立了8個主題,通過實驗比較發(fā)現(xiàn)主題數(shù)設(shè)為8時,其主題見表1。

通過對比發(fā)現(xiàn),當(dāng)主題數(shù)設(shè)為6時,其主題主要體現(xiàn)了藥用、保健飲食、“三七”加工設(shè)備、“三七”制備工藝、養(yǎng)殖種植等領(lǐng)域,沒有體現(xiàn)“三七”在生活用品中的應(yīng)用;當(dāng)主題數(shù)小于6時,主題區(qū)分度過低,且不能充分反映“三七”專利包含的技術(shù)領(lǐng)域;當(dāng)主題數(shù)大于9時,就會出現(xiàn)多個主題相近、主題區(qū)分過細(xì)、多個主題屬于一個大主題的情況。所以主題數(shù)設(shè)為8個,剛好反映了當(dāng)前“三七”中藥材相關(guān)專利所包含的主要應(yīng)用領(lǐng)域,并且細(xì)分了三七作為醫(yī)藥對應(yīng)的幾個主要應(yīng)用領(lǐng)域,為分析“三七”當(dāng)前研究的熱門技術(shù)領(lǐng)域提供了充分支持。

猜你喜歡
三七
超聲輔助提取結(jié)合高效液相色譜
三七的炮制研究與規(guī)范
河间市| 财经| 靖宇县| 繁峙县| 靖远县| 施秉县| 鸡西市| 鹤庆县| 乌兰浩特市| 上蔡县| 清涧县| 固阳县| 瑞昌市| 江陵县| 武隆县| 江阴市| 罗山县| 九龙坡区| 贵南县| 延川县| 共和县| 楚雄市| 阳春市| 虎林市| 富蕴县| 治多县| 英德市| 丹阳市| 文水县| 遂宁市| 壶关县| 团风县| 陇南市| 图片| 达拉特旗| 平顶山市| 比如县| 特克斯县| 海伦市| 莲花县| 凤城市|