馬建紅,王晨曦,閆 林,姚 爽
(1. 河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2. 天津工創(chuàng)科技發(fā)展有限公司,天津 300000)
技術(shù)主題代表技術(shù)文獻(xiàn)的主要內(nèi)容,其演變遵循著特殊的內(nèi)在規(guī)律。掌握技術(shù)主題的演化規(guī)律,對(duì)企業(yè)來說,能夠把控技術(shù)研究現(xiàn)狀、洞察發(fā)展趨勢(shì);對(duì)國(guó)家來說,能夠把握技術(shù)演變的方向、引導(dǎo)相關(guān)產(chǎn)業(yè)占領(lǐng)技術(shù)高地,保護(hù)國(guó)家的戰(zhàn)略利益。所以,研究產(chǎn)品技術(shù)文獻(xiàn)的技術(shù)演變、分析技術(shù)主題的演化規(guī)律具有重要意義。專利作為極具代表性的技術(shù)文獻(xiàn),幾乎承載了產(chǎn)品所有的技術(shù)信息,其內(nèi)容準(zhǔn)確,技術(shù)性強(qiáng),伴隨著每個(gè)產(chǎn)品的生命周期。如何利用科學(xué)有效的分析框架對(duì)數(shù)量龐大的專利進(jìn)行準(zhǔn)確高效的分析,對(duì)產(chǎn)品的技術(shù)主題演化分析有著重要的意義。
為刻畫專利中的技術(shù)趨勢(shì),揭示技術(shù)演化的過程,不同的研究人員從不同的角度提出了很多研究方法。有學(xué)者嘗試?yán)脤@姆诸悓傩宰鳛槠浼夹g(shù)主題,例如,融合IPC 分類號(hào)、專利申請(qǐng)人等特征,分析某個(gè)產(chǎn)品相關(guān)專利的演化趨勢(shì)[1]。但專利技術(shù)主題眾多,而技術(shù)主題的識(shí)別度不高,勢(shì)必會(huì)影響主題演化的精確性。為更準(zhǔn)確地挖掘?qū)@募夹g(shù)主題,有學(xué)者使用共現(xiàn)網(wǎng)絡(luò)[2]和圖[3]等方式研究主題,但是這類方法會(huì)出現(xiàn)時(shí)滯,無法保證主題演化的延續(xù)性。為兼顧主題的多樣性以及時(shí)間特征,使用SAO(subject-action-object) 結(jié)構(gòu)語義相似度識(shí)別[4]、主題模型[5]或主題聚類[6-7]等方式從數(shù)據(jù)集中挖掘主題。但對(duì)于專利這種技術(shù)特點(diǎn)明顯的語料,上述方法普遍效果較差。在專利技術(shù)主題演化分析方面,借助技術(shù)主題的時(shí)間信息,使用詞對(duì)分析[8]、語義監(jiān)督[9]、時(shí)間序列分析[10]等方法分析技術(shù)主題演化趨勢(shì)。但隨機(jī)性是技術(shù)創(chuàng)新過程中的普遍現(xiàn)象,這些分析方法容易忽視技術(shù)創(chuàng)新過程的隨機(jī)性,以及產(chǎn)品發(fā)展過程中的動(dòng)態(tài)主題。
現(xiàn)有的主題演化分析模型,基本上都是采用概率主題模型或者聚類模型分析主題的時(shí)間特征,得到技術(shù)主題演化趨勢(shì)。對(duì)于專利文本,不同產(chǎn)品生命周期的專利主題信息所起到的作用不同,產(chǎn)品發(fā)展前期專利主題信息容易被大量數(shù)據(jù)所淹沒,造成產(chǎn)品技術(shù)主題演化分析的結(jié)果不準(zhǔn)確;現(xiàn)有主題提取算法大多同等對(duì)待每個(gè)特征詞,而不同的詞匯對(duì)主題產(chǎn)生的貢獻(xiàn)是不同的,對(duì)于專利文本,這種問題尤為突出。
針對(duì)上述問題,本文在專利的基礎(chǔ)上,利用產(chǎn)品生命周期和改進(jìn)權(quán)值的W-LDA (weighted latent Dirichlet allocation)主題模型[11-12]以及基于相似度的階段主題演化分析方法[13]構(gòu)建一種基于產(chǎn)品生命周期的專利技術(shù)主題演化分析模型。該模型克服了主題提取結(jié)果的技術(shù)代表性差的問題,并通過產(chǎn)品生命周期得到隱含的主題信息,深度研究產(chǎn)品發(fā)展周期的主題語義信息,能夠更加準(zhǔn)確地分析產(chǎn)品的發(fā)展趨勢(shì)。
產(chǎn)品的發(fā)展過程大致可以劃分為嬰兒期、成長(zhǎng)期、成熟期、衰退期四個(gè)階段[14]。本文根據(jù)專利數(shù)量的增長(zhǎng)規(guī)律,對(duì)產(chǎn)品生命周期不同的階段進(jìn)行劃分(圖1)。
圖1 產(chǎn)品生命周期與專利數(shù)量的關(guān)系
(1)嬰兒期:專利新增數(shù)量較少,產(chǎn)品處于起步階段,專利數(shù)量曲線斜率接近于零,但始終有該產(chǎn)品的專利出現(xiàn),研究重點(diǎn)在于技術(shù)的產(chǎn)品化,表明該產(chǎn)品處于其生命周期的嬰兒期。
(2)成長(zhǎng)期:專利新增數(shù)量先是振蕩上升,之后趨于穩(wěn)定,專利數(shù)量曲線斜率大于零,新的研究主題不斷涌現(xiàn),核心技術(shù)不斷迭代,后期出現(xiàn)部分彌補(bǔ)缺陷專利。
(3)成熟期:專利新增數(shù)量呈快速增長(zhǎng)趨勢(shì),專利數(shù)量曲線斜率進(jìn)一步增加,研究主題數(shù)量趨于穩(wěn)定,但仍處于增長(zhǎng)態(tài)勢(shì),專利新增數(shù)量維持在一個(gè)較高的水平,主題內(nèi)容開始大量向成本和彌補(bǔ)缺陷方向發(fā)展。
(4)衰退期:專利新增數(shù)量呈遞減趨勢(shì),專利數(shù)量曲線斜率小于零,基本沒有新的研究主題出現(xiàn),表明該產(chǎn)品正在衰退。
生命周期可以結(jié)構(gòu)性地描繪產(chǎn)品技術(shù)主題的演化[15]。專利的主題作為產(chǎn)品不同階段發(fā)展的體現(xiàn),其生命周期與產(chǎn)品的發(fā)展周期基本一致,都包括產(chǎn)生、發(fā)展、成熟和消失四個(gè)過程。由于主題以詞語作為表現(xiàn)手段,詞語的含義和其構(gòu)成的多樣性、復(fù)雜性就決定了主題在體現(xiàn)產(chǎn)品技術(shù)發(fā)展時(shí)的具體性和多樣性。
隨著產(chǎn)品生命周期的不斷發(fā)展,產(chǎn)品的技術(shù)主題會(huì)不斷發(fā)生變化,產(chǎn)品技術(shù)主題的語義信息會(huì)不斷豐富,產(chǎn)品技術(shù)的演化速度也會(huì)不斷加快。產(chǎn)品技術(shù)主題的構(gòu)成由比較孤立的詞匯逐漸向多個(gè)詞匯組合演變,發(fā)生主題演化,在上一階段主題的基礎(chǔ)上發(fā)生復(fù)雜的分化和融合。
在主題演化分析的過程中,容易忽略細(xì)粒度的主題信息,難以把握產(chǎn)品技術(shù)主題的發(fā)展脈絡(luò)。使用產(chǎn)品生命周期,能結(jié)構(gòu)化地分析主題演化,了解產(chǎn)品不同發(fā)展階段中技術(shù)主題的變化,以及階段間的聯(lián)系,為把握產(chǎn)品的發(fā)展提供合理有效的研究方法,從而得到產(chǎn)品生命周期的技術(shù)主題發(fā)展信息,而局部的主題演化信息又可以引導(dǎo)產(chǎn)品生命周期的劃分。產(chǎn)品生命周期與主題演化分析密切相關(guān),兩者共同構(gòu)建基于產(chǎn)品生命周期的專利技術(shù)主題演化模型。
基于產(chǎn)品生命周期的專利技術(shù)主題演化模型主要分為三個(gè)部分,產(chǎn)品生命周期劃分、產(chǎn)品專利技術(shù)主題提取MW-LDA(multiple weighted latent Dirichlet allocation)模型構(gòu)建以及產(chǎn)品專利技術(shù)主題演化分析方法。如圖2 所示,利用專利文獻(xiàn)增長(zhǎng)規(guī)律以及局部主題信息進(jìn)行專利產(chǎn)品生命周期的劃分;構(gòu)建產(chǎn)品專利技術(shù)主題提取MW-LDA 模型,得到各階段主題語義信息;構(gòu)建產(chǎn)品技術(shù)主題向量,通過階段間技術(shù)向量的關(guān)聯(lián)程度,分析產(chǎn)品專利技術(shù)主題的演化規(guī)律。
圖2 基于產(chǎn)品生命周期的專利技術(shù)主題演化模型
首先利用擬合算法生成專利發(fā)表量與年份的擬合曲線,根據(jù)產(chǎn)品生命周期以及專利數(shù)量增長(zhǎng)規(guī)律劃分產(chǎn)品的生命周期。但是僅根據(jù)專利數(shù)量增長(zhǎng)規(guī)律來劃分,不僅理論上難以完全契合,而且往往與實(shí)際情況不相符。細(xì)粒度的主題信息更能代表生命周期的變化,因此,本文融合這兩種模式來刻畫產(chǎn)品生命周期,基于局部語義信息,使用滑動(dòng)窗口的方式,分析局部主題語義相似度,進(jìn)行生命周期劃分的調(diào)整,如圖3 所示。
圖3 產(chǎn)品生命周期劃分機(jī)制
(1)利用文獻(xiàn)信息統(tǒng)計(jì)方法統(tǒng)計(jì)產(chǎn)品的專利數(shù)量信息及其變化,分析產(chǎn)品專利數(shù)量信息的增長(zhǎng)趨勢(shì),通過每年專利發(fā)表量,利用曲線擬合算法,得到專利發(fā)表量年代分布擬合曲線。
(2)根據(jù)產(chǎn)品生命周期,利用專利發(fā)表量年代分布擬合曲線,進(jìn)行產(chǎn)品生命周期的初步劃分,得到三個(gè)初始節(jié)點(diǎn)。
(3)以上一階段得到的每個(gè)初始節(jié)點(diǎn)為中心,在閾值范圍之內(nèi)劃分一個(gè)時(shí)間區(qū)間,作為節(jié)點(diǎn)調(diào)整的范圍。
(4)以滑動(dòng)窗口算法(sliding window algorithm)的方式在時(shí)間區(qū)間內(nèi)劃過,設(shè)定滑動(dòng)窗口的大小為2,計(jì)算每個(gè)滑動(dòng)窗口的主題間的平均相似度,相似度最小的即為調(diào)整后的階段劃分節(jié)點(diǎn),公式為
主題模型中LDA(latent Dirichlet allocation)算法是一種混合概率增長(zhǎng)模型,通過最大化詞語的共現(xiàn)概率尋找主題詞聚類,利用Dirichlet 先驗(yàn)分布刻畫文檔生成過程,并限定文檔的主題數(shù)量,避免其他概率過擬合以及參數(shù)過多問題,從而高效提取文檔的隱含主題,并對(duì)文檔進(jìn)行聚類。
如圖4 所示,M代表文檔,N代表詞,K代表主題,共同組成了LDA 主題模型的三層結(jié)構(gòu)。θ代表文檔中主題的概率,由參數(shù)α控制。φ代表主題中特征詞的概率,由參數(shù)β控制。在文檔數(shù)據(jù)集中,將所有文檔劃分為一系列特征詞集合,LDA 主題模型采用吉布斯抽樣方法把文檔概率性地分配給各個(gè)主題,具體公式為
圖4 MW-LDA模型
LDA 模型的特點(diǎn)是不關(guān)注特征詞的語義區(qū)別,同等對(duì)待不同的特征詞。然而,不同的特征詞對(duì)主題的代表作用具有差異,在采用LDA 模型進(jìn)行主題提取的過程中,得到的主題會(huì)向高頻特征詞傾斜,導(dǎo)致能夠代表文檔主題的核心特征詞被代表性較差的特征詞淹沒,降低LDA 模型訓(xùn)練結(jié)果對(duì)文檔主題的代表性。而僅借助停用詞進(jìn)行處理只能過濾掉部分表意能力極差的特征詞,而且這種直接過濾的方式并不適用于表意能力較差的詞匯。
進(jìn)一步將LDA 模型用于主題提取時(shí),發(fā)現(xiàn)不同的特征詞對(duì)主題提取的影響是不同的。如果賦予區(qū)分能力比較強(qiáng)的以及語義信息比較重要的特征詞較大的權(quán)重,同時(shí),賦予區(qū)分能力比較差的以及語義信息比較不重要的特征詞較小的權(quán)重,能簡(jiǎn)單高效地抑制噪聲特征對(duì)主題提取結(jié)果產(chǎn)生的不利影響。
因此,W-LDA 應(yīng)運(yùn)而生,該模型認(rèn)為特征詞的生成不僅受概率影響,還與特征詞對(duì)文檔的重要性相關(guān)。為此,利用特征詞權(quán)重W改進(jìn)吉布斯采樣公式,對(duì)不同的特征詞在不同的主題下賦予不同的權(quán)重,改進(jìn)LDA 模型生成特征詞的概率,公式推導(dǎo)為
其中,W(ωi,d)權(quán)重公式的計(jì)算方式?jīng)Q定了結(jié)果的合理性。TF-IDF (term frequency-inverse document frequency)是目前被廣泛采用的權(quán)值計(jì)算公式,該方法從特征詞頻的角度考慮,特征詞在文檔中出現(xiàn)次數(shù)越多,表示該特征項(xiàng)越可以更好地代表該類別的信息;從反特征詞頻的角度考慮,認(rèn)為在少數(shù)文檔中出現(xiàn)的特征詞比在多數(shù)文檔中出現(xiàn)的特征詞能更好地區(qū)分類別。
但是,基于TF-IDF 的加權(quán)策略依然存在較大問題。首先,需要利用去除停用詞等技術(shù)來解決TFIDF 向量過大,以及由詞匯數(shù)量所導(dǎo)致的稀疏問題。停用詞代表著常見卻缺乏實(shí)際含義的詞匯。對(duì)于加權(quán)工作影響比較大的便是TF-IDF 沒有考慮詞匯本身的特征,對(duì)于特殊文本數(shù)據(jù)來說缺陷明顯。
因此,本文針對(duì)產(chǎn)品專利文本數(shù)據(jù),根據(jù)專利文本的技術(shù)性強(qiáng)、體系結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)奶攸c(diǎn),提出MWLDA 的專利技術(shù)主題提取方法,通過改進(jìn)LDA 模型生成特征詞的過程,監(jiān)督吉布斯采樣的過程,以提高LDA 模型所生成主題的技術(shù)代表性。
其中,最重要的就是本文提出的新的加權(quán)策略。對(duì)于產(chǎn)品專利文本,本文融合特征詞的位置信息、語義信息、區(qū)分能力等,構(gòu)建復(fù)合權(quán)值。本文將互信息引入原始的TF-IDF 計(jì)算公式,通過互信息衡量某個(gè)特征詞和主題之間的關(guān)聯(lián)關(guān)系,并融合位置與語義信息進(jìn)行權(quán)重增益,權(quán)重公式為
其次,主題提取的效果不僅與主題提取的方法有關(guān),而且與預(yù)設(shè)的主題數(shù)目K值的選取密切相關(guān),不同的K值影響了后續(xù)的產(chǎn)品技術(shù)主題的演化分析?,F(xiàn)有的主題模型,大多繪制困惑度(perplexity)曲線,根據(jù)曲線選取模型困惑度相對(duì)最小的K值作為主題數(shù),并以此來衡量主題模型的好壞。而困惑度曲線往往是一條不斷下降的曲線,如果選取的K值偏大,就會(huì)導(dǎo)致主題之間相似度較大,影響主題演化分析。所以,本文采用主題一致性(topic coherence)來確定最優(yōu)主題數(shù),并評(píng)價(jià)主題模型,公式為
隨著產(chǎn)品生命周期的進(jìn)行,技術(shù)的分化與交叉融合不斷加快,相對(duì)應(yīng)地,生命周期階段間的主題也發(fā)生了不同程度的分化與交叉融合,這種變化就是階段間主題關(guān)聯(lián)演化。產(chǎn)品專利技術(shù)主題演化指的是階段主題間隨著產(chǎn)品生命周期發(fā)生的變化,是分析產(chǎn)品專利技術(shù)主題演化的關(guān)鍵。階段主題間的演化路徑可以通過相鄰階段主題間的語義相似度來分析,不同的相似度代表不同階段主題的相關(guān)程度,可以識(shí)別主題之間的演化路徑,主要有繼承、融合和分化三種主要演化方向,如圖5 所示。
圖5 主題演化分析方法
(1)繼承:根據(jù)產(chǎn)品生命周期的先后,相鄰階段的主題之間有較高的相似度,代表了下一階段的主題延續(xù)了上一階段的語義信息,發(fā)生了主題繼承。
(2)分化:根據(jù)產(chǎn)品生命周期的先后,上一階段的主題與下一階段的多個(gè)主題有較高的相似度,代表了下一階段的多個(gè)主題由上一階段的主題分化產(chǎn)生,這些主題之間發(fā)生了主題分化。
(3)融合:根據(jù)產(chǎn)品生命周期的先后,上一階段的多個(gè)主題與下一階段的主題有較高的相似度,代表了下一階段的主題由上一階段多個(gè)主題融合產(chǎn)生,這些主題之間發(fā)生了主題融合。
在實(shí)際案例中,分化和融合往往是同時(shí)存在且相輔相成的。在概率主題模型中,主題指在語義信息上與主題相關(guān)的一組詞及其權(quán)重構(gòu)成的向量組合,T=(p(ω1|T),p(ω2|T),…,p(ωi|T)),所以對(duì)于產(chǎn)品生命周期階段間技術(shù)主題的演化分析,使用主題間帶權(quán)重的余弦相似度來度量,對(duì)于主題T1和T2來說,
為驗(yàn)證本文構(gòu)建的基于產(chǎn)品生命周期的專利技術(shù)主題演化分析模型的有效性,選取電動(dòng)車輛動(dòng)力裝置的相關(guān)專利,檢索時(shí)間為1994—2017 年。經(jīng)過去重、去除與主題無關(guān)的專利、去除無效專利等數(shù)據(jù)預(yù)處理,最終獲得電動(dòng)車輛動(dòng)力裝置專利語料27198 篇。再通過對(duì)原始語料庫(kù)進(jìn)行中文分詞等自然語言處理,獲得最終的實(shí)驗(yàn)用語料庫(kù)。
根據(jù)1994—2017 年每年的專利發(fā)表量,繪制年份和年專利發(fā)表量的擬合曲線,如圖6 所示。從圖6 可知,電動(dòng)車輛動(dòng)力裝置的專利發(fā)表量呈現(xiàn)快速增長(zhǎng)態(tài)勢(shì)。為了更細(xì)致地刻畫電動(dòng)車輛動(dòng)力裝置的生命周期,基于專利發(fā)表量曲線,結(jié)合產(chǎn)品生命周期,將電動(dòng)車輛動(dòng)力裝置的發(fā)展分為以下兩個(gè)階段。
圖6 專利發(fā)表量擬合曲線
(1)嬰兒期:1994—2004 年。這一階段該產(chǎn)品的年專利發(fā)表量在500 篇以內(nèi),專利發(fā)表的年增長(zhǎng)量較低,說明該產(chǎn)品只是剛剛起步,處于嬰兒期。
(2)成長(zhǎng)期:2005—2017 年。這一階段該產(chǎn)品的年專利發(fā)表量在500 篇以上,專利發(fā)表的年增長(zhǎng)量較高,甚至快速上升,發(fā)文量逐漸增長(zhǎng)到了嬰兒期的數(shù)倍。
根據(jù)以上分析,階段的劃分節(jié)點(diǎn)node 處于2003年和2004 年之間。但是,專利發(fā)表量只是刻畫產(chǎn)品生命周期的一個(gè)方面,要想更細(xì)致、更精確地刻畫電動(dòng)車輛動(dòng)力裝置的生命周期,還需要利用局部主題語義信息。
以階段劃分節(jié)點(diǎn)node 為中心,選取一個(gè)長(zhǎng)度為6 的時(shí)間區(qū)間。以滑動(dòng)窗口算法的方式在時(shí)間區(qū)間內(nèi)劃過,設(shè)定滑動(dòng)窗口的大小為2,計(jì)算每個(gè)滑動(dòng)窗口的主題間的平均相似度(ESC),結(jié)果如表1 所示。
表1 各窗口的ESC值
由表1 可知,階段劃分節(jié)點(diǎn)應(yīng)該移動(dòng)到2004 年與2005 年之間。
對(duì)不同周期的專利,使用本文提出的MW-LDA技術(shù)主題提取方法分別進(jìn)行主題提取,并使用主題一致性分?jǐn)?shù)曲線確定K值。主題一致性分?jǐn)?shù)是融合了主題間相似度的評(píng)判指標(biāo),相比于困惑度,能更好地衡量LDA 的主題提取的結(jié)果。當(dāng)主題一致性分?jǐn)?shù)指標(biāo)最大時(shí),主題抽取的結(jié)果最合理。實(shí)驗(yàn)結(jié)果如圖7、圖8 所示,最優(yōu)主題數(shù)分別為35 和80。
圖7 嬰兒期主題一致性分?jǐn)?shù)
圖8 成長(zhǎng)期主題一致性分?jǐn)?shù)
相鄰階段主題間的相似度可以代表產(chǎn)品生命周期演化趨勢(shì),結(jié)合經(jīng)驗(yàn),閾值選取0.2,得到相似度大于閾值的主題組合,繪制圖譜,分析階段間產(chǎn)品技術(shù)主題演化趨勢(shì)。電動(dòng)車輛動(dòng)力裝置的技術(shù)主題部分語義演化現(xiàn)象如圖9 所示,其中每個(gè)主題下面的主題詞用最能代表該主題語義信息的5 個(gè)詞組成。
從圖9 可以看出,該產(chǎn)品主題在成長(zhǎng)期產(chǎn)生了大量新的主題,并且很多嬰兒期的主題發(fā)生了不同程度的融合、分化和繼承。具體規(guī)律如下。
圖9 主題演化分析
(1) 分化:燃料電池(燃料電池、能量、燃料、供給、消耗)分化為了燃料電池原材料(燃料電池、燃料、空氣、氣體、氫氣)以及儲(chǔ)能回收(能量、儲(chǔ)能、回收、推進(jìn)、吸收)兩個(gè)方向。
(2)融合:在嬰兒期和成長(zhǎng)期的過渡當(dāng)中,產(chǎn)品技術(shù)主題的融合不是單獨(dú)發(fā)生的,往往伴隨著產(chǎn)品技術(shù)主題的分化,兩者相輔相成。電動(dòng)汽車太陽能(電動(dòng)汽車、電能、太陽能、轉(zhuǎn)向、耦合)和蓄電裝置(電壓、蓄電池、溫度、直流電、交流電)發(fā)生了分化與融合,演化為電能儲(chǔ)備(電能、轉(zhuǎn)換、能源、儲(chǔ)存、用電)、太陽能電池板(蓄電池、太陽能、電池板、車體、車頂)、電動(dòng)汽車電瓶(電動(dòng)汽車、電瓶、二極管、輸出、三極管)以及電路電壓(電壓、模式、低電壓、切換、開路)等四個(gè)主題。
(3) 繼承:機(jī)動(dòng)車的控制電路(電路、電容器、機(jī)動(dòng)車、控制電路、串聯(lián))演化為(電路、信號(hào)、控制電路、單片機(jī)、電平),出現(xiàn)了繼承,并產(chǎn)生了技術(shù)更新,技術(shù)側(cè)重點(diǎn)發(fā)生改變。
除此之外,還產(chǎn)生了許多與上一階段無關(guān)的主題,如電路保護(hù)裝置(保護(hù)、鋰離子、安全性、電路板、保護(hù)裝置)和成本優(yōu)化(技術(shù)、節(jié)能、成本、燃油、設(shè)計(jì))等。
在以電動(dòng)車輛動(dòng)力裝置的語料為實(shí)驗(yàn)對(duì)象的情況下,分別針對(duì)主題提取的效果以及演化分析的效果進(jìn)行實(shí)驗(yàn)對(duì)比分析,從不同角度驗(yàn)證本文所提出的基于產(chǎn)品生命周期的專利技術(shù)主題演化分析模型的有效性。
首先,為了驗(yàn)證本文所提出MW-LDA 的有效性,我們選擇與AD-LDA (approximate distributed LDA)[11]以及G-LDA(Gaussian LDA)[16]兩種模型進(jìn)行對(duì)比。在對(duì)比實(shí)驗(yàn)中,所有模型的Dirichlet 超參數(shù)α=50/K,β=0.1,主題數(shù)設(shè)為K=35, 80。如圖10 所示,分別在不同的階段、不同的主題數(shù)量K值下,得到不同模型的主題一致性分?jǐn)?shù),以對(duì)比不同模型的主題提取效果。主題一致性得分越高,主題提取效果越好,因此,本文所使用的主題提取算法均優(yōu)于其他算法。
圖10 三種模型主題提取效果對(duì)比
其次,為了評(píng)估本文基于產(chǎn)品生命周期的專利技術(shù)主題演化分析方法的有效性,利用4.1 節(jié)所獲得的電動(dòng)車輛動(dòng)力裝置的專利文獻(xiàn)數(shù)據(jù),同樣運(yùn)用本文所提出的劃分方法以及實(shí)驗(yàn)參數(shù),使用同樣基于W-LDA 的AD-LDA 進(jìn)行技術(shù)主題提取,得到部分主題數(shù)據(jù),結(jié)果如表2 所示。
表2 AD-LDA生命周期各階段的主題
由表2 可以看出,AD-LDA 在電動(dòng)車輛動(dòng)力裝置的專利實(shí)驗(yàn)數(shù)據(jù)下產(chǎn)生了嚴(yán)重的不適用性,所提取的主題界限不明顯,權(quán)重較高的主題詞匯大多被技術(shù)特點(diǎn)不夠明顯的詞匯代替,如信息、設(shè)備、系統(tǒng)、結(jié)構(gòu)、安裝等,這些詞匯雖有一定的技術(shù)含義,但遠(yuǎn)不足以代表主題的主要信息,對(duì)比本文所提出的技術(shù)主題提取方法所提取的主題詞,如燃料電池、電路、發(fā)動(dòng)機(jī)等詞匯,存在不小的差距。而且,直接導(dǎo)致了嬰兒期和成長(zhǎng)期的主題詞關(guān)聯(lián)程度偏低,不具備演化分析的基本條件,如果強(qiáng)行采用本文所提出的演化分析方法,會(huì)導(dǎo)致嬰兒期和成長(zhǎng)期主題關(guān)聯(lián)度較低,無法形成有效的主題演化圖譜。而本文所提出方法由于更適用于專利文本的融合了專利體例結(jié)構(gòu)、特征詞和主題之間的關(guān)聯(lián)關(guān)系以及特征詞的語意信息的復(fù)合加權(quán)策略,所得到的主題詞更能代表主題類別的信息,并且主題之間界限明顯,因此在演化分析時(shí),如4.4 節(jié)所述,階段主題之間的關(guān)聯(lián)度更高,更能代表該產(chǎn)品的技術(shù)主題發(fā)展脈絡(luò)。
本文針對(duì)專利文本,結(jié)合產(chǎn)品生命周期以及加權(quán)LDA,嘗試提出一種新的技術(shù)主題演化分析模型。將專利按照時(shí)間特征和專利增長(zhǎng)規(guī)律劃分,并利用局部主題信息刻畫產(chǎn)品的生命周期。同時(shí),針對(duì)現(xiàn)有主題挖掘方法對(duì)專利的適用性差、主題技術(shù)特點(diǎn)不明顯等問題,提出MW-LDA 的專利技術(shù)主題提取算法,從不同角度改進(jìn)詞匯權(quán)重并構(gòu)造復(fù)合權(quán)值,改進(jìn)LDA 模型生成特征詞的過程。在此基礎(chǔ)上,利用主題信息之間的相似度實(shí)現(xiàn)產(chǎn)品生命周期不同階段、不同層次的主題演化分析。
技術(shù)主題演化在技術(shù)發(fā)展的過程中,歷史的研究成果是新技術(shù)思想產(chǎn)生的基礎(chǔ),這一過程是不可觀測(cè)的隱藏序列,之后的工作將致力于研究主題間隱含的轉(zhuǎn)移方向,進(jìn)而確定技術(shù)主題的未來演化趨勢(shì)。