国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

專利分類序列和文本語義表示視角下的技術融合預測研究

2022-07-02 07:18:40張金柱李溢峰
情報學報 2022年6期
關鍵詞:分類號語義專利

張金柱,李溢峰

(南京理工大學經(jīng)濟管理學院信息管理系,南京 210094)

1 引 言

信息化、數(shù)字化、網(wǎng)絡化技術快速發(fā)展,科學技術變革速度不斷加快,市場需求日新月異,行業(yè)間的競爭已逐漸由資金、規(guī)模、勞動力等轉變?yōu)榧夹g間的競爭。為了提高行業(yè)競爭力,企業(yè)通過聯(lián)盟、合并、共同研發(fā)生產(chǎn)等活動實現(xiàn)了不同技術領域之間的相互滲透,推動了新技術的產(chǎn)生[1]。技術融合是新技術產(chǎn)生的重要來源,提前預測潛在的技術融合成為企業(yè)獲取競爭優(yōu)勢、提高競爭能力,甚至是顛覆現(xiàn)有市場的最有效和最重要的技術手段之一。技術融合一般是指兩種或多種技術通過互相借鑒、完全利用或重組的方式形成新技術的過程[2]。而技術融合預測則是通過歷史數(shù)據(jù)計算尚未發(fā)生融合的技術之間的相似性或相關性,并以此來表示未來發(fā)生技術融合的可能性。新的技術融合可能誘發(fā)新的技術機會產(chǎn)生,進而引發(fā)技術變革或技術創(chuàng)新,為企業(yè)帶來新穎的產(chǎn)品和服務[3-6]。因此,技術融合預測不僅是技術機會的重要來源,也是技術創(chuàng)新的基礎和前提,為技術創(chuàng)新提供了契機和可能,被認為是企業(yè)保持市場地位、持續(xù)發(fā)展、避免被其他企業(yè)顛覆的關鍵影響因素。

技術融合形成原因多樣且復雜,在定量分析中主要以專利分類號代表某一技術或功能,并以多個專利分類號在同一專利中出現(xiàn)作為技術融合的外在表現(xiàn),進而研究特定形式下的技術融合預測。目前,技術融合預測的定量分析和研究主要從三個角度展開,包括基于專利引用的技術融合預測、基于專利分類號共現(xiàn)的技術融合預測以及基于專利文本的技術融合預測?;趯@玫募夹g融合預測利用專利間的引用關系構建專利引用網(wǎng)絡,通過共被引、引用頻次等信息建立衡量技術融合的指標,評估不同技術領域在未來產(chǎn)生融合的可能性。然而,同族專利之間常常存在自引現(xiàn)象,使引用網(wǎng)絡變得復雜冗余;尤為重要的是,專利引用需要一定的時間積累,具有一定的時間滯后性,因此多是對已有技術融合的驗證,不利于技術融合預測。基于專利分類號共現(xiàn)的技術融合預測通過獲取每篇專利文獻下對應的專利分類序列,依據(jù)分類號之間兩兩形成的共現(xiàn)關系構建共現(xiàn)網(wǎng)絡,之后利用節(jié)點中心度、中介中心度等網(wǎng)絡指標,或結合標題、摘要等外部語義特征計算分類號之間的相似度來預測可能的技術融合。由于專利分類號共現(xiàn)網(wǎng)絡通過共現(xiàn)關系構建,往往不能體現(xiàn)專利分類號在序列中的位置特征和上下文語義,由此得到的專利分類語義表示可能存在信息丟失的問題。基于專利文本的技術融合預測主要通過外部語義特征賦予專利分類號以文本信息,輔助專利分類共現(xiàn)網(wǎng)絡進行技術融合發(fā)現(xiàn)時,現(xiàn)有研究一般平等對待序列中的每個專利分類號,進而賦予同樣的文本信息[7],導致多個專利分類號之間文本信息冗余,形成的專利分類號文本表示相似度高,區(qū)分度較低,對于技術融合的作用難以體現(xiàn);尤為重要的是,專利分類號的網(wǎng)絡表示與文本表示在融合過程中,多采用直接拼接、點乘等方式進行,而不同領域中,網(wǎng)絡和文本中的每一維特征的貢獻程度可能并不相同,需要針對不同領域數(shù)據(jù)進行針對性學習,自動調整特征的權重和貢獻。

為了解決上述問題,本文提出了一種基于專利分類序列和文本語義融合的技術融合預測方法。首先,直接對專利分類序列進行語義表示,減少生成共現(xiàn)網(wǎng)絡時的信息丟失,研究基于專利分類序列語義表示的技術融合預測;其次,通過分析專利分類序列中不同位置專利分類號的重要性,設計專利分類文本分配方法,并結合文本表示學習方法,研究基于專利分類文本語義表示的技術融合預測;最后,設計特征融合方法,基于機器學習方法自動學習專利分類序列和專利文本兩種語義表示中每維語義特征的貢獻度和權重,研究基于序列結構和文本語義融合下的技術融合預測。

2 相關研究

本節(jié)先介紹國內外技術融合預測研究中的常用指標和方法,發(fā)現(xiàn)共現(xiàn)網(wǎng)絡中專利分類語義表示能力需要加強、專利分類文本賦予方式需要改進、不同來源的多維特征需要更有效融合是目前需要解決的重要問題;接著介紹表示學習的原理和常用方法,發(fā)現(xiàn)表示學習的理論和方法可以借鑒用于技術融合預測任務。

2.1 技術融合預測相關研究

研究技術融合預測首先必須明晰技術融合的基本概念、內涵和特征,并在此基礎上利用多種相似性指標計算技術特征間的相似性來判斷技術融合在未來發(fā)生的可能性。技術融合一開始是指生產(chǎn)過程中不同產(chǎn)業(yè)間的相互依賴關系,并在產(chǎn)品、服務、技術等多個方面體現(xiàn)。Roco 等[8]將技術融合定義為來自至少兩個不同領域的技術通過組合產(chǎn)生一個新的技術方案,從而為研發(fā)機構的技術創(chuàng)新提供幫助。Lind[9]將技術融合定義為由兩個不同的工業(yè)部門共享知識和技術的過程。婁巖等[10]認為技術融合包括專利分類號的跨領域和跨部融合。技術融合具有多種表現(xiàn)形式,研究者多從某一側面或角度開展研究[11];在定量分析中,技術融合通常體現(xiàn)在一個專利同時具有多個專利分類號或者專利分類號間發(fā)生了引用,而預測則主要通過設計指標計算專利分類號間的相似性或相關性來實現(xiàn)[7,11-12]。由此形成了三類主要方法,分別為基于專利引用的技術融合預測、基于專利分類號共現(xiàn)的技術融合預測以及基于專利文本的技術融合預測。

2.1.1 基于專利引用的技術融合預測

基于專利引用的技術融合預測方法多從專利之間的相互引用來表示技術之間的相互引用,而新的引用預示著新的技術融合,并據(jù)此進行預測。由于專利之間的引用錯綜復雜,處理難度較大,Batagelj[13]通過改進主路徑算法處理百萬節(jié)點級別的大型網(wǎng)絡,并將其應用于專利引文網(wǎng)絡,預測可能產(chǎn)生鏈接的專利,并抽取技術主題發(fā)現(xiàn)技術融合;Verspa‐gen[14]、Martinelli[15]使用該算法分析燃料電池和電信交換器行業(yè)的專利引文網(wǎng)絡,得到清晰的技術發(fā)展交融軌跡,根據(jù)已有的軌跡發(fā)現(xiàn)未來可能產(chǎn)生的新軌跡,以此預測未來的技術融合方向。Kim 等[16]通過構建不同年份的專利引用矩陣,通過利用神經(jīng)網(wǎng)絡技術預測新的引用來預測新技術的融合。Park等[17]以專利有向引用網(wǎng)絡表示專利的技術知識流走向,通過文獻計量、邊緣中心性等指標來預測技術知識流的未來走向,并據(jù)此預測技術融合。

以專利引用為基礎,一些學者據(jù)此得到專利分類號間的引用關系,并通過專利分類號引用來預測技術融合。翟東升等[2]將專利引文分析與國際專利分類號(international patent classification,IPC) 分析相結合,構建IPC 引用網(wǎng)絡描述不同領域之間的知識流動,進而通過鏈接預測的方式挖掘技術融合發(fā)展趨勢。Rodriguez 等[18]根據(jù)專利分類號之間的直接引用和間接引用構建專利引用網(wǎng)絡,通過計算專利間產(chǎn)生新鏈接的可能性來預測新的技術融合。No等[19]基于專利分類代碼之間的引用關系,以融合度指標來確定技術融合的軌跡模式,通過可視化技術展現(xiàn)專利間的前向和后向引用關系,觀察軌跡的變化進而預測可能的技術融合。Ko 等[20]使用專利分類號之間的引文分析構建知識流矩陣,通過計算特定技術領域的技術融合評價指標,展現(xiàn)技術融合趨勢可視化地圖,根據(jù)融合趨勢預測整個行業(yè)技術融合的趨勢。Han 等[21]基于熵和引力的概念提出專利分類號引用網(wǎng)絡中的技術融合度指標,進而發(fā)現(xiàn)與目標領域相關聯(lián)的多個潛在技術領域,為后續(xù)的技術融合預測提供指導。Nesta 等[22]提出幸存者相關性測度(survivor measure of relatedness) 的專利分類分析方法,使用概率方法來測度技術領域融合。Pennings 等[23]將專利引文網(wǎng)絡中的專利節(jié)點替換為相應的專利分類號,依據(jù)專利分類號間引用次數(shù)來識別技術融合,并根據(jù)引用頻次的變化預測未來的技術融合熱點。

基于專利引用形成的技術融合識別指標和方法在多個領域中取得了較好的效果,但同族專利自引現(xiàn)象層出不窮,導致一些相互引用的專利之間技術內容可能大體相似,導致引用網(wǎng)絡出現(xiàn)重復和冗余信息,影響預測結果的準確性;與此同時,專利引用需要一定的時間累積,造成引用網(wǎng)絡的形成具有一定的時間滯后性,不利于技術融合的預測。

2.1.2 基于專利分類號共現(xiàn)的技術融合預測

基于專利分類號共現(xiàn)的技術融合預測方法多根據(jù)專利分類號之間的共現(xiàn)關系進行判斷,這些共現(xiàn)關系在一定程度上代表了不同技術間的依賴關系,是定量測量技術融合的外在表現(xiàn),有助于預測技術融合。陳悅等[24]把兩個或多個IPC 的共現(xiàn)關系視為一種技術融合,并根據(jù)IPC 組合的共現(xiàn)頻次變化來預測該技術融合能否成為未來的研究熱點。Cavig‐gioli[25]認為新IPC 共現(xiàn)關系的出現(xiàn)標志著新技術融合的誕生,并將IPC 組合中不同IPC 之間的交叉引用次數(shù)作為技術融合預測指標。Lee 等[26]根據(jù)四位IPC 號的共現(xiàn)關系,通過關聯(lián)規(guī)則研究了技術融合的模式,并根據(jù)節(jié)點之間的相似性預測了新的融合。李丫丫等[27]以全球生物芯片產(chǎn)業(yè)為例提出基于專利的技術融合分析方法框架,運用IPC 與35 個技術分類對照體系分析生物芯片領域產(chǎn)業(yè)技術融合的結構,建立技術融合矩陣并評估技術融合緊密程度,最后基于多樣性指數(shù)揭示產(chǎn)業(yè)技術融合動態(tài),通過判別發(fā)展趨勢預測未來的技術融合走向。吳曉燕等[28]基于專利分類號共現(xiàn)信息,利用文獻計量指標(共現(xiàn)頻次、中介中心性和突發(fā)指數(shù))把握技術融合發(fā)展態(tài)勢,分析演化軌跡并預測未來的技術融合。王宏起等[29]構建專利IPC 共現(xiàn)網(wǎng)絡,根據(jù)產(chǎn)業(yè)技術融合態(tài)勢分析,綜合考慮多技術領域之間相互作用對技術融合的影響,設計基于鏈路預測的Katz指標來預測技術融合方向。Feng 等[30]獲取電動汽車領域的專利文獻,根據(jù)專利分類共現(xiàn)關系構建技術共現(xiàn)網(wǎng)絡并根據(jù)節(jié)點間的多種維度預測新的技術融合。

目前,利用IPC 號的組合研究技術融合的學者大多從四位IPC 號的組合開展研究,而四位IPC 號包含的技術信息較為宏觀,往往更傾向于高層次的領域之間的技術融合,技術細節(jié)展示不足,尚需從更加細粒度的技術分類微觀角度出發(fā),挖掘關注技術細節(jié)的技術分類融合,補充和完善已有技術融合。此外,專利分類號共現(xiàn)網(wǎng)絡較難體現(xiàn)專利分類序列中專利分類號的位置和上下文語義信息,需要借鑒和改進表示學習方法實現(xiàn)更為全面的語義表示。

2.1.3 基于專利文本的技術融合預測

為了豐富專利分類號的語義特征,一些學者通過引入文本信息來提高技術融合預測的效果和可解釋性。Preschitschek 等[31]借助專利分類號劃分多個技術領域,接著將專利分類號對應的專利文本合并為一個文件作為技術領域的文本,之后通過計算一個技術領域中單個專利文件與另一個技術領域的整體文件之間的相似度,根據(jù)時間推移通過標準化統(tǒng)計技術預測技術領域是否產(chǎn)生技術融合。與此類似,Eilers 等[32]先劃分多個技術領域,接著根據(jù)技術領域中的所有專利文件提取技術詞作為該技術領域的代表技術詞,之后通過計算一個技術領域中的單個專利技術詞與另一個領域中的整體技術詞之間的語義相似度,根據(jù)時間推移監(jiān)測技術軌跡,為技術融合預測提供指導。

Kim 等[7]將文本信息作為一個特征融入技術融合預測中,對于同一篇專利文獻下的多個專利分類號,無差別地賦予每個專利分類號以文本信息。實際上,當一篇專利文獻中包含多個專利分類號時,排序越靠前的專利分類號往往越重要,越能代表專利的核心技術[33-34]。當平等對待同一篇專利文獻下的專利分類號時,即只要該專利包含該專利分類號就把該專利的文本分配給該專利分類號,容易造成分類號的文本信息出現(xiàn)大量重復,難以區(qū)分不同專利分類號間的區(qū)別,導致對技術融合預測的貢獻降低。尤為重要的是,專利分類的網(wǎng)絡關系和文本特征均對技術融合產(chǎn)生作用,但每一維特征對技術融合預測的貢獻程度卻有區(qū)別,需要針對特定領域學習不同特征對技術融合預測的貢獻,綜合利用網(wǎng)絡和文本特征,提高預測效果。

2.2 表示學習相關研究

表示學習通過多層神經(jīng)網(wǎng)絡將原始數(shù)據(jù)通過非線性模型轉變?yōu)楦邔哟蔚奶卣鞅硎?,將原來由人工設定的特征工程轉換為機器的自我學習過程,把研究對象的語義信息映射為低維度的、連續(xù)的語義向量,作為多種分類、聚類、推薦任務的輸入[35]。目前的表示學習方法根據(jù)研究對象不同主要分為三種:文本表示學習、網(wǎng)絡表示學習以及文本和網(wǎng)絡融合的表示學習[36]。

2.2.1 文本表示學習

文本表示是將文本中的信息轉換成計算機能夠處理的向量表示,傳統(tǒng)文本表示方法有向量空間模型、統(tǒng)計語言模型和主題模型等[37]。近年來隨著深度學習的興起,文本表示學習逐步成為深度學習的一個新興分支,由此形成了多種文本表示方法與模型。Mikolov 等[38]提出的word2vec 模型開啟了文本表示學習的熱潮,其基本思想是通過神經(jīng)網(wǎng)絡模型訓練語料,結合每個詞語的上下文信息,將語料中每個詞映射成K 維實值向量,解決后續(xù)多種任務中的數(shù)據(jù)稀疏與維度災難問題。

相比于詞向量,篇章級別向量表示的難點在于文章篇幅較長、語義過于復雜。Le 等[39]借鑒word2vec的基本思想,提出了一種無監(jiān)督的、將長文本轉化為固定長度向量的doc2vec 模型,在訓練過程中將長文本作為一個特殊段落ID(identity document)引入語料中,同時結合了上下文、單詞順序和段落特征,在鏈路預測以及情感分類等方面表現(xiàn)出不錯的效果。Tang 等[40]使用CNN(convolutional neural net‐work)、LSTM(long short-term memory)建模句子,再使用Bi-RNN(bidirectional recurrent neural network)建模整個篇章,在文檔級情感分類任務上具有更好的效果。Yang 等[41]在Tang 等[40]提出的模型基礎上,在句子、文檔層面分別加入注意力機制,對文檔中的單詞、句子的重要性建模,進行加權計算生成文檔向量。后續(xù)研究者們對關鍵詞、句子、上下文內容等不同層次的文本表示學習方法進行了改進,形成了key2vec[42]、senten2vec[43]、con-s2vec[44]等模型,針對不同特定領域數(shù)據(jù)類型形成了paper2vec[45]、query2vec[46]、hyperdoc2vec[47]等模型,提升了特定任務下的語義表示效果,并擴展應用在信息檢索、知識圖譜、自動問答和自然語言處理等領域。

2.2.2 網(wǎng)絡表示學習

網(wǎng)絡表示學習是復雜網(wǎng)絡與深度學習的交叉融合,可以將網(wǎng)絡節(jié)點轉化為低維稠密實數(shù)向量[48],為大規(guī)模復雜網(wǎng)絡的特征語義表示提供了解決方案。受word2vec 算法的啟發(fā),Perozzi 等[49]先通過隨機游走的方式生成有序的節(jié)點序列,隨后將網(wǎng)絡節(jié)點類比成詞,將word2vec 應用在隨機游走序列上,學習節(jié)點表示。node2vec[50]與DeepWalk 類似,主要區(qū)別在于隨機游走算法的設計不同,使生成的節(jié)點序列存在差異。Tang 等[51]針對網(wǎng)絡結構沒有一個明確的目標函數(shù)的問題,提出了LINE(large-scale in‐formation network embedding)模型,該模型能夠處理任意類型的大規(guī)模網(wǎng)絡,包括有向和無向,以及有權重和無權重;該算法保留了網(wǎng)絡中節(jié)點的一階相似性和二階相似性,可以同時利用連邊關系和共同鄰居來學習節(jié)點表示。SDNE(structural deep net‐work embedding)算法[52]利用深度神經(jīng)網(wǎng)絡采用半監(jiān)督的方式進行網(wǎng)絡表示學習,模型主要分為兩部分:一部分為無監(jiān)督深層自編碼器,用于獲取節(jié)點的二階相似度;另一部分用于有監(jiān)督地建模節(jié)點的一階相似度。Hamilton 等[53]提出一種適用于大規(guī)模網(wǎng)絡的歸納式學習方法GraphSAGE (graph sample and aggregate),該算法通過聚集采樣得到的鄰居節(jié)點表示來更新當前節(jié)點的特征表示,而不是直接將每個節(jié)點單獨進行訓練。

早期的網(wǎng)絡表示學習主要針對節(jié)點和連邊類型單一的同構網(wǎng)絡,并不能真實反映現(xiàn)實世界中節(jié)點和連邊類型多樣的異構信息網(wǎng)絡,需要構建更復雜的網(wǎng)絡表示學習方法捕獲更豐富的語義信息[54]。其中,Tang 等[55]認為網(wǎng)絡中有多種類型的節(jié)點和邊,因此將LINE 擴展到異構網(wǎng)絡中,針對文本標簽預測任務提出了半監(jiān)督的PTE(predictive text embed‐ding)模型;該模型將部分標簽已知的文檔集合數(shù)據(jù)轉換為一個包含文檔、詞語和標簽三類節(jié)點的異構網(wǎng)絡,然后學習不同類型節(jié)點的向量表示。Dong等[56]受同構網(wǎng)絡中node2vec 算法的啟發(fā),提出了metapath2vec 算法,該方法通過在異構信息網(wǎng)絡中進行隨機游走來獲取節(jié)點的鄰居節(jié)點集合。Shi 等[57]提出 的HERec (heterogeneous network embedding for recommendation)模型基于元路徑從異質信息網(wǎng)絡中抽取出同類節(jié)點序列,相當于從異質信息網(wǎng)絡中抽取出多個同質信息網(wǎng)絡,提高了推薦效果。

2.2.3 融合網(wǎng)絡結構和文本內容的表示學習

在文本表示學習與網(wǎng)絡表示學習的基礎上,近年來開始了將這兩者相融合的表示學習研究,即利用網(wǎng)絡的結構信息以及節(jié)點的文本信息共同學習節(jié)點的低維向量表示。Yang 等[58]提出了TADW(textassociated DeepWalk) 模型,通過矩陣分解將網(wǎng)絡結構特征和節(jié)點的文本特征進行聯(lián)合訓練,實現(xiàn)這兩種特征的融合。在TADW 模型的基礎上,Zhang等[59]從不同的網(wǎng)絡結構與節(jié)點內容相互作用的角度構建了HSCA (homophily, structure and content aug‐mented)模型,認為網(wǎng)絡信息有三個來源,分別是同質、拓撲結構和節(jié)點內容,并將三種信息源增加至一個目標函數(shù)中,共同學習網(wǎng)絡表示。Sun 等[60]提出一種新的CENE(content-enhanced network em‐bedding)算法,將節(jié)點內容視為一種特殊的節(jié)點來擴展到網(wǎng)絡中,該算法使用邏輯回歸函數(shù)學習擴展的網(wǎng)絡,并通過負采樣的方法優(yōu)化目標函數(shù),使得到的網(wǎng)絡表示不僅可以保留網(wǎng)絡結構特征,還可以保留節(jié)點和內容之間的語義信息。Li 等[61]提出了PPNE (post-processing network embedding) 模 型 來有效地融合不同類型的節(jié)點屬性信息,將表示向量的學習過程轉化為聯(lián)合優(yōu)化的問題,并通過使用有效的隨機梯度下降算法解決聯(lián)合優(yōu)化問題;在多個數(shù)據(jù)集上進行的節(jié)點分類和鏈路預測任務證明了PPNE 的有效性。Ganguly 等[62]通過文本向量得到每個節(jié)點的N 個最近鄰居,并將其增加到網(wǎng)絡關系中,利用DeepWalk 算法的原理生成每個節(jié)點的向量表示,在節(jié)點分類和鏈路預測任務中證明了此方法的有效性。Pan 等[63]提出結合網(wǎng)絡結構、節(jié)點內容和節(jié)點標簽的深度學習模型TriDNR (tri-party deep network representation),該模型通過隨機游走生成節(jié)點序列并學習節(jié)點語義表示來保留節(jié)點結構信息,然后用另一個神經(jīng)網(wǎng)絡學習節(jié)點上下文的相關性,同時,將節(jié)點標簽作為輸入,直接在標簽和上下文之間建模來學習標簽向量和單詞向量。

3 模型構建

首先基于專利文獻獲取專利分類序列,設計表示學習方法獲取專利分類在序列中的位置特征和上下文語義特征,形成專利分類序列語義表示,通過計算尚未產(chǎn)生融合的專利分類號間的相似度來預測技術融合;接著基于專利分類號在序列中的排序重要性形成專利文本內容分配方法,利用文本表示學習方法實現(xiàn)專利分類文本語義表示,通過計算尚未產(chǎn)生融合的專利分類號間的相似度來預測技術融合;之后研究兩類特征的融合方法,利用機器學習方法自動學習每維特征的最優(yōu)權重,形成基于機器學習的特征融合模型,通過模型計算尚未產(chǎn)生融合的專利分類號間產(chǎn)生鏈接的概率來預測技術融合;最后基于鏈路預測的理論和方法設計技術融合預測評測指標和方法,對不同方法進行定量比較。

3.1 基于專利分類序列語義表示的技術融合預測

為了有效抓取專利分類號在序列中的位置信息和周圍上下文語義特征,不同于通過序列構建共現(xiàn)網(wǎng)絡進而基于網(wǎng)絡表示學習來實現(xiàn),本文直接對專利分類序列進行建模獲得專利分類的語義表示,最大限度保留真實的位置信息和語義信息。借鑒word2vec 模型的思路,本文將專利分類號類比于“word”,將專利分類序列類比于“word”的序列,即句子,通過學習專利分類號在序列中的上下文語境,得到每個專利分類號的語義向量表示。按照訓練方式不同,訓練模型可分為CBOW(continuous bag-of-words) 與Skip-Gram 兩 種。 一 般 而 言,CBOW 模型在處理小型語料時有更好的效果,而Skip-Gram 模型更適合于大型語料[64-65]。根據(jù)本文數(shù)據(jù)規(guī)模,選取CBOW 模型進行訓練。在CBOW 模型中,利用專利分類號前后的各c 個專利分類號來預測當前的專利分類號,據(jù)此形成專利分類序列表示學習模型,具體原理如圖1[38]所示。

圖1 專利分類序列的表示學習模型[38]

專利分類序列的訓練模型的優(yōu)化函數(shù)[38]為

其中,Wt表示專利分類號序列中的任意一個專利分類號;Wt-2和Wt-1分別表示排序在Wt之前的兩個專利分類號;Wt+1和Wt+2分別表示排序在Wt之后的兩個專利分類號。這些共同構成了當前專利分類號的上下文語境信息。

利用專利分類序列表示學習模型可以將序列中的每個專利分類號映射到多維向量空間中,且每一維向量都表示一定的語義信息,從而實現(xiàn)基于序列結構的專利分類語義表示。對于任意兩個專利分類號,其向量可以分別表示為xi=(x1,x2,x3,…,xn)和yi=(y1,y2,y3,…,yn)。在此基礎上通過余弦相似度、歐幾里得距離等多種指標計算向量之間的語義相似性來表示尚未產(chǎn)生關聯(lián)的專利分類號之間的語義相似度,進而根據(jù)相似度排序來預測是否產(chǎn)生技術融合。本文選取余弦相似度指標進行語義相似度計算,具體計算方法為

3.2 基于專利分類文本語義表示的技術融合預測

為了提高專利分類號區(qū)分度,考慮專利分類號在序列中的排序重要性信息,本文提出了兩種專利分類號文本分配方式。第一種方式是只對排序第一的專利分類號賦予對應的專利文本(標題和摘要)。第二種方式是在第一種方式的基礎上,繼續(xù)對處于其他排序位置的專利分類號賦予文本,主要包括以下步驟:首先對排序第一的專利分類號賦予文本;然后賦予排序第二的專利分類號以文本,若該專利分類號在前一步驟中已分配文本,則不進行新的文本賦予,否則,把該專利文本賦予此專利分類號;依此類推,賦予其他所有專利分類號以文本。在分配文本過程中,如果某一專利分類號在多個專利分類序列中的同一排序位置多次出現(xiàn),只要其在之前步驟中未被分配文本,就將多個專利中的文本內容都賦予給該專利分類號,如圖2 中排序第一的分類號1 和排序第二的分類號3。這樣可以保證在不同的處理順序下,專利分類號的文本內容保持一致。

在圖2 中,以三個專利文獻及其對應的專利文本和多個專利分類號為例進行說明,如圖2a 所示。首先考慮所有專利中排序第一的分類號,如圖2b所示,由于“分類號1”在“專利1”中排序第一,因此將“專利文本1”分配給“分類號1”,同樣將“專利文本2”分配給“分類號2”,將“專利文本3”分配給“分類號1”。接著考慮排序第二的專利分類號,如圖2c 所示,由于“專利1”中的“分類號2”在上一步中已分配過文本,所以這一步中不將“專利文本1”分配給“分類號2”,而“專利2”中的“分類號3”在上一步中未分配文本,因此將“專利文本2”分配給“分類號3”,同樣地,將“專利文本3”分配給“分類號3”。依此類推,考慮排序第三的分類號,如圖2d 所示,由于“專利1”中的“分類號4”在之前步驟中未分配文本,所以將“專利文本1”分配給“分類號4”,而“專利2”和“專利3”中排序第三的專利分類號在之前的步驟中均已分配文本,所以這一步不再分配其文本。

我們在初中數(shù)學課堂教學中想要提高課堂質效的最終目的是培養(yǎng)學生的學習能力,因此我們的課堂教學方式在創(chuàng)新的基礎之上還不能忽視對學生學習能力的培養(yǎng)。學生是數(shù)學課堂的主體,我們在課堂教學當中可以適當?shù)膶⑽枧_移交給學生,讓學生充分展示自己,這樣學生學習數(shù)學的興趣也會更濃厚。

在專利文本分配后,為了獲取每個專利分類號的文本語義表示,本文借鑒doc2vec 模型的思路,將專利分類號類比于模型中的文本ID,專利文本中的每個詞類比于“word”序列。每次訓練時,模型選取專利文本中一定長度的句子,將句子中的每個詞以及專利文本對應的專利分類號(文本ID)作為輸入一起訓練。訓練結束后,既可以得到每個詞的詞向量表征,又可以得到整個文本的向量表示,即專利分類號的語義表示。依據(jù)訓練方式不同,可分為DM (distributed memory) 和DBOW (distributed bag of words)模型。DM 模型在處理小型語料時有更好的效果,而DBOW 模型更適合大型語料,根據(jù)本文數(shù)據(jù)規(guī)模,選擇DM 模型作為訓練方式。專利分類文本語義表示模型的具體原理如圖3[39]所示,其中,ID 代表每個專利分類號,w1、w2、w3 代表專利分類號對應的專利文本中的詞,w4 指一定長度句子中需要預測的詞。

圖2 專利分類的文本分配方式示例

圖3 專利分類文本的語義表示模型[39]

利用專利分類文本語義表示模型可以在訓練文本中每個詞的同時,實現(xiàn)整個文本的向量化表示,從而實現(xiàn)基于文本內容的專利分類語義表示。在此基礎上,通過余弦相似度、歐幾里得距離等多種指標計算向量之間的語義相似性來表示尚未產(chǎn)生關聯(lián)的專利分類號之間的語義相似度,進而根據(jù)相似度來預測是否產(chǎn)生技術融合,本文選取余弦相似度指標進行語義相似度計算。

3.3 基于專利分類序列結構和文本內容語義融合的技術融合預測

序列信息與文本信息有著較大的區(qū)別,但兩者的每一維特征對技術融合預測都可能有貢獻。因此,本文通過機器學習模型來自動學習每一維特征的最優(yōu)權重,對多維度特征進行有效融合,實現(xiàn)融合序列結構和文本內容的專利分類語義表示,進而把技術融合預測轉化為尚未產(chǎn)生連接的專利分類號是否會產(chǎn)生鏈接的分類問題。SVM(support vector machine)作為常用的分類模型在多個領域具有優(yōu)異的表現(xiàn),因此本文選擇SVM 模型作為本文的機器學習分類模型。

基于SVM 的專利分類序列結構和文本內容語義融合的第一步在于確認專利分類間是否產(chǎn)生技術融合,進而分別得到訓練集和測試集的正樣本和反樣本,進行模型訓練。為此,本文將處于同一序列中的專利分類號進行兩兩組合,賦予正分類標簽生成訓練集正樣本,然后根據(jù)沒有產(chǎn)生鏈接的專利分類號對來生成相同數(shù)據(jù)量的訓練集負樣本。同樣地,將上述方式應用于測試集中,生成測試集正樣本和測試集負樣本。

該模型的第二個關鍵步驟是實現(xiàn)每個專利分類號組合對的向量表示。之前通過表示學習方法已經(jīng)得到了每個專利分類號單獨的向量表示,因此需要對單獨的專利分類號向量進行合并,從而實現(xiàn)專利分類號對的語義表示。不同的合并方式對于最終結果可能有著不同的影響,本文設計了三種向量合并表示方法,分別為基于哈達瑪積的向量合并、基于平均向量法的向量合并和基于余弦相似度的向量合并。

(1)基于哈達瑪積的向量合并方式,即通過哈達瑪積的運算方式實現(xiàn)兩個專利分類號的語義向量合并,其基本思想是把兩個向量中每個維度的元素相乘得到一個新的向量。具體地,對于專利分類號組合中的兩個專利分類號,首先以拼接的方式連接每個專利分類號的序列向量X1=(x1,x2,x3,…,xn)和文本向量X2=(xn+1,xn+2,xn+3,…,x2n),得到拼接后的 分 類 號 向 量X =(x1,x2,x3,…,xn,xn+1,xn+2,xn+3,…,x2n);同樣地,另一個分類號的向量通過拼接表示為Y =(y1,y2,y3,…,yn,yn+1,yn+2,yn+3,…,y2n),接 著 通過哈達瑪積的向量合并方式得到專利分類號組合的向量Z,具體計算公式為

(2)基于平均向量法的向量合并方式,即通過加權平均的運算方式實現(xiàn)兩個專利分類號的語義向量合并,其基本思想是把兩個向量中每個維度的元素取均值得到一個新的向量。具體地,對于上述專利分類號組合中的兩個分類號向量X 和Y,通過公式

得到專利分類號組合的向量Z。

(3)基于余弦相似度的向量合并方式,其基本思想是把序列向量和文本向量作為一個整體進行相似度計算來形成新的特征。一般而言,若兩個分類號的序列向量的相似度越高,該分類號組合產(chǎn)生技術融合的概率越大;同樣地,若兩個分類號的文本向量的相似度越高,該分類號組合產(chǎn)生技術融合概率越大。但是這兩種不同的相似度對于技術融合的貢獻度可能不同,如果把這兩種相似度作為新的特征并通過SVM 學習權重,有可能更好地實現(xiàn)技術融合預測。據(jù)此形成了基于余弦相似度的向量合并方式,在序列相似度計算中,兩個分類號的序列向量分別 為X1=(x1,x2,x3,…,xn)和Y1=(y1,y2,y3,…,yn),通過余弦相似度計算專利分類號的相似度值為z1,同理得到專利分類號的文本相似度值z2,以序列向量與文本向量的余弦相似度的值作為專利分類號組合的兩個特征,進而得到專利分類號組合的向量Z =(z1,z2)。

對于以上三種合并方式得到的專利分類號組合向量,通過SVM 模型自動學習每維特征的最優(yōu)權重,形成基于SVM 的特征融合模型,通過模型計算專利分類號間產(chǎn)生鏈接的概率來預測技術融合。

3.4 基于鏈路預測的技術融合預測定量評估方法

本文將兩個專利分類號是否產(chǎn)生融合視為二分類問題。具體地,對于上文得到的訓練集正樣本和測試集正樣本,認為樣本中的每個專利分類號組合已產(chǎn)生技術融合;相反,對于訓練集負樣本和測試集負樣本,樣本中的每個專利分類號組合均未產(chǎn)生技術融合。本文根據(jù)訓練集中的正樣本與負樣本得到的模型計算專利分類號組合產(chǎn)生鏈接的概率,并與測試集中的實際結果進行比較,利用AUC(area under curve)、MAP(macro average precision)以及準確率對技術融合預測結果進行定量評價。

AUC 從整體上衡量融合預測的準確性,將正樣本中IPC 號之間的相似度得分與負樣本中IPC 號之間的相似度得分進行比較。這個比較會獨立進行n次。如果有n'次正樣本中IPC 號之間的相似度得分高于負樣本中IPC 號之間的相似度得分,并且有n″次它們之間的得分相同,那么AUC 的值可計算為

MAP 指宏平均準確率,通過設定一組閾值,計算不同閾值下準確率和召回率的變化,據(jù)此描繪準確率和召回率曲線,計算曲線下的面積即為MAP值,用于評價預測算法的整體性能,具體計算公式為

其中,k 代表正確識別出技術融合專利分類號組合數(shù);p(k)表示識別出k 個專利分類號組合時的準確率;Δr(k) 表示隨著k 值的調整,召回率的變化情況。

準確率指被分類器正確分類的樣本所占的百分比,反映分類器對各類樣本的正確識別情況[66-67]。一般通過Top-n 準確率來計算,即可能性最大的前n個預測結果中,正確預測數(shù)所占的比值。首先把預測結果按照相似度或概率大小進行降序排列,并取排序靠前的n 個專利分類號組合對;然后計算真正預測對的組合對數(shù)n'占總個數(shù)n 的比值,用來表示該種情況下的準確率,即

最后通過改變n 的值,得到不同情況下準確率變化情況,判斷模型的預測效果。

4 實證研究

無人機具有成本低、操作靈活、能夠避免出現(xiàn)人員傷亡等特點,備受軍事和民用領域的關注。2015 年國務院印發(fā)《中國制造2025》戰(zhàn)略文件,無人機產(chǎn)業(yè)被列入我國十大重點領域之中;無人機產(chǎn)業(yè)包括從人工智能到核心軟件和硬件工程的各種知識領域,是典型的多學科融合、跨領域集成的新興產(chǎn)業(yè)[68],技術融合已然成為無人機產(chǎn)業(yè)創(chuàng)新發(fā)展的主要來源之一。因此,本文以無人機領域專利數(shù)據(jù)為基礎,對無人機的技術融合趨勢進行預測,把握無人機產(chǎn)業(yè)未來的發(fā)展方向。

4.1 數(shù)據(jù)來源

本文選擇德溫特專利索引(Derwent Innovations Index,DII)數(shù)據(jù)庫作為數(shù)據(jù)來源,確定專利檢索表達式為TI=(((unmanned OR automatic OR autono‐mous OR remotely poloted OR nonhuman) AND (air‐craft OR“aerial vehicle”O(jiān)R airship* OR drone OR plane OR aerocraft* OR airplane OR aerobat* OR aero‐stat*)) OR“UAV”),時間區(qū)間為2011 年到2020 年,獲取專利的標題、摘要和IPC 號等特征項。原始數(shù)據(jù)共計52602 條,經(jīng)過初步篩選,剔除無摘要數(shù)據(jù)557 條,最終有效數(shù)據(jù)52045 條。根據(jù)每年的專利數(shù)目對時間窗口進行劃分得到訓練集和測試集。其中,訓練集來源于2011 年到2019 年的數(shù)據(jù),共計38362 條;測試集來源于2020 年的數(shù)據(jù),共計13683 條。

對無人機專利數(shù)據(jù)進行整理和統(tǒng)計,如表1 所示,發(fā)現(xiàn)近十年以來無人機相關專利數(shù)量持續(xù)增長,尤其自2015 年以來,增長更為迅速。從產(chǎn)生了技術融合的專利數(shù)量來看,2015 年較2014 年幾乎翻了一倍,之后保持著高速增長的趨勢,到2020 年無人機領域技術融合專利數(shù)量達到了頂峰,共計10393 條。從產(chǎn)生融合的專利數(shù)量所占比例來看,早期融合比例緩慢波動,2015 年后融合比例逐步提高,其中,2011 年技術融合專利占比0.628,到2020 年達到了0.760。綜合分析可見,目前無人機領域需要多個技術共同協(xié)作完成,技術融合對無人機技術的發(fā)展起到了至關重要的作用。未來,無人機領域仍然是國家和企業(yè)的重點研究對象,對無人機的技術融合趨勢進行預測,有利于企業(yè)及時把握無人機產(chǎn)業(yè)的技術研究方向,推進無人機產(chǎn)業(yè)進一步發(fā)展。

4.2 基于專利分類序列語義表示的技術融合預測結果

通過對專利分類序列表示學習模型的主要參數(shù)進行不斷調整,選取預測效果最優(yōu)的參數(shù)組合,即dimension=128,window_size=2。為了驗證該方法的有效性,本文選取網(wǎng)絡表示學習中常用的代表性模型DeepWalk、LINE、node2vec、SDNE、HOPE(highorder proximity preserved embedding)進行對比分析,由于這些模型的基本原理都是序列表示學習,因此將這些網(wǎng)絡表示學習模型進行相同的參數(shù)設置,并通過鏈路預測的方法定量評估模型效果。對應的評測指標AUC、MAP 值如表2 所示,準確率評測如表3 所示。

從表2 可以看到,在同等條件下,專利分類序列表示實現(xiàn)的技術融合預測具有最好的效果,AUC和MAP 以及準確率較其他方法均有所提高,說明該方法適用于技術融合預測。在綜合考慮AUC 和MAP 的情況下,DeepWalk 模型和HOPE 模型表現(xiàn)次優(yōu),專利分類序列表示學習方法的AUC 和MAP 較DeepWalk 分別提高了0.046 和0.081,較HOPE 提高了0.044 和0.121。此外,SDNE 和node2vec 表現(xiàn)較差,SDNE 的AUC 和MAP 僅達到了0.362 和0.397,本文方法的AUC 和MAP 較之分別提高了0.495 和0.480,較node2vec 模型分別提高了0.294 和0.303。表3 的準確率對比結果與上述結果一致,專利分類序列表示方法的準確率是所有模型中最高的,并且所有的Top-n 預測準確率均為1.000,再次驗證了該方法的有效性。由此可見,專利分類序列中體現(xiàn)的真實位置信息對技術融合預測具有一定的補充和完善作用,相較于專利分類號共現(xiàn)提供了更多的語義信息,能夠實現(xiàn)更有效的技術融合預測,驗證了該方法的有效性,可以擴展應用于專利分類號聚類等相關研究中。

表1 無人機領域發(fā)生技術融合的專利數(shù)量統(tǒng)計

表2 專利分類序列表示學習方法與其他網(wǎng)絡表示學習方法的AUC和MAP對比

表3 專利分類序列表示學習方法與其他網(wǎng)絡表示學習方法的準確率對比

4.3 基于專利分類文本語義表示的技術融合預測結果

根據(jù)專利分類號排序,依次賦予序列中的每一位IPC 號文本內容,獲得文本的IPC 個數(shù)隨之不斷增加。當賦予到前5 位IPC 時,獲得文本的IPC 個數(shù)達到9610 個,占IPC 總個數(shù)10520 的91.3%,幾乎覆蓋了全部的IPC 號。因此,對于排序第5 位之后的IPC 號,本文不再賦予文本。具體的IPC 文本分配統(tǒng)計信息如表4 所示。

表4 IPC文本分配統(tǒng)計

分配完文本后,通過專利分類文本語義表示模型實現(xiàn)IPC 號的文本語義表示,并通過余弦相似度計算IPC 號的語義相似度。為了對不同的專利分類文本賦予方式進行比較,本文分別對每一種專利分類文本賦予方式進行實驗和比較。通過對專利分類文本表示模型的主要參數(shù)進行調優(yōu),得到最優(yōu)參數(shù)設置為dimension=128,window_size=15,并用鏈路預測的方法定量評估模型效果。同時,為了驗證方法有效性,與之前平均分配文本方式進行對比實驗。具體實驗結果如表5 和表6 所示。

從表5 可以看到,在同等條件下,從賦予前1位IPC 文本到賦予前5 位IPC 文本,所有方式下的效果較平均分配的方式均有所提高。綜合考慮AUC、MAP 值的情況下,平均分配方式的AUC、MAP 值分別僅達到了0.563 和0.582,而本文最好的文本賦予方式的AUC、MAP 值分別達到了0.722 和0.726,較平均分配方式提高了0.159 和0.144;最差的文本賦予方式的AUC、MAP 值也分別達到了0.669 和0.642,較平均分配方式分別提高了0.106 和0.060。表6 的準確率對比結果與上述結果一致,賦予前1 位IPC 文本的Top-n 預測準確率均高于其他文本賦予方式,且最低的準確率也達到了0.915,驗證了本文提出的專利文本賦予方式能有效地提高不同IPC 之間的區(qū)分度,進而實現(xiàn)更準確的技術融合預測。

表5 不同IPC文本賦予方式下技術融合預測的AUC和MAP對比

表6 不同IPC文本賦予方式下技術融合預測的準確率對比

當賦予的專利分類號數(shù)量逐漸增多時,技術融合預測效果卻逐漸下降。綜合考慮AUC、MAP 的情況下,賦予前1 位專利分類號文本的效果最好,AUC、MAP 值分別達到了0.722 和0.726,較賦予前5 位的方式分別提高了0.053 和0.084。說明在每篇專利文獻中,專利中包含的文本信息與排序靠前的專利分類號相關性更高,尤其是排序第一位的專利分類號。表6 的準確率對比結果同樣證實了該結論,即隨著對更多排序位置的專利分類號賦予文本時,準確率會呈現(xiàn)一定的下降趨勢。由此可見,僅賦予排序第一位的專利分類號文本,既能夠有效解決平均分配方式下分類號的文本信息冗余問題,又能夠將專利文本分配給最具代表性的專利分類號。因此,接下來本文將融合第一位IPC 號的文本語義表示與基于序列結構的文本語義表示,進而預測技術融合。

4.4 融合專利分類序列與文本語義表示的技術融合預測結果

本文將上文中表現(xiàn)最好的IPC 序列向量與僅賦予第一位IPC 號的文本向量應用于SVM 模型,并以三種向量合并方式作為IPC 組合的語義表示,具體包括基于哈達瑪積的向量合并、基于平均融合的向量合并、基于余弦相似度的向量合并。其中,除了基于余弦相似度的合并方式特征維度為2,其余兩種方式均為256 維特征。

為了證明本文方法的有效性,將本文方法與兩種基準模型進行比較?;鶞实娜诤戏椒òㄏ蛄科唇臃ê忘c乘相加法[69]。應用這兩種基準方法融合分類號序列表示和文本語義表示,與本文基于SVM的特征融合方式進行對比,結果如表7 和表8 所示。

在表7 中,從融合方式來看,三種基于SVM 的特征融合模型效果均優(yōu)于兩種基準模型。其中,拼接方式的效果最差,點乘方式相較于拼接方式效果有明顯提高,但仍低于本文提出的所有融合模型,說明本文的方式更適用于技術融合預測任務。在綜合考慮AUC 和MAP 的情況下,拼接方式的AUC、MAP 值分別為0.631 和0.621,點乘方式的AUC、MAP 值分別為0.827 和0.835,而本文方式中效果最好的為“SVM+哈達瑪積”融合模型,AUC、MAP值分別為0.913 和0.923,較拼接模型效果分別提高了0.282 和0.302,較點乘模型效果分別提高了0.086和0.088。本文方式中的“SVM+余弦相似度”,AUC、MAP 值分別為0.856 和0.875,雖然較其他兩種SVM 融合模型效果較差,但仍高于兩種基準融合模型。表8 的準確率對比結果與上述結果一致,“SVM+哈達瑪積”的準確率仍然是所有模型中最高的,并且所有的Top-n 預測準確率均為1.000,再次驗證了該方法的有效性。由此可見,拼接方式由于簡單地將序列特征與文本特征進行連接,未能考慮序列特征和文本特征的權重,平等地看待每一維特征,導致預測的效果最差。點乘融合方式通過設置權重,不斷調整得到較優(yōu)結果,效果明顯優(yōu)于拼接方式,但點乘融合方式多通過人工設置權重,未必能夠得到最優(yōu)的結果。而本文的方法,即通過SVM 的特征融合模型能夠避免以上弊端,自動學習最優(yōu)權重,使技術融合預測任務效果最好。

表7 不同融合方式下的AUC和MAP對比

表8 不同融合方式下的準確率對比

從不同的SVM 融合模型來看,通過哈達瑪積合并方式融合序列與文本特征,在三種模型中效果最優(yōu),“SVM+平均向量”模型效果次優(yōu),“SVM+余弦相似度”模型效果較差。從AUC 和MAP 的情況來看,“SVM+平均向量”模型的AUC、MAP 值分別為0.902 和0.898,“SVM+哈達瑪積”模型較之分別提高了0.011 和0.025;相較于“SVM+余弦相似度”模型,“SVM+哈達瑪積”模型分別提高了0.057 和0.048。表8 的準確率對比結果同樣證實了該結論,其中“SVM+哈達瑪積”的準確率穩(wěn)定保持為1.000,且SVM 相關的其他兩種方法同樣表現(xiàn)優(yōu)異,說明SVM 模型能高效學習不同特征的權重,進而提高技術融合預測效果;也說明在不同的向量合并方式下,基于SVM 的哈達瑪積融合方式更適用于技術融合預測任務。值得一提的是,“SVM+余弦相似度”模型在效果上雖然不如其他兩種模型,但在實驗過程中該方式訓練速度最快,因此該融合模型對于大規(guī)模數(shù)據(jù)有一定的應用價值。

綜合以上分析發(fā)現(xiàn),“SVM+哈達瑪積”模型的表現(xiàn)最優(yōu),在效果和穩(wěn)定性上優(yōu)于網(wǎng)絡模型和文本模型?!癝VM+哈達瑪積”模型的AUC 和MAP 值較專利分類序列表示學習模型分別提高了0.056 和0.046,較專利文本表示學習模型分別提高了0.191和0.197。此外,“SVM+哈達瑪積”模型的Top-n 準確率均為1.000,與專利分類序列表示學習模型一致,大幅度優(yōu)于專利文本表示學習模型。當擴展實驗使n 增大到300 以上時,專利分類序列表示學習模型的準確率開始下降,而“SVM+哈達瑪積”模型的準確率仍能保持為1.000。這些都充分說明融合特征模型通過自動學習序列和文本特征的每一維權重,充分有效地利用了專利分類的多種上下文語義信息,從而得到了最好的效果。

4.5 技術融合預測示例

本文選取在所有評測指標中表現(xiàn)最好的語義表示模型“SVM+哈達瑪積”模型來進行示例展示和分析。與上文實驗一致,示例分析中歷史數(shù)據(jù)來源于無人機領域2011 年到2019 年的數(shù)據(jù),通過該數(shù)據(jù)集來計算之前未產(chǎn)生過關聯(lián)的IPC 對在未來發(fā)生融合的可能性,并在2020 年的測試集數(shù)據(jù)中進行驗證。通過這些預測結果,能夠對無人機的技術融合趨勢進行預測,及時把握無人機領域未來的發(fā)展方向并提供決策支持建議。

在通過“SVM+哈達瑪積”模型計算IPC 組合產(chǎn)生鏈接的概率并進行降序排列時,發(fā)現(xiàn)有較多組合鏈接概率均達到了0.9999999,且都在測試集中出現(xiàn),準確率達到1.000。因此,本文根據(jù)專利數(shù)據(jù)中IPC 的已有順序,選取排序前10 位的IPC 組合對進行具體分析,如表9 所示。

表9 “SVM+哈達瑪積”模型預測出的排序前10位的IPC組合對

如表9 所示,對于鏈接概率排序第一的IPC 組合,B64C-027/08 表示“飛行器有兩個或多個旋翼的”,H04B-007/06 表示“無線電傳輸系統(tǒng)”,該IPC組合在專利號為JP2020196355-A 的專利文獻中出現(xiàn)。從摘要中發(fā)現(xiàn),該文獻主要提及“將多個天線安裝在無人機的多個旋翼中,并通過地面站發(fā)射無線電信號對無人機進行實時調整”,可以看出該專利將無人機的多旋翼技術與無線電傳輸技術進行了有效的結合,實現(xiàn)了對多旋翼無人機的實時監(jiān)控。對于排序第二的IPC 組合,B64D-033/10 表示“飛機的散熱器配置”,H01Q-001/28 表示“適合于飛機、導彈、衛(wèi)星或氣球上或其內使用的天線零部件”,該組合在專利號為WO2020251-216-A1 的專利文獻中出現(xiàn),該專利將兩個不同的技術模塊通過一定的方式進行組合,推動了無人機技術的發(fā)展。此外,B64C-039/02 表示“特殊用途的飛行器”,該專利分類與G01S-019/12(“遠程通信基站與接收器之間進行交互或通信”)、C25B-001/04(“電解水法”)、B66C-015/06 (“警告裝置的布置或應用”)、B64C-005/14 (“改變后掠角的”) 等IPC 發(fā)生了融合,說明B64C-039/02 具備較強的技術融合特性。通過示例可以看到,融合專利分類序列和文本的語義信息進行技術融合預測具有較好的效果,可以提前預測可能的技術融合,為技術布局、技術研發(fā)提供借鑒和參考。

5 結 語

為了提升專利分類語義表示能力,提高技術融合預測效果,本文提出了基于專利分類序列和文本語義表示的技術融合預測方法。首先直接對專利分類序列進行表示學習,設計專利分類序列表示學習方法,得到每一個專利分類號的位置信息及上下文語義信息,相較于其他網(wǎng)絡表示學習模型,取得了最好的效果;為體現(xiàn)不同專利分類號在一篇專利文獻中的重要程度,本文逐步賦予每位專利分類號以文本信息,最大限度地提高不同專利分類號的區(qū)分度,實驗結果證明,本文方法優(yōu)于以往平均分配文本的方式,且發(fā)現(xiàn)賦予第一位專利分類號以文本時技術融合預測效果最好;為了有效融合序列向量與文本語義向量,充分利用每一維特征的貢獻,本文設計了三種向量合并方式,利用SVM 模型自動學習權重實現(xiàn)技術融合預測,該融合方法在所有方法中表現(xiàn)最優(yōu),且其中最好的融合方式為“SVM+哈達瑪積”。

本文從專利分類序列和文本語義融合的視角對技術融合預測進行了探索性研究,提出的方法較之前均有了較大提高,但未來仍需從多個方面展開深入研究。首先,本文只使用了專利的標題、摘要來表示專利文本,實際上,專利聲明和專利全文中蘊含著更豐富的文本信息,可能有益于專利文本表示,未來需要進行嘗試和對比。其次,在專利文本賦予方式的比較過程中發(fā)現(xiàn),僅對專利分類號序列中的第一位專利分類號賦予文本時技術融合預測效果最優(yōu),但是這種方式會導致部分專利分類號不存在對應文本的情況,后續(xù)可以嘗試引入專利特征項中其他文本內容或者外部信息來賦予每一位專利分類號以文本,更好地進行專利分類文本賦予。最后,本文僅從專利分析視角研究了技術融合的某一特定類型,實際上,技術融合的表現(xiàn)形式多種多樣,尚需結合市場、產(chǎn)品、主題等進行綜合評判,未來可以綜合利用專利數(shù)據(jù)、商標數(shù)據(jù)、研究報告和市場信息綜合研究技術融合預測的指標、方法和評測框架,實現(xiàn)更準確的技術融合預測,提升決策支持效果。

猜你喜歡
分類號語義專利
專利
水運工程(2022年7期)2022-07-29 08:37:38
語言與語義
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
A Study on the Change and Developmentof English Vocabulary
“上”與“下”語義的不對稱性及其認知闡釋
Translation on Deixis in English and Chinese
認知范疇模糊與語義模糊
The law of exercise applies on individual behavior change development
專利
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
马鞍山市| 镇雄县| 纳雍县| 贵溪市| 双城市| 拜泉县| 兴业县| 武陟县| 临漳县| 慈利县| 门源| 图们市| 合川市| 遵化市| 芜湖县| 洛宁县| 洛隆县| 和硕县| 乌拉特中旗| 来宾市| 苍梧县| 腾冲县| 凭祥市| 株洲县| 乌拉特前旗| 南康市| 白城市| 碌曲县| 贵港市| 嵊州市| 宜兰市| 田东县| 鄂托克旗| 四川省| 新建县| 平昌县| 赣榆县| 宜兰县| 寿阳县| 武强县| 土默特左旗|