呂璐成,韓 濤,陳 芳,王學昭,趙亞娟,郭世杰
(1.中國科學院文獻情報中心,北京 100190;2.中國科學院大學經(jīng)濟與管理學院圖書情報與檔案管理系,北京 100190)
近年來,我國科技呈現(xiàn)多點突破、成果涌現(xiàn)的態(tài)勢,但在國際活動中頻繁遭遇美國的科技制裁、技術封鎖、出口管制等問題。2018年,中興公司在美國被封殺制裁,2019年華為公司遭遇特朗普政府主導的芯片斷供危機,國內一批高校、科研機構和企業(yè)也被列入技術出口管制實體名單。這些現(xiàn)象引發(fā)了我國社會各界對于美國技術管制的重視。
美國的對外出口管制的歷史可以追溯到1774年[1],后來逐步推出了由《出口管理法》(Export Administration Act,EAA)及其實施細則《出口管理條例》(Export Administration Regulations,EAR)組成的民用品出口管制法律體系和《武器出口管制法》(Arms Export Control Act,AECA)及其施行條例《國際武器貿(mào)易條例》(International Traffic in Arms Regulations,ITAR)構成的軍品出口管制法律體系[2]。管制清單是美國實施出口管制的重要手段,美國出口管制清單包括《商業(yè)管制清單》(Commerce Control List,CCL)、《美國軍用品清單》(United States Munitions List,USML)與《核管理委員會管制目錄》(Nuclear Regulatory Commission Controls,NRCC)[3]。目前,關注度較高的是CCL,由美國商務部工業(yè)和安全局(Bureau of In‐dustry and Security,Department of Commerce,BIS)逐年發(fā)布,其記載了該年度管制的商品類型(包括產(chǎn)品和技術等)。一般認為,CCL中記載的技術是我國有待進一步發(fā)展突破的技術,及時了解并掌握這些技術的中美技術差距,對于我國宏觀決策、資源配置以及引導技術研發(fā)具有重要意義。
那么如何刻畫并揭示中美在這些技術上的差距?專利信息集技術、法律、經(jīng)濟和戰(zhàn)略信息于一體,記載著技術研發(fā)和設計成果的進展和動向,是當前國際競爭中的重要武器,通過分析專利布局情況能夠反映技術布局情況。因此,本研究從專利布局的角度分析管制清單中涉及技術的中美技術差距。
但是,CCL清單涉及技術的數(shù)量繁多,數(shù)據(jù)描述格式多樣,且經(jīng)常更新,對分析工作的開展造成了極大挑戰(zhàn)。因此,本研究針對商業(yè)管制清單與專利自動映射方法進行研究,以實現(xiàn)在管制技術布局上的中美技術差距的高效揭示。
本節(jié)從基于管制清單的專利分析研究開展情況以及專利文本與其他數(shù)據(jù)關聯(lián)映射的研究進展情況兩個方面分析相關研究現(xiàn)狀。
目前,國內基于管制清單開展專利分析的研究數(shù)量不多,且主要依靠人工解讀技術清單提煉關鍵技術,進而擬定檢索表達式獲取技術相關專利開展定量分析,例如,祝捷頻等[4]以數(shù)控系統(tǒng)為例,通過對《瓦森納協(xié)議》和美國商務部制定的《出口管制條例》中涉及的相關技術解讀,擬定檢索式獲取專利數(shù)據(jù)開展定量分析,揭示中美數(shù)控領域專利布局差異。
此外,有些研究圍繞管制清單本身采用定性分析方法和定量分析方法開展分析解讀。定性分析方法方面,魏簡康凱等[5]采用文獻資料研究、案例分析和歷史分析方法,以美國《2018年出口管制改革法案》為研究文本分析其核心內容、主要特點以及給中國帶來的影響;陳峰[6]采用文獻資料研究方法解析了國外科技強國實施技術出口管制的競爭情報含義,指出中國實施高技術出口管制需要高度倚重競爭情報[7]。在定量分析方法方面,陸天馳等[8]運用詞頻統(tǒng)計和共詞分析對美國商品管制清單中與人工智能相關的行業(yè)數(shù)據(jù)進行分析,進而揭示領域管制重點;周磊等[9]基于2019年的實體清單數(shù)據(jù),綜合管制商品目錄及出口控制分類編碼體系,分析國內受限機構類型、技術出口管制領域、技術出口管制形式、技術出口管制原因。這些研究尚未涉及將管制清單數(shù)據(jù)與其他數(shù)據(jù)關聯(lián)分析。
目前,針對專利文本相似性的方法研究已經(jīng)有較多研究產(chǎn)出,包括基于專利分類、專利引證和文本挖掘的方法[10]。由于將專利文本與其他數(shù)據(jù)關聯(lián)映射時缺乏共類關系以及引證關系,因此,主要通過文本挖掘,即計算文本相似度的方法實現(xiàn)專利文本與其他數(shù)據(jù)自動化關聯(lián)映射。
跨技術領域關聯(lián)方面,Passing等[11]采用TF-IDF(term frequency-inverse document frequency)方法,識別特定技術領域的專利文本關鍵術語,通過計算其他技術領域與目標技術領域的語義相似度來分析技術領域之間的融合關系。
專利與論文關聯(lián)方面,曾文等[12]改進基于TFIDF的詞頻向量空間模型,將詞頻統(tǒng)計改為術語頻率統(tǒng)計,提出了一種計算科技期刊文獻與專利文獻之間相似度的方法;徐紅姣等[13]針對采用Word2Vec對文本主題進行聚類,通過計算主題語義相似性實現(xiàn)論文和專利的關聯(lián)。
專利與產(chǎn)業(yè)映射方面,田創(chuàng)等[14]基于TF-IDF和Z-score標準化方法,提出了專利數(shù)據(jù)與產(chǎn)業(yè)數(shù)據(jù)的自動化映射方法。
專利與需求匹配方面,詹文青等[15]采用依存句法分析識別專利文本和技術需求文本的動賓(verbobject,VOB)結構,基于語義TRIZ(theory of inven‐tive problem solving)框架對其技術問題、技術功能和技術效果進行標注,通過相似度計算分析專利和技術需求的匹配性。
綜上可知,開展管制清單與專利的自動化映射方法研究具有較高的創(chuàng)新性和探索性;同時,在專利數(shù)據(jù)與其他數(shù)據(jù)自動化關聯(lián)映射方面,也有相對有效的文本相似度計算方法可被應用。因此,本研究提出了基于文本相似度的美國商業(yè)管制清單與專利自動映射方法,并開展實證研究。
首先,圖1展示了本研究采用方法的整體框架,即基于美國商業(yè)管制清單數(shù)據(jù)和專利數(shù)據(jù),構建“管制技術-專利”自動映射模型;其次,應用模型將管制清單數(shù)據(jù)與專利數(shù)據(jù)建立映射關系,該映射關系為“一對多”關系,即一個管制清單技術類別會對應多件專利,而一件專利僅屬于一個最合適的管制技術類別;最后,基于該映射關系,開展各國在各管制技術類別上的專利布局差異對比,并形成分析結論。
圖1 方法整體框架
“管制清單-專利”自動映射模型是本研究的核心內容,模型框架如圖2所示。核心步驟包括:
圖2 “管制清單-專利”自動映射模型框架
Step1.對于管制清單文本和專利文本分別進行規(guī)范化。
Step2.對于規(guī)范化管制清單文本和專利文本分別進行向量化。
Step3.采用兩套方案對于管制清單文本向量和專利文本向量進行相似計算;
Step4.通過測試集評判效果較優(yōu)的模型和相似度閾值,確定其為開展后續(xù)分析的“管制清單-專利”自動映射模型。
以下針對各個步驟的實施過程分別進行論述。
3.2.1 文本規(guī)范化
3.2.1.1 管制清單文本規(guī)范化
管制清單文本是一類特殊的文本形式,具有專屬特征。從文本挖掘的原理看,直接將其與專利文本進行相似計算,會在特征提取過程中產(chǎn)生文本特征被淹沒的問題。因此,本研究對商業(yè)管制清單文本進行了深入的人工解讀和分析,從中歸納出了管制清單文本特有的一些特征,這些特征屬于文本相似計算時的噪聲,可以在進行文本匹配之前予以過濾,從而提升自動映射的效果。
圖3 展示了管制清單文本規(guī)范化的流程,包括關鍵短語識別、噪聲文本過濾、停用詞剔除和詞干化四個步驟。
圖3 管制清單文本規(guī)范化流程
為了避免詞組被切分造成特征被稀釋的問題,本研究首先對文本進行了關鍵短語識別。關鍵短語識別采用基于詞典的方式進行識別,短語詞典通過從Web of Science(WoS)數(shù)據(jù)庫2017年收錄的SCI(Science Citation Index)論文中抽取非單詞的詞組(如optical sensors、optical detectors)構建,關鍵詞典包含關鍵詞組的規(guī)模為2358897個。
停用詞剔除基于停用詞表進行,停用詞表通過人工判讀文本構建,包含停用詞1052個。
詞干化的目的是消減英文單詞形態(tài)多樣造成的干擾,本研究采用Python的NLTK(natural language toolkit)工具包中集成的SnowballStemmer工具對文本進行詞干化。
噪聲文本過濾是過程中的關鍵步驟。本研究將噪聲文本按照類型分為性能參數(shù)文本、解釋性文本、縮略語及特定用語文本以及無實際含義文本,采取詞性標注規(guī)則過濾(本研究采用NLTK工具中集成的詞性標注工具實現(xiàn))、正則過濾和直接過濾三種方式進行噪聲文本數(shù)據(jù)的過濾剔除,具體如下文所述。
1)性能參數(shù)文本
管制清單中會對管制技術或產(chǎn)品的性能參數(shù)進行明確的限制,包括性能范圍和具體參數(shù)。其中,性能范圍包括比較級(性能參數(shù)高于或低于某個數(shù)值)和上下限(性能參數(shù)在某個區(qū)間),但是這些參數(shù)作為文本特征的區(qū)別度不高,與專利文本進行相似計算時發(fā)揮作用甚微,因此本研究將其剔除。性能參數(shù)文本的特征、示例以及處理方法示例如表1所示。
表1 性能參數(shù)文本特征及處理規(guī)范示例
2)解釋性文本
解釋性文本,是指對管制清單中的某項技術或產(chǎn)品進行內涵限定,包括括號解釋文本、描述性文本和預留解釋性文本。其中,描述性文本又包括成分限定、組成限定、類別限定和過渡用語。這些文本作為文本特征同樣沒有特別高的區(qū)別度,因此需要剔除。解釋性文本的特征、示例以及處理方法示例如表2所示。
表2 解釋性文本特征及處理規(guī)范示例
3)縮略語及特定用語
縮略語及特定用語,是指管制清單中出現(xiàn)的特有的縮略語或短語,包括ECCN(export control classification number)號、特定名詞和特有縮寫(這種詞一般CCL中會有全稱)。這些文本屬于專有文本,在專利中基本不會出現(xiàn),屬于噪聲數(shù)據(jù),因此需要剔除。縮略語及特定用語文本的特征、示例以及處理方法示例如表3所示。
表3 縮略語及特定用語特征及處理規(guī)范示例
4)無實際含義文本
無實際含義文本,是指管制清單中出現(xiàn)的一些通用的泛指類詞和其他噪聲文本,這些詞沒有明確含義,包括泛指名詞、程度類詞、標點符號和單純數(shù)字。這些文本在文本相似計算時也屬于噪聲數(shù)據(jù),因此需要剔除。無實際含義文本的特征、示例以及處理方法示例如表4所示。
表4 無實際含義文本特征及處理規(guī)范示例
3.2.1.2 專利文本規(guī)范化
專利的標題和摘要記載了專利的主要技術方案和實現(xiàn)的技術效果,因此本研究選取專利數(shù)據(jù)的標題和摘要文本與管制清單進行文本相似計算。
圖4 展示了專利文本規(guī)范化的流程,包括關鍵短語識別、停用詞剔除和詞干化三個步驟,這三個步驟與管制清單規(guī)范化中對應的三個步驟一致,在此不再贅述。
圖4 專利文本規(guī)范化流程
3.2.2 文本向量化
文本向量化是文本相似計算的重要步驟。基于國內外專利文本與其他數(shù)據(jù)自動化關聯(lián)映射的方法,本研究采用兩種文本向量化方法進行管制清單和專利文本向量化,即基于TF-IDF的文本向量化方法和基于Word2Vec的文本向量化方法。
1)基于TF-IDF的文本向量化
TF-IDF可以用于評估一個詞對語料庫中一份文件的重要程度,能夠凸顯有區(qū)別能力的特征詞。實際上,基于TF-IDF的文本向量化是構造了目標文本的向量空間模型(vector space model,VSM),即將文本表示成實數(shù)值分量所構成的向量,分量采用詞的TF-IDF值進行表示。本研究采用了Python的Gensim包中集成的TF-IDF模型實現(xiàn)文本向量化。
2)基于Word2Vec的文本向量化
雖然基于TF-IDF的向量空間模型具有清晰明確易解釋的優(yōu)點,但是其存在向量維度隨著詞表增大而增大且向量高度稀疏的問題,同時其也無法處理同義詞、近義詞的語義問題[16]。
對此,Google公司Tomas在2013年提出的Word2Vec技術能夠使用低維度連續(xù)分布式向量來表示一個詞的語義[17],并且能夠有效表征同義詞、近義詞等語義相近的詞之間的相似關系,因此,在文本向量表示方面具有更高的可用性。Word2Vec模型是一個三層的淺層神經(jīng)網(wǎng)絡,有兩種訓練方法:CBOW和Skip-Gram。由于Skip-Gram在實際應用時訓練效果優(yōu)于CBOW,因此本研究采用Skip-Gram方法,基于英文專利語料訓練了用于后續(xù)文本相似性計算的Word2Vec模型。
本研究利用Python語言編程實現(xiàn)了基于Word2Vec的文本向量化方法,具體步驟為:
Step1.從Word2Vec模型中獲取每個詞特征的詞向量,依次組合形成一個二維數(shù)組。
Step2.將二維數(shù)組的元素逐個求和,形成一個跟詞向量長度一致的一維數(shù)組Array。
Step3.將一維數(shù)組歸一化,歸一化利用一維數(shù)組對應的向量模長,公式為
Step4.最后得到的stArray即句子向量。
本研究得到的管制技術向量和專利文本向量的
其中,i表示第i類管制技術;j表示第j件專利;n表示向量維度(本研究中,n=300);Wi,k表示第i類管制技術向量的第k個元素;wj,k表示第j件專利向量的第k個元素。
3.2.3 文本相似性計算及閾值設定
在通過文本向量化獲得管制清單各類別文本向量和專利文本向量后,本研究采用余弦相似度的方法進行兩兩文本相似性的計算,公式為
通過逐項兩兩計算,獲得每一篇專利與對應管制清單類別的相似度列表。相似度數(shù)值越大,表示專利與該管制技術類別的語義相似性越高,即專利屬于該管制技術類別的可能性越大。
由于并非每件專利都屬于管制技術類別,因此,本研究通過設定相似度閾值來確定屬于管制技術類別的專利,相似度閾值的設定基于模型在測試集上的映射效果來判斷。最終,選擇不低于相似度閾值的專利作為管制技術專利集合,這些專利所屬的管制技術類別為與其相似度最大的類別。
3.2.4 效果評估指標
本研究選用準確率、召回率和F1值三個評價指標來評估模型效果,分別采用宏平均的方式進行計算,即先對每一個類別分別計算準確率、召回率和F1值,然后對所有類別計算出算數(shù)平均值,公式為
其中,K代表管制技術類別數(shù)目;k表示第k類管制技術;p k、r k和F1k分別代表k類別的準確率、召回率和F1值;pk是衡量正確劃分到k類別的專利占模型預測出的劃分到k類別的專利的比例,pk越大,說明模型對于k類別專利分類越準確;召回率r k是衡量正確劃分到k類別的專利占測試集中屬于k類別的專利的比例,r k越大,說明模型在k類別上漏掉的樣本越少;F1k綜合考慮準確率和召回率,F(xiàn)1k越高,說明k類別的分類效果越理想;P、R、F1分別表示模型的準確率、召回率和F1值。
基于計算得到的管制清單各技術類別與專利數(shù)據(jù)映射關系,本研究提出一套可用于技術差距分析的管制技術專利布局態(tài)勢分析框架,如圖5所示。即分別進行各管制技術類別的專利布局國家分布對比和布局機構分布對比,從而量化判斷各國在管制技術類別上的技術差距。
圖5 管制技術專利布局態(tài)勢分析框架
4.1.1 管制清單數(shù)據(jù)
本研究選擇的管制清單數(shù)據(jù)是美國商務部工業(yè)和安全局于2019年發(fā)布的商業(yè)管制清單。因商業(yè)管制清單中編號為0的大類“NUCLEAR MATERI‐ALS,FACILITIES,AND EQUIPMENT[AND MIS‐CELLANEOUS ITEMS]”除了包含核材料、設施和設備的少量描述外,還包括大量雜項技術,類別內容不聚焦,經(jīng)分析后,在本研究中不予考慮,并將其與未管制技術共同放入一類,即“未管制或0類”,類編號為“10”,其他編號1~9的技術正常進行分析。管制技術類號及名稱如表5所示。
表5 管制技術類別
4.1.2 專利數(shù)據(jù)
由于2019年的商業(yè)管制清單是較高程度上依據(jù)前一年的技術布局情況而擬定的,因此,本研究選取2018年作為實證研究的時間節(jié)點;另外,考慮到各國通過PCT(Patent Cooperation Treaty,專利合作條約)途徑申請①PCT是一項國際合作條約。根據(jù)PCT的規(guī)定,參加該條約的國家的專利申請人可以通過PCT途徑遞交國際專利申請,向多個國家申請專利。中國、美國、日本、韓國、德國、法國等均是PCT成員國。的專利遵守同樣的約定,不存在明顯地域差異,且更能代表各國的技術研發(fā)實力以及在全球的技術布局策略,因此,本研究選擇了2018年全球申請的PCT專利與商業(yè)管制清單進行映射研究。專利數(shù)據(jù)通過Incopat專利數(shù)據(jù)庫②https://www.incopat.com/下載,檢索式為AD=[20180101 to 20181231]AND PN=WO*,檢索日期為2019年11月13日,共獲取2018年全球PCT專利申請213161件。圖6展示了專利數(shù)據(jù)的Top 10技術來源國的分布情況,美國、日本、中國位列PCT專利申請量的前三位,三者的專利數(shù)量占全球總量的63%,專利布局優(yōu)勢較為明顯。
圖6 2018年全球PCT專利申請量Top 10技術來源國分布圖
4.1.3 測試數(shù)據(jù)集
本研究邀請具有領域背景知識的情報專家通過人工標引構建分析結果評估測試數(shù)據(jù)集。共獲得標引數(shù)據(jù)1015條。10個類別的數(shù)據(jù)分布如圖7所示。其中,“10-未管制或0類”的專利數(shù)據(jù)最多,為357件;其次是“4-計算機”類,專利數(shù)據(jù)為121件,“8-海洋裝備”專利數(shù)據(jù)最少,為27件。
圖7 測試數(shù)據(jù)集中各類別的專利數(shù)量分布
本研究采用基于TF-IDF和基于Word2Vec兩套方案對2019年美國商業(yè)管制清單數(shù)據(jù)與2018年全球PCT專利申請數(shù)據(jù)進行自動映射計算,并利用測試數(shù)據(jù)集分別計算宏平均準確率、召回率和F1值指標。
由于兩套方案的自動映射模型均受到文本相似度閾值的影響,因此,本研究選取多個閾值參數(shù),對其分別判斷各項指標值。計算結果如表6所示。
表6 Word2Vec模型和TF-IDF模型調整閾值對應的評估指標計算結果
具體地,首先在[0,1]區(qū)間按照0.1的步長分別取相似度閾值。研究發(fā)現(xiàn),Word2Vec模型在閾值為0.8時,宏平均F1值最大;TF-IDF模型在閾值為0時,宏平均F1值最大。然后,進一步對Word2Vec模型以步長0.01在[0.8,0.9]區(qū)間取閾值,對TF-IDF模型以步長0.01在[0,0.1]區(qū)間取閾值,發(fā)現(xiàn)Word2Vec模型在閾值取值范圍為[0.8,0.87]①這是由于在該區(qū)間,Word2Vec模型預測的各個類的準確率、召回率和F1值均相同。時,宏平均F1值均取最大,取值為68.15%(表6中淺灰色底紋標出),TF-IDF模型在閾值為0.05時,宏平均F1值最大,取值為36.18%(表6中深灰色底紋標出)。
從上述對比數(shù)據(jù)來看,Word2Vec模型的映射結果明顯優(yōu)于TF-IDF模型。究其原因發(fā)現(xiàn),管制清單與專利文本用詞差異很大,基于TF-IDF從管制清單中直接提取的詞特征很可能在專利中找不到對應特征,因此,相似計算效果不佳;但是,Word2Vec能夠識別同近義詞的語義關系,所以,能夠將管制清單中的詞特征與專利文本的詞特征建立相似關系,進而實現(xiàn)較為準確的相似度計算。
對于Word2Vec模型而言,相似度閾值在[0.8,0.87]區(qū)間時,F(xiàn)1值最大,映射效果最優(yōu),此時的準確率為68.02%,召回率為75.06%。從數(shù)據(jù)檢索的經(jīng)驗來看,相似度閾值越高,一般檢索準確率越高。因此,為了保證分析準確性,本研究選擇Word2Vec模型文本相似度閾值為0.87時的映射結果開展后續(xù)的技術差距分析。
本研究基于Word2Vec模型相似度閾值為0.87時取得的自動映射結果,進行2019年美國商業(yè)管制技術類別的PCT專利布局態(tài)勢對比分析。
經(jīng)過自動映射計算,2018年全球申請的213161件PCT專利中,有17232件被識別為管制技術專利,占比8.08%。從整體結果來看,美國的相關專利布局最多,為5799件,優(yōu)勢較為明顯;中國由在全部專利數(shù)據(jù)中所處的第三位上升到第二位,這在一定程度上證明了我國在管制技術的布局上重視程度的提升(圖8)。
圖8 各國圍繞管制技術的PCT專利申請量分布
4.3.1 管制技術專利國別分布
圖9 展示了九類技術的Top 3布局國別分布圖。從圖中可以發(fā)現(xiàn),2018年中國和美國在九大領域中的PCT專利申請量均在全球前三位,呈現(xiàn)“角逐”態(tài)勢,但是美國的優(yōu)勢明顯大于中國。
圖9 九類管制技術對應的Top 3 PCT專利布局國
從分析結果來看,美國在除了材料加工之外的其他8個技術領域的PCT專利申請量均居于全球首位。尤其在計算機、傳感器和激光器、導航和航空電子設備以及航空航天與推進四個領域,較排名第二的國家均有明顯優(yōu)勢。
中國在材料加工領域PCT專利布局數(shù)量排名全球第一,但是優(yōu)勢較美國和德國并不明顯。此外,中國在除了傳感器和激光器之外的管制技術領域排名全球第二,與美國初具“對抗”之勢。在傳感器和激光器領域,中國位居全球第三,日本位居第二,這與我們對日本在精密儀器和物聯(lián)網(wǎng)方面具有較強技術儲備的認知一致。
4.3.2 機構分析
進一步地,對九類管制技術的Top 5布局機構分布進行分析,如表7所示。可以發(fā)現(xiàn),除傳感器和激光器技術領域外,我國均有機構進入各類別的Top 5排名機構清單。雖然我國整體專利布局數(shù)量不及美國,但是我國的諸多機構在各個管制技術類別里表現(xiàn)突出,例如,華為在電信和信息安全技術類別下排名第一,這與當前美國對華為的管制措施升級現(xiàn)象吻合;還有京東方科技集團在電子學技術類別排名第一,平安科技在計算機技術類別排名第一,大連理工大學在海洋裝備技術類別排名第一。此外,華南理工大學和南通德億新材料有限公司在特殊材料和相關設備、化學品、微生物和毒素技術類別下排名第二和第五。大疆科技公司在導航和航空電子設備、航空航天與推進兩個技術類別下分別排名第二和第四,青島海爾公司在海洋裝備技術類別下排名第三等。由此可以推斷,目前我國機構在管制技術布局方面正在逐步取得突破。
表7 九類管制技術對應的Top 5 PCT專利布局機構
反觀美國,雖然美國整體PCT專利數(shù)量排名位居全球首位,但是美國機構的PCT專利布局數(shù)量并不突出。出現(xiàn)在Top 5清單中的美國機構包括計算機技術類別下的微軟、谷歌和萬事達國際公司,材料加工類別下的美國應用材料公司,電信和信息安全技術、導航和航空電子設備技術類別下的高通公司,傳感器和激光器技術類別下的微軟公司,以及航空航天與推進技術類別下的通用原子航空系統(tǒng)公司。
在當下全球科技對抗形勢持續(xù)膠著的時代背景下,本研究面向高效率揭示中美在美國商業(yè)管制清單記錄的管制技術上的差距的情報需求,針對管制技術清單非結構化程度高的問題,提出了從專利分析的角度對比中美在管制技術上的差距的思想,采用文本挖掘手段研究了美國商業(yè)管制清單與專利自動映射方法,并以2019年美國商業(yè)管制清單和2018年全球PCT專利申請數(shù)據(jù)為例開展了實證研究,實現(xiàn)了專利視角的中美管制技術布局差距的高效揭示。
本研究的實證結果在一定程度上印證了當前美國對華出口管制持續(xù)升溫的現(xiàn)象,能夠較好地解釋華為等中國機構接連被管制的原因。此外,對于情報研究而言,本研究提出的方法能夠高效地關聯(lián)管制清單數(shù)據(jù)和專利數(shù)據(jù)并開展情報分析,是提升情報分析時效性的有力手段,具有較高的實際應用價值。
但是,本研究提出的方法得到的分析結果缺乏魯棒性,僅能作為情報研究工作的階段性輔助參考。如果需要準確、深度的國家間知識產(chǎn)權差距對比,仍需專利情報分析人員介入,利用領域背景知識,保證管制技術相關專利檢索的查全率和查準率,進而實現(xiàn)中美技術差距的精準揭示。
在方法層面,本研究依靠初步構建的停用詞庫、關鍵詞庫提升文本相似度的計算結果,在知識圖譜技術蓬勃發(fā)展的背景下[18],高質量的知識圖譜的引入能夠進一步提升方法的準確率和可用性。