(華東理工大學科技信息研究所,上海 200237)
隨著科學技術的發(fā)展和經濟全球化進程的加快,獲取關鍵技術優(yōu)勢成為提升國家和產業(yè)競爭力的重要手段,技術預測受到越來越多國家的重視,美國、日本、英國等國家開始紛紛加強對科技發(fā)展趨勢的預測及研究工作[1-2]。作為世界各國政府決策的基礎與前提,技術預測是遴選可能產生最大經濟效益與社會效益的戰(zhàn)略研究領域和通用新技術的手段。技術是隨時間而進化,絕大多數(shù)的技術都是漸進發(fā)展的,絕非憑空建立起來的[3],技術預測也應是一個隨時間推移而逐漸演變的過程,因此,構建客觀、全面、合理且具操作性的技術預測模型,提升預測模型的精準性具有重要的理論價值和現(xiàn)實意義。
隨著技術預測研究和實踐的開展,用于技術預測的方法也日趨豐富。傳統(tǒng)的技術預測方法主要以基于專家意見的定性預測法為主,包括德爾菲法、情景分析法以及技術路線圖等[4-6]。20 世紀90 年代,定量研究方法開始在技術預測中得到應用,比如,1998 年Chakravarti 等[7]將數(shù)理統(tǒng)計學方面的知識嵌套進德爾菲法,分別對短、中、長期的技術預測需求進行了方法上的微調。為提高技術預測質量和效果,越來越多的研究者將定量方法應用于技術預測中,以試圖改善技術預測方法體系,彌補定性方法易產生主觀偏誤性、全面性不足、顆粒度不一致等問題[8-9]。進入21 世紀初期,技術預測研究的內容則進一步深入到新興熱點技術和未來能源技術預測等特定領域[10-11]。而后,一些學者和機構引入文獻計量、專利分析作為技術預測的重要工具,出現(xiàn)了以數(shù)據(jù)分析為基礎的技術預測方法和以科學地圖為基礎的技術預測方法等等[12-13],如Chen 等[14]利用邏輯增長曲線模型描繪燃料電池行業(yè)的技術發(fā)展趨勢;Schaeffer 等[15]基于文獻數(shù)據(jù)分析識別技術關注度;Sitarz 等[16]利用聚類分析識別技術主題;Cocci 等[17]通過文獻發(fā)表量和引用網(wǎng)絡分析識別新興研究領域的技術發(fā)展軌跡,將專家調查數(shù)據(jù)與文獻和專利數(shù)據(jù)相結合,利用文獻計量識別技術發(fā)展動力模式和發(fā)展趨勢。
隨著大數(shù)據(jù)時代的到來,越來越多的研究者選擇采用組合方法并通過構建模型來進行技術預測研究,如Momeni 等[18]利用專利分析識別技術發(fā)展路徑,結合K 核分析和主題模型(topic modeling)分析技術發(fā)展趨勢;Jun 等[19]利用專利矩陣地圖和基于支持向量機的K-Medoids 聚類算法(KM-SVC)識別技術空白點;Trappey 等[20]提出基于時間序列擴展的邏輯模型;Lee 等[21]利用隨機專利引用分析和負二項分布模型動態(tài)評估未來技術的影響力;陳偉等[22]則結合隱含狄利克雷分布(LDA)和隱馬爾可夫過程(HMM),通過LDA 模型對海量異構專利文獻數(shù)據(jù)進行主題建模,預測技術趨勢;胡吉明等[23]對LDA 模型進行了改進,通過改進的Gibbs 抽樣估計提高主題挖掘模型的準確性;董放等[24]提出了一種基于機器學習(LDA 模型、SVM 模型)和時間序列預測(ARIMA)的新興技術預測方法,用以預測特定技術未來發(fā)展趨勢。
上述研究多是基于統(tǒng)計的主題模型揭示主題演化,這類方法雖涉及了知識創(chuàng)新演化分析的重點,如新主題的演化及時間周期的引入,但由于在進行主題提取時指標過于單一,且過于強調對現(xiàn)有主題趨勢變化的研究,而忽略了對于發(fā)現(xiàn)新主題概念的研究;另一方面,基于技術主題的預測模型大都偏向于靜態(tài)模型,而現(xiàn)實的技術發(fā)展都隨時間變化不斷演化,基于靜態(tài)的主題模型方法很難發(fā)掘技術演變過程及趨勢變化,極易忽略新技術的出現(xiàn)與演化,更有對微觀信息的挖掘不夠深入,也將在理解、認識復雜創(chuàng)新網(wǎng)絡時具有明顯的不足??傊瑔我坏募夹g預測方法往往各有自身的局限性,如何在技術預測方法中提高基于客觀數(shù)據(jù)的定量研究的比重,構建系統(tǒng)有效的技術預測模型成為未來技術預測方法學研究的重點。為了更加有效地提升預測的可靠性,克服單一研究方法的缺陷,有效地擴展趨勢演化模型的全面性,本研究將在對技術預測的基礎上進行主題演化模型分析,進一步通過技術主題清洗和引入時間窗研究技術,將技術主題演化通過相應遞進操作步驟,構建更為客觀、全面、合理和更具操作性的趨勢演化模型。
《美國聯(lián)邦政府技術預測工具應用現(xiàn)狀與潛在應用》研究報告將技術預測定義為:在特定的時間窗口內對技術未來特征或應用的預測[25]。Porter 等[26]指出,技術預測是描述在未來一段時間內技術的出現(xiàn)、性能、功能或影響的系統(tǒng)過程。劉育新[27]則認為技術預測就是一個綜合考慮未來科技、經濟和社會發(fā)展的趨勢和需要、選擇戰(zhàn)略研究領域和新興技術,以期產生最大的經濟和社會效益的過程,其中過程性和導向性是技術預測最典型的特征。目前,對于技術預測缺乏統(tǒng)一的定義,但技術預測包含新技術發(fā)現(xiàn)和新技術發(fā)展狀態(tài)兩方面內容已取得共識。為了更好地開展研究,本研究將技術預測研究定義為某一時間狀態(tài)下的新技術出現(xiàn)和新技術發(fā)展的動態(tài)變化趨勢,并進行技術趨勢演化探索?;诖?,本研究將以文獻數(shù)據(jù)源為技術預測數(shù)據(jù)源,從新技術發(fā)現(xiàn)和領域技術發(fā)展態(tài)勢兩個方向進行趨勢演化模型的技術預測探索與研究,即不僅從現(xiàn)有文獻中探索新的技術出現(xiàn),而且也將現(xiàn)有技術發(fā)展趨勢作為研究目標?;谮厔菅莼募夹g預測模型框架如圖1 所示。
圖1 基于趨勢演化的技術預測模型框架
由圖1 可見,趨勢演化模型分為3 個模塊:領域技術主題篩選與處理模塊、領域新技術主題清洗模塊、領域技術主題時序演化趨勢模塊,每個模塊之間的遞進分別給出測度條件,并定義相應的測度方法和分析工具,構造合理的模型。領域技術主題篩選與處理模塊采用文獻分析和數(shù)學模型的構建方法,以BICOMBII 和Python 為分析工具;領域新技術主題清洗模塊采用聚類分析法、數(shù)學模型的構建以及文獻計量學的方法,用Python 為分析工具;領域技術主題時序演化趨勢模塊采用圖譜法,用Python 為分析工具。
首先以Python 為工具建立詞庫,然后利用BICOMBII 對相關文獻的關鍵詞、高頻詞以及共詞等進行提取和詞頻統(tǒng)計。論文中的關鍵詞反映研究的技術主題,即所屬領域的專業(yè)術語,詞頻隨時間的變化可以反映研究的技術主題變化,為了避免因詞頻統(tǒng)計中不相關詞以及命名不規(guī)范關鍵詞的存在而影響分析結果,研究將從相關文獻中提取關鍵詞,并進行主題規(guī)范化處理,利用Python 進行統(tǒng)計,形成技術概念詞集Ki。高頻詞是指概念詞集相對高頻的技術主題,高頻概念詞隨時間的變化可以反映研究關注主題的變化,因此將數(shù)據(jù)集中的主題按照詞頻從高到低進行排列,取詞頻高的主題概念形成高頻數(shù)據(jù)集Hi。單一的主題概念以及高頻詞的變化尚不能全面描述技術主題的變化,因而利用詞共現(xiàn)描述發(fā)現(xiàn)的技術主題、詞共現(xiàn)的時序動態(tài)變化可以較為全面反映技術主題的變化,通過關鍵詞進行兩兩或者三三共詞分析得到詞共現(xiàn)矩陣,從而得到數(shù)據(jù)集Ci。
新主題概念詞是指在一定的時間區(qū)間(n年)內,按照一定的算法得到篩選出年度新呈現(xiàn)的主題概念。新主題概念詞的算法為:
式(1)中:n為研究選取的時間區(qū)間;NKi為第i+1 年的主題概念詞;Ki為第i年的主題概念詞。
新技術主題高頻詞是指在一定的時間區(qū)間(n年)內,按照一定的算法得到的新高頻主題概念詞。新技術主題高頻詞的算法為:
式(2)中:NHi為第i+1 年的新高頻主題概念詞;Hi為第i年的高頻主題概念詞。
新技術主題共現(xiàn)是指在一定的時間區(qū)間(n年)內,按照一定的算法得到的新主題概念詞共詞。新技術主題共詞的算法為:
式(3)中:NCi為第i+1 年的共詞新詞;Ci為第i年的共詞。
經過領域新技術主題清洗模塊得到的新主題概念詞、新技術主題高頻詞以及新技術主題共詞,共同形成了新主題集。新主題集公式為:
式(4)中:n為研究選取的時間區(qū)間;NSi為第i+1 年的新主題集。
經過上述兩個模塊得到的新主題集進入到領域技術主題時序演化趨勢模塊,通過對主題概念和新主題的詞頻進行分析、新主題的詞清洗以及對新主題的識別,得到具有潛力的技術主題范圍,繪制每個技術主題的時序演化曲線,從而得到技術主題的發(fā)展趨勢以及發(fā)現(xiàn)新技術主題。如,對研究時間區(qū)間(n年)內的每個新主題概念詞在每一年出現(xiàn)的情況進行分析,即出現(xiàn)在NKi中的新主題概念詞在NKi+1,NKi+2,… ,NKn-1年的新主題概念詞中的出現(xiàn)頻度及其詞頻,依據(jù)頻度值及研究時間區(qū)間設定閾值最大值,由于研究技術主題趨勢變化,則閾值最小值為3,將未達到閾值的新主題概念詞舍去,形成新的有效數(shù)據(jù)集。在新的有效數(shù)據(jù)集的基礎上對詞共現(xiàn)進行統(tǒng)計,探索技術主題相關性。新主題概念詞共現(xiàn)在每一年出現(xiàn)的情況,即出現(xiàn)在NCi年的共詞是否在NCi+1,NCi+2,… ,NCn-1中持續(xù)出現(xiàn),采用相同的方法設定閾值,將未達到閾值的新主題概念詞舍去,形成新的有效數(shù)據(jù)集。依據(jù)不同數(shù)據(jù)分析處理后形成新的有效數(shù)據(jù)集,繪制技術主題時序演化趨勢的技術主題概念的時序演化圖表。
由不同模塊生成不同數(shù)據(jù)集,分析處理后形成新的有效數(shù)據(jù)集,依據(jù)繪制技術主題時序演化趨勢的技術主題概念的時序演化圖表,對模型流程中呈現(xiàn)的眾多圖表作技術趨勢解讀分析。
2.4.1 詞頻趨勢解讀分析
分析每個技術主題概念在每一年出現(xiàn)的狀態(tài),即出現(xiàn)在NHi的技術主題概念詞是否在NHi+1,NHi+2,…,NHn-1年的連續(xù)出現(xiàn),對狀態(tài)演化結果進行分析和處理。根據(jù)選取時間區(qū)間的長度,從BICOMBII 得到的高頻詞詞頻表中查找得到技術主題概念詞對應的詞頻,形成技術主題概念詞及對應的詞頻表,通過對主題概念詞頻統(tǒng)計分析得到數(shù)據(jù)集,繪制每個技術主題概念詞繪制時序演化的詞頻圖表。觀察技術主題概念詞頻的變化趨勢圖,分析變化趨勢的3 種不同狀態(tài):第1 類是技術主題概念詞頻有穩(wěn)定趨勢方向,如已形成穩(wěn)定的增長趨勢或下降趨勢;第2 類是技術主題概念詞頻尚未出現(xiàn)穩(wěn)定趨勢,就是曲線波動;第3 類是技術主題概念詞頻變化尚未有趨勢,就是未形成連續(xù)時序曲線。對于有穩(wěn)定趨勢的技術主題概念高頻詞,有望成為關注程度高的技術主題,作為技術主題的發(fā)展態(tài)勢分析基礎。
2.4.2 新主題概念解讀分析
根據(jù)上述新主題概念模塊對技術主題概念新詞及其詞頻統(tǒng)計分析得到的新主題概念詞,及其對應的詞頻表形成新主題概念新詞時序演化趨勢圖。該技術主題概念詞頻的變化趨勢圖同樣存在3 種不同狀態(tài):第1 類是技術主題概念詞頻有穩(wěn)定趨勢方向,如已形成穩(wěn)定的增長趨勢或下降趨勢;第2 類是技術主題概念詞頻尚未出現(xiàn)穩(wěn)定趨勢,就是曲線波動;第3 類是技術主題概念詞頻變化尚未有趨勢,就是未形成連續(xù)時序曲線??蓪⒂蟹€(wěn)定趨勢的技術主題概念詞變化趨勢解讀為:新技術主題概念時序趨勢成持續(xù)向上線性分布,說明新技術主題概念已形成穩(wěn)定趨勢;新技術主題概念時序趨勢曲線平行分布,說明新技術主題概念出現(xiàn),具發(fā)展?jié)摿?;對于有穩(wěn)定趨勢的新技術主題概念,可認為有新技術出現(xiàn)的跡象,有望成為新的技術領域的技術主題;對于詞頻在連續(xù)幾年都有出現(xiàn)但無穩(wěn)定趨勢的新技術主題概念詞,可供專家進一步分析,作為備選的新技術主題;對于詞頻變化不成趨勢的新技術主題概念,呈點狀出現(xiàn),將不作為新技術主題概念。
2.4.3 詞共現(xiàn)趨勢分析
在新的有效數(shù)據(jù)集基礎上統(tǒng)計詞共現(xiàn)探索技術主題相關性,分析數(shù)據(jù)集中詞共現(xiàn)現(xiàn)象,即每一年出現(xiàn)狀態(tài),出現(xiàn)在NCi年的詞共現(xiàn)是否在NCi+1,NCi+2,… ,NCn-1中出現(xiàn)。對統(tǒng)計結果進行分析和處理,選取特定時間區(qū)間的長度,通過BICOMBII 得到的共詞詞頻表對應的詞頻,生成詞共現(xiàn)趨勢分析圖。
通過詞共現(xiàn)技術主題概念詞的時序演化圖表,解讀詞共現(xiàn)技術主題概念詞變化趨勢。從變化趨勢有穩(wěn)定發(fā)展的技術主題概念得到不同粒度的技術主題概念,以及解讀交叉領域有新技術出現(xiàn)的跡象,有利于鎖定新的技術領域和關注程度高的技術主題。
為驗證上述分析構建的模型的可操作性,本研究以揮發(fā)性有機物(VOCs)治理技術領域為例開展實證研究。
以Scopus 數(shù)據(jù)庫為數(shù)據(jù)源,采集到2010—2017年揮發(fā)性有機物治理技術領域相關文獻34 146 篇,提取索引關鍵詞共211 407 個。其中,各年提取關鍵詞的個數(shù)分別為25 268、27 883、27 873、25 842、23 854、25 753、27 599、27 335。對關鍵詞進行篩選,得到待分析數(shù)據(jù)集。以2017 年部分關鍵詞及詞頻為例,如表1 所示。表1 中“human(人類)”屬于無關詞,“titanium dioxide(二氧化鈦)”和“titania(二氧化鈦)”為同義詞,說明待分析數(shù)據(jù)集中存在無關詞和同義詞。
表1 2017 年揮發(fā)性有機物治理技術領域待分析數(shù)據(jù)集中的關鍵詞及詞頻 單位:次
由于待分析數(shù)據(jù)集是基礎數(shù)據(jù),在領域技術主題篩選與處理模塊從專業(yè)術語、高頻詞及詞共現(xiàn)3 個維度對待分析數(shù)據(jù)集進行刪除無關詞和合并同義詞的處理,得到術語集。2010—2017 年揮發(fā)性有機物治理技術領域的術語集中關鍵詞的個數(shù)分別為538、1 110、973、1 024、1 656、2 665、4 717、3 241。以術語集中2017 年部分關鍵詞及詞頻為例,如表2 所示。
表2 2017 年揮發(fā)性有機物治理技術領域術語集中部分關鍵詞及詞頻 單位:次
當?shù)玫降膶I(yè)術語、高頻詞和詞共現(xiàn)的關鍵詞同時滿足以下兩個條件時,則可進入第二模塊領域新技術主題清洗模塊:條件一,專業(yè)術語、高頻詞、詞共現(xiàn)的關鍵詞集不包含任何無關關鍵詞;條件二,專業(yè)術語、高頻詞、詞共現(xiàn)的關鍵詞的同義詞已全部找出且同義詞的詞頻已累加求和。
在模型的領域新技術主題清洗模塊中,從新主題概念詞、新技術主題高頻詞和新技術主題共詞3 個維度,對術語集按照領域新技術主題清洗模塊的算法得到新主題集。以第一年為參考日期,則2011—2017 年會出現(xiàn)新主題概念詞,將連續(xù)3 年出現(xiàn)的新主題概念詞稱為連續(xù)發(fā)展的新主題概念詞,并將其作為研究對象,預測新技術及發(fā)展態(tài)勢。得到2011—2015 年連續(xù)發(fā)展的新主題概念詞,如表3 所示。表3 中,2011 年列舉的新主題概念詞“montmorillonite(蒙脫石)”為揮發(fā)性有機物催化及催化劑應用研究領域;2012 年列舉的新主題概念詞“pressurized liquid extraction(加壓液相萃取)”和“successive ionic layer adsorption and reaction(連續(xù)的離子層吸附和反應)”為揮發(fā)性有機物治理設備及工藝研究領域;2013 年列舉的新主題概念詞“reduced graphene oxides(還原石墨烯氧化)”和“halide perovskites(鹵化物鈣鈦礦)”屬于揮發(fā)性有機物治理設備及工藝研究領域;2014 年列舉的新主題概念詞“vis absorptionspectroscopy (吸收光譜)”和“functionalized multi-walled carbon nanotubes (功能化多壁碳納米管)”屬于污染源檢測/監(jiān)測研究領域;2015 年列舉的新主題概念詞“perovskite thin films (鈣鈦礦薄膜)”為揮發(fā)性有機物治理設備及工藝研究領域。
表3 2011—2015 年揮發(fā)性有機物治理技術領域連續(xù)發(fā)展的新主題概念詞
當每年的新主題概念詞NKi、新技術主題高頻詞NHi、新技術主題共詞NCi都包含其對應的新主題概念詞、高頻詞新技術主題和新技術交叉主題時,則可進入第三模塊,即領域技術主題時序演化趨勢模塊。
在領域技術主題時序演化趨勢模塊中,采用追溯法對新技術主題的發(fā)現(xiàn)和領域技術發(fā)展態(tài)勢進行研究,發(fā)現(xiàn)新主題詞的變化呈現(xiàn)3 種趨勢,分別為詞頻呈現(xiàn)穩(wěn)定變化趨勢、詞頻有連續(xù)出現(xiàn)但無穩(wěn)定變化趨勢和詞頻未呈現(xiàn)變化趨勢。
(1)詞頻呈現(xiàn)穩(wěn)定變化趨勢。以2017 年為起始年份,按照2017 年、2016 年 2010 年的順序進行追溯式查找,詞頻呈現(xiàn)穩(wěn)定變化趨勢的特征為主題詞詞頻連續(xù)出現(xiàn),并且每年呈現(xiàn)均勻增長或者平穩(wěn)的狀態(tài),即屬于第1 類。部分主題詞詞頻從2010 年進入前50(50 為高頻詞閾值)的行列,且每年連續(xù)出現(xiàn)并一直保持在前50 的位置,其詞頻趨勢變化曲線如圖2 所示。高頻詞的閾值是指關鍵詞成為高頻詞時詞頻要達到的值。統(tǒng)計分析發(fā)現(xiàn),樣本文獻量隨時間呈不斷上升趨勢,則提取得到的關鍵詞詞頻同樣隨時間不斷上升。選取固定的詞頻值作為閾值不能滿足詞頻動態(tài)變化的需求,將關鍵詞按照降序排列,選取前50 個詞作為高頻詞,第50 個詞對應的詞頻作為高頻詞閾值。從圖2 可以發(fā)現(xiàn),這11 個主題詞在2010—2017 年每年都有進入前50并且呈現(xiàn)增長或者平穩(wěn)的趨勢,說明這些主題詞是在處理VOCs 技術領域一直高度備受關注,揭示了領域技術發(fā)展態(tài)勢。
圖2 2010—2017 年揮發(fā)性有機物治理技術領域新主題詞變化趨勢
(2)詞頻有連續(xù)出現(xiàn)但無穩(wěn)定變化趨勢。以2017 年為起始年份,按照2017 年、2016 年 2010 年的順序進行追溯式查找,詞頻有連續(xù)出現(xiàn)但無穩(wěn)定變化趨勢的特征為主題詞詞頻在2010—2015年可能沒有出現(xiàn),在2016 年、2017 年出現(xiàn)且呈現(xiàn)增長的趨勢。即屬于第2 類。
(3)詞頻未呈現(xiàn)變化趨勢。以2017 年為起始年份,按照2017 年、2016 年 2010 年的順序進行追溯式查找,詞頻未呈現(xiàn)變化趨勢的特征為只在2017 年出現(xiàn)在前50 新主題詞中,而在2010—2016年都沒有出現(xiàn)。此類主題詞呈現(xiàn)散點式分布,并不能夠形成趨勢變化圖,即屬于第3 類。此類主題詞可擴展研究的時間段做進一步的研究,作為后續(xù)研究的一個方向。
通過運用趨勢演化的技術預測模型得到主題詞趨勢變化曲線,根據(jù)技術主題的趨勢變化確定技術主題,并預測技術主題所屬領域。以新主題概念詞“zinc oxide nanoparticles”為例,如圖3 所示。由圖3 可見,氧化鋅納米粒子(zinc oxide nanoparticles)是2014 年出現(xiàn)的新主題概念詞,新主題概念詞的出現(xiàn)意味著新技術的出現(xiàn)。其中,在2014—2017 年氧化鋅納米粒子詞頻基本呈現(xiàn)上升趨勢,可以推測這是今后值得關注的新技術。
圖3 2014—2017 年氧化鋅納米粒子技術主題概念詞趨勢變化
綜合上述,經過3 個模塊的層層遞進,得到反映新技術的關鍵詞。本研究對新主題集中的關鍵詞結合其趨勢變化進行總結,預測了揮發(fā)性有機物處理技術主要集中于5 個領域:(1)揮發(fā)性有機物催化及催化劑應用研究領域;(2)光催化研究領域;(3)揮發(fā)性有機物治理設備及工藝研究領域;(4)污染源控制研究領域;(5)污染源檢測/監(jiān)測研究領域。
本研究綜合運用了文本分析、共現(xiàn)分析和圖譜法,以BICOMBII 和Python 為分析工具進行數(shù)學模型的構建,且從新技術發(fā)現(xiàn)和領域技術發(fā)展態(tài)勢兩方面提出了一種基于趨勢演化分析的技術預測研究框架,并以Scopus 文獻數(shù)據(jù)庫為數(shù)據(jù)源,以揮發(fā)性有機化合物處理技術領域為例進行了實證研究,篩選出VOCs 領域待選的新技術主題以及技術趨勢。研究所采用的數(shù)據(jù)全部采集于文獻數(shù)據(jù)庫,數(shù)據(jù)采集和分析過程可重復、可追溯,研究中受主觀因素的影響較少,所以結論比較客觀、真實。
本研究提出的模型由領域技術主題篩選與處理、領域新技術主題清洗、領域技術主題時序演化趨勢3 個模塊構成,各模塊之間存在遞進關系。模型一方面從系統(tǒng)化和定量化優(yōu)化了技術預測方法,另一方面基于文獻內容特征的多要素指標進行技術主題的提取,數(shù)據(jù)源更為豐富全面,便于更深入地挖掘微觀信息。可以說,綜合、動態(tài)的文獻計量分析范式對于其他科學主題進行研究前沿篩選和研究技術演化模式的探索,也具有一定的參考價值和推廣借鑒意義。