劇曉紅+++趙一方+++裴雷+++孫建軍
摘 要:文章以長三角地域科技報告文本為研究對象,基于LDA主題模型分析、差異性分析等研究方法對其進行科技專長識別監(jiān)測及科技專長演化研究,在此基礎上提出基于地區(qū)科技專長來平衡和再分配的科技資源動態(tài)配置的政策設想。
關鍵詞:科技專長;動態(tài)監(jiān)測;資源配置;科技報告
中圖分類號:G322.0 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2017092
Regional Academic Superiority Surveillance Based on Big S&T Textual Data and Policy Application
Abstract Science and Technology Report in Yangtze River Delta is taken as the research samples, and LDA model analysis and discrepancy analysis are used to examine the regional academic superiority and evolution of science and technology research. Based on the regional academic superiority, this paper put forward suggestions to balance and redistribute the technology resources of the dynamic configuration.
Key words regional academic superiority; dynamic surveillance; resource re-allocation; science and technology reports
1 引言
推進科技創(chuàng)新,建設科技強國,一方面需要強調(diào)國家需求的重點建設領域,以國家需求為導向,另一方面也不能忽視科技創(chuàng)新效率和科技資源配置效率問題。在以往研究中,楊傳喜主張從科技成果利用與再利用角度增加科技資源的配置效果[1];魏守華、吳貴生[2]提出從科技產(chǎn)出角度評估科技資源配置效率;曾碩勛等[3]強調(diào)從科技要素投入角度評估科技資源配置效果。在科技資源配置活動中,圍繞熱點焦點的問題一擁而上,不考慮地方的實際科技攻關能力和科技專長的方式有蠻干之嫌;長期按照固有的配置領域和配置額度執(zhí)行科技資源配置,則無法最大可能地激發(fā)地方科技創(chuàng)新活力、提升科技創(chuàng)新實效。而依據(jù)經(jīng)濟學中的比較優(yōu)勢理論,地方科技管理機構將資源投入到最具有比較優(yōu)勢又符合國家發(fā)展戰(zhàn)略的研究專長領域,可能是一種比盲目聚焦熱點更有效的配置方式。
隨著科學數(shù)據(jù)的逐漸開放與共享,跨區(qū)域的科技活動數(shù)據(jù)、科技研究數(shù)據(jù)、科學家行為數(shù)據(jù)等所建構的科學大數(shù)據(jù),使得地方政府能夠更準確地理解區(qū)域科技專長,從而制定更加優(yōu)化的資源配置策略。在科學數(shù)據(jù)建設環(huán)節(jié),國務院印發(fā)的《促進大數(shù)據(jù)發(fā)展行動綱要》中確切提出:要發(fā)展科學大數(shù)據(jù),積極推動由國家公共財政支持的公益性科研活動獲取和產(chǎn)生的科學數(shù)據(jù),逐步開放共享。習總書記在全國科技創(chuàng)新大會中也指出應尊重科技創(chuàng)新的區(qū)域集聚規(guī)律,李克強總理同時強調(diào)應大力推動科技創(chuàng)新協(xié)同以及區(qū)域創(chuàng)新協(xié)同[4]。因此,本文以長江三角洲地區(qū)三省一市的科技報告文獻為研究對象,對其進行地區(qū)科技專長監(jiān)測及科技專長演化研究,在此基礎上提出基于地區(qū)科技專長來平衡和再分配的科技資源動態(tài)配置的政策設想。
2 研究背景
科技報告作為一種特殊的科技文獻,是科學研究活動的重要科學技術產(chǎn)物,是科學工作者對其所從事的科學研究工作過程詳細記錄的一種特定文獻[5],是國家科技創(chuàng)新戰(zhàn)略性資源之一,加強對科技報告的利用與管理是提高科技創(chuàng)新能力的重要因素。目前國家科技報告服務系統(tǒng)收錄的科技報告涉及國家高技術研究發(fā)展計劃(863計劃)、國家科技重大專項等國家科技重點研究計劃所呈交的科技進展報告、專題技術報告、最終技術報告、組織管理報告以及部分地方科技報告等[6]??萍紙蟾嬖谝欢ǔ潭壬戏从沉藝铱萍记罢凹夹g以及重點技術進展情況,對其研究主題識別與主題演變規(guī)律進行分析,能夠有效了解相關科學技術知識的發(fā)展態(tài)勢以及分布規(guī)律等,不僅有助于科學研究人員以及相關科研管理者制定科研決策,對區(qū)域間科學技術知識轉移、科技資源協(xié)同創(chuàng)新、合理分配等也有一定的實踐意義。如張軍亮[7]以科技報告生物與醫(yī)藥技術領域為研究對象,從作者合作等視角進行相關文獻計量研究;王曰芬等[8]對“微波功率放大器”領域的科技報告文獻進行主題演化分析,以佐證其將主題模型分析引入科技監(jiān)測方法的適用性。
其次,對科技專長的研究一直以科技研究的特征表征為著眼點。尤其是在科技文獻的計量研究中,通過對文獻諸如關鍵詞、題名、摘要、引文等相關信息特征進行研究分析,識別科技文獻中蘊含的科學技術研究主題,并對其進行主題跟蹤、演化等分析工作,以了解與把握科技活動的關注重點,有助于監(jiān)測科學技術的研究方向,揭示科學技術的發(fā)展態(tài)勢以及演化規(guī)律。目前,學術界對科技文獻主題分析多以學術期刊論文、學術會議論文、專利文本、科技規(guī)劃文本以及相關基金項目數(shù)據(jù)等為研究載體,且較多針對某特定學科領域進行單一維度或加入時間、作者等維度進行主題識別、主題跟蹤、主題演化等監(jiān)測研究[9]。尚未有學者從區(qū)域視角出發(fā),對科技報告的研究主題進行識別發(fā)現(xiàn)分析。
再次,從研究方法看,科學文獻的區(qū)域主題追蹤與監(jiān)測研究普遍采用基于描述性統(tǒng)計分析、基于關鍵詞、爆發(fā)詞的共現(xiàn)分析、社會網(wǎng)絡分析、復雜網(wǎng)絡分析、引文分析等科學計量方法。也有學者采用LDA主題模型分析方法,以及基于改進的相關主題分析模型諸如主題-時間模型、主題-作者模型、層次概率主題模型等進行學科主題識別、演化分析。但是,對于改進模型的驗證較多采用某一特定專業(yè)領域期刊文獻進行驗證,優(yōu)化后模型的普適性尚未得到廣泛驗證。LDA (Latent dirichlet allocation)是一種三層貝葉斯主題模型,通過無監(jiān)督的學習方法挖掘文本中隱含的語義主題信息[10],已經(jīng)被廣泛應用于主題分析、科學監(jiān)測、前沿分析、文本挖掘、情感分析等領域,模型適用與穩(wěn)定性相對較好。而在以往研究中,對科技報告的區(qū)域特征、區(qū)域專長的識別并不完善。endprint
3 研究設計
地區(qū)科技專長是以地域作為參照的,科技能力或科技產(chǎn)出的優(yōu)勢領域。在以往研究中,對專長領域的界定多采用學科作為參考標準,一是領域界定口徑較寬,無法深入細節(jié);二是對跨學科、交叉學科領域的識別效果不突出。因此,本文提出從科技產(chǎn)出的基礎語料抽取主題對象來反映地區(qū)專長領域的分布、變化與演進。主要研究工作包括:第一,地區(qū)科技專長的特征表達與提取,主要是通過LDA計算設置最優(yōu)主題數(shù)目以及相關模型參數(shù),識別地區(qū)科技研究主題以及分布;第二,地區(qū)科技專長的差異性監(jiān)測,對采樣區(qū)域的科技研究專長的差異性進行監(jiān)測判斷,進而識別地區(qū)特長;第三,地區(qū)科技專長的演化分析,基于上一步驟抽取的研究主題,監(jiān)測科技專長的演化規(guī)律;最后,基于地區(qū)專長特色和演化過程,提出相應的政策建議與策略(具體研究設計見圖1)。
3.1 數(shù)據(jù)收集與預處理
本文的科技報告數(shù)據(jù)來源于國家科技報告服務系統(tǒng),該系統(tǒng)提供針對社會公眾、專業(yè)人員以及管理人員三種共享服務模式,收錄了由國家科技計劃項目研究產(chǎn)生的科技報告,并且設置可依據(jù)項目資助來源、學科、地域、類型等不同分類標準的檢索途徑。本文在系統(tǒng)提供的地域分類標準下,采集截至2016年10月16日系統(tǒng)中上海市、江蘇省、浙江省、安徽省目錄下的科技報告文本,主要包括科技報告題名、關鍵詞、摘要、報告作者、編制時間等題錄信息。通過對所采集的科技報告數(shù)據(jù)進行信息內(nèi)容完整性檢查,去除信息不完整的條目,最后共獲取2007-2016的10年間科技報告題錄信息17088條。
本文首先對科技報告的摘要信息進行數(shù)據(jù)預處理,因科技報告內(nèi)容涉及多個學科主題,專業(yè)術語較多且詞語表示較為專業(yè),為確保分詞結果的準確性,將科技報告文本中出現(xiàn)的關鍵詞加載為自定義詞典,結合中科院NLPIR漢語分詞系統(tǒng),對科技報告摘要信息進行分詞后采用停用詞將文中諸如虛詞、形容詞、副詞、單節(jié)詞以及摘要中出現(xiàn)的如“出現(xiàn)”“提出”“建立”等與主題描述關聯(lián)較小的詞語去除,最終得到較為規(guī)范的特征項。
3.2 地區(qū)科技專長識別與差異監(jiān)測
在地區(qū)科技專長的特征抽取與表述中,本文以科技報告作為地區(qū)科技專長分析的基礎語料,在語料處理中引入LDA 模型,將每篇文檔中的詞均以一定的概率選擇某個主題,并且在該主題中以一定的概率選擇某個詞,即主題模型生成過程[11]。通過不斷重復上述主題模型生成過程,迭代至出現(xiàn)較為穩(wěn)定的“文檔-主題-關鍵詞”概率分布矩陣,最后根據(jù)概率分布對應的文檔內(nèi)容總結提煉主題內(nèi)容,從而識別發(fā)現(xiàn)文檔的研究主題[12]。為得到較為切合研究的最優(yōu)LDA模型,需要對模型設置合適的主題抽取個數(shù),即最優(yōu)主題值K,本文采用困惑度[13]對最優(yōu)主題數(shù)進行迭代計算。
在地區(qū)科技差異監(jiān)測與檢驗中,本文主要采用配對T檢驗對不同地區(qū)的專長結構(專長主題向量)進行差異性分析。配對T檢驗多適用于對隨機樣本均值的兩要素間作對比研究。已有學者采用該方法進行兩兩因素差異性分析,如孫建軍等[14]采用配對T檢驗進行智慧城市政策理念強度與行政級別的差異性檢驗,驗證了該方法的有效性。
3.3 地區(qū)科技專長的時間演化
在已有的主題與時間變化的關系研究中,普遍采用先離散時間再抽取主題、先抽取主題后離散時間以及將時間因素加載在主題分析模型中這三種處理方式。對于時間窗的劃分目前尚未有統(tǒng)一的標準,不同的學者針對各自的研究需要,采取兩年、三年、四年、五年、逐年等不同的時間片段劃分標準。本文針對科技報告的特征需求,為減小因離散模塊劃分造成低頻詞較多、主題概括主觀差異等所帶來的誤差,將研究語料進行整體分抽取典型研究主題,并以此為參考主題,跟蹤上述主題隨時間的波動變化。
在本文提出的研究模型中,專長的時間演化主要通過主題分布的結構變化來表征。為反映這種結構變化,可以從相似相異判斷(如CV值)、突變主題變化、信息熵等不同視角判斷,本文選取信息熵變來測度某一地區(qū)的整體專長結構隨時間的變化趨勢。一般而言,若地區(qū)內(nèi)的主題分布差異較大,則對應的信息熵較大,反之亦然[15]。而熵變則是一種描述主題變化的尺度,反映了整體結構的變化。科技報告研究主題可以說是一種具備耗散結構特點的集合,其研究主題的變化可以用信息熵測度。
科技報告研究主題隨時間以及相關外界因素變化會呈現(xiàn)不同的演化態(tài)勢。依據(jù)信息熵值變化原理,本文通過觀測科技報告研究主題的熵差值隨時間變化的態(tài)勢來監(jiān)測地區(qū)科技專長的演化過程。具體計算公式為:△hi(t)=H(t)-H(t-1),其中,H(t)代表某一科技報告研究主題在時間t時的信息熵;H(t-1) 代表其在時間t時間前一時間段對應的信息熵。若△hi(t)>0表示主題演化呈現(xiàn)熵增過程,其研究主題內(nèi)容無序度增大并且逐漸向無序度轉化;△hi(t)=0表示主題演化沒有發(fā)生變化;當△hi(t)<0 表示主題演化呈現(xiàn)熵減過程,其研究主題內(nèi)容無序度減小,并且逐漸向有序化轉變[16]。信息熵的變化可能會與國家政策、相關學科建設、科研人員自身等眾多因素有關。
4 研究結果
4.1 地區(qū)科技專長模型的表征
地區(qū)科技專長通過科技報告語料識別,共獲取52044個特征項,通過困惑度求解出科技報告研究主題最優(yōu)K值為10,迭代次數(shù)設為1000次,LDA模型參數(shù)值預設為:alpha=0.0l,beta=0.05。通過迭代計算,最終抽取主題-詞分布,從而得到科技專長領域-特征詞的分布。由于文檔數(shù)量較大,本文只表述詞頻在該主題下,特征較為顯著的關鍵詞。同時,依據(jù)計算得出的文檔-主題概率分布中各研究主題的概率降序排列,找到各主題所對應關聯(lián)度較高的科技報告文本信息。綜合特征較為顯著的關鍵詞、科技報告文本信息以及相關科技報告學科分類,綜合歸納提煉各研究主題(見表1)。提煉后發(fā)現(xiàn),科技報告研究的主題主要有臨床醫(yī)學、環(huán)境科學與清潔技術、地質海洋與大氣、生物醫(yī)學、計算機與自動化、建筑工程、材料科學、化學科學、農(nóng)業(yè)與生物技術、管理科學與工程十個研究方向。endprint
4.2 地區(qū)科技專長識別及其差異性分析
依據(jù)上文LDA模型迭代計算得出的文檔-主題概率分布矩陣,計算出科技報告研究主題的概率平均占比[14],即科技報告研究主題出現(xiàn)在某一地區(qū)的文檔-主題概率總值與該地區(qū)所有主題出現(xiàn)的文檔-主題概率總值的比值,其表示出該研究主題在該地區(qū)所有主題中的重要性占比;同時,將各地區(qū)主題的重要性與該地最高比例主題的數(shù)值作比,得出各主題的相對重要性數(shù)值;最后,根據(jù)上述值計算得到各地區(qū)的主題分布差異(見表2)。
從表中可以看出,長江三角洲地區(qū)科技報告研究主題的總體發(fā)展情況。2007-2016年間,該地區(qū)科技報告研究主題主要集中在主題2、主題3、主題4、主題5、主題6、主題7。
其次,數(shù)據(jù)結果顯示不同的省市科技專長方面具有一定的傾向性與差異性。在地區(qū)科技專長識別中,可以從三個角度考慮:第一,域內(nèi)占優(yōu)識別,即在指定區(qū)域內(nèi)主題概率最集中反映的主題領域,以此標準,安徽相對而言,在材料科學、建筑科學和化學領域更占優(yōu)勢;江蘇省是地質海洋與大氣科學、農(nóng)業(yè)與生物技術科學相對占優(yōu);上海是臨床醫(yī)學、材料科學相對占優(yōu);浙江省是農(nóng)業(yè)與生物技術、計算機與自動化技術相對占優(yōu)。第二,區(qū)域間絕對值占優(yōu),即在相同主題的跨區(qū)域顯示中(絕對值行模型),具有絕對占優(yōu)的地域即為該主題的占優(yōu)區(qū)域,反之該主題亦為該區(qū)域的占優(yōu)主題。而在區(qū)域絕對占優(yōu)測試中,安徽和浙江均在十大主題領域中沒有占優(yōu)主題,江蘇的絕對占優(yōu)主題仍為地質海洋與大氣科學、農(nóng)業(yè)與生物技術科學,其余科技專長均為上海市。第三,區(qū)域間相對值占優(yōu),類似比較優(yōu)勢的區(qū)分方法,區(qū)分出:安徽省在建筑工程、材料科學、化學科學中相對占優(yōu),江蘇省在地質海洋與大氣科學相對占優(yōu),上海市在臨床醫(yī)學、生物醫(yī)學、管理科學與工程相對占優(yōu),浙江省在環(huán)境科學與清潔技術、計算機與自動化、農(nóng)業(yè)與生物技術科學相對占優(yōu)(見表3)。
第三,通過表2中的CV值,可以判斷安徽省的十個主題分布的差異最大,域內(nèi)的相對優(yōu)勢更加突出,域內(nèi)相對占優(yōu)的提取越明顯;浙江省十個主題分布的差異最小,最不容易識別域內(nèi)相對專長領域。
特別地,采用配對T檢驗對長江三角洲地區(qū)三省一市四個省市科技報告研究主題之間的差異性進行分析,可以再次檢驗科技專長在不同省市間差異的顯著性(見表4)。由表4中Sig.(2-tailed)結果可知,除Pair 4檢驗結果中,江蘇省與上海市科技報告研究主題間無顯著差異外(Sig.(2-tailed)=0.116)>0.005),其余五組配對T檢驗結果表明,各區(qū)域兩兩間均存在顯著差異。同時,由表4中相關系數(shù)Sig.結果可知,四個區(qū)域間各研究主題除Pair 4江蘇與上海之間存在顯著相關關系外(Sig.=0.001<0.05),其余配對兩兩地區(qū)比較結果顯示,Sig.值均大于0.05,說明安徽省與江蘇省、浙江省、上海市的科技報告研究主題兩兩間均不存在顯著相關關系,江蘇省與浙江省、浙江省與上海市的科技報告研究主題間均不存在顯著相關關系。即區(qū)域與科技報告研究主題的差異分析中,除江蘇省與上海市兩地區(qū)間科技報告研究主題無顯著差異外,其他各省份間科技報告研究主題均存在一定的差異性。
4.3 地區(qū)科技專長的時間演化
通過信息熵公式H(X)= P(Xi)log p(Xi) ,計算得出科技報告10個研究主題歷年的信息熵,具體計算結果(見表5),上述公式中,H(X)表示系統(tǒng)信息熵,如科技報告主題信息熵;P(Xi)表示某要素出現(xiàn)的次數(shù)與全部要素出現(xiàn)總數(shù)的比值,即科技報告某一主題在當年出現(xiàn)的概率總值與當年所有主題出現(xiàn)概率總值的比值,計算采用以10為底的對數(shù)[15]。由信息熵原理[16]可知,科技報告研究主題對應的信息熵值越大,表明科技報告研究主題的內(nèi)容涉及面越廣,研究內(nèi)容相對較為離散,反之,若研究主題對應的信息熵值越小,表明其研究主題內(nèi)所包含的內(nèi)容較為單一集中(具體計算結果見表5、圖3)。
根據(jù)圖3可知,十年間熵值最高的研究主題是主題5計算機與自動化,結合上文LDA模型迭代計算得出的文檔-主題概率矩陣所對應的科技報告文本信息可知,該主題多涉及網(wǎng)絡平臺研究、智能配電、無線網(wǎng)、通信仿真等圍繞計算機與自動化方向的相關應用技術研究,具體應用方向和內(nèi)容較為廣泛,與其熵值最大對應的研究內(nèi)容豐富、分散等特征較為符合。主題1臨床醫(yī)學、主題2環(huán)境科學與清潔技術、主題4生物醫(yī)學、主題6建筑工程、主題7材料科學、主題8化學科學、主題9農(nóng)業(yè)與生物技術的熵值相對中等,并且熵值間差異較小,所涉及的研究內(nèi)容多是面向學科特定需求進行相關技術與基礎應用研究,其研究對象相對來說較為集中。主題3地質海洋與大氣、主題10管理科學與工程的熵值相對最小,從其研究主題各自對應的學科特點來看,這些研究主題的相關研究對象與研究內(nèi)容更為集中。
依據(jù)表5計算歷年信息熵的差值,即從科技報告研究主題的信息熵差的變化情況探討地區(qū)科技專長隨時間的演變情況(見圖4)。
由圖4可知,2007-2016年間,科技報告研究主題整體上呈現(xiàn)出熵減的演化趨勢。其中, 2007-2008、2011-2012年這兩個時間周期內(nèi),科技報告研究主題的熵差值均大于0,顯示出在上述時間周期內(nèi)研究主題呈現(xiàn)熵增的演化過程,相關研究主題內(nèi)容有所擴展,該研究領域出現(xiàn)一定新的研究方向。除上述時間周期以外,2009-2011、2013-2016年這兩個時間周期內(nèi)(除2015年間有短暫且幅度較小的熵增變化外),科技報告研究主題的熵差值均小于0,顯示出科技報告研究主題在上述時間周期內(nèi),呈現(xiàn)熵減的演化過程,各研究主題逐漸向有序化轉變,即在該時間周期內(nèi),經(jīng)過時間變化以及相關研究的日趨成熟穩(wěn)定,區(qū)科技專長所涉及的研究方向逐漸有序化,形成相對較為穩(wěn)定的研究熱點或研究領域。
基于上述描述可知,2007-2016年間,科技報告研究主題整體上呈現(xiàn)出由無序向有序發(fā)展的演化過程,即地區(qū)科技專長逐漸向有序化轉變,日漸形成相對較為穩(wěn)定的研究領域。endprint
5 分析與討論
5.1 地區(qū)科技專長監(jiān)測的政策應用
地區(qū)科技專長監(jiān)測提供了一種基于科技專長的資源動態(tài)配置可能。資源動態(tài)配置是指基于地區(qū)科技專長的比較優(yōu)勢,或者地區(qū)科技專長的漲落變化,對科技資源在橫向配置(區(qū)域配置)和縱向配置(時間配置)進行動態(tài)調(diào)控的策略。相對已有的科技資源配置政策,資源動態(tài)配置能夠更有效地提高科技資源的利用效率,提高投入產(chǎn)出比。
(1)基于科技專長的地區(qū)差異,能夠識別某一地區(qū)的科技產(chǎn)出最大或潛力最大的細分領域或交叉領域,從而提供了一種依據(jù)專業(yè)特征重點投資的科技資源配置改進策略。以此次研究為例,通過對2007-2016年長江三角洲區(qū)域科技報告資源的LDA主題模型分析,在三種不同的統(tǒng)計口徑中形成了不同的地區(qū)專長判斷標準:以域內(nèi)絕對值而言,可以識別出江蘇在地質海洋與大氣、農(nóng)業(yè)與生物技術兩個專長領域的聚焦優(yōu)勢,意味著這兩個領域在江蘇省內(nèi)的投入產(chǎn)出效應會大于省內(nèi)其它領域。以域間絕對值而言,在安徽省的主題監(jiān)測中,并未發(fā)現(xiàn)在四省市中絕對占優(yōu)的主題或科技方向,因而轉向可以依據(jù)地區(qū)的潛力最大專長,即相對顯著度最顯著的專長領域,即本地區(qū)內(nèi)最具有潛力的領域。
(2)基于地區(qū)科技專長時間差異的動態(tài)配置,可以統(tǒng)計歷年間主題差異或年度占優(yōu)主題,從而確定年度優(yōu)先資助計劃。在時間動態(tài)配置模型中,主要是通過主題在不同時間的差異分布,識別出局部短期的最優(yōu)投入產(chǎn)出方案;而在實際應用中,因科技研究的成果具有一定的滯后性,適合進行分段的時間窗統(tǒng)計。
(3)在實際政策執(zhí)行中,科技資源配置變更的執(zhí)行成本與時滯效應也不能完全忽略。因科技資源管理過程中,在計劃制定、資源配置、過程管理、產(chǎn)出結果統(tǒng)計過程中均具有一定的學習成本、沉沒成本和行為慣性,科技管理人員習慣按已有的管理流程工作,因而在權變管理過程中會形成一定的操作性成本,最終影響實際的配置效果。
5.2 主要研究不足與改進
地區(qū)科技專長的表征具有多源屬性,科技報告、科技論文、專利產(chǎn)出等不同的科技文獻具有不同的表征方式,因而科技報告并不是地區(qū)科技專長的唯一載體;其次,科技報告相對于實際科技活動的開展,具有較長的滯后時間,影響了對科技專長或地區(qū)科技優(yōu)勢的研判準確性;第三,在數(shù)據(jù)分析過程中,雖揭示了地區(qū)科技研究主題分布與演化的內(nèi)涵與差異性,卻無法對各地區(qū)間主題差異性進行較為深入的歸因研究,不能對科技專長的引導與培育提供科學的指導建議。同時,在研究方法上對專長界定、專長識別、差異性判斷等領域還有大量的改進空間。
參考文獻:
[1] 楊傳喜.市場機制下地方政府科技資源配置方式研究[D].武漢:中國地質大學,2005.
[2] 魏守華,吳貴生.區(qū)域科技資源配置效率研究[J].科學學研究,2005,23(4):467-473.
[3] 曾碩勛,張龍,肖琬蓉.基于DEA的甘肅科研機構資源配備效率評價研究[J].科技進步與對策,2012,29(3):45-48.
[4] 科技創(chuàng)新區(qū)域集聚獲高層力挺[EB/OL].[2016-05-31].http://finance.ifeng.com/a/20160531/14443313_0.shtml.
[5] 賀德方.中國科技報告制度的建設方略[J].情報學報,2013,32(5):452-458.
[6] 張奎勇.我國科技報告資源建設的關鍵問題研究[D].北京:中國科學技術信息研究所,2013.
[7] 張軍亮.生物和醫(yī)藥技術領域知識生產(chǎn)分析——基于“863計劃”科技報告[J].情報雜志,2015,34(1):67-71.
[8] 丁玉飛,王曰芬,劉衛(wèi)江.基于主題模型的科技監(jiān)測方法及應用研究[J].情報學報,2015, 34(8):854-865.
[9] 白如江,冷伏海,廖君華.一種基于多數(shù)據(jù)源主題對比的科學研究前沿識別方法[J].情報理論與實踐,2017,40(8):43-48.
[10] 李偉,馬永征,沈一.一種解決“中心主題湮沒問題”的基于圖模型的Labeled-LDA文本分類算法[J].計算機科學,2014,41(3):223-227.
[11] 王秋月,曹巍,史少晨.基于主題模型的深層網(wǎng)數(shù)據(jù)源選擇算法[J].計算機應用,2015,35(9):2553-2559.
[12] 祝娜,王效岳,楊京,等.基于LDA 的科技創(chuàng)新主題語義識別研究[J].圖書情報工作,2015,59(14):126-134.
[13] 劉小軍.基于LDA模型和AP聚類算法的主題演化研究[D].合肥:合肥工業(yè)大學,2016.
[14] 孫建軍,裴雷,周兆韜,等.中國智慧城市政策理念多元解讀及質性分析[J].圖書與情報,2016(6):25-28.
[15] 雷會珠,陳桂榮,琚彤軍.信息熵在競爭情報計量分析中的應用[J].情報雜志,2008,27(5):73-75.
[16] 王莉亞,張志強.基于信息熵的信息整合主題演化研究[J].圖書情報工作,2012,56(6):102-106.
作者簡介:劇曉紅(1989-),女,南京大學信息管理學院博士研究生;趙一方(1994-),女,南京大學信息管理學院碩士研究生;裴雷(1981-),男,南京大學信息管理學院副教授;孫建軍(1962-),男,南京大學信息管理學院教授,博士生導師。endprint