国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技計(jì)劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究與實(shí)現(xiàn)

2015-06-27 05:08:45李光文
天津科技 2015年12期
關(guān)鍵詞:戰(zhàn)略性新興產(chǎn)業(yè)文檔

李光文

(天津市科技統(tǒng)計(jì)與發(fā)展研究中心 天津300051)

科技計(jì)劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究與實(shí)現(xiàn)

李光文

(天津市科技統(tǒng)計(jì)與發(fā)展研究中心 天津300051)

科技計(jì)劃以支撐引領(lǐng)經(jīng)濟(jì)社會發(fā)展為目標(biāo),戰(zhàn)略性新興產(chǎn)業(yè)是未來經(jīng)濟(jì)持續(xù)增長的先導(dǎo)產(chǎn)業(yè)。為研究科技計(jì)劃項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)之間的相關(guān)性,將戰(zhàn)略性新興產(chǎn)業(yè)行業(yè)分類進(jìn)行關(guān)鍵詞拆分,使用關(guān)鍵詞在科技計(jì)劃項(xiàng)目研究內(nèi)容中進(jìn)行搜索,對搜索結(jié)果利用空間向量模型建立一套分析模型,計(jì)算出科技計(jì)劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性系數(shù),并對相關(guān)性系數(shù)進(jìn)行分析。此外,利用天津市科技支撐計(jì)劃項(xiàng)目數(shù)據(jù)對分析模型、分析方法進(jìn)行了試算,試算結(jié)果顯示兩者相關(guān)性程度較高。

空間向量模型 科技計(jì)劃 相關(guān)性

0 引 言

戰(zhàn)略性新興產(chǎn)業(yè)是一個(gè)國家或地區(qū)實(shí)現(xiàn)未來經(jīng)濟(jì)持續(xù)增長的先導(dǎo)產(chǎn)業(yè),對國民經(jīng)濟(jì)發(fā)展和產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)換具有決定性的促進(jìn)、導(dǎo)向作用,具有廣闊的市場前景和引導(dǎo)科技進(jìn)步的能力,關(guān)系到國家的經(jīng)濟(jì)命脈和產(chǎn)業(yè)安全。[1]戰(zhàn)略性新興產(chǎn)業(yè)具有技術(shù)新、市場前景好、資源消耗低、綜合效益強(qiáng)等特點(diǎn)。我國的戰(zhàn)略性新興產(chǎn)業(yè)是在2009年召開的新興戰(zhàn)略性產(chǎn)業(yè)發(fā)展座談會上提出來的,包括新能源、節(jié)能環(huán)保、電動(dòng)汽車、新材料、新醫(yī)藥、生物育種和信息產(chǎn)業(yè)。

天津市以科學(xué)發(fā)展觀為指導(dǎo),不斷提升自主創(chuàng)新能力,為更好地發(fā)揮科學(xué)技術(shù)對經(jīng)濟(jì)社會的支撐和引領(lǐng)作用,制定了天津市科技發(fā)展“十二五”規(guī)劃,其主要目標(biāo)是“加快提高優(yōu)勢產(chǎn)業(yè)和戰(zhàn)略性新興產(chǎn)業(yè)的技術(shù)自給能力和核心競爭力,提升科技對發(fā)展方式轉(zhuǎn)變的支撐能力,率先建成水平更高、帶動(dòng)作用更強(qiáng)的創(chuàng)新型城市,成為我國自主創(chuàng)新高地、高水平研發(fā)轉(zhuǎn)化基地、北方產(chǎn)業(yè)創(chuàng)新中心”。從規(guī)劃可以看出,天津市把戰(zhàn)略性新興產(chǎn)業(yè)作為科技發(fā)展的重要任務(wù)。科技規(guī)劃的落實(shí)主要體現(xiàn)在科技計(jì)劃項(xiàng)目的實(shí)施上,“十二五”期間天津市科技計(jì)劃項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展的相關(guān)性如何,是本文的研究重點(diǎn)。本文通過數(shù)據(jù)挖掘技術(shù)和搜索引擎技術(shù),將戰(zhàn)略性新興產(chǎn)業(yè)包括的行業(yè)分類進(jìn)行關(guān)鍵詞拆分,利用關(guān)鍵詞在科技計(jì)劃項(xiàng)目主要研究內(nèi)容中進(jìn)行搜索,進(jìn)行相關(guān)性分析,嘗試建立兩者的相關(guān)性。

1 分析技術(shù)與工具

1.1 向量空間模型(見圖1)

向量空間模型(Vector Space Model)是由Salton等人在20 世紀(jì)70年代提出,用向量空間模型進(jìn)行特征表達(dá),用TFIDF (Term-Frequency Inverse-Document-Frequency)進(jìn)行特征項(xiàng)賦權(quán),TF-IDF認(rèn)為如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),就認(rèn)為該詞或短語具有很好的區(qū)分能力,適合用來分類。向量空間模型用倒排文檔進(jìn)行索引,用余弦夾角進(jìn)行距離度量,用查全率和查準(zhǔn)率評價(jià)檢索系統(tǒng)性能。向量空間模型已成為信息檢索領(lǐng)域的研究基礎(chǔ)。向量空間模型是在文本中提取其特征項(xiàng)構(gòu)成特征向量,并以某種方式為特征項(xiàng)賦權(quán),可以理解為在忽略特征項(xiàng)之間的相關(guān)信息后,一個(gè)文本用一個(gè)特征向量來表示,一個(gè)文本集表示成一個(gè)矩陣,也就是特征項(xiàng)空間中的一些點(diǎn)的集合。

1.2 向量空間模型使用關(guān)鍵

向量空間模型在使用過程中,需要重點(diǎn)解決特征項(xiàng)的選擇和特征項(xiàng)賦權(quán)。中文文檔是由漢字和標(biāo)點(diǎn)符號等基本的語言符號組成的字符串,由字構(gòu)成詞,由詞構(gòu)成短語,進(jìn)而形成句、段、節(jié)、章、篇等語言結(jié)構(gòu)。中文文檔的特征項(xiàng)可以是字、詞、短語,甚至是句子或句群等。特征項(xiàng)的選擇需要考慮處理速度、精度、存儲空間等,遵循包含語義信息較多、文檔在特征項(xiàng)上的分布具有統(tǒng)計(jì)規(guī)律性、容易實(shí)現(xiàn)等要求。特征項(xiàng)賦權(quán)一般由頻率因子、文檔集因子和規(guī)格化因子3部分組成。頻率因子指特征項(xiàng)在文檔中出現(xiàn)的頻率,頻繁出現(xiàn)的特征項(xiàng)具有較高權(quán)重。文檔集因子是與文檔集合有關(guān)的因子,加大文檔之間的區(qū)分度。規(guī)格化因子是為了解決文檔長度對匹配結(jié)果的影響。

圖1 向量空間模型Fig.1 The vector space model

1.3 向量空間模型應(yīng)用

向量空間模型的重要應(yīng)用是兩個(gè)文檔D1和D2之間相似度Sim(D1,D2)研究,當(dāng)文檔D1、D2被表示為空間向量時(shí),就可以計(jì)算向量之間的距離來表示文檔間的相似度,常用的距離計(jì)算有余弦距離公式:

1.4 中文分詞技術(shù)

英文以詞為單位,詞和詞之間使用空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思。例如,英文句子“I am a student”,用中文表達(dá)為“我是一個(gè)學(xué)生”。計(jì)算機(jī)程序可以很容易通過空格知道student是一個(gè)單詞,但是不能很容易明白兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。中文分詞技術(shù)主要用于搜索引擎,用于對用戶提交的查詢關(guān)鍵詞進(jìn)行處理再搜索。中文分詞技術(shù)主要有字符串匹配分詞法、詞義分詞法、統(tǒng)計(jì)分詞法。

1.5 Lucene搜索引擎

Lucene是Apache軟件基金會的一個(gè)子項(xiàng)目,它不是一個(gè)完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的查詢引擎和索引引擎以及部分文本分析引擎。Lucene為軟件開發(fā)人員提供了一個(gè)簡單易用的工具包,以便于在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是以此為基礎(chǔ)建立起完整的全文檢索引擎。

2 分析方法

本文對空間向量模型進(jìn)行了微調(diào),引入分詞技術(shù)、搜索引擎技術(shù)定義了分析模型(見圖2),實(shí)現(xiàn)科技計(jì)劃與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性研究。

①按照國家統(tǒng)計(jì)局制定的《戰(zhàn)略性新興產(chǎn)業(yè)分類》(試行),將《國務(wù)院關(guān)于加快培育和發(fā)展戰(zhàn)略性新興產(chǎn)業(yè)的決定》中包括的節(jié)能環(huán)保產(chǎn)業(yè)、新一代信息技術(shù)產(chǎn)業(yè)、生物產(chǎn)業(yè)、高端裝備制造產(chǎn)業(yè)、新能源產(chǎn)業(yè)、新材料產(chǎn)業(yè)、新能源汽車產(chǎn)業(yè)等7個(gè)戰(zhàn)略性新興產(chǎn)業(yè),與《國民經(jīng)濟(jì)行業(yè)分類》中的行業(yè)類別建立對應(yīng)關(guān)系,實(shí)現(xiàn)了戰(zhàn)略性新興產(chǎn)業(yè)與行業(yè)分類相結(jié)合。共包括《國民經(jīng)濟(jì)行業(yè)分類》中的行業(yè)類別359個(gè),戰(zhàn)略性新興產(chǎn)業(yè)產(chǎn)品及服務(wù)2410項(xiàng),作為戰(zhàn)略性新興產(chǎn)業(yè)的特征項(xiàng)。

圖2 分析模型Fig.2 Analysis model

②使用庖丁解牛分詞技術(shù)編寫程序,分別對七大戰(zhàn)略性新興產(chǎn)業(yè)對應(yīng)的國民經(jīng)濟(jì)行業(yè)分類進(jìn)行關(guān)鍵詞拆分。再對關(guān)鍵詞進(jìn)行整理,包括:去掉每個(gè)產(chǎn)業(yè)中重復(fù)關(guān)鍵詞;去掉一個(gè)字的關(guān)鍵詞,如“大”、“新”等;通過主觀判斷去掉異常關(guān)鍵詞,如“和氣”、“水的”、“其他”等;去掉部分常用動(dòng)詞,如“發(fā)展”、“設(shè)計(jì)”、“利用”等。形成7個(gè)戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞項(xiàng)集Zn,n=7。7大戰(zhàn)略性新興產(chǎn)業(yè)規(guī)格化因子如表1所示。

表1 七大戰(zhàn)略性新興產(chǎn)業(yè)規(guī)格化因子Tab.1 Normalizing factor of seven strategic industries

③將科技計(jì)劃項(xiàng)目主要研究內(nèi)容作為科技計(jì)劃特征項(xiàng)。使用Java語言,引入Lucene架構(gòu)編寫搜索引擎程序,利用每個(gè)戰(zhàn)略性新興產(chǎn)業(yè)的關(guān)鍵詞項(xiàng)集,到每個(gè)科技計(jì)劃項(xiàng)目中進(jìn)行搜索,搜索出每個(gè)科技計(jì)劃項(xiàng)目中出現(xiàn)的關(guān)鍵詞,以及每個(gè)的關(guān)鍵詞出現(xiàn)的次數(shù),表示成X(t1,t2,…,tN)。計(jì)算出戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞項(xiàng)集與科技計(jì)劃特征項(xiàng)之間向量余弦距離,作為其相關(guān)性系數(shù)。本文主要是研究向量相關(guān)性的相對大小,為了簡化計(jì)算難度,忽略未在某個(gè)科技計(jì)劃特征項(xiàng)中出現(xiàn)的戰(zhàn)略性新興產(chǎn)業(yè)關(guān)鍵詞。將余弦距離計(jì)算公式變換為:

為消除每個(gè)產(chǎn)業(yè)關(guān)鍵詞數(shù)量的差異導(dǎo)致的比較誤差,設(shè)立規(guī)格化因子,w表示某個(gè)產(chǎn)業(yè)關(guān)鍵詞項(xiàng)集的數(shù)量。每個(gè)項(xiàng)目內(nèi)容與每個(gè)產(chǎn)業(yè)的相關(guān)性系數(shù)結(jié)果除以規(guī)格化因子作為最后相關(guān)性結(jié)果,對相關(guān)性系統(tǒng)進(jìn)行分析。

3 研究結(jié)果

3.1 試算數(shù)據(jù)

天津市科技計(jì)劃根據(jù)所支持項(xiàng)目研發(fā)處階段設(shè)立了不同的科技計(jì)劃類別,在天津市科技計(jì)劃體系中,科技支撐計(jì)劃定義為“為天津市產(chǎn)業(yè)升級和結(jié)構(gòu)調(diào)整、社會可持續(xù)發(fā)展和提高人民生活質(zhì)量提供技術(shù)支撐”,與產(chǎn)業(yè)發(fā)展最為緊密。本文選用“十二五”期間天津市科委支持的科技支撐計(jì)劃項(xiàng)目作為試算數(shù)據(jù)。

3.2 試算結(jié)果

利用分析模型進(jìn)行試算,試算結(jié)果顯示,天津市科技支撐計(jì)劃項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性程度較高,不包含戰(zhàn)略性信息產(chǎn)業(yè)關(guān)鍵詞的項(xiàng)目僅占2.5%,含1個(gè)關(guān)鍵詞的項(xiàng)目占9.8%,含2個(gè)關(guān)鍵詞的項(xiàng)目占13.9%,含3個(gè)及以上關(guān)鍵詞的項(xiàng)目占73.8%(見圖3)。

圖3 項(xiàng)目含關(guān)鍵詞數(shù)量比例Fig.3 Project keyword ratios

如果設(shè)定含有3個(gè)及以上關(guān)鍵詞的項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān),說明天津市科技支撐計(jì)劃項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)的相關(guān)性程度高。

圖4 項(xiàng)目含關(guān)鍵詞數(shù)量統(tǒng)計(jì)(單位:項(xiàng))Fig.4 Statistics of project keyword numbers(Unit:per unit)

取含有3個(gè)及以上關(guān)鍵詞的項(xiàng)目相關(guān)性系數(shù)作為有效觀測數(shù),共9544項(xiàng)(見圖4),對有效觀測數(shù)進(jìn)行描述性匯總統(tǒng)計(jì),相關(guān)性系數(shù)的最大值為4.111,最小值為1.007,中位數(shù)為1.671,眾數(shù)為1.633。

根據(jù)項(xiàng)目立項(xiàng)年度對相關(guān)性結(jié)果進(jìn)行分析,分析結(jié)果顯示,天津市科技支撐計(jì)劃項(xiàng)目與戰(zhàn)略性新興產(chǎn)業(yè)相關(guān)性逐年增大,呈上升趨勢,如圖5。

圖5 相關(guān)性按年度統(tǒng)計(jì)Fig.5 Correlation between annual statistics

根據(jù)對七大戰(zhàn)略性新興產(chǎn)業(yè)分類,對相關(guān)性結(jié)果進(jìn)行分析,結(jié)果顯示天津市科技支撐計(jì)劃項(xiàng)目與新一代信息技術(shù)相關(guān)性最高,與新能源汽車相關(guān)性最低,相關(guān)性程度依次為:新一代信息技術(shù)、高端裝備制造、生物產(chǎn)業(yè)、節(jié)能環(huán)保、新能源、新材料、新能源汽車。說明天津市科技支撐計(jì)劃對信息技術(shù)、裝備制造、生物產(chǎn)業(yè)項(xiàng)目支持相對較多,而對新能源汽車項(xiàng)目支持相對較少。

4 存在不足

分析模型中為消除由于關(guān)鍵詞數(shù)量不同導(dǎo)致的搜索結(jié)果偏差,設(shè)定了規(guī)格化因子,規(guī)格化因子的計(jì)算方式引自論文,其合理性需要進(jìn)一步研究。本文在研究過程中,為了簡化搜索過程,使用了約2000字的科技計(jì)劃項(xiàng)目簡要說明作為搜索內(nèi)容,搜索內(nèi)容偏少,下一步將研究實(shí)現(xiàn)對科技計(jì)劃項(xiàng)目申請書進(jìn)行全文搜索,增強(qiáng)相關(guān)性結(jié)果的科學(xué)性。分析模型完善后,可以應(yīng)用到科技計(jì)劃項(xiàng)目研究內(nèi)容查重,項(xiàng)目評審回避專家等工作中,提高科技計(jì)劃項(xiàng)目管理的科學(xué)性與公正性。

[1] 朱瑞博. 中國戰(zhàn)略性新興產(chǎn)業(yè)培育及其政策取向[J].改革,2010(3):19-28.

[2] 陳治綱,何丕廉,孫越恒,等. 基于向量空間模型的文本分類方法的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用,2004(6):277-279.

[3] 楊小平,丁浩,黃都培. 基于向量空間模型的中文信息檢索技術(shù)研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2003(15):109-111.

[4] Lucene 4. 0原理與代碼分析–相似度評分算法之向量空間模型(VSM)[OB/EL]. http://so.searchtech. pro/articles/2013/05/22/1369204044879. html.

[5] 殷偉. 財(cái)務(wù)文檔分詞及文檔相關(guān)性分析[J]. 電腦知識與技術(shù),2013,9(7):1718-1719,1722.

[6] 龐劍鋒,卜東波,白碩. 基于向量空間模型的文本自動(dòng)分類系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用研究,2001(9):23-26.

A Correlation Study of Science and Technology Plans and New Strategic Industries

LI Guangwen
(Tianjin Science and Technology Statistic Center,Tianjin 300051,China)

As science and technology plans take the goal of supporting and leading economic and social development and new strategic industries will become the leading industry in the future economic growth this paper studies the relationship between the S&T plan projects and new strategic industries. By dividing categories of new strategic industries into key words it carries out key words searching in the study content of the S&T Plan projects. The search results were modeled with the help of space vector model to calculate the correlation coefficients of the projects and the industries and then analyze them. In addition the data of Tianjin Science and Technology Support Program were used to analyze the model and the method. Test results show that the two have strong relevance.

vector space model;science and technology plan;implementation

G312

:A

:1006-8945(2015)12-0052-03

2015-11-08

猜你喜歡
戰(zhàn)略性新興產(chǎn)業(yè)文檔
有人一聲不吭向你扔了個(gè)文檔
我國將24種礦產(chǎn)確定為戰(zhàn)略性礦產(chǎn)
再造戰(zhàn)略性大單品
生活用紙(2016年5期)2017-01-19 07:36:10
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
戰(zhàn)略性新興產(chǎn)業(yè)與大國崛起
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
新興產(chǎn)業(yè)市場績效提升的現(xiàn)狀及建議
在新興產(chǎn)業(yè)看小元件如何發(fā)揮大作用
新興產(chǎn)業(yè)
江蘇年鑒(2014年0期)2014-03-11 17:09:30
黨內(nèi)民主:戰(zhàn)略性的正能量
遂宁市| 廉江市| 科尔| 彩票| 中超| 新源县| 任丘市| 永宁县| 贵定县| 余姚市| 观塘区| 固始县| 泽普县| 阿拉善左旗| 高陵县| 塔河县| 沅江市| 渝中区| 峨山| 边坝县| 前郭尔| 汝州市| 远安县| 靖安县| 淮滨县| 嵊州市| 阳高县| 阿克陶县| 阿合奇县| 阳江市| 明水县| 桃园县| 鲁山县| 洛川县| 大同县| 郸城县| 拉萨市| 浑源县| 绥中县| 金乡县| 兰考县|