□文/黃 鑫
(西安財(cái)經(jīng)大學(xué) 陜西·西安)
[提要]2018年11月,工業(yè)和信息化部發(fā)布《新一代人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜工作方案》,征集并遴選一批掌握關(guān)鍵核心技術(shù)、具備較強(qiáng)創(chuàng)新能力的單位集中攻關(guān),重點(diǎn)突破一批技術(shù)先進(jìn)、性能優(yōu)秀、應(yīng)用效果好的人工智能標(biāo)志性產(chǎn)品、平臺(tái)和服務(wù)。在現(xiàn)階段,我國(guó)人工智能產(chǎn)業(yè)加速發(fā)展,從基礎(chǔ)支撐、核心技術(shù)到行業(yè)應(yīng)用的產(chǎn)業(yè)鏈條正在形成,產(chǎn)業(yè)集群初步顯現(xiàn),一批創(chuàng)新活躍、特色鮮明的創(chuàng)新企業(yè)加速成長(zhǎng),新模式、新業(yè)態(tài)不斷涌現(xiàn),整體呈現(xiàn)蓬勃發(fā)展態(tài)勢(shì)。但產(chǎn)業(yè)發(fā)展也面臨核心基礎(chǔ)技術(shù)薄弱、與實(shí)體經(jīng)濟(jì)融合不夠深入等問題。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,我國(guó)在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理領(lǐng)域進(jìn)展顯著。本文基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑進(jìn)行研究與分析。
人工智能產(chǎn)業(yè)加速發(fā)展,正在顛覆性地改變著人們的生產(chǎn)生活方式,甚至人類的未來。作為全球聚焦的新興領(lǐng)域,人工智能不僅成為BAT等科技巨頭大舉進(jìn)軍的焦點(diǎn),也成為許多重要中心城市的產(chǎn)業(yè)新戰(zhàn)略之一。
(一)研究方案。在信息化時(shí)代,能夠深入利用文本挖掘的結(jié)果,如智能數(shù)據(jù)監(jiān)控系統(tǒng)等,也可以打造出具有針對(duì)性的行業(yè)文本數(shù)據(jù)產(chǎn)品,專門服務(wù)于不同領(lǐng)域?;诖?,對(duì)基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑進(jìn)行研究與分析。首先對(duì)我國(guó)國(guó)內(nèi)各省市發(fā)布的人工智能全自動(dòng)規(guī)劃進(jìn)行搜集整理。加強(qiáng)NLPIR大數(shù)據(jù)語義智能分析,并且針對(duì)大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的最新研究成果,使得各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows、Linux、Android、Maemo5、FreeBSD等不同操作系統(tǒng)平臺(tái),可以供Java、Python等各類開發(fā)語言使用。通過對(duì)全自動(dòng)人工智能的分析與研究和基于文本挖掘的人工智能產(chǎn)業(yè)政策量化路徑的研究與分析,一方面可以加速政策的落實(shí);另一方面可以進(jìn)行實(shí)時(shí)監(jiān)測(cè),幫助人工智能產(chǎn)業(yè)開發(fā)者及時(shí)地把握政策制定情況。
(二)數(shù)據(jù)來源。在現(xiàn)階段我國(guó)人工智能產(chǎn)業(yè)加速發(fā)展,從基礎(chǔ)支撐、核心技術(shù)到行業(yè)應(yīng)用的產(chǎn)業(yè)鏈條正在形成,產(chǎn)業(yè)集群初步顯現(xiàn),一批創(chuàng)新活躍、特色鮮明的創(chuàng)新企業(yè)加速成長(zhǎng),新模式、新業(yè)態(tài)不斷涌現(xiàn),整體呈現(xiàn)蓬勃發(fā)展態(tài)勢(shì)。但產(chǎn)業(yè)發(fā)展也面臨核心基礎(chǔ)技術(shù)薄弱、與實(shí)體經(jīng)濟(jì)融合不夠深入等問題。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,我國(guó)在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理領(lǐng)域進(jìn)展顯著。截至2018年6月,上海、北京、廣州、江蘇等16省市發(fā)布并且積極響應(yīng)全自動(dòng)人工智能產(chǎn)業(yè)規(guī)劃。并且在2020年人工智能產(chǎn)業(yè)的規(guī)模保持平穩(wěn)增長(zhǎng),產(chǎn)業(yè)規(guī)模達(dá)到了3,031億元,同比增長(zhǎng)15%,增速略高于全球的平均增速。產(chǎn)業(yè)主要集中在北京、上海、廣東、浙江等省份,并且我國(guó)在人工智能芯片領(lǐng)域、深度學(xué)習(xí)軟件架構(gòu)領(lǐng)域、中文自然語言處理等相關(guān)的領(lǐng)域進(jìn)展較為顯著。(表1)
表1 產(chǎn)業(yè)政策一覽表
(一)主題詞提取與統(tǒng)計(jì)。政策主題詞是一個(gè)由特定政策文本所組成的政策,其代表了特殊的政策文獻(xiàn)需要表達(dá)的核心內(nèi)容。為了能夠完全掌握各省人工智能政策,本研究針對(duì)19項(xiàng)人工智能政策文本進(jìn)行分析,采用ROST Content Mining技術(shù)進(jìn)行共詞處理,得到每個(gè)政策當(dāng)中的主要共詞表。再通過篩選的方式,進(jìn)一步對(duì)共詞表進(jìn)行分析。由于通過文本分析的詞表當(dāng)中很多詞匯都是生僻詞,運(yùn)用次數(shù)較少,無法反映出人工智能政策的有效性,比如加強(qiáng)、重點(diǎn)、智能、人工智能等,再采用人工篩選的方式,最終獲得23個(gè)關(guān)鍵分析詞,從而衍生出對(duì)16項(xiàng)人工智能政策共詞主題表,如表2所示。最后,根據(jù)實(shí)際分析詞,按照一定的規(guī)則制作出共詞矩陣,在對(duì)政策文本實(shí)施統(tǒng)計(jì)和文本檢索過程當(dāng)中,嚴(yán)格按照同一政策文本,不管共詞出現(xiàn)次數(shù)有多少,都只能記一次的原則。(表2)
表2 省級(jí)政府人工智能政策共詞主題詞一覽表
(二)語義網(wǎng)絡(luò)分析。在信息化時(shí)代背景下,采用UCINET 6軟件繪制能夠提高共詞語義網(wǎng)絡(luò)。共詞語義網(wǎng)絡(luò)圖能夠?qū)⑷斯ぶ悄苷吆妙l詞匯以網(wǎng)絡(luò)的形式結(jié)合起來,從而形成一個(gè)整體,充分地體現(xiàn)出政策文本內(nèi)容之間的組織結(jié)構(gòu)。每個(gè)節(jié)點(diǎn)都代表著一個(gè)人工智能政策的主題詞,其中主題詞的強(qiáng)弱和節(jié)點(diǎn)大小有密切的聯(lián)系,節(jié)點(diǎn)之間的連線就代表兩個(gè)主題詞同時(shí)出現(xiàn)在同一政策當(dāng)中,線條粗細(xì)程度不同,就代表其在不同政策內(nèi)出現(xiàn)的次數(shù),次數(shù)越多,則線條就會(huì)越粗。中心性作為網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中的重要環(huán)節(jié),是指網(wǎng)絡(luò)行動(dòng)者在社會(huì)網(wǎng)絡(luò)當(dāng)中擁有的地位和權(quán)利。從整體網(wǎng)絡(luò)角度而言,中心性主要是由中間中心性和度數(shù)中心性兩部分組成。度數(shù)中心性代表一個(gè)行動(dòng)者需要連接其他行動(dòng)者的數(shù)量,數(shù)量越多就表達(dá)此次行動(dòng)越關(guān)鍵。中間中心性則是對(duì)行動(dòng)者控制他們都行為能力。如果說度數(shù)中心性代表節(jié)點(diǎn)在網(wǎng)絡(luò)當(dāng)中的位置,那么中間中心性則代表節(jié)點(diǎn)在網(wǎng)絡(luò)控制當(dāng)中的能力和作用。對(duì)于政策文獻(xiàn)類型的主題詞而言,中心性是整個(gè)政策文本當(dāng)中的關(guān)鍵,通過控制中心性能夠更好控制主題詞的地位。企業(yè)度數(shù)和服務(wù)、應(yīng)用之間的中心性差距較大,代表這些主題詞和其他主題詞之間聯(lián)系非常頻繁,以上主題詞在不同政策文本當(dāng)中出現(xiàn)較多次數(shù)。換句話說,人工智能方面的政策將目光放在智能化服務(wù)領(lǐng)域和公共服務(wù)領(lǐng)域方面,以企業(yè)作為主體,以產(chǎn)業(yè)化作為導(dǎo)向。為進(jìn)一步分析各主題詞的度數(shù)中心性和中間中心性,本研究基于UCINET計(jì)算得到數(shù)值,利用Stata軟件對(duì)23個(gè)主題詞的度數(shù)中心性和中間中心性繪制散點(diǎn)圖、趨勢(shì)線、均值線,其中主題詞處于第一象限意味著其在人工智能政策中十分重要。
(一)政策主體。在人工智能發(fā)展方面涉及到的政策主題十分廣泛,如市場(chǎng)、科研院、高校、企業(yè)等。其中,企業(yè)作為整個(gè)創(chuàng)新的關(guān)鍵,高校和科研院為其提供大量的技術(shù)人才,市場(chǎng)作為整個(gè)人工智能的發(fā)展途徑,政府在其中起到引導(dǎo)的作用。如圖1所示,企業(yè)在各省計(jì)劃當(dāng)中出現(xiàn)的頻率最高,約為615次,隨著運(yùn)行人工智能的企業(yè)數(shù)量越來越多,該地區(qū)的人工智能發(fā)展水平得到翻天覆地的變化。根據(jù)有關(guān)調(diào)查發(fā)現(xiàn),早在2018年,我國(guó)人工智能企業(yè)就擁有4,000多家,其中北京人工智能企業(yè)就有1,000多家,已經(jīng)超過全國(guó)1/4的數(shù)量,其技術(shù)含量和能力也逐漸超過其他城市。這些企業(yè)的生產(chǎn)類型呈現(xiàn)多樣化,如軟件技術(shù)研發(fā)、硬件制造、終端產(chǎn)品應(yīng)用等,讓整個(gè)北京市的人工智能遠(yuǎn)遠(yuǎn)超過全國(guó)發(fā)展水平。(圖1)
圖1 政策主題詞頻量化分析圖
(二)政策布局。通過對(duì)現(xiàn)代規(guī)劃熱點(diǎn)詞頻進(jìn)行研究,不難發(fā)現(xiàn)目前我國(guó)對(duì)于人工智能技術(shù)研究還處于初級(jí)階段,尤其是芯片研發(fā)技術(shù),是現(xiàn)階段最重要的任務(wù)之一,同時(shí)要將目光放在應(yīng)用場(chǎng)景和人工智能技術(shù)結(jié)合上面,最終實(shí)現(xiàn)人工智能產(chǎn)業(yè)化、應(yīng)用化,如圖2所示。人工智能產(chǎn)業(yè)的發(fā)展和技術(shù)創(chuàng)新有密切聯(lián)系。雖然近年來我國(guó)人工智能方面取得突破性發(fā)展,但距離成熟還有很長(zhǎng)一段距離,技術(shù)永遠(yuǎn)是整個(gè)人工智能產(chǎn)業(yè)規(guī)劃的核心部分。在整個(gè)人工智能產(chǎn)業(yè)發(fā)展過程當(dāng)中,曾經(jīng)多次提出人工智技術(shù)突破,由此可以看出人工智技術(shù)突破的重要性。比如,北京就將突破人工智能芯片和傳感器技術(shù)等作為人工智能產(chǎn)業(yè)發(fā)展的最終目的。(圖2)
圖2 政策布局詞頻量化分析圖
隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)技術(shù)在人們生產(chǎn)活動(dòng)中得到廣泛使用,而且在人們的生活與生產(chǎn)中文本挖掘技術(shù)起著越來越重要的作用,文本挖掘的人工智能被廣泛地應(yīng)用于產(chǎn)業(yè)政策與其量化路徑等方面的研究。現(xiàn)階段,文本挖掘已經(jīng)是一項(xiàng)相對(duì)成熟的技術(shù)。對(duì)企業(yè)而言,每天都在產(chǎn)生大量不同形式的數(shù)據(jù),通過用文本挖掘技術(shù)進(jìn)行歸類、整理和分析,不但可以節(jié)省大量人力成本,還能幫助企業(yè)提升運(yùn)營(yíng)效率。