国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合LDA模型的政策文本量化分析

2016-05-14 06:08:14楊慧楊建林
現(xiàn)代情報(bào) 2016年5期
關(guān)鍵詞:政策文本R語(yǔ)言量化分析

楊慧 楊建林

〔摘要〕政策文本是政策生命周期的核心要件,對(duì)其進(jìn)行多種維度的內(nèi)容挖掘與國(guó)內(nèi)外的對(duì)比分析不但有利于指導(dǎo)政策的制定,還有益于把握國(guó)際局勢(shì),以提升國(guó)家軟實(shí)力。對(duì)于政策文本內(nèi)容的量化研究而言,目前的學(xué)術(shù)成果采用的方法主要有基于數(shù)理統(tǒng)計(jì)的內(nèi)容分析類(lèi)、文獻(xiàn)計(jì)量類(lèi)、社會(huì)網(wǎng)絡(luò)分析類(lèi)、文本挖掘類(lèi)等方面。文章選取國(guó)際氣候領(lǐng)域作為試點(diǎn)對(duì)象,采用主題模型的新視角,對(duì)采集到的政策文本數(shù)據(jù)進(jìn)行基于語(yǔ)義的主題挖掘,并同時(shí)融合詞頻及分布形態(tài)研究、時(shí)間離散化、實(shí)證研究等方法綜合對(duì)比分析我國(guó)與美國(guó)、歐盟的氣候政策情況。最后,根據(jù)數(shù)據(jù)證據(jù)為我國(guó)相關(guān)政策的制定提出完善建議。

〔關(guān)鍵詞〕LDA;模型;政策文本;主題挖掘;量化分析;R語(yǔ)言;國(guó)際氣候領(lǐng)域

政策法規(guī)原始文本作為一種特殊類(lèi)型的文獻(xiàn)具有期刊論文、專(zhuān)利文獻(xiàn)等信息資源無(wú)法比擬的權(quán)威性、嚴(yán)肅性、約束力。其廣義上的文本內(nèi)涵表現(xiàn)為由國(guó)家或地區(qū)的各級(jí)權(quán)力或行政機(jī)關(guān)以文件形式頒布的法律、法規(guī)、部門(mén)規(guī)章等官方文獻(xiàn),通常被統(tǒng)稱(chēng)為政策文本。學(xué)術(shù)界對(duì)于政策法規(guī)的研究由來(lái)已久,研究對(duì)象涵蓋政策法規(guī)的制定、執(zhí)行以及效果、環(huán)境變量和反饋等重大方面,研究觸角遍及政策法規(guī)的整個(gè)生命周期,采用的量化分析手段涉及運(yùn)籌學(xué)、系統(tǒng)論與控制論、計(jì)量經(jīng)濟(jì)等眾多領(lǐng)域。以上的研究切面很多是跳出政策文本,進(jìn)行宏微觀環(huán)境的模擬與探討。作為社會(huì)的風(fēng)向標(biāo)以及生命周期的核心要件,相對(duì)于整個(gè)生命周期瑰麗的量化分析手段而言,政策文本的量化分析手段則較為簡(jiǎn)約,亟待開(kāi)發(fā)與拓展。

相對(duì)單調(diào)的量化分析手段與政策文本自身的特性休戚相關(guān)。作為文本對(duì)象,政策文本的研究方式源于文獻(xiàn)解讀,即在思辨的基礎(chǔ)之上結(jié)合研究者的專(zhuān)業(yè)素養(yǎng)和政策領(lǐng)悟,通過(guò)分析政策文本的謀篇布局以及修辭與表述方式,探測(cè)出相關(guān)政治立場(chǎng),并基于此進(jìn)行深度解讀或政治變遷的預(yù)測(cè)與估量。然而,當(dāng)思辨形式的文本解讀無(wú)法滿足學(xué)術(shù)界關(guān)于理性主義、科學(xué)主義的訴求,以試圖彌補(bǔ)以往研究的模糊性、經(jīng)驗(yàn)性的量化主義便開(kāi)始萌芽與發(fā)展。量化主義著手于從政策文本的外部特征和內(nèi)容特征發(fā)現(xiàn)數(shù)量規(guī)律與政治現(xiàn)象,研究方式不僅是基于單篇文本層面的微觀統(tǒng)計(jì),還涉及特定領(lǐng)域大批量文本的宏觀計(jì)量。

縱觀政策文本量化分析的歷史進(jìn)程,時(shí)至今日,在循序漸進(jìn)中已經(jīng)形成幾條較為可行的研究方法與基本范式,筆者認(rèn)為可以歸納為以下幾大方面:①基于數(shù)理統(tǒng)計(jì)的內(nèi)容分析類(lèi)。模式表現(xiàn)為基于一定的理論工具,提出基本的文本分析框架并制定量化標(biāo)準(zhǔn),采用多人編碼或者專(zhuān)家打分的方式,從不同維度來(lái)測(cè)度文本的基本單元和內(nèi)涵。典型的流程如國(guó)內(nèi)學(xué)者盛亞[1]等人在研究創(chuàng)新政策中的利益相關(guān)者時(shí),通過(guò)引入Rothwell等學(xué)者有關(guān)政策分類(lèi)工具的理論成果,制定分類(lèi)維度與內(nèi)容編碼標(biāo)準(zhǔn),融合抽樣以及多組多輪的分析方式,在結(jié)果的信度水平滿足基本要求的情況下得出研究結(jié)論。②文獻(xiàn)計(jì)量類(lèi)。旨在將傳統(tǒng)的文獻(xiàn)計(jì)量方式遷移至政策文本,并在此基礎(chǔ)上進(jìn)行創(chuàng)新。李江[2]等學(xué)者提出“Policiometrics”即政策計(jì)量學(xué)這一概念,認(rèn)為其是一種研究政策文本外部和內(nèi)容結(jié)構(gòu)屬性的定量分析方法。研究切入點(diǎn)不僅涉及關(guān)鍵詞共現(xiàn)、發(fā)文主體以及年份計(jì)量、政策類(lèi)型及效力等傳統(tǒng)視角,還包括文本內(nèi)容中參照分析以及知識(shí)擴(kuò)散等方面。③社會(huì)網(wǎng)絡(luò)分析類(lèi)。政策文本的社會(huì)網(wǎng)絡(luò)分析視角常與文獻(xiàn)計(jì)量方法融合交匯,不同的是,社會(huì)網(wǎng)絡(luò)分析視角更加注重融合圖論和傳播學(xué)知識(shí),注重從宏觀視角展現(xiàn)政策文本中所隱含的關(guān)系網(wǎng)絡(luò)、語(yǔ)言關(guān)聯(lián)、行動(dòng)關(guān)系。如張永安[3]等學(xué)者就運(yùn)用社會(huì)網(wǎng)絡(luò)分析法描繪出了相關(guān)領(lǐng)域政策發(fā)文主體的關(guān)系網(wǎng)絡(luò)圖譜。④文本挖掘類(lèi)。在以往的定量分析方法均存在人力耗損較大、信息抽取方式過(guò)于簡(jiǎn)單、內(nèi)容細(xì)節(jié)容易被忽視等情況下,部分學(xué)者開(kāi)始嘗試文本挖掘視角,這也是本文隨后探討的主要方面。⑤綜合方法。通過(guò)對(duì)以上方法進(jìn)行兩兩或多方融合并輔以其他特定分析手段,力求從多角度進(jìn)行文本內(nèi)容的全方位探討。這種融會(huì)貫通的量化分析偏好將成為政策文本分析今后發(fā)展的重要方向。

通覽上述方法的特性,不難發(fā)現(xiàn)文本挖掘的應(yīng)用程度將成為提升政策文本量化分析成熟度的關(guān)鍵。其豐富的研究手段不僅能夠從政策文本中發(fā)掘出潛在的信息與知識(shí),還能夠憑借技術(shù)理性和機(jī)器效率完成文本內(nèi)容多種維度的特征識(shí)別與信息抽取,為內(nèi)容分析和政策文獻(xiàn)計(jì)量等方法提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)與效率支撐。由于政策文本有諸多特性,目前文本挖掘?qū)ζ涞膽?yīng)用程度尚不高,研究處于起步期。針對(duì)政策文本的高詞項(xiàng)維度、多主題分布特征,本文將主題挖掘技術(shù)引入政策文本分析,通過(guò)基于主題的語(yǔ)義降維,探知政策文本潛在的主題內(nèi)容及演化趨勢(shì)。為使研究成果能夠反映當(dāng)下熱點(diǎn)并更具實(shí)際價(jià)值,本文選取氣候領(lǐng)域作為研究對(duì)象,因?yàn)殡S著發(fā)達(dá)國(guó)家碳資本主義的發(fā)展以及發(fā)展中國(guó)家能源消耗的加強(qiáng),氣候問(wèn)題日益突出并國(guó)際化。由于不同國(guó)家或者地區(qū)的經(jīng)濟(jì)發(fā)展水平、戰(zhàn)略利益等方面彼此不同,氣候政策制定存在差異,因此基于主題挖掘來(lái)對(duì)比分析相異的氣候政策的內(nèi)容及發(fā)展趨勢(shì),能夠利于把握國(guó)際氣候治理局勢(shì)并提高國(guó)家的軟實(shí)力,對(duì)我國(guó)氣候政策的制定具有重要的意義。本文的研究目的在于從主題分析的理論角度推進(jìn)政策文本挖掘進(jìn)程,并結(jié)合氣候領(lǐng)域的分析實(shí)踐驗(yàn)證主題挖掘的可行性及性能,最終根據(jù)研究結(jié)論為國(guó)家氣候治理提供建議。

1政策文本挖掘研究進(jìn)展

文本挖掘技術(shù)是指可以從文本中獲得隱含知識(shí)的一類(lèi)技術(shù)的統(tǒng)稱(chēng),相關(guān)研究與應(yīng)用興起于20世紀(jì)90年代,處理的對(duì)象從最初的非結(jié)構(gòu)化文本逐步擴(kuò)展到半結(jié)構(gòu)化的網(wǎng)頁(yè),再進(jìn)一步延伸至專(zhuān)利文獻(xiàn)、科技報(bào)告等特殊類(lèi)型的非結(jié)構(gòu)化文本。隨著政策文本量化分析的需求逐漸凸顯,以及文本挖掘技術(shù)在眾多領(lǐng)域所實(shí)現(xiàn)的璀璨價(jià)值,有學(xué)者開(kāi)始嘗試將文本挖掘前沿技術(shù)應(yīng)用于政策文本的內(nèi)容分析。例如,Prior等人(2012年)[4]對(duì)英國(guó)的衛(wèi)生領(lǐng)域的政策文件進(jìn)行比較研究,基于政策文本敘事結(jié)構(gòu)的特征識(shí)別,將文本挖掘策略與語(yǔ)義網(wǎng)分析相結(jié)合,揭示出政策文本內(nèi)容的基本元素;Talamini與Dewes(2012年)[5]對(duì)巴西有關(guān)科研機(jī)構(gòu)的學(xué)術(shù)文獻(xiàn)以及政府公文施行文本挖掘,從宏觀環(huán)境維度和d-words視角抽取高質(zhì)量文本內(nèi)容,從而對(duì)比分析液體生物燃料的科研成果與實(shí)際政策間的差異;Li Jiexun等人(2010年)[6]提出了一個(gè)名為政策過(guò)程挖掘(Policy-based Process Mining)的新方法,將文本挖掘算法融入商業(yè)政策文本,以完成特定信息自動(dòng)抽??;劉興(2011年)[7]通過(guò)融合正則自動(dòng)機(jī)模型、改進(jìn)的TF算法以及樸素貝葉斯算法(Naive Bayes)實(shí)現(xiàn)了稅收政策公文識(shí)別;蘇變萍(2008年)[8]改進(jìn)了文檔自動(dòng)分類(lèi)模式,提出了面向政策法規(guī)Web文本的一種動(dòng)態(tài)可擴(kuò)展的分類(lèi)方法;熊小梅(2007年)[9]構(gòu)建出法律案情文本分類(lèi)系統(tǒng),利用潛在語(yǔ)義分析技術(shù)進(jìn)行文本二次降維,并使用支持向量機(jī)(Support Vector Machine)以及K近鄰(K-Nearest Neighbour)技術(shù)測(cè)試文本分類(lèi)。

綜合當(dāng)下的研究成果,可以發(fā)現(xiàn)政策文本挖掘的成熟度和豐富度均有待提升。一方面從研究成果“量”的角度來(lái)看,政策文本挖掘類(lèi)文獻(xiàn)較少,其學(xué)術(shù)投入的加強(qiáng)對(duì)改善政策內(nèi)容分析定量不足而定性有余的整體態(tài)勢(shì)具有實(shí)際意義。另一方面從研究成果的“質(zhì)”上來(lái)看,當(dāng)下政策文本挖掘類(lèi)成果的研究視角主要集中在信息抽取、分類(lèi)、聚類(lèi)以及詞項(xiàng)降維等方面,基于語(yǔ)義視角的技術(shù)補(bǔ)充則成為接下來(lái)的重要工作。由于主題挖掘技術(shù)的語(yǔ)義價(jià)值以及在降維方面的特殊作用,將其應(yīng)用于政策文本分析以實(shí)現(xiàn)主題抽取則更具實(shí)際效用。

2主題挖掘的發(fā)展概況以及政策文本的主題模型適用性論證主題挖掘技術(shù)伴隨著自動(dòng)文摘的研究而產(chǎn)生,其興起始于學(xué)術(shù)界有關(guān)提升文本挖掘效能和深度的需求,技術(shù)開(kāi)始從詞項(xiàng)間的語(yǔ)義視角探知文本內(nèi)容結(jié)構(gòu)。隨著單篇文檔的局部主題無(wú)法滿足研究需求,以及文本聚類(lèi)、分類(lèi)迫切需要語(yǔ)義視角的補(bǔ)充,基于大規(guī)模語(yǔ)料庫(kù)的多文檔主題挖掘便成為研究熱點(diǎn)。目前相關(guān)研究?jī)?nèi)容主要包括探知主題外延、主題內(nèi)涵、主題壽命、主題強(qiáng)度、主題遷移以及主題間的關(guān)系等,分析手段主要包括基于主題模型、基于網(wǎng)絡(luò)圖、基于詞匯鏈的構(gòu)造、基于共詞分析等。

主題模型是主題挖掘常用手段,被廣泛用于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)。其產(chǎn)生源自1990年Deerwester SC等人提出的潛在語(yǔ)義索引(LSI),以及隨之發(fā)展的概率潛在語(yǔ)義索引(pLSI)。隨后,David M Blei等人拓展了pLSI,提出了一個(gè)更完善的概率生成模型,即潛在狄利克雷分配模型(LDA)。作為非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),LDA成為使用最為廣泛的主題模型,現(xiàn)在的主題模型大多是基于其的擴(kuò)展,如CTM、Labeled-LDA、PAM。目前,LDA的使用范圍遍及文本情感分析、微博主題挖掘、話題追蹤、垃圾評(píng)論屏蔽、知識(shí)挖掘、計(jì)算機(jī)視覺(jué)以及生物醫(yī)學(xué)等領(lǐng)域,并由學(xué)術(shù)界逐漸延伸至工業(yè)界,已經(jīng)發(fā)展成較為成熟的主題分析方法。

對(duì)于政策法規(guī)這類(lèi)特殊文本而言,由于其詞項(xiàng)的高維特性,傳統(tǒng)的基于相似性度量的分類(lèi)和聚類(lèi)等文本挖掘技術(shù)實(shí)施后的結(jié)果則缺乏可解釋性,而其多主題特性則致使基于詞頻和內(nèi)容結(jié)構(gòu)規(guī)則的主題歸納方法失去實(shí)用價(jià)值。然而,主題模型則提供了新型語(yǔ)義降維與探索主題結(jié)構(gòu)的新方法,將成為解決以上兩大核心問(wèn)題的關(guān)鍵技術(shù)。因?yàn)?,主題模型具有清晰的層次結(jié)構(gòu),不僅能夠從語(yǔ)義視角將高維的“文檔-詞項(xiàng)”分布映射至低維的“文檔-主題”、“主題-詞項(xiàng)”分布,從而將基于語(yǔ)義的“中層特征”(即主題)取代“底層特征”(即詞項(xiàng)),達(dá)到更具意義的文本降維,還能夠?qū)⑽谋局黝}結(jié)構(gòu)及其分布量化的展現(xiàn)出來(lái),并挖掘出定性的角度難以歸納出的潛在語(yǔ)義關(guān)系,從而定量的實(shí)現(xiàn)政策法規(guī)這類(lèi)特殊文本的多主題分析價(jià)值。此外,對(duì)于大規(guī)模語(yǔ)料庫(kù),主題模型的適用性和支持性均較為突出,這也使得分析大容量的政策法規(guī)文本庫(kù)可行性較大?;谝陨险摂?,本文將采用LDA主題模型進(jìn)行氣候領(lǐng)域政策法規(guī)原始文本的主題挖掘?qū)嵺`。

2數(shù)據(jù)來(lái)源和處理方法

2采集對(duì)象

依據(jù)UNFCCC(聯(lián)合國(guó)氣候變化框架公約)歷史締約方的氣候治理態(tài)度,參與氣候國(guó)際談判的國(guó)家或地區(qū)可被分為領(lǐng)跑者、傘形國(guó)家、發(fā)展中國(guó)家和特殊利益集團(tuán)3種主要類(lèi)型[10]。本文選取歐盟、美國(guó)、中國(guó)分別作為這3種類(lèi)型的典型代表,以發(fā)布的氣候政策文本作為分析對(duì)象,進(jìn)行主題挖掘與對(duì)比分析。為確保分析對(duì)象的可比性,本文聚焦最高層面的政策法規(guī),因?yàn)轫攲釉O(shè)計(jì)基本反映了一個(gè)國(guó)家或者地區(qū)的整體規(guī)劃。此外,氣候與能源、環(huán)境等國(guó)家核心架構(gòu)聯(lián)系密切,很多有關(guān)氣候的政策法規(guī)其核心主題并不是氣候,而是能源、環(huán)境等,這樣的政策文本顯然不能作為本文的主要數(shù)據(jù)來(lái)源,否則會(huì)形成較大的偏差。本文所采集的政策文本明確限定于標(biāo)題包含氣候的政策法規(guī)。

2數(shù)據(jù)來(lái)源

由于三方的法律體系、政府機(jī)構(gòu)、公文類(lèi)型均有差異,本文以政府官方門(mén)戶發(fā)表的公文情況為基準(zhǔn),利用爬蟲(chóng)抓取門(mén)戶上的目標(biāo)法律、法規(guī)、政策文件。本文將政策文本大類(lèi)定義為:法律(法律、草案、議案等形式)、政府公布的所有相關(guān)類(lèi)型的文件(所有相關(guān)部門(mén)或委員會(huì)公布的條例、政策、白皮書(shū)等),數(shù)據(jù)抓取時(shí)間為2015年7月。

2歐盟

歐盟法除了成員國(guó)國(guó)內(nèi)法外,主要包括條約、二級(jí)法、補(bǔ)充法3個(gè)層面。有關(guān)歐盟的聯(lián)盟層面的政策法規(guī)在官方門(mén)戶EUR-Lex(url:http:∥eur-lex.europa.eu/homepage.html/)均可以查到。符合要求的文件類(lèi)型為除Consolidated Legislation(合并立法)和Parliamentary Questions(議會(huì)疑問(wèn))外的所有類(lèi)型,實(shí)驗(yàn)最終抓取滿足條件的文件共計(jì)249份。

c美國(guó)

美國(guó)是憲政聯(lián)邦共和制國(guó)家,有關(guān)美國(guó)的法律(包括議案)在國(guó)會(huì)門(mén)戶(url:https:∥www.congress.gov/)均可獲得,聯(lián)邦政府以及相關(guān)部門(mén)的政策文件來(lái)自GPO(美國(guó)政府出版辦公室,url:http:∥www.gpo.gov/)的FDsys(美國(guó)政府出版辦公室聯(lián)邦數(shù)字化系統(tǒng))。該系統(tǒng)提供了美國(guó)政府自90年代以來(lái)的官方文件。根據(jù)文件集的簡(jiǎn)介,選擇滿足條件的文件集作為文件來(lái)源,融合兩大門(mén)戶最終抓取文件754份。

2中國(guó)

全國(guó)人大是中國(guó)的最高權(quán)力機(jī)關(guān),享有立法權(quán)。國(guó)務(wù)院(即中央人民政府)是最高行政機(jī)關(guān)的執(zhí)行機(jī)關(guān)。我國(guó)政策文本的采集理應(yīng)來(lái)自這兩方。由于政府門(mén)戶公布的信息僅是近年的,且檢索界面不夠友好,故將數(shù)據(jù)來(lái)源替換為“北大法寶”(url:http:∥www.pkulaw.cn/),目前國(guó)內(nèi)最為權(quán)威的法律法規(guī)信息檢索系統(tǒng)。篩選數(shù)據(jù)集后,最終抓取文件86份。

3基于R語(yǔ)言的主題挖掘模型構(gòu)建

政策文本具有典型的長(zhǎng)文本特性,其政治術(shù)語(yǔ)較多,語(yǔ)義表述較為完整。同微博等個(gè)人類(lèi)短文本不同,政策文本并不涉及較多的情感詞匯,也不涉及千變?nèi)f化的表達(dá)習(xí)慣和個(gè)性標(biāo)簽,其內(nèi)容的特征單元詞往往具有規(guī)范性與文本間的連續(xù)使用性。此外,與學(xué)術(shù)文獻(xiàn)等不同,政策文本往往不具有摘要類(lèi)結(jié)構(gòu),其內(nèi)容結(jié)構(gòu)隨著政策類(lèi)別或政策領(lǐng)域而形態(tài)各異。因此,對(duì)政策文本內(nèi)容的挖掘往往是基于政策全文的。由于基于詞頻熱度的主題詞表達(dá)熱點(diǎn)主題的能力有限,語(yǔ)義層面的主題分析則成為關(guān)鍵的補(bǔ)充。本文通過(guò)融合詞項(xiàng)層面和語(yǔ)義層面的分析視角進(jìn)行政策文本的主題研究,并在以?xún)?nèi)容特征作為挖掘?qū)ο蟮幕A(chǔ)之上,加入時(shí)間窗口的外部特征,利用主題的時(shí)間離散化以進(jìn)行趨勢(shì)分析。

本文構(gòu)建了基于R語(yǔ)言的主題挖掘模型(見(jiàn)圖1)。模型整體由左上角政府官方門(mén)戶開(kāi)始至右下角主題強(qiáng)度遷移結(jié)束,共分為五大模塊:①政策法規(guī)數(shù)據(jù)的采集與語(yǔ)料庫(kù)的建立;②文本預(yù)處理;③N-gram模型;④高維數(shù)據(jù)降維與信息過(guò)濾;⑤LDA主題模型與模型參數(shù)的構(gòu)建。此外,虛線框及其右上方標(biāo)識(shí)代表相應(yīng)的R語(yǔ)言模塊。圖1基于R語(yǔ)言的政策文本主題挖掘模型示意圖

1文本預(yù)處理

施行數(shù)據(jù)清洗后,得到歐盟228件、美國(guó)751件、中國(guó)84件文本。①英文:對(duì)原始文本進(jìn)行基礎(chǔ)字符處理,創(chuàng)建融合政策法規(guī)常規(guī)停用詞的針對(duì)性停用詞表,使用Porter詞干提取算法[11]對(duì)語(yǔ)料庫(kù)文檔進(jìn)行詞干化。②中文:采用Rwordseg(原理為利用rJava調(diào)用基于中科院中文分詞算法ictclas的開(kāi)源工具Ansj)進(jìn)行中文分詞,加載搜狗專(zhuān)業(yè)詞典23個(gè)(其中包括氣象、能源、法律政策等領(lǐng)域?qū)I(yè)詞匯)以提升分詞效果,融合哈工大停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫(kù)、政策特征停用詞以進(jìn)行停用詞處理。

2N-gram模型

在進(jìn)行文本挖掘時(shí),僅分析單詞顯然不能滿足要求,如“text mining”中的元素“text”單獨(dú)出現(xiàn)沒(méi)有實(shí)際分析價(jià)值。N-gram模型可以避免單詞分析的不足,其基本思路為[12]:假設(shè)句子S由k個(gè)特征項(xiàng)構(gòu)成,即S=(w1,w2,w3,…,wk),且其中一個(gè)特征項(xiàng)出現(xiàn)的概率僅與前k-1項(xiàng)的概率相關(guān),第i項(xiàng)出現(xiàn)的概率由公式(1)計(jì)算所得。公式(1) 使用最大似然估計(jì)法求取條件概率,公式中的c(wi-n+1,wi-n+2,…,wi-1,wi)為相應(yīng)的特征項(xiàng)序列在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)。RWeka提供了NGramTokenizer函數(shù),用于基于N-gram的特征項(xiàng)抽取,通過(guò)提供最小和最大的元數(shù),將字符串分裂成N元。國(guó)外已有學(xué)者將NGramTokenizer函數(shù)用于銀行業(yè)的文獻(xiàn)主題挖掘[13]。本文利用該函數(shù),將N區(qū)間設(shè)置為1~3,以單詞和二三元詞組作為研究對(duì)象,這樣設(shè)置的優(yōu)勢(shì)是在概率統(tǒng)計(jì)的基礎(chǔ)上,能將核心詞匯和核心詞組一并得出。

P(wiw1,w2,w3,…,wk)=P(wiwi-n+1,wi-n+2,…,wi-n)=c(wi-n+1,wi-n+2,…,wi-1,wi)c(wi-n+1,wi-n+2,…,wi-1)(1)

3高維數(shù)據(jù)降維與信息過(guò)濾

降維和信息過(guò)濾是實(shí)現(xiàn)數(shù)據(jù)可分析的兩項(xiàng)核心任務(wù),二者交互進(jìn)行。對(duì)于政策法規(guī)而言,其大多為長(zhǎng)文本且信息噪聲較大,在預(yù)處理過(guò)程中會(huì)產(chǎn)生十幾萬(wàn)甚至更多維數(shù)的稀疏矩陣。目前常用的高維數(shù)據(jù)降維方法可以歸納為3大類(lèi)。①縱向投影:利用映射、抽取或者綜合的方法將文本集合的特征項(xiàng)由高維轉(zhuǎn)換至低維,如主成分分析(PCA)、潛在語(yǔ)義索引(LSI)、多維尺度分析(MDS)、局部線性嵌入(LLE)[14]。②橫向過(guò)濾:除了使用停用詞剔除噪聲、提高精度,還包括建立評(píng)價(jià)函數(shù),篩選分值較高的特征項(xiàng)用于后續(xù)挖掘,如TF和TF-IDF[15-16]、信息增益(IG)、互信息(MI)、期望交叉熵(ECE)[14]。③其他:利用聚類(lèi)或主題分析等方式,以提取“中間特征”進(jìn)行降維。本文融合方法②③,先使用停用詞表等基礎(chǔ)處理方式,然后剔除TF-IDF過(guò)低的詞項(xiàng),接著將TF閾值設(shè)置為5[15],并利用removeSparseTerms函數(shù)去除稀疏度達(dá)到95%以上的詞項(xiàng)。通過(guò)融合以上處理方法,得到的文檔詞項(xiàng)矩陣維數(shù)更加接近有意義的實(shí)質(zhì)維數(shù),再利用LDA施行語(yǔ)義降維。

2 4LDA主題模型與模型參數(shù)的構(gòu)建

LDA主題模型認(rèn)為主題是詞項(xiàng)的概率分布,文檔是多種主題的概率分布,文檔集合中的單篇文章以不同概率共享一組主題。LDA融合了貝葉斯理論、Dirichlet分布等成果,是一種對(duì)自然語(yǔ)言建模的語(yǔ)言模型。其文檔生成過(guò)程如下:①對(duì)一篇文檔d,選擇主題概率分布θ,且θ~P(θα);②從以上抽出的θ中,抽取一個(gè)主題z,且z~P(zθ);③從主題z的多項(xiàng)式分布中抽取一個(gè)單詞w,且w~P(wz,β);④對(duì)文檔中的每個(gè)詞項(xiàng)重復(fù)③④。求解過(guò)程中,θ、分別有帶有超參數(shù)α和β的Dirichlet先驗(yàn)分布,w作為觀測(cè)變量,z、θ為隱藏變量,通過(guò)選取的參數(shù)估計(jì)算法,將文檔在詞項(xiàng)空間的表示轉(zhuǎn)化為文檔在主題空間的表示。

本文采用topicmodels包進(jìn)行主題模型的構(gòu)建,該包在輸入數(shù)據(jù)結(jié)構(gòu)上繼承了tm包的特性,因此用于本文的主題模型構(gòu)建較為合適。根據(jù)Griffiths利用Gibbs采樣技術(shù)發(fā)現(xiàn)科學(xué)主題的實(shí)驗(yàn)[15],以及有關(guān)Gibbs采樣技術(shù)和VEM(變化的最大期望算法)的比較[16],本文選用Gibbs采樣技術(shù),并綜合Griffiths的實(shí)驗(yàn)將上文提出的LDA模型的兩個(gè)超參數(shù)α和β分別設(shè)置為50/K和01,迭代次數(shù)設(shè)置為1 000次。已知LDA模型有兩個(gè)重要的輸入?yún)?shù),一個(gè)是文檔詞項(xiàng)矩陣,另一個(gè)是主題個(gè)數(shù)K,其中文檔詞項(xiàng)矩陣的元素值為詞頻tf。本文基于以上前四大模塊的文本處理技術(shù),得出文檔詞項(xiàng)矩陣DTM,并采用Perplexity(困惑度)指標(biāo)衡量模型[15-16]以選取主題個(gè)數(shù)K。其中D為文檔集,V為詞項(xiàng)集,n(jd)表示第j個(gè)詞項(xiàng)出現(xiàn)在第d個(gè)文檔中的頻率。本文根據(jù)文獻(xiàn)[15]中的設(shè)定方法,在10~100區(qū)間內(nèi)以10為間隔取樣,而后每隔50取樣一次,直至主題個(gè)數(shù)為200,根據(jù)實(shí)驗(yàn)結(jié)果,最終將主題個(gè)數(shù)設(shè)定為歐盟50個(gè)、美國(guó)30個(gè)、中國(guó)15個(gè),此時(shí)三方的主題模型達(dá)到相對(duì)較好狀態(tài)。

3政策分析

3政策文本高頻詞匯及其分布形態(tài)

為更加具體的觀測(cè)氣候政策文本的熱點(diǎn),在經(jīng)歷過(guò)上文的詞法分析后,選用二、三元詞組作為對(duì)象,以詞頻為統(tǒng)計(jì)指標(biāo)。進(jìn)行詞形還原和同義詞歸并后,選取排名前20的高頻詞組(見(jiàn)表1)。在歐、美、中氣候政策文本熱點(diǎn)中,“氣候變化”頻次最高。此外,本文在進(jìn)行資料收集時(shí)發(fā)現(xiàn),很多國(guó)家并沒(méi)有直接分管氣候的專(zhuān)門(mén)常規(guī)部門(mén),卻有“氣候變化”問(wèn)題的專(zhuān)門(mén)板塊,可見(jiàn)“氣候變化”已然成為氣候領(lǐng)域的代表性問(wèn)題。

歐盟美國(guó)中國(guó)詞項(xiàng)頻率詞項(xiàng)頻率詞項(xiàng)頻率Climate Change8 374Climate Change4 564氣候變化1 506Developing/ed Country2 653Greenhouse Gas Emission1 187溫室氣體〖〗306Greenhouse Gas Emission2 078National Oceanic Atmospheric1 157氣候可行性論證177Energy Efficiency1 989Was Hington DC688節(jié)能減排170Emission Reduction1 647Environment Protection641發(fā)展改革154Kyoto Protocol1 197Natural Resources610交通運(yùn)輸145Renewable Energy1 135Department Commerce578國(guó)務(wù)院139Climate Change Adaption1 089National Climate569二氧化碳133Emission Trade691Global Change550中國(guó)氣象局131Adapt Climate611Impact Climate484發(fā)展中國(guó)家123Impact Climate Change585Carbon Dioxide454水資源122Adaption Strategy563Fish Wildlife426應(yīng)對(duì)氣候變化工作117Energy Consumption542Impact Climate Change410聯(lián)合國(guó)116Low Carbon518Secretary Commerce324可持續(xù)發(fā)展107Economy Social497Climate Change Science317氣象災(zāi)害104表1(續(xù))

歐盟美國(guó)中國(guó)詞項(xiàng)頻率詞項(xiàng)頻率詞項(xiàng)頻率Sustainable Development458Envionment Protection Agency306發(fā)達(dá)國(guó)家96Energy Save451Effect Climate282國(guó)際合作96Reduction Target451Department Energy265低碳技術(shù)92Climate Change Impaction446National Marine234氣候事件91Fossil Fuel415Local Governments224極端天氣90

雖然美國(guó)的文本量比歐盟多,但表1詞頻表明,歐盟頻次前20的詞項(xiàng)詞頻較高,顯示出歐盟氣候領(lǐng)域關(guān)注熱點(diǎn)較為集中。此外,作為氣候變化行動(dòng)的領(lǐng)導(dǎo)者,歐盟有關(guān)能源的提及較多,包括能源效率、新能源、能源消耗、能源保存。再者,歐盟反復(fù)強(qiáng)調(diào)Kyoto Protocol(《京都議定書(shū)》),這一國(guó)際氣候行動(dòng)的核心文件,在一定程度上表現(xiàn)了歐盟對(duì)國(guó)際氣候行動(dòng)的支持。歐盟還反復(fù)提及的一個(gè)熱點(diǎn)便是氣候變化適應(yīng)問(wèn)題,并關(guān)注相關(guān)適應(yīng)策略的制定。歐盟致力于具體的減排目標(biāo),并在完成度上處于國(guó)際領(lǐng)先,“Reduction Target”的出現(xiàn)頻率也反映了歐盟氣候行動(dòng)的具體性。對(duì)于美國(guó)而言,得出的高頻詞項(xiàng)的含義則相對(duì)寬泛。其氣候變化涉及到行政部門(mén)包括National Oceanic and Atmospheric(NOAA,美國(guó)國(guó)家海洋與大氣管理局)、Department of Commerce(DOC,商務(wù)部)、Environment Protection Agency(EPA,環(huán)境保護(hù)署)、Department of Energy(DOE,能源部)。NOAA高頻率在一定程度上反映了其在美國(guó)氣候變化應(yīng)對(duì)方面的核心地位。Climate Change Science Program(CCSP,美國(guó)氣候變化科學(xué)項(xiàng)目)起源于小布什政府,正是因?yàn)樾〔际舱臍夂驊岩烧摚女a(chǎn)生了氣候一系列有關(guān)氣候科學(xué)項(xiàng)目的研究。此外,DOC具有如此高的提及頻率顯示了美國(guó)市場(chǎng)因素的熱度。對(duì)于中國(guó),“氣候可行性論證”一詞高頻出現(xiàn),其相關(guān)政策旨在規(guī)范氣候資源的合理開(kāi)發(fā)和利用,盡最大努力減輕或者規(guī)避一些項(xiàng)目實(shí)施后的氣候風(fēng)險(xiǎn)。因?yàn)橹袊?guó)正處于快速發(fā)展時(shí)期,經(jīng)濟(jì)發(fā)展與能源消耗相伴產(chǎn)生,一些項(xiàng)目會(huì)很大程度上影響局地氣候,為可持續(xù)發(fā)展,必須進(jìn)行相關(guān)的規(guī)范與監(jiān)管。表2顯示,中國(guó)還通過(guò)節(jié)能減排與低碳技術(shù)來(lái)降低溫室氣體的排放,國(guó)際能源署首席經(jīng)濟(jì)學(xué)家法提赫·比羅爾就表示,中國(guó)在過(guò)去5年承擔(dān)了全球低碳技術(shù)應(yīng)用量的40%[17]。此外,數(shù)據(jù)還展現(xiàn)了氣候變化所帶來(lái)的水資源分布不均以及極端天氣等問(wèn)題。

為從可視化角度透視三方的熱詞分布,本文根據(jù)詞頻數(shù)值降序排列,截取排名前100的二、三元詞組制作詞頻云圖(表1最后一行)。其中,詞項(xiàng)的頻率決定詞項(xiàng)的大小,且由于歐盟、美國(guó)前3個(gè)詞組以及中國(guó)第一個(gè)詞組的頻率過(guò)大不利于顯示,故截去。從三者的云圖可以可看出,在前100的詞組中,尺寸較大的詞組為核心詞項(xiàng),在三方中所占的比例均不大。字號(hào)的大小對(duì)比反映了詞組熱度的差距,而歐盟對(duì)比較為明顯,表現(xiàn)為諸如“Energy Efficiency”的高頻詞組與外圍最小詞頻的詞組之間的大小差距,屬于“金字塔”型結(jié)構(gòu)。美國(guó)高頻熱詞的密度與數(shù)量比歐盟大,且分布較為均衡,反映了其關(guān)注熱點(diǎn)相對(duì)平衡的“中堅(jiān)”型結(jié)構(gòu)。對(duì)于中國(guó),除“溫室氣體”外,詞組大小的遞減幅度較小,大部分詞頻差距不大,外圍詞組與核心詞組界限不明顯,呈現(xiàn)出緩慢遞減的“階梯”型結(jié)構(gòu)。

2政策文本主題分析

2主題強(qiáng)度分析

利用上文LDA模型的θ、矩陣,可得出每篇文檔與每個(gè)主題相關(guān)的后驗(yàn)概率及每個(gè)詞項(xiàng)與每個(gè)主題相關(guān)的后驗(yàn)概率。本文利用主題強(qiáng)度分布,查看歐、美、中每個(gè)主題在語(yǔ)料集中的相對(duì)分量。本文的主題強(qiáng)度計(jì)算公式如下:

Pk=∑NiθkiN(2)

其中,Pk表示第k個(gè)主題的強(qiáng)度,N為文檔數(shù),θki表示第k個(gè)主題在第i篇文檔中的概率。以公式(2)為基礎(chǔ)進(jìn)行計(jì)算,得出歐、美、中三方的宏觀主題強(qiáng)度分布如圖2所示,其中橫坐標(biāo)表示主題標(biāo)號(hào),縱坐標(biāo)P表示主題強(qiáng)度??梢钥闯觯黝}強(qiáng)度反映了主題的宏觀均值。

本文發(fā)現(xiàn),實(shí)驗(yàn)所得的主題詞項(xiàng)以及其分布情況與人工判定結(jié)果具有較好的一致性。根據(jù)主題情況,本文將選取三者的熱門(mén)主題(Hot Topics)、冷門(mén)主題(Cold Topics)以及辨識(shí)度較高的隨機(jī)主題(Others)各3個(gè)進(jìn)行分析。其中熱門(mén)主題和冷門(mén)主題是按照主題強(qiáng)度選取的最高三值和圖2三方主題強(qiáng)度分布

最低三值,隨機(jī)主題是按照主題內(nèi)容情況進(jìn)行篩選。最終選取的主題標(biāo)號(hào)為EU(Hot Topics:29、36、11;Cold Topics:47、25、22;Others:16、27、43)、US(Hot Topics:22、9、17;Cold Topics:16、1、6;Others:3、11、14)、China(Hot Topics:1、5、4;Cold Topics:10、9、14;Others:7、13、15)。

2主題內(nèi)容及強(qiáng)度逐年演化趨勢(shì)分析

表2展示了選中主題內(nèi)容的局部特征詞集合。通過(guò)查閱語(yǔ)料與人工判定相結(jié)合,總結(jié)主題對(duì)應(yīng)的標(biāo)題。上述主題強(qiáng)度反映主題相對(duì)于所有文檔的概率均值,由于文檔數(shù)N恒定,主題強(qiáng)度反映的則是主題的累計(jì)概率值,并不能反映主題的變遷。為分析這27個(gè)主題及其強(qiáng)度逐年演化趨勢(shì),本文進(jìn)行了時(shí)間后離散化。已知θki表示第k個(gè)主題在第i篇文檔中的概率,采用同一年份的主題在相關(guān)文檔中概率的算術(shù)平均mean(θki)表示當(dāng)年主題強(qiáng)度[15],圖3以其為縱坐標(biāo),展示了主題強(qiáng)度逐年演化趨勢(shì),主題標(biāo)號(hào)與表2相對(duì)應(yīng)。

相關(guān)主題主題含義主題含義主題含義詞項(xiàng)相關(guān)度詞項(xiàng)相關(guān)度〖〗詞項(xiàng)相關(guān)度(A)歐盟

熱門(mén)主題29?氣候變化官方行動(dòng)36?京都議定書(shū)承諾期的減排情況11?應(yīng)對(duì)氣候變化的支持系

由表2(A)可知,歐盟熱門(mén)主題29主要涉及氣候變化官方行動(dòng),包括委員會(huì)和歐洲議會(huì)制定相關(guān)法律政策,也包括一系列重要會(huì)議的召開(kāi)。此主題并不涉及具體應(yīng)對(duì)氣候問(wèn)題的內(nèi)容,而是形式或官方機(jī)制。主題36事關(guān)歐盟在《京都議定書(shū)》承諾期的減排情況,由圖3(A)中演化趨勢(shì)可以看出,其強(qiáng)度由2000年開(kāi)始遞增,在2000年與2005年間達(dá)到一個(gè)相當(dāng)?shù)姆逯?,?010年又開(kāi)始了另一輪的遞增??v觀歐盟的氣候行動(dòng),2000年啟動(dòng)了第一個(gè)歐洲氣候變化計(jì)劃ECCP Ⅰ,該計(jì)劃具體落實(shí)了減排目標(biāo),確定了溫室氣體的排放交易體系ETS。而后,歐盟又草擬了相關(guān)法令,嘗試建立相應(yīng)的市場(chǎng)。2005年,其啟動(dòng)了ECCP Ⅱ,改將碳捕獲和存儲(chǔ)作為未來(lái)重點(diǎn)。隨后,在經(jīng)歷了2009年哥本哈根會(huì)議的挫折后,2010年歐盟又提出了“后哥本哈根”的相關(guān)政策,重申了大尺度的減排目標(biāo)和發(fā)展路線。這些時(shí)間段的實(shí)際情況均與與圖中主題強(qiáng)度演化趨勢(shì)相對(duì)圖3主題強(qiáng)度逐年演化趨勢(shì)

應(yīng)。11號(hào)主題是歐盟應(yīng)對(duì)氣候變化的支持系統(tǒng)和制定的相關(guān)行動(dòng)、標(biāo)準(zhǔn)和框架,其強(qiáng)度雖然不高但一直較為穩(wěn)定,這有賴(lài)于歐盟完備的環(huán)境保護(hù)立法和制度,以及一直致力于制定并完善具體的行動(dòng)與措施。歐盟的冷門(mén)主題包括減少資源浪費(fèi)、地區(qū)性環(huán)境問(wèn)題、發(fā)達(dá)國(guó)家與發(fā)展中國(guó)家排放量基準(zhǔn)的討論。本文所指冷門(mén)主題的宏觀強(qiáng)度值雖與熱門(mén)主題有一定的差距,但卻可以在某一個(gè)時(shí)間段高于熱門(mén)主題,具有相對(duì)性(如47號(hào)主題便在1996年和2009年達(dá)到近03的峰值,并不亞于部分熱門(mén)主題)。22號(hào)主題即發(fā)達(dá)國(guó)家與發(fā)展中國(guó)家排放量基準(zhǔn)的討論,雖然處于穩(wěn)定的波動(dòng)狀態(tài),但強(qiáng)度較低,主要因?yàn)闅W盟對(duì)于發(fā)展中國(guó)家的減排義務(wù)較美國(guó)而言要更加妥協(xié),基本遵循公約的“共同但有區(qū)別的責(zé)任原則”。圖3(C)展示的是辨識(shí)度較強(qiáng)的隨機(jī)主題(節(jié)能投資計(jì)劃、溫室氣體排放規(guī)劃、為適應(yīng)氣候變化所進(jìn)行的相關(guān)監(jiān)控與投資)的強(qiáng)度變遷。3個(gè)主題的強(qiáng)度均在2007年、2008年發(fā)生變遷,在2013年、2014年幾乎同步達(dá)到峰值。這在一定程度上是因?yàn)闅W盟2007年提出的“能源氣候一攬子決議”、2008年通過(guò)的“氣候行動(dòng)可再生能源一攬子計(jì)劃”以及2013年提出的“歐盟適應(yīng)氣候變化一攬子計(jì)劃”。這個(gè)3個(gè)重要文件對(duì)歐盟相應(yīng)的政策制定和走向產(chǎn)生了重要的影響,奠定了歐盟的戰(zhàn)略規(guī)劃與治理模式。

(2)美國(guó)

展示了美國(guó)的主題強(qiáng)度變遷。熱門(mén)主題22號(hào)涉及碳排放權(quán),反映了美國(guó)政府減少溫室氣體排放的市場(chǎng)傾向。這種傾向在1997-2005年一個(gè)9年的時(shí)間段內(nèi)均占據(jù)主導(dǎo)地位,且近幾年又有回升的趨勢(shì)。美國(guó)氣候問(wèn)題的國(guó)際立場(chǎng)一直是在不損害經(jīng)濟(jì)的前提下,以市場(chǎng)為基礎(chǔ)進(jìn)行調(diào)節(jié)的方案?!毒┒甲h定書(shū)》的三大機(jī)制:CDM(清潔發(fā)展機(jī)制)、ET(排放貿(mào)易)、JI(聯(lián)合履約)均在美國(guó)的倡導(dǎo)下建立起來(lái)[30],這種市場(chǎng)傾向在克林頓政府和小布什政府期間較為明顯,表現(xiàn)為如圖3(D)所示的1997-2005年的變化趨勢(shì)。主題9展現(xiàn)了氣候問(wèn)題涉及的部門(mén),包括國(guó)家海洋和大氣管理局(NOAA)、商務(wù)部(DOC)、國(guó)家海洋漁業(yè)局(NMFS)等。主題17即有關(guān)國(guó)土資源調(diào)控的主題在1996-2006年間一直保持著一定的水平,在近年有些回落。美國(guó)的冷門(mén)主題強(qiáng)度與熱門(mén)主題強(qiáng)度的差距并沒(méi)有歐盟顯著,其3個(gè)主題分別在1985年、1993年、2004年達(dá)到峰值,其余年份均較為穩(wěn)定的波動(dòng)。美國(guó)辨識(shí)度較高的隨機(jī)主題主要包括自然資源的保護(hù)、清潔能源技術(shù)、環(huán)境污染管理。其中,清潔能源技術(shù)主題在1993年達(dá)到了前所未有的峰值,其他兩個(gè)主題則一直處于平穩(wěn)狀態(tài)。1993年有關(guān)清潔能源技術(shù)的討論達(dá)到峰值在一定程度上是受到1992年《能源政策法》的影響,美國(guó)嘗試減少對(duì)石油的依賴(lài),開(kāi)始探索清潔道路。此外,對(duì)于清潔能源而言,美國(guó)較為有影響力的法案還包括奧巴馬政府出臺(tái)的《清潔能源與安全法案》。

(3)中國(guó)

較歐美而言,中國(guó)的15個(gè)主題均具有較高的強(qiáng)度值,這表明中國(guó)氣候領(lǐng)域的關(guān)注點(diǎn)較為集中,主題并不分散,且強(qiáng)度冷熱只是相對(duì)而言。中國(guó)氣候領(lǐng)域的熱門(mén)主題包括國(guó)際合作、相關(guān)領(lǐng)域的改革、氣候可行論論證等方面。2005年《京都議定書(shū)》在中國(guó)生效,次年,中國(guó)有關(guān)國(guó)際合作的主題1強(qiáng)度達(dá)到峰值,表現(xiàn)了中國(guó)氣候治理的合作理念。作為發(fā)展中國(guó)家,氣候變化的治理與社會(huì)和經(jīng)濟(jì)的建設(shè)發(fā)展存在一定的沖突現(xiàn)象,由主題5可知,氣候政策的制定也融合了城鄉(xiāng)建設(shè)、工業(yè)、環(huán)境保護(hù)等綜合因素。主題4有關(guān)氣候可行倫的監(jiān)管,其旨在防止不良的工程影響局地氣候。1、5、4三個(gè)主題在近年來(lái)強(qiáng)度均穩(wěn)定在一定的水平上下波動(dòng)。對(duì)于冷門(mén)主題而言,宏觀波動(dòng)趨勢(shì)較為一致。海洋領(lǐng)域的預(yù)警與監(jiān)控與林業(yè)領(lǐng)域的監(jiān)管這兩個(gè)主題在近年的涉及度均有上升,且在2013年和2014年達(dá)到了較高的峰值,這與近些年來(lái)的極端天氣所引發(fā)的氣候事件有關(guān)。辨識(shí)度較強(qiáng)的隨機(jī)主題主要包含當(dāng)下熱點(diǎn)議題,包括節(jié)能減排、氣候事件與極端天氣、低碳技術(shù)。氣候事件與極端天氣的主題長(zhǎng)期處于穩(wěn)定的波動(dòng)狀態(tài),但客觀而言,中國(guó)應(yīng)對(duì)極端天氣的能力還較弱。節(jié)能減排和低碳技術(shù)的強(qiáng)度值在2012年同時(shí)達(dá)到峰值,主要因?yàn)橛腥?xiàng)重要的行動(dòng)和計(jì)劃,包括新一輪低碳交通運(yùn)輸體系的城市試點(diǎn)工作、科技部等16個(gè)部委協(xié)會(huì)制定的《“十二五”國(guó)家應(yīng)對(duì)氣候變化科技發(fā)展專(zhuān)項(xiàng)計(jì)劃》、工信部等4個(gè)部委制定的《工業(yè)領(lǐng)域應(yīng)對(duì)氣候變化行動(dòng)方案2012-2020年》。節(jié)能減排和低碳技術(shù)是中國(guó)應(yīng)對(duì)氣候變化問(wèn)題的主要手段,節(jié)能、減排、低碳城市、低碳消費(fèi)、低碳企業(yè)已成為社會(huì)性的行動(dòng)。但是,作為發(fā)展中國(guó)家,經(jīng)濟(jì)快速發(fā)展帶來(lái)了能源需求的增長(zhǎng)、供需矛盾的凸顯以及環(huán)境問(wèn)題的制約,中國(guó)一方面面臨著“彰顯大國(guó)風(fēng)范”的國(guó)際壓力,一方面需要面對(duì)國(guó)內(nèi)較大的減排難度。氣候問(wèn)題,可謂是中國(guó)國(guó)際政策的一大難點(diǎn)與挑戰(zhàn)。

33基于主題挖掘的歐、美、中三方氣候政策對(duì)比分析作為國(guó)際熱點(diǎn)課題,政府間的氣候政策側(cè)重點(diǎn)具有明顯的差異性。由于每個(gè)國(guó)家黨派特性不同、內(nèi)外環(huán)境不同、發(fā)展水平不同,對(duì)于氣候問(wèn)題的治理也會(huì)采用不同的政治工具。本文以政策文本作為定量分析對(duì)象,通過(guò)對(duì)歐盟、美國(guó)、中國(guó)這三方的主題挖掘?qū)嵺`,窺探UNFCCC 3個(gè)層次的歷史締約方對(duì)于氣候治理的典型態(tài)度。

①歐盟熱衷于減排計(jì)劃,并更加注重可持續(xù)發(fā)展與氣候保護(hù)政策相關(guān)制度體系的構(gòu)建。其高頻詞項(xiàng)分布形態(tài)具有以“可再生能源”、“能源效率”等詞項(xiàng)為塔尖的“金字塔”型結(jié)構(gòu),主題分布更多地涉及公約承諾期減排完成情況、應(yīng)對(duì)氣候變化的支持系統(tǒng)、節(jié)能減排、監(jiān)控與投資等實(shí)質(zhì)性的計(jì)劃和規(guī)制,屬于“實(shí)干家”。

②美國(guó)聯(lián)邦層面的氣候政策市場(chǎng)導(dǎo)向明顯,其在國(guó)際氣候治理上的政治立場(chǎng)受到黨派特性以及利益集團(tuán)的綜合影響,表現(xiàn)為時(shí)而阻撓時(shí)而推動(dòng)的搖擺不定態(tài)勢(shì)。雖然政治立場(chǎng)搖擺不定,但是在數(shù)據(jù)采集中本文發(fā)現(xiàn),其頂層氣候政策是三方發(fā)布最多的。高頻詞項(xiàng)分布展示了其以NOAA和環(huán)境保護(hù)為代表的多部門(mén)寬領(lǐng)域的“中堅(jiān)”型結(jié)構(gòu),主題分布更多的涉及市場(chǎng)因素、管理部門(mén)、自然資源、清潔能源和環(huán)境保護(hù)等,屬于“多面派”。

③中國(guó)更加強(qiáng)調(diào)規(guī)范氣候資源合理開(kāi)發(fā)利用、相關(guān)領(lǐng)域改革以及利用低碳技術(shù)。其高頻詞項(xiàng)分布形態(tài)則呈現(xiàn)出頻率緩慢遞減的“階梯”型結(jié)構(gòu),主題分布更多的涉及合作、改革、氣候可行性論證以及節(jié)能減排和低碳技術(shù)。作為發(fā)展中的大國(guó),經(jīng)濟(jì)快速發(fā)展與能源消耗相伴產(chǎn)生,中國(guó)與歐盟和美國(guó)因此具有截然不同的內(nèi)部矛盾與外部制約。雖然相對(duì)于歐盟和美國(guó),中國(guó)對(duì)氣候問(wèn)題的關(guān)注起步較晚,能夠采集到的政策法規(guī)較少,但是就主題挖掘而言,中國(guó)的各個(gè)主題強(qiáng)度較高且主題概況較具中國(guó)特色。中國(guó)以改革、合作、可行性論證為政策主旋律,輔以節(jié)能減排、低碳技術(shù)為政策工具,為“改革與發(fā)展者”。

4總結(jié)與建議

本文構(gòu)建了基于R語(yǔ)言的主題挖掘模型,以主題分析的新視角對(duì)政策文本進(jìn)行基于語(yǔ)義的量化分析。通過(guò)輔以高頻詞項(xiàng)及其分布,著重從主題內(nèi)容和強(qiáng)度演化角度分析了歐盟、美國(guó)、中國(guó)的氣候政策法規(guī),取得了較好的實(shí)踐結(jié)果,這在三方的熱門(mén)、冷門(mén)、隨機(jī)主題的內(nèi)容及演化規(guī)律上得到了有關(guān)實(shí)證支持。針對(duì)此次主題挖掘成果以及國(guó)內(nèi)氣候治理的不足之處,本文認(rèn)為國(guó)內(nèi)氣候政策法規(guī)體系的建設(shè)與完善可以從以下5個(gè)方面著眼:

1考慮氣候方面專(zhuān)門(mén)立法

氣候問(wèn)題是一個(gè)涉及環(huán)境、能源、經(jīng)濟(jì)、國(guó)土資源的綜合議題,很多情況下氣候政策只是能源政策和計(jì)劃的附帶產(chǎn)品。近些年來(lái)我國(guó)逐漸意識(shí)到了氣候問(wèn)題的嚴(yán)峻性以及其與發(fā)展改革的重要關(guān)系,開(kāi)始注重可行性論證與領(lǐng)域改革,但是氣候變化卻始終缺乏堅(jiān)硬的法律基石作為支持。模糊的公共職能、不明朗的領(lǐng)域邊界都在不同程度上削弱了氣候治理的效率。歐盟對(duì)于氣候變化有著堅(jiān)實(shí)的法律基礎(chǔ),除了英國(guó)頒布的《氣候變化法》外,其他成員國(guó)均以“能源氣候一攬子計(jì)劃”為基石進(jìn)行分散立法。美國(guó)采取綜合立法模式,通過(guò)了《清潔能源與安全法》規(guī)定應(yīng)對(duì)氣候變化的一系列相關(guān)方面。我國(guó)應(yīng)盡快進(jìn)行氣候方面專(zhuān)門(mén)立法,并基于此構(gòu)建包括《氣候稅》等后續(xù)相關(guān)法律。

2完善寬領(lǐng)域與多部門(mén)協(xié)同應(yīng)對(duì)氣候變化的制度體系雖然《中國(guó)應(yīng)對(duì)氣候變化報(bào)告》公布了國(guó)內(nèi)已成立應(yīng)對(duì)氣候變化領(lǐng)導(dǎo)小組,并建立了相應(yīng)的工作機(jī)制,但是從數(shù)據(jù)采集和主題挖掘的結(jié)果可以看出,相對(duì)于美國(guó)以NOAA為核心的應(yīng)對(duì)氣候變化多部門(mén)協(xié)同體系,我國(guó)諸如環(huán)境、能源等部門(mén)所制定的不同視角的氣候政策還是捉襟見(jiàn)肘,氣候政策的發(fā)布與制定部門(mén)較為單一。為了更好地增添氣候治理的政策視角、增加處理氣候問(wèn)題的主動(dòng)性與效率,應(yīng)建設(shè)并完善多部門(mén)協(xié)同作用的應(yīng)對(duì)氣候變化制度體系,變各部門(mén)的“協(xié)助”為“自理”。

3適度強(qiáng)化市場(chǎng)力量

美國(guó)是氣候政策市場(chǎng)導(dǎo)向較為明顯的國(guó)家,其氣候問(wèn)題的國(guó)際立場(chǎng)一直是在不損害經(jīng)濟(jì)的前提下,以市場(chǎng)為基礎(chǔ)進(jìn)行調(diào)節(jié)。我國(guó)不應(yīng)照搬美國(guó)的政策模式,但可以借鑒其市場(chǎng)工具。在國(guó)家宏觀調(diào)控的前提下輔以市場(chǎng)手段,可以在一定程度上保證氣候治理的健康穩(wěn)固的發(fā)展。因此,我國(guó)應(yīng)盡早建成碳交易體系,并嘗試探索其他以市場(chǎng)為依托的新方面、新路子。

4增進(jìn)與發(fā)達(dá)國(guó)家的技術(shù)、科研等領(lǐng)域的雙邊或多邊合作目前,節(jié)能減排、低碳發(fā)展是我國(guó)氣候治理的主要手段,我國(guó)正以“綠色能源”為目標(biāo),向“去碳化”發(fā)展邁進(jìn)。作為清潔能源技術(shù)的三大超級(jí)投資方,歐盟、美國(guó)、中國(guó)擁有各自的能源投資計(jì)劃,之間面臨著一些競(jìng)爭(zhēng)以及合作機(jī)會(huì)。為了可持續(xù)發(fā)展,我國(guó)應(yīng)當(dāng)增進(jìn)與發(fā)達(dá)國(guó)際的技術(shù)和科研合作,增加三方專(zhuān)利技術(shù)的利用率并分享經(jīng)驗(yàn)教訓(xùn),在技術(shù)出口上進(jìn)行協(xié)調(diào)與配置,以此推動(dòng)全球的能源機(jī)制轉(zhuǎn)型。

5構(gòu)建新型國(guó)際氣候法規(guī)智能信息庫(kù)等決策支持系統(tǒng)氣候問(wèn)題是國(guó)際重點(diǎn)問(wèn)題,每個(gè)國(guó)家均會(huì)施行基于本國(guó)國(guó)情的以及不同視角的政策法規(guī)。隨著政府官方門(mén)戶、自媒體以及各種商業(yè)數(shù)據(jù)庫(kù)的完善與進(jìn)步,國(guó)際政策法規(guī)、決策者言論、決策影響力、受眾接受力等政治相關(guān)要素均可以通過(guò)互聯(lián)網(wǎng)平臺(tái)進(jìn)行獲取與挖掘。因此,構(gòu)建氣候政策法規(guī)智能信息庫(kù)將是一項(xiàng)重要的任務(wù),其可以將國(guó)際氣候方面的政策法規(guī)以及相關(guān)政治要素進(jìn)行自動(dòng)采集并施以分類(lèi)、聚類(lèi)、主題分析等數(shù)據(jù)挖掘方法,以便決策者更好的洞悉國(guó)際政策發(fā)展以及執(zhí)行成果,從科學(xué)性和可行性等角度支撐我國(guó)決策制定。同時(shí),建設(shè)高水平、功能豐富的新型氣候法規(guī)智能信息庫(kù)將有利于提升我國(guó)的軟實(shí)力與國(guó)際競(jìng)爭(zhēng)力。

參考文獻(xiàn)

[1]盛亞,陳劍平.區(qū)域創(chuàng)新政策中利益相關(guān)者的量化分析[J].科研管理,2013,34(6):25-33.

[2]李江,劉源浩,黃萃,等.用文獻(xiàn)計(jì)量研究重塑政策文本數(shù)據(jù)分析——政策文獻(xiàn)計(jì)量的起源、遷移與方法創(chuàng)新[J].公共管理學(xué)報(bào),2015,12(2):138-144.

[3]張永安,鄔龍.基于政策計(jì)量分析的我國(guó)大氣污染治理現(xiàn)狀研究[J].生產(chǎn)力研究,2015,27(1):122-126.

[4]Prior L,Hughes D,Peckham S.The Discursive Turn in Policy Analysis and the Validation of Policy Stories[J].Journal of Social Policy,2012,41:271-289.

[5]Talamini E,Dewes H.The macro-environment for liquid Biofuels in Brazilian science and public policies[J].Science and Public Policy,2012,39(1):13-29.

[6]Li J X,Wang H J,Zhang Z,et al.A policy-based process mining framework:mining business policy texts for discovering process models[J].Information Systems And E-Business Management,2010,8(2):169-188.

[7]劉興.貝葉斯分類(lèi)算法在稅收政策公文識(shí)別的研究和應(yīng)用[D].長(zhǎng)沙:湖南大學(xué),2011.

[8]蘇變萍,侯筱婷.面向政策法規(guī)數(shù)據(jù)的分類(lèi)方法[J].微電子學(xué)與計(jì)算機(jī),2008,37(7):166-168.

[9]熊小梅,劉永浪.基于LSA的二次降維法在中文法律案情文本分類(lèi)中的應(yīng)用[J].電子測(cè)量技術(shù),2007,(10):111-114.

猜你喜歡
政策文本R語(yǔ)言量化分析
中國(guó)男女平等政策演變特征研究
我國(guó)住房保障政策演進(jìn)分析
我國(guó)來(lái)華留學(xué)生教育政策變遷的路徑與特點(diǎn)
中國(guó)節(jié)能減排政策的演進(jìn)
基于GPS軌跡數(shù)據(jù)進(jìn)行分析改善城市交通擁擠
基于R語(yǔ)言的Moodle平臺(tái)數(shù)據(jù)挖掘技術(shù)的研究
2005—2015年中國(guó)遠(yuǎn)程教育機(jī)構(gòu)及其學(xué)習(xí)者成本效益研究的量化分析
亞太教育(2016年31期)2016-12-12 08:53:44
國(guó)家社科基金視角下我國(guó)馬列·科社學(xué)科研究狀況分析
營(yíng)改增對(duì)企業(yè)稅負(fù)影響的量化分析
網(wǎng)絡(luò)新聞標(biāo)題修改的量化分析
今傳媒(2016年8期)2016-10-17 00:05:51
东乡族自治县| 晋州市| 仙游县| 天门市| 丹阳市| 林甸县| 岐山县| 清新县| 饶河县| 靖边县| 大余县| 左权县| 同心县| 盖州市| 亚东县| 夏津县| 曲水县| 阿合奇县| 兰溪市| 渑池县| 平昌县| 托克逊县| 延寿县| 徐水县| 昔阳县| 岗巴县| 湖南省| 乐安县| 建湖县| 呼玛县| 临漳县| 三穗县| 临清市| 巴林左旗| 开远市| 武城县| 赤峰市| 怀化市| 万宁市| 南郑县| 滦南县|