国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國(guó)內(nèi)外公共政策文本分析中主題模型應(yīng)用研究進(jìn)展

2020-02-04 07:18:36龍藝璇伊惠芳
知識(shí)管理論壇 2020年5期
關(guān)鍵詞:文本分析公共政策

龍藝璇 伊惠芳

摘要:[目的/意義]梳理主題模型在公共政策文本中的國(guó)內(nèi)外應(yīng)用現(xiàn)狀有助于學(xué)習(xí)已有研究成果,為未來(lái)發(fā)展提供理論與實(shí)踐支持。[方法/過(guò)程]采用文獻(xiàn)計(jì)量分析法從時(shí)間趨勢(shì)、機(jī)構(gòu)分布、期刊分布等角度進(jìn)行量化分析,詳細(xì)歸納闡述應(yīng)用現(xiàn)狀;其次,通過(guò)關(guān)鍵詞共現(xiàn)識(shí)別國(guó)內(nèi)外主要研究方向并展開(kāi)對(duì)比分析,總結(jié)主題模型應(yīng)用在公共政策文本中存在的問(wèn)題并提出未來(lái)展望。[結(jié)果/結(jié)論]公共政策文本分析中主題模型的應(yīng)用整體呈增長(zhǎng)態(tài)勢(shì),前景廣闊。國(guó)內(nèi)外研究起步時(shí)間相當(dāng),但國(guó)內(nèi)研究在研究范圍、研究深度、合作方式、研究方法等方面均需提升。此外,未來(lái)發(fā)展存在主題模型自身方法適用性問(wèn)題和研究?jī)?nèi)容粒度問(wèn)題,需進(jìn)一步結(jié)合公共政策文本特征改進(jìn)主題模型并細(xì)化研究力度。

關(guān)鍵詞:主題模型? ? 公共政策? ? 文本分析? ? LDA

分類(lèi)號(hào):G250

DOI:10.13266/j.issn.2095-5472.2020.029

引用格式:龍藝璇, 伊惠芳. 國(guó)內(nèi)外公共政策文本分析中主題模型應(yīng)用研究進(jìn)展[J/OL]. 知識(shí)管理論壇, 2020, 5(5): 305-316[引用日期]. http://www.kmf.ac.cn/p/225/.

1? 引言

公共政策是指國(guó)家機(jī)關(guān)及其他權(quán)威機(jī)構(gòu)在一定時(shí)期為實(shí)現(xiàn)特定目標(biāo)所采取的政治行為或規(guī)定的行為準(zhǔn)則,它包括法律、規(guī)劃、措施、方法、辦法、條例、通知、意見(jiàn)等[1],具有價(jià)值取向特定、主客體明確、權(quán)威性、強(qiáng)制性等基本特征[2]。政策文本的內(nèi)容解讀可以在一定程度上幫助了解一個(gè)國(guó)家的執(zhí)政理念和戰(zhàn)略規(guī)劃,如今科學(xué)技術(shù)日新月異、國(guó)際環(huán)境復(fù)雜多變,各國(guó)政策頒布層出不窮,政策文本量與日俱增,數(shù)據(jù)密集型科學(xué)的到來(lái)給公共政策內(nèi)容分析帶來(lái)了新的挑戰(zhàn)。高效解讀大量公共政策文本內(nèi)容,可以為公共政策領(lǐng)域眾多研究提供有力的基礎(chǔ)支持。

誕生于20世紀(jì)90年代的文本挖掘技術(shù)提供了大規(guī)模文本內(nèi)容分析的新契機(jī),如J. Li等采用多種文本挖掘算法設(shè)計(jì)商業(yè)政策文檔流程分析框架[3];L. Prior等將文本挖掘與語(yǔ)義網(wǎng)分析相結(jié)合,揭示英國(guó)衛(wèi)生政策構(gòu)成基本要素 [4];J. Y. Lee等運(yùn)用文本挖掘方法分析研究中美在雙邊貿(mào)易和“一帶一路”等重大外交政策上的差距 [5];K. Misook等采用大數(shù)據(jù)分析軟件Textom對(duì)韓國(guó)體育政策進(jìn)行文本分析并可視化[6]。隨著研究不斷深入,有學(xué)者意識(shí)到用傳統(tǒng)的文本挖掘方法開(kāi)展公共政策文本分析得到的結(jié)果可解釋性較差,無(wú)法滿足細(xì)粒度的信息需求[7],因此亟需適應(yīng)大數(shù)據(jù)文本且深入語(yǔ)義層面的文本挖掘技術(shù)改善這一現(xiàn)狀。

1999年,T. Hofmann首次提出主題模型PLSA(Probabilistic Latent Semantic Analysis),實(shí)現(xiàn)了對(duì)文本中深層潛在語(yǔ)義進(jìn)行挖掘[8]。主題模型的誕生為主題挖掘提供了更多的可能性,改善了基于傳統(tǒng)文獻(xiàn)計(jì)量方法(如詞頻分析、共詞分析[9]、引文分析[10-11])開(kāi)展主題挖掘時(shí)存在的引文時(shí)滯、共詞高低詞頻等不足,眾多研究人員根據(jù)特定任務(wù)目的和情境對(duì)主題模型進(jìn)行改進(jìn)。如目前適用性較廣的隱含狄利克雷分布模型(Latent Dirichlet Allocation,LDA)[12],能夠捕獲文檔庫(kù)中主題動(dòng)態(tài)變化的動(dòng)態(tài)主題模型(Dynamic Topic Models, DTM)[13]、將作者信息融入主題模型從而建立“作者-主題”關(guān)聯(lián)的作者主題模型(Author-Topic Model,ATM)[14-15]等。目前,主題模型已經(jīng)廣泛應(yīng)用到文本聚類(lèi)[16]、主題演化[17]等眾多研究中。有學(xué)者開(kāi)始嘗試使用主題模型挖掘公共政策文本內(nèi)容,這主要取決于主題模型的特點(diǎn)能夠與公共政策文本的特性相吻合,適用性主要表現(xiàn)在以下3個(gè)方面:①主題模型適用于大數(shù)據(jù)非結(jié)構(gòu)化文本,與公共政策大規(guī)模文本量和非結(jié)構(gòu)化特性相吻合;②主題模型可以實(shí)現(xiàn)文本語(yǔ)義降維,挖掘潛在語(yǔ)義關(guān)系,因此適用于公共政策文本的高維特性;? ③主題模型可以較為準(zhǔn)確高效地識(shí)別大規(guī)模文檔中的多主題,這與公共政策文本的多主題特性相契合??梢灶A(yù)料,主題模型實(shí)現(xiàn)公共政策文本內(nèi)容的梳理與解讀是可行的,并在未來(lái)會(huì)有更長(zhǎng)足的發(fā)展。

主題模型在公共政策文本分析中的應(yīng)用仍處于起步階段,目前尚未有學(xué)者系統(tǒng)梳理相關(guān)研究方法與研究?jī)?nèi)容,學(xué)界對(duì)主題模型在公共政策文本應(yīng)用研究缺乏系統(tǒng)全面的認(rèn)知,不利于學(xué)習(xí)和借鑒已有的研究成果和研究方法,也限制了主題模型在公共政策文本分析中的優(yōu)化與擴(kuò)展應(yīng)用?;诖耍P者將研究視角定位于主題模型應(yīng)用在公共政策文本分析中的相關(guān)研究,采用文獻(xiàn)計(jì)量方法,借助統(tǒng)計(jì)分析和關(guān)鍵詞共現(xiàn),重點(diǎn)關(guān)注主題模型是如何應(yīng)用在公共政策領(lǐng)域以及利用主題模型解讀公共政策文本后可以解決公共政策領(lǐng)域的哪些問(wèn)題,總結(jié)歸納出國(guó)內(nèi)外目前發(fā)展存在的局限性,并指出未來(lái)可能的發(fā)展方向。

2? 主題模型在公共政策文本中應(yīng)用量化分析

2.1? 數(shù)據(jù)來(lái)源

筆者選擇Web of Science核心合集和CNKI學(xué)術(shù)期刊全文數(shù)據(jù)庫(kù)作為數(shù)據(jù)來(lái)源數(shù)據(jù)庫(kù)??紤]到主題模型目前有很多改進(jìn)和衍生算法,如PLSA [8]、LDA[12]等,為保證檢索結(jié)果盡可能檢全,筆者依據(jù)算法名稱(chēng)充分?jǐn)U充檢索詞。同時(shí),因部分縮寫(xiě)存在一定歧義,人工對(duì)全部檢索結(jié)果依據(jù)題目和摘要進(jìn)行篩選。此外,筆者重點(diǎn)關(guān)注的是將主題模型應(yīng)用在公共政策文本中的研究,而不是應(yīng)用在公共政策領(lǐng)域中的研究,因此最終篩選結(jié)果中所有文獻(xiàn)的主題建模對(duì)象應(yīng)為各類(lèi)公共政策文本,而非論文、專(zhuān)利等科學(xué)文獻(xiàn)。通過(guò)人工篩選得知,檢索結(jié)果中大部分文獻(xiàn)主要內(nèi)容集中在使用主題模型分析某一研究領(lǐng)域研究進(jìn)展并附帶提出該領(lǐng)域相關(guān)政策建議,此類(lèi)研究雖在主題中也涉及公共政策,但均以期刊論文或?qū)@谋緸橹黝}建模對(duì)象,與本文關(guān)注的公共政策文本不符,因此也被剔除,這也是最終人工篩選結(jié)果與檢索結(jié)果數(shù)量差異較大的原因。具體檢索過(guò)程及檢索結(jié)果見(jiàn)表1。需說(shuō)明的是,本文的檢索式只能保證檢索到在主題中明確提出“policy”或“政策”的目標(biāo)文獻(xiàn),然而有些公共政策文本如通知、意見(jiàn)、措施等并不會(huì)帶有“policy”或“政策”字眼,本文的檢索過(guò)程在一定程度上有可能會(huì)忽略掉部分目標(biāo)文獻(xiàn)。筆者認(rèn)為,即使對(duì)公共政策文本進(jìn)行主題建模的目標(biāo)文獻(xiàn)研究對(duì)象為“通知”“意見(jiàn)”“措施”等,但絕大多數(shù)學(xué)者會(huì)在主題中提及“政策”或“policy”,因此還是采用了表1中的檢索式,并結(jié)合人工篩選保障檢索結(jié)果的準(zhǔn)確性。

2.2? 時(shí)間趨勢(shì)分析

科研文獻(xiàn)數(shù)量隨時(shí)間的變化可以在一定程度上反映相關(guān)研究發(fā)展?fàn)顩r[18]。由于2020年非完整自然年,因此不考慮在內(nèi),時(shí)間分布統(tǒng)計(jì)結(jié)果見(jiàn)圖1,雖然在1999年主題模型就已誕生,但直到2015年才有學(xué)者嘗試將主題模型應(yīng)用在公共政策文本中。整體來(lái)看目前研究數(shù)量不多,國(guó)際與國(guó)內(nèi)研究起步時(shí)間相當(dāng),近幾年均呈明顯上升趨勢(shì)。從增長(zhǎng)速度來(lái)看,國(guó)際數(shù)據(jù)增長(zhǎng)略快于國(guó)內(nèi)數(shù)據(jù)增長(zhǎng)。

2.3? 發(fā)文機(jī)構(gòu)分布

使用全計(jì)數(shù)法統(tǒng)計(jì)發(fā)文機(jī)構(gòu)結(jié)果見(jiàn)圖2和圖3,從中可以看出國(guó)內(nèi)外研究機(jī)構(gòu)均較為分散。此外,通過(guò)對(duì)作者合著現(xiàn)象統(tǒng)計(jì)分析發(fā)現(xiàn),國(guó)際上發(fā)表的23篇相關(guān)文獻(xiàn)中,有11篇為多機(jī)構(gòu)合作,而國(guó)內(nèi)發(fā)表的19篇相關(guān)文獻(xiàn)中,只有3篇為多機(jī)構(gòu)合作,因此可以得出國(guó)際研究更傾向于多個(gè)機(jī)構(gòu)之間共同合作,而國(guó)內(nèi)更傾向于單一機(jī)構(gòu)內(nèi)的學(xué)者展開(kāi)合作。從國(guó)際數(shù)據(jù)中的機(jī)構(gòu)國(guó)別來(lái)看,美國(guó)發(fā)表的文獻(xiàn)居多,占所有國(guó)際數(shù)據(jù)的1/3以上。從機(jī)構(gòu)形式來(lái)看,國(guó)際數(shù)據(jù)和國(guó)內(nèi)數(shù)據(jù)均是以高校發(fā)文為主,研究所發(fā)文為輔。

2.4? 期刊分布

發(fā)文期刊統(tǒng)計(jì)結(jié)果見(jiàn)表2。從發(fā)文期刊領(lǐng)域來(lái)看,發(fā)現(xiàn)國(guó)際數(shù)據(jù)中發(fā)文期刊主要集中在政策研究領(lǐng)域的期刊,而國(guó)內(nèi)數(shù)據(jù)主要集中在情報(bào)學(xué)領(lǐng)域的期刊。此外,筆者還發(fā)現(xiàn),國(guó)內(nèi)學(xué)者在國(guó)際上發(fā)表的相關(guān)論文更傾向于領(lǐng)域特色非常明顯的專(zhuān)業(yè)期刊。

3? 主題模型在公共政策文本中研究方法分析

眾多學(xué)者根據(jù)研究目標(biāo)和研究文本實(shí)際情況對(duì)主題模型PLSA進(jìn)行改進(jìn),逐漸誕生了LDA、DTM、ATM、TOT等一系列適應(yīng)不同研究需求的主題模型。鑒于公共政策文本存在非結(jié)構(gòu)化、高維、多主題等特性,為進(jìn)一步分析目前主題模型具體方法在公共政策這一特殊文本中的應(yīng)用,筆者根據(jù)檢索結(jié)果對(duì)國(guó)內(nèi)和國(guó)際數(shù)據(jù)中主題模型具體使用算法進(jìn)行統(tǒng)計(jì),結(jié)果見(jiàn)圖4和圖5。

通過(guò)對(duì)比兩圖可知,國(guó)內(nèi)在公共政策文本分析中主題模型使用較為單一,絕大部分學(xué)者采用目前最主流的LDA主題建模方法開(kāi)展相關(guān)研究,只有極少數(shù)學(xué)者根據(jù)實(shí)際研究情況采用考慮了時(shí)間因素的主題時(shí)間模型(TOT)[19]。

國(guó)際上公共政策文本分析中主題模型方法使用更加多樣化,雖然LDA依然占據(jù)絕對(duì)優(yōu)勢(shì),但有部分學(xué)者積極嘗試使用結(jié)構(gòu)主題模型(STM)、計(jì)算主題模型(CTM)、作者主題模型(ATM)以及基于非負(fù)矩陣因式分解的動(dòng)態(tài)主題模型,此外,還有學(xué)者使用了Leximancer(一種文本分析軟件)開(kāi)展政策文本主題建模,該分析軟件中內(nèi)嵌基于深度學(xué)習(xí)的深度語(yǔ)義主題模型[20]。

4? 主題模型在公共政策文本中研究?jī)?nèi)容分析

為更加直觀分析主題模型在公共政策文本中的應(yīng)用方向,筆者借助Vosviewer軟件采用關(guān)鍵詞構(gòu)建共現(xiàn)網(wǎng)絡(luò),并采用歸納研究法進(jìn)一步總結(jié)。

4.1? 國(guó)內(nèi)研究?jī)?nèi)容分析

首先將國(guó)內(nèi)數(shù)據(jù)導(dǎo)入Vosviewer分析軟件,對(duì)關(guān)鍵詞進(jìn)行手工篩選后,最小聚類(lèi)大小設(shè)為30,得到國(guó)內(nèi)主題模型在公共政策文本中應(yīng)用方向,見(jiàn)圖6。

紅色關(guān)鍵詞代表方向1,根據(jù)“專(zhuān)題數(shù)據(jù)庫(kù)”“政策分析系統(tǒng)”“政策文本管理”“LDA”“政策結(jié)構(gòu)”等關(guān)鍵詞,結(jié)合國(guó)內(nèi)相關(guān)文獻(xiàn)具體內(nèi)容,將該主題研究方向總結(jié)為公共政策文本組織與管理研究。李少博[21]采用LDA主題模型對(duì)科技政策文本進(jìn)行建模,構(gòu)建基于主題的科技政策分析系統(tǒng);王倩倩[22]采用LDA模型對(duì)科技政策檢索用戶的信息與檢索記錄進(jìn)行主題建模,開(kāi)發(fā)科技政策領(lǐng)域個(gè)性化語(yǔ)義檢索系統(tǒng);張濤等[23]通過(guò)引入政策詞表和對(duì)LDA模型進(jìn)行加權(quán)的方式,提出一種新型政策文本聚類(lèi)方法;劉雨農(nóng)等[24]采用LDA主題模型對(duì)政策文本開(kāi)展主題分類(lèi),并結(jié)合詞頻統(tǒng)計(jì)歸類(lèi),提出人文社科專(zhuān)題數(shù)據(jù)庫(kù)主題選擇框架,為人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)提供支持。

綠色關(guān)鍵詞代表方向2,“政策文本”“主題時(shí)間模型”“主題變遷”“l(fā)da”“量化分析”等關(guān)鍵詞均表達(dá)出內(nèi)容隨時(shí)間變化的含義,結(jié)合文獻(xiàn)內(nèi)容,歸納該方向下的主要研究?jī)?nèi)容為公共政策主題演化研究。余傳明等[19]運(yùn)用融入抽取詞時(shí)間戳的TOT主題時(shí)間模型,得出農(nóng)村電商扶貧政策的時(shí)間-主題概率分布以及主題-詞匯概率分布,分析農(nóng)村電商扶貧政策內(nèi)容演化情況;楊慧等[7]以氣候相關(guān)政策文本為研究對(duì)象,基于R語(yǔ)言改進(jìn)LDA主題模型,開(kāi)展政策文本主題內(nèi)容及主題強(qiáng)度演化趨勢(shì)分析;張永安等[25]收集國(guó)家、北京、中關(guān)村三級(jí)技術(shù)創(chuàng)新政策,運(yùn)用LDA主題模型識(shí)別主題,為技術(shù)創(chuàng)新政策的完善提出相關(guān)建議;郎玫等[26]開(kāi)展不同地區(qū)政策主題并與中央政府職能匹配研究,得出地方政府存在行政職能弱化和職能供給結(jié)構(gòu)性不足等問(wèn)題。

4.2? 國(guó)際研究?jī)?nèi)容分析

將國(guó)際數(shù)據(jù)導(dǎo)入Vosviewer分析軟件,對(duì)關(guān)鍵詞進(jìn)行手工篩選后,最小聚類(lèi)大小設(shè)為30,得到國(guó)際主題模型在公共政策文本中應(yīng)用方向,如圖7所示:

藍(lán)色關(guān)鍵詞代表方向1,根據(jù)“l(fā)atent dirichlet allocation”“policy”“trend”“foresight”等主題詞,結(jié)合文獻(xiàn)內(nèi)容將該方向歸納為公共政策主題演化研究。該研究方向與國(guó)內(nèi)研究方向2類(lèi)似,均是利用主題模型分析公共政策內(nèi)容隨時(shí)間的變化。如2019年A. Mark等[27]以生態(tài)領(lǐng)域?yàn)槔?,采用LDA模型、HDP(Hierarchical Dirichlet Process)和TF-IDF分析,對(duì)美國(guó)政府文件進(jìn)行主題分析。Q. Wen 等[28]收集橋梁管理(BM)相關(guān)的政策法規(guī)作為數(shù)據(jù)集,采用作者-主題模型(ATM)文本挖掘的方法識(shí)別政策中的關(guān)鍵主題。

綠色關(guān)鍵詞代表方向2,根據(jù)“topic modeling”“management”“performance”“need”等關(guān)鍵詞,結(jié)合文獻(xiàn)具體內(nèi)容歸納該方向?yàn)楣舱呶谋窘M織與管理研究。該方向主要研究?jī)?nèi)容與國(guó)內(nèi)研究方向1相似,均是利用主題模型分析實(shí)現(xiàn)大規(guī)模公共政策內(nèi)容高效的組織管理,以期實(shí)現(xiàn)公共政策內(nèi)容的妥善保存和便捷利用。如C. Lucas等[29]采用結(jié)構(gòu)化主題模型實(shí)現(xiàn)政策文本的自動(dòng)化分析,便于隨時(shí)把握政策最新進(jìn)展;J. B. Ruhl等[30]將研究對(duì)象集中在法律文件,利用LDA主題模型實(shí)現(xiàn)法律文件實(shí)質(zhì)性的主題分類(lèi),并且比較了傳統(tǒng)方法與主題建模方法的優(yōu)缺點(diǎn)。

紅色關(guān)鍵詞代表方向3,根據(jù)“text”“impact”“policy”“topic model”等關(guān)鍵詞,結(jié)合文獻(xiàn)具體內(nèi)容將該方向內(nèi)容歸納為利用主題模型開(kāi)展政策影響研究。該研究方向目前國(guó)內(nèi)鮮有學(xué)者涉及。該主題既包括政策實(shí)施帶來(lái)的影響,也包括其他因素對(duì)政策產(chǎn)生影響。如H. S. Du等[31]采用LDA模型對(duì)中國(guó)各省環(huán)保部門(mén)官網(wǎng)的環(huán)境政策數(shù)據(jù)開(kāi)展文本挖掘,檢驗(yàn)綠色投資的空間特征以及政治、經(jīng)濟(jì)和環(huán)境因素的溢出效應(yīng);A. Ceron等[32]采用結(jié)構(gòu)主題模型來(lái)分析74份議案、1 439份演講和9份大會(huì)宣言中包含的內(nèi)容,以評(píng)估派系動(dòng)議或個(gè)別演講是否對(duì)政黨宣言中的內(nèi)容產(chǎn)生了影響。

此外,通過(guò)逐篇回顧國(guó)際文獻(xiàn)內(nèi)容,發(fā)現(xiàn)個(gè)別英文文獻(xiàn)難以劃分到具體的研究方向中,通過(guò)閱讀文獻(xiàn)歸納其主要內(nèi)容涉及不同區(qū)域政策內(nèi)容比較、項(xiàng)目評(píng)價(jià)等。H. Ale等[33]應(yīng)用結(jié)構(gòu)主題模型(Structural Topic Modelling,STM)分析147個(gè)國(guó)家有關(guān)全球氣候治理研究的政策,比較發(fā)展中國(guó)家和發(fā)達(dá)國(guó)家關(guān)于全球氣候治理關(guān)注的關(guān)鍵主題;K. Isoaho等[34]對(duì)歐盟5 000多個(gè)政策文件進(jìn)行主題建模分析,來(lái)證實(shí)能源聯(lián)盟(Energy Union)項(xiàng)目的政策優(yōu)先級(jí)。

4.3? 國(guó)際與國(guó)內(nèi)研究?jī)?nèi)容對(duì)比分析

筆者總結(jié)國(guó)際與國(guó)內(nèi)主題模型在公共政策文本中應(yīng)用主要存在以下幾點(diǎn)不同:

首先,從研究?jī)?nèi)容范圍來(lái)看,國(guó)際學(xué)者將主題模型應(yīng)用在公共政策文本中的范圍更廣,嘗試?yán)眯路椒ń鉀Q更多的傳統(tǒng)問(wèn)題。國(guó)內(nèi)學(xué)者研究的主題主要集中在公共政策主題演化研究和公共政策文本組織與管理研究,而國(guó)外研究除了以上兩個(gè)研究方向,還嘗試將主題模型應(yīng)用在公共政策影響、不同區(qū)域政策內(nèi)容比較、項(xiàng)目評(píng)價(jià)等相關(guān)研究。

其次,從研究?jī)?nèi)容時(shí)間來(lái)看,近兩年國(guó)際學(xué)者研究主要集中在利用主題模型解決公共政策影響評(píng)估和公共政策內(nèi)容演化問(wèn)題,較少關(guān)注到公共政策文本組織與管理研究,而國(guó)內(nèi)學(xué)者自開(kāi)始嘗試將主題模型應(yīng)用到政策文本中,應(yīng)用方向過(guò)多局限在解決公共政策文本組織與管理問(wèn)題以及政策內(nèi)容演化問(wèn)題,鮮有學(xué)者嘗試拓展。

最后,從研究?jī)?nèi)容重視度來(lái)看,國(guó)際學(xué)者最重視的是利用主題模型開(kāi)展公共政策影響相關(guān)研究,試圖利用大規(guī)模文本分析彌補(bǔ)以往政策影響難以定量化評(píng)估的缺陷。而國(guó)內(nèi)學(xué)者將主要科研精力放在了公共政策內(nèi)容演化與公共政策文本組織管理研究,傾向于使用自動(dòng)化的方法應(yīng)對(duì)公共政策文本量劇增帶來(lái)的公共政策內(nèi)容精煉與政策文本管理問(wèn)題,偏重于公共政策文本本身而忽略了與其他文本相結(jié)合。

筆者嘗試從更深層角度分析國(guó)際與國(guó)內(nèi)研究?jī)?nèi)容出現(xiàn)差異的原因,主要有以下3點(diǎn):

首先,國(guó)內(nèi)研究雖重視程度日益增加,但缺乏系統(tǒng)綜述。在本文之前,國(guó)內(nèi)尚未有綜述性文章總結(jié)國(guó)外目前主題模型在政策文本中的應(yīng)用現(xiàn)狀,這不利于國(guó)內(nèi)學(xué)者學(xué)習(xí)和借鑒國(guó)外相關(guān)研究方向和研究成果,因此才會(huì)造成國(guó)內(nèi)研究方向較為局限的現(xiàn)狀。

其次,國(guó)內(nèi)學(xué)者學(xué)科背景較為單一。國(guó)內(nèi)主要是圖書(shū)情報(bào)領(lǐng)域研究學(xué)者應(yīng)用主題模型分析政策文本,并發(fā)表在圖情領(lǐng)域期刊。而國(guó)際包含了政策領(lǐng)域、圖情領(lǐng)域、資源環(huán)境領(lǐng)域等多領(lǐng)域?qū)W者,多發(fā)表在政策研究期刊。學(xué)科的單一限制了思維的擴(kuò)展,國(guó)內(nèi)圖情領(lǐng)域的學(xué)者更希望主題模型在分析政策文本過(guò)程中可以解決圖情領(lǐng)域傳統(tǒng)問(wèn)題,而國(guó)際上不同領(lǐng)域的學(xué)者面臨的問(wèn)題不同,因此更愿意嘗試從不同的角度應(yīng)用主題模型,這也進(jìn)一步解釋了國(guó)內(nèi)研究?jī)?nèi)容近幾年一直沒(méi)有太多應(yīng)用方向上的創(chuàng)新而國(guó)際研究方向逐漸多樣。

最后,與國(guó)際相比國(guó)內(nèi)機(jī)構(gòu)間合作少。合作更容易碰撞出思想的火花。與國(guó)內(nèi)研究相比,國(guó)際研究機(jī)構(gòu)間合作更加緊密,更容易產(chǎn)生新思路與新方法,產(chǎn)生更多新思路與新方法。因此,在將主題模型應(yīng)用在政策文本分析時(shí),國(guó)際學(xué)者關(guān)注的不僅僅是政策文本自身,而是嘗試與其他文本相結(jié)合,探索政策文本與其他文本之間的關(guān)系。而目前國(guó)內(nèi)合作范圍較為狹窄,不利于國(guó)內(nèi)學(xué)者進(jìn)一步拓寬研究視野,這也在一定程度上解釋了國(guó)內(nèi)學(xué)者始終將研究定位于政策文本本身而國(guó)際學(xué)者在多源文本對(duì)比中開(kāi)拓了新研究方向。

5? 問(wèn)題與展望

5.1? 現(xiàn)有研究存在的問(wèn)題

筆者認(rèn)為國(guó)內(nèi)外公共政策文本分析中主題模型應(yīng)用局限性主要表現(xiàn)研究方法和研究?jī)?nèi)容兩個(gè)層面。

首先,在研究方法上,目前應(yīng)用最廣泛的LDA主題模型本身就存在一定的缺陷,如最優(yōu)主題數(shù)量一般依據(jù)經(jīng)驗(yàn)設(shè)定[35]或者使用計(jì)算復(fù)雜度較高困惑度來(lái)確定[12],前者強(qiáng)烈依賴(lài)人工經(jīng)驗(yàn),后者則需要較高的計(jì)算時(shí)間成本;主題由主題詞表征,語(yǔ)義揭示性不強(qiáng),可解釋性不夠[36];只能表征文檔-主題、主題-主題詞縱向關(guān)系,無(wú)法利用主題模型揭示主題和主題之間的橫向關(guān)系等[37]。LDA雖然適用于大規(guī)模文本分析,但其自有的缺陷將嚴(yán)重阻礙在政策文本中的廣泛應(yīng)用。此外,目前已有學(xué)者已經(jīng)意識(shí)到LDA主題模型的缺陷,并嘗試使用改進(jìn)過(guò)的主題模型(如Time Dynamic Topic Models、ATM、TOT、STM)等分析政策文本,但目前使用的主題模型改進(jìn)多是基于論文或?qū)@谋?,鮮有學(xué)者根據(jù)公共政策文本的具體特征進(jìn)一步改進(jìn)主題模型,主題的可解釋性仍有很大提升空間。

此外,在研究?jī)?nèi)容上,相比于論文的摘要、關(guān)鍵詞等結(jié)構(gòu)化表示,政策文本結(jié)構(gòu)性較差,現(xiàn)有研究主要針對(duì)政策文本的全部?jī)?nèi)容,而公共政策包含政策目標(biāo)、政策工具、政策效果、政策主體、政策對(duì)象等諸多要素,使用主題模型識(shí)別出的政策主題只能在整體層面表示政策的主要內(nèi)容及變化,無(wú)法深入細(xì)致到某一類(lèi)政策要素,研究缺乏針對(duì)性。

除了以上兩點(diǎn)共性問(wèn)題,國(guó)內(nèi)研究還存在研究思維固化、合作缺乏、領(lǐng)域單一等局限。首先,雖然國(guó)內(nèi)學(xué)者緊跟國(guó)際步伐將主題模型應(yīng)用在政策文本分析中,但研究中心始終定位于公共政策文本自身,忽略了與其他文本相結(jié)合的新思路;其次,機(jī)構(gòu)間合作較少,不利于碰撞出新的思維火花;最后,參與研究人員學(xué)科背景較為單一,限制了思維的擴(kuò)展。

5.2? 未來(lái)展望

主題模型在政策文本中的應(yīng)用僅僅是一個(gè)嘗試性的開(kāi)始,具有廣闊的發(fā)展空間。針對(duì)上述目前研究存在的共性問(wèn)題,筆者認(rèn)為可以從以下兩點(diǎn)進(jìn)行改進(jìn):

首先,針對(duì)研究方法上的局限性,需要研究人員從公共政策文本特性出發(fā),在借鑒以往對(duì)主題模型改進(jìn)思路與方法基礎(chǔ)上,嘗試對(duì)主題模型進(jìn)行改進(jìn)。政策文本除了具備文本詞項(xiàng)高維性、主題復(fù)雜性和長(zhǎng)文本特征之外,結(jié)構(gòu)性相比于傳統(tǒng)分析文本更差,同時(shí)也不具備技術(shù)詞、專(zhuān)業(yè)術(shù)語(yǔ)等代表性詞語(yǔ),不同種類(lèi)的政策文本表達(dá)方式也相對(duì)多樣化,以上特點(diǎn)均要求應(yīng)用在政策文本中的主題模型應(yīng)具備更高的可解釋性和可理解性。

針對(duì)研究?jī)?nèi)容上的局限性,為進(jìn)一步滿足科研人員和決策者對(duì)政策內(nèi)容的分析需求,未來(lái)主題模型在公共政策文本中的應(yīng)用應(yīng)更加精細(xì)化,考慮聚焦于政策文本中的單一要素,實(shí)現(xiàn)細(xì)粒度信息需求的滿足,如政策工具作為保障政策目標(biāo)順利實(shí)現(xiàn)的重要手段,政策工具的演化分析對(duì)于政策制定者和科學(xué)研究者來(lái)說(shuō)意義重大,目前絕大多數(shù)研究均采用內(nèi)容分析法,需要依靠人工編碼,亟需實(shí)現(xiàn)政策工具要素的自動(dòng)抽取與內(nèi)容分析。此外,隨著文本挖掘技術(shù)的不斷改進(jìn)和主題模型可解釋性的不斷提升,可考慮進(jìn)一步擴(kuò)展研究范圍,嘗試應(yīng)用主題模型解決更多政策領(lǐng)域存在的研究問(wèn)題。

此外,針對(duì)國(guó)內(nèi)研究存在的問(wèn)題,除了需要改進(jìn)以上兩點(diǎn),還需在重視程度、研究范圍、研究深度、合作方式等方面做出努力。首先,增加主題模型在文本分析領(lǐng)域的重視程度,密切跟蹤國(guó)際最新應(yīng)用動(dòng)態(tài),總結(jié)國(guó)際經(jīng)驗(yàn),爭(zhēng)取密切跟進(jìn)國(guó)際研究步伐;其次,積極擴(kuò)展研究思路,考慮政策文本與其他文本相結(jié)合,在解決傳統(tǒng)問(wèn)題的基礎(chǔ)上,爭(zhēng)取有新發(fā)現(xiàn);最后,加強(qiáng)機(jī)構(gòu)間和國(guó)際間合作,除了加強(qiáng)同領(lǐng)域機(jī)構(gòu)間的合作,還需要加強(qiáng)跨領(lǐng)域合作,融合不同學(xué)科的思路,嘗試解決不同學(xué)科的問(wèn)題,還可以積極與國(guó)際其他研究機(jī)構(gòu)合作,進(jìn)一步融入國(guó)際科研圈,共同探索主題模型在公共政策文本分析中的更多可能性。

6? 結(jié)語(yǔ)

本研究通過(guò)梳理國(guó)內(nèi)外公共政策文本分析中主題模型的應(yīng)用研究現(xiàn)狀,得出目前國(guó)內(nèi)和國(guó)際研究者都在積極嘗試在公共政策文本分析中使用主題模型,但在合作方式、期刊分布領(lǐng)域、研究方向等方面仍存在較大差異。首先,在合作方式方面,國(guó)際上發(fā)表的相關(guān)文獻(xiàn)更傾向于多個(gè)機(jī)構(gòu)共同合作,而國(guó)內(nèi)更傾向于單一機(jī)構(gòu)內(nèi)的學(xué)者展開(kāi)合作;其次,在發(fā)表期刊分布領(lǐng)域方面,國(guó)際研究發(fā)文期刊主要集中在政策研究領(lǐng)域的期刊,而國(guó)內(nèi)研究主要集中發(fā)表在情報(bào)學(xué)領(lǐng)域的期刊;最后,在研究方向方面,國(guó)際學(xué)者關(guān)注研究方向更加廣泛,積極嘗試使用新方法解決多種研究問(wèn)題,且隨時(shí)間推移,近幾年國(guó)外應(yīng)用方向更加分散,而國(guó)內(nèi)學(xué)者研究方向相對(duì)固化,研究思維不夠發(fā)散,忽略了政策文本與其他文本的結(jié)合。目前,國(guó)內(nèi)外公共政策文本分析中主題模型應(yīng)用在研究方法和研究?jī)?nèi)容上均存在一定局限性,但毫無(wú)疑問(wèn)未來(lái)大規(guī)模公共政策文本的分析將更加依賴(lài)于主題模型等深入語(yǔ)義的文本挖掘算法,具有廣闊的發(fā)展空間。未來(lái)需要有針對(duì)性地提升主題模型對(duì)公共政策文本的適用性,拓展研究深度與廣度,提高分析效率和分析結(jié)果的可解釋性,為政策研究提供有力支撐。

參考文獻(xiàn):

[1] 陳振明. 政策科學(xué)——公共政策分析導(dǎo)論[M]. 北京: 中國(guó)人民大學(xué)出版社, 2003: 19.

[2] 蘇竣. 公共科技政策導(dǎo)論[M]. 北京: 科學(xué)出版社, 2014: 8-9.

[3] LI J, WANG H J, ZHANG Z, et al. A policy-based process mining framework: mining business policy texts for discovering process models[J]. Information systems and e-business management, 2010, 8(2): 169-188.

[4] PRIOR L, HUGHES D, PECKHAM S. The discursive turn in policy analysis and the validation of policy stories[J]. Journal of social policy, 2012, 41(2): 271-289.

[5] LEE J Y, LEE J. A text mining analysis of US-Chinese leaders on trade policy[J]. Journal of international logistics and trade, 2019, 17(3): 67-76.

[6] MISOOK K. Trends of sports policy through the analysis of big data text-mining: with a focus on the inauguration of the MCST minister[J]. The Korean journal of sport, 2019, 17(2): 519-529.

[7] 楊慧, 楊建林. 融合LDA模型的政策文本量化分析——基于國(guó)際氣候領(lǐng)域的實(shí)證[J]. 現(xiàn)代情報(bào), 2016, 36(5): 71-81.

[8] HOFMANN T. Probabilistic latent semantic analysis[C]// Fifteenth conference on uncertainty in artificial intelligence. San Francisco: Morgan Kaufmann Publishers Inc, 1999: 289-296.

[9] LIU L Q, MEI S Y. Visualizing the GVC research: a co-occurrence network based bibliometric analysis[J]. Scientometrics, 2016, 109(2): 1-25.

[10] DEREK J S P. Networks of scientific papers[J]. Science, 1965, 149(3683): 510-515.

[11] GARFIELD E. Citation indexes for science: a new dimension in documentation through association of ideas[J]. Science, 1964, 144(3619): 649.

[12] BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. The journal of machine learning research, 2003, 3(3): 993-1022.

[13] BLEI D M, LAFFERTY J D. Dynamic topic models [C]// Proceedings of the 23rd international conference on machine learning. New York: ACM Press, 2006: 113-120.

[14] ROSEN-ZVI M, GRIFFITHS T, STEYVERS M, et al. The author-topic model for authors and documents[C]// Proceedings of the 20th conference on uncertainty in artificial intelligence. Arlington: AUAI Press, 2004: 487-494.

[15] ROSEN-ZVI M, CHEMUDUGUNTA C, GRIFITHS T, et al. Learning author-topic models from text corpora[J]. ACM transactions on information systems (TOIS), 2010, 28(1): 4-42.

[16] 曲靖野, 陳震, 鄭彥寧. 基于主題模型的科技報(bào)告文檔聚類(lèi)方法研究[J]. 圖書(shū)情報(bào)工作, 2008, 62(4): 113-120.

[17] 王麗, 沈湘. 文本預(yù)處理后的LDA模型主題發(fā)現(xiàn)與技術(shù)演進(jìn)研究[J]. 農(nóng)業(yè)圖書(shū)情報(bào), 2019, 31(4): 19-28.

[18] 曹樹(shù)金, 吳育冰, 韋景竹, 等. 知識(shí)圖譜研究的脈絡(luò), 流派與趨勢(shì)——基于 SSCI與CSSCI期刊論文的計(jì)量與可視化[J]. 中國(guó)圖書(shū)館學(xué)報(bào), 2015, 41(5): 16-34.

[19] 余傳明, 郭亞靜, 龔雨田,等. 基于主題時(shí)間模型的農(nóng)村電商扶貧政策演化及地區(qū)差異分析[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2018, 19(7): 34-45.

[20] HAYNES E, GREEN J, GARSIDE R, et al. Gender and active travel: a qualitative data synthesis informed by machine learning[J]. International journal of behavioral nutrition and physical activity, 2019, 16(1): 135-146.

[21] 李少博. 基于主題的科技政策分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 石家莊: 石家莊鐵道大學(xué), 2016.

[22] 王倩倩. 科技政策領(lǐng)域的個(gè)性化語(yǔ)義檢索系統(tǒng)研究[D]. 石家莊: 石家莊鐵道大學(xué), 2016.

[23] 張濤, 馬海群. 一種基于LDA主題模型的政策文本聚類(lèi)方法研究[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2018, 21(9): 59-64.

[24] 劉雨農(nóng), 吳柯燁, 權(quán)昭瑄. 人文社科專(zhuān)題數(shù)據(jù)庫(kù)建設(shè)的主題選擇研究[J]. 現(xiàn)代情報(bào), 2019, 39(12): 11-18.

[25] 張永安, 馬昱. 基于R語(yǔ)言的區(qū)域技術(shù)創(chuàng)新政策量化分析[J]. 情報(bào)雜志, 2017, 36(3): 113-118.

[26] 郎玫. 大數(shù)據(jù)視野下中央與地方政府職能演變中的匹配度研究——基于甘肅省14市(州)政策文本主題模型(LDA)[J]. 情報(bào)雜志, 2018, 37(9): 78-85.

[27] MARK A, CHRISTOPHER B, JESSE A. Documents as data: a content analysis and topic modeling approach for analyzing responses to ecological disturbances[J]. Ecological informatics, 2019, 51: 82-95.

[28] WEN Q, QIANG M, XIA B Q, et al. Discovering regulatory concerns on bridge management: an author-topic model based approach[J]. Transport policy, 2019, 75: 161-170.

[29] LUCAS C, NIELSEN R A, ROBERTS M E, et al. Computer-assisted text analysis for comparative politics[J]. Political analysis, 2015, 23(2): 254-277.

[30] RUHL J B, NAY J, GILLIGAN J M. Topic modeling the president: conventional and computational methods[J]. George Washington law review, 2018, 86(5): 1243-1315.

[31] DU H S, ZHAN B Q, XU J H, et al. The influencing mechanism of multi-factors on green investments: a hybrid analysis[J]. Journal of cleaner production, 2019, 239(1): 1-12.

[32] CERON A, GREENE Z. Verba volant, scripta manent? Intra-party politics, party conferences, and issue salience in France[J]. Party politics, 2019, 25(5): 701-711.

[33] HSU A, BRANDT J, WIDERBERG O, et al. Exploring links between national climate strategies and non-state and subnational climate action in nationally determined contributions (NDCs)[J]. Climate policy, 2019, 19(6): 443-457.

[34] ISOAHO K, MOILANEN F, TOIKKA A. A big data view of the European Energy Union: shifting from a floating signifier to an active driver of decarbonisation?[J]. Politics and governance, 2019, 7(1): 28-44.

[35] 伊惠芳, 吳紅, 馬永新, 等. 基于LDA和戰(zhàn)略坐標(biāo)的專(zhuān)機(jī)技術(shù)主題分析——以石墨烯領(lǐng)域?yàn)槔齕J]. 情報(bào)雜志, 2018, 37(5): 97-102.

[36] 王麗, 沈湘. 文本預(yù)處理后的LDA模型主題發(fā)現(xiàn)與技術(shù)演進(jìn)研究[J]. 農(nóng)業(yè)圖書(shū)情報(bào), 2019, 31(4):19-28.

[37] 劉自強(qiáng), 許海云, 岳麗欣, 等. 基于Chunk-LDAvis的核心技術(shù)主題識(shí)別方法研究[J]. 圖書(shū)情報(bào)工作, 2019, 63(9): 73-84.

作者貢獻(xiàn)說(shuō)明:

龍藝璇:提出研究命題,設(shè)計(jì)研究方案,進(jìn)行數(shù)據(jù)處理與分析,撰寫(xiě)論文內(nèi)容;

伊惠芳:收集與分析研究數(shù)據(jù),修訂論文內(nèi)容。

猜你喜歡
文本分析公共政策
社會(huì)轉(zhuǎn)型時(shí)期的大眾傳媒與公共政策
新聞傳播(2018年10期)2018-08-16 02:09:58
城市設(shè)計(jì)中的公共政策偏好理解行為選擇
江西建材(2018年2期)2018-04-14 08:00:20
公共政策不能如此勢(shì)利
投資者情緒短期對(duì)股票市場(chǎng)的影響研究
維護(hù)正統(tǒng)還是觀念復(fù)辟?
戲劇之家(2016年22期)2016-11-30 16:49:57
德語(yǔ)小說(shuō)《布登勃洛克一家》中的家文化與中國(guó)傳統(tǒng)家庭觀念比較
公共政策主導(dǎo) 攜手抗擊慢病
文本情感計(jì)算系統(tǒng)“小菲”的設(shè)計(jì)及其在教育領(lǐng)域文本分析中的應(yīng)用
我國(guó)地方紀(jì)錄片的出路研究
初中英語(yǔ)聽(tīng)說(shuō)課教學(xué)實(shí)踐探索
考試周刊(2016年45期)2016-06-24 13:48:11
长岛县| 拉萨市| 施甸县| 徐汇区| 白沙| 安多县| 富顺县| 南通市| 双流县| 静海县| 塔城市| 郸城县| 略阳县| 阿拉善右旗| 永德县| 鄂温| 邹平县| 丹棱县| 怀化市| 柳州市| 金川县| 区。| 楚雄市| 乃东县| 潞西市| 柳江县| 丰城市| 乌兰浩特市| 鄂伦春自治旗| 赤峰市| 龙州县| 昌乐县| 周至县| 重庆市| 宿州市| 五家渠市| 竹溪县| 宜川县| 延长县| 贵德县| 泾源县|