李永忠 馬 原
(福州大學(xué)經(jīng)濟(jì)與管理學(xué)院 福建 福州 350116)
“智慧政府”這一概念是對(duì)“智慧城市”的引申和發(fā)展,智慧城市的建設(shè)對(duì)未來智慧政府的發(fā)展形勢(shì)有著十分深遠(yuǎn)的影響。隨著傳統(tǒng)管理方式逐漸難以適應(yīng)政府日趨多樣化的公共事務(wù)管理職能需求,在現(xiàn)代化形勢(shì)下表現(xiàn)日漸乏力,智慧政府的構(gòu)建被各國政府提上日程,未來建設(shè)智慧政府將成為構(gòu)建服務(wù)型政府的重要舉措[1]。本文嘗試運(yùn)用LDA主題詞篩選結(jié)合共詞聚類方法為智慧政府未來的研究領(lǐng)域提供可參考的研究方向。
本文數(shù)據(jù)來源是本文根據(jù)中國知網(wǎng)2010-2019年以智慧政府為主題進(jìn)行精確檢索得到的國內(nèi)期刊、會(huì)議論文以及學(xué)術(shù)論文的共463篇文獻(xiàn)的摘要及關(guān)鍵詞,自2010年來,以智慧政府為主題的研究性學(xué)術(shù)論文發(fā)表量呈現(xiàn)明顯增長并于2017年到達(dá)峰值,近兩年呈現(xiàn)下降趨勢(shì)。
共詞分析法是研究學(xué)科熱點(diǎn)以及趨勢(shì)的一種常用方法,[2]它基于大量文本數(shù)據(jù)中某些詞匯共同出現(xiàn)的頻率來分析文章的研究主題與要點(diǎn),很多領(lǐng)域都利用該方法進(jìn)行研究熱點(diǎn)的分析。使用共詞分析方法一般采用以下幾個(gè)步驟:1.確定分析的問題,2.確定需要挖掘的文本,3.高頻詞匯的選定,4.構(gòu)建共詞矩陣,5.使用統(tǒng)計(jì)方法挖掘關(guān)聯(lián)性,6.得出結(jié)論。
LDA主題模型是一種利用極大后驗(yàn)概率擬合單詞跟主題以及文檔跟主題的概率分布情況的監(jiān)督學(xué)習(xí)的主題分類模型。[3]筆者利用該方法進(jìn)行主題詞選定主要由于使用LDA主題模型進(jìn)行篩選后,一些沒有實(shí)際意義的高頻詞匯能夠被排除,[4]提升了共詞分析結(jié)果的實(shí)用性,從而帶來更有價(jià)值的實(shí)驗(yàn)結(jié)果。
在Python結(jié)巴分詞結(jié)合LDA主題模型下能夠?qū)⒁恍?duì)研究沒有意義的高頻詞匯進(jìn)行停用選取?;静襟E如下:對(duì)文本進(jìn)行jieba分詞→選取高頻詞→確定停用詞→重新選取高頻詞→LDA模型打分→選取主題詞。
一般對(duì)主題詞的選取數(shù)量的確定要根據(jù)實(shí)驗(yàn)數(shù)據(jù)量的大小確定,筆者為了避免主題詞選擇近似或重復(fù),在進(jìn)行多次實(shí)驗(yàn)后確定了本次實(shí)驗(yàn)的主題選擇數(shù)量為10組,再從每組主題選取打分前10的詞匯作為主題詞,最終得能夠反應(yīng)國內(nèi)智慧政府建設(shè)研究特點(diǎn)的主題詞數(shù)量為61個(gè)。
經(jīng)過統(tǒng)計(jì)得出國內(nèi)智慧政府研究中所出現(xiàn)的頻次前20的主題詞中,“服務(wù)”、“技術(shù)”、“數(shù)據(jù)”詞頻分別達(dá)到258、211、199是除智慧政府建設(shè)以外詞頻數(shù)最高的,應(yīng)當(dāng)是當(dāng)下絕大部分研究文獻(xiàn)所涉及的領(lǐng)域。
主題詞提取完成后需要構(gòu)建詞共現(xiàn)頻次矩陣來反映各個(gè)主題詞間的關(guān)聯(lián)程度。然而此矩陣中的詞頻由于反映的是絕對(duì)數(shù)值且閾值范圍過大,從而難以真正的顯示出各個(gè)主題詞之間依賴關(guān)系及聯(lián)系程度的相對(duì)性,所以需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理用以反映詞對(duì)間的相互關(guān)聯(lián)強(qiáng)度。本文采用的數(shù)據(jù)歸一化處理方式是salton指數(shù)法來顯示詞語之間的相對(duì)聯(lián)系緊密程度,其公式為:[5]
公式中S(i,j)的值表示每一對(duì)詞之間的緊密程度,其值域分布于(0,1]區(qū)間內(nèi),S越大表示i與j的聯(lián)系強(qiáng)度越大。N表示的是主題詞i與j各自出現(xiàn)的頻次,分母表示的是兩個(gè)主題詞共現(xiàn)的頻次,經(jīng)過歸一化處理的矩陣如表1所示。
表1salton歸一化處理后的矩陣(部分)
由于詞共現(xiàn)統(tǒng)計(jì)僅僅是主題詞間兩兩聯(lián)系的緊密程度分析,可能不能完全反映研究文獻(xiàn)的研究關(guān)鍵點(diǎn),所以引入類團(tuán)分析來幫助將各個(gè)主題詞進(jìn)行大類的劃分,一般使用聚類分析法將相互之間聯(lián)系比較緊密的多個(gè)主題詞歸為一個(gè)類團(tuán)從而進(jìn)行熱點(diǎn)歸類。[6]本次實(shí)驗(yàn)使用了SPSS軟件對(duì)歸一化后的共詞矩陣進(jìn)行聚類分析處理,采用系統(tǒng)聚類方法得到了表2中的四個(gè)大類。
表2 主題詞聚類劃分
在上表中,中心詞的選取由各個(gè)主題詞與其他主題詞共現(xiàn)頻率的平均值來確定稱作粘合力,粘合力越大即表示該主題詞與其他主題的聯(lián)系越強(qiáng),即可確定為該類團(tuán)的中心詞,[7]通過中心的整理歸納能夠?qū)υ擃悎F(tuán)進(jìn)行命名。在選取中心詞時(shí)筆者并未簡單的挑選粘合度最大的三個(gè)詞匯,而是對(duì)籠統(tǒng)性的詞匯進(jìn)行篩除后在選取粘合力大的的主題詞作為中心詞。例如在類團(tuán)1中,信息化、智能化、現(xiàn)代化的粘合力系數(shù)分別是0.339,0.295,0.273,粘合度是除“電子政務(wù)”、“智慧”2個(gè)詞之外位于該類團(tuán)的前三的,采用其作為中心詞結(jié)合類團(tuán)其他主題詞,歸納后可將該類團(tuán)的名稱命名為“架構(gòu)搭建”,同理可以將其他三個(gè)類團(tuán)分別命名為“頂層設(shè)計(jì)”、“信息化實(shí)施”和“宏觀綜述”。
進(jìn)一步可以研究各類團(tuán)的影響力情況,分別計(jì)算每個(gè)類團(tuán)內(nèi)主題詞絕對(duì)點(diǎn)度中心度的平均值用來表示其影響力程度,最終可得到表3如下:
表3 類團(tuán)影響力表
從上表可知目前在智慧政府領(lǐng)域的研究中,頂層設(shè)計(jì)的研究擁有最大的影響力,架構(gòu)搭建次之,說明我國國內(nèi)電子政務(wù)在智慧政府研究領(lǐng)域的研究還未完全成形;宏觀綜述應(yīng)該在以往的研究中趨于成熟,故而影響力有所下降;而隨著頂層設(shè)計(jì)與架構(gòu)搭建的不斷研究發(fā)展,現(xiàn)代的信息化實(shí)施可能成為未來主要的研究方向和熱門話題。
本文采用了共詞聚類方法,結(jié)合LDA主題模型對(duì)“智慧政府”領(lǐng)域研究現(xiàn)狀進(jìn)行了分析。首先通過分詞工具將近年研究文獻(xiàn)進(jìn)行分詞處理,再使用LDA模型對(duì)數(shù)據(jù)進(jìn)行主題詞提取篩選出研究的對(duì)象構(gòu)成共詞矩陣,通過聚類方法將主題分為了4類,分別是:頂層設(shè)計(jì)、架構(gòu)搭建、宏觀綜述以及信息化實(shí)施。更進(jìn)一步對(duì)每個(gè)類團(tuán)進(jìn)行了中心度計(jì)算,反映了類團(tuán)影響力以及主題詞的重要程度。最后,提出了未來可能具有影響力的研究方向,為今后的智慧政府領(lǐng)域的研究提供一些思路。
本文將共詞聚類方法引入了“智慧政府”研究領(lǐng)域,為該領(lǐng)域的研究補(bǔ)充了更多的研究思路,用更為科學(xué)的方式對(duì)領(lǐng)域的熱點(diǎn)進(jìn)行了分析。本文仍存在的不足是尚未區(qū)分不同來源的研究文獻(xiàn)的主題詞權(quán)重,未來能夠引入權(quán)重概念則會(huì)更好地突出重點(diǎn)文獻(xiàn)的研究方向,對(duì)今后的發(fā)展趨勢(shì)能進(jìn)行更有效的分析預(yù)測(cè)。