高晨翔 黃新榮
收稿日期:2020-04-23
基金項(xiàng)目:國(guó)家社會(huì)科學(xué)基金項(xiàng)目“社交媒體文件的歸檔與管理標(biāo)準(zhǔn)體系研究”(項(xiàng)目編號(hào):16BTQ093)。
作者簡(jiǎn)介:高晨翔(1994-),男,博士研究生,研究方向:數(shù)字信息資源管理、數(shù)字記憶。黃新榮(1967-),男,教授,博士,碩士生導(dǎo)師,研究方向:信息資源管理、電子文件管理。
摘? 要:[目的/意義]借助知識(shí)圖譜對(duì)區(qū)域政務(wù)微博內(nèi)容進(jìn)行知識(shí)組織與可視化展示,能夠提升用戶的知識(shí)閱讀及獲取效率。[方法/過程]首先,基于LDA模型對(duì)區(qū)域政務(wù)微博進(jìn)行主題建模,通過依存句法分析對(duì)微博內(nèi)容進(jìn)行語義三元組抽取。其次,構(gòu)建了區(qū)域政務(wù)微博知識(shí)模型,形成了知識(shí)圖譜的語義架構(gòu)。最后,借助圖數(shù)據(jù)庫Neo4j及D3.js插件實(shí)現(xiàn)了區(qū)域政務(wù)微博的知識(shí)圖譜可視化及關(guān)聯(lián)化保存。[結(jié)果/結(jié)論]經(jīng)理論構(gòu)型與實(shí)際驗(yàn)證,本研究構(gòu)建了基于主題劃分的區(qū)域政務(wù)微博知識(shí)圖譜,為社交媒體內(nèi)容的知識(shí)圖譜構(gòu)建提供了一定的思路及方法。
關(guān)鍵詞:區(qū)域政務(wù)微博;知識(shí)圖譜;知識(shí)組織;知識(shí)可視化
DOI:10.3969/j.issn.1008-0821.2020.12.010
〔中圖分類號(hào)〕D035-39? 〔文獻(xiàn)標(biāo)識(shí)碼〕A? 〔文章編號(hào)〕1008-0821(2020)12-0090-10
Knowledge Graph Construction and Visualization of
Regional Government Microblog
Gao Chenxiang1? Huang Xinrong2
(1.School of Information Resource Management,Renmin University of China,Beijing 100872,China;
2.School of Public Management,Northwest University,Xian 710127,China)
Abstract:[Purpose/Significance]Regional government microblog can record and reveal some hot events closely related to the public.This paper builds the knowledge graph of regional government microblog to improve users knowledge acquisition efficiency.[Method/Process]First,this paper captured contents of government microblogs and built a topic modeling using LDA.At the same time,we extracted the semantic triples from aforementioned contents by LTP.Second,the applied ontology of regional government microblog wes built to form the semantic structure of knowledge graph.Ultimately,Neo4j and D3.js were used to constructing,preserving and visualizing the knowledge graph.[Result/Conclusion]Based on the theoretical and practical research,we built knowledge graphs of regional government microblog,combing the semantic relations between organizations,figures and terms in microblogs contents.This paper provides thoughts and methods for the construction of knowledge graph in social media field.
Key words:regional government microblog;knowledge graph;knowledge organization;knowledge visualization
社交媒體(Social Media)已成為新一代互聯(lián)網(wǎng)服務(wù)體系中最具發(fā)展?jié)摿驮鲩L(zhǎng)空間的服務(wù)模式之一[1]。利用社交媒體實(shí)現(xiàn)社會(huì)信息的發(fā)布、接收與傳播,已經(jīng)成為各類社會(huì)組織和個(gè)人在工作與生活中的常態(tài)行為。在我國(guó),政務(wù)微博是國(guó)家機(jī)關(guān)利用社交媒體創(chuàng)新政務(wù)信息服務(wù)的重要形式,是我國(guó)公民在線獲取政務(wù)信息資源的關(guān)鍵渠道。據(jù)《2019年上半年人民日?qǐng)?bào)·政務(wù)指數(shù)微博影響力報(bào)告》顯示,截至2019年6月,我國(guó)經(jīng)新浪官方平臺(tái)認(rèn)證的政務(wù)機(jī)構(gòu)微博數(shù)量已達(dá)173 569個(gè)[2],通過政務(wù)微博發(fā)布或轉(zhuǎn)發(fā)權(quán)威信息、處理相關(guān)業(yè)務(wù)、傾聽社情民意是政務(wù)微博的核心功能。政務(wù)微博信息源于微博管理者在特定的社會(huì)關(guān)系框架下對(duì)某一事件的理性判斷與直接記錄,這一過程賦予了政務(wù)微博信息的基本價(jià)值。
然而,社交媒體帶來的信息過載問題也給政務(wù)機(jī)構(gòu)、社會(huì)公民的信息活動(dòng)造成了困擾。一方面,政務(wù)微博的更新發(fā)布頻率和信息疊加速度與微博用戶的線性瀏覽能力形成了矛盾,影響了用戶閱讀、吸收信息的效率;另一方面,受政務(wù)機(jī)構(gòu)的科層模式與職能分工影響,政務(wù)微博的信息發(fā)布往往具有地域性、重復(fù)性和分散性特征[3]。內(nèi)容相近卻又相互孤立的碎片化政務(wù)微博信息對(duì)政務(wù)信息資源管理、開發(fā)及利用均造成負(fù)面影響。因此,實(shí)現(xiàn)政務(wù)微博的知識(shí)組織,確保用戶高效地吸收外界政務(wù)信息資源,是政務(wù)微博信息資源開發(fā)利用的核心要?jiǎng)?wù)。
當(dāng)前,知識(shí)圖譜已成為圖書情報(bào)學(xué)界的研究熱點(diǎn),并在歷史資料、文學(xué)名著以及其他人文資料的組織、檢索與知化方面得到了有效應(yīng)用[4]。本研究立足于特定的行政區(qū)域,借助知識(shí)組織與知識(shí)可視化技術(shù),實(shí)現(xiàn)區(qū)域政務(wù)微博的知識(shí)圖譜構(gòu)建,挖掘海量政務(wù)微博信息的知識(shí)內(nèi)涵,促進(jìn)政務(wù)微博的知識(shí)顯化,為特定區(qū)域內(nèi)政務(wù)微博的知識(shí)組織、知識(shí)發(fā)現(xiàn)與知識(shí)可視化研究提供一定的參考。
1? 研究基礎(chǔ)
1.1? 概念界定
區(qū)域政務(wù)微博是本文的核心研究對(duì)象,涉及區(qū)域政務(wù)微博賬號(hào)及微博文本內(nèi)容兩部分。從節(jié)點(diǎn)視角看,區(qū)域政務(wù)微博賬號(hào)是區(qū)域內(nèi)某一具體的政務(wù)機(jī)構(gòu)存在于微博平臺(tái)上固定的身份表征,其在微博平臺(tái)上的信息發(fā)布、評(píng)論、轉(zhuǎn)發(fā)、關(guān)注及點(diǎn)贊等活動(dòng)可以視為是機(jī)構(gòu)意志的具體體現(xiàn)。從內(nèi)容視角看,“區(qū)域”概念是促使政務(wù)微博主題集聚的原因之一,區(qū)域內(nèi)的政務(wù)機(jī)構(gòu)以各自職能為基礎(chǔ),利用微博發(fā)布的信息帶有明確的“區(qū)域性”特征。
在我國(guó)的區(qū)域政務(wù)微博體系中,某區(qū)域最受關(guān)注的綜合性政務(wù)微博“××發(fā)布”在區(qū)域政務(wù)微博網(wǎng)絡(luò)中居于核心地位,環(huán)繞其周圍的各類職能機(jī)構(gòu)政務(wù)微博則重點(diǎn)發(fā)布諸如城市旅游、社會(huì)安全、氣候環(huán)境等專門性信息,二者相結(jié)合形成區(qū)域內(nèi)模塊化的網(wǎng)絡(luò)結(jié)構(gòu)。微博平臺(tái)內(nèi)的主題組織功能則在客觀上為區(qū)域內(nèi)政務(wù)微博提供了信息集聚的空間,不同的政務(wù)微博借助特定區(qū)域所發(fā)生事件的主題標(biāo)簽發(fā)布、轉(zhuǎn)發(fā)或評(píng)論有關(guān)同一事件主題的信息內(nèi)容,這些內(nèi)容因事由而相互關(guān)聯(lián),均是從不同側(cè)面對(duì)區(qū)域內(nèi)發(fā)生事件基本情況的反映。主體與內(nèi)容相統(tǒng)一的“區(qū)域政務(wù)微博”概念為政務(wù)微博的知識(shí)組織與知識(shí)圖譜構(gòu)建提供了可行的概念基礎(chǔ)與操作范圍。
1.2? 相關(guān)研究
Moniz N等[5]收集了葡萄牙國(guó)內(nèi)19個(gè)政府機(jī)構(gòu)共776位公務(wù)人員的社交媒體數(shù)據(jù),利用社會(huì)網(wǎng)絡(luò)分析對(duì)葡萄牙政府社會(huì)網(wǎng)絡(luò)的基本特征進(jìn)行了度量,形成了政府社交媒體知識(shí)圖譜,衡量了該國(guó)政府社會(huì)網(wǎng)絡(luò)的穩(wěn)定性。Rong Y H等[6]以“參與式預(yù)算”為主題構(gòu)建了中國(guó)部分地區(qū)政府機(jī)構(gòu)及工作人員官方微博在事件處理與評(píng)論中組成的社交圖譜,發(fā)現(xiàn)政務(wù)微博網(wǎng)絡(luò)在結(jié)構(gòu)方面具有小世界效應(yīng)。Yarosh S等[7]構(gòu)建了基于GIS和知識(shí)圖譜技術(shù)的交互式網(wǎng)站,能夠處理政府和公民的Twitter數(shù)據(jù)并進(jìn)行事件識(shí)別、地理編碼、關(guān)系構(gòu)建等功能。Kalloubi F等[8]將圖中心算法與開放關(guān)聯(lián)數(shù)據(jù)相結(jié)合,探究了Twitter數(shù)據(jù)的命名實(shí)體鏈接與語義消歧問題,形成了基于Twitter關(guān)聯(lián)數(shù)據(jù)的知識(shí)圖譜。
國(guó)內(nèi)方面,蹇潔等[9]主要從度、聚類系數(shù)和平均路徑長(zhǎng)度3個(gè)維度對(duì)重慶市917個(gè)政務(wù)微博賬號(hào)間的關(guān)聯(lián)關(guān)系進(jìn)行分析,形成了微博賬號(hào)間的關(guān)系圖譜。崔金棟等[10]選取江蘇省和吉林省的政務(wù)微博進(jìn)行“核心-邊緣”分析及“凝聚子群”分析,通過知識(shí)圖譜構(gòu)建發(fā)現(xiàn)我國(guó)發(fā)達(dá)和欠發(fā)達(dá)地區(qū)的政務(wù)微博均沒有明顯的集中趨勢(shì)。杜亞軍等[11]對(duì)微博知識(shí)圖譜構(gòu)建方法進(jìn)行了綜述,認(rèn)為微博知識(shí)圖譜應(yīng)包括人物、事物、地點(diǎn)、事件和話題5類實(shí)體及實(shí)體間的多維語義關(guān)系。孫馳[12]基于尋徑網(wǎng)絡(luò)算法,在抓取微博熱點(diǎn)話題的基礎(chǔ)上構(gòu)建了以人物實(shí)體為核心節(jié)點(diǎn)、以人物相關(guān)實(shí)體為輔助節(jié)點(diǎn)的知識(shí)圖譜。
綜上可見,國(guó)內(nèi)外以政務(wù)社交媒體為對(duì)象的知識(shí)圖譜構(gòu)建研究多采用社會(huì)網(wǎng)絡(luò)分析方法,形成的
圖譜類型應(yīng)為“知識(shí)地圖”而非“知識(shí)圖譜”,尚未構(gòu)建反映節(jié)點(diǎn)與內(nèi)容間語義關(guān)系的知識(shí)圖譜,也沒有將本體、關(guān)聯(lián)數(shù)據(jù)等基于開放域的知識(shí)組織技術(shù)融入研究中,這為本文提供了一定的研究與探索空間。
2? 區(qū)域政務(wù)微博知識(shí)圖譜的構(gòu)建方法
2.1? 研究框架
本文提出了如圖1所示自底向上的知識(shí)圖譜構(gòu)建框架。數(shù)據(jù)層面,本研究通過數(shù)據(jù)采集、預(yù)處理與分詞得到區(qū)域政務(wù)微博語料集;借助主題建模算法形成具有“文檔-主題”以及“主題-關(guān)鍵詞”分布形式的微博聚類集合。在知識(shí)挖掘與可視化層面,實(shí)現(xiàn)了政務(wù)微博內(nèi)容的詞性標(biāo)注、命名實(shí)體識(shí)別及依存句法分析并完成微博語義三元組的提取。此外,本文在復(fù)用FOAF、DC Terms及Event等本體的基礎(chǔ)上結(jié)合自定義類目構(gòu)建區(qū)域政務(wù)微博的輕量級(jí)本體,對(duì)所得的微博語義三元組進(jìn)行規(guī)范關(guān)聯(lián),最終借助圖數(shù)據(jù)庫Neo4j及其內(nèi)置的D3.js插件實(shí)現(xiàn)區(qū)域政務(wù)微博知識(shí)圖譜的構(gòu)建、保存及檢索。
2.2? 數(shù)據(jù)聚合:區(qū)域政務(wù)微博主題建模
2.2.1? 數(shù)據(jù)準(zhǔn)備
本文選擇陜西省西安市作為區(qū)域?qū)嵗瑯?gòu)建西安地區(qū)政務(wù)微博在特定主題下的知識(shí)圖譜。為確保實(shí)證研究的科學(xué)性和完整性,本文采用了成熟的網(wǎng)絡(luò)爬蟲工具集搜客,以新浪微博話題廣場(chǎng)為單位對(duì)區(qū)域政務(wù)微博數(shù)據(jù)進(jìn)行抓取。
經(jīng)過內(nèi)容比較與分析,本文選取了“第三屆中法文化論壇”和“創(chuàng)新創(chuàng)業(yè)在西安”兩個(gè)熱點(diǎn)話題,兩個(gè)話題均帶有HashTag(#),話題內(nèi)文本數(shù)量較為充裕且主題特征明顯。具體而言,我們共抓取了246條微博文本,其中“第三屆中法文化論壇”專題共171條,“創(chuàng)新創(chuàng)業(yè)在西安”專題共75條,采集時(shí)段為2019年6月15日至6月20日。通過定題采集,能夠?qū)⒛骋辉掝}內(nèi)各類博文的博主名、博主ID、文本內(nèi)容、發(fā)布時(shí)間及源網(wǎng)址等核心字段依對(duì)應(yīng)關(guān)系進(jìn)行保存,為其后的數(shù)據(jù)分析、挖掘與可視化實(shí)驗(yàn)建立了數(shù)據(jù)基礎(chǔ)。
2.2.2? 基于LDA的區(qū)域政務(wù)微博主題建模
既有的領(lǐng)域知識(shí)圖譜構(gòu)建研究通常采用實(shí)體識(shí)別及模板匹配的形式[13]對(duì)所得語料直接進(jìn)行實(shí)體及關(guān)系抽取,這樣獲得的[實(shí)體1,關(guān)系,實(shí)體2(屬性)]三元組涵蓋了一次實(shí)驗(yàn)所需的全部語料,適用于專業(yè)領(lǐng)域的知識(shí)圖譜構(gòu)建。與語料相應(yīng),本文擬構(gòu)建的區(qū)域政務(wù)微博知識(shí)圖譜涉及不同話題需要以主題為實(shí)現(xiàn)知識(shí)圖譜的精細(xì)化展示,因此提出一種基于主題模型的知識(shí)圖譜構(gòu)建方案。
目前,LDA模型在微博等中文短文本的主題建模與聚類任務(wù)中具有廣泛應(yīng)用,且效果良好[14]。LDA模型由Blei D M等學(xué)者[15]于2003年正式提出,該模型基于詞袋假設(shè)(Bag of Words),其核心理念可表示為:一篇文檔(Document)是由多個(gè)主題(Topic)混合而成的,而每一個(gè)主題都是詞匯(Word)上的概率分布,文章中的每個(gè)詞都由一個(gè)固定的主題生成,其數(shù)學(xué)表達(dá)式如下:
P(w|d)=∑tP(w|t)P(t|d)(1)
其中變量w、t、d分別代表詞匯、主題及文檔,即“文檔-詞匯”的概率分布能夠表示為“文檔-主題”與“主題-詞匯”的聯(lián)合概率分布?!拔臋n-詞匯”分布通過詞頻統(tǒng)計(jì)算法可以得出,以此為基礎(chǔ)通過Gibbs采樣算法估計(jì)d(文檔中主題的概率分布)與k(主題中特征詞的概率分布)兩個(gè)參數(shù)。結(jié)合所得的區(qū)域政務(wù)微博語料,“第三屆中法文化論壇”與“創(chuàng)新創(chuàng)業(yè)在西安”兩個(gè)話題的主題建模過程及結(jié)果相對(duì)明確,但話題本身依時(shí)間推移而演化出不同的子話題,本文將其命名為“事件”,以“事件”為單位的主題建模是本文LDA模型應(yīng)用的重點(diǎn)。
定義θ=[θ1,θ2,…,θd]為包含兩個(gè)主題的文檔全集,經(jīng)過第一輪主題建模與劃分(即主題數(shù)T=2)后,“第三屆中法文化論壇”與“創(chuàng)新創(chuàng)業(yè)在西安”兩個(gè)主題下的“文檔-主題”采樣集合分別為θi=[θi1,θi2,…,θis](1≤s θd,k=(nd,k+αk)/∑Ki=1(nd,i+αi)(2) φk,w=(nk,w+βw)/∑Ki=1(nk,i+βi)(3) 其中,θd,k表示在第k個(gè)主題與文檔d形成的采樣向量,體現(xiàn)了文檔d中主題k的概率,φk,w代表主題k中特征詞w的概率,K為潛在主題數(shù),α和β均為隱含狄利克雷分布超參數(shù)。在模型參數(shù)的設(shè)置方面,本文采用專家咨詢法結(jié)合困惑度判斷法,設(shè)定主題數(shù)K=4,Gibbs抽樣迭代次數(shù)i=500對(duì)模型進(jìn)行訓(xùn)練,最終抽取各個(gè)主題及事件中TF-IDF值排名前10的特征詞項(xiàng),如表1所示。 經(jīng)過LDA主題建模的區(qū)域政務(wù)微博語料以特征詞項(xiàng)為主要表現(xiàn)形式,該方法將此前原始的非結(jié)構(gòu)化文本轉(zhuǎn)換為承載句子及語篇語義信息的詞項(xiàng)集合。一方面,經(jīng)過聚類計(jì)算得到的特征詞項(xiàng)為區(qū)域政務(wù)微博知識(shí)圖譜的主題劃分與分步構(gòu)建奠定了基礎(chǔ);另一方面,主題建模形成的特征詞項(xiàng)能夠作為命名實(shí)體以及相應(yīng)的實(shí)體標(biāo)志詞,提升領(lǐng)域?qū)嶓w識(shí)別的準(zhǔn)確率。 2.3? 知識(shí)挖掘:區(qū)域政務(wù)微博實(shí)體及關(guān)系抽取 2.3.1? 政務(wù)微博文本依存句法分析及其規(guī)則定義 依存句法分析(Dependency Parsing)旨在根據(jù)詞性及詞間位置特征來判斷句中詞語之間的語法依存關(guān)系。具有依存關(guān)系的兩個(gè)詞組成一個(gè)依存對(duì),其中一個(gè)詞是起支配作用的核心詞;另一個(gè)是起修飾作用的從屬詞。圖2以本研究采集的語料為例展示基于LTP的政務(wù)微博文本依存句法分析過程[17]。 圖2中,“宣布”這一謂語動(dòng)詞被模型識(shí)別為“根詞項(xiàng)(Root)”,其余詞項(xiàng)間以依存弧為紐帶結(jié)成了不同的語法關(guān)系。在應(yīng)用依存句法分析時(shí),通常以“鍵值對(duì)”的形式表現(xiàn)詞間關(guān)系,如圖2識(shí)別出的“陜西省”“省長(zhǎng)”及“宣布”3詞按照規(guī)則可分別表示為{2:‘ATT,3:‘SBV,0:‘HED}。LTP的依存句法分析模型共定義了包括“主謂關(guān)系(SBV)”“動(dòng)賓關(guān)系(VOB)”等在內(nèi)的14種語法關(guān)系,而“鍵值對(duì)”的表現(xiàn)形式使得本研究能夠以字典為存儲(chǔ)和管理容器、以索引和依存關(guān)系為基礎(chǔ)實(shí)現(xiàn)詞項(xiàng)定位,通過相關(guān)規(guī)則的設(shè)置抽取語義三元組,其中抽取規(guī)則如表2所示。 2.3.2? 基于命名實(shí)體識(shí)別的三元組輔助抽取 基于依存句法分析的實(shí)體關(guān)系抽取規(guī)則依賴于句中存在的謂詞及介詞,當(dāng)以謂詞為代表的關(guān)系表述中含有“論元”時(shí)[18](關(guān)系表述左右兩邊最近的兩個(gè)名詞或短語),借助依存句法分析往往能夠比較明確地提取出語義三元組;當(dāng)關(guān)系表述中不存在論元或關(guān)系表述本身不明確時(shí),基于依存句法分析的三元組抽取往往會(huì)遺漏相應(yīng)的實(shí)體及其關(guān)系。因此,本研究通過命名實(shí)體識(shí)別輔助抽取區(qū)域政務(wù)微博三元組。 本文關(guān)注的政務(wù)微博內(nèi)容以區(qū)域內(nèi)熱點(diǎn)事件為主題,其中涉及的人名、地名與機(jī)構(gòu)名是構(gòu)成知識(shí)圖譜的基本實(shí)體。LTP平臺(tái)在命名實(shí)體識(shí)別中采用了“B-I-E-S-O”標(biāo)注體系,基于該體系的符號(hào)表達(dá)能夠?qū)θ嗣∟h)、地名(Ns)和機(jī)構(gòu)名(Ni)等命名實(shí)體進(jìn)行標(biāo)注。在模型的訓(xùn)練及應(yīng)用方面,本文通過人工標(biāo)注的形式,將主題建模部分所得的特征詞構(gòu)建外部字典并嵌入LTP命名實(shí)體識(shí)別模型中,以提升命名實(shí)體識(shí)別的準(zhǔn)確度。經(jīng)過依存句法分析及命名實(shí)體識(shí)別抽取出的區(qū)域政務(wù)微博文本三元組如圖3所示。 抽取所得的區(qū)域政務(wù)微博語義三元組表現(xiàn)為“(實(shí)體,關(guān)系,實(shí)體)”這一形式。對(duì)于抽取的三元組結(jié)果,本研究對(duì)其中表義模糊的實(shí)體進(jìn)行了查找剔除,最終得到102個(gè)實(shí)體及其關(guān)聯(lián)的51種語義關(guān)系,我們將所得實(shí)體及其語義關(guān)系由最初的txt格式轉(zhuǎn)換保存為“(頭實(shí)體,尾實(shí)體,關(guān)系)”的csv格式,以便在本體建模完成后將實(shí)例批量導(dǎo)入本體。 2.4? 知識(shí)組織:基于本體的區(qū)域政務(wù)微博數(shù)據(jù)關(guān)聯(lián) 經(jīng)過抽取得到的區(qū)域政務(wù)微博語義三元組在形式與內(nèi)容的規(guī)范性方面還有所不足。其一,同類或同義謂詞出現(xiàn)次數(shù)較多,為后續(xù)的知識(shí)增量與知識(shí)融合帶來不便;其二,三元組實(shí)體的對(duì)象及數(shù)據(jù)屬性可以進(jìn)一步擴(kuò)充,以完善知識(shí)圖譜的內(nèi)容;其三,純文本格式的三元組直接發(fā)布形成的知識(shí)圖譜不具備較強(qiáng)的數(shù)據(jù)交換與復(fù)用能力,無法融入開放知識(shí)域或關(guān)聯(lián)數(shù)據(jù)集。 基于此,我們構(gòu)建了復(fù)合型的區(qū)域政務(wù)微博輕量級(jí)本體。本文復(fù)用了DCMI Terms[19]、FOAF[20]、CIDOC Conceptual Reference Model[21]以及Event[22]等已在圖書情報(bào)學(xué)界得到廣泛應(yīng)用的本體,借鑒其部分概念及屬性。為了在細(xì)粒度環(huán)境下闡釋區(qū)域政務(wù)微博實(shí)體間的語義關(guān)系,本文還對(duì)部分概念及屬性進(jìn)行了自定義,最終得到的實(shí)體類目結(jié)構(gòu)如表3所示。
區(qū)域政務(wù)微博本體模型包括8個(gè)類目和9個(gè)對(duì)象屬性,其中“區(qū)域”(Region)及“行為言論”(Behavior & Opinion)兩個(gè)實(shí)體為自定義類目。本文借助Protégé本體建模工具實(shí)現(xiàn)了區(qū)域政務(wù)微博本體結(jié)構(gòu)的可視化,如圖4所示。通過將前文得到的微博語義三元組及捕獲的其他屬性信息批量導(dǎo)入本體,使其成為實(shí)體概念的實(shí)例或?qū)傩缘臄?shù)值即形成了特定主題下區(qū)域政務(wù)微博的知識(shí)圖譜。
3? 區(qū)域政務(wù)微博知識(shí)圖譜可視化
在知識(shí)可視化環(huán)節(jié),本研究利用Neo4j數(shù)據(jù)庫內(nèi)置的D3.js可視化插件及Cypher查詢語言實(shí)現(xiàn)微博知識(shí)圖譜的呈現(xiàn)與檢索,所得知識(shí)圖譜能夠從宏觀結(jié)構(gòu)及微觀涵義層面綜合反映特定區(qū)域內(nèi)政務(wù)信息資源主體、事件及文本內(nèi)容間的語義關(guān)系。
圖5從宏觀角度切入,展示了采集數(shù)據(jù)中包含的區(qū)域政務(wù)微博賬戶、主題、事件、地點(diǎn)等實(shí)體間的關(guān)聯(lián)關(guān)系。圖中紅色節(jié)點(diǎn)分別代表“第三屆中法文化論壇”與“創(chuàng)新創(chuàng)業(yè)在西安”兩個(gè)區(qū)域政務(wù)微博主題,“主題-事件”之間的“包含(隸屬)”關(guān)系及事件之間的“相關(guān)”關(guān)系借助相應(yīng)的有向邊予以表示。藍(lán)色節(jié)點(diǎn)代表政務(wù)微博賬戶,其相互之間的“關(guān)注”及政務(wù)信息的“發(fā)布”關(guān)系均包含在圖譜內(nèi)。最后,灰色節(jié)點(diǎn)“西安”以“發(fā)生地”這一關(guān)系同既有主題及事件相連,體現(xiàn)了政務(wù)微博信息在經(jīng)過知識(shí)化“萃取”后仍保有地域聚合特征。
微觀視角下的區(qū)域政務(wù)微博知識(shí)圖譜著重關(guān)注微博內(nèi)容及其中包含的命名實(shí)體間的關(guān)系,尤其是以主題或事件為導(dǎo)向的人物及其行為關(guān)系。圖6體現(xiàn)了“創(chuàng)新創(chuàng)業(yè)在西安”這一主題之下的各類人物及行為活動(dòng),包括行政官員的調(diào)研活動(dòng)以及微博中提及的每一位創(chuàng)業(yè)者的具體創(chuàng)業(yè)事跡,從而將不同微博賬戶發(fā)布的離散文本聚合在同一張圖譜中,集中反映某一主題或事件的核心內(nèi)涵。相應(yīng)地,圖7對(duì)政務(wù)微博數(shù)據(jù)中的另一主題——“第三屆中法文化論壇”的相關(guān)內(nèi)容進(jìn)行了可視化揭示,該圖譜有效展示了位于不同時(shí)段、隸屬不同事件但均參與了“第三屆中法文化論壇”活動(dòng)的相關(guān)人物及其言論。
與此同時(shí),結(jié)合Neo4j數(shù)據(jù)庫內(nèi)置的Cypher語言,以圖譜節(jié)點(diǎn)及其相應(yīng)的語義關(guān)系為紐帶可以實(shí)現(xiàn)政務(wù)微博知識(shí)圖譜的查詢檢索。如要檢索法國(guó)前總理讓·皮埃爾·拉法蘭在“第三屆中法文化論壇”中的相關(guān)言論及活動(dòng),則輸入相應(yīng)的Cypher查詢語句進(jìn)行匹配,圖8顯示了拉法蘭參與“第三屆中法文化論壇”的所有活動(dòng)及發(fā)表的言論。
總體而言,構(gòu)建區(qū)域政務(wù)微博知識(shí)圖譜能夠?qū)⑻囟〞r(shí)空范圍內(nèi)相互關(guān)聯(lián)的微博內(nèi)容聚焦于簡(jiǎn)單生動(dòng)的可視化圖形中。從用戶視角看,區(qū)域政務(wù)微博知識(shí)圖譜方便用戶以“遙讀(Distant Reading)”形式把握所在區(qū)域的某一熱點(diǎn)話題及事件的核心要
素,無需用戶在不同政務(wù)微博賬戶之間不斷切換,提升了用戶對(duì)網(wǎng)絡(luò)政務(wù)信息資源的知識(shí)利用效率。從政務(wù)微博管理者視角看,區(qū)域政務(wù)微博知識(shí)圖譜是其發(fā)布各類政務(wù)信息的主題化、知識(shí)化凝練,較為清晰地反映了主題事件的發(fā)展與演化態(tài)勢(shì),為管理者后續(xù)的信息發(fā)布、輿論引導(dǎo)與關(guān)鍵數(shù)據(jù)保存等工作提供了一定借鑒。
4? 結(jié)? 語
本研究采用自底向上的知識(shí)圖譜構(gòu)建方案,經(jīng)過數(shù)據(jù)獲取、數(shù)據(jù)聚合、知識(shí)挖掘及知識(shí)可視化等過程實(shí)現(xiàn)了區(qū)域政務(wù)微博知識(shí)圖譜,同時(shí)對(duì)圖譜的呈現(xiàn)與檢索形式進(jìn)行了實(shí)證與討論,借此對(duì)以政務(wù)微博為代表的網(wǎng)絡(luò)政務(wù)信息資源開發(fā)利用模式進(jìn)行了探索。本次研究及實(shí)驗(yàn)使得隸屬于特定行政區(qū)域、反映區(qū)域內(nèi)熱點(diǎn)話題及事件的政務(wù)微博內(nèi)容完成了以“離散化數(shù)據(jù)—結(jié)構(gòu)化信息—可視化知識(shí)”為主線的上升與轉(zhuǎn)變,從而將主題模糊、相關(guān)性弱的文本數(shù)據(jù)逐步轉(zhuǎn)化為主題清晰、關(guān)聯(lián)性強(qiáng)的知識(shí)內(nèi)容,實(shí)現(xiàn)了相關(guān)主題內(nèi)的知識(shí)聚合[23]。
與此同時(shí),本研究在兩個(gè)方面還存在較大的提升空間。首先,本次研究及實(shí)驗(yàn)利用了主題建模、依存句法分析、本體等自然語言處理及知識(shí)組織技術(shù)實(shí)現(xiàn)了區(qū)域政務(wù)微博知識(shí)圖譜,但尚未將以上技術(shù)進(jìn)行有機(jī)整合,在今后的研究中,筆者將進(jìn)一步探索構(gòu)建集成式的政務(wù)微博知識(shí)圖譜服務(wù)平臺(tái)[24];其次,本文構(gòu)建的區(qū)域政務(wù)微博知識(shí)圖譜仍處于探索與實(shí)驗(yàn)階段,在數(shù)據(jù)量與數(shù)據(jù)類型方面尚較為單一。政務(wù)微博除文本內(nèi)容之外,其附屬的圖像、視頻以及相應(yīng)的用戶評(píng)論等數(shù)據(jù)內(nèi)容也具有一定的信息價(jià)值。因此,本研究將進(jìn)一步提升區(qū)域政務(wù)微博知識(shí)圖譜的表現(xiàn)力、數(shù)據(jù)關(guān)聯(lián)與知識(shí)定位能力,從而實(shí)現(xiàn)基于政務(wù)微博大數(shù)據(jù)的知識(shí)挖掘、知識(shí)推理及語義檢索,提升區(qū)域政務(wù)微博知識(shí)圖譜的利用價(jià)值。
參考文獻(xiàn)
[1]Obar J A,Wildman S.Social Media Definition and the Governance Challenge:An Introduction to the Special Issue[J].Telecommunications Policy,2015,(39):745-750.
[2]人民網(wǎng).2019年上半年人民日?qǐng)?bào)·政務(wù)指數(shù)微博影響力報(bào)告[EB/OL].http://yuqing.people.com.cn/NMediaFile/2019/0812/MAIN201908121245000526967515030.pdf,2020-05-17.
[3]黃新平.政府網(wǎng)站信息資源多維語義知識(shí)融合研究[D].長(zhǎng)春:吉林大學(xué),2017.
[4]劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國(guó)圖書館學(xué)報(bào),2017,(5):32-41.
[5]Moniz N,Louca F,Oliveira M,et al.Empirical Analysis of the Portuguese Governments Social Network[J].Social Network Analysis and Mining,2016,6(1):1-19.
[6]Rong Y H,Song J.Mining a Government Affairs Microblog Network on Sina Weibo with Social Network Analysis[C]//10th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD).Yantai:IEEE,2013:515-519.