于小涵 韓 筱 舒暢
(濟(jì)南大學(xué),山東 濟(jì)南 250002)
在信息技術(shù)革命的推動下,如何實(shí)現(xiàn)各種活動的電子化已然成為一種熱潮,電子政務(wù)也在這一背景下應(yīng)運(yùn)而生。電子政務(wù)是政府順應(yīng)時代發(fā)展,利用信息網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)自我改革的一種舉措。政府通過這種方式對組織結(jié)構(gòu)和運(yùn)作方式進(jìn)行優(yōu)化,從而提高工作效率,為公眾提供更加便捷滿意的服務(wù)[1]。政府之間以及政府與公民、企業(yè)進(jìn)行互動的過程中,往往會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)與國民經(jīng)濟(jì)、公眾生活息息相關(guān)。在建設(shè)電子政務(wù)的過程中,政府部門會希望高效利用這些數(shù)據(jù),從中挖掘有效信息,但政務(wù)數(shù)據(jù)分散、缺乏深度分析的現(xiàn)象卻普遍存在[2]。政策文本作為政務(wù)數(shù)據(jù)的一種,是政府部門日常辦公處理的重要工具,具有傳達(dá)國家法規(guī)、條例和指導(dǎo)等信息的作用。但這些政策文本散布在各個政府網(wǎng)站,不利于政府部門之間的信息互通,也不便于公眾對政策內(nèi)容的全面掌握,而數(shù)據(jù)的整合分析、深度挖掘也很難在這種情況下開展。
知識圖譜等技術(shù)的發(fā)展,為政策文本的數(shù)據(jù)存儲、信息整合以及知識發(fā)現(xiàn)提供了重要支撐。知識圖譜的主要目的是描述各種實(shí)體和概念以及他們之間的關(guān)系,進(jìn)而以圖網(wǎng)絡(luò)形態(tài)展現(xiàn)領(lǐng)域知識,甚至通過推理發(fā)現(xiàn)新的知識。構(gòu)建政策知識圖譜能夠?qū)⒄呶谋局写嬖诘拇笠?guī)模、碎片化的知識整合成以實(shí)體為基本單位的網(wǎng)絡(luò)結(jié)構(gòu),不僅能提高政府內(nèi)部對已有政策的管理效率、實(shí)現(xiàn)跨部門的知識發(fā)現(xiàn),還能為公眾提供更加智能方便的服務(wù)。
知識圖譜的研究起源于語義網(wǎng)絡(luò),這是一種通過相互連接的節(jié)點(diǎn)和邊來表達(dá)知識的模式[3]。其中節(jié)點(diǎn)表示對象、概念,邊表示節(jié)點(diǎn)之間的關(guān)系。語義網(wǎng)絡(luò)本質(zhì)上是一張數(shù)據(jù)構(gòu)成的網(wǎng)絡(luò),它以圖網(wǎng)絡(luò)的方式為用戶返回加工推理后的知識,知識圖譜則在此基礎(chǔ)上實(shí)現(xiàn)了規(guī)模更大、結(jié)構(gòu)更好、語義更豐富的智能化語義檢索。知識圖譜的基本組成單位是三元組,包含(主語,謂語,賓語)三個部分,在實(shí)際的圖網(wǎng)絡(luò)數(shù)據(jù)中通常表示成“實(shí)體-關(guān)系-實(shí)體”或“實(shí)體-屬性-屬性值”。
從覆蓋范圍來看,知識圖譜可分為通用知識圖譜與行業(yè)知識圖譜兩類[4]。通用知識圖譜涉及的知識范圍較為廣泛,以常識性知識為主,應(yīng)用于互聯(lián)網(wǎng)的搜索、推薦、問答等場景,如WordNet、FreeBase、百度知心等。行業(yè)知識圖譜面向特定領(lǐng)域,有嚴(yán)格與豐富的數(shù)據(jù)模式,對準(zhǔn)確度要求更高,通常用于輔助分析及決策支持。目前行業(yè)知識圖譜已經(jīng)在很多領(lǐng)域得到了很好的應(yīng)用,典型的行業(yè)知識圖譜有中國旅游景點(diǎn)知識圖譜、中醫(yī)藥知識圖譜、UMLS 等。通用知識圖譜和行業(yè)知識圖譜并不是相互對立,而是相輔相成的一個關(guān)系,將通用知識圖譜的廣度和行業(yè)知識圖譜的深度融合在一起,可以形成更加完善的知識圖譜。
知識圖譜的構(gòu)建一般可以分為自頂向下和自底向上兩種方式。自頂向下是先歸納總結(jié)出知識圖譜的邏輯架構(gòu),然后再依據(jù)這一架構(gòu)從高質(zhì)量數(shù)據(jù)中抽取實(shí)體和關(guān)系,加入知識圖譜中。自底向上則是先從真實(shí)數(shù)據(jù)中抽取實(shí)體和關(guān)系,而后歸納總結(jié)出知識圖譜。知識圖譜在邏輯上分為模式層和數(shù)據(jù)層,本文采用自頂向下的構(gòu)建方式,即先定義知識圖譜的模式層,然后建立數(shù)據(jù)層。
本文以北大法寶法律法規(guī)數(shù)據(jù)庫和各級政府網(wǎng)站為政策文本的主要來源,搜索2009 年到2021 年內(nèi)與產(chǎn)業(yè)政策相關(guān)的各省法律規(guī)章,最終通過人工排查,下載并獲得產(chǎn)業(yè)政策總計2453 篇。政策文章均保存為“.txt”格式,并按照省份和年份放置在不同文件夾內(nèi),以便后續(xù)通過Python 進(jìn)行批量文件處理,從中提取所需的知識三元組。
模式層是知識圖譜的概念模型和邏輯基礎(chǔ),是知識圖譜的核心,主要定義了實(shí)體、屬性、關(guān)系等知識類的層次。
實(shí)體是知識圖譜中最基本的元素,它可以是客觀世界中獨(dú)立存在的某個事物,如人、水果、家具等,也可以是抽象出來的某種概念,如善良、工作、成績等。本文基于政策文本的特征和對知識查詢的需求,定義了政策和關(guān)鍵詞兩種實(shí)體類型。其中,“政策”指代某篇政策文本,“關(guān)鍵詞”指代政策中具有關(guān)鍵作用揭示主題的詞語。
屬性是對實(shí)體的說明,通過描述實(shí)體的內(nèi)在信息來將其區(qū)分,如人的姓名、身高、年齡等。本文除了將省份和年份兩個基本特征作為政策文本的屬性外,還設(shè)置了政策情感偏好。政府會通過補(bǔ)貼、減稅、表彰等方式來激勵某個產(chǎn)業(yè)的發(fā)展,也會通過強(qiáng)調(diào)社會責(zé)任、環(huán)境保護(hù)等方式來進(jìn)行制約。政府在不同的時代發(fā)展階段對于不同的產(chǎn)業(yè)往往會有不同的政策偏好,當(dāng)一篇政策對這兩個理念不偏不倚,同樣重視時,就認(rèn)為該政策為“平衡型”;當(dāng)“激勵”的強(qiáng)調(diào)程度大于“責(zé)任”時,就認(rèn)為是“激勵型”;反之則為“責(zé)任型”。
關(guān)系描述了實(shí)體之間客觀存在的關(guān)聯(lián),如“購買”描述了客戶和商品的關(guān)系??紤]到地方對中央宏觀政策的落實(shí)、政策的分階段發(fā)展等因素,一篇政策文本往往會引用其他政策作為依據(jù),因此本文構(gòu)建了政策實(shí)體之間的“引用”關(guān)系。此外,本文還構(gòu)建了政策和關(guān)鍵詞之間的“涉及”關(guān)系,從而能夠直觀地了解政策主題,間接關(guān)聯(lián)主題相近的政策。
數(shù)據(jù)層是在模式層所構(gòu)建的模型基礎(chǔ)上,以<實(shí)體,關(guān)系,實(shí)體>或<實(shí)體,屬性,屬性值>的事實(shí)三元組等知識為單位,將數(shù)據(jù)存儲在圖數(shù)據(jù)庫中,進(jìn)而構(gòu)成大規(guī)模的實(shí)體關(guān)系網(wǎng)絡(luò),形成知識圖譜。構(gòu)建數(shù)據(jù)層的關(guān)鍵在于從繁雜的數(shù)據(jù)中抽取結(jié)構(gòu)化數(shù)據(jù),并組成事實(shí)三元組。以下將具體描述實(shí)體和屬性的抽取過程,對于關(guān)系的抽取在關(guān)鍵詞實(shí)體抽取和引文實(shí)體抽取時已經(jīng)完成,只需抽取時將關(guān)鍵詞與引文存儲在對應(yīng)的政策列表中即可。
本文對政策實(shí)體的抽取是指將所收集到的政策題名和正文中引用的政策名稱提取并存儲到excel 中。對于已收集的政策文本,因?yàn)樵谙螺d時已將題名作為文件名進(jìn)行保存,只需通過Python 直接遍歷讀取所有文件名即可。對于正文中存在的引文,則需要使用Python中的“re”模塊,由正則表達(dá)式定位并提取“《》”中的文字。當(dāng)一篇政策被多次引用時,下文往往會用簡稱指代,例如“全面落實(shí)國務(wù)院批復(fù)的《山東新舊動能轉(zhuǎn)換綜合試驗(yàn)區(qū)建設(shè)總體方案》(以下簡稱《方案》)確定的各項目標(biāo)任務(wù)”該篇政策的下文將會使用《方案》來指代文中出現(xiàn)過的政策,因此在引文抽取時還需篩選掉《方案》《規(guī)劃》《決定》《意見》和《建議》。
本文通過Python 利用TF-IDF 算法,計算得到每篇政策文本權(quán)重最高的五個詞作為該政策的關(guān)鍵詞,以代表其主要內(nèi)容。TF-IDF 算法主要用于評估一個詞對一個語料庫中某一文件的重要程度,計算得到的詞語重要性與它在該文件中出現(xiàn)的次數(shù)成正比,與它在語料庫中出現(xiàn)的頻率成反比。如果一個詞在某個文件中出現(xiàn)的頻率很高,而在整個語料庫中頻率較低,即在其他文件中很少出現(xiàn),則認(rèn)為這個詞對其所在文件有較好的代表性。
政策實(shí)體的發(fā)表年份和省份可通過Python 識別文件路徑直接抽取,政策情感偏好屬性則可采用自然語言處理中的情感分析法進(jìn)行抽取,即對文本中帶有情感色彩的主觀性詞語進(jìn)行歸納分析。本文借鑒黃魯成團(tuán)隊[5]評估創(chuàng)新政策平衡態(tài)的方法,通過對比政策文本中激勵詞和責(zé)任詞的個數(shù)來衡量一篇政策的情感偏好,當(dāng)兩者個數(shù)相近時,認(rèn)為是平衡型政策;當(dāng)激勵詞個數(shù)大于責(zé)任詞時,認(rèn)為是激勵型政策;反之,則為責(zé)任型政策。計算每篇政策的激勵詞和責(zé)任詞個數(shù),需要先建立“激勵”詞庫和“責(zé)任”詞庫。通過政策文本和中文維基百科選取與“激勵”和“責(zé)任”相關(guān)的文本,利用Python 語言的jieba 包進(jìn)行分詞處理后,人工篩選出能表征“激勵”和“責(zé)任”的詞匯,并分別保存作為相應(yīng)的詞庫。最終經(jīng)專家審議,選取重要性相當(dāng)、個數(shù)相等的兩組詞匯來分別表征“激勵”和“責(zé)任”。得到詞庫后即可利用Python 統(tǒng)計每篇政策中兩種情感詞的個數(shù),從而判斷其情感偏好。
抽取完構(gòu)建知識圖譜所需的三元組后,本文通過Python 驅(qū)動Neo4j 圖數(shù)據(jù)庫將數(shù)據(jù)從表結(jié)構(gòu)轉(zhuǎn)換成圖網(wǎng)絡(luò)進(jìn)行存儲。最終構(gòu)建的知識圖譜共有8859 個政策節(jié)點(diǎn),1290個關(guān)鍵詞節(jié)點(diǎn)。較大的深色節(jié)點(diǎn)表示政策實(shí)體,較小的淺色節(jié)點(diǎn)表示關(guān)鍵詞實(shí)體,點(diǎn)擊政策節(jié)點(diǎn)就可以看到該篇政策文本的發(fā)表年份、省份以及政策情感偏好。
Cypher 是Neo4j 的官方查詢語言,它具有豐富的表現(xiàn)力,能高效地查詢和更新圖數(shù)據(jù)。與關(guān)系數(shù)據(jù)庫中的SQL 類似,Cypher 是一種文本的聲明式查詢語言,它描述目標(biāo)的性質(zhì),而非流程,不需要用算法來明確地指出每一步該怎么做。利用Cypher 語言可以對產(chǎn)業(yè)政策知識圖譜中的節(jié)點(diǎn)和關(guān)系進(jìn)行查詢,并將查詢結(jié)果以圖網(wǎng)絡(luò)的形式呈現(xiàn)出來,便于用戶快速獲取想要了解的信息,發(fā)現(xiàn)事物之間的潛在聯(lián)系。
在產(chǎn)業(yè)政策知識圖譜中,用戶可以使用Cypher 語句的MATCH 子句查詢某篇政策的相關(guān)信息。例如,在Neo4j 的編輯器中輸入“MATCH (m:policy)-[r]->(n) WH ERE m.name='云南省人民政府辦公廳貫徹落實(shí)國務(wù)院辦公廳關(guān)于深化種業(yè)體制改革提高創(chuàng)新能力文件的實(shí)施意見' RETURN m,r,n;”由此即可得到與該政策實(shí)體直接相連的關(guān)系網(wǎng)絡(luò)。該政策主要涉及的關(guān)鍵詞有“農(nóng)作物、種子、育種、種質(zhì)、高等院?!?,并且引用了《國務(wù)院辦公廳關(guān)于深化種業(yè)體制改革提高創(chuàng)新能力的意見》,點(diǎn)擊節(jié)點(diǎn)能夠看到該政策發(fā)布于2015 年,從屬于云南省,具有激勵型政策偏好。用戶還可以對某一關(guān)鍵詞進(jìn)行查詢,查看涉及該關(guān)鍵詞的政策有哪些,以關(guān)鍵詞“減排”為例,在編輯器中輸入“MATCH(m:keywprd)-[r]->(n) WHERE m.name='減排' RETURN m,r,n;”就能返回與之相連的25 個政策節(jié)點(diǎn)。MATCH子句也支持模糊匹配,如檢索文本題名中包含“大數(shù)據(jù)”的政策實(shí)體,可在編輯器中輸入“MATCH (n:policy)WHERE n.name=~'.*大數(shù)據(jù).*' RETURN n;”。
與學(xué)術(shù)論文類似,政策文本中也存在大量的引用。對政策文本進(jìn)行引文分析,查看它們之間的引用關(guān)系,對探究政策體系的演變過程,了解地方對中央政策的銜接落實(shí)等都具有一定的現(xiàn)實(shí)意義。相比于其他的數(shù)據(jù)存儲方式,圖數(shù)據(jù)庫能夠更加直觀地展現(xiàn)政策間的引用關(guān)系,便于用戶發(fā)現(xiàn)規(guī)律,對政策進(jìn)行溯源分析。在政策知識圖譜的編輯器中輸入“MATCH (m)-[r:引用]->(n) RETURN m,r,n;”即可查看所有的引用關(guān)系圖譜。如果想要對某篇政策文本進(jìn)行追溯,則指定政策節(jié)點(diǎn)的名稱即可,如“MATCH (c:policy{name: ”山東省人民政府關(guān)于印發(fā)山東省戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展“十二五”規(guī)劃的通知"})-[r*0..]->(result) RETURN result;”,就能返回該篇政策的引用過程。
本文參考已有文獻(xiàn)和政策文本的查詢需求,提出構(gòu)建產(chǎn)業(yè)政策知識圖譜的模式層框架,即定義政策和關(guān)鍵詞兩類實(shí)體,其中政策實(shí)體的屬性包含標(biāo)題、政策偏好、發(fā)布年份和省份,實(shí)體間的關(guān)系有政策實(shí)體間的引用關(guān)系,以及政策和關(guān)鍵詞間的涉及關(guān)系。在此基礎(chǔ)上,本文通過Python 驅(qū)動Neo4j,利用收集的2453 篇政策文本建立知識圖譜的數(shù)據(jù)層,并進(jìn)行可視化查詢。經(jīng)過產(chǎn)業(yè)政策實(shí)體查詢和引文查詢兩類實(shí)例驗(yàn)證,結(jié)果表明本文提出的產(chǎn)業(yè)政策知識圖譜構(gòu)建方法能實(shí)現(xiàn)產(chǎn)業(yè)政策相關(guān)信息的快速查詢,發(fā)現(xiàn)主題相近的政策集群和政策間的引用脈絡(luò)?;趫D數(shù)據(jù)庫的產(chǎn)業(yè)政策知識圖譜在構(gòu)建數(shù)字政府、提高政務(wù)數(shù)據(jù)利用價值等方面具有廣闊的應(yīng)用前景。未來研究在不斷完善政策實(shí)體和實(shí)體關(guān)系的構(gòu)建基礎(chǔ)上,還可進(jìn)一步實(shí)現(xiàn)基于產(chǎn)業(yè)政策知識圖譜的相關(guān)應(yīng)用,如面向公眾的在線智能問答等。