国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

GSGD:一種基于BERT與本體推理的自動(dòng)分級(jí)系統(tǒng)

2020-08-12 02:32:50王珊珊劉汪洋蔡惠民
關(guān)鍵詞:政策法規(guī)案例庫(kù)本體

王珊珊,鄒 佳,程 序,劉汪洋,蔡惠民

(1.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽(yáng) 550022;2.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國(guó)家工程實(shí)驗(yàn)室,貴州 貴陽(yáng) 550022)

0 引 言

政府?dāng)?shù)據(jù)分級(jí)管理,能夠明確政府?dāng)?shù)據(jù)的范圍邊界和使用方式,是政府?dāng)?shù)據(jù)治理的關(guān)鍵性工作,為數(shù)據(jù)共享開放提供依據(jù)[1-2]。國(guó)務(wù)院2015年9月5日印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》(國(guó)發(fā)〔2015〕50號(hào))的主要任務(wù)中明確提出要大力推動(dòng)政府部門數(shù)據(jù)共享,穩(wěn)步推動(dòng)公共數(shù)據(jù)資源開放。國(guó)務(wù)院辦公廳于2017年5月18日印發(fā)并實(shí)施《政務(wù)信息系統(tǒng)整合共享實(shí)施方案》(國(guó)辦發(fā)〔2017〕39號(hào)),提出了加快推進(jìn)政務(wù)信息系統(tǒng)整合共享。2018年1月12日,貴陽(yáng)市發(fā)布《貴陽(yáng)市政府?dāng)?shù)據(jù)共享開放實(shí)施辦法》,用以協(xié)調(diào)解決政府?dāng)?shù)據(jù)共享開放有關(guān)重大問題。

根據(jù)《政務(wù)信息資源共享管理暫行辦法》、《貴州省政務(wù)數(shù)據(jù)資源管理暫行辦法》、《貴陽(yáng)市政府?dāng)?shù)據(jù)共享開放實(shí)施辦法》,政府?dāng)?shù)據(jù)分級(jí)主要是對(duì)數(shù)據(jù)在開放和共享兩個(gè)方向進(jìn)行分級(jí);共享級(jí)別分別為無(wú)條件共享、有條件共享、不予共享三大等級(jí),開放級(jí)別分別為無(wú)條件開放、依申請(qǐng)開放和不予開放三大等級(jí)。

目前,政府?dāng)?shù)據(jù)分級(jí)工作多為人工操作,然而,隨著政府?dāng)?shù)據(jù)的增長(zhǎng),人工標(biāo)注已不能滿足分級(jí)工作要求,帶來(lái)了很多問題。由于分級(jí)政策法規(guī)條款較多,人工對(duì)大量的數(shù)據(jù)進(jìn)行分級(jí)時(shí)需不停查閱相關(guān)規(guī)定導(dǎo)致工作量大、效率低;同時(shí)人為理解政策法規(guī)具有較強(qiáng)的主觀性,導(dǎo)致現(xiàn)有人工分級(jí)工作精確性差、較為主觀等。由于分級(jí)工作涉及領(lǐng)域較廣,例如:安全生產(chǎn)、健康保障、信用體系等,且需要政策法規(guī)依據(jù)支撐結(jié)果,因此傳統(tǒng)的分類方法不足以支撐分級(jí)工作。

法律本體能夠?qū)Ψ煞ㄒ?guī)進(jìn)行條理的梳理、描述;還可通過(guò)自定義規(guī)則,以滿足個(gè)性化推理需求。Valente從法律的社會(huì)角色和功能出發(fā),提出了FOLaw(functional ontology for law)[3]法律本體。Breuker[4]創(chuàng)建了LRI-Core法律本體模型。湯庸等結(jié)合了許多研究,提出了新的本體模型DOLegal[5]。賈君枝[6]等以專業(yè)人員參與為核心,提出了一種新的法律框架網(wǎng)絡(luò)知識(shí)本體模型。盧明純[7]在結(jié)合國(guó)內(nèi)外研究成果的基礎(chǔ)上,提出了一種新的本體模型,并設(shè)計(jì)了原型系統(tǒng)。佘貴清等[8]基于歷史案例本體知識(shí)庫(kù)構(gòu)建了刑事審判案例推理模型。姜贏等[9]構(gòu)建了醫(yī)療衛(wèi)生政策法律知識(shí)庫(kù),以方便對(duì)政策法律進(jìn)行管理。Thammaboosadee等[10]根據(jù)泰國(guó)刑法典提出了一個(gè)判決系統(tǒng)。上述研究大多針對(duì)《刑法》等法律且推理規(guī)則多關(guān)注于行為處罰措施,涉及法律內(nèi)容較為單一。

本體的語(yǔ)義匹配技術(shù)較多,有基于模式的匹配、基于概念圖的匹配,以概念分類為基礎(chǔ)的學(xué)習(xí)策略等;賈君枝等在充分考慮法律語(yǔ)言的模糊性上,結(jié)合了相關(guān)技術(shù),提出了基于法律框架網(wǎng)絡(luò)本體的語(yǔ)義匹配的基本思路;但基于框架網(wǎng)絡(luò)的語(yǔ)義匹配更適合應(yīng)用于范圍界限較為清晰的領(lǐng)域[11]。

隨著大數(shù)據(jù)等技術(shù)的發(fā)展,采用大數(shù)據(jù)、人工智能等方法對(duì)政府?dāng)?shù)據(jù)自動(dòng)進(jìn)行分級(jí)已成必然趨勢(shì)。因此,文中以《中華人民共和國(guó)政府信息公開條例》、《政務(wù)信息資源共享管理暫行辦法》以及貴州省、貴陽(yáng)市地方法規(guī)、標(biāo)準(zhǔn)等作為政策法規(guī)依據(jù),以某些省市開放平臺(tái)中的典型案例作為案例數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了政府?dāng)?shù)據(jù)自動(dòng)分級(jí)系統(tǒng)—GSGD,以解決現(xiàn)有人工分級(jí)支撐依據(jù)不足、主觀性強(qiáng)、精確性差的問題。

1 系統(tǒng)框架

GSGD由輸入數(shù)據(jù)、基礎(chǔ)能力、算法模型、結(jié)果輸出四個(gè)部分構(gòu)成,系統(tǒng)框架如圖1所示。分級(jí)輸入數(shù)據(jù)格式為xx市政府各委辦局“行政區(qū) 委辦局名稱 系統(tǒng)名稱 表名稱 字段名稱”目錄,輸入數(shù)據(jù)樣例見表1。

圖1 分級(jí)系統(tǒng)框架

表1 輸入數(shù)據(jù)樣例與分級(jí)結(jié)果

基礎(chǔ)能力以及算法模型板塊完成了數(shù)據(jù)中間處理過(guò)程?;A(chǔ)能力板塊主要是政策法規(guī)庫(kù)、典型案例庫(kù)、推理規(guī)則庫(kù),文中分級(jí)結(jié)果以《中華人民共和國(guó)政府信息公開條例》、《政務(wù)信息資源共享管理暫行辦法》以及《貴州省政務(wù)數(shù)據(jù)資源管理暫行辦法》、《貴陽(yáng)市政府?dāng)?shù)據(jù)共享開放條例》、《貴陽(yáng)市政府?dāng)?shù)據(jù)共享開放實(shí)施辦法》等貴州省、貴陽(yáng)市地方法規(guī)、標(biāo)準(zhǔn)作為依據(jù),構(gòu)建政策法規(guī)庫(kù);以某些省市開放平臺(tái)中的典型案例作為依據(jù),構(gòu)建典型案例庫(kù);根據(jù)政策法規(guī)庫(kù)以及典型案例庫(kù)中本體概念以及框架,設(shè)計(jì)自定義推理規(guī)則構(gòu)成推理規(guī)則庫(kù)。將政策法規(guī)庫(kù)以及典型案例庫(kù)中的關(guān)鍵詞(例如:人事任免、健康保障等)提出作為分級(jí)關(guān)鍵詞。算法模型板塊由BERT[12]模型、相似度計(jì)算、Jena推理機(jī)[13]以及SPARQL查詢[14]構(gòu)成;BERT與相似度計(jì)算完成輸入數(shù)據(jù)到政策法規(guī)庫(kù)/典型案例庫(kù)中關(guān)鍵詞的映射過(guò)程;Jena推理機(jī)以及SPARQL查詢完成政策法規(guī)庫(kù)/典型案例庫(kù)中關(guān)鍵詞到分級(jí)結(jié)果的推理分析過(guò)程。結(jié)果輸出模塊將對(duì)算法模型模塊的結(jié)果進(jìn)行整理,并格式化輸出,輸出內(nèi)容包括:開放結(jié)果、共享結(jié)果以及結(jié)果依據(jù)。系統(tǒng)整體流程如圖2所示。

圖2 系統(tǒng)整體流程

2 系統(tǒng)模塊設(shè)計(jì)

2.1 本體構(gòu)建

文中采用Protégé作為構(gòu)建本體工具,Protégé是由斯坦福大學(xué)開發(fā)的本體編輯器,具有眾多的插件。Protégé能夠直觀地以樹形層次目錄結(jié)構(gòu)顯示本體,且操作簡(jiǎn)便,是目前使用最廣泛的本體編輯器之一[15-16]。

圖3 政策法規(guī)庫(kù)本體框架

文中參考許多已有的研究,并結(jié)合分級(jí)工作的特性,構(gòu)建了分級(jí)政策法規(guī)庫(kù)以及典型案例庫(kù)。政策法規(guī)本體庫(kù)頂層劃分為兩大概念:抽象實(shí)體和物理實(shí)體。抽象實(shí)體的子類有主題、分級(jí)、涉敏類別以及秘密類別,物理實(shí)體的子類有物理對(duì)象。根據(jù)貴陽(yáng)市政府信息公開目錄對(duì)政策法規(guī)進(jìn)行概念提取,例如,組配分類中的子類有:人事信息、總結(jié)公報(bào)、規(guī)劃計(jì)劃等。規(guī)范文件可分為:憲法、法律、行政法規(guī)、地方性法規(guī)、部門規(guī)章、其他規(guī)范文件,規(guī)范文件子類中各概念之間的效力級(jí)別采用“效力高于”這一對(duì)象屬性進(jìn)行描述[17],詳細(xì)的分類如圖3所示。典型案例庫(kù)采用與構(gòu)建政策法規(guī)庫(kù)相似的方式進(jìn)行構(gòu)建,典型案例庫(kù)的本體框架如圖 4所示。構(gòu)建數(shù)據(jù)為某些省市政府開放數(shù)據(jù)平臺(tái)上獲得的典型案例,例如:機(jī)動(dòng)車駕駛證滿分名單等。

圖4 典型案例庫(kù)本體框架

2.2 基于BERT的相似度計(jì)算

BERT(bidirectional encoder representations from transformers)是基于深度雙向Transformer的預(yù)訓(xùn)練模型,BERT在訓(xùn)練任務(wù)中關(guān)注詞前后的信息,生成融合了上下文信息的語(yǔ)義向量,因此,BERT可以用于問答系統(tǒng)、命名實(shí)體識(shí)別、文本挖掘等任務(wù)中[12,18-20]。文中利用BERT獲得精準(zhǔn)的語(yǔ)義向量,并將語(yǔ)義向量用于輸入數(shù)據(jù)以及分級(jí)關(guān)鍵詞的相似度計(jì)算中。

圖5 求詞/句向量流程

通過(guò)計(jì)算輸入數(shù)據(jù)中委辦局名稱、系統(tǒng)名稱、表名稱、字段名稱部分分別與分級(jí)關(guān)鍵詞的詞/句向量相似度,選取輸入數(shù)據(jù)每個(gè)部分所對(duì)應(yīng)相似度較高的關(guān)鍵詞作為查詢推理的輸入。詞/句向量采用BERT進(jìn)行計(jì)算,將BERT模型的輸出,即模型最后一層的輸出,作為輸入數(shù)據(jù)/關(guān)鍵詞中每個(gè)字的字向量;對(duì)輸入數(shù)據(jù)/關(guān)鍵詞的字向量求平均,得到輸入數(shù)據(jù)/關(guān)鍵詞的詞/句向量,流程如圖5所示。

計(jì)算輸入數(shù)據(jù)各部分的詞/句向量與每個(gè)分級(jí)關(guān)鍵詞的詞/句向量的余弦相似度,并取輸入數(shù)據(jù)各部分對(duì)應(yīng)相似度最大的前兩個(gè)關(guān)鍵詞組成的關(guān)鍵詞集合作為查詢推理的輸入。余弦相似度用兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小,更加注重兩個(gè)向量在方向上的差異,較多地應(yīng)用于文本相似度計(jì)算[21-22];假設(shè)有文檔x=,y=,其余弦相似度為[23]:

(1)

2.3 推理規(guī)則

文中使用Jena推理機(jī)完成本體查詢以及推理模塊。Jena是由HP Labs開發(fā)的Java開發(fā),是一種開源的產(chǎn)生式規(guī)則的前向推理系統(tǒng),可通過(guò)自定義規(guī)則完成個(gè)性化推理,通過(guò)Jena提供的OWL API接口、SPARQL查詢接口和本體推理機(jī)接口,可以實(shí)現(xiàn)基于本體智能應(yīng)用程序[13,24-25]。

文中通過(guò)自定義的推理規(guī)則對(duì)通用規(guī)則進(jìn)行擴(kuò)展,滿足對(duì)實(shí)際應(yīng)用的個(gè)性化需求,本體中有間接關(guān)系的概念可通過(guò)規(guī)則的制訂,經(jīng)過(guò)推理最終被查詢到。Jena的推理規(guī)則分為前向規(guī)則和后向規(guī)則,文中使用的是前向規(guī)則,規(guī)則分為前提和結(jié)論,形式如下,其中term和hterm是三元組或擴(kuò)展三元組[26-27]。

term,…,term->hterm,…,hterm

(2)

表2列出了部分推理規(guī)則及其功能。由于一些政策法規(guī)條款內(nèi)容較為相似,例如,貴陽(yáng)市政府?dāng)?shù)據(jù)共享開放實(shí)施辦法第二十五條與貴州省政務(wù)數(shù)據(jù)資源管理暫行辦法第二十八條。因此文中采用規(guī)則對(duì)條款之間的關(guān)系進(jìn)行處理,使得某一條款“繼承”與其內(nèi)容相似條款的關(guān)系,減輕人工構(gòu)建本體時(shí)的工作量。雖然,文中所涉及的政策法規(guī)沒有沖突,為防止隨著政策法規(guī)增加,存在條款沖突的情況,給出了沖突檢測(cè)的推理規(guī)則,若兩條條款反映的是同一關(guān)鍵詞,但兩條條款涉及的分級(jí)結(jié)果不一致,則兩條條款沖突,此時(shí)效力較低的政策法規(guī)服從效力較高的政策法規(guī),分級(jí)以效力較高的政策法規(guī)作為分級(jí)依據(jù)。表中還給出了獲得分級(jí)結(jié)果的推理規(guī)則,若某條款反映某一關(guān)鍵詞,條款涉及某個(gè)分級(jí)內(nèi)容(這里以無(wú)條件開放為例),則涉及這一關(guān)鍵詞的領(lǐng)域數(shù)據(jù)應(yīng)當(dāng)無(wú)條件開放;若某案例屬于某一平臺(tái),此平臺(tái)涉及某個(gè)分級(jí)內(nèi)容(這里以無(wú)條件開放為例),則此案例應(yīng)當(dāng)無(wú)條件開放。

表2 部分推理規(guī)則及其功能

2.4 查詢實(shí)現(xiàn)

文中基于自定義規(guī)則,采用SPARQL查詢語(yǔ)句實(shí)現(xiàn)推理查詢功能[14,28]。對(duì)查詢推理的每個(gè)輸入詞進(jìn)行分級(jí)結(jié)果查詢,輸出與輸入詞相關(guān)的政策法規(guī)條例,并檢測(cè)是否有與條例相沖突的其他條例;同時(shí)根據(jù)政策法規(guī)條例所屬類別,按其效力進(jìn)行從高到低的排序,并選取效力最高的結(jié)果作為每個(gè)輸入詞對(duì)應(yīng)的中間結(jié)果;若在政策法規(guī)庫(kù)中查找不到結(jié)果,則去典型案例庫(kù)中查找,將輸入詞與案例所屬平臺(tái)、案例名稱作為參考依據(jù)給出。

根據(jù)上述中間結(jié)果,開放以不與開放、依申請(qǐng)開放、無(wú)條件開放的從高到低的級(jí)別等級(jí),共享以不予共享、有條件共享、無(wú)條件共享的級(jí)別等級(jí),輸出開放和共享最高等級(jí)的結(jié)果,并輸出所有對(duì)應(yīng)的法律法規(guī)條例作為參考依據(jù)。

3 系統(tǒng)實(shí)現(xiàn)與結(jié)果評(píng)估

圖6為所創(chuàng)建的GSGD系統(tǒng),輸入擬分級(jí)數(shù)據(jù)后,上述模塊會(huì)對(duì)數(shù)據(jù)進(jìn)行計(jì)算、推理、分析,最終系統(tǒng)會(huì)自動(dòng)給出分級(jí)結(jié)果及其依據(jù),點(diǎn)擊依據(jù)條例,系統(tǒng)會(huì)顯示詳細(xì)的條例信息。

圖6 系統(tǒng)測(cè)試示例

為驗(yàn)證所實(shí)現(xiàn)系統(tǒng)的效果,文中采用歐氏距離(Euclidean distance)作為相似度計(jì)算對(duì)比方法進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)為xx市若干委辦局“行政區(qū) 委辦局名稱 系統(tǒng)名稱 表名稱 字段名稱”目錄,共500條,涉及衛(wèi)計(jì)委、國(guó)稅局、城管局、公安局等委辦局?jǐn)?shù)據(jù)目錄;由于數(shù)據(jù)是無(wú)標(biāo)簽的,因此對(duì)數(shù)據(jù)分別從開放與共享兩個(gè)方向進(jìn)行人工標(biāo)注,以方便對(duì)比實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果也分別從開放與共享兩個(gè)方向進(jìn)行對(duì)比,由表3可看出,不論是開放還是共享方向,文中方法相比于對(duì)比方法在準(zhǔn)確率、F1值上更高,驗(yàn)證了該方法的有效性。

表3 兩種方法對(duì)比結(jié)果(對(duì)共享、開放方向進(jìn)行分級(jí))

4 結(jié)束語(yǔ)

針對(duì)政府?dāng)?shù)據(jù)分級(jí)工作數(shù)據(jù)資源規(guī)模大,支撐依據(jù)不足、主觀性強(qiáng)、精確性差等問題,提出了采用政策法規(guī)庫(kù)以及典型案例庫(kù)對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化分級(jí),設(shè)計(jì)并實(shí)現(xiàn)了基于BERT以及本體構(gòu)建推理的政府?dāng)?shù)據(jù)分級(jí)系統(tǒng)—GSGD。通過(guò)BERT以及相似度計(jì)算獲取本體推理查詢的輸入關(guān)鍵詞,再通過(guò)Jena推理機(jī)進(jìn)行推理查詢,實(shí)現(xiàn)對(duì)政策法規(guī)沖突檢測(cè)、效力級(jí)別分析等功能,最終獲得分級(jí)結(jié)果以及依據(jù);最后通過(guò)對(duì)比實(shí)驗(yàn)分析,驗(yàn)證了該方法的有效性。未來(lái)在以下幾個(gè)方向有待探索:一、采用人工構(gòu)建本體,但隨著政策法規(guī)/案例的增加,應(yīng)嘗試采用自動(dòng)化方法構(gòu)建政策法規(guī)庫(kù)以及案例庫(kù);二、調(diào)整相似度計(jì)算方法,將多種相似度計(jì)算方法融合以得到更精確的結(jié)果。

猜你喜歡
政策法規(guī)案例庫(kù)本體
Abstracts and Key Words
心血管外科教學(xué)案例庫(kù)的建設(shè)及應(yīng)用研究
國(guó)內(nèi)首個(gè)海事司法案例庫(kù)正式上線
水上消防(2021年4期)2021-11-05 08:51:50
基于實(shí)踐應(yīng)用的基坑工程設(shè)計(jì)案例庫(kù)建設(shè)研究
對(duì)姜夔自度曲音樂本體的現(xiàn)代解讀
政策法規(guī)
政策法規(guī)
政策法規(guī)
政策法規(guī)
MTI朝鮮語(yǔ)同聲傳譯教學(xué)案例庫(kù)建設(shè)研究
凯里市| 西乌珠穆沁旗| 白山市| 邢台市| 班玛县| 莱州市| 嘉兴市| 海南省| 确山县| 西峡县| 融水| 张家界市| 阿城市| 六枝特区| 家居| 游戏| 福州市| 南雄市| 老河口市| 汕头市| 洪湖市| 宁津县| 东至县| 枣强县| 尉犁县| 六枝特区| 来宾市| 横峰县| 元江| 平安县| 桐梓县| 烟台市| 伊通| 西盟| 龙泉市| 安宁市| 扎兰屯市| 利辛县| 大英县| 九龙县| 四川省|