李攀鋒, 林 鋒, 蔣宗神
(四川大學(xué)計算機(jī)學(xué)院, 成都 610065)
關(guān)系抽取是知識工程領(lǐng)域的重要任務(wù)之一,也是知識圖譜構(gòu)建的核心步驟.它的目的在于從無結(jié)構(gòu)的自然語言文本中抽取出結(jié)構(gòu)化的知識,得到文本內(nèi)含的語義關(guān)系,進(jìn)而用于知識庫的構(gòu)建、智能問答、推薦系統(tǒng)等.
目前常見的關(guān)系抽取方法主要分為三種:(1) 基于模板匹配的方法[1];(2) 基于監(jiān)督學(xué)習(xí)的方法[2];(3) 基于半監(jiān)督或無監(jiān)督的方法.
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,基于監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的關(guān)系抽取方法應(yīng)用十分廣泛[3].Zeng等[4]在2014年首次提出采用卷積神經(jīng)網(wǎng)絡(luò)來提取句子的語義特征,進(jìn)而實(shí)現(xiàn)關(guān)系抽?。籞hang等[5]在2015年采用了雙向長短期記憶網(wǎng)絡(luò)并借助依存分析和命名實(shí)體識別來解決關(guān)系抽取問題;諶予恒等[6]在2020年采用了結(jié)合注意力機(jī)制與殘差網(wǎng)絡(luò)進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取.這些方法大多用于處理如人物關(guān)系之類的關(guān)系抽取問題,因?yàn)樵谶@種場景下,關(guān)系類別明確、訓(xùn)練語料豐富[7].但本文提出的關(guān)系抽取方法是為了解決涉案財物知識庫構(gòu)建的特定問題,即是立足于抽取“業(yè)務(wù)單位實(shí)體”與“財物實(shí)體”之間存在的“處置方式”關(guān)系.受限于涉案財物知識庫場景訓(xùn)練語料少且單一以及識別準(zhǔn)確率要求高的特點(diǎn),機(jī)器學(xué)習(xí)的關(guān)系抽取方法在涉案財物領(lǐng)域并不適用,而采用基于模板匹配的方法更為合理.
本文提出的基于多模板模糊競爭的涉案財物關(guān)系抽取方法,根據(jù)涉案財物處置的實(shí)際場景需求,在常規(guī)三元組關(guān)系的基礎(chǔ)上擴(kuò)充了“財物狀態(tài)”和“處置條件”兩個屬性元素,定義為五元組關(guān)系,以不同維度設(shè)計了三個關(guān)系抽取模板,從法律法規(guī)文本自動抽取五元組關(guān)系,并運(yùn)用模糊邏輯計算各個模板抽取結(jié)果的置信度,使得三個模板間相互競爭,進(jìn)一步提高抽取結(jié)果的準(zhǔn)確度.
涉案財物知識庫指在根據(jù)現(xiàn)有法律法規(guī)自動完成刑事案件中涉案財物處置的相關(guān)知識融合,為司法實(shí)踐中公檢法等執(zhí)法司法單位的辦案人員提供支持[8].核心的工作是從法律法規(guī)出發(fā),抽取出“業(yè)務(wù)單位實(shí)體”與“財物實(shí)體”之間的處置關(guān)系.由于該領(lǐng)域的特殊性,在創(chuàng)建知識庫過程中完成關(guān)系抽取面臨著的挑戰(zhàn)如下:
(1) 訓(xùn)練語料少且單一.涉案財物知識庫的構(gòu)建目標(biāo)是基于法律法條自動完成知識抽取,語料主要來源于正式實(shí)施的法律法規(guī)中與涉案財物處置相關(guān)的法條,這造成進(jìn)行關(guān)系抽取時訓(xùn)練語料不僅遠(yuǎn)遠(yuǎn)少于通用知識庫,也少于一般的法律知識庫.
(2) 識別準(zhǔn)確率要求高.涉案財物知識庫的應(yīng)用目標(biāo)是為司法實(shí)踐中的一線辦案人員提供支持,這對知識庫中知識的準(zhǔn)確性提出了極高的要求.為保證知識庫的正確性和減少后續(xù)工作,關(guān)系抽取算法的抽取準(zhǔn)確率應(yīng)盡可能提高.
上述問題使得涉案財物知識庫構(gòu)建過程中的關(guān)系抽取區(qū)別于一般關(guān)系抽取,成為了一個獨(dú)特的、挑戰(zhàn)性的問題.
實(shí)體關(guān)系三元組是由頭實(shí)體、尾實(shí)體、實(shí)體間關(guān)系組成[9].在人物關(guān)系領(lǐng)域,即是形如[“姚明”,“葉莉”,“夫妻”]這樣的人物關(guān)系三元組,其中“姚明”為頭實(shí)體,“葉莉”為尾實(shí)體,“夫妻”為實(shí)體間關(guān)系[10].
在涉案財物領(lǐng)域,關(guān)系三元組稍有不同.在法律法規(guī)文本中,財物實(shí)體和業(yè)務(wù)單位實(shí)體直接存在著某種處置關(guān)系,如[“公安機(jī)關(guān)”,“涉案財物”,“扣押”],其中“公安機(jī)關(guān)”為頭實(shí)體,“涉案財物”為尾實(shí)體,“扣押”關(guān)系同時作為一種處置方式,本質(zhì)上是“公安機(jī)關(guān)”作為主語,對賓語“涉案財物”實(shí)施“扣押”動作.由此形成了包括“業(yè)務(wù)單位實(shí)體”、“處置方式”、“財物實(shí)體”的三元組關(guān)系模式,對應(yīng)于司法實(shí)踐的具體任務(wù),即是公安機(jī)關(guān)在辦理各類刑事案件以及檢察機(jī)關(guān)在職務(wù)犯罪案件偵查過程中,對與案件有關(guān)的物品、款項(xiàng)等依法進(jìn)行扣押、查封、凍結(jié)等操作.
基于法律法規(guī)的涉案財物關(guān)系抽取即是從法律法規(guī)文本中抽取出涉案財物處置的規(guī)則信息.這種規(guī)則信息對于司法實(shí)踐中涉案財物的智能管理有著重要的意義.考慮到司法實(shí)踐的嚴(yán)謹(jǐn)性,單純的三元組信息并不能較好地反映業(yè)務(wù)單位執(zhí)行涉案財物處置的具體情形.因此,本文在傳統(tǒng)三元組關(guān)系的基礎(chǔ)上,針對涉案財物處置實(shí)際場景,為“財物實(shí)體”增加了“財物狀態(tài)”屬性,為“處置方式”增加了“處置條件”屬性,形成了形如[“業(yè)務(wù)單位實(shí)體”,“處置方式”,“處置條件”,“財物實(shí)體”,“財物狀態(tài)”]的五元組關(guān)系模式.
在與涉案財物處置相關(guān)的法律文件中,法條準(zhǔn)確地描述了在何種情況下某個機(jī)構(gòu)可以對某種財物實(shí)施特定的處置.涉案財物關(guān)系抽取任務(wù)即是從法條文本中自動抽取出這種處置規(guī)則.即是抽取出形如[“業(yè)務(wù)單位實(shí)體”,“處置方式”,“處置條件”,“財物實(shí)體”,“財物狀態(tài)”]的五元組關(guān)系.
在目前常規(guī)的關(guān)系抽取任務(wù)中,往往采用基于神經(jīng)網(wǎng)絡(luò)的方法,本質(zhì)上是將抽取問題轉(zhuǎn)化為了分類問題[11],在諸如人物關(guān)系這種關(guān)系類型確定的場景下效果較好,由于本文研究的涉案財物關(guān)系抽取任務(wù)特殊,難以轉(zhuǎn)化為分類問題,采用模板匹配的方法進(jìn)行抽取,抽取的五元組示例如下.
對法條文本:“人民法院在必要的時候,可以采取保全措施,查封、扣押或者凍結(jié)被告人的財產(chǎn).”內(nèi)含如表1所示的五元組關(guān)系.
表1 五元組關(guān)系
在上述例子中,實(shí)體與關(guān)系之間的相對位置較為常規(guī),且各元素成分相對獨(dú)立,抽取過程中干擾信息較少.
但對另一個法條文本:“對查封、扣押的財物、文件、郵件、電報或者凍結(jié)的存款、匯款、債券、股票、基金份額等財產(chǎn),經(jīng)查明確實(shí)與案件無關(guān)的,應(yīng)當(dāng)在三日以內(nèi)解除查封、扣押、凍結(jié),予以退還.”
該法條中語法結(jié)構(gòu)有所不同,財物實(shí)體進(jìn)行了前置,且財物狀態(tài)搭配復(fù)雜,抽取難度較大.
可見,在涉案財物關(guān)系抽取任務(wù)中,由于語言習(xí)慣的差異,單個模板難以較好地應(yīng)對不同結(jié)構(gòu)的法條,因此有必要從不同維度設(shè)計多個模板,以應(yīng)對不同的語言現(xiàn)象.但由此產(chǎn)生了另一個問題,即多個模板抽取的結(jié)果如何整合的問題.本文為此提出了一種基于模糊邏輯的方法,以評判多個模板抽取結(jié)果的置信度,競爭得出質(zhì)量較優(yōu)的結(jié)果.
涉案財物關(guān)系抽取的初始數(shù)據(jù)是法律文件,但模板匹配的處理對象是單句法條,因此,需要對初始法律文件進(jìn)行預(yù)處理,以適配模板匹配,處理流程如圖1所示.
首先,對輸入的法律文件進(jìn)行段落解析,得到段落集A,對于每一個段落,判斷其是否是居中的標(biāo)題,若是則忽略該段落,否則利用正則表達(dá)式提取法條序號及法條內(nèi)容.通過以上步驟得到了帶有序號標(biāo)記的法條集A′.后續(xù)根據(jù)涉案財物處置相關(guān)的特征詞過濾掉與涉案財物處置無關(guān)的法條,得到最終有效的法條集A″.
圖1 預(yù)處理流程圖Fig.1 Flow chart of preprocessing
3.2.1 模板設(shè)計基礎(chǔ)說明 本文以不同的維度設(shè)計了三個抽取五元組關(guān)系的模板.下面就三個模板的公共部分做說明.
模板輸入輸出:1) 輸入:T、W1、W2、W3、W4、W5;2) 輸出:R.其中,T為輸入的法條文本;W1、W2、W3、W4、W5為人工整理的詞典[12](W1為財物實(shí)體詞典;W2為業(yè)務(wù)單位實(shí)體詞典;W3為觸發(fā)詞典;W4為處置方式詞典;W5為財物狀態(tài)詞典).R為輸出的5元組關(guān)系集合.
模板偽代碼中將用到的重要函數(shù)如表2.
表2 函數(shù)說明
3.2.2 模板1設(shè)計 模板1是以詞為單元進(jìn)行匹配,首先確定財物實(shí)體的位置,以此為中心檢索其余4個元素.具體匹配規(guī)則如下.
輸入:T、W1、W2、W3、W4、W5
輸出:R
(1)W← cut_w(T)
(2)p← DTW(0,len(W),W,W1)
(3)t← DTW(0,len(W),W,W3)
(4)P← PTW(0,len(W),W,W1)
(5) ift≤pthenf← True
(6) end if
(7)C← {GCT(min(t,p),max(t,p),W)}
(8)S← PTW(p,0,W,W5)
(9) iffis not True then
(10)M← PTW(t,len(W),W,W4)
(11) else
(12)M← PTW(p,len(W),W,W4)
(13) ifM== ? then
(14)M← PTW(t,p,W,W4)
(15) end if
(16) end if
(17)G← PTW(t,0,W,W2)
(18)R←P×G×M×S×C
(19) returnR
3.2.3 模板2設(shè)計 模板2同樣是以詞為單元進(jìn)行匹配,但首先確定的是業(yè)務(wù)單位實(shí)體的位置,以此為中心檢索其余4個元素.匹配規(guī)則如下.
輸入:T、W1、W2、W3、W4、W5
輸出:R
(1)W← cut_w(T)
(2)G← PTW(0,len(W),W,W2)
(3) ifG≠ ? then
(4)n1← DTW(0,len(W),W,W2),n2← 0
(5) elsen1← 0,n2← len(W)
(6) end if
(7)P← PTW(n1,n2,W,W1)
(8)t←DTW(0,len(W),W,W3)
(9)S← PTW(t,0,W,W5)
(10)M← PTW(t,len(W),W,W4)
(11)s← DTW(t,0,W,W5)
(12)C← {GCT(s,len(W),W)}
(13)R←P×G×M×S×C
(14) returnR
3.2.4 模板3設(shè)計 模板3是以子句為單元進(jìn)行匹配.模板3中認(rèn)為業(yè)務(wù)單位實(shí)體與處置方式應(yīng)當(dāng)同屬一個子句,財物實(shí)體與財物狀態(tài)屬性應(yīng)當(dāng)同屬一個子句,處置條件屬性單獨(dú)屬于一個子句.具體匹配規(guī)則如下.
輸入:T、W1、W2、W3、W4、W5
輸出:R
(1)Q← cut_c(T)
(2) selectqinQthat 包含業(yè)務(wù)單位實(shí)體或處置方式
(3)Q←Q- {q}
(4)W← cut_w(q)
(5)G← PTW(0,len(W),W,W2)
(6)M← PTW(0,len(W),W,W4)
(7) selectqinQthat 包含財物實(shí)體或財物狀態(tài)
(8)Q←Q- {q}
(9)W← cut_w(q)
(10)P← PTW(0,len(W),W,W1)
(11)S← PTW(0,len(W),W,W5)
(12) selectqinQthat 包含處置條件
(13)Q←Q- {q}
(14)W← cut_w(q)
(15)P← {GCT(0,len(W),W)}
(16)R←P×G×M×S×C
(17) returnR
3.3.1 數(shù)值化 本文擬利用模糊邏輯對模板抽取出的五元組關(guān)系進(jìn)行打分,進(jìn)而實(shí)現(xiàn)多個模板間抽取結(jié)果的獎懲機(jī)制,綜合勝出置信度較高的五元組關(guān)系.鑒于模糊邏輯適用于數(shù)值計算[13],而五元組關(guān)系為文本數(shù)據(jù),加之初始抽取的五元組關(guān)系存在空值干擾,因此,首先定義五元組各元素補(bǔ)全方法及數(shù)值化方法.
(1) 初始抽取數(shù)據(jù)如下所示.
(2) 補(bǔ)全過程:
1) 通過實(shí)驗(yàn)數(shù)據(jù)確定三個模板初始置信度:w1,w2,w3;
2) 對于{a,b,c,d,e}中的每一種元素x:
(a) 篩選出x1,x2,x3中的非空元素,記作集合R;
(b) 選出集合R中對應(yīng)模板置信度最大的元素r;
(c) 用r補(bǔ)全x1,x2,x3中的空值元素;
(d) 若R為空集,則x1,x2,x3置為“空”.
(3) 補(bǔ)全后進(jìn)行數(shù)值化,對于每一個元素xi,其數(shù)值化結(jié)果v計算公式如下.
x∈{a,b,c,d,e},i∈{1,2,3}
(1)
其中,sim為文本相似度計算函數(shù),經(jīng)實(shí)驗(yàn)嘗試,摒棄了常規(guī)的基于詞袋的余弦相似度方法,實(shí)際采用的相似度方法如下.
輸入:s1,s2
輸出:t
(1)Q← {},P← {},m← 0
(2) foriins1do
(3)Q[i] ←Q.get(i,0) + 1
(4) end if
(5) forjins2do
(6) ifP.contains(j) then
(7)n←P[j]
(8) else
(9)n←Q.get(j,0)
(10) end if
(11)P[j] ←n-1
(12) ifn> 0 thenm←m+ 1
(13) end if
(14) end for
(15)t←2*[m/(len(s1) + len(s2))]
(16) returnt
3.3.2 模糊化 通過數(shù)值化處理后,每個模板抽取的五元組關(guān)系均如以下格式:[abcde] ,其中,各元素均為0到1之間的浮點(diǎn)數(shù).
在模糊化階段,定義每個元素x均隸屬于P、A、G三個集合.其中,P集合和G集合采用梯形隸屬函數(shù),A集合采用三角形隸屬函數(shù)[14].如圖2所示.
圖2中,橫軸為輸入的元素浮點(diǎn)數(shù)值,縱軸為對應(yīng)的各集合的隸屬度.p1,p2,a,d,g1,g2為各隸屬度函數(shù)的參數(shù).
通過隸屬函數(shù)模糊化后,得到五元組各元素隸屬于PAG三個集合的隸屬度,如圖3所示.
圖2 隸屬函數(shù)圖Fig.2 Image of membership functions
圖3 隸屬示意圖Fig.3 Diagram of affiliation
3.3.3 規(guī)則化 通過模糊化處理后,需要根據(jù)模糊規(guī)則和模糊邏輯的運(yùn)算進(jìn)行重新組合.五元組各元素均隸屬于PAG三個集合,五種元素不同隸屬集合組合情況共有35種,如下所示.
對于每一種組合,通過規(guī)則指定最終的隸屬集合以及相應(yīng)的隸屬度.為減少模糊規(guī)則數(shù)量,本文簡化規(guī)則如下.
1) 定義.
w(Px)=0,w(Ax)=1,w(Gx)=2,
x∈{a,b,c,d,e}
(2)
2) 對于任意一種組合:
S=(Ya,Yb,Yc,Yd,Ye),Y∈{P,A,G},
(3)
3) 隸屬集合:
(4)
4) 隸屬度:
V(S)=min(Ya,Yb,Yc,Yd,Ye)
(5)
3.3.4 去模糊 通過規(guī)則化處理后,得到了各種組合情況下對應(yīng)的隸屬集合以及隸屬度,借助去模糊化將其轉(zhuǎn)化為最終評判五元組關(guān)系質(zhì)量的數(shù)值.
本文采用加權(quán)平均判決法.
(6)
其中,F(xiàn)Si為規(guī)則化階段得到的隸屬度;OWi為對應(yīng)隸屬集合的權(quán)重系數(shù).在本文中,取值如下.
(7)
其中,p2,a,g1為圖2中隸屬度函數(shù)參數(shù).
3.3.5 模板競爭 三個模板抽取的五元組關(guān)系通過上述模糊計算,得到三個output值,最高值對應(yīng)的模板勝出,本次抽取結(jié)果以該模板為準(zhǔn).同時更新三個模板置信度,更新規(guī)則如下.
(1) 勝出的模板:
wi=wi+(1-wi)*0.001
(8)
(2) 其余模板:
wj=wj-wj*0.0005
(9)
本文的實(shí)驗(yàn)數(shù)據(jù)來自“法律法規(guī)數(shù)據(jù)庫”,共選取了10個與涉案財物處置相關(guān)的法律文件,其中1~4號文件用于模板初值置信度確定,5~10號文件用于算法效果測試.
通過人工對上述法律文件進(jìn)行整理,共標(biāo)定五元組數(shù)據(jù)1 450條.數(shù)據(jù)格式:[文件名,法條序號,法條內(nèi)容,五元組].
本文使用正確率作為評價指標(biāo)對關(guān)系抽取的效果進(jìn)行評估.考慮到五元組關(guān)系的特殊性,定義:
有測試結(jié)果S=[s1,s2,…,si],標(biāo)定數(shù)據(jù)K=[k1,k2,…,ki].若匹配度q>0.6,則認(rèn)為抽取成功.
(10)
正確率的計算方法如下.
(11)
本文同時進(jìn)行了3元組和5元組抽取效果的評估,在計算3元組正確率時,i=3,計算5元組正確率時,i=5.
本文利用選取的涉案財物處置相關(guān)的法律文件,對基于多模板模糊競爭(MTFC)的方法進(jìn)行了實(shí)驗(yàn),同時將其與單模板抽取方法(模板1、模板2、模板3)、基于非空元素數(shù)量的投票方法(NONV)進(jìn)行對比.
首先,我們運(yùn)用三個模板分別對1~4號文件進(jìn)行關(guān)系抽取,三元組抽取正確數(shù)目的比值約為33∶37∶30.因此,我們設(shè)定三個模板初始置信度:
w1=0.33;w2=0.37;w3=0.3.
在基于多模板模糊競爭方法的實(shí)驗(yàn)中,共有如下8個參數(shù):p1,p2,a,d,g1,g2(圖2隸屬度函數(shù)參數(shù));k1,k2(式(4)模糊規(guī)則參數(shù)).
為降低參數(shù)選取難度,設(shè)定整數(shù)參數(shù)步距為1,浮點(diǎn)數(shù)參數(shù)步距為0.1,并將單輪實(shí)驗(yàn)參數(shù)調(diào)整數(shù)量限制為2個.實(shí)驗(yàn)表明,當(dāng)p1=0.3,p2=0.5,a=0.5,d=0.2,g1=0.7,g2=0.9,k1=5,k2=8時,多模板模糊競爭方法有較優(yōu)的效果.在5~10號法律文件上,各方法實(shí)驗(yàn)結(jié)果如表3和表4所示.可以看出,在8號文件上,多模板模糊競爭方法的五元組正確率沒有明顯的提升,但在其他情況下,多模板模糊競爭方法的正確率較其余方法,均有顯著優(yōu)勢.總體來看,如圖4所示,多模板模糊競爭方法對三元組及五元組關(guān)系抽取效果明顯.
表3 三元組正確率
表4 五元組正確率
圖4 綜合正確率Fig.4 Comprehensive accuracy
本文提出了一種基于多模板模糊競爭的涉案財物關(guān)系抽取方法,從不同維度設(shè)計了三個涉案財物五元組關(guān)系抽取的模板,并借助模糊邏輯算法,競爭出較優(yōu)的結(jié)果.實(shí)驗(yàn)表明,在涉案財物關(guān)系抽取任務(wù)中,基于多模板模糊競爭的方法效果優(yōu)于單模板,也優(yōu)于基于非空元素數(shù)量的投票方法.因此,可以在涉案財物知識庫構(gòu)建過程中引入該方法,以較好地適應(yīng)其訓(xùn)練語料少且單一以及識別準(zhǔn)確率要求高的特點(diǎn),為后續(xù)知識推理奠定基礎(chǔ).
四川大學(xué)學(xué)報(自然科學(xué)版)2021年4期