邱俊安,邱奇志,周三三,陳先橋,賀 宜
(1.武漢理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430063;2.武漢理工大學(xué) 智能交通系統(tǒng)研究中心, 湖北 武漢 430063)
近年來(lái),全球范圍內(nèi)各類(lèi)突發(fā)事件頻發(fā),給社會(huì)和諧穩(wěn)定和人們生活帶來(lái)了影響和危害。面對(duì)突發(fā)事件的危害,開(kāi)展突發(fā)事件案例檢索研究對(duì)于實(shí)現(xiàn)科學(xué)救援、精準(zhǔn)決策具有重要的現(xiàn)實(shí)意義。案例檢索是尋找與目標(biāo)案例相似的歷史案例,通過(guò)指定策略或設(shè)計(jì)算法從案例庫(kù)中檢索出相似案例(集),從而幫助目標(biāo)案例的決策。目前,已有研究將案例檢索應(yīng)用于火災(zāi)、地震等突發(fā)事件中,證明了案例檢索在應(yīng)急管理中的實(shí)用性和有效性[1-2]。很多學(xué)者針對(duì)案例檢索方法進(jìn)行了研究,主要包括最近鄰法、歸納索引法和神經(jīng)網(wǎng)絡(luò)法等。其中,最近鄰法是最常用的案例檢索方法,該方法通過(guò)屬性的相似度來(lái)衡量案例之間的距離,距離越小的案例越容易被檢索出。如張佰尚等[3]將地震案例的固有屬性特征劃分為確定符號(hào)屬性、確定數(shù)屬性和模糊數(shù)屬性,并通過(guò)計(jì)算這3種類(lèi)型的屬性相似度來(lái)完成案例檢索。韓菁[4-5]等在案例屬性相似度計(jì)算時(shí)考慮了精確數(shù)、區(qū)間數(shù)和語(yǔ)言值等屬性,并在檢索得到的相似案例上分別結(jié)合后悔理論和證據(jù)理論方法對(duì)檢索的結(jié)果進(jìn)行調(diào)整。L?W等[6]提出了一個(gè)基于多個(gè)檢索案例的推理框架,以解決缺失符號(hào)和數(shù)值屬性數(shù)據(jù)的案例推理。WANG等[7]針對(duì)清晰符號(hào)、清晰數(shù)、模糊數(shù)、模糊語(yǔ)言變量和模糊區(qū)間數(shù)5種類(lèi)型的屬性,提出了一種混合相似性度量方法,用于解決計(jì)算機(jī)數(shù)控炮塔概念設(shè)計(jì)的案例推理。
綜上可知,案例屬性的相似度計(jì)算對(duì)于案例檢索方法的基礎(chǔ)研究和應(yīng)用研究都發(fā)揮著十分重要的作用,盡管已有方法可以較好地完成案例檢索,但案例檢索的屬性相似度計(jì)算方面存在局限性,大多數(shù)研究基于案例的數(shù)值屬性、模糊屬性、符號(hào)屬性進(jìn)行突發(fā)事件案例之間的相似度計(jì)算,忽略了突發(fā)事件案例的文本屬性,如事件原因、事件摘要等,這些屬性無(wú)論對(duì)于案例檢索還是案例推理都是不可或缺的。為了解決案例檢索文本相似度的計(jì)算,筆者首先研究了突發(fā)事件案例文本屬性的特性,著重開(kāi)展了中文短文本相似度的研究,提出了基于WNCH(word-embedding based on Ngram, character, and HowNet)的詞語(yǔ)語(yǔ)義相似度計(jì)算方法,以解決案例檢索文本的相似度計(jì)算問(wèn)題。在此基礎(chǔ)上,將文本屬性的相似度計(jì)算引入到案例檢索中,以期提高案例檢索的準(zhǔn)確性。
詞嵌入(word embedding)是自然語(yǔ)言處理領(lǐng)域中常用的方法,主要是將語(yǔ)料庫(kù)中的詞語(yǔ)表示成一個(gè)低維實(shí)數(shù)向量,從而用來(lái)解決文本的不可計(jì)算問(wèn)題。早期的詞向量模型多利用<詞-詞>的映射關(guān)系,只討論了詞語(yǔ)在語(yǔ)料庫(kù)中的分布情況,因此該方法存在單一的共現(xiàn)信息源問(wèn)題,從而使得詞嵌入難以達(dá)到較好的結(jié)果。
PENNINGTON等[8-10]通過(guò)研究發(fā)現(xiàn),在傳統(tǒng)詞嵌入方法中補(bǔ)充“詞”以外的信息,如詞共現(xiàn)次數(shù)等,能夠顯著提升詞嵌入的語(yǔ)義表達(dá)力。筆者的研究是為突發(fā)事件案例檢索服務(wù)的,而結(jié)構(gòu)化的案例屬性多內(nèi)容短小,屬于短文本,傳統(tǒng)詞嵌入方法只考慮了詞語(yǔ)所包含的信息,能獲取的有效語(yǔ)義信息有限。為了獲得更好的詞嵌入效果,筆者引入了兩種改進(jìn)策略:引入Ngram以擴(kuò)展上下文語(yǔ)義信息、引入“字”以增強(qiáng)中文特有的語(yǔ)義信息。
(1)引入Ngram以擴(kuò)展上下文語(yǔ)義信息。Ngram是一種統(tǒng)計(jì)語(yǔ)言模型的方法,其基本思想是將文本內(nèi)容中的詞按照大小為N的窗口進(jìn)行滑動(dòng)操作,形成長(zhǎng)度為N的文本序列,來(lái)考察詞語(yǔ)語(yǔ)義。Ngram的優(yōu)勢(shì)在于其包含了前N-1個(gè)詞所攜帶的信息,產(chǎn)生對(duì)未知信息更強(qiáng)的約束力,進(jìn)而達(dá)到在上下文中獲得詞語(yǔ)語(yǔ)義的目的。QIU等[11-12]研究表明,引入Ngram特征能夠有效提升詞語(yǔ)類(lèi)比和詞語(yǔ)相似性任務(wù)的模型性能。
為了擴(kuò)展上下文語(yǔ)義信息,基于傳統(tǒng)詞嵌入單一的<詞-詞>共現(xiàn)信息,在輸入端引入Ngram共現(xiàn)信息,以<(詞+Ngram)-(詞+Ngram)>替代<詞-詞>共現(xiàn)模式,從而獲得中心詞wt的窗口上下文C(wt)。
t-win≤i≤t+win-n+1}
(1)
式中:wi:i+n為wiwi+1…wi+n-1組成的詞語(yǔ)序列;N為詞語(yǔ)組合中詞語(yǔ)的個(gè)數(shù);win為上下文的窗口大小。
win為2、N為2時(shí)的“詞+Ngram”模型的上下文示例如圖1所示。示例中,文字序列為“我/曾經(jīng)/踏遍/青山/綠水/只為/看/盡/人間/繁華”,以中心詞“青山”為例,未引入Ngram時(shí),該中心詞的上下文為“曾經(jīng)”“踏遍”“綠水”“只為”;引入Ngram(N=2)后,上下文中增加了“曾經(jīng)踏遍”“踏遍青山”“青山綠水”“綠水只為”,可見(jiàn)引入Ngram豐富了中心詞的上下文信息。
圖1 詞+Ngram模型的上下文示例
(2)引入“字”以增強(qiáng)中文特有的語(yǔ)義信息。漢語(yǔ)起源于象形文字,是一種表義文字,從誕生之初就被賦予了豐富的語(yǔ)義信息。筆者從擴(kuò)充語(yǔ)義信息的角度出發(fā),將詞和字進(jìn)行融合。從而將單一的信息源<詞-詞>類(lèi)型擴(kuò)展到<(詞+字)-詞>類(lèi)型,以豐富詞語(yǔ)的語(yǔ)義信息。
定義漢字集合為H,詞語(yǔ)集合為V。h∈H表示一個(gè)字,h表示該字對(duì)應(yīng)的向量;v∈V表示一個(gè)詞語(yǔ),v表示該詞對(duì)應(yīng)的向量。對(duì)于一個(gè)詞語(yǔ)v,融合字的語(yǔ)義信息之后的向量為hv,如式(2)所示。
(2)
式中:T為詞語(yǔ)v中字的個(gè)數(shù);hk為詞語(yǔ)v中第k個(gè)字的向量。
字詞融合示例如圖2所示,可以看出文字序列為“踏遍/青山/綠水”,在計(jì)算詞語(yǔ)“青山”的向量時(shí)融合了單個(gè)字“青”和“山”的向量信息。
圖2 字詞融合示例
根據(jù)以上分析,筆者提出WNC(word-embedding based on Ngram and character)向量模型,在傳統(tǒng)的詞嵌入基礎(chǔ)上,融合了Ngram和字的信息,即WNC既體現(xiàn)了詞語(yǔ)、字所包含的語(yǔ)言學(xué)語(yǔ)義信息,又體現(xiàn)了文本的上下文信息。WNC模型如圖3所示。
圖3 WNC模型
在WNC模型中,筆者采用word2vec中的Skip-gram[13]模型,在輸入端引入詞(word)、Ngram、字(character)信息。將單一的上下文輸入擴(kuò)展到多個(gè)豐富的上下文信息,從多粒度、多層次的上下文語(yǔ)義信息出發(fā),利用統(tǒng)計(jì)學(xué)的方法,最終得到表義能力更強(qiáng)的詞嵌入。
WNC是基于統(tǒng)計(jì)的方法挖掘上下文信息,很難從概念上區(qū)分詞語(yǔ)的含義,也無(wú)法詳細(xì)地展現(xiàn)概念的層次關(guān)系。因此,引入HowNet方法來(lái)解決上述問(wèn)題。
HowNet表示概念間及概念所具有的屬性間關(guān)系的常識(shí)知識(shí)庫(kù),通過(guò)最小意義單位(稱(chēng)之為義原)對(duì)概念進(jìn)行描述。HowNet收錄的詞語(yǔ)可以分為實(shí)詞和虛詞,劉群等[14]根據(jù)HowNet將實(shí)詞的概念描述為包含第一基本義原、其他基本義原、關(guān)系義原、關(guān)系符號(hào)描述的特征結(jié)構(gòu),并通過(guò)這4個(gè)特征計(jì)算實(shí)詞概念之間的相似度。實(shí)詞概念S1,S2的相似度為Sim(S1,S2),如式(3)所示。
(3)
式中:Simi(S1,S2)為實(shí)詞S1,S2的第i個(gè)特征的相似度;β1、β2、β3、β4分別為第一基本義原、其他基本義原、關(guān)系義原和關(guān)系符號(hào)描述的調(diào)節(jié)系數(shù)。
張滬寅等[15]針對(duì)實(shí)詞概念中的具體詞展開(kāi)研究,以第一基本義原替代義項(xiàng)表達(dá)式中的具體詞。筆者在利用HowNet計(jì)算實(shí)詞概念相似度時(shí),引入分布式理論“相似的詞具有相似的上下文”,采用“詞+Ngram+字”的方式計(jì)算實(shí)詞概念中具體詞的語(yǔ)義。為了驗(yàn)證所采用的實(shí)詞概念相似度計(jì)算方法的有效性和合理性,以計(jì)算“美金”與“日元”的概念相似度為例,開(kāi)展了文獻(xiàn)[14]、文獻(xiàn)[15]和筆者方法的對(duì)比實(shí)驗(yàn),對(duì)比結(jié)果如表1所示。
表1 基于HowNet的實(shí)詞概念相似度實(shí)驗(yàn)對(duì)比
“美金”和“日元”這兩個(gè)概念的義項(xiàng)表達(dá)式分別為:美金:DEF={money|貨幣,(US|美國(guó))};日元:DEF={money|貨幣,(Japan|日本)}??梢?jiàn)“美金”和“日元”的第一基本義原都是“money|貨幣”,3種方法計(jì)算第一基本義原的相似度均為1,但是計(jì)算具體詞的相似度方法有所不同。
(1)根據(jù)文獻(xiàn)[14]中的方法,具體詞“US|美國(guó)”和“Japan|日本”不同,具體詞的相似度為0,結(jié)合式(3)計(jì)算得到最終的相似度為0.500。
(2)根據(jù)文獻(xiàn)[15]中的方法,使用第一基本義原來(lái)替代具體詞,具體詞“US|美國(guó)”和“Japan|日本”的第一基本義原均為“place|地方”,因此具體詞“US|美國(guó)”和“Japan|日本”的相似度為1,結(jié)合式(3)得到最終的相似度為1.000。
(3)筆者方法中,首先采用大規(guī)模語(yǔ)料庫(kù)中文維基百科得到詞語(yǔ)的分布式表示,計(jì)算得到具體詞“US|美國(guó)”和“Japan|日本”的相似度為0.530,再由式(3)計(jì)算得到“美金”和“日元”的最終相似度為0.783。
從相似度結(jié)果上來(lái)看,文獻(xiàn)[14]在計(jì)算具體詞的相似度時(shí),沒(méi)有遞歸計(jì)算具體詞的義項(xiàng)表達(dá)式之間的相似度,從而忽略了義項(xiàng)表達(dá)式中義原之間的相似度關(guān)系。文獻(xiàn)[15]在文獻(xiàn)[14]的基礎(chǔ)上進(jìn)行了改進(jìn),使用第一基本義原衡量具體詞之間的相似度,但是實(shí)驗(yàn)結(jié)果中“美金”和“日元”的相似度為1存在一定的不合理性。筆者方法中,引入了分布式理論的計(jì)算結(jié)果,從宏觀上更符合人的主觀認(rèn)識(shí),既能表達(dá)其基本信息,又能從上下文語(yǔ)義中體現(xiàn)不同,在最終結(jié)果中顯示出詞語(yǔ)之間的區(qū)別度。
筆者進(jìn)一步融合WNC和HowNet方法,提出基于WNCH的詞語(yǔ)語(yǔ)義相似度計(jì)算方法。WNCH方法以大規(guī)模語(yǔ)料庫(kù)訓(xùn)練出包含豐富上下文信息的詞嵌入,同時(shí)能準(zhǔn)確表達(dá)概念信息的HowNet,從而獲取詞語(yǔ)的準(zhǔn)確含義。筆者使用調(diào)節(jié)系數(shù)對(duì)WNC和HowNet方法進(jìn)行融合,融合之后的相似度為simtotal,如式(4)所示。
simtotal=αsim1+(1-α)sim2
(4)
式中:α為調(diào)節(jié)系數(shù),其取值范圍為0~1;sim1為基于WNC計(jì)算的詞語(yǔ)相似度;sim2為基于HowNet計(jì)算的詞語(yǔ)相似度。
筆者令α取值分別為0.2, 0.4, 0.6, 0.8, 1.0,并以百度百科語(yǔ)料庫(kù)進(jìn)行測(cè)試,以尋找最優(yōu)的調(diào)節(jié)參數(shù),實(shí)驗(yàn)表明α=0.6時(shí)融合效果最好。
為了說(shuō)明WNCH方法的有效性,將WNCH與傳統(tǒng)詞嵌入(僅使用詞共現(xiàn)信息)方法進(jìn)行對(duì)比,實(shí)驗(yàn)采用2016年NLPCC-ICCPOL的詞語(yǔ)相似度任務(wù)的評(píng)測(cè)數(shù)據(jù)和評(píng)測(cè)指標(biāo)[16],并使用影響力大、內(nèi)容涵蓋廣的中文維基百科數(shù)據(jù)作為詞嵌入的訓(xùn)練數(shù)據(jù)集,計(jì)算得到WNCH方法和傳統(tǒng)詞嵌入方法的詞語(yǔ)相似度結(jié)果分別為0.580、0.405??梢?jiàn)WNCH方法計(jì)算出的詞語(yǔ)相似度相對(duì)于傳統(tǒng)詞嵌入方法具有較明顯的提升,說(shuō)明WNCH方法能夠更加準(zhǔn)確地衡量詞語(yǔ)之間的相似性。
突發(fā)事件案例屬性是表征案例信息的字段,通常包括事件名稱(chēng)、事件時(shí)間、事件地點(diǎn)、事件摘要等信息。針對(duì)突發(fā)事件屬性,黃超等[17]參照歐洲的TSO(tactical situation objection)編碼,結(jié)合我國(guó)突發(fā)事件的特點(diǎn),對(duì)突發(fā)事件案例屬性進(jìn)行了歸納。突發(fā)事件案例屬性多種多樣,在案例檢索中不同類(lèi)型的屬性相似度計(jì)算方法也不一樣。筆者以文獻(xiàn)[17]的研究為基礎(chǔ),對(duì)已有突發(fā)事件案例庫(kù)中的描述屬性進(jìn)行整理,根據(jù)屬性類(lèi)型將突發(fā)事件案例屬性歸納為4種,如表2所示。
表2 突發(fā)事件屬性類(lèi)型
筆者采用最近鄰法的基本思想進(jìn)行突發(fā)事件的案例檢索,針對(duì)目標(biāo)案例先進(jìn)行信息抽取完成結(jié)構(gòu)化處理,再以結(jié)構(gòu)化的目標(biāo)案例作為輸入,通過(guò)計(jì)算目標(biāo)案例與案例庫(kù)中源案例的相似性,最終檢索得到與目標(biāo)案例最相似的案例(集),案例檢索流程如圖4所示。
圖4 案例檢索流程
其中,在進(jìn)行文本屬性相似度計(jì)算時(shí),由于結(jié)構(gòu)化的突發(fā)事件案例文本屬性屬于短文本,先利用WNCH方法計(jì)算文本中關(guān)鍵詞的相似度,再采用文獻(xiàn)[18]中的方法實(shí)現(xiàn)從詞語(yǔ)相似度到文本相似度的計(jì)算,進(jìn)而完成文本屬性的相似度計(jì)算。
突發(fā)事件語(yǔ)料來(lái)源為:中華人民共和國(guó)中央人民政府網(wǎng)站應(yīng)急管理頁(yè)面、中國(guó)應(yīng)急服務(wù)網(wǎng)、中國(guó)安全生產(chǎn)網(wǎng)、中國(guó)安全管理網(wǎng)等,均為影響力大、涉及范圍廣、及時(shí)更新、權(quán)威性高的突發(fā)事件新聞網(wǎng)站。采用文獻(xiàn)[19]中的方法對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,得到滿足案例檢索要求的結(jié)構(gòu)化案例庫(kù)。
為了對(duì)比有無(wú)文本屬性對(duì)案例檢索結(jié)果的影響,筆者設(shè)計(jì)了對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)I:不包含文本屬性的案例檢索。共考慮6個(gè)屬性,分別為事件時(shí)間、事件地點(diǎn)、經(jīng)濟(jì)損失、人員傷亡、事件等級(jí)、事件類(lèi)型,采用模糊層次分析法得到對(duì)應(yīng)的權(quán)重為{0.126,0.094,0.235,0.173,0.184,0.188}。
實(shí)驗(yàn)II:包含文本屬性的案例檢索。共考慮9個(gè)屬性信息,分別為事件名稱(chēng)、事件時(shí)間、事件地點(diǎn)、經(jīng)濟(jì)損失、人員傷亡、事件摘要、事件類(lèi)型、事件等級(jí)、事件原因,采用模糊層次分析法得到對(duì)應(yīng)的權(quán)重為{0.120,0.080,0.060,0.150,0.110,0.133,0.120,0.117,0.110}。其中,事件名稱(chēng)、事件摘要和事件原因這3個(gè)文本屬性采用筆者提出的WNCH方法計(jì)算屬性相似度。
選取“江蘇連云港12·9重大爆炸事故”作為目標(biāo)案例,目標(biāo)案例的屬性信息如表3所示,案例檢索實(shí)驗(yàn)結(jié)果對(duì)比如表4所示,文本屬性相似度計(jì)算結(jié)果如表5所示。
表3 目標(biāo)案例的屬性信息
表4 案例檢索實(shí)驗(yàn)結(jié)果對(duì)比
表5 文本屬性相似度計(jì)算結(jié)果
綜合表4和表5的結(jié)果可知:
(1)兩組實(shí)驗(yàn)相似度排名前5的案例中,不但存在3個(gè)相同案例(案例編號(hào)分別為485,188和501),而且所有檢索出的案例均為爆炸、火災(zāi)類(lèi)事故災(zāi)害案例,可見(jiàn)基于最近鄰的屬性相似度計(jì)算能夠有效檢索到相似的案例。
(2)兩組實(shí)驗(yàn)中3個(gè)相同案例的相似度排序卻不盡相同,表5則進(jìn)一步給出了3個(gè)案例在事件名稱(chēng)、事件原因、事件摘要的相似度結(jié)果,不難發(fā)現(xiàn):①案例485與目標(biāo)案例最為接近,均為工業(yè)爆炸,且均涉及“苯”這個(gè)化學(xué)物質(zhì)。②案例188的關(guān)鍵信息有“瓦斯”“煤礦”,與目標(biāo)案例發(fā)生場(chǎng)景和原因均有明顯區(qū)別,在實(shí)驗(yàn)I中案例188的相似度排名第一,而在實(shí)驗(yàn)II中案例188的相似度排名第三;同時(shí),案例501屬于非工業(yè)環(huán)境下的“火災(zāi)”事故,與目標(biāo)案例的發(fā)生場(chǎng)景和原因也有明顯區(qū)別,在實(shí)驗(yàn)I中案例501的相似度排名第二,而在實(shí)驗(yàn)II中案例501的相似度排名第五,說(shuō)明無(wú)文本屬性相似度計(jì)算的情況,無(wú)法有效識(shí)別兩個(gè)案例中的關(guān)鍵信息區(qū)別??梢?jiàn)文本相似度的引入能夠提取更多的有效信息,如事件原因,這也正是案例檢索的重要依據(jù)。
綜上可知,增加文本屬性的案例檢索能夠精確、有效地獲取案例中文本包含的關(guān)鍵信息,從而有效的案例檢索、應(yīng)急管理輔助決策提供堅(jiān)實(shí)的語(yǔ)義基礎(chǔ)。
筆者針對(duì)突發(fā)事件案例的特點(diǎn),在數(shù)值、符號(hào)、模糊屬性相似度計(jì)算的基礎(chǔ)上增加了文本屬性的相似度計(jì)算,主要解決了兩個(gè)問(wèn)題:①在傳統(tǒng)詞嵌入模型中增加了Ngram和漢字的語(yǔ)義信息,同時(shí)融合了HowNet知識(shí)庫(kù),有效改進(jìn)了突發(fā)事件案例屬性短文本的詞語(yǔ)語(yǔ)義相似度計(jì)算。②將文本屬性的相似度計(jì)算引入到案例檢索中,以最近鄰法為基礎(chǔ),給出突發(fā)事件案例檢索方案,豐富了案例檢索中的屬性信息,提高了案例檢索的準(zhǔn)確度。
筆者將自然語(yǔ)言處理領(lǐng)域內(nèi)的技術(shù)和方法應(yīng)用到應(yīng)急管理中,為突發(fā)事件案例檢索提供了更精準(zhǔn)的解決方法,所提出的方法對(duì)文本處理、文本分析也具有一定的理論與實(shí)踐意義。但突發(fā)事件案例難免存在屬性缺失,筆者沒(méi)有考慮屬性缺失對(duì)突發(fā)事件案例檢索的影響。下一步工作的研究重點(diǎn)是利用突發(fā)事件案例中的文本屬性來(lái)弱化案例屬性缺失對(duì)案例檢索結(jié)果的影響。
武漢理工大學(xué)學(xué)報(bào)(信息與管理工程版)2020年3期