張小韜,季小龍
(1. 南瑞集團(tuán)有限公司(國(guó)網(wǎng)電力科學(xué)研究院有限公司),南京 211106;2.北京科東電力控制系統(tǒng)有限責(zé)任公司,北京 100192)
隨著新型電力系統(tǒng)的建設(shè),電網(wǎng)運(yùn)行特性和運(yùn)行方式也將發(fā)生變化,電網(wǎng)調(diào)控業(yè)務(wù)越來(lái)越復(fù)雜,調(diào)控人員工作強(qiáng)度也越來(lái)越大,這對(duì)調(diào)控業(yè)務(wù)的自動(dòng)化、智能化提出了更高的要求[1-3]。電力調(diào)度文本中含有大量調(diào)度人員處置業(yè)務(wù)的經(jīng)驗(yàn)、方法和規(guī)定,現(xiàn)行調(diào)控方式主要以人工經(jīng)驗(yàn)分析為主,在處置電網(wǎng)業(yè)務(wù)過(guò)程中,調(diào)度人員沒(méi)有時(shí)間查閱復(fù)雜繁多的文本,導(dǎo)致電力調(diào)度文本利用率低、應(yīng)用效果差。因此,通過(guò)電子化電力調(diào)度文本使其能夠在線(xiàn)進(jìn)行檢索,有助于提高電力調(diào)度文本的利用率和調(diào)度業(yè)務(wù)處置的智能化水平。
近年來(lái),人工智能和自然語(yǔ)言處理技術(shù)得到高速發(fā)展,并且在金融、醫(yī)療、教育等領(lǐng)域取得了顯著成果,知識(shí)圖譜和文本相似技術(shù)作為其重要的技術(shù)手段,被廣泛應(yīng)用到各個(gè)領(lǐng)域[4-6],在電力調(diào)控領(lǐng)域也得到了應(yīng)用和發(fā)展。知識(shí)圖譜本質(zhì)上是一種語(yǔ)義網(wǎng)絡(luò)[7-8],通過(guò)實(shí)體和實(shí)體間關(guān)系表征物理世界事物之間的聯(lián)系,以“實(shí)體-關(guān)系-實(shí)體”三元組的形式將各知識(shí)單元鏈接起來(lái)。文本相似度算法可以定量描述不同的自然語(yǔ)言文本間的相似度,是實(shí)現(xiàn)自然語(yǔ)言文本檢索和知識(shí)融合的有效手段。文獻(xiàn)[9]基于注意力的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)建立調(diào)度規(guī)程文本知識(shí)抽取模型,為構(gòu)建電網(wǎng)調(diào)控知識(shí)庫(kù)提供知識(shí)要素。文獻(xiàn)[10]基于深度學(xué)習(xí)網(wǎng)絡(luò)識(shí)別電力設(shè)備檢修文本中設(shè)備、故障現(xiàn)象等實(shí)體,為設(shè)備檢修提供知識(shí)要素。文獻(xiàn)[11]基于混合神經(jīng)網(wǎng)絡(luò)建立電力調(diào)度文本事件抽取模型,實(shí)現(xiàn)故障處置預(yù)案的實(shí)體和實(shí)體關(guān)系的解析,可以為故障智能處置提供知識(shí)要素。文獻(xiàn)[12]基于正則表達(dá)式和文本卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了故障處置預(yù)案實(shí)體識(shí)別和操作事件語(yǔ)義理解,為故障處置預(yù)案在線(xiàn)推送提供了基礎(chǔ)。綜上所述,目前對(duì)電力調(diào)度文本的研究多集中在電力實(shí)體識(shí)別方面,難以對(duì)大規(guī)模的形式復(fù)雜的電力調(diào)度文本進(jìn)行建模。目前調(diào)度員亟需從大規(guī)模電力調(diào)度文本中快速和準(zhǔn)確地獲取關(guān)鍵信息,但缺乏對(duì)大規(guī)模電力調(diào)度文本精細(xì)化檢索方面的研究。
針對(duì)現(xiàn)行電力調(diào)度文本利用率低和應(yīng)用效果差的問(wèn)題,提出基于自然語(yǔ)言理解的電力調(diào)度文本語(yǔ)義檢索方法。根據(jù)電力調(diào)度文本特點(diǎn)和應(yīng)用方式,基于正則表達(dá)式對(duì)電力調(diào)度文本進(jìn)行解析,提取出檢索關(guān)鍵信息以及對(duì)應(yīng)的解釋文本內(nèi)容。將顆?;碾娏φ{(diào)度文本信息以“實(shí)體-關(guān)系-實(shí)體”三元組形式鏈接形成電力調(diào)度文本知識(shí)圖譜,即電力調(diào)度文本語(yǔ)義知識(shí)庫(kù)?;谖谋鞠嗨贫燃夹g(shù)計(jì)算待檢索調(diào)度信息與電力調(diào)度文本知識(shí)圖譜中實(shí)體信息的相似距離,將相似距離最近的實(shí)體信息作為檢索內(nèi)容,并通過(guò)多個(gè)區(qū)域電網(wǎng)調(diào)控中心電力調(diào)度文本驗(yàn)證算法的有效性。
20世紀(jì)50年代,正則表達(dá)式作為一個(gè)簡(jiǎn)單計(jì)算模型被提出,隨后Thompson等人將其匹配功能引入計(jì)算機(jī)主流應(yīng)用。正則表達(dá)式由一系列ASCII字符構(gòu)成,并包含一部分元字符,如點(diǎn)號(hào)(.)、星號(hào)(*)和垂直符號(hào)(|)等,這些元字符增強(qiáng)了正則表達(dá)式豐富的表現(xiàn)能力。正則表達(dá)式是用于描述一組字符串特征的模式,用來(lái)匹配特定的字符串。通過(guò)元字符+普通字符進(jìn)行模式描述,實(shí)現(xiàn)對(duì)文本的模糊匹配。這種工具適合處理自然語(yǔ)言文本,使用簡(jiǎn)單方便,效果顯著。
電力調(diào)度文本是對(duì)調(diào)度員處置業(yè)務(wù)方法、規(guī)定、經(jīng)驗(yàn)等信息的總結(jié)和提煉。文本結(jié)構(gòu)較為規(guī)范,一般以各級(jí)標(biāo)題和各級(jí)標(biāo)題所對(duì)應(yīng)的內(nèi)容的形式呈現(xiàn),適合用正則表達(dá)式定義電力調(diào)度文本結(jié)構(gòu)匹配模式,實(shí)現(xiàn)對(duì)電力調(diào)度文本關(guān)鍵標(biāo)題和對(duì)應(yīng)的內(nèi)容的解析,一般調(diào)度文本的關(guān)鍵信息均存在調(diào)度文本各章節(jié)的標(biāo)題中。在定義正則表達(dá)式匹配模式過(guò)程中,根據(jù)電力調(diào)度文本標(biāo)記數(shù)據(jù)編號(hào)和格式的特點(diǎn),將標(biāo)題分為一級(jí)標(biāo)題、二級(jí)標(biāo)題、三級(jí)標(biāo)題和四級(jí)標(biāo)題等,依據(jù)各級(jí)標(biāo)題的特點(diǎn)定義正則表達(dá)式匹配模式。通過(guò)文本結(jié)構(gòu)解析表達(dá)式可以得到電力調(diào)度文本各級(jí)標(biāo)題以及各級(jí)標(biāo)題對(duì)應(yīng)的解釋內(nèi)容,從而得到電力調(diào)度文本關(guān)鍵信息與其對(duì)應(yīng)的解釋內(nèi)容。在對(duì)電力調(diào)度文本檢索時(shí),使用待檢索問(wèn)題模糊匹配各級(jí)標(biāo)題中的關(guān)鍵信息,將匹配程度最高的關(guān)鍵信息對(duì)應(yīng)的解釋內(nèi)容作為最佳檢索內(nèi)容推薦給調(diào)度員以供參考。
知識(shí)圖譜是一種語(yǔ)義知識(shí)網(wǎng)絡(luò),可以通過(guò)“實(shí)體-關(guān)系-實(shí)體”三元組的形式描述客觀(guān)事物的內(nèi)在聯(lián)系,實(shí)體和屬性用節(jié)點(diǎn)表示,關(guān)系用有向邊表示。知識(shí)圖譜因其在知識(shí)推理方面的優(yōu)勢(shì),被應(yīng)用于智能搜索、對(duì)話(huà)問(wèn)答等領(lǐng)域。鑒于知識(shí)圖譜這種知識(shí)表示形式和能力,可以將電力調(diào)度文本解析為顆?;瘜?shí)體知識(shí),形成電力調(diào)度文本知識(shí)圖譜,為調(diào)度文本檢索提供語(yǔ)義知識(shí)庫(kù)。
根據(jù)應(yīng)用需求,文中對(duì)電力調(diào)度文本知識(shí)圖譜進(jìn)行概念建模,指導(dǎo)知識(shí)圖譜構(gòu)建整個(gè)過(guò)程和建模思想。將電力調(diào)度文本信息分為五類(lèi),即運(yùn)行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專(zhuān)業(yè)管理規(guī)程和事故應(yīng)急規(guī)程。將這五類(lèi)信息作為知識(shí)圖譜的概念實(shí)體,每種概念實(shí)體包含各自對(duì)應(yīng)的電力調(diào)度文本,如運(yùn)行常備規(guī)程包括:調(diào)度運(yùn)行規(guī)程、調(diào)度運(yùn)行細(xì)則、作業(yè)指導(dǎo)書(shū)等。每個(gè)規(guī)程包含各章節(jié)關(guān)鍵信息、關(guān)鍵信息解釋內(nèi)容等實(shí)體,同時(shí)包含規(guī)程標(biāo)識(shí)、來(lái)源、編制日期、作者、原始HTML文件等屬性信息。根據(jù)上述原理和機(jī)制可以將電力調(diào)度文本信息建立為電力調(diào)度文本知識(shí)圖譜,即電力調(diào)度文本語(yǔ)義知識(shí)庫(kù)。
電力調(diào)度文本知識(shí)圖譜采用自底向上的知識(shí)圖譜構(gòu)建方法,經(jīng)歷知識(shí)來(lái)源、知識(shí)抽取、知識(shí)融合、知識(shí)存儲(chǔ)、知識(shí)平臺(tái)、知識(shí)應(yīng)用等步驟,構(gòu)建方案如圖1所示。
圖1 電力調(diào)度文本知識(shí)圖譜構(gòu)建方案
首先,收集電力調(diào)度文本和電網(wǎng)模型數(shù)據(jù),然后對(duì)電力文本信息進(jìn)行清洗和預(yù)處理,基于正則表達(dá)式識(shí)別電力調(diào)度文本信息中檢索關(guān)鍵信息和其對(duì)應(yīng)的解釋內(nèi)容,形成“實(shí)體-關(guān)系-實(shí)體”三元組知識(shí)結(jié)構(gòu),通過(guò)實(shí)體融合后,將其存儲(chǔ)到數(shù)據(jù)庫(kù)中,建立電力調(diào)度文本知識(shí)圖譜,支撐電力調(diào)度文本信息的語(yǔ)義識(shí)別和語(yǔ)義檢索,具體步驟如下:
1)收集調(diào)控中心各系統(tǒng)中電力調(diào)度文本信息以及電網(wǎng)模型數(shù)據(jù)。采用文本填補(bǔ)、歸一化、標(biāo)準(zhǔn)化等方法對(duì)調(diào)度文本進(jìn)行預(yù)處理和清洗。
2)識(shí)別電力調(diào)度文本實(shí)體信息。通過(guò)正則表達(dá)式解析電力調(diào)度文本信息結(jié)構(gòu),得到電力調(diào)度文本關(guān)鍵信息及與其對(duì)應(yīng)的解釋內(nèi)容。同時(shí)根據(jù)調(diào)度經(jīng)驗(yàn)和規(guī)則構(gòu)建電力調(diào)度專(zhuān)業(yè)術(shù)語(yǔ)庫(kù),對(duì)解析后的電力調(diào)度文本關(guān)鍵信息中專(zhuān)業(yè)詞匯進(jìn)行泛化,得到關(guān)鍵信息的泛化表述,提高電力調(diào)度文本信息與待檢索調(diào)度文本關(guān)鍵信息的匹配程度。
3)融合電力調(diào)度文本信息實(shí)體知識(shí)。采用規(guī)則匹配、相似度計(jì)算和人工修正等方法對(duì)電力調(diào)度文本信息中含義相同表述不同的顆?;R(shí)進(jìn)行融合。
4)存儲(chǔ)電力調(diào)度文本信息顆?;R(shí)。將融合后的電力調(diào)度文本信息依據(jù)“實(shí)體-關(guān)系-實(shí)體”三元組形式存儲(chǔ)到MongDB數(shù)據(jù)庫(kù)中,構(gòu)建出電力調(diào)度文本知識(shí)圖譜。
根據(jù)上述步驟構(gòu)建電力調(diào)度文本知識(shí)圖譜,所建知識(shí)圖譜為待檢索電力調(diào)度文本信息提供語(yǔ)義檢索知識(shí)庫(kù),所建部分電力調(diào)度文本知識(shí)圖譜如圖2所示。
圖2 部分電力調(diào)度文本知識(shí)圖譜
文本相似度計(jì)算可以采用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法計(jì)算不同的自然語(yǔ)言文本間的相似度,考慮到調(diào)度員在檢索關(guān)鍵信息時(shí),所表達(dá)的問(wèn)題描述與真實(shí)的問(wèn)題描述間存在差異,因此可以采用文本相似度計(jì)算方法,計(jì)算待檢索問(wèn)題在一定范圍內(nèi)的語(yǔ)義表達(dá),從而提升電力調(diào)度文本語(yǔ)義檢索準(zhǔn)確率。電力調(diào)度文本語(yǔ)義檢索采用文本相似度算法計(jì)算待檢索信息與電力調(diào)度文本知識(shí)圖譜中關(guān)鍵實(shí)體的相似度,通過(guò)相似度值對(duì)待檢索信息進(jìn)行語(yǔ)義識(shí)別,將匹配到相似度最高的關(guān)鍵實(shí)體對(duì)應(yīng)信息答案推薦出來(lái)。采用詞頻-逆文件頻率(term frequency-inverse document frequency,TF-IDF)方法生成電力調(diào)度文本特征詞的詞向量,再利用余弦相似度計(jì)算各特征詞間相似度。向量余弦值計(jì)算表達(dá)式如下:
(1)
式中:Xi表示檢索信息的特征向量;Yi表示電力調(diào)度文本知識(shí)圖譜中電力調(diào)度文本信息的特征向量。
通過(guò)式(1)可以定量描述待檢索調(diào)度專(zhuān)業(yè)語(yǔ)言文本與電力調(diào)度文本知識(shí)圖譜實(shí)體信息之間的相似度,通過(guò)判別相似度值與設(shè)定閾值間關(guān)系,檢索出知識(shí)圖譜相關(guān)內(nèi)容,將相似度值大于閾值所對(duì)應(yīng)的電力調(diào)度文本知識(shí)圖譜信息作為檢索內(nèi)容。
獲取某區(qū)域電網(wǎng)調(diào)控中心的電力調(diào)度文本作為研究對(duì)象,基于正則表達(dá)式識(shí)別53篇電力調(diào)度文本中關(guān)鍵檢索信息與其對(duì)應(yīng)的檢索內(nèi)容,生成大量的電力調(diào)度文本知識(shí),依據(jù)其內(nèi)在聯(lián)系以“實(shí)體-關(guān)系-實(shí)體”的知識(shí)組合方式構(gòu)建電力調(diào)度文本知識(shí)圖譜,其中包含運(yùn)行常備規(guī)程、保電規(guī)程、穩(wěn)控管理規(guī)程、專(zhuān)業(yè)管理規(guī)程和事故應(yīng)急規(guī)程五類(lèi)知識(shí)。
采用規(guī)則和TF-IDF+規(guī)則的檢索方法驗(yàn)證對(duì)電力調(diào)度文本的檢索效果,并對(duì)兩種算法的檢索準(zhǔn)確率進(jìn)行統(tǒng)計(jì),見(jiàn)表1。
表1 電力調(diào)度文本檢索效果對(duì)比
其中基于規(guī)則的檢索方法是指根據(jù)電力調(diào)度文本特點(diǎn)定義的專(zhuān)業(yè)術(shù)語(yǔ)匹配模式,待檢索問(wèn)題中含有匹配模式關(guān)鍵詞將會(huì)檢索出應(yīng)對(duì)的內(nèi)容?;赥F-IDF+規(guī)則的檢索方法是指通過(guò)計(jì)算待檢索問(wèn)題詞向量與知識(shí)圖譜內(nèi)容的相似度,檢索出對(duì)應(yīng)的內(nèi)容,對(duì)于語(yǔ)義理解不準(zhǔn)確的,可以通過(guò)適當(dāng)?shù)囊?guī)則進(jìn)行提升。
通過(guò)對(duì)表1數(shù)據(jù)分析,電力調(diào)度文本五類(lèi)知識(shí)的查準(zhǔn)率均在80%以上,其中事故應(yīng)急類(lèi)知識(shí)查準(zhǔn)率在90%以上,檢索效果要遠(yuǎn)優(yōu)于基于規(guī)則的檢索方法,檢索過(guò)程耗時(shí)小于1 s,具有較高的檢索準(zhǔn)確率和檢索效率,適合實(shí)際工程應(yīng)用。
目前文中所提的電力調(diào)度文本檢索方法已經(jīng)在調(diào)控知識(shí)庫(kù)產(chǎn)品中應(yīng)用,可以部署在智能調(diào)度控制系統(tǒng)、調(diào)控云系統(tǒng)以及正在建設(shè)的新一代調(diào)度技術(shù)支持系統(tǒng)中,同時(shí)也封裝了電力調(diào)度文本智能檢索服務(wù),供其他系統(tǒng)應(yīng)用訪(fǎng)問(wèn),大幅度提升了電力調(diào)度文本關(guān)鍵信息的檢索準(zhǔn)確率和檢索效率,同時(shí)提升了海量電力調(diào)度文本的在線(xiàn)管理能力,為調(diào)度運(yùn)行知識(shí)傳承和共享提供了技術(shù)支撐。
為了提升電力調(diào)度文本的在線(xiàn)應(yīng)用效果和輔助決策能力,提出了基于自然語(yǔ)言處理的電力調(diào)度文本檢索方法?;谡齽t表達(dá)式識(shí)別出電力調(diào)度文本中關(guān)鍵信息與其對(duì)應(yīng)的解釋內(nèi)容,采用知識(shí)圖譜構(gòu)建方法建立了電力調(diào)度文本知識(shí)圖譜?;赥F-IDF方法生成電力調(diào)度文本特征詞的詞向量,通過(guò)計(jì)算待檢索信息特征向量與電力調(diào)度文本知識(shí)圖譜實(shí)體特征向量間的相似度值,實(shí)現(xiàn)了電力調(diào)度文本信息的檢索。通過(guò)某電力調(diào)控中心文本數(shù)據(jù)的驗(yàn)證,文中所提電力調(diào)度文本檢索方法具有較高的檢索效率和準(zhǔn)確率,工程實(shí)用價(jià)值較高。