國網(wǎng)河南信通公司 賈海鋒 王冰潔 王 浩 孫 元
2012年Google首次發(fā)布了知識圖譜產(chǎn)品,在工業(yè)界和學(xué)術(shù)界都產(chǎn)生了巨大的反響。百度推出的“知心”、搜狗推出的“知立方”,主要目的是利用知識圖譜的特點(diǎn)改進(jìn)其自動問答模塊的內(nèi)容檢索質(zhì)量。隨著信息化的發(fā)展,電力系統(tǒng)的規(guī)模逐漸擴(kuò)大,系統(tǒng)中的知識結(jié)構(gòu)也隨之劇增,而電力行業(yè)作為國家重大的基礎(chǔ)能源體系,由于新的知識的持續(xù)加入,知識體系結(jié)構(gòu)的復(fù)雜化、異構(gòu)化知識不斷增加,電力系統(tǒng)的知識也不斷出現(xiàn)復(fù)雜性和多樣性[1]。為實(shí)現(xiàn)電力領(lǐng)域的智能化技術(shù)創(chuàng)新和知識管理,加強(qiáng)對自動化電力數(shù)據(jù)的充分利用,將人工智能技術(shù)和電力技術(shù)相結(jié)合,為實(shí)現(xiàn)下一個電力領(lǐng)域目標(biāo)確定新的發(fā)展方向。
知識圖譜是融合傳統(tǒng)數(shù)據(jù)庫和人工智能相關(guān)技術(shù)的智能化結(jié)構(gòu)圖數(shù)據(jù)庫,它的特點(diǎn)是可以實(shí)現(xiàn)對大規(guī)模的知識進(jìn)行結(jié)構(gòu)化管理。知識圖譜的構(gòu)建具有特殊性,更多的是體現(xiàn)數(shù)據(jù)中實(shí)體和實(shí)體相關(guān)的屬性,在全局的生態(tài)模式中很難做到統(tǒng)一的管理[2]。
知識圖譜(Knowledge Graph)的本質(zhì)是將實(shí)體要素間的關(guān)聯(lián)關(guān)系結(jié)構(gòu)化表示,它是通過邊(Edge)和節(jié)點(diǎn)(Point)的連接將數(shù)據(jù)以圖結(jié)構(gòu)的方式進(jìn)行存儲。其中,實(shí)體以節(jié)點(diǎn)的形式表示,兩個實(shí)體間存在的某種關(guān)系用邊表示。正是因?yàn)橹R圖譜體系架構(gòu)的特殊性,它能把大規(guī)模且復(fù)雜多樣的數(shù)據(jù)信息連接在一塊,形成圖形化的關(guān)系網(wǎng)絡(luò),也是數(shù)據(jù)間最直觀有效地表示方式。知識圖譜的最大特點(diǎn)是能更精確表示實(shí)體間的關(guān)系,因此從關(guān)系角度分析,Google實(shí)現(xiàn)并推出知識圖譜主要是利用知識圖譜可以更好地查詢復(fù)雜信息間的關(guān)聯(lián),從語義角度提高搜索結(jié)果的質(zhì)量,優(yōu)化搜索引擎、甚至是實(shí)現(xiàn)問題的推理,從而理解用戶的真實(shí)意圖。對較為復(fù)雜的搜索問題仍能準(zhǔn)確的返回正確的信息,這就說明搜索引擎通過知識圖譜真正理解了用戶的真實(shí)意圖。
通用知識圖譜,就是大多數(shù)人都能經(jīng)常用到且數(shù)據(jù)較為統(tǒng)一時所構(gòu)建的知識圖譜,對于知識結(jié)構(gòu)相同、內(nèi)容類似的數(shù)據(jù),構(gòu)建通用型知識圖譜可更大的擴(kuò)充知識網(wǎng)絡(luò)。一般是解決常識類、百科類等的問題,沒有特殊領(lǐng)域的針對性、局限性。
例如,DBpedia是集成了維基百科大規(guī)模多語言數(shù)據(jù)的常識性知識圖譜。DBpedia使用多種知識抽取和知識融合方法將維基百科中的知識信息進(jìn)行結(jié)構(gòu)化抽取,將結(jié)構(gòu)化信息轉(zhuǎn)換成三元組結(jié)構(gòu),利用實(shí)體和實(shí)體間的關(guān)系形成結(jié)構(gòu)化的圖數(shù)據(jù)庫;BabelNet是一個由實(shí)體、關(guān)系和概念結(jié)構(gòu)化組合形成的語義網(wǎng)絡(luò)(Semantic Network),它是目前世界范圍內(nèi)最大的多語言同義詞典。目前BabelNet收集到的詞匯已經(jīng)超過1400萬個,每一個詞匯都對應(yīng)一個同義的集合,而每個同義集合中都保存了多種語言的同義詞。因此,大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)在知識圖譜的推動下促進(jìn)了人工智能的發(fā)展。綜上所述,通用知識圖譜基本包含以下特點(diǎn):面向的通用領(lǐng)域、數(shù)據(jù)結(jié)構(gòu)化強(qiáng)、使用者大多是普通用戶、以常識和公共知識資源為主。
基于知識圖譜應(yīng)用的研究主要可分為兩大類:特殊領(lǐng)域知識圖譜、通用知識圖譜。特殊領(lǐng)域知識圖譜主要是針對企業(yè)或具體特殊行業(yè),是根據(jù)對某個行業(yè)或領(lǐng)域的子領(lǐng)域進(jìn)行深入剖析所制定的方案,主要是解決當(dāng)前行業(yè)或特定領(lǐng)域的專業(yè)問題。隨著電力行業(yè)的飛速發(fā)展,電力能源的使用促使行業(yè)數(shù)據(jù)不斷擴(kuò)張,然而在建設(shè)智能化信息平臺的過程中可能會忽略對產(chǎn)生的數(shù)據(jù)系統(tǒng)化和結(jié)構(gòu)化的管理,導(dǎo)致知識體系混亂、復(fù)雜,除結(jié)構(gòu)化數(shù)據(jù)外,大部分?jǐn)?shù)據(jù)都是以文本、圖片等非結(jié)構(gòu)化數(shù)據(jù)的形式存儲[3]。此外由于電力領(lǐng)域業(yè)務(wù)較多,產(chǎn)生的電力數(shù)據(jù)的維度也有很多異構(gòu)、復(fù)雜、多樣的數(shù)據(jù)資源對電力數(shù)據(jù)的管理產(chǎn)生一定的困擾。
知識圖譜近年來在知識梳理業(yè)務(wù)上起到至關(guān)重要的作用,無論是通用領(lǐng)域,還是金融、法律、軍事等一些特殊領(lǐng)域也受到了廣泛的關(guān)注和應(yīng)用。而電力領(lǐng)域下又包含多個子領(lǐng)域,電力數(shù)據(jù)復(fù)雜多樣,因此,知識圖譜在電力領(lǐng)域的業(yè)務(wù)使用也更為廣泛,其中自然語言處理中信息抽取、實(shí)體識別等技術(shù)都為構(gòu)建電力領(lǐng)域的知識圖譜提供了極為重要的基礎(chǔ)[4]。
隨著電力系統(tǒng)的增程式發(fā)展,信息化數(shù)據(jù)的通信量也隨之增大而形成了復(fù)雜的信息網(wǎng)絡(luò),可再生資源的普及率也越來越高。開發(fā)智能電力系統(tǒng),推動電力的快速發(fā)展,建設(shè)安全、環(huán)保、高效的電力能源系統(tǒng)的任務(wù)也越來越緊迫。目前人工智能作為一種新興的科學(xué)技術(shù)而崛起,為實(shí)現(xiàn)智能化電力系統(tǒng)提供了有力的幫助,尤其是人工智能能夠與大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等技術(shù)相結(jié)合,使電力系統(tǒng)往安全可控、智能交互的方向可持續(xù)發(fā)展。因此,在科技水平的推動下電網(wǎng)的安全性、可靠性和靈活性可以大大提高。
知識圖譜在電力領(lǐng)域中智能運(yùn)維的應(yīng)用:知識圖譜與電力領(lǐng)域知識庫相結(jié)合,構(gòu)建智能化的運(yùn)檢知識管理和理論認(rèn)知的推理系統(tǒng),實(shí)現(xiàn)安檢工作人員對不同類運(yùn)檢知識的快速學(xué)習(xí)和問題解答,實(shí)現(xiàn)對檢修工單和工作票的智能化存儲、對比;知識圖譜在電力客服智能系統(tǒng)中的應(yīng)用[5]:結(jié)合自然語言處理和智能識別的一系列知識融合技術(shù),構(gòu)建電力客服數(shù)據(jù)基礎(chǔ)庫和電力領(lǐng)域主體知識庫,建設(shè)電力客服領(lǐng)域知識圖譜并開發(fā)電力客服智能問答系統(tǒng),精確響應(yīng)客戶需求,提高服務(wù)效率,全面提升電力客戶服務(wù)水平。
知識圖譜是通過知識信息抽取、知識融合等技術(shù)將大規(guī)模數(shù)據(jù)處理成實(shí)體和關(guān)系互相連接而形成的網(wǎng)絡(luò)結(jié)構(gòu),由“實(shí)體-屬性-屬性值”或“實(shí)體-關(guān)系-實(shí)體”三元組構(gòu)成[6]。一個知識圖譜主要分四步構(gòu)建:
電力領(lǐng)域知識存儲的設(shè)計(jì):是對構(gòu)建知識圖譜的一種規(guī)則約束,其中包括知識庫中的實(shí)體、實(shí)體間關(guān)系、實(shí)體屬性等關(guān)鍵信息;知識獲?。韩@取電力系統(tǒng)中特定領(lǐng)域的相關(guān)數(shù)據(jù),通過自動化技術(shù)抽取有用的知識信息。如運(yùn)檢設(shè)備中的設(shè)備臺賬數(shù)據(jù)、設(shè)備缺陷數(shù)據(jù)、工單數(shù)據(jù)、檢修記錄等,通過智能化技術(shù)迅速的將電力數(shù)據(jù)轉(zhuǎn)化為可存儲數(shù)據(jù),對于非結(jié)構(gòu)化數(shù)據(jù),可采用命名實(shí)體識別、基于模版規(guī)則的識別、基于智能模型的識別等人工智能技術(shù),對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行抽取歸一化、結(jié)構(gòu)化。
知識融合:是高層次的知識組織,使來自不同知識源的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化抽取之后,在同一規(guī)范下進(jìn)行實(shí)體對齊、加工、整合,最終形成高質(zhì)量的知識庫;知識存儲:整合知識主要是以圖數(shù)據(jù)庫的形式存儲。圖數(shù)據(jù)庫中的節(jié)點(diǎn)表示實(shí)體、子領(lǐng)域、屬性值等,邊則代表了實(shí)體要素間的關(guān)系信息及實(shí)體和屬性間的關(guān)系。
在當(dāng)今的大數(shù)據(jù)和信息化時代,各行業(yè)的知識數(shù)據(jù)都面臨著爆炸式增長,知識的表達(dá)和組織方式以及對知識的智能化管理和應(yīng)用成為了行業(yè)的研究熱點(diǎn)。知識圖譜是以圖的形式實(shí)現(xiàn)實(shí)體和實(shí)體、實(shí)體和屬性之間關(guān)系的知識庫,可以更直觀的分析和利用數(shù)據(jù)資源,為了體現(xiàn)知識圖譜在電力系統(tǒng)中的應(yīng)用,文章深入剖析通用知識圖譜的相關(guān)研究,推理并分析在電力領(lǐng)域知識圖譜的構(gòu)建和相關(guān)關(guān)鍵技術(shù)。
在電力領(lǐng)域中,保證電網(wǎng)的安全運(yùn)行、精益電力的管理、提供優(yōu)質(zhì)的電力服務(wù)、實(shí)現(xiàn)精準(zhǔn)的電力投資是電網(wǎng)的基本任務(wù)[7]。因此,構(gòu)建電力領(lǐng)域的知識圖譜,對電力數(shù)據(jù)資源智能分析和管理,進(jìn)而推動電力行業(yè)的進(jìn)步。電力領(lǐng)域的知識圖譜為上層應(yīng)用的開展奠定了良好的基石,具有廣闊的應(yīng)用前景。