鮑曉寧,余 薇,王德清,秦 琳,林冠雄,蔡嘉煒,莫 薇
(1.國網(wǎng)福州供電公司,福建 福州 350009;2.國網(wǎng)福建省電力有限公司,福建 福州 350003)
在大數(shù)據(jù)和人工智能(artificial intelligence,AI)時代,各種來源的大量數(shù)據(jù)不斷地從人類生活中產(chǎn)生。在電力領(lǐng)域,隨著海量測控裝置以高頻采樣速率對電力系統(tǒng)設(shè)備、線路和潮流等狀態(tài)進行實時采集與傳輸,產(chǎn)生了海量深度間接知識[1]。
電網(wǎng)系統(tǒng)通常是一個非常復(fù)雜和龐大的系統(tǒng),目前電網(wǎng)系統(tǒng)中存在著數(shù)千種不同類型的基本設(shè)備[2-3]。在我國,自2016年以來,國家電網(wǎng)大力開展數(shù)據(jù)中心建設(shè),打造現(xiàn)有電網(wǎng)向下一代智能電網(wǎng)的轉(zhuǎn)變數(shù)據(jù)支撐。截至2018年1月,某省級電網(wǎng)運行數(shù)據(jù)總存儲容量為560.48 TB,其中常態(tài)結(jié)構(gòu)化數(shù)據(jù)為209.50 TB,非結(jié)構(gòu)化數(shù)據(jù)254.86 TB,實時測量數(shù)據(jù)72.02 TB,在線應(yīng)用數(shù)據(jù)24.10 TB。在如此巨大數(shù)據(jù)量的情況下,為了揭示電力物聯(lián)網(wǎng)中設(shè)備、網(wǎng)絡(luò)等物理實體與虛擬載體之間的關(guān)聯(lián)關(guān)系,需要通過知識圖譜等語義分析方式對電網(wǎng)單元進行切割、定義與關(guān)聯(lián),以便進行深入分析,做出更全面、更準(zhǔn)確的判斷[4]。
本文旨在利用AI增強標(biāo)記系統(tǒng)構(gòu)建面向變電站關(guān)鍵事件的知識圖譜模型,以方便變電站管理、搜索、運維與檢修,整個模型構(gòu)建過程分為數(shù)據(jù)收集、標(biāo)記、分析和應(yīng)用,采用數(shù)據(jù)庫管理系統(tǒng)實現(xiàn)半自動化關(guān)聯(lián)[5-6]。
本文所開發(fā)的知識圖譜系統(tǒng),有助于增強現(xiàn)有電網(wǎng)系統(tǒng)的穩(wěn)定性和可靠性,并將變電站設(shè)備事件利用信息共享給多用戶群體。與傳統(tǒng)的知識圖譜構(gòu)建方法相比,整個構(gòu)建過程更加透明和易于實現(xiàn)。在此基礎(chǔ)上,設(shè)計了一種基于圖形處理器單元優(yōu)化的優(yōu)先搜索算法,用于輸出知識圖譜中存在的任意2個節(jié)點之間的內(nèi)部連接,增強檢索效率。
知識圖譜是建立在語義網(wǎng)絡(luò)上的龐大知識體系,是大數(shù)據(jù)時代新興的大型知識管理和智能服務(wù)技術(shù)[7]。知識圖譜捕捉并呈現(xiàn)了某一領(lǐng)域概念之間復(fù)雜的關(guān)系,連接了碎片化的知識,在這些應(yīng)用中起著至關(guān)重要的作用[8]。
標(biāo)簽系統(tǒng)和標(biāo)簽生成技術(shù)是生成特定知識圖譜的關(guān)鍵技術(shù),標(biāo)簽指特定對象組現(xiàn)有特征的摘要[9]。一般來說,業(yè)務(wù)實體通過多維標(biāo)簽反映其屬性。對變電站設(shè)備而言,其標(biāo)簽描述包括設(shè)備類型、電壓等級、面積、線路和日常運行狀況等方面。在此基礎(chǔ)上,可以提出基于多標(biāo)簽系統(tǒng)對具有相似屬性的設(shè)備進行分類[10]。
當(dāng)前電網(wǎng)中存在的設(shè)備以網(wǎng)絡(luò)結(jié)構(gòu)的形式存在,這些網(wǎng)絡(luò)結(jié)構(gòu)很容易用知識圖譜來解釋。因此,知識圖譜不斷發(fā)展,已成為電網(wǎng)網(wǎng)格數(shù)據(jù)的有效管理工具。可視化的知識圖譜能夠輔助海量信息的理解。在知識圖譜中,知識以實體-關(guān)系-實體三重映射體系的形式存在,實體與實體之間的關(guān)系以節(jié)點和邊的形式呈現(xiàn)?;跇?biāo)簽辨識與實體互聯(lián)技術(shù),知識圖譜架構(gòu)如圖1所示,主要步驟包括采集數(shù)據(jù)、知識抽取、知識表示、知識融合、模型構(gòu)建及高級應(yīng)用。為了解決變電站網(wǎng)絡(luò)中的知識孤島問題,挖掘事件中的共指關(guān)系、因果關(guān)系和時序關(guān)系,提高電網(wǎng)數(shù)據(jù)中心的事件序列關(guān)聯(lián)度與信息挖掘價值。
圖1 知識圖譜架構(gòu)
基于我國變電站的主要業(yè)務(wù),構(gòu)建了變電站設(shè)備裝置標(biāo)識系統(tǒng)。對應(yīng)于各變電站設(shè)備裝置的時空斷面圖,根據(jù)設(shè)備的歷史和當(dāng)前運行狀況,各裝置未來可能的位置、檢查、管理和維護狀況,以及各廠家的設(shè)備額定容量,設(shè)計了貼標(biāo)系統(tǒng)。網(wǎng)格設(shè)備標(biāo)識系統(tǒng)的層次關(guān)系如圖2所示。
圖2 電網(wǎng)知識標(biāo)簽類型
對于從變電站收集的每個數(shù)據(jù)塊,可以分配3個級別的標(biāo)簽,即事件標(biāo)簽、型號標(biāo)簽和決策標(biāo)簽。事件標(biāo)簽是最低級別的標(biāo)簽,其代表變電站設(shè)備的關(guān)鍵事件表征行為;型號標(biāo)簽表示生成決策標(biāo)簽最匹配的決策模型;決策標(biāo)簽表示面向設(shè)備運維的操作指令。生成貼標(biāo)系統(tǒng)的基本規(guī)則包括:
a.標(biāo)準(zhǔn)規(guī)則。為每個級別生成標(biāo)簽的標(biāo)準(zhǔn)必須在不同的數(shù)據(jù)塊之間保持一致。
b.連接規(guī)則。子代總數(shù)相當(dāng)于父節(jié)點總數(shù);否則會出現(xiàn)劃分不完整與父-子節(jié)點不匹配情形。
c.劃分規(guī)則。劃分概念不能兼容,從屬概念不能并行。
基于標(biāo)簽系統(tǒng)的上述3個基本規(guī)則,根據(jù)提取源、數(shù)據(jù)關(guān)聯(lián)關(guān)系和提取邏輯確定最終標(biāo)簽。生成規(guī)則的難度和復(fù)雜性隨著標(biāo)記級別的增加而逐漸增加。
標(biāo)簽系統(tǒng)有4種更新策略:
a.更新策略。不同標(biāo)簽的更新周期不同。一般來說,特定標(biāo)簽的更新周期可以是實時的、每月的或3個月的,更新周期取決于標(biāo)簽類型。
b.更新條件。該策略根據(jù)數(shù)據(jù)塊的屬性建立標(biāo)簽更新觸發(fā)機制。對于每個標(biāo)簽,標(biāo)簽更新是在不同情況下觸發(fā)的。
c.更新權(quán)限策略。權(quán)限策略根據(jù)原始數(shù)據(jù)的分類級別確定標(biāo)簽更新授權(quán)優(yōu)先級序列。
d.回收策略。基于標(biāo)簽消除機制,刪除無用的標(biāo)簽,避免浪費資源。
在利用知識圖譜構(gòu)建變電站事件模型時,每1塊電網(wǎng)數(shù)據(jù)都需要遵循以上4種策略。對于具有多個標(biāo)簽沖突的數(shù)據(jù)塊,將重新訪問上述4條規(guī)則,以確定該特定數(shù)據(jù)塊的最高優(yōu)先級標(biāo)簽。
變電站設(shè)備畫像的構(gòu)建涉及到大量設(shè)備之間的連通性信息。需要高效的數(shù)據(jù)處理框架/技術(shù)來支持數(shù)據(jù)存儲、分析和知識圖譜構(gòu)建過程。本文提出了一個包括基礎(chǔ)數(shù)據(jù)層、預(yù)處理層和分析層組成的3層數(shù)據(jù)處理框架,如圖3所示。
圖3 數(shù)據(jù)處理框架
a.基礎(chǔ)數(shù)據(jù)層。變電站設(shè)備畫像所需的基礎(chǔ)數(shù)據(jù)根據(jù)來源類型由2部分組成,即變電站系統(tǒng)數(shù)據(jù)和第三方數(shù)據(jù)。其中,電網(wǎng)數(shù)據(jù)主要包括設(shè)備臺賬數(shù)據(jù)、設(shè)備運行數(shù)據(jù)和設(shè)備管理數(shù)據(jù)。設(shè)備臺賬數(shù)據(jù)由存儲變電站設(shè)備的型號、生產(chǎn)狀況和額定等級等組成。設(shè)備運行數(shù)據(jù)是存儲設(shè)備在運行過程中的電壓、電流、有功功率、無功功率和事件。設(shè)備管理數(shù)據(jù)包括與設(shè)備操作和維護相關(guān)的工作操作票、檢查報告和維護報告數(shù)據(jù)。為了進一步擴大和標(biāo)注變電站設(shè)備數(shù)據(jù),需要同時考慮電網(wǎng)外部能源生產(chǎn)、消費和環(huán)境數(shù)據(jù)之間的關(guān)系以及第三方數(shù)據(jù),如國民經(jīng)濟數(shù)據(jù)或國家氣象環(huán)境數(shù)據(jù)?;A(chǔ)網(wǎng)格數(shù)據(jù)和第三方數(shù)據(jù)都由結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)組成。
b.預(yù)處理層。變電站設(shè)備數(shù)據(jù)的預(yù)處理步驟包括采集、清洗、集成、降維和特征提取。
數(shù)據(jù)采集是指對設(shè)備和運行、運維數(shù)據(jù)的統(tǒng)一訪問監(jiān)督控制,其主要數(shù)據(jù)來源包括數(shù)據(jù)采集中心、能量管理系統(tǒng)、用戶采集系統(tǒng)和配電自動化系統(tǒng)等。
數(shù)據(jù)清洗步驟包括如遺漏填充、異常消除、噪聲平滑和校正聚合不一致數(shù)據(jù)等任務(wù)。
數(shù)據(jù)集成對來自多個系統(tǒng)的數(shù)據(jù)進行模式集成、數(shù)據(jù)實體識別和拼接處理,并對數(shù)據(jù)進行總結(jié)、聚合、概括和規(guī)范化。
在大規(guī)模網(wǎng)格數(shù)據(jù)分析復(fù)雜內(nèi)容數(shù)據(jù)需要大量時間和計算機資源的情況下,數(shù)據(jù)降維平衡了數(shù)據(jù)處理的效率和價值。具體的數(shù)據(jù)分析工具包括立方聚合、數(shù)據(jù)壓縮和數(shù)據(jù)塊降維等處理。
數(shù)據(jù)特征提取過程采用2種基本的AI技術(shù),即主成分分析方法和線性判別分析方法。主成分分析方法將原始數(shù)據(jù)投影到高維中,利用矩陣乘法減少數(shù)據(jù)維數(shù)。在此基礎(chǔ)上,使用帶有標(biāo)簽信息的線性判別分析方法進一步處理減少的數(shù)據(jù)集。線性判別分析方法是一種有監(jiān)督的數(shù)據(jù)化簡方法,對知識圖譜的數(shù)據(jù)檢索和數(shù)據(jù)管理有很大的幫助。數(shù)據(jù)處理的最終目的是提高數(shù)據(jù)管理水平和數(shù)據(jù)檢索效率。
c.分析層。分析層是實現(xiàn)變電站設(shè)備知識圖譜的核心層,包括策略模型塊和數(shù)據(jù)分析塊。策略模型塊包括行為模型、漏斗模型、生存模型和分布模型。數(shù)據(jù)分析塊包括分類分析、比較分析、關(guān)聯(lián)分析和綜合分析。
考慮到當(dāng)前數(shù)據(jù)庫中存在大量的非結(jié)構(gòu)化數(shù)據(jù),由于變電站設(shè)備數(shù)量巨大,相應(yīng)電網(wǎng)設(shè)備知識圖譜的規(guī)模較大,需要基于知識網(wǎng)絡(luò)可視化相應(yīng)的圖譜。變電站設(shè)備與事件的知識圖譜以圖形網(wǎng)絡(luò)的形式顯示設(shè)備之間的連接,并提供設(shè)備特定的事件信息。用戶可以交互瀏覽知識圖譜,選擇特定設(shè)備進一步探索信息或查詢構(gòu)造。
由于設(shè)備之間的關(guān)系錯綜復(fù)雜,通過觀察數(shù)據(jù)庫表很難發(fā)現(xiàn)這些關(guān)系。因此通過可視化知識圖譜可以幫助員工解決知識孤島問題,增強變電站設(shè)備知識資源的連通性。同時,還可以幫助工作人員在概念層面瀏覽電網(wǎng)設(shè)備知識,發(fā)現(xiàn)不同類型設(shè)備之間的潛在聯(lián)系,從而更好地理解電網(wǎng)的復(fù)雜性。
知識圖譜根據(jù)用戶的需要能夠?qū)ψ冸娬鞠嚓P(guān)知識事件進行檢索。當(dāng)設(shè)備發(fā)生故障時,搜索頁面可以自動帶出當(dāng)前設(shè)備的相關(guān)故障信息。此外,基于可能的行動保護方案產(chǎn)生決策建議。由于變電站結(jié)構(gòu)復(fù)雜,利用傳統(tǒng)數(shù)據(jù)庫技術(shù)查詢操作速度極慢。知識圖譜可以顯著提高知識檢索效率,使檢索結(jié)果更加全面準(zhǔn)確??梢韵到y(tǒng)地理解用戶的查詢意圖,直接返回準(zhǔn)確的答案。基于網(wǎng)格知識圖譜,可以開發(fā)知識智能檢索系統(tǒng)。在知識圖譜構(gòu)建框架中,基于圖形處理器單元的廣度優(yōu)先搜索策略,通過Neo4j數(shù)據(jù)庫進行知識搜索。數(shù)據(jù)網(wǎng)絡(luò)遍歷的時間復(fù)雜度只有O(n),能夠大幅提升檢索效率。
為了反映所提出的知識圖譜構(gòu)建技術(shù)在變電站系統(tǒng)知識檢索任務(wù)中的效率和有效性,本文針對如圖4所示的變電站實際網(wǎng)絡(luò)進行檢索性能分析。
圖4 變電站實際網(wǎng)絡(luò)結(jié)構(gòu)
對于變電站內(nèi)外部復(fù)雜設(shè)備及其產(chǎn)生的事件行為,分別采用傳統(tǒng)數(shù)據(jù)庫方法與知識圖譜方法進行設(shè)備關(guān)聯(lián)路徑檢索,其檢索可行性與效率如表1所示。
表1 知識圖譜與傳統(tǒng)方法檢索結(jié)果對比
對于被搜索的復(fù)雜設(shè)備節(jié)點關(guān)系,由于搜索路徑過長, 采用傳統(tǒng)方法可能導(dǎo)致搜索失敗。在知識
圖譜方法中,由于采用基于圖譜的關(guān)系網(wǎng)絡(luò)存儲結(jié)構(gòu)化數(shù)據(jù),克服了傳統(tǒng)關(guān)系數(shù)據(jù)庫在處理關(guān)系網(wǎng)絡(luò)時的低效率。表中列出的結(jié)果表明,對于相同的搜索結(jié)果,所提出的知識圖數(shù)據(jù)庫管理系統(tǒng)具有更高的效率。而對于傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)無法處理的較為復(fù)雜的搜索問題,知識圖系統(tǒng)能夠返回更精確的路徑。
在變電站事件日常管理中,將產(chǎn)生海量電力大數(shù)據(jù)信息。傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)和方法效率與準(zhǔn)確度降低,在知識檢索和數(shù)據(jù)分析層面存在嚴重缺陷。
因此,本文提出了基于集成AI技術(shù)和GPU的電網(wǎng)知識圖譜,提出的知識圖譜構(gòu)建過程一般分為3個步驟。首先,使用數(shù)據(jù)分析工具對原始網(wǎng)格設(shè)備信息進行預(yù)處理,生成多個關(guān)系表。然后,提出一種數(shù)據(jù)遷移模型,以半自動的方式將網(wǎng)格設(shè)備信息從關(guān)系表傳輸?shù)絅eo4j圖形數(shù)據(jù)庫。最后,基于Neo4j數(shù)據(jù)庫,利用構(gòu)建的知識圖譜揭示電網(wǎng)設(shè)備信息可視化,并實現(xiàn)電網(wǎng)設(shè)備信息搜索功能。在數(shù)據(jù)可視化領(lǐng)域,該方法能夠生成更清晰的設(shè)備信息、參數(shù)及運行狀態(tài)。
所提出的知識圖譜算法能夠在較短的時間內(nèi)直觀地顯示搜索路徑,增強了電力系統(tǒng)的穩(wěn)定性和可靠性,對變電站事件信息的共享、利用和分析具有很大的幫助。在未來,電網(wǎng)流量計算、狀態(tài)估計、線損計算以及拓撲分析等功能將陸續(xù)將進入到知識圖譜中,帶來更高的電網(wǎng)經(jīng)濟效益。