国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電力文本數(shù)據(jù)挖掘現(xiàn)狀及挑戰(zhàn)

2019-04-02 08:29王慧芳
浙江電力 2019年3期
關(guān)鍵詞:字典本體圖譜

王慧芳,曹 靖,羅 麟

(1.浙江大學電氣工程學院,杭州 310027;2.國網(wǎng)浙江省電力有限公司舟山供電公司,浙江 舟山 316021)

0 引言

隨著智能電網(wǎng)建設(shè)的全面展開,以及電力信息通信與電網(wǎng)企業(yè)經(jīng)營管理的深度融合,電力數(shù)據(jù)出現(xiàn)爆發(fā)性增長[1-2]。這些數(shù)據(jù)中隱藏著豐富的關(guān)系到電網(wǎng)安全穩(wěn)定經(jīng)濟運行的信息,因而成為電網(wǎng)企業(yè)寶貴的數(shù)據(jù)資產(chǎn)[3]。電力大數(shù)據(jù)雖已成為當前熱點研究對象,然而每年只有少量的數(shù)據(jù)被挖掘利用[4],因此電力數(shù)據(jù)挖掘是智能電網(wǎng)發(fā)展迫切需要研究的前沿領(lǐng)域。

電網(wǎng)企業(yè)是資產(chǎn)密集型企業(yè),電力設(shè)備健康狀態(tài)管理是其核心任務,利用大數(shù)據(jù)進行科學管理是必然趨勢[5]。然而普遍認為,電網(wǎng)數(shù)據(jù)存在體量大、類型多、價值密度低和變化快的特點,較難利用。其中,數(shù)據(jù)價值密度低,是指絕大部分數(shù)據(jù)是電網(wǎng)正常數(shù)據(jù),只有極少量的異常數(shù)據(jù)[6]。數(shù)據(jù)的嚴重偏斜影響基于機器學習、深度學習等人工智能方法的挖掘效果。幸運的是,電力數(shù)據(jù)類型眾多,其中文本數(shù)據(jù),因“重要的事情常常被記錄”而具有價值密度高的特點,挖掘前景好,因此電力文本挖掘是電力設(shè)備健康管理重點關(guān)注的關(guān)鍵技術(shù)之一。

當前自然語言處理、人工智能等技術(shù)快速發(fā)展,為電力文本挖掘提供了良好的技術(shù)基礎(chǔ);同時電網(wǎng)企業(yè)已積累了大量與電力設(shè)備健康相關(guān)的文本,如缺陷、消缺等短文本,以及試驗、故障分析報告等長文本,具備了文本挖掘的數(shù)據(jù)條件。此外,電網(wǎng)企業(yè)已建立了諸多與設(shè)備健康相關(guān)的標準,如分別針對輸變電設(shè)備和配電網(wǎng)設(shè)備的缺陷分類標準、設(shè)備狀態(tài)評價導則、狀態(tài)檢修試驗規(guī)程等,為文本挖掘的應用提供了參照與規(guī)則支持。因而,電力文本挖掘的條件已具備,且發(fā)展前景廣闊。

然而,由于現(xiàn)階段知識和技術(shù)層面上的匱乏,文本挖掘技術(shù)在國內(nèi)電力行業(yè)還屬于新興的前沿領(lǐng)域,大部分研究還處于探究試驗階段,應用效益尚未顯現(xiàn)。與互聯(lián)網(wǎng)、醫(yī)學等行業(yè)取得的成就相比,電力行業(yè)的文本挖掘研究還有待加強。

為此,基于電力文本挖掘領(lǐng)域已做的前期探索,本文歸納了電力文本數(shù)據(jù)挖掘的關(guān)鍵技術(shù)和典型應用,分析了這一領(lǐng)域面臨的挑戰(zhàn)。首先介紹文本挖掘技術(shù)的發(fā)展歷程,指出文本挖掘技術(shù)的難點;接著重點分析電力文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)及研究現(xiàn)狀;然后介紹文本挖掘技術(shù)在電力缺陷文本中的典型應用;最后,提出電力文本挖掘面臨的挑戰(zhàn)。

1 文本挖掘技術(shù)概述

1.1 文本挖掘技術(shù)發(fā)展過程

文本挖掘的概念最早出現(xiàn)在20世紀80年代中期,它集成了自然語言處理和數(shù)據(jù)挖掘的部分技術(shù)與理念,至今已有30多年的歷史。早期,文本挖掘的科學性一度受到質(zhì)疑和詬病,但隨著文本挖掘技術(shù)的進步和發(fā)展,其應用逐漸得到認可,并成為研究熱點。

狹義上,文本挖掘是指從大量文本數(shù)據(jù)中提取事先未知的、可理解的、最終可用的知識的過程,同時運用這些知識更好地組織信息、解決問題;廣義上,文本挖掘既包括文本知識抽取,也包括面向各種應用的文本數(shù)據(jù)處理過程。

目前,理論研究方面,文本挖掘的主要研究方向有文本結(jié)構(gòu)分析、文本語義分析、文本摘要、文本關(guān)聯(lián)分析等;應用研究方面,在社科情報和生物醫(yī)學領(lǐng)域的研究成果較多。在社科情報領(lǐng)域,文本挖掘被用于微博熱點話題監(jiān)測[7]、情感分析[8]、用戶評論語義分析[9]、垃圾郵件分類[10]等。在生物醫(yī)學領(lǐng)域,有基于文本挖掘提取領(lǐng)域知識[11]、通過挖掘事件記錄發(fā)現(xiàn)突發(fā)事件與醫(yī)學救援裝備之間的關(guān)聯(lián)[12]等研究。

1.2 文本挖掘技術(shù)難點

文本數(shù)據(jù)屬于自然語言,其挖掘涉及語言學、數(shù)學、計算機科學、信息學、心理科學、認知科學以及應用領(lǐng)域等眾多學科。

從技術(shù)角度看,文本挖掘存在數(shù)據(jù)和方法兩方面困難。數(shù)據(jù)方面,文本屬于非結(jié)構(gòu)化數(shù)據(jù),無確定形式并且缺乏機器可理解的語義,需要轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)才能被進一步挖掘;同時,文本屬于自然語言范疇,容易出現(xiàn)模糊性和歧義性,準確理解和使用難度大;此外,文本采用的語言不同,挖掘技術(shù)就難以簡單地移植。方法方面,雖然現(xiàn)有的文本挖掘方法已能解決一部分問題,但依然存在效果欠佳問題,例如搜索引擎還無法根據(jù)輸入文本返回精準答案;還有很多文本挖掘問題尚無有效解決方法。

從應用角度看,通用的文本挖掘方法運用于專業(yè)領(lǐng)域時,常會出現(xiàn)各種各樣的問題,因此專業(yè)領(lǐng)域的文本挖掘需考慮通用挖掘方法的適應性。此外,只有引入應用領(lǐng)域的專業(yè)知識,文本挖掘才更具有針對性與準確性,因此需要結(jié)合應用領(lǐng)域的專業(yè)特點去探索解決文本挖掘問題的方法。

2 電力文本數(shù)據(jù)挖掘關(guān)鍵技術(shù)研究現(xiàn)狀

2.1 電力文本預處理技術(shù)

非結(jié)構(gòu)化的電力文本數(shù)據(jù)需要先進行文本預處理以及文本表示,才能轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)進行挖掘。文本預處理通常包括文本分詞、詞性標注與去停用詞等。電力文本預處理還需要構(gòu)建電力領(lǐng)域本體字典。

電力本體字典的構(gòu)建是指將電力詞匯分別按照同義、近義、反義、上下位、整體-部分等本體關(guān)系進行組織,并存儲在數(shù)據(jù)庫中以供查詢、調(diào)用[13]。構(gòu)建電力本體字典前,首先要構(gòu)建電力文本語料庫,如選擇各類電力設(shè)備的缺陷、消缺、檢修、試驗等記錄或報告,也可以選擇企業(yè)頒布的與電力設(shè)備相關(guān)的導則、標準,還有電力企業(yè)的各種工單、工作票、操作票等;然后結(jié)合已有的外部通用字典,采用基于統(tǒng)計的分詞模型,如采用基于隱馬爾科夫模型、條件隨機場模型等,對語料庫進行分詞,并基于詞頻對分詞結(jié)果進行排序;最后依靠具有電力領(lǐng)域?qū)I(yè)知識的人員對專業(yè)術(shù)語、通俗用語、名詞堆砌的詞串和短語詞匯等進行修正,并按照同義詞集、整體-部分關(guān)系、實體-屬性關(guān)系等構(gòu)建本體字典[14]。需說明的是,本體字典的構(gòu)建不會是一次完成,而是隨著新語料庫的增加,會有補充或修訂。電力本體字典的構(gòu)建是必須的基礎(chǔ)工作,其質(zhì)量關(guān)系著后續(xù)電力文本挖掘的科學性。

文本分詞技術(shù)可分為3類:基于本體字典的分詞技術(shù)、基于統(tǒng)計規(guī)律的無字典分詞技術(shù)以及二者的結(jié)合。本體字典的建立可以大大提高分詞的準確性與停用詞的識別效果?;诮y(tǒng)計規(guī)律的無字典分詞技術(shù)雖可以減輕建立字典的負擔,但準確性難以保證,分詞后需進行詞性標注。詞性既可以是名詞、動詞等,也可以根據(jù)挖掘需求自行定義,例如文獻[15]中的大部件、小部件、屬性、程度,以及文獻[16]中的實體、缺陷現(xiàn)象、定性缺陷程度、定量缺陷程度等。詞性標注的本質(zhì)是分類問題。將電力文本切分為一個個詞匯后,除了有用的電力詞匯,還會出現(xiàn)人名、地名、符號等停用詞[14],可根據(jù)實際挖掘需求去除待處理文本中的停用詞。

2.2 電力文本表示方法

文本表示方法是指將文本數(shù)據(jù)表示成計算機可處理的形式,表示方式將直接影響后續(xù)數(shù)據(jù)挖掘的效率和效果。表示方法有很多,如向量空間模型、嵌入式向量模型等向量化表示方法,以及語義框架模型、樹/圖結(jié)構(gòu)模型、正則表達法等等。

(1)向量空間模型用于快速提取句子的整體含義,而對句子中詞匯順序不是很關(guān)注;而嵌入式向量模型用于需要突出某一個或幾個詞匯含義或順序的文本。常見的向量化方法有詞袋方法與Word2Vec方法。詞袋方法基于向量空間模型,簡單通俗,但向量維度高,而且詞向量忽略了句法;Word2Vec方法基于神經(jīng)網(wǎng)絡(luò)訓練得到,屬于嵌入式向量模型,詞向量維度低,而且由于訓練時考慮了上下文,不同詞之間具有同義、近義、反義等語義信息,可通過計算向量相似度衡量。Doc2Vec是Word2Vec的拓展,用類似的方法將句子向量化,優(yōu)點在于可以提取句子主旨。

(2)語義框架模型,是指對于特定內(nèi)容的文本,根據(jù)其語法基本模型,定義語義槽和語義框架,然后采用基于本體字典的槽填充方法,實現(xiàn)文本的特殊表示。

(3)樹結(jié)構(gòu)模型可以分析句法結(jié)構(gòu),形成以“核心詞-依存關(guān)系-依存詞”為基本形式的依存關(guān)系樹。圖結(jié)構(gòu)模型是將一條文本表示為圖結(jié)構(gòu)形式,表示過程與知識圖譜相似,首先基于本體字典識別文本中的實體與屬性,然后進行共指消解,查找出所有表示實體/屬性的詞當中的同義詞,接下來進行關(guān)系抽取,識別各實體/屬性間是否存在關(guān)系及相應關(guān)系類型,最后進行關(guān)系篩選,如刪除冗余的包含關(guān)系等。圖結(jié)構(gòu)的表示形式能夠一定程度上反映文本中復雜的關(guān)聯(lián)信息,是文本挖掘的有效手段之一。

(4)電力文本還可以采用正則表達式法,用于提取句中的數(shù)字、字母、特殊符號等隱含重要信息的字段。不同的文本挖掘需求可以采用一種或多種方法融合表示。

2.3 電力數(shù)據(jù)挖掘方法

電力文本在經(jīng)過預處理與表示環(huán)節(jié)后,轉(zhuǎn)化為計算機可以處理的結(jié)構(gòu)化數(shù)據(jù),從而可以利用結(jié)構(gòu)化數(shù)據(jù)挖掘方法進行數(shù)據(jù)挖掘。數(shù)據(jù)挖掘方法有很多,常見的有各種機器學習方法。

基于機器學習方法,可以根據(jù)學習模式將機器學習分為有監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習,是否有監(jiān)督取決于訓練數(shù)據(jù)是否有標注,有標注的文本可以應用于分類問題,無標注的文本可以應用于聚類問題。根據(jù)學習方法,又可以將機器學習分為傳統(tǒng)機器學習和深度學習等[17]。傳統(tǒng)機器學習算法有邏輯回歸、隱馬爾科夫方法、支持向量機方法、K近鄰方法、貝葉斯方法以及決策樹方法等;深度學習算法有深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、受限玻爾茲曼機和循環(huán)神經(jīng)網(wǎng)絡(luò)等。其中,由循環(huán)神經(jīng)網(wǎng)絡(luò)變種而來的長短時記憶網(wǎng)絡(luò),由于加入了長期記憶機制,在處理長序列時具有優(yōu)勢,因而適用于長文本的挖掘。

3 文本挖掘技術(shù)在電力缺陷文本中的應用

3.1 電力缺陷文本的特點及挖掘需求

在電力文本挖掘領(lǐng)域,已有一些針對電力缺陷文本的應用。電力缺陷文本來自于電網(wǎng)企業(yè)日常運維記錄,一般包括計算機可直接處理的格式規(guī)范、語義清晰的內(nèi)容,如缺陷設(shè)備編號、名稱、缺陷發(fā)現(xiàn)時間、缺陷等級等;也包括計算機難以理解的文本,主要為缺陷詳細描述,如“2號主變冷卻器風扇有異響”“有載分接開關(guān)呼吸器硅膠變色2/3以上”。缺陷描述由現(xiàn)場工作人員記錄,可能存在一些不規(guī)范或錯誤需要進行更正。此外,缺陷描述包含的內(nèi)容通常較為豐富,一條文本可能包含多條缺陷信息,每一條缺陷信息包含著缺陷發(fā)生部件、現(xiàn)象及程度等缺陷特征,因此需要進行缺陷分離、特征抽取、關(guān)系挖掘等研究。圖1示例了缺陷文本挖掘的幾種典型應用。

圖1 缺陷文本挖掘典型應用

3.2 缺陷文本錯誤識別與質(zhì)量提升

缺陷文本常常存在各種原因造成的質(zhì)量問題,如描述不完整、有歧義等,若將這些存在質(zhì)量問題的記錄作為有效文本進行挖掘,會造成挖掘結(jié)果偏差。因此需采用適當?shù)姆椒▽θ毕菸谋具M行質(zhì)量評價,對質(zhì)量較差的歷史文本進行質(zhì)量提升,對新錄入文本給出改進建議,從源頭上保證文本質(zhì)量,對確保后續(xù)文本挖掘效果具有重要意義。

邵冠宇等進行了卓有成效的研究[18]。通過對大量實際缺陷文本的分析,首先總結(jié)出電網(wǎng)設(shè)備缺陷文本容易出現(xiàn)的不完整、不具體、冗余度過高等問題。然后,定義了缺陷文本質(zhì)量的評價指標,并提出了基于“層次-自適應灰色關(guān)聯(lián)分析法”的評價方法。接著,基于潛在狄利克雷分布方法,結(jié)合國家電網(wǎng)公司的缺陷分類標準修正文本。針對新錄入文本,利用文本質(zhì)量評價方法進行質(zhì)量問題提示,利用詞向量映射方法給出修正建議,保證新錄入缺陷文本的質(zhì)量。其算例表明,歷史缺陷文本在修正后其文本質(zhì)量得分有較大提升,新錄入文本存在的質(zhì)量問題能被準確識別并給出修正建議。

劉梓權(quán)等則提出了基于知識圖譜的缺陷文本錯誤識別方法[19]。首先利用現(xiàn)有電力設(shè)備缺陷記錄語料庫,通過實體抽取、屬性抽取、共指消解、關(guān)系抽取、關(guān)系篩選等步驟,構(gòu)建出電力設(shè)備缺陷知識圖譜;然后基于缺陷知識圖譜,采用圖搜索方法識別不同類型的缺陷文本錯誤并給出提示;最后通過算例分析表明,基于知識圖譜的缺陷文本錯誤識別方法各項評估指標均優(yōu)于其他人工智能學習方法,并且運行效率能滿足工程應用。

3.3 缺陷嚴重等級自動分類

電力設(shè)備缺陷的嚴重程度常分為緊急、嚴重、一般3類,不同等級缺陷有不同的消缺時間要求,因此缺陷文本的準確分類非常重要。人工對缺陷文本進行嚴重等級分類,不僅效率低,而且由于主觀因素和經(jīng)驗差異,準確性難以保障。

文獻[20]基于one-hot詞袋模型,實現(xiàn)了文本的向量化,然后基于KNN(自主區(qū)間搜索K最近鄰)算法,將待歸類的缺陷文本與缺陷文本庫中已歸類的缺陷文本進行對比,找到最相近的文本,然后將待歸類文本歸入最接近文本的一類。算例驗證了基于KNN算法對文本進行分類的可行性。

文獻[21]則提出了基于卷積神經(jīng)網(wǎng)絡(luò)的電力設(shè)備缺陷文本分類模型。首先以大量經(jīng)過文本預處理的電力設(shè)備缺陷文本為語料庫,訓練出每個詞的詞向量表示,詞向量的各個維度代表通過神經(jīng)網(wǎng)絡(luò)語言模型學習到的詞的語義特征。然后參考電力設(shè)備用語規(guī)范,對同義詞的詞向量進行合并。接下來構(gòu)建卷積神經(jīng)網(wǎng)絡(luò)分類器,以準確標注缺陷等級的文本為訓練數(shù)據(jù),構(gòu)建以缺陷文本為輸入、以分類等級結(jié)果為輸出的電力缺陷文本分類模型。算例展示了該模型在分類效果上的顯著優(yōu)勢,為電力文本分類提供了有效手段。

我至今仍記得,高三某一天晚上,說有臺風,學校很早就讓我們回宿舍了,而第二天早上,6點半都不到,您卻從校道上迎面走來,想必您是整晚都沒回家。

3.4 缺陷文本智能檢索

目前,缺陷處理工作依賴于工作人員的知識與經(jīng)驗。如果可以通過檢索找到相同缺陷情況的歷史記錄,就可以借鑒前人的經(jīng)驗,參考以往的處理方法對該缺陷進行相應處理,這在實際缺陷管理中,尤其是對于知識和經(jīng)驗相對不足的人員有著重要的指導意義。

劉梓權(quán)等在已構(gòu)建的電力設(shè)備缺陷知識圖譜基礎(chǔ)上,利用圖搜索技術(shù)實現(xiàn)了電力設(shè)備缺陷文本的檢索[16]。算例對比了基于知識圖譜的缺陷記錄檢索方法與傳統(tǒng)機器學習語義分析方法的檢索效果,表明基于知識圖譜的檢索方法準確性更好。

3.5 缺陷文本中的缺陷細節(jié)提取

缺陷文本包含對缺陷細節(jié)的描述,如何提取這些細節(jié)、進而統(tǒng)計分析發(fā)現(xiàn)缺陷規(guī)律是一個重要的問題。

曹靖等通過建立缺陷文本語義框架,實現(xiàn)了缺陷細節(jié)的提取,為電力設(shè)備缺陷的精細化統(tǒng)計分析提供了技術(shù)手段[15]。缺陷文本的語義框架由大部件、小部件、屬性、程度4個語義槽構(gòu)成,在進行缺陷文本的槽填充過程中記錄詞位信息,然后在構(gòu)建語義框架時根據(jù)詞位信息計算路徑距離,并區(qū)分核心詞是小部件或?qū)傩?,選擇不同方向的最小路徑距離進行槽匹配,最后經(jīng)詞串合并實現(xiàn)最終的語義框架。由于缺陷細節(jié)即為語義框架中的語義槽,因此可對挖掘出的缺陷細節(jié)進行統(tǒng)計分析。

3.6 缺陷文本的健康狀態(tài)自動評價

電力設(shè)備缺陷文本蘊藏著設(shè)備健康既往史,對客觀評價設(shè)備健康狀態(tài)發(fā)展過程大有用處。

邱劍等以斷路器為例提出通過缺陷文本挖掘把缺陷等級融入基于狀態(tài)監(jiān)測數(shù)據(jù)的狀態(tài)評價模型中,建立了比率型全壽命狀態(tài)評價模型[14]。其中,缺陷等級分類采用基于KNN算法的文本分類方法;比率型狀態(tài)信息融合模型可實現(xiàn)斷路器全壽命健康狀態(tài)的展示,對于電力設(shè)備狀態(tài)評價與全壽命健康管理有重要作用。

既然可以把缺陷嚴重程度分類結(jié)果融入健康狀態(tài)評價模型,那么也可更進一步從句子結(jié)構(gòu)和語義的角度對缺陷文本進行深入挖掘,通過對比缺陷描述與標準導則,給出缺陷文本當時場景下的設(shè)備健康得分,這樣設(shè)備既往史融入健康狀態(tài)評價的科學性會大大提高。但是,實際缺陷文本與標準導則之間的自動準確匹配仍是一個難題,對比文本相似度的準確度不夠高,采用知識圖譜技術(shù),或者利用依存句法分析,將缺陷描述轉(zhuǎn)化為樹形結(jié)構(gòu),基于樹匹配算法與導則進行比較,從而得到健康指數(shù)分值,是正在研究的解決辦法。

3.7 缺陷文本挖掘的啟發(fā)

上述電力缺陷文本的挖掘研究提供了以下啟發(fā):

(1)電力文本種類多,文本挖掘技術(shù)手段也多,需根據(jù)文本特點及挖掘需求研究適合的挖掘方法。

(2)文本挖掘效果與文本本身質(zhì)量、本體字典質(zhì)量有重大關(guān)系,因此應通過管理和技術(shù)手段保證電力文本質(zhì)量,并建立完善的電力本體字典。

(3)文本數(shù)據(jù)是電力大數(shù)據(jù)中的一種模態(tài),需結(jié)合其他模態(tài)數(shù)據(jù)的挖掘成果,融合起來才能發(fā)揮更大的作用。

4 電力文本挖掘面臨的挑戰(zhàn)

4.1 電力本體字典的構(gòu)建

電力本體字典的構(gòu)建是電力領(lǐng)域文本挖掘的基礎(chǔ)工作。本體字典蘊含了電力領(lǐng)域最基本的知識,其質(zhì)量與數(shù)量不僅決定著文本預處理中分詞、詞性標注等的準確性,也影響著消除歧義、構(gòu)建知識圖譜等工作,是電力文本挖掘中最根本的知識庫。

電力本體字典的構(gòu)建是個難題。一方面,電力領(lǐng)域相關(guān)術(shù)語的數(shù)量非常龐大,僅名詞類詞匯就有近萬個。另一方面,電力領(lǐng)域分支眾多,在不同分支領(lǐng)域有不同的專業(yè)詞匯、俗稱及表達習慣等,比如GIS在設(shè)備層面是指氣體絕緣組合電器,而在電網(wǎng)層面則是指地理信息系統(tǒng)。然而,電力領(lǐng)域畢竟是一個確定的封閉域,雖然困難,但只要電力領(lǐng)域科研工作者共同努力,不斷豐富完善,高質(zhì)量的電力本體字典建設(shè)是可以實現(xiàn)的。

4.2 電力知識圖譜的構(gòu)建與應用

劉梓權(quán)等雖然已經(jīng)對電力知識圖譜的構(gòu)建進行了技術(shù)路線探索與驗證[16],但僅限于變壓器的缺陷文本。從整個電力領(lǐng)域看,電力知識圖譜還缺乏頂層設(shè)計,因此還具有巨大的發(fā)展?jié)摿Α?/p>

在已實踐的電力知識圖譜構(gòu)建過程中,基于本體字典進行實體識別,準確率較高;但在關(guān)系抽取中,如何定義電力實體間的關(guān)系類型,做到不冗余、不缺漏,又滿足挖掘需求,是需要不斷實踐與總結(jié)的。此外,還有尚未實踐的知識圖譜領(lǐng)域更深層次問題,比如:如何根據(jù)已有實體屬性與實體間的關(guān)系,推理得到新的屬性或者關(guān)系,這對于電力知識圖譜的智能化運用非常關(guān)鍵;如何將各種電力知識表示成“實體-關(guān)系-實體”三元組,是一個富有挑戰(zhàn)性的問題;是不是可以打破這種知識表示的限制,創(chuàng)造更多的知識表示的方法,更是一個關(guān)系電力知識圖譜架構(gòu)本身的值得研究的問題。

目前大規(guī)模知識圖譜的應用還比較有限,領(lǐng)域內(nèi)的知識圖譜更是如此。如何有效實現(xiàn)電力知識圖譜的應用,提高大規(guī)模知識圖譜計算效率,不僅需要研究人員探索相關(guān)技術(shù),還需要發(fā)掘合適的應用場景進行示范。例如,在電力設(shè)備運維管理的智能查詢、策略推送方面,知識圖譜技術(shù)可望有所作為。

4.3 多模態(tài)數(shù)據(jù)融合挖掘提升應用價值

前文介紹的各種文本挖掘應用雖已能解決一小部分淺層次的問題,然而要獲得更深層次的應用,需進行多模態(tài)數(shù)據(jù)融合挖掘研究。數(shù)據(jù)融合是數(shù)據(jù)挖掘的研究分支之一。除常見的結(jié)構(gòu)化數(shù)據(jù)外,還有文本、圖像、視頻、波形等多種模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)。目前開展較多的是結(jié)構(gòu)化數(shù)據(jù)之間的融合研究,如多傳感器監(jiān)測數(shù)據(jù)融合的故障診斷研究,但還缺乏多模態(tài)數(shù)據(jù)融合研究。以電力設(shè)備健康狀態(tài)評估為例,若通過對歷史缺陷文本的缺陷細節(jié)挖掘,獲得電力設(shè)備缺陷發(fā)生的深層次規(guī)律,指導設(shè)備進行測試性設(shè)計,獲得更有效的各種模態(tài)監(jiān)測數(shù)據(jù),再加上挖掘的設(shè)備既往史,則能更全面準確地評估設(shè)備的健康狀態(tài)。因此電力文本數(shù)據(jù)挖掘與其他模態(tài)數(shù)據(jù)融合挖掘能提升工程應用價值。

5 結(jié)語

近十多年來,自然語言處理技術(shù)發(fā)展迅速,促使機器能夠在一定程度上“理解”文本。但是,電力是個專業(yè)性非常強的行業(yè),且對文本挖掘模型的準確性和可靠性要求高,需要研究者同時具備電力領(lǐng)域知識和文本挖掘經(jīng)驗,才能結(jié)合適應性改進和自主創(chuàng)新,建立起符合電力文本特點和應用要求的文本挖掘技術(shù)體系。

目前,電力文本數(shù)據(jù)挖掘研究已引起重視,但還面臨著挖掘需求不明確、挖掘效果難以達到預期的困擾,已取得的研究成果還遠遠不足以支持智能電網(wǎng)和資產(chǎn)管理的發(fā)展,因此迫切需要有文本挖掘應用成果來示范和引領(lǐng),啟發(fā)出更多的電力文本挖掘需求,吸引更多人員參與電力文本挖掘技術(shù)及應用的研究中,促進電力文本挖掘理論與工程應用的蓬勃發(fā)展。

猜你喜歡
字典本體圖譜
高清大腦皮層發(fā)育新圖譜繪成
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補全
眼睛是“本體”
繪一張成長圖譜
字典的由來
一種基于社會選擇的本體聚類與合并機制
大頭熊的字典
正版字典
主動對接你思維的知識圖譜
專題