歐一鳴,蘇雍賀,鄒孝付+,靳 健,張長(zhǎng)志,陶 飛
(1.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191;2.北京師范大學(xué) 政府管理學(xué)院,北京 100875;3.國(guó)網(wǎng)天津市電力公司 電力科學(xué)研究院,天津 300384)
近年來,分布式光伏產(chǎn)業(yè)呈現(xiàn)爆發(fā)式增長(zhǎng),但行業(yè)飛速發(fā)展的同時(shí)也對(duì)分布式光伏電站的運(yùn)維能力提出了新的要求。分布式電站距離過遠(yuǎn)、信息無法精準(zhǔn)傳遞,因此無法像大規(guī)模集中式電站一樣組建一支隨時(shí)待命的高專業(yè)度運(yùn)維團(tuán)隊(duì)。同時(shí),目前的分布式光伏運(yùn)維工作通常由第三方公司或個(gè)人承擔(dān),人員的專業(yè)度很不穩(wěn)定,運(yùn)維模式又很依賴經(jīng)驗(yàn),往往會(huì)誤判電站的故障,造成人員在故障電站與運(yùn)維站點(diǎn)間重復(fù)往返,降低運(yùn)維效率。因此,亟需一種智慧運(yùn)維系統(tǒng),根據(jù)電站業(yè)主的運(yùn)維訴求,提供精準(zhǔn)的電站狀態(tài)判斷和方案支持,以節(jié)省運(yùn)維人員的精力、避免重復(fù)往返浪費(fèi)時(shí)間,進(jìn)而改善當(dāng)前的運(yùn)維現(xiàn)狀。
要實(shí)現(xiàn)這樣的智慧運(yùn)維系統(tǒng),首先需要建立適用于分布式光伏運(yùn)維領(lǐng)域的相關(guān)知識(shí)庫(kù)。這種知識(shí)庫(kù)有利于智慧運(yùn)維系統(tǒng)從更加專業(yè)的角度分析問題,并利用分布式光伏領(lǐng)域知識(shí)為運(yùn)維人員提供更專業(yè)的技術(shù)方案支持,因此建立分布式光伏領(lǐng)域的知識(shí)庫(kù)是智慧運(yùn)維的關(guān)鍵步驟。
對(duì)計(jì)算機(jī)系統(tǒng)來說,傳統(tǒng)的文本形式知識(shí)庫(kù)在檢索速度、邏輯推理、知識(shí)結(jié)構(gòu)表示等方面都存在一定的短板,因此建立一種細(xì)粒度的、圖譜化的知識(shí)庫(kù)已成為新型智能運(yùn)維系統(tǒng)的新需求。知識(shí)圖譜(knowledge graph)是Google公司在2012年提出的概念,它包含現(xiàn)實(shí)中的各種實(shí)體以及實(shí)體之間的關(guān)系,實(shí)體按照關(guān)系相互連接,表示為語義網(wǎng)絡(luò)的形式。在知識(shí)表示方面,它的基本單元為[頭實(shí)體(Head),實(shí)體關(guān)系(Relation),尾實(shí)體(Tail)]形式的三元組,有利于計(jì)算機(jī)進(jìn)行推理、存儲(chǔ)和表示。對(duì)分布式光伏領(lǐng)域而言,構(gòu)建這樣的知識(shí)庫(kù)則是要將領(lǐng)域中的設(shè)備部件和技術(shù)故障等相關(guān)概念作為實(shí)體,并按照關(guān)系相互連接形成圖譜。有了這種圖譜化的知識(shí)庫(kù),智慧運(yùn)維系統(tǒng)可以更加標(biāo)準(zhǔn)化、有邏輯地為運(yùn)維工作提供服務(wù),如雷兵[1]使用Web本體語言(Web Ontology Language, OWL)構(gòu)建了一個(gè)商務(wù)需求領(lǐng)域的圖譜化知識(shí)庫(kù),可以有效地對(duì)客戶需求進(jìn)行提取,這與分布式光伏運(yùn)維領(lǐng)域利用知識(shí)庫(kù)從運(yùn)維訴求中提取信息是相通的。
在預(yù)想的應(yīng)用場(chǎng)景中,為了充分利用圖譜形式知識(shí)庫(kù)的細(xì)粒度、可推理等特性,智慧運(yùn)維系統(tǒng)應(yīng)能夠?qū)⑦\(yùn)維訴求描述與圖譜中的實(shí)體元素對(duì)應(yīng),并通過實(shí)體之間的關(guān)系,將訴求映射到圖譜中的一個(gè)子圖中,再利用圖搜索技術(shù)獲取方案。為支持該預(yù)想應(yīng)用場(chǎng)景的實(shí)現(xiàn),知識(shí)庫(kù)對(duì)分布式光伏領(lǐng)域的實(shí)體與實(shí)體關(guān)系的提取步驟提出了更高的要求。為實(shí)現(xiàn)專業(yè)領(lǐng)域的訴求理解,需要進(jìn)行更細(xì)粒度的實(shí)體提取,并對(duì)準(zhǔn)確度提出更高的要求。為更好地發(fā)揮圖譜化知識(shí)庫(kù)支持推理的特性,需要更全面、更準(zhǔn)確地提取實(shí)體之間的關(guān)系。對(duì)于當(dāng)前的數(shù)據(jù)情況,基于無監(jiān)督學(xué)習(xí)的實(shí)體提取和基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的實(shí)體關(guān)系提取方法是較為合適的方法,但現(xiàn)有算法模型與分布式光伏領(lǐng)域的數(shù)據(jù)特點(diǎn)不太契合,需要進(jìn)行改進(jìn)。
針對(duì)以上問題,本文在實(shí)體提取步驟上,將其轉(zhuǎn)化為領(lǐng)域關(guān)鍵詞發(fā)現(xiàn)問題,利用基于word2vec生成的詞匯相似度,改良TextRank算法,實(shí)現(xiàn)分布式光伏領(lǐng)域的實(shí)體提取。在實(shí)體關(guān)系提取步驟上,對(duì)于領(lǐng)域中同一對(duì)實(shí)體可能同時(shí)有多種關(guān)系的情況,改良了分段卷積神經(jīng)網(wǎng)絡(luò)分段卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Network, PCNN)的分類器層,使其更契合分布式光伏領(lǐng)域的數(shù)據(jù)情況。本文改良的知識(shí)庫(kù)構(gòu)建方法,自動(dòng)化程度較高,可以有效減少構(gòu)建所需的人工成本,并能夠以現(xiàn)有數(shù)據(jù)填補(bǔ)面向分布式光伏智慧運(yùn)維知識(shí)庫(kù)的空白,同時(shí)提高準(zhǔn)確性。
目前,知識(shí)庫(kù)在智慧運(yùn)維中主要分為文本知識(shí)庫(kù)和圖譜化知識(shí)庫(kù)兩種形式,構(gòu)建的主要數(shù)據(jù)來源包括維修工單和用戶手冊(cè)中的文本[2-4]。文本形式的知識(shí)庫(kù)在應(yīng)用中主要通過語義分析等手段與輸入的訴求進(jìn)行文本匹配。如鞠冬彬[5]將用戶的業(yè)務(wù)查詢信息與文本知識(shí)庫(kù)中的文檔進(jìn)行比對(duì),提高了運(yùn)維客服的處理速度。但這種知識(shí)庫(kù)的應(yīng)用通常僅從文本分析的角度出發(fā),在限定領(lǐng)域中缺乏專業(yè)的分析能力,容易誤判訴求信息。而圖譜化知識(shí)庫(kù)由領(lǐng)域內(nèi)的實(shí)體名詞與實(shí)體關(guān)系構(gòu)成,能夠描述實(shí)體之間的關(guān)系,可以用于設(shè)備狀態(tài)評(píng)估和運(yùn)維預(yù)案生成。邱劍[6]利用圖譜化的知識(shí)庫(kù)構(gòu)建了一種面向電網(wǎng)運(yùn)維的自然語言處理引擎NLP4PG,可以從歷史工單的文本數(shù)據(jù)中提取專業(yè)信息、評(píng)估設(shè)備的狀態(tài)。許鑫[7]設(shè)計(jì)了一種自然語言預(yù)案生成系統(tǒng),通過建立電力領(lǐng)域的圖譜化知識(shí)庫(kù)來提取和利用電力領(lǐng)域的知識(shí),為運(yùn)維人員的檢修工作提供一定的指導(dǎo)。萬姍等[8]將數(shù)控機(jī)床的結(jié)構(gòu)化本體庫(kù)作為一種圖譜化知識(shí)庫(kù),根據(jù)維修需求的案例適應(yīng)度匹配歷史方案作為預(yù)案。這種知識(shí)庫(kù)支持推理,在專業(yè)領(lǐng)域中能夠更好地分析問題,在運(yùn)維中提升訴求理解的準(zhǔn)確性。
目前,在實(shí)踐中圖譜化知識(shí)庫(kù)的構(gòu)建主要有自頂向下和自底向上兩種流程[9]:
(1)自頂向下構(gòu)建 通常是半人工半自動(dòng)構(gòu)建,該方法先人工確定好數(shù)據(jù)模式與知識(shí)庫(kù)結(jié)構(gòu),再往其中填入實(shí)體等知識(shí),七步法[10-11]就是典型的專業(yè)領(lǐng)域圖譜化知識(shí)庫(kù)自頂向下構(gòu)建方法。由于領(lǐng)域?qū)嶓w數(shù)量較多、實(shí)體之間關(guān)系復(fù)雜,這種自頂向下的構(gòu)建方法比較耗費(fèi)人力,而且對(duì)人員的專業(yè)度要求高,準(zhǔn)確度容易受到人員主觀影響。
(2)自底向上構(gòu)建 該方法需要利用無監(jiān)督或遠(yuǎn)程監(jiān)督學(xué)習(xí)等技術(shù)手段,從文本中自動(dòng)抽取知識(shí)構(gòu)建圖譜化知識(shí)庫(kù)。如IBM Watson[12]平臺(tái)使用了一種實(shí)體連接算法來自動(dòng)構(gòu)建圖譜。這種自動(dòng)構(gòu)建方法可以節(jié)省人工成本,構(gòu)建速度也較快,同時(shí)也能保證準(zhǔn)確度。
目前,圖譜化知識(shí)庫(kù)的自動(dòng)構(gòu)建分為自動(dòng)映射和非結(jié)構(gòu)化數(shù)據(jù)提取兩種。自動(dòng)映射主要有結(jié)構(gòu)化數(shù)據(jù)映射[13]和基于模板抽取[14]兩種方法。非結(jié)構(gòu)化數(shù)據(jù)提取一般是指從文本中提取所需知識(shí),提取目標(biāo)為實(shí)體和實(shí)體關(guān)系,再將實(shí)體通過實(shí)體關(guān)系相連接形成知識(shí)圖譜,因此流程分為實(shí)體提取和實(shí)體關(guān)系提取兩步,典型的有DeepDive[15]提取框架。本文構(gòu)建分布式光伏領(lǐng)域知識(shí)庫(kù)的數(shù)據(jù)都來源于文本,因此要從非結(jié)構(gòu)化數(shù)據(jù)中提取相應(yīng)領(lǐng)域的知識(shí),包括實(shí)體提取和實(shí)體關(guān)系提取兩步。
1.2.1 領(lǐng)域?qū)嶓w提取研究現(xiàn)狀
實(shí)體提取步驟又稱為命名實(shí)體識(shí)別,分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類方法。在有足夠標(biāo)注數(shù)據(jù)的情況下,監(jiān)督學(xué)習(xí)方法中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)結(jié)合BiLSTM模型[16]等方法可以得到較好的效果,但若沒有現(xiàn)成的標(biāo)注數(shù)據(jù),則要消耗很多人力物力來獲取。目前,由于分布式光伏領(lǐng)域還比較缺乏有標(biāo)注數(shù)據(jù),本文采用無監(jiān)督的領(lǐng)域?qū)嶓w提取方法。對(duì)于無監(jiān)督的實(shí)體提取任務(wù),常用手段包括基于半結(jié)構(gòu)化數(shù)據(jù)庫(kù)、基于規(guī)則模板和匹配基于統(tǒng)計(jì)特征的方法。
(1)基于半結(jié)構(gòu)化數(shù)據(jù)庫(kù)的方法 是利用網(wǎng)絡(luò)百科等有一定書寫規(guī)律的數(shù)據(jù)來提取實(shí)體,建立詞典后,借助詞法和句法分析手段,提取出數(shù)據(jù)中蘊(yùn)含的實(shí)體名詞。Guo等[17]設(shè)計(jì)了一種基于維基百科的實(shí)體提取流程,通過建立字典并設(shè)計(jì)一套流程,提取出句子中蘊(yùn)含的實(shí)體。
(2)基于規(guī)則模板匹配 是由人工制定一套規(guī)則來進(jìn)行直接匹配。這種規(guī)則可以是基于詞典的字符串匹配等,由人工進(jìn)行測(cè)試,然后不斷改進(jìn),最終達(dá)到較好的效果[18]。
(3)基于統(tǒng)計(jì)特征的方法 是根據(jù)詞匯在領(lǐng)域文本中的統(tǒng)計(jì)信息所提取的特征,通過賦予詞匯權(quán)重或者與開放領(lǐng)域語料庫(kù)進(jìn)行比較,來提取領(lǐng)域?qū)嶓w名詞,該過程也用于解決關(guān)鍵詞提取問題。趙志濱等[19]采用詞頻—逆文檔頻率值(Term Frequency-Inverse Document Frequency, TF-IDF)值結(jié)合詞向量作為特征來發(fā)現(xiàn)領(lǐng)域詞匯,Lee等[20]使用基于PageRank的算法來判斷一個(gè)詞是否屬于關(guān)鍵詞。
對(duì)于本文來說,由于分布式光伏運(yùn)維是一個(gè)新興領(lǐng)域,相關(guān)的百科數(shù)據(jù)庫(kù)尚不完善,缺乏難以直接使用基于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的方法?;谝?guī)則模板匹配的方法對(duì)人力的依賴程度非常高,需要高度專業(yè)的領(lǐng)域和語言專家進(jìn)行大量的工作才能完成?;诮y(tǒng)計(jì)特征的方法對(duì)人力成本的消耗很低,通用性較強(qiáng),常用方法有TF-IDF和TextRank等,但容易受到固定句式等因素影響,需要引入外部信息來進(jìn)行改進(jìn)。
1.2.2 實(shí)體關(guān)系提取研究現(xiàn)狀
實(shí)體關(guān)系提取的主要任務(wù)是給定一對(duì)實(shí)體,從已有的文本數(shù)據(jù)中提取出這兩個(gè)實(shí)體之間的關(guān)系,通常以三元組的形式表示,主要分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督學(xué)習(xí)4種方法。在有標(biāo)注數(shù)據(jù)充足的情況下,TextCNN等卷積神經(jīng)網(wǎng)絡(luò)是一種行之有效的文本分類有監(jiān)督學(xué)習(xí)模型[21],但由于目前分布式光伏領(lǐng)域缺乏已標(biāo)注數(shù)據(jù),無法使用有監(jiān)督方式進(jìn)行。無監(jiān)督方法主要應(yīng)用于開放領(lǐng)域,對(duì)于限定領(lǐng)域的關(guān)系提取不夠細(xì)致,無法滿足面向智慧運(yùn)維的知識(shí)庫(kù)要求。半監(jiān)督方法能夠只利用少量的有標(biāo)注樣本,讓模型根據(jù)一定的模式自我訓(xùn)練,如Hakami等[22]基于自監(jiān)督方法進(jìn)行關(guān)系提取,倪維健等[23]通過轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine, TSVM)轉(zhuǎn)導(dǎo)支持向量機(jī)進(jìn)行半監(jiān)督學(xué)習(xí)。半監(jiān)督方法雖然對(duì)人工標(biāo)注的需求較低,但容易出現(xiàn)“語義漂移”的問題,準(zhǔn)確度不足。遠(yuǎn)程監(jiān)督方法可以利用公共領(lǐng)域知識(shí)庫(kù),通過學(xué)習(xí)其他知識(shí)庫(kù)中表示同樣實(shí)體關(guān)系的文本特征,來判斷分布式光伏領(lǐng)域文本中的實(shí)體關(guān)系,這種方法不需要領(lǐng)域內(nèi)的有標(biāo)注數(shù)據(jù),準(zhǔn)確度也較高。
遠(yuǎn)程監(jiān)督關(guān)系提取主要包括基于語法特征的方法、基于隱變量概率分布的方法和基于神經(jīng)網(wǎng)絡(luò)的方法?;谡Z法特征的方法是指分析兩種實(shí)體之間的語法特征作為實(shí)體關(guān)系的分類依據(jù)。Mintz等[24]利用依存句法分析了維基百科中的文本,在使用這種方法時(shí)首次采用了遠(yuǎn)程監(jiān)督手段,同時(shí)還作出了“遠(yuǎn)程監(jiān)督假設(shè)”,認(rèn)為所有同時(shí)提到兩個(gè)實(shí)體的句子都有可能蘊(yùn)含兩個(gè)實(shí)體的關(guān)系信息。基于隱變量概率分布的方法采用隱含狄利克雷分布的模型對(duì)句子的統(tǒng)計(jì)信息進(jìn)行建模。如周娜等[25]通過構(gòu)建隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)主題模型,提取核心期刊的“作者—內(nèi)容—方法”之間的關(guān)系。基于神經(jīng)網(wǎng)絡(luò)的方法將深度學(xué)習(xí)模型用于實(shí)體關(guān)系提取,常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)等,在實(shí)體關(guān)系提取任務(wù)上的準(zhǔn)確度已顯著高于傳統(tǒng)的機(jī)器學(xué)習(xí)方法[26]。
目前,基于CNN的方法性能較優(yōu),該方法可以減少對(duì)現(xiàn)有詞法、句法分析等自然語言處理工具的依賴,避免錯(cuò)誤率疊加,從而提高準(zhǔn)確度和可用性。同時(shí),在網(wǎng)絡(luò)的池化層使用分段池化方法,可以將實(shí)體的上下文與位置關(guān)系等信息也提取出來,提升模型效果。在當(dāng)前的CNN模型中,分類器層多使用Softmax分類器,這種分類器適合多分類問題,并能夠得到每個(gè)類的相應(yīng)概率。但由于分布式光伏領(lǐng)域中,同一對(duì)實(shí)體的多種關(guān)系之間并不互斥,如果使用CNN模型,可以對(duì)分類器層進(jìn)行相應(yīng)的修改,使提取結(jié)果更加全面,提高準(zhǔn)確度。
當(dāng)前分布式光伏領(lǐng)域可利用的文本數(shù)據(jù)主要包括維修工單和運(yùn)維手冊(cè),數(shù)據(jù)量較大,均為沒有標(biāo)注的文本數(shù)據(jù)。本文將利用分布式光伏領(lǐng)域無標(biāo)注文本,采用無監(jiān)督的方法,進(jìn)行基于統(tǒng)計(jì)特征的實(shí)體提取,構(gòu)成領(lǐng)域?qū)嶓w庫(kù);利用開放領(lǐng)域的知識(shí)庫(kù)數(shù)據(jù),采用遠(yuǎn)程監(jiān)督的方法,進(jìn)行實(shí)體關(guān)系提取,構(gòu)成實(shí)體關(guān)系庫(kù)。
具體構(gòu)建流程如圖1所示,包括實(shí)體提取步驟和實(shí)體關(guān)系提取步驟。
(1)實(shí)體提取步驟 因?yàn)榉植际焦夥I(lǐng)域可利用的數(shù)據(jù)中多為無標(biāo)注的陳述性文本,所以可以轉(zhuǎn)化為關(guān)鍵詞提取問題。在該問題上,基于圖模型的TextRank算法是一種廣泛使用的方法[27-29],該方法通用性較強(qiáng),不需要額外的訓(xùn)練數(shù)據(jù)。但是在單一領(lǐng)域的文本數(shù)據(jù)中,存在固定句式導(dǎo)致非領(lǐng)域詞匯權(quán)重相互抬升的現(xiàn)象。因此,本文根據(jù)李俊等[30]引入外部語義信息改善權(quán)重傳遞過程的方法,針對(duì)分布式光伏領(lǐng)域,通過引入外部詞向量來改進(jìn)TextRank算法。該步驟利用運(yùn)維手冊(cè)中的無標(biāo)注文本數(shù)據(jù),獲取光伏領(lǐng)域的實(shí)體詞匯,以降低人工篩查的工作量,并提高提取性能。
(2)實(shí)體關(guān)系提取步驟 本文利用公共領(lǐng)域的百科數(shù)據(jù)庫(kù),通過遠(yuǎn)程監(jiān)督學(xué)習(xí)的方法建立神經(jīng)網(wǎng)絡(luò)模型,從分布式光伏領(lǐng)域的無標(biāo)注文本中提取實(shí)體關(guān)系。本文采用PCNN模型,更加注重實(shí)體之間的位置、距離和上下文關(guān)系;又根據(jù)分布式光伏領(lǐng)域?qū)嶓w之間可能有多種關(guān)系的特點(diǎn),對(duì)模型的分類器層進(jìn)行修改,形成了更適用于該領(lǐng)域的分段卷積神經(jīng)網(wǎng)絡(luò)—光伏(Piecewise Convolutional Neural Network-Photovoltaic, PCNN-PV)模型;又由于遠(yuǎn)程監(jiān)督學(xué)習(xí)面臨較大的數(shù)據(jù)噪聲問題,使用多示例學(xué)習(xí)的方式來回避錯(cuò)誤樣本對(duì)模型訓(xùn)練過程的影響。最后,利用該模型處理分布式光伏領(lǐng)域文本,獲得領(lǐng)域內(nèi)的三元組信息,完成圖譜化知識(shí)庫(kù)的構(gòu)建。
TextRank[31]是一種經(jīng)典的無監(jiān)督關(guān)鍵詞提取算法,具有良好的通用性。其輸入是需要提取關(guān)鍵詞的全部文本,通過給輸入文本中的所有詞賦予權(quán)重,得到所有詞匯的權(quán)重列表作為輸出。該算法的核心思想是:每個(gè)詞將權(quán)重轉(zhuǎn)移給它連接到的詞,并獲得其他詞轉(zhuǎn)移來的權(quán)重,經(jīng)過多輪迭代后逐漸收斂,得到穩(wěn)定的詞匯權(quán)重。
令語料庫(kù)中所有詞匯的集合為M,向量M的長(zhǎng)度為m,建立權(quán)重轉(zhuǎn)移矩陣A,則A∈Rm。詞匯wi從wj獲得的權(quán)重轉(zhuǎn)移量表示為aij,因此,對(duì)于A中的元素aij有:
(1)
式中:ωij表示權(quán)重在轉(zhuǎn)移過程中wi在wj的共現(xiàn)窗口中出現(xiàn)過的次數(shù);O(wj)表示wj為中心的共現(xiàn)窗口中出現(xiàn)除自己外所有詞的數(shù)量。按這種方式對(duì)所有詞匯組合生成aij,直到權(quán)重轉(zhuǎn)移矩陣A建立完畢。初始化權(quán)重向量?jī)?nèi)所有的詞的權(quán)重R(vi)=1,所有詞匯的TextRank權(quán)重組成詞匯權(quán)重向量S,則有S0=[1,…,1]T。將狀態(tài)轉(zhuǎn)移矩陣A作用于權(quán)重向量,k為迭代次數(shù),得到Sk+1=ATSk。為保證權(quán)重達(dá)到收斂,定義阻尼參數(shù)d,此時(shí)有Sk+1=(1-d)Sk+dASk。按如此過程反復(fù)迭代,直到權(quán)重向量S收斂。求出所有詞匯權(quán)重后,可以按照權(quán)重大小排序,提取出分布式光伏領(lǐng)域的關(guān)鍵詞。最后,根據(jù)關(guān)鍵詞的詞性進(jìn)行篩選,提取出名詞關(guān)鍵詞作為光伏領(lǐng)域的實(shí)體名詞。
在當(dāng)前TextRank算法的假設(shè)中,在每一輪的權(quán)重迭代時(shí),每個(gè)詞應(yīng)該只以共現(xiàn)窗口中的出現(xiàn)次數(shù)為依據(jù),將權(quán)重傳遞給相鄰的詞。但是光伏運(yùn)維手冊(cè)中含有大量的固定組合句式如“……檢查原因”,使得這些固定組合中的詞匯存在相互抬升權(quán)重的現(xiàn)象,從而導(dǎo)致分布式光伏領(lǐng)域?qū)嶓w名詞的權(quán)重排序受到干擾。
針對(duì)這種情況,本文對(duì)權(quán)重轉(zhuǎn)移過程進(jìn)行了改良。受無監(jiān)督的聚類算法啟發(fā),本文認(rèn)為,在以尋找光伏領(lǐng)域關(guān)鍵詞為目的時(shí),可以引入詞向量影響權(quán)重轉(zhuǎn)移的過程,減小無關(guān)詞匯權(quán)重相互抬升。設(shè)定數(shù)個(gè)分布式光伏領(lǐng)域詞匯作為“核心詞匯”,在詞向量空間中距離“核心詞匯”越近的詞將擁有更高的“質(zhì)量”,在權(quán)重轉(zhuǎn)移的過程中將獲取更高的權(quán)重。
本文中TextRank算法的主要任務(wù)是獲取分布式光伏領(lǐng)域的實(shí)體名詞,因此可設(shè)置“光伏”、“設(shè)備”等詞為核心詞匯,如果核心詞匯不止一個(gè),在判斷詞匯質(zhì)量時(shí)分別計(jì)算與核心詞匯的詞向量距離,取最小值。假設(shè)有核心詞匯{wc1,wc2,wc3},核心詞匯的詞向量分別為{Vc1,Vc2,Vc3},待判斷詞匯wi的詞向量為Vi,兩詞向量之間的距離取歐氏距離,記為:
dic=‖Vi-Vc‖。
(2)
根據(jù)詞向量之間的距離,定義該詞與核心詞匯的相似度函數(shù),使得越靠近核心詞匯相似度越大,并用一個(gè)非線性函數(shù)將相似度限定在(0,1)之間,避免權(quán)重都向某幾個(gè)詞集中,本文使用如下雙曲正切函數(shù):
(3)
aij為詞匯wi從wj獲得的權(quán)重轉(zhuǎn)移量,則進(jìn)一步處理式(3):
(4)
為了保證在迭代過程中,權(quán)重總量不過分膨脹或縮水,對(duì)所有從wj轉(zhuǎn)移出去的權(quán)重進(jìn)行歸一化操作,并使單個(gè)詞匯的權(quán)重轉(zhuǎn)移向量元素之和為1:
(5)
歸一化之后可得新的權(quán)重轉(zhuǎn)移矩陣,在詞向量空間距離的影響下,分布式光伏領(lǐng)域詞匯的權(quán)重在轉(zhuǎn)移迭代中提升更快,更容易與其他無關(guān)詞匯相互區(qū)分。
遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系提取主要任務(wù)是從公共領(lǐng)域的百科數(shù)據(jù)中訓(xùn)練出一個(gè)模型,使得該模型在分布式光伏領(lǐng)域的文本中也能較好地進(jìn)行實(shí)體關(guān)系提取,本文根據(jù)Zeng等[32]的遠(yuǎn)程監(jiān)督學(xué)習(xí)研究構(gòu)建了PCNN模型。由前文的TextCNN可知,以詞的向量表示作為輸入,并用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本處理可以更好地捕捉上下文的相關(guān)信息。在池化層將句子根據(jù)實(shí)體詞匯位置分割進(jìn)行分段池化,可以為模型提供更豐富的信息。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
首先,將要處理的句子中每一個(gè)詞都表示為詞向量,從而生成一個(gè)相應(yīng)的矩陣,該矩陣將作為初始數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中。輸入的矩陣經(jīng)過一維卷積的處理后進(jìn)入池化層,根據(jù)文獻(xiàn)[32],使用分段最大池化(piecewise max pooling)進(jìn)行操作,對(duì)于含有2個(gè)實(shí)體名詞的句子來說,天然地可以按照實(shí)體位置將句子分割為3個(gè)部分。按照這種分割方式,將3個(gè)部分分別進(jìn)行最大池化操作,可以捕捉到更細(xì)致的文本特征,從而更好地進(jìn)行實(shí)體關(guān)系提取。最后,池化層的輸出進(jìn)入分類器層,通過Softmax等函數(shù)進(jìn)行判斷,得出關(guān)系提取的結(jié)果。
盡管PCNN在開放領(lǐng)域是一種較為有效的關(guān)系提取模型,但其在光伏領(lǐng)域內(nèi)需要一定的改進(jìn)以提高性能。在開放領(lǐng)域中PCNN模型會(huì)假設(shè)實(shí)體關(guān)系提取是一個(gè)多分類(multi-class)問題,即認(rèn)為兩個(gè)實(shí)體之間只存在一種關(guān)系,只需要從候選關(guān)系中找到最可能的一種。但對(duì)本文要構(gòu)建的光伏領(lǐng)域知識(shí)庫(kù)來說,兩種實(shí)體之間可能存在不止一種關(guān)系,例如實(shí)體“空氣斷路器”對(duì)于實(shí)體“電路”來說,前者既是從屬于后者的一種部件,也對(duì)后者起到了保護(hù)作用。因此,在光伏領(lǐng)域中,實(shí)體提取是一個(gè)多標(biāo)簽(multi-label)問題,廣泛使用的Softmax多分類器并不直接適用于該領(lǐng)域。對(duì)此,可以使用多個(gè)2分類器來替代多分類器處理多標(biāo)簽問題,改良后得到針對(duì)分布式光伏領(lǐng)域優(yōu)化的PCNN-PV模型。本文中模型使用多個(gè)Logistic分類器來輸出結(jié)果。
池化層輸出為g,W1是長(zhǎng)度與g相等的權(quán)重向量,b為常數(shù)。Y為分類器的輸出,由于該分類器為2分類,輸出可能有Y=0或Y=1,將其表達(dá)為條件概率分布,有
(6)
(7)
(8)
為了減輕遠(yuǎn)程監(jiān)督附帶的噪聲對(duì)實(shí)體關(guān)系提取效果的影響,在訓(xùn)練網(wǎng)絡(luò)時(shí)需要使用多示例學(xué)習(xí)(Multi Instance Learning, MIL)策略,該策略由PAuer[33]首次提出。多示例學(xué)習(xí)的策略是將訓(xùn)練數(shù)據(jù)分為許多組,構(gòu)成一個(gè)個(gè)“樣本包(bag)”,每個(gè)“包”中包含多個(gè)“示例(instance)”。在訓(xùn)練時(shí),不考慮任何單個(gè)樣本的正或負(fù)類標(biāo)注,而是關(guān)注“樣本包”整體的標(biāo)注情況。多示例學(xué)習(xí)作出如下假設(shè):對(duì)于一個(gè)“樣本包”,只要其含有的任何一個(gè)樣本被認(rèn)為是正類,則該“樣本包”的整體就被標(biāo)注為正;而當(dāng)且僅當(dāng)該“樣本包”中所有樣本都不是正類時(shí),該樣本才被認(rèn)為是負(fù)類。而多示例學(xué)習(xí)的最終目標(biāo)是訓(xùn)練出針對(duì)某一種實(shí)體關(guān)系、單個(gè)樣本的分類器,以對(duì)單個(gè)樣本進(jìn)行單個(gè)實(shí)體關(guān)系的正負(fù)標(biāo)注預(yù)測(cè)。通過這種訓(xùn)練策略,可以有效回避遠(yuǎn)程監(jiān)督學(xué)習(xí)中的噪聲問題。整體算法流程如算法1所示。
算法1多示例學(xué)習(xí)流程。
步驟1初始化神經(jīng)網(wǎng)絡(luò)的參數(shù),將樣本劃分成許多個(gè)樣本包。
步驟2隨機(jī)將一個(gè)樣本包M中的樣本依次輸入PCNN-PV模型中。
步驟3根據(jù)當(dāng)前模型參數(shù)的預(yù)測(cè),找到在當(dāng)前樣本包M中與目標(biāo)分類最接近的樣本m。
步驟4根據(jù)對(duì)m數(shù)據(jù)的最優(yōu)化結(jié)果,對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。
步驟5重復(fù)步驟2~步驟4,直到收斂或達(dá)到預(yù)定循環(huán)次數(shù)。
由于多示例學(xué)習(xí)是作用于“樣本包”而不是單個(gè)樣本上的,需要針對(duì)整個(gè)“樣本包”進(jìn)行條件概率計(jì)算。在所有的T組“包”中的樣本都根據(jù)當(dāng)前分類器得出判斷結(jié)果后,才可以對(duì)模型進(jìn)行參數(shù)更新。由于本文的實(shí)體關(guān)系提取是二分類問題,目標(biāo)概率分布只有0和1,因此根據(jù)交叉熵(cross entropy)公式,可定義損失函數(shù):
(9)
利用該損失函數(shù),可以找到每個(gè)“樣本包”中與目標(biāo)分類最符合的樣本。假設(shè)第j*個(gè)樣本最接近目標(biāo),則有
(10)
接下來利用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)、自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)等參數(shù)優(yōu)化手段使得函數(shù)J(θ)最小化,以此實(shí)現(xiàn)分類器的訓(xùn)練過程。
5.1.1 知識(shí)庫(kù)設(shè)計(jì)
圖譜化知識(shí)庫(kù)關(guān)系設(shè)計(jì)如圖3所示,由領(lǐng)域?qū)嶓w庫(kù)和實(shí)體關(guān)系庫(kù)兩部分組成。領(lǐng)域?qū)嶓w庫(kù)包含“設(shè)備部件”和“故障概念”兩類,“設(shè)備部件”指組成光伏電站的設(shè)備及部件名稱,“故障概念”包含“熱斑”、“短路”等設(shè)備部件可能發(fā)生的故障名稱。實(shí)體關(guān)系庫(kù)分為“因果關(guān)系”、“作用關(guān)系”等8類:“因果關(guān)系”指故障造成現(xiàn)象的因果,如“過熱”會(huì)導(dǎo)致“報(bào)警”等;“作用關(guān)系”指某部件起到某種作用,如“蓄電池”是用來“蓄電”的;“發(fā)生關(guān)系”表示部件會(huì)發(fā)生的故障,如只有“光伏板”才會(huì)出現(xiàn)“熱斑”、“隱裂”等;“包含關(guān)系”是概念上的包含,如“短路”是一種“故障”;“位于關(guān)系”表示位置上的聯(lián)系,如“光伏板”位于“支架”上;“從屬關(guān)系”代表設(shè)備由哪些部件組成,如“配電柜”由“柜體”、“斷路器”、“互感器”等部件構(gòu)成;“同義詞關(guān)系”如“空開”、“空氣開關(guān)”與“空氣斷路器”是同義詞;“其他關(guān)系”則是其他不能直接概括的關(guān)系。
5.1.2 驗(yàn)證數(shù)據(jù)來源
根據(jù)目的不同,本文驗(yàn)證流程分為實(shí)體提取驗(yàn)證和實(shí)體關(guān)系提取驗(yàn)證兩部分。其中:實(shí)體提取驗(yàn)證部分使用分布式光伏運(yùn)維手冊(cè)中的所有文本數(shù)據(jù),利用基于詞向量距離改良的TextRank算法進(jìn)行實(shí)體提取,使用人工抽驗(yàn)的方法與其他算法進(jìn)行準(zhǔn)確度對(duì)比;實(shí)體關(guān)系提取驗(yàn)證部分使用CN-DBpedia[34]中包含的相關(guān)數(shù)據(jù)進(jìn)行PCNN-PV模型訓(xùn)練,再利用該模型從分布式光伏運(yùn)維手冊(cè)的文本數(shù)據(jù)中進(jìn)行實(shí)體關(guān)系提取。詞向量表示部分均使用北京師范大學(xué)和人民大學(xué)共同開發(fā)的中文領(lǐng)域大規(guī)模預(yù)訓(xùn)練詞向量Chinese-Word-Vectors[35]。
本文采用國(guó)家電網(wǎng)提供的《分布式光伏電站系列操作手冊(cè)—運(yùn)行維護(hù)》和書籍[36]作為該領(lǐng)域的文本數(shù)據(jù)集,數(shù)據(jù)量約6 000條句子、共40萬字。用于遠(yuǎn)程監(jiān)督的數(shù)據(jù)集CN-DBpedia格式如表1所示。
表1 CN-DBpedia數(shù)據(jù)格式
5.1.3 參數(shù)設(shè)置及實(shí)現(xiàn)
實(shí)體提取過程中,詞表長(zhǎng)度約22 000,初始權(quán)重向量為相應(yīng)長(zhǎng)度的全1向量,設(shè)置核心詞匯為“光伏”、“設(shè)備”、“故障”,構(gòu)建權(quán)重轉(zhuǎn)移矩陣的共現(xiàn)窗口設(shè)置為w=5,迭代平滑參數(shù)d=0.85。
實(shí)體關(guān)系提取中,設(shè)定實(shí)體關(guān)系8種,分別為:“因果”、“作用”、“發(fā)生”、“包含”、“位于”、“從屬”、“同義詞”、“其他”,按以上設(shè)定從CN-DBpedia中獲取訓(xùn)練樣本。獲取樣本后,將所有詞匯替換為詞向量,每條文本對(duì)應(yīng)為一個(gè)矩陣,作為模型的輸入。該部分實(shí)驗(yàn)的主要超參數(shù)包括以下7種:詞向量維數(shù)dw、位置特征向量維數(shù)dp、卷積核窗口長(zhǎng)度w、卷積核個(gè)數(shù)k、單個(gè)樣本包的大小n、學(xué)習(xí)率λ,以及防止發(fā)生過擬合設(shè)置的Dropout率。根據(jù)卷積層結(jié)構(gòu)相近的多組實(shí)驗(yàn)結(jié)果[32,37-38],超參數(shù)設(shè)置如表2所示時(shí),模型的性能較好。
表2 實(shí)驗(yàn)超參數(shù)設(shè)置
5.1.4 評(píng)價(jià)指標(biāo)設(shè)置
在實(shí)體提取步驟,以準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo),采用小批次人工抽驗(yàn)的方式,重復(fù)多次求平均值。準(zhǔn)確率A的計(jì)算公式如下:
(11)
式中:T為正確的樣本數(shù),F(xiàn)為錯(cuò)誤的樣本數(shù)。
在實(shí)體關(guān)系提取步驟,根據(jù)前文遠(yuǎn)程監(jiān)督學(xué)習(xí)的提出者M(jìn)intz[24]的實(shí)驗(yàn),模型的評(píng)估應(yīng)分為自動(dòng)評(píng)估和人工評(píng)估兩部分。評(píng)估分為兩部分的原因在于可以用于評(píng)估的知識(shí)庫(kù)本身是不完備的,也是因此才需要使用遠(yuǎn)程監(jiān)督的方法。自動(dòng)評(píng)估部分使用精度(P)與召回率(R)作為衡量性能的評(píng)價(jià)指標(biāo)。人工評(píng)估部分采用小批次抽驗(yàn),以準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。精度P、召回率R和準(zhǔn)確率A的計(jì)算公式如下:
(12)
(13)
(14)
其中:Tp為真正例,F(xiàn)P為假正例,F(xiàn)N為假反例。
5.2.1 實(shí)體提取結(jié)果
在實(shí)體提取步驟,改良TextRank、TextRank和TF-IDF三種方法的準(zhǔn)確率對(duì)比結(jié)果如表3所示。
表3 實(shí)體提取結(jié)果對(duì)比
由該結(jié)果可知,本文采用的改良TextRank算法與經(jīng)典TextRank算法,以及基于統(tǒng)計(jì)的TF-IDF算法相比,平均準(zhǔn)確率更高。引入核心詞匯機(jī)制和詞向量作為外部信息后,在權(quán)重轉(zhuǎn)移的過程中,在向量空間中與核心詞匯相近的詞匯可以獲得更多優(yōu)勢(shì),減少固定句式對(duì)實(shí)體提取效果的影響。TF-IDF算法雖然有IDF值作為外部信息,但該算法僅考慮詞頻,忽略了詞與詞之間的聯(lián)系,用于實(shí)體提取時(shí)效果不如TextRank。因此,改良TextRank算法可以更準(zhǔn)確地提取出目標(biāo)領(lǐng)域范圍內(nèi)的實(shí)體名詞,也能夠有效地減少實(shí)體提取步驟的人工工作量。
5.2.2 實(shí)體關(guān)系提取結(jié)果
使用MIL的PCNN-PV模型、使用多示例學(xué)習(xí)的TextCNN模型,以及不使用學(xué)習(xí)策略的PCNN-PV模型準(zhǔn)確率、召回率曲線對(duì)比如圖4所示。人工評(píng)估部分實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)體關(guān)系提取人工評(píng)估準(zhǔn)確率對(duì)比
由圖4可知,在遠(yuǎn)程監(jiān)督學(xué)習(xí)中,噪聲問題較為明顯,可以使用多示例學(xué)習(xí)等策略有效緩解。在使用多示例學(xué)習(xí)的情況下,PCNN-PV方法對(duì)比TextCNN方法,產(chǎn)生的結(jié)果準(zhǔn)確率更高。當(dāng)召回率高于0.3時(shí),PCNN-PV的準(zhǔn)確率比經(jīng)典TextCNN模型準(zhǔn)確率高約0.05,從而證明該模型的提取性能在一定程度上優(yōu)于經(jīng)典模型。分段池化的操作利用兩個(gè)實(shí)體的位置將句子分割成3部分,分別池化之后可以將更多上下文信息納入分析中。對(duì)分類器的修改讓同一對(duì)實(shí)體可以同時(shí)屬于多個(gè)分類,使模型適配了分布式光伏領(lǐng)域的特點(diǎn),提高了準(zhǔn)確度。由表4可知,本文所采用的PCNN-PV在光伏領(lǐng)域的實(shí)體關(guān)系提取上效果略優(yōu)于經(jīng)典的TextCNN。考慮到實(shí)際建立的圖譜化知識(shí)庫(kù)中,一些實(shí)體對(duì)可以通過其他實(shí)體跳轉(zhuǎn)聯(lián)系起來,例如“光伏組件”與“光伏板”是同義詞,“光伏板”會(huì)產(chǎn)生“熱斑”,這樣通過跳轉(zhuǎn)可以將“光伏組件”與“熱斑”相聯(lián)系,這提高了在實(shí)際使用中的容錯(cuò)性能。因此,本文構(gòu)建的分布式光伏圖譜化知識(shí)庫(kù)對(duì)于智慧運(yùn)維應(yīng)用場(chǎng)景具有實(shí)踐意義。
隨著近年來分布式光伏產(chǎn)業(yè)的發(fā)展,該行業(yè)對(duì)于智慧運(yùn)維的需求也隨之增長(zhǎng)。因此,構(gòu)建一種面向智慧運(yùn)維的分布式光伏知識(shí)庫(kù),在提升運(yùn)維工作的智能化程度、標(biāo)準(zhǔn)化規(guī)范化運(yùn)維流程、降低從業(yè)人員門檻等方面都具有重要作用。本文從實(shí)體提取和實(shí)體關(guān)系提取兩方面出發(fā),改良了分布式光伏知識(shí)庫(kù)構(gòu)建流程。該流程減小了對(duì)標(biāo)注樣本的依賴,緩解了傳統(tǒng)專業(yè)知識(shí)庫(kù)構(gòu)建方式耗時(shí)耗力的問題,填補(bǔ)了分布式光伏智能運(yùn)維系統(tǒng)中缺乏特定知識(shí)庫(kù)的空白,準(zhǔn)確性也得到了一定提升。但這套流程仍有不足,通常來說實(shí)體提取還應(yīng)有“實(shí)體發(fā)現(xiàn)”的步驟,但受限于樣本數(shù)據(jù),難以有較好的效果,遂使用光伏術(shù)語詞表作為替代。實(shí)體提取和關(guān)系提取這兩部分的輸入都受限于中文分詞工具的性能,難以有效發(fā)現(xiàn)一些較長(zhǎng)的詞(如“離網(wǎng)發(fā)電系統(tǒng)”),從而不可避免地發(fā)生了錯(cuò)誤率疊加的現(xiàn)象,然而類似長(zhǎng)度的詞在專業(yè)領(lǐng)域術(shù)語中比較常見。因此,對(duì)于該流程,未來還有許多可以改進(jìn)的方面,如實(shí)體提取中調(diào)整模型,減少對(duì)分詞工具的依賴;目前的實(shí)體提取模型還是從比較簡(jiǎn)單的單層CNN模型改進(jìn)而來,未來可以應(yīng)用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)手段,更好地利用詞向量等文本特征,提升模型效果。