面向智慧運(yùn)維的分布式光伏知識(shí)庫(kù)構(gòu)建方法

2021-01-14 01:49歐一鳴蘇雍賀鄒孝付張長(zhǎng)志

計(jì)算機(jī)集成制造系統(tǒng) 2020年12期

歐一鳴，蘇雍賀，鄒孝付+，靳健，張長(zhǎng)志，陶飛

(1.北京航空航天大學(xué) 自動(dòng)化科學(xué)與電氣工程學(xué)院，北京 100191；2.北京師范大學(xué) 政府管理學(xué)院，北京 100875；3.國(guó)網(wǎng)天津市電力公司電力科學(xué)研究院，天津 300384)

0 引言

近年來，分布式光伏產(chǎn)業(yè)呈現(xiàn)爆發(fā)式增長(zhǎng)，但行業(yè)飛速發(fā)展的同時(shí)也對(duì)分布式光伏電站的運(yùn)維能力提出了新的要求。分布式電站距離過遠(yuǎn)、信息無法精準(zhǔn)傳遞，因此無法像大規(guī)模集中式電站一樣組建一支隨時(shí)待命的高專業(yè)度運(yùn)維團(tuán)隊(duì)。同時(shí)，目前的分布式光伏運(yùn)維工作通常由第三方公司或個(gè)人承擔(dān)，人員的專業(yè)度很不穩(wěn)定，運(yùn)維模式又很依賴經(jīng)驗(yàn)，往往會(huì)誤判電站的故障，造成人員在故障電站與運(yùn)維站點(diǎn)間重復(fù)往返，降低運(yùn)維效率。因此，亟需一種智慧運(yùn)維系統(tǒng)，根據(jù)電站業(yè)主的運(yùn)維訴求，提供精準(zhǔn)的電站狀態(tài)判斷和方案支持，以節(jié)省運(yùn)維人員的精力、避免重復(fù)往返浪費(fèi)時(shí)間，進(jìn)而改善當(dāng)前的運(yùn)維現(xiàn)狀。

要實(shí)現(xiàn)這樣的智慧運(yùn)維系統(tǒng)，首先需要建立適用于分布式光伏運(yùn)維領(lǐng)域的相關(guān)知識(shí)庫(kù)。這種知識(shí)庫(kù)有利于智慧運(yùn)維系統(tǒng)從更加專業(yè)的角度分析問題，并利用分布式光伏領(lǐng)域知識(shí)為運(yùn)維人員提供更專業(yè)的技術(shù)方案支持，因此建立分布式光伏領(lǐng)域的知識(shí)庫(kù)是智慧運(yùn)維的關(guān)鍵步驟。

對(duì)計(jì)算機(jī)系統(tǒng)來說，傳統(tǒng)的文本形式知識(shí)庫(kù)在檢索速度、邏輯推理、知識(shí)結(jié)構(gòu)表示等方面都存在一定的短板，因此建立一種細(xì)粒度的、圖譜化的知識(shí)庫(kù)已成為新型智能運(yùn)維系統(tǒng)的新需求。知識(shí)圖譜(knowledge graph)是Google公司在2012年提出的概念，它包含現(xiàn)實(shí)中的各種實(shí)體以及實(shí)體之間的關(guān)系，實(shí)體按照關(guān)系相互連接，表示為語義網(wǎng)絡(luò)的形式。在知識(shí)表示方面，它的基本單元為[頭實(shí)體(Head)，實(shí)體關(guān)系(Relation)，尾實(shí)體(Tail)]形式的三元組，有利于計(jì)算機(jī)進(jìn)行推理、存儲(chǔ)和表示。對(duì)分布式光伏領(lǐng)域而言，構(gòu)建這樣的知識(shí)庫(kù)則是要將領(lǐng)域中的設(shè)備部件和技術(shù)故障等相關(guān)概念作為實(shí)體，并按照關(guān)系相互連接形成圖譜。有了這種圖譜化的知識(shí)庫(kù)，智慧運(yùn)維系統(tǒng)可以更加標(biāo)準(zhǔn)化、有邏輯地為運(yùn)維工作提供服務(wù),如雷兵[1]使用Web本體語言(Web Ontology Language, OWL)構(gòu)建了一個(gè)商務(wù)需求領(lǐng)域的圖譜化知識(shí)庫(kù)，可以有效地對(duì)客戶需求進(jìn)行提取，這與分布式光伏運(yùn)維領(lǐng)域利用知識(shí)庫(kù)從運(yùn)維訴求中提取信息是相通的。

在預(yù)想的應(yīng)用場(chǎng)景中，為了充分利用圖譜形式知識(shí)庫(kù)的細(xì)粒度、可推理等特性，智慧運(yùn)維系統(tǒng)應(yīng)能夠?qū)⑦\(yùn)維訴求描述與圖譜中的實(shí)體元素對(duì)應(yīng)，并通過實(shí)體之間的關(guān)系，將訴求映射到圖譜中的一個(gè)子圖中，再利用圖搜索技術(shù)獲取方案。為支持該預(yù)想應(yīng)用場(chǎng)景的實(shí)現(xiàn)，知識(shí)庫(kù)對(duì)分布式光伏領(lǐng)域的實(shí)體與實(shí)體關(guān)系的提取步驟提出了更高的要求。為實(shí)現(xiàn)專業(yè)領(lǐng)域的訴求理解，需要進(jìn)行更細(xì)粒度的實(shí)體提取，并對(duì)準(zhǔn)確度提出更高的要求。為更好地發(fā)揮圖譜化知識(shí)庫(kù)支持推理的特性，需要更全面、更準(zhǔn)確地提取實(shí)體之間的關(guān)系。對(duì)于當(dāng)前的數(shù)據(jù)情況，基于無監(jiān)督學(xué)習(xí)的實(shí)體提取和基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的實(shí)體關(guān)系提取方法是較為合適的方法，但現(xiàn)有算法模型與分布式光伏領(lǐng)域的數(shù)據(jù)特點(diǎn)不太契合，需要進(jìn)行改進(jìn)。

針對(duì)以上問題，本文在實(shí)體提取步驟上，將其轉(zhuǎn)化為領(lǐng)域關(guān)鍵詞發(fā)現(xiàn)問題，利用基于word2vec生成的詞匯相似度，改良TextRank算法，實(shí)現(xiàn)分布式光伏領(lǐng)域的實(shí)體提取。在實(shí)體關(guān)系提取步驟上，對(duì)于領(lǐng)域中同一對(duì)實(shí)體可能同時(shí)有多種關(guān)系的情況，改良了分段卷積神經(jīng)網(wǎng)絡(luò)分段卷積神經(jīng)網(wǎng)絡(luò)(Piecewise Convolutional Neural Network, PCNN)的分類器層，使其更契合分布式光伏領(lǐng)域的數(shù)據(jù)情況。本文改良的知識(shí)庫(kù)構(gòu)建方法，自動(dòng)化程度較高，可以有效減少構(gòu)建所需的人工成本，并能夠以現(xiàn)有數(shù)據(jù)填補(bǔ)面向分布式光伏智慧運(yùn)維知識(shí)庫(kù)的空白，同時(shí)提高準(zhǔn)確性。

1 光伏智慧運(yùn)維知識(shí)庫(kù)的國(guó)內(nèi)外研究現(xiàn)狀

1.1 知識(shí)庫(kù)在智慧運(yùn)維中的應(yīng)用

目前，知識(shí)庫(kù)在智慧運(yùn)維中主要分為文本知識(shí)庫(kù)和圖譜化知識(shí)庫(kù)兩種形式，構(gòu)建的主要數(shù)據(jù)來源包括維修工單和用戶手冊(cè)中的文本[2-4]。文本形式的知識(shí)庫(kù)在應(yīng)用中主要通過語義分析等手段與輸入的訴求進(jìn)行文本匹配。如鞠冬彬[5]將用戶的業(yè)務(wù)查詢信息與文本知識(shí)庫(kù)中的文檔進(jìn)行比對(duì)，提高了運(yùn)維客服的處理速度。但這種知識(shí)庫(kù)的應(yīng)用通常僅從文本分析的角度出發(fā)，在限定領(lǐng)域中缺乏專業(yè)的分析能力，容易誤判訴求信息。而圖譜化知識(shí)庫(kù)由領(lǐng)域內(nèi)的實(shí)體名詞與實(shí)體關(guān)系構(gòu)成，能夠描述實(shí)體之間的關(guān)系，可以用于設(shè)備狀態(tài)評(píng)估和運(yùn)維預(yù)案生成。邱劍[6]利用圖譜化的知識(shí)庫(kù)構(gòu)建了一種面向電網(wǎng)運(yùn)維的自然語言處理引擎NLP4PG，可以從歷史工單的文本數(shù)據(jù)中提取專業(yè)信息、評(píng)估設(shè)備的狀態(tài)。許鑫[7]設(shè)計(jì)了一種自然語言預(yù)案生成系統(tǒng)，通過建立電力領(lǐng)域的圖譜化知識(shí)庫(kù)來提取和利用電力領(lǐng)域的知識(shí)，為運(yùn)維人員的檢修工作提供一定的指導(dǎo)。萬姍等[8]將數(shù)控機(jī)床的結(jié)構(gòu)化本體庫(kù)作為一種圖譜化知識(shí)庫(kù)，根據(jù)維修需求的案例適應(yīng)度匹配歷史方案作為預(yù)案。這種知識(shí)庫(kù)支持推理，在專業(yè)領(lǐng)域中能夠更好地分析問題，在運(yùn)維中提升訴求理解的準(zhǔn)確性。

目前，在實(shí)踐中圖譜化知識(shí)庫(kù)的構(gòu)建主要有自頂向下和自底向上兩種流程[9]：

(1)自頂向下構(gòu)建通常是半人工半自動(dòng)構(gòu)建，該方法先人工確定好數(shù)據(jù)模式與知識(shí)庫(kù)結(jié)構(gòu)，再往其中填入實(shí)體等知識(shí)，七步法[10-11]就是典型的專業(yè)領(lǐng)域圖譜化知識(shí)庫(kù)自頂向下構(gòu)建方法。由于領(lǐng)域?qū)嶓w數(shù)量較多、實(shí)體之間關(guān)系復(fù)雜，這種自頂向下的構(gòu)建方法比較耗費(fèi)人力，而且對(duì)人員的專業(yè)度要求高，準(zhǔn)確度容易受到人員主觀影響。

(2)自底向上構(gòu)建該方法需要利用無監(jiān)督或遠(yuǎn)程監(jiān)督學(xué)習(xí)等技術(shù)手段，從文本中自動(dòng)抽取知識(shí)構(gòu)建圖譜化知識(shí)庫(kù)。如IBM Watson[12]平臺(tái)使用了一種實(shí)體連接算法來自動(dòng)構(gòu)建圖譜。這種自動(dòng)構(gòu)建方法可以節(jié)省人工成本，構(gòu)建速度也較快，同時(shí)也能保證準(zhǔn)確度。

1.2 圖譜化知識(shí)庫(kù)自動(dòng)化構(gòu)建相關(guān)研究

目前，圖譜化知識(shí)庫(kù)的自動(dòng)構(gòu)建分為自動(dòng)映射和非結(jié)構(gòu)化數(shù)據(jù)提取兩種。自動(dòng)映射主要有結(jié)構(gòu)化數(shù)據(jù)映射[13]和基于模板抽取[14]兩種方法。非結(jié)構(gòu)化數(shù)據(jù)提取一般是指從文本中提取所需知識(shí)，提取目標(biāo)為實(shí)體和實(shí)體關(guān)系，再將實(shí)體通過實(shí)體關(guān)系相連接形成知識(shí)圖譜，因此流程分為實(shí)體提取和實(shí)體關(guān)系提取兩步，典型的有DeepDive[15]提取框架。本文構(gòu)建分布式光伏領(lǐng)域知識(shí)庫(kù)的數(shù)據(jù)都來源于文本，因此要從非結(jié)構(gòu)化數(shù)據(jù)中提取相應(yīng)領(lǐng)域的知識(shí)，包括實(shí)體提取和實(shí)體關(guān)系提取兩步。

1.2.1 領(lǐng)域?qū)嶓w提取研究現(xiàn)狀

實(shí)體提取步驟又稱為命名實(shí)體識(shí)別，分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類方法。在有足夠標(biāo)注數(shù)據(jù)的情況下，監(jiān)督學(xué)習(xí)方法中的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)結(jié)合BiLSTM模型[16]等方法可以得到較好的效果，但若沒有現(xiàn)成的標(biāo)注數(shù)據(jù)，則要消耗很多人力物力來獲取。目前，由于分布式光伏領(lǐng)域還比較缺乏有標(biāo)注數(shù)據(jù)，本文采用無監(jiān)督的領(lǐng)域?qū)嶓w提取方法。對(duì)于無監(jiān)督的實(shí)體提取任務(wù)，常用手段包括基于半結(jié)構(gòu)化數(shù)據(jù)庫(kù)、基于規(guī)則模板和匹配基于統(tǒng)計(jì)特征的方法。

(1)基于半結(jié)構(gòu)化數(shù)據(jù)庫(kù)的方法是利用網(wǎng)絡(luò)百科等有一定書寫規(guī)律的數(shù)據(jù)來提取實(shí)體，建立詞典后，借助詞法和句法分析手段，提取出數(shù)據(jù)中蘊(yùn)含的實(shí)體名詞。Guo等[17]設(shè)計(jì)了一種基于維基百科的實(shí)體提取流程，通過建立字典并設(shè)計(jì)一套流程，提取出句子中蘊(yùn)含的實(shí)體。

(2)基于規(guī)則模板匹配是由人工制定一套規(guī)則來進(jìn)行直接匹配。這種規(guī)則可以是基于詞典的字符串匹配等，由人工進(jìn)行測(cè)試，然后不斷改進(jìn)，最終達(dá)到較好的效果[18]。

(3)基于統(tǒng)計(jì)特征的方法是根據(jù)詞匯在領(lǐng)域文本中的統(tǒng)計(jì)信息所提取的特征，通過賦予詞匯權(quán)重或者與開放領(lǐng)域語料庫(kù)進(jìn)行比較，來提取領(lǐng)域?qū)嶓w名詞，該過程也用于解決關(guān)鍵詞提取問題。趙志濱等[19]采用詞頻—逆文檔頻率值(Term Frequency-Inverse Document Frequency, TF-IDF)值結(jié)合詞向量作為特征來發(fā)現(xiàn)領(lǐng)域詞匯，Lee等[20]使用基于PageRank的算法來判斷一個(gè)詞是否屬于關(guān)鍵詞。

對(duì)于本文來說，由于分布式光伏運(yùn)維是一個(gè)新興領(lǐng)域，相關(guān)的百科數(shù)據(jù)庫(kù)尚不完善，缺乏難以直接使用基于網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的方法?；谝?guī)則模板匹配的方法對(duì)人力的依賴程度非常高，需要高度專業(yè)的領(lǐng)域和語言專家進(jìn)行大量的工作才能完成?；诮y(tǒng)計(jì)特征的方法對(duì)人力成本的消耗很低，通用性較強(qiáng)，常用方法有TF-IDF和TextRank等，但容易受到固定句式等因素影響，需要引入外部信息來進(jìn)行改進(jìn)。

1.2.2 實(shí)體關(guān)系提取研究現(xiàn)狀

實(shí)體關(guān)系提取的主要任務(wù)是給定一對(duì)實(shí)體，從已有的文本數(shù)據(jù)中提取出這兩個(gè)實(shí)體之間的關(guān)系，通常以三元組的形式表示，主要分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督學(xué)習(xí)4種方法。在有標(biāo)注數(shù)據(jù)充足的情況下，TextCNN等卷積神經(jīng)網(wǎng)絡(luò)是一種行之有效的文本分類有監(jiān)督學(xué)習(xí)模型[21]，但由于目前分布式光伏領(lǐng)域缺乏已標(biāo)注數(shù)據(jù)，無法使用有監(jiān)督方式進(jìn)行。無監(jiān)督方法主要應(yīng)用于開放領(lǐng)域，對(duì)于限定領(lǐng)域的關(guān)系提取不夠細(xì)致，無法滿足面向智慧運(yùn)維的知識(shí)庫(kù)要求。半監(jiān)督方法能夠只利用少量的有標(biāo)注樣本，讓模型根據(jù)一定的模式自我訓(xùn)練，如Hakami等[22]基于自監(jiān)督方法進(jìn)行關(guān)系提取，倪維健等[23]通過轉(zhuǎn)導(dǎo)支持向量機(jī)(Transductive Support Vector Machine, TSVM)轉(zhuǎn)導(dǎo)支持向量機(jī)進(jìn)行半監(jiān)督學(xué)習(xí)。半監(jiān)督方法雖然對(duì)人工標(biāo)注的需求較低，但容易出現(xiàn)“語義漂移”的問題，準(zhǔn)確度不足。遠(yuǎn)程監(jiān)督方法可以利用公共領(lǐng)域知識(shí)庫(kù)，通過學(xué)習(xí)其他知識(shí)庫(kù)中表示同樣實(shí)體關(guān)系的文本特征，來判斷分布式光伏領(lǐng)域文本中的實(shí)體關(guān)系，這種方法不需要領(lǐng)域內(nèi)的有標(biāo)注數(shù)據(jù)，準(zhǔn)確度也較高。

遠(yuǎn)程監(jiān)督關(guān)系提取主要包括基于語法特征的方法、基于隱變量概率分布的方法和基于神經(jīng)網(wǎng)絡(luò)的方法?；谡Z法特征的方法是指分析兩種實(shí)體之間的語法特征作為實(shí)體關(guān)系的分類依據(jù)。Mintz等[24]利用依存句法分析了維基百科中的文本，在使用這種方法時(shí)首次采用了遠(yuǎn)程監(jiān)督手段，同時(shí)還作出了“遠(yuǎn)程監(jiān)督假設(shè)”，認(rèn)為所有同時(shí)提到兩個(gè)實(shí)體的句子都有可能蘊(yùn)含兩個(gè)實(shí)體的關(guān)系信息。基于隱變量概率分布的方法采用隱含狄利克雷分布的模型對(duì)句子的統(tǒng)計(jì)信息進(jìn)行建模。如周娜等[25]通過構(gòu)建隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)主題模型，提取核心期刊的“作者—內(nèi)容—方法”之間的關(guān)系。基于神經(jīng)網(wǎng)絡(luò)的方法將深度學(xué)習(xí)模型用于實(shí)體關(guān)系提取，常用的深度學(xué)習(xí)模型包括卷積神經(jīng)網(wǎng)絡(luò)等，在實(shí)體關(guān)系提取任務(wù)上的準(zhǔn)確度已顯著高于傳統(tǒng)的機(jī)器學(xué)習(xí)方法[26]。

目前，基于CNN的方法性能較優(yōu)，該方法可以減少對(duì)現(xiàn)有詞法、句法分析等自然語言處理工具的依賴，避免錯(cuò)誤率疊加，從而提高準(zhǔn)確度和可用性。同時(shí)，在網(wǎng)絡(luò)的池化層使用分段池化方法，可以將實(shí)體的上下文與位置關(guān)系等信息也提取出來，提升模型效果。在當(dāng)前的CNN模型中，分類器層多使用Softmax分類器，這種分類器適合多分類問題，并能夠得到每個(gè)類的相應(yīng)概率。但由于分布式光伏領(lǐng)域中，同一對(duì)實(shí)體的多種關(guān)系之間并不互斥，如果使用CNN模型，可以對(duì)分類器層進(jìn)行相應(yīng)的修改，使提取結(jié)果更加全面，提高準(zhǔn)確度。

2 分布式光伏圖譜化知識(shí)庫(kù)構(gòu)建模型

當(dāng)前分布式光伏領(lǐng)域可利用的文本數(shù)據(jù)主要包括維修工單和運(yùn)維手冊(cè)，數(shù)據(jù)量較大，均為沒有標(biāo)注的文本數(shù)據(jù)。本文將利用分布式光伏領(lǐng)域無標(biāo)注文本，采用無監(jiān)督的方法，進(jìn)行基于統(tǒng)計(jì)特征的實(shí)體提取，構(gòu)成領(lǐng)域?qū)嶓w庫(kù)；利用開放領(lǐng)域的知識(shí)庫(kù)數(shù)據(jù)，采用遠(yuǎn)程監(jiān)督的方法，進(jìn)行實(shí)體關(guān)系提取，構(gòu)成實(shí)體關(guān)系庫(kù)。

具體構(gòu)建流程如圖1所示，包括實(shí)體提取步驟和實(shí)體關(guān)系提取步驟。

(1)實(shí)體提取步驟因?yàn)榉植际焦夥I(lǐng)域可利用的數(shù)據(jù)中多為無標(biāo)注的陳述性文本，所以可以轉(zhuǎn)化為關(guān)鍵詞提取問題。在該問題上，基于圖模型的TextRank算法是一種廣泛使用的方法[27-29]，該方法通用性較強(qiáng)，不需要額外的訓(xùn)練數(shù)據(jù)。但是在單一領(lǐng)域的文本數(shù)據(jù)中，存在固定句式導(dǎo)致非領(lǐng)域詞匯權(quán)重相互抬升的現(xiàn)象。因此，本文根據(jù)李俊等[30]引入外部語義信息改善權(quán)重傳遞過程的方法，針對(duì)分布式光伏領(lǐng)域，通過引入外部詞向量來改進(jìn)TextRank算法。該步驟利用運(yùn)維手冊(cè)中的無標(biāo)注文本數(shù)據(jù)，獲取光伏領(lǐng)域的實(shí)體詞匯，以降低人工篩查的工作量，并提高提取性能。

(2)實(shí)體關(guān)系提取步驟本文利用公共領(lǐng)域的百科數(shù)據(jù)庫(kù)，通過遠(yuǎn)程監(jiān)督學(xué)習(xí)的方法建立神經(jīng)網(wǎng)絡(luò)模型，從分布式光伏領(lǐng)域的無標(biāo)注文本中提取實(shí)體關(guān)系。本文采用PCNN模型，更加注重實(shí)體之間的位置、距離和上下文關(guān)系；又根據(jù)分布式光伏領(lǐng)域?qū)嶓w之間可能有多種關(guān)系的特點(diǎn)，對(duì)模型的分類器層進(jìn)行修改，形成了更適用于該領(lǐng)域的分段卷積神經(jīng)網(wǎng)絡(luò)—光伏(Piecewise Convolutional Neural Network-Photovoltaic, PCNN-PV)模型；又由于遠(yuǎn)程監(jiān)督學(xué)習(xí)面臨較大的數(shù)據(jù)噪聲問題，使用多示例學(xué)習(xí)的方式來回避錯(cuò)誤樣本對(duì)模型訓(xùn)練過程的影響。最后，利用該模型處理分布式光伏領(lǐng)域文本，獲得領(lǐng)域內(nèi)的三元組信息，完成圖譜化知識(shí)庫(kù)的構(gòu)建。

3 基于改良TextRank的圖譜化知識(shí)庫(kù)實(shí)體提取方法

3.1 TextRank方法介紹

TextRank[31]是一種經(jīng)典的無監(jiān)督關(guān)鍵詞提取算法，具有良好的通用性。其輸入是需要提取關(guān)鍵詞的全部文本，通過給輸入文本中的所有詞賦予權(quán)重，得到所有詞匯的權(quán)重列表作為輸出。該算法的核心思想是：每個(gè)詞將權(quán)重轉(zhuǎn)移給它連接到的詞，并獲得其他詞轉(zhuǎn)移來的權(quán)重，經(jīng)過多輪迭代后逐漸收斂，得到穩(wěn)定的詞匯權(quán)重。

令語料庫(kù)中所有詞匯的集合為M，向量M的長(zhǎng)度為m，建立權(quán)重轉(zhuǎn)移矩陣A，則A∈Rm。詞匯wi從wj獲得的權(quán)重轉(zhuǎn)移量表示為aij，因此，對(duì)于A中的元素aij有：

(1)

式中：ωij表示權(quán)重在轉(zhuǎn)移過程中wi在wj的共現(xiàn)窗口中出現(xiàn)過的次數(shù)；O(wj)表示wj為中心的共現(xiàn)窗口中出現(xiàn)除自己外所有詞的數(shù)量。按這種方式對(duì)所有詞匯組合生成aij，直到權(quán)重轉(zhuǎn)移矩陣A建立完畢。初始化權(quán)重向量?jī)?nèi)所有的詞的權(quán)重R(vi)=1，所有詞匯的TextRank權(quán)重組成詞匯權(quán)重向量S，則有S0=[1,…,1]T。將狀態(tài)轉(zhuǎn)移矩陣A作用于權(quán)重向量，k為迭代次數(shù)，得到Sk+1=ATSk。為保證權(quán)重達(dá)到收斂，定義阻尼參數(shù)d，此時(shí)有Sk+1=(1-d)Sk+dASk。按如此過程反復(fù)迭代，直到權(quán)重向量S收斂。求出所有詞匯權(quán)重后，可以按照權(quán)重大小排序，提取出分布式光伏領(lǐng)域的關(guān)鍵詞。最后，根據(jù)關(guān)鍵詞的詞性進(jìn)行篩選，提取出名詞關(guān)鍵詞作為光伏領(lǐng)域的實(shí)體名詞。

3.2 基于詞向量距離的TextRank改良方法

在當(dāng)前TextRank算法的假設(shè)中，在每一輪的權(quán)重迭代時(shí)，每個(gè)詞應(yīng)該只以共現(xiàn)窗口中的出現(xiàn)次數(shù)為依據(jù)，將權(quán)重傳遞給相鄰的詞。但是光伏運(yùn)維手冊(cè)中含有大量的固定組合句式如“……檢查原因”，使得這些固定組合中的詞匯存在相互抬升權(quán)重的現(xiàn)象，從而導(dǎo)致分布式光伏領(lǐng)域?qū)嶓w名詞的權(quán)重排序受到干擾。

針對(duì)這種情況，本文對(duì)權(quán)重轉(zhuǎn)移過程進(jìn)行了改良。受無監(jiān)督的聚類算法啟發(fā)，本文認(rèn)為，在以尋找光伏領(lǐng)域關(guān)鍵詞為目的時(shí)，可以引入詞向量影響權(quán)重轉(zhuǎn)移的過程，減小無關(guān)詞匯權(quán)重相互抬升。設(shè)定數(shù)個(gè)分布式光伏領(lǐng)域詞匯作為“核心詞匯”，在詞向量空間中距離“核心詞匯”越近的詞將擁有更高的“質(zhì)量”，在權(quán)重轉(zhuǎn)移的過程中將獲取更高的權(quán)重。

本文中TextRank算法的主要任務(wù)是獲取分布式光伏領(lǐng)域的實(shí)體名詞，因此可設(shè)置“光伏”、“設(shè)備”等詞為核心詞匯，如果核心詞匯不止一個(gè)，在判斷詞匯質(zhì)量時(shí)分別計(jì)算與核心詞匯的詞向量距離，取最小值。假設(shè)有核心詞匯{wc1,wc2,wc3}，核心詞匯的詞向量分別為{Vc1,Vc2,Vc3}，待判斷詞匯wi的詞向量為Vi，兩詞向量之間的距離取歐氏距離，記為：

dic=‖Vi-Vc‖。

(2)

根據(jù)詞向量之間的距離，定義該詞與核心詞匯的相似度函數(shù)，使得越靠近核心詞匯相似度越大，并用一個(gè)非線性函數(shù)將相似度限定在(0,1)之間，避免權(quán)重都向某幾個(gè)詞集中，本文使用如下雙曲正切函數(shù)：

(3)

aij為詞匯wi從wj獲得的權(quán)重轉(zhuǎn)移量，則進(jìn)一步處理式(3)：

(4)

為了保證在迭代過程中，權(quán)重總量不過分膨脹或縮水，對(duì)所有從wj轉(zhuǎn)移出去的權(quán)重進(jìn)行歸一化操作，并使單個(gè)詞匯的權(quán)重轉(zhuǎn)移向量元素之和為1：

(5)

歸一化之后可得新的權(quán)重轉(zhuǎn)移矩陣，在詞向量空間距離的影響下，分布式光伏領(lǐng)域詞匯的權(quán)重在轉(zhuǎn)移迭代中提升更快，更容易與其他無關(guān)詞匯相互區(qū)分。

4 基于PCNN-PV的圖譜化知識(shí)庫(kù)實(shí)體關(guān)系提取方法

4.1 PCNN模型建立

遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系提取主要任務(wù)是從公共領(lǐng)域的百科數(shù)據(jù)中訓(xùn)練出一個(gè)模型，使得該模型在分布式光伏領(lǐng)域的文本中也能較好地進(jìn)行實(shí)體關(guān)系提取，本文根據(jù)Zeng等[32]的遠(yuǎn)程監(jiān)督學(xué)習(xí)研究構(gòu)建了PCNN模型。由前文的TextCNN可知，以詞的向量表示作為輸入，并用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本處理可以更好地捕捉上下文的相關(guān)信息。在池化層將句子根據(jù)實(shí)體詞匯位置分割進(jìn)行分段池化，可以為模型提供更豐富的信息。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

首先，將要處理的句子中每一個(gè)詞都表示為詞向量，從而生成一個(gè)相應(yīng)的矩陣，該矩陣將作為初始數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò)中。輸入的矩陣經(jīng)過一維卷積的處理后進(jìn)入池化層，根據(jù)文獻(xiàn)[32]，使用分段最大池化(piecewise max pooling)進(jìn)行操作，對(duì)于含有2個(gè)實(shí)體名詞的句子來說，天然地可以按照實(shí)體位置將句子分割為3個(gè)部分。按照這種分割方式，將3個(gè)部分分別進(jìn)行最大池化操作，可以捕捉到更細(xì)致的文本特征，從而更好地進(jìn)行實(shí)體關(guān)系提取。最后，池化層的輸出進(jìn)入分類器層，通過Softmax等函數(shù)進(jìn)行判斷，得出關(guān)系提取的結(jié)果。

4.2 基于分布式光伏領(lǐng)域多標(biāo)簽問題改進(jìn)的PCNN-PV模型

盡管PCNN在開放領(lǐng)域是一種較為有效的關(guān)系提取模型，但其在光伏領(lǐng)域內(nèi)需要一定的改進(jìn)以提高性能。在開放領(lǐng)域中PCNN模型會(huì)假設(shè)實(shí)體關(guān)系提取是一個(gè)多分類(multi-class)問題，即認(rèn)為兩個(gè)實(shí)體之間只存在一種關(guān)系，只需要從候選關(guān)系中找到最可能的一種。但對(duì)本文要構(gòu)建的光伏領(lǐng)域知識(shí)庫(kù)來說，兩種實(shí)體之間可能存在不止一種關(guān)系，例如實(shí)體“空氣斷路器”對(duì)于實(shí)體“電路”來說，前者既是從屬于后者的一種部件，也對(duì)后者起到了保護(hù)作用。因此，在光伏領(lǐng)域中，實(shí)體提取是一個(gè)多標(biāo)簽(multi-label)問題，廣泛使用的Softmax多分類器并不直接適用于該領(lǐng)域。對(duì)此，可以使用多個(gè)2分類器來替代多分類器處理多標(biāo)簽問題，改良后得到針對(duì)分布式光伏領(lǐng)域優(yōu)化的PCNN-PV模型。本文中模型使用多個(gè)Logistic分類器來輸出結(jié)果。

池化層輸出為g，W1是長(zhǎng)度與g相等的權(quán)重向量，b為常數(shù)。Y為分類器的輸出，由于該分類器為2分類，輸出可能有Y=0或Y=1，將其表達(dá)為條件概率分布，有

(6)

(7)

(8)

為了減輕遠(yuǎn)程監(jiān)督附帶的噪聲對(duì)實(shí)體關(guān)系提取效果的影響，在訓(xùn)練網(wǎng)絡(luò)時(shí)需要使用多示例學(xué)習(xí)(Multi Instance Learning, MIL)策略，該策略由PAuer[33]首次提出。多示例學(xué)習(xí)的策略是將訓(xùn)練數(shù)據(jù)分為許多組，構(gòu)成一個(gè)個(gè)“樣本包(bag)”，每個(gè)“包”中包含多個(gè)“示例(instance)”。在訓(xùn)練時(shí)，不考慮任何單個(gè)樣本的正或負(fù)類標(biāo)注，而是關(guān)注“樣本包”整體的標(biāo)注情況。多示例學(xué)習(xí)作出如下假設(shè)：對(duì)于一個(gè)“樣本包”，只要其含有的任何一個(gè)樣本被認(rèn)為是正類，則該“樣本包”的整體就被標(biāo)注為正；而當(dāng)且僅當(dāng)該“樣本包”中所有樣本都不是正類時(shí)，該樣本才被認(rèn)為是負(fù)類。而多示例學(xué)習(xí)的最終目標(biāo)是訓(xùn)練出針對(duì)某一種實(shí)體關(guān)系、單個(gè)樣本的分類器，以對(duì)單個(gè)樣本進(jìn)行單個(gè)實(shí)體關(guān)系的正負(fù)標(biāo)注預(yù)測(cè)。通過這種訓(xùn)練策略，可以有效回避遠(yuǎn)程監(jiān)督學(xué)習(xí)中的噪聲問題。整體算法流程如算法1所示。

算法1多示例學(xué)習(xí)流程。

步驟1初始化神經(jīng)網(wǎng)絡(luò)的參數(shù)，將樣本劃分成許多個(gè)樣本包。

步驟2隨機(jī)將一個(gè)樣本包M中的樣本依次輸入PCNN-PV模型中。

步驟3根據(jù)當(dāng)前模型參數(shù)的預(yù)測(cè)，找到在當(dāng)前樣本包M中與目標(biāo)分類最接近的樣本m。

步驟4根據(jù)對(duì)m數(shù)據(jù)的最優(yōu)化結(jié)果，對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新。

步驟5重復(fù)步驟2～步驟4，直到收斂或達(dá)到預(yù)定循環(huán)次數(shù)。

由于多示例學(xué)習(xí)是作用于“樣本包”而不是單個(gè)樣本上的，需要針對(duì)整個(gè)“樣本包”進(jìn)行條件概率計(jì)算。在所有的T組“包”中的樣本都根據(jù)當(dāng)前分類器得出判斷結(jié)果后，才可以對(duì)模型進(jìn)行參數(shù)更新。由于本文的實(shí)體關(guān)系提取是二分類問題，目標(biāo)概率分布只有0和1，因此根據(jù)交叉熵(cross entropy)公式，可定義損失函數(shù)：

(9)

利用該損失函數(shù)，可以找到每個(gè)“樣本包”中與目標(biāo)分類最符合的樣本。假設(shè)第j*個(gè)樣本最接近目標(biāo)，則有

(10)

接下來利用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)、自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)等參數(shù)優(yōu)化手段使得函數(shù)J(θ)最小化，以此實(shí)現(xiàn)分類器的訓(xùn)練過程。

5 構(gòu)建效果驗(yàn)證與分析

5.1 驗(yàn)證設(shè)置與評(píng)價(jià)指標(biāo)

5.1.1 知識(shí)庫(kù)設(shè)計(jì)

圖譜化知識(shí)庫(kù)關(guān)系設(shè)計(jì)如圖3所示，由領(lǐng)域?qū)嶓w庫(kù)和實(shí)體關(guān)系庫(kù)兩部分組成。領(lǐng)域?qū)嶓w庫(kù)包含“設(shè)備部件”和“故障概念”兩類，“設(shè)備部件”指組成光伏電站的設(shè)備及部件名稱，“故障概念”包含“熱斑”、“短路”等設(shè)備部件可能發(fā)生的故障名稱。實(shí)體關(guān)系庫(kù)分為“因果關(guān)系”、“作用關(guān)系”等8類：“因果關(guān)系”指故障造成現(xiàn)象的因果，如“過熱”會(huì)導(dǎo)致“報(bào)警”等；“作用關(guān)系”指某部件起到某種作用，如“蓄電池”是用來“蓄電”的；“發(fā)生關(guān)系”表示部件會(huì)發(fā)生的故障，如只有“光伏板”才會(huì)出現(xiàn)“熱斑”、“隱裂”等；“包含關(guān)系”是概念上的包含，如“短路”是一種“故障”；“位于關(guān)系”表示位置上的聯(lián)系，如“光伏板”位于“支架”上；“從屬關(guān)系”代表設(shè)備由哪些部件組成，如“配電柜”由“柜體”、“斷路器”、“互感器”等部件構(gòu)成；“同義詞關(guān)系”如“空開”、“空氣開關(guān)”與“空氣斷路器”是同義詞；“其他關(guān)系”則是其他不能直接概括的關(guān)系。

5.1.2 驗(yàn)證數(shù)據(jù)來源

根據(jù)目的不同，本文驗(yàn)證流程分為實(shí)體提取驗(yàn)證和實(shí)體關(guān)系提取驗(yàn)證兩部分。其中：實(shí)體提取驗(yàn)證部分使用分布式光伏運(yùn)維手冊(cè)中的所有文本數(shù)據(jù)，利用基于詞向量距離改良的TextRank算法進(jìn)行實(shí)體提取，使用人工抽驗(yàn)的方法與其他算法進(jìn)行準(zhǔn)確度對(duì)比；實(shí)體關(guān)系提取驗(yàn)證部分使用CN-DBpedia[34]中包含的相關(guān)數(shù)據(jù)進(jìn)行PCNN-PV模型訓(xùn)練，再利用該模型從分布式光伏運(yùn)維手冊(cè)的文本數(shù)據(jù)中進(jìn)行實(shí)體關(guān)系提取。詞向量表示部分均使用北京師范大學(xué)和人民大學(xué)共同開發(fā)的中文領(lǐng)域大規(guī)模預(yù)訓(xùn)練詞向量Chinese-Word-Vectors[35]。

本文采用國(guó)家電網(wǎng)提供的《分布式光伏電站系列操作手冊(cè)—運(yùn)行維護(hù)》和書籍[36]作為該領(lǐng)域的文本數(shù)據(jù)集，數(shù)據(jù)量約6 000條句子、共40萬字。用于遠(yuǎn)程監(jiān)督的數(shù)據(jù)集CN-DBpedia格式如表1所示。

表1 CN-DBpedia數(shù)據(jù)格式

5.1.3 參數(shù)設(shè)置及實(shí)現(xiàn)

實(shí)體提取過程中，詞表長(zhǎng)度約22 000，初始權(quán)重向量為相應(yīng)長(zhǎng)度的全1向量，設(shè)置核心詞匯為“光伏”、“設(shè)備”、“故障”，構(gòu)建權(quán)重轉(zhuǎn)移矩陣的共現(xiàn)窗口設(shè)置為w=5，迭代平滑參數(shù)d=0.85。

實(shí)體關(guān)系提取中，設(shè)定實(shí)體關(guān)系8種，分別為：“因果”、“作用”、“發(fā)生”、“包含”、“位于”、“從屬”、“同義詞”、“其他”，按以上設(shè)定從CN-DBpedia中獲取訓(xùn)練樣本。獲取樣本后，將所有詞匯替換為詞向量，每條文本對(duì)應(yīng)為一個(gè)矩陣，作為模型的輸入。該部分實(shí)驗(yàn)的主要超參數(shù)包括以下7種：詞向量維數(shù)dw、位置特征向量維數(shù)dp、卷積核窗口長(zhǎng)度w、卷積核個(gè)數(shù)k、單個(gè)樣本包的大小n、學(xué)習(xí)率λ，以及防止發(fā)生過擬合設(shè)置的Dropout率。根據(jù)卷積層結(jié)構(gòu)相近的多組實(shí)驗(yàn)結(jié)果[32,37-38]，超參數(shù)設(shè)置如表2所示時(shí)，模型的性能較好。

表2 實(shí)驗(yàn)超參數(shù)設(shè)置

5.1.4 評(píng)價(jià)指標(biāo)設(shè)置

在實(shí)體提取步驟，以準(zhǔn)確率(Accuracy)作為評(píng)價(jià)指標(biāo)，采用小批次人工抽驗(yàn)的方式，重復(fù)多次求平均值。準(zhǔn)確率A的計(jì)算公式如下：

(11)

式中：T為正確的樣本數(shù)，F(xiàn)為錯(cuò)誤的樣本數(shù)。

在實(shí)體關(guān)系提取步驟，根據(jù)前文遠(yuǎn)程監(jiān)督學(xué)習(xí)的提出者M(jìn)intz[24]的實(shí)驗(yàn)，模型的評(píng)估應(yīng)分為自動(dòng)評(píng)估和人工評(píng)估兩部分。評(píng)估分為兩部分的原因在于可以用于評(píng)估的知識(shí)庫(kù)本身是不完備的，也是因此才需要使用遠(yuǎn)程監(jiān)督的方法。自動(dòng)評(píng)估部分使用精度(P)與召回率(R)作為衡量性能的評(píng)價(jià)指標(biāo)。人工評(píng)估部分采用小批次抽驗(yàn)，以準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。精度P、召回率R和準(zhǔn)確率A的計(jì)算公式如下：

(12)

(13)

(14)

其中：Tp為真正例，F(xiàn)P為假正例，F(xiàn)N為假反例。

5.2 驗(yàn)證結(jié)果分析

5.2.1 實(shí)體提取結(jié)果

在實(shí)體提取步驟，改良TextRank、TextRank和TF-IDF三種方法的準(zhǔn)確率對(duì)比結(jié)果如表3所示。

表3 實(shí)體提取結(jié)果對(duì)比

由該結(jié)果可知，本文采用的改良TextRank算法與經(jīng)典TextRank算法，以及基于統(tǒng)計(jì)的TF-IDF算法相比，平均準(zhǔn)確率更高。引入核心詞匯機(jī)制和詞向量作為外部信息后，在權(quán)重轉(zhuǎn)移的過程中，在向量空間中與核心詞匯相近的詞匯可以獲得更多優(yōu)勢(shì)，減少固定句式對(duì)實(shí)體提取效果的影響。TF-IDF算法雖然有IDF值作為外部信息，但該算法僅考慮詞頻，忽略了詞與詞之間的聯(lián)系，用于實(shí)體提取時(shí)效果不如TextRank。因此，改良TextRank算法可以更準(zhǔn)確地提取出目標(biāo)領(lǐng)域范圍內(nèi)的實(shí)體名詞，也能夠有效地減少實(shí)體提取步驟的人工工作量。

5.2.2 實(shí)體關(guān)系提取結(jié)果

使用MIL的PCNN-PV模型、使用多示例學(xué)習(xí)的TextCNN模型，以及不使用學(xué)習(xí)策略的PCNN-PV模型準(zhǔn)確率、召回率曲線對(duì)比如圖4所示。人工評(píng)估部分實(shí)驗(yàn)結(jié)果如表4所示。

表4 實(shí)體關(guān)系提取人工評(píng)估準(zhǔn)確率對(duì)比

由圖4可知，在遠(yuǎn)程監(jiān)督學(xué)習(xí)中，噪聲問題較為明顯，可以使用多示例學(xué)習(xí)等策略有效緩解。在使用多示例學(xué)習(xí)的情況下，PCNN-PV方法對(duì)比TextCNN方法，產(chǎn)生的結(jié)果準(zhǔn)確率更高。當(dāng)召回率高于0.3時(shí)，PCNN-PV的準(zhǔn)確率比經(jīng)典TextCNN模型準(zhǔn)確率高約0.05，從而證明該模型的提取性能在一定程度上優(yōu)于經(jīng)典模型。分段池化的操作利用兩個(gè)實(shí)體的位置將句子分割成3部分，分別池化之后可以將更多上下文信息納入分析中。對(duì)分類器的修改讓同一對(duì)實(shí)體可以同時(shí)屬于多個(gè)分類，使模型適配了分布式光伏領(lǐng)域的特點(diǎn)，提高了準(zhǔn)確度。由表4可知，本文所采用的PCNN-PV在光伏領(lǐng)域的實(shí)體關(guān)系提取上效果略優(yōu)于經(jīng)典的TextCNN。考慮到實(shí)際建立的圖譜化知識(shí)庫(kù)中，一些實(shí)體對(duì)可以通過其他實(shí)體跳轉(zhuǎn)聯(lián)系起來，例如“光伏組件”與“光伏板”是同義詞，“光伏板”會(huì)產(chǎn)生“熱斑”，這樣通過跳轉(zhuǎn)可以將“光伏組件”與“熱斑”相聯(lián)系，這提高了在實(shí)際使用中的容錯(cuò)性能。因此，本文構(gòu)建的分布式光伏圖譜化知識(shí)庫(kù)對(duì)于智慧運(yùn)維應(yīng)用場(chǎng)景具有實(shí)踐意義。

6 結(jié)束語

隨著近年來分布式光伏產(chǎn)業(yè)的發(fā)展，該行業(yè)對(duì)于智慧運(yùn)維的需求也隨之增長(zhǎng)。因此，構(gòu)建一種面向智慧運(yùn)維的分布式光伏知識(shí)庫(kù)，在提升運(yùn)維工作的智能化程度、標(biāo)準(zhǔn)化規(guī)范化運(yùn)維流程、降低從業(yè)人員門檻等方面都具有重要作用。本文從實(shí)體提取和實(shí)體關(guān)系提取兩方面出發(fā)，改良了分布式光伏知識(shí)庫(kù)構(gòu)建流程。該流程減小了對(duì)標(biāo)注樣本的依賴，緩解了傳統(tǒng)專業(yè)知識(shí)庫(kù)構(gòu)建方式耗時(shí)耗力的問題，填補(bǔ)了分布式光伏智能運(yùn)維系統(tǒng)中缺乏特定知識(shí)庫(kù)的空白，準(zhǔn)確性也得到了一定提升。但這套流程仍有不足，通常來說實(shí)體提取還應(yīng)有“實(shí)體發(fā)現(xiàn)”的步驟，但受限于樣本數(shù)據(jù)，難以有較好的效果，遂使用光伏術(shù)語詞表作為替代。實(shí)體提取和關(guān)系提取這兩部分的輸入都受限于中文分詞工具的性能，難以有效發(fā)現(xiàn)一些較長(zhǎng)的詞(如“離網(wǎng)發(fā)電系統(tǒng)”)，從而不可避免地發(fā)生了錯(cuò)誤率疊加的現(xiàn)象，然而類似長(zhǎng)度的詞在專業(yè)領(lǐng)域術(shù)語中比較常見。因此，對(duì)于該流程，未來還有許多可以改進(jìn)的方面，如實(shí)體提取中調(diào)整模型，減少對(duì)分詞工具的依賴；目前的實(shí)體提取模型還是從比較簡(jiǎn)單的單層CNN模型改進(jìn)而來，未來可以應(yīng)用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)手段，更好地利用詞向量等文本特征，提升模型效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡