基于語義理解和AI 的電力設(shè)備信息檢索方法

2022-11-18 14:01余少鋒廖崇陽

電子設(shè)計工程 2022年22期

佘俊，羅勇，余少鋒，廖崇陽

（1.南方電網(wǎng)公司調(diào)峰調(diào)頻發(fā)電有限公司信息通信分公司，廣東廣州 511442；2.南方電網(wǎng)公司調(diào)峰調(diào)頻發(fā)電有限公司西部檢修試驗分公司，貴州興義 562400）

在現(xiàn)代智能電力系統(tǒng)中，電力數(shù)據(jù)結(jié)構(gòu)復(fù)雜、類型多、存儲量大。電網(wǎng)大數(shù)據(jù)通常分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩種，兩種不同結(jié)構(gòu)的大數(shù)據(jù)在電網(wǎng)中有不同的應(yīng)用價值[1]。在這種情況下，結(jié)構(gòu)化數(shù)據(jù)可用于戰(zhàn)略制定和統(tǒng)計分析預(yù)測趨勢[2]。非結(jié)構(gòu)化數(shù)據(jù)所占比例較大，因為其包含大量由“重要內(nèi)容經(jīng)常被記錄”所產(chǎn)生的文本數(shù)據(jù)，這些大容量、高價值密度的有用信息能夠提高企業(yè)的效率和收益[3]。對于電力企業(yè)來說，如何檢索這部分?jǐn)?shù)據(jù)，將對企業(yè)的戰(zhàn)略部署和發(fā)展方向產(chǎn)生重大影響。因此，實時檢索獲取電力設(shè)備運行信息具有現(xiàn)實意義[4]。

在電力設(shè)備中，采用基于搜索引擎的信息檢索方法，常常會存在信息超載和詞匯不匹配的現(xiàn)象，使得用戶向搜索引擎提交的查詢語句往往不規(guī)范，給查詢過程造成困難。雖然基于語義相似性計算的電力設(shè)備信息檢索方法已經(jīng)取得了很大的進展，但是仍然沒有從根本上提高檢索性能，對詞與詞之間的語義關(guān)系缺乏深入研究。同時，由于對語義關(guān)系的研究不受語境的限制，從而造成檢索詞的混亂。針對上述問題，該文提出了基于語義理解和AI 的電力設(shè)備信息檢索新方法。

1 信息檢索方法設(shè)計

1.1 電力設(shè)備信息特征提取技術(shù)

該研究通過提取文本特征剔除多余虛詞，然后借助分詞工具依次標(biāo)注電力設(shè)備信息中的分詞與詞性[5]。使用詞頻加權(quán)方法分析文檔權(quán)重，其公式為：

式（1）中，tfik表示想要檢索的電力設(shè)備信息在檢索文檔中出現(xiàn)的次數(shù)；N表示電力設(shè)備信息文檔數(shù)量；nk表示電力設(shè)備信息全部文檔中出現(xiàn)想要檢索的電力設(shè)備信息的文檔數(shù)量[6]。

通常，詞組是構(gòu)成文檔的關(guān)鍵部分，一篇文章中最頻繁出現(xiàn)的一組詞為中心主題，通常用TF 詞頻度來衡量類似文本的特點[7]。文字出現(xiàn)的頻率越低，說明文本分類識別的準(zhǔn)確率越高。因此，利用文本頻率和詞頻度的乘積可以表示特征空間的測度值，再通過調(diào)整權(quán)重的方式突出關(guān)鍵字。

1.2 基于語義理解的電力設(shè)備信息處理技術(shù)

基于語義理解就是發(fā)現(xiàn)詞和符號所表達(dá)的“意義”，根據(jù)這一思想，語義理解也需要一個以句子意義作為最終理解和表達(dá)的形式符號系統(tǒng)，其描述公式為：

式（2）中，CE表示語句類的表達(dá)式；S表示語義塊；C表示描述對象；f()和g()表示約束函數(shù)[8-10]。

結(jié)合上述公式，設(shè)計基于語義理解的電力設(shè)備信息處理步驟，如圖1 所示。

如圖1 所示，處理語義信息時，虛線框中的句類假設(shè)和檢測、語義塊構(gòu)成等作為處理環(huán)節(jié)，輸入自然語言語句，再輸出相應(yīng)的句類表示和詞描述[11-12]。

具體處理步驟：在信息預(yù)處理之后，基于句子中懷疑詞所包含的概念對可能的句型作出假設(shè)，并基于所包含的概念性知識來判斷句子的類型。基于此，利用語義塊來判斷詞語，假定在處理過程中未能通過上述步驟，將導(dǎo)致追溯，此時需要再次進行“假設(shè)”和“探測”[13]。

1.3 查詢擴展技術(shù)

查詢擴展技術(shù)是語義檢索的關(guān)鍵技術(shù)，通過添加與原始查詢語言查詢語義相關(guān)的詞或概念，使查詢時間較原始查詢長，從而提高了文檔檢索效率、查全率和準(zhǔn)確性[14]。通過對相關(guān)內(nèi)容和用戶需求的比較，提取語義信息；對于知識庫中存在的詞組，使用語義詞典對語義進行擴展處理，并以表格形式展現(xiàn)給用戶，供用戶自行識別[15]。查詢字符串被擴展成搜索引擎查詢，查詢結(jié)果被聚類并呈現(xiàn)給用戶。查詢擴展流程如圖2 所示。

具體查詢擴展過程：首先應(yīng)確定原始查詢串r；然后擴展查詢串R，經(jīng)過分詞處理后，將原始查詢串r分解成n個檢索關(guān)鍵詞[16]。其中，關(guān)鍵詞語義相似度最為接近的同義詞數(shù)量為m1,m2,…,mn，將其擴展為r11,…,r1m1,r21,…r2m2,…,rn1…,rnmn詞組，并確定擴展查詢子串為k=m1×m2×…×mn+1 個；最終得到的各個查詢子串為：

結(jié)合式（3），可得到擴展后的查詢子串。

1.4 基于語義理解的AI檢索模型構(gòu)建

基于上述內(nèi)容，構(gòu)建基于語義理解的AI 檢索模型，如圖3 所示。

由圖3 可知，該模型主要是由四個模塊組成的，如下所示：

1）預(yù)處理模塊

為便于后續(xù)的相似度計算，在用戶查詢之前采用分詞和刪除停用詞的預(yù)處理方式，將停用詞轉(zhuǎn)換成文件矢量形式。

2）語義關(guān)系分析模塊

通過預(yù)處理模塊搭建語義知識庫，使不同詞語形成語法依賴關(guān)系。語義概念空間是一種能將語言進行量化處理的空間，通過語義判斷能夠解決概念間隱含的數(shù)據(jù)結(jié)構(gòu)問題。量化機制中的事態(tài)信息量級如表1 所示。

表1 事態(tài)信息量級

3）判別信息空間模塊

在選擇信息空間時，要根據(jù)三種不同的語言信息量，通過句法依賴圖進行判斷。

4）語境分析和查詢模塊

識別出信息空間后，對文檔數(shù)據(jù)庫中的各個數(shù)據(jù)進行匹配，使得數(shù)據(jù)可以對應(yīng)于文檔，然后對文檔進行排序，并返回查詢結(jié)果。

2 實驗與分析

為了驗證基于語義理解和AI 的電力設(shè)備信息檢索方法的有效性，結(jié)合F 供電局供電情況進行實驗驗證分析。

2.1 F供電局概況

F 供電局是某供電公司直屬的企業(yè)，主要負(fù)責(zé)電力供應(yīng)，目前供電客戶為300 多萬戶，在2020 年該供電局最高供應(yīng)負(fù)荷可達(dá)到1 500 萬千瓦。截至到目前，F(xiàn) 供電局共有110 kV、220 kV、500 kV 輸電線路長4 500 km 左右，主變壓器為五百多臺。F 供電局主要電力設(shè)備如表2 所示。

表2 F供電局主要電力設(shè)備

2.2 電力設(shè)備信息集

從F 供電局的變壓器、斷路器、變電站和電源開關(guān)四種設(shè)備中提取電力設(shè)備信息，構(gòu)成信息集，信息集中保留了電力設(shè)備共600 條信息。

2.3 實驗指標(biāo)確定

1）信息查全率

設(shè)檢索出的變壓器、斷路器、變電站和電源開關(guān)四種設(shè)備電力設(shè)備信息為a，總信息量為c，信息查全率計算公式為：

由式（4）可知，總信息量c中除了檢索到的全部信息外，還包含歷史信息庫中的信息，信息查全率越高，說明從全部信息中檢索到的變壓器、斷路器、變電站和電源開關(guān)四種設(shè)備電力設(shè)備信息就越全面。

2）信息查準(zhǔn)率

設(shè)檢索出的變壓器、斷路器、變電站和電源開關(guān)四種設(shè)備電力設(shè)備信息為a，其余信息量為b，由此計算信息查準(zhǔn)率：

由式（5）可知，信息查準(zhǔn)率越高，說明從全部信息中檢索到變壓器、斷路器、變電站和電源開關(guān)四種設(shè)備電力設(shè)備信息的精度就越高。

2.4 實驗結(jié)果與分析

2.4.1 信息查全率

結(jié)合表2 確定檢索到的總信息數(shù)量為7 544 條，分別使用基于搜索引擎的電力設(shè)備信息檢索方法、基于語義相似度計算的電力設(shè)備信息檢索方法和基于語義理解和AI 的電力設(shè)備信息檢索方法對信息查全率進行對比分析，結(jié)果如圖4 所示。

由圖4 可知，使用基于搜索引擎的檢索方法在前5 次計算過程中，信息查全率大于60%，在后4 次計算過程中，信息查全率大幅度下降，說明該計算過程受到了歷史信息庫中的信息影響；使用基于語義相似度計算的檢索方法在9 次計算過程中，信息查全率大于60%；使用基于語義理解和AI 的檢索方法在9 次計算過程中，信息查全率始終大于80%。

2.4.2 信息查準(zhǔn)率

對比分析不同方法的信息查詢結(jié)果，如表3所示。

由表3可知，基于語義理解和AI的電力設(shè)備信息檢索方法的查準(zhǔn)率接近100%，具有精準(zhǔn)檢測結(jié)果。

表3 不同方法信息查詢結(jié)果對比分析

3 結(jié)束語

該文提出一種基于語義理解和AI 的電力設(shè)備信息檢索方法，有效提高了檢索查全率和查準(zhǔn)率。

該方法的主要特點：相對于傳統(tǒng)檢索方法，基于語義理解擴展原始的關(guān)鍵字集合，得到新的關(guān)鍵字集合。此集合更適合于用戶希望表達(dá)的內(nèi)容，因此使查詢更精確；該方法可以快速建立和優(yōu)化索引，同時利用查詢擴展模塊對關(guān)鍵字集進行檢索，利用索引技術(shù)實現(xiàn)快速高效的檢索。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡