国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電網(wǎng)運(yùn)維知識(shí)結(jié)構(gòu)化工具研究

2021-11-28 23:15:19竇如婷石嘉豪陶秀杰周育忠
科技與創(chuàng)新 2021年11期
關(guān)鍵詞:數(shù)據(jù)源運(yùn)維電網(wǎng)

竇如婷,石嘉豪,陶秀杰,周育忠

(南方電網(wǎng)科學(xué)研究院有限責(zé)任公司,廣東 廣州510663)

1 知識(shí)結(jié)構(gòu)化業(yè)務(wù)邏輯設(shè)計(jì)

電網(wǎng)運(yùn)維知識(shí)結(jié)構(gòu)化工具可對(duì)知識(shí)庫進(jìn)行進(jìn)一步加工和規(guī)范,知識(shí)庫數(shù)據(jù)包括電網(wǎng)生產(chǎn)典型案例庫、重大事故事件、制度庫、報(bào)告成果庫、設(shè)備管理情報(bào)庫、新技術(shù)新產(chǎn)品知識(shí)庫等,以及外部數(shù)據(jù)知網(wǎng)期刊文獻(xiàn)、互聯(lián)網(wǎng)電力相關(guān)數(shù)據(jù)等。該模塊包括多源數(shù)據(jù)融合、模型管理、數(shù)據(jù)預(yù)處理和知識(shí)簡報(bào),該模塊的主要功能是為給電網(wǎng)知識(shí)管理工具中的其他模塊提供服務(wù)和支撐,增強(qiáng)知識(shí)的可用性和功能的可擴(kuò)展性。多數(shù)據(jù)融合是對(duì)電網(wǎng)電力數(shù)據(jù)中的多種知識(shí)進(jìn)行融合;模型管理為結(jié)合電網(wǎng)數(shù)據(jù)的實(shí)體識(shí)別、關(guān)系屬性抽取等建立起多種深度學(xué)習(xí)模型,可便于進(jìn)行統(tǒng)一管理;數(shù)據(jù)預(yù)處理是對(duì)知識(shí)數(shù)據(jù)庫數(shù)進(jìn)行加工與處理,多種應(yīng)用的要求;知識(shí)簡報(bào)是利用智能技術(shù)形成分析報(bào)告,管理層進(jìn)行決策分析。

2 多數(shù)據(jù)源融合

結(jié)合電網(wǎng)運(yùn)維數(shù)據(jù)信息來源,充分利用云計(jì)算及分布存儲(chǔ)工具獲取數(shù)據(jù),通過建立規(guī)范化的模式將數(shù)據(jù)信息進(jìn)行結(jié)構(gòu)化、非結(jié)構(gòu)化資源抽取,通過整合、加工、加換、裝載電網(wǎng)數(shù)據(jù),對(duì)多種類型的源據(jù)信息進(jìn)行全量抽取、實(shí)時(shí)抽取。兼容多種類型的數(shù)據(jù)源、目標(biāo)庫,抽取數(shù)據(jù)可用于傳輸,常用的數(shù)據(jù)源、目源庫有OracleMySql、Hbase、GreenPlum、GDS等,可支持EXCEL、FTP、JSON等文件類型,消息處理采用Webservice、Kafka。可對(duì)不同類型的數(shù)據(jù)源抽取匯聚進(jìn)行配置,滿足跨服務(wù)器文件型數(shù)據(jù)的安全傳輸,不同的服務(wù)接口、數(shù)據(jù)庫等也可以進(jìn)行數(shù)據(jù)傳輸。

3 模型管理

以電網(wǎng)數(shù)據(jù)源作為基礎(chǔ)的智識(shí)規(guī)范化管理,可以為不同用戶需求提供多維度、多渠道的知識(shí)服務(wù),包括知識(shí)圖譜、模型管理、知識(shí)檢索等,也可以向?qū)I(yè)人員提供數(shù)據(jù)挖掘分析、創(chuàng)建專家模型等服務(wù)。模塊管理是根據(jù)服務(wù)實(shí)體、對(duì)應(yīng)關(guān)系和數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)抽取模型來實(shí)現(xiàn)管理,管理內(nèi)容主要有電網(wǎng)數(shù)據(jù)屬性標(biāo)簽、模型識(shí)別、對(duì)應(yīng)關(guān)系標(biāo)簽等,該管理模塊可用于結(jié)構(gòu)化構(gòu)建、檢索發(fā)現(xiàn)新詞,是對(duì)知識(shí)圖譜的有力支持,加強(qiáng)對(duì)實(shí)體、對(duì)應(yīng)關(guān)系、數(shù)據(jù)屬性標(biāo)簽的規(guī)范化管理,為知識(shí)管理工具中每個(gè)模塊功能的實(shí)現(xiàn)打下良好基礎(chǔ),具有很好的后續(xù)擴(kuò)展功能。

4 數(shù)據(jù)預(yù)處理

4.1 數(shù)據(jù)處理原則

處理電網(wǎng)運(yùn)維知識(shí)數(shù)據(jù)信息時(shí)應(yīng)統(tǒng)一決策,處理相同數(shù)據(jù)庫里數(shù)據(jù)時(shí)將工作方法、技術(shù)指標(biāo)進(jìn)行統(tǒng)一管理,這樣才能保證數(shù)據(jù)處理的一致性。還需保證數(shù)據(jù)信息的描述與對(duì)應(yīng)實(shí)體的特點(diǎn)相符,保證描述數(shù)據(jù)不存在記錄缺失問題,相同實(shí)體的屬性值能否在不同的數(shù)據(jù)處理系統(tǒng)中保持一致,被描述數(shù)據(jù)能否達(dá)到用戶特定域值范圍,是否存在著描述數(shù)據(jù)多次記錄的問題。處理數(shù)據(jù)應(yīng)該具有可用性,從時(shí)間性角度來看,需要核實(shí)描述的數(shù)據(jù)是否為當(dāng)前或歷史數(shù)據(jù),從穩(wěn)定性角度來看,應(yīng)該保證描述數(shù)據(jù)的穩(wěn)定性是否在有效期內(nèi)。

4.2 數(shù)據(jù)處理流程

4.2.1 數(shù)據(jù)預(yù)處理

將不同維度、不同來源和多種結(jié)構(gòu)的數(shù)據(jù)進(jìn)行匯集以后,需要對(duì)數(shù)據(jù)信息進(jìn)行預(yù)處理,從而對(duì)錯(cuò)誤數(shù)據(jù)信息進(jìn)行修復(fù)與更改,還需要對(duì)數(shù)據(jù)進(jìn)行整理和存儲(chǔ)。數(shù)據(jù)抽取是從數(shù)據(jù)源中獲取數(shù)據(jù)信息的過程,多采用ETL技術(shù),可應(yīng)用的數(shù)據(jù)抽取工具比較多,需要結(jié)合電網(wǎng)運(yùn)維業(yè)務(wù)形成的數(shù)據(jù)特點(diǎn),選擇最為適宜的抽取工具。從數(shù)據(jù)庫中抽取數(shù)據(jù)信息可采用如下方式:①全量抽取。該種數(shù)據(jù)抽取方式與數(shù)據(jù)鏡像比較相似,可以把表與視圖數(shù)據(jù)從數(shù)據(jù)源內(nèi)完整提取出來,多用于系統(tǒng)數(shù)據(jù)初始化階段。②增量抽取。在完成全部抽取以后,對(duì)數(shù)據(jù)庫內(nèi)新增加或修改后的數(shù)據(jù)進(jìn)行抽取。進(jìn)入數(shù)據(jù)過濾階段,可對(duì)電網(wǎng)運(yùn)維業(yè)務(wù)形成的不滿足規(guī)矩要求或無效的數(shù)據(jù)進(jìn)行過濾處理,保證獲取到的數(shù)據(jù)信息滿足標(biāo)準(zhǔn)要求,而有些數(shù)據(jù)信息存在著格式錯(cuò)誤、代碼值沖突等問題,需要進(jìn)行業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換,才能滿足數(shù)據(jù)加載處理的需要。數(shù)據(jù)加載主要有插入與修改兩種操作,把轉(zhuǎn)換后的干凈數(shù)據(jù)、臟數(shù)據(jù)都插到數(shù)據(jù)表內(nèi),如果數(shù)據(jù)量比較大可創(chuàng)建數(shù)據(jù)庫,對(duì)應(yīng)用文本文件進(jìn)行存儲(chǔ),并結(jié)合腳本處理程序進(jìn)行操作。

4.2.2 數(shù)據(jù)清洗

處理缺失值,如果數(shù)據(jù)屬性值為空白,則認(rèn)定該數(shù)據(jù)存在缺失值,為不完整的數(shù)據(jù)類型,先確定好缺失值范圍,對(duì)每個(gè)字段進(jìn)行計(jì)算來確定缺失值比例,根據(jù)缺失比與字段重要性來制訂清洗策略。針對(duì)重要性較高、缺失率小的數(shù)據(jù),可結(jié)合經(jīng)驗(yàn)與業(yè)務(wù)知識(shí)進(jìn)行評(píng)價(jià),也可以通過計(jì)算補(bǔ)充缺失值。對(duì)于重要指標(biāo)、缺失率高的數(shù)據(jù),應(yīng)該與數(shù)據(jù)采集人員、電網(wǎng)運(yùn)維人員聯(lián)系,看能否從其他渠道得到準(zhǔn)確的數(shù)據(jù),可以重新進(jìn)行采集,如果不能得到數(shù)據(jù)則應(yīng)補(bǔ)充缺失值。而對(duì)于指標(biāo)不重要、缺失率低的數(shù)據(jù)可不做處理,需備位指標(biāo)重要、缺失率高的數(shù)據(jù),刪除不需要字段。填補(bǔ)空缺值時(shí)可利用如下方法:充分結(jié)合電網(wǎng)運(yùn)維業(yè)務(wù)知識(shí)、經(jīng)驗(yàn)來填充缺失值。利用眾數(shù)、均值等來填充缺失值。應(yīng)用不同指標(biāo)計(jì)算結(jié)果填充缺失值。

處理錯(cuò)誤數(shù)據(jù)時(shí),對(duì)于格式內(nèi)容問題、邏輯問題錯(cuò)誤,需先分析再制訂處理辦法。數(shù)據(jù)格式內(nèi)容問題如下:①時(shí)間、全半角等格式不一致問題。需要將錯(cuò)誤數(shù)據(jù)處理為一致的格式,該種數(shù)據(jù)多是由于人工采集或填寫原因?qū)е拢诟袷郊皟?nèi)容方面存在問題,對(duì)多種來源數(shù)據(jù)進(jìn)行整理時(shí)也會(huì)存在格式錯(cuò)誤問題。②內(nèi)容字符問題。采用半自動(dòng)、半人工方式來發(fā)現(xiàn)存在的問題,刪除沒用的字符。③數(shù)據(jù)內(nèi)容和字段不符。導(dǎo)致該問題的原因比較多,多是導(dǎo)入數(shù)據(jù)列沒對(duì)齊、人工填寫失誤、沒對(duì)前端校驗(yàn)等原因引起的,需要對(duì)問題類型進(jìn)行深入分析。如果存在邏輯問題數(shù)據(jù),可應(yīng)用邏輯推理辦法來發(fā)現(xiàn)問題數(shù)據(jù),避免分析結(jié)果出現(xiàn)錯(cuò)誤。把去重操作設(shè)置為格式內(nèi)容清洗,只有進(jìn)行內(nèi)容清理才可以發(fā)現(xiàn)存在重復(fù)問題的數(shù)據(jù)。電網(wǎng)運(yùn)維環(huán)境比較復(fù)雜,存在數(shù)據(jù)多次上報(bào)等問題,數(shù)據(jù)重復(fù)問題比較多見,可通過字段相似度來進(jìn)行識(shí)別。數(shù)據(jù)采集還受技術(shù)或物理方面的影響,使數(shù)據(jù)值超過采集范圍,出現(xiàn)離群值。針對(duì)離散程度大的數(shù)據(jù)源,可應(yīng)用箱型圖法,如果利用數(shù)據(jù)分布特征或電網(wǎng)運(yùn)維業(yè)務(wù)來對(duì)噪聲數(shù)據(jù)進(jìn)行識(shí)別存在困難,可應(yīng)用聚類識(shí)別方法。有些字段需要進(jìn)行相互間的驗(yàn)證,結(jié)合字段的數(shù)據(jù)來源情況來識(shí)別哪些字段信息比較可靠、哪些字段需要被消除和重構(gòu)。

處理錯(cuò)誤關(guān)聯(lián)數(shù)據(jù)時(shí),如果電網(wǎng)運(yùn)維數(shù)據(jù)存在多個(gè)來源,則需對(duì)數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行驗(yàn)證。對(duì)多個(gè)來源的數(shù)據(jù)進(jìn)行整合存在較大的難度,需要充分考慮數(shù)據(jù)的關(guān)聯(lián)性,分析時(shí)應(yīng)該防止數(shù)據(jù)間存在矛盾。處理不一致數(shù)據(jù)時(shí),由于受數(shù)據(jù)完整性要求的限制,可對(duì)元數(shù)據(jù)、數(shù)據(jù)字典等進(jìn)行整理與分析,對(duì)數(shù)據(jù)間關(guān)系進(jìn)行全面梳理,對(duì)錯(cuò)誤關(guān)聯(lián)數(shù)據(jù)進(jìn)行修正。很多不一致數(shù)據(jù)多是由于缺少數(shù)據(jù)標(biāo)準(zhǔn)導(dǎo)致的,可應(yīng)用統(tǒng)計(jì)學(xué)原理把數(shù)據(jù)屬性作為隨機(jī)變量,利用數(shù)據(jù)的置信區(qū)間來判斷。采用聚類方法處理,結(jié)合數(shù)據(jù)信息的相似度進(jìn)行分組處理,可以發(fā)現(xiàn)無法分組的孤立點(diǎn)。應(yīng)用距離方法,對(duì)數(shù)據(jù)對(duì)象相似性進(jìn)行準(zhǔn)確度量。采用分類法,可以建立正常數(shù)據(jù)、異常數(shù)據(jù)分類查勘型。按照關(guān)聯(lián)規(guī)則的處理方法,需要先定義好數(shù)據(jù)關(guān)聯(lián)規(guī)要求,無法達(dá)到規(guī)則要求的數(shù)據(jù)則被歸類到異常數(shù)據(jù)。

4.2.3 規(guī)則處理引擎

為保證更好地對(duì)電網(wǎng)運(yùn)維數(shù)據(jù)信息進(jìn)行處理,需要對(duì)每個(gè)數(shù)據(jù)項(xiàng)制訂相關(guān)聯(lián)的數(shù)據(jù)元標(biāo)準(zhǔn)和處理規(guī)則,可以進(jìn)行拼接賦值、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)校驗(yàn)等。利用機(jī)器學(xué)習(xí)技術(shù),對(duì)每個(gè)數(shù)據(jù)字段進(jìn)行識(shí)別處理,再采用數(shù)據(jù)自動(dòng)對(duì)標(biāo)技術(shù),應(yīng)對(duì)數(shù)據(jù)處理不規(guī)范的問題。將數(shù)據(jù)項(xiàng)與標(biāo)準(zhǔn)庫數(shù)據(jù)項(xiàng)進(jìn)行對(duì)應(yīng),通過機(jī)器學(xué)習(xí)來進(jìn)一步降低人工工作強(qiáng)度,結(jié)合語立體相近度開展采樣值域測(cè)試,確定相似度大的數(shù)據(jù)項(xiàng)作為關(guān)聯(lián)數(shù)據(jù)表字段,再按照數(shù)據(jù)特點(diǎn)選取最為合理的數(shù)據(jù)轉(zhuǎn)換規(guī)則,再以規(guī)則模板形成生成字段的稽核任務(wù)。

5 結(jié)語

綜上所述,電網(wǎng)運(yùn)維知識(shí)結(jié)構(gòu)化工具可對(duì)知識(shí)庫進(jìn)行進(jìn)一步加工和規(guī)范,以知識(shí)庫數(shù)據(jù)作為基礎(chǔ),通過多數(shù)據(jù)融合、模型管理、數(shù)據(jù)預(yù)處理和知識(shí)簡報(bào)來逐步實(shí)現(xiàn)設(shè)計(jì),可為電網(wǎng)管理層決策提供數(shù)據(jù)支持。

猜你喜歡
數(shù)據(jù)源運(yùn)維電網(wǎng)
穿越電網(wǎng)
運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
風(fēng)電運(yùn)維困局
能源(2018年8期)2018-09-21 07:57:24
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
雜亂無章的光伏運(yùn)維 百億市場如何成長
能源(2017年11期)2017-12-13 08:12:25
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
基于ITIL的運(yùn)維管理創(chuàng)新實(shí)踐淺析
電網(wǎng)也有春天
河南電力(2016年5期)2016-02-06 02:11:32
一個(gè)電網(wǎng)人的環(huán)保路
河南電力(2015年5期)2015-06-08 06:01:46
電網(wǎng)環(huán)保知多少
河南電力(2015年5期)2015-06-08 06:01:46
梧州市| 怀安县| 大余县| 通城县| 武邑县| 建始县| 宣武区| 邵武市| 元谋县| 苏尼特右旗| 天津市| 福清市| 青川县| 会理县| 定日县| 靖远县| 陈巴尔虎旗| 铜鼓县| 福建省| 海伦市| 邢台县| 中阳县| 昌吉市| 天峨县| 姜堰市| 南涧| 兴仁县| 张家口市| 察隅县| 长岭县| 宜州市| 宁晋县| 泌阳县| 新河县| 乐平市| 五华县| 安龙县| 清镇市| 舞阳县| 福泉市| 罗田县|