国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM 神經(jīng)網(wǎng)絡(luò)的電網(wǎng)文本分類方法

2020-03-05 09:33張?jiān)葡?/span>饒竹一
現(xiàn)代計(jì)算機(jī) 2020年2期
關(guān)鍵詞:預(yù)處理類別文檔

張?jiān)葡?,饒竹?/p>

(深圳供電局有限公司,深圳518001)

0 引言

在電力物聯(lián)網(wǎng)高速發(fā)展的今天,電網(wǎng)系統(tǒng)中有著大量的電子文本,如電網(wǎng)客戶信息、電網(wǎng)業(yè)務(wù)數(shù)據(jù)等。而由于當(dāng)前電網(wǎng)信息管理混亂,數(shù)據(jù)模型未統(tǒng)一,同一信息可能因?yàn)椴煌瑯I(yè)務(wù)格式存在文本上的差異,沒有統(tǒng)一的標(biāo)準(zhǔn),這會(huì)嚴(yán)重影響電網(wǎng)系統(tǒng)的各項(xiàng)業(yè)務(wù)效率和成本。因此,對(duì)電網(wǎng)系統(tǒng)中的海量電子文本進(jìn)行檢索和信息提取,再進(jìn)一步進(jìn)行分類,就顯得十分有意義。

文本分類(Text Classification)是自然語言處理(NLP)的主要研究問題之一,指的是在一個(gè)被事先定義好的固定類別中根據(jù)文本的特征將給定的文本對(duì)象進(jìn)行分類的技術(shù)。典型的應(yīng)用有判定垃圾郵件、網(wǎng)頁(yè)自動(dòng)分類[1]、情感分類[2]和新聞個(gè)性化推薦[3]等。在20 世紀(jì)50 年代,單純依靠文檔中出現(xiàn)與類名相同的詞來進(jìn)行文檔分類的詞匹配法[4]出現(xiàn),之后又出現(xiàn)了向量空間模型[5]和知識(shí)工程,但這些算法十分依賴于人力,且方法十分簡(jiǎn)單,分類結(jié)果并不能滿足要求。之后,隨著機(jī)器學(xué)習(xí)算法的發(fā)展,SVM 模型[6]、貝葉斯網(wǎng)絡(luò)[7]、決策樹[8]等算法開始應(yīng)用于文本分類?,F(xiàn)如今,人工智能(AI)技術(shù)的快速發(fā)展使文本分類得到了新的發(fā)展,其成為了AI 子領(lǐng)域自然語言處理(NLP)的一個(gè)重要分支,神經(jīng)網(wǎng)絡(luò),如卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]與深度神經(jīng)網(wǎng)絡(luò)(DNN)[10]也越來越多的應(yīng)用到文本分類中來。但這些傳統(tǒng)的網(wǎng)絡(luò)存在梯度消失問題,無法處理長(zhǎng)時(shí)間序列數(shù)據(jù),基于此,專門用于處理時(shí)間序列數(shù)據(jù)的長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)被提出,本文便是利用LSTM 神經(jīng)網(wǎng)絡(luò)來進(jìn)行電網(wǎng)文本分類。

1 方法準(zhǔn)備

1.1 自然語言處理NLP

自然語言處理(NLP)是一種人機(jī)交互方式,目的是讓計(jì)算機(jī)理解人類所用的自然語言,從而實(shí)現(xiàn)諸如人機(jī)交互或是語言翻譯等功能[11]。它涉及人工智能、語言學(xué)和計(jì)算機(jī)科學(xué)三大領(lǐng)域,是人工智能的重要分支。從語言學(xué)角度,語言可以分為形式語言和自然語言,形式語言是人為創(chuàng)造的用數(shù)字等符號(hào)描述的語言,可以被機(jī)器處理,如編程語言、化學(xué)符號(hào)等,而自然進(jìn)化的語言,如人類的語言就是自然語言,跟形式語言相比,它缺乏固定的格式,存在大量歧義語句、相似語句等,使得其無法直接被機(jī)器所理解。自然語言處理便是研究如何對(duì)自然語言進(jìn)行加工處理,從而實(shí)現(xiàn)人機(jī)交互的學(xué)科。

NLP 的研究問題主要包括信息檢索、機(jī)器翻譯、機(jī)器寫作、語音識(shí)別、文本分類、文本挖掘和文本匹配等,其中文本分類便是本文的研究重點(diǎn),由于自然語言是由大量人群進(jìn)行長(zhǎng)時(shí)間對(duì)話交流演變而來的語言,所以它是一種“經(jīng)驗(yàn)主義”的語言模型,即基于統(tǒng)計(jì)的模型。因此,將大規(guī)模的真實(shí)語言文本進(jìn)行收集整理形成一個(gè)真實(shí)語言庫(kù),再運(yùn)用統(tǒng)計(jì)技術(shù)對(duì)該語言庫(kù)進(jìn)行分析,就可以進(jìn)行語言文本分類。文本分類一般分為文本預(yù)處理,文本特征提取和文本分類幾大部分。

1.2 LSTM神經(jīng)網(wǎng)絡(luò)

長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是一種專門用于處理時(shí)間序列數(shù)據(jù)的網(wǎng)絡(luò)[12],傳統(tǒng)的RNN 神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是將輸入運(yùn)用函數(shù)進(jìn)行計(jì)算后進(jìn)行輸出的單元,而LSTM 將神經(jīng)元變?yōu)橛洃泦卧?,每個(gè)記憶單元由輸入門、遺忘門和輸出門構(gòu)成,其單元結(jié)構(gòu)圖如圖1 所示。其中長(zhǎng)期狀態(tài)c 用于存儲(chǔ)長(zhǎng)期記憶信息,使得序列的長(zhǎng)期狀態(tài)可以保存下來,并傳遞到下一層,同時(shí),遺忘門的設(shè)計(jì)又使得c 得到更新,丟棄已經(jīng)過時(shí)的信息。LSTM 的這一設(shè)計(jì)解決了RNN 網(wǎng)絡(luò)存在的梯度消失和梯度爆炸問題。

圖1 LSTM神經(jīng)元

t 時(shí)刻的數(shù)據(jù)xt到達(dá)網(wǎng)絡(luò)后,與上一時(shí)刻LSTM 的輸出ht-1一起作為輸入,對(duì)Ct-1進(jìn)行更新,得到新的長(zhǎng)期狀態(tài)Ct,計(jì)算公式如公式(1)所示。

之后,輸入進(jìn)行sigmod 計(jì)算后,與更新后的長(zhǎng)期狀態(tài)Ct進(jìn)行計(jì)算,得到該時(shí)刻的輸出ht,ht的計(jì)算公式如公式(2)所示。

2 方法構(gòu)建

在本節(jié),針對(duì)電網(wǎng)行業(yè)文本分類存在的問題,提出了一種基于LSTM 神經(jīng)網(wǎng)絡(luò)的文本分類模型。模型主要分為三部分:預(yù)處理、特征提取以及文本分類。如圖1 所示為模型的三層框架。

圖2 文本分類模型的三層框架

2.1 預(yù)處理模塊

在文本分類過程中,由于電網(wǎng)數(shù)據(jù)的多樣化的特點(diǎn),導(dǎo)致存儲(chǔ)的大部分?jǐn)?shù)據(jù)都為非結(jié)構(gòu)化數(shù)據(jù)。面對(duì)這些復(fù)雜數(shù)據(jù),計(jì)算機(jī)是無法直接處理的。這就需要先將文本進(jìn)行預(yù)處理,并且將其轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別出的形式。本文采用中科院的ICTCLAS 中文詞法分析系統(tǒng)進(jìn)行分詞預(yù)處理并使用向量空間模型(VSM)進(jìn)行文本模式化。

假設(shè)文檔集合Y 中某一文本X,其中Y 的文檔數(shù)量為N。向量空間模型是一種使用向量表示數(shù)據(jù)的模型,通過向量空間的模式化,可以降低文本分類的難度。 對(duì)于文本 X,通過向量空間模型得到,其中n 表示文本X 中詞的數(shù)量,xi表示文本X 的第i 個(gè)詞,wi為xi對(duì)應(yīng)的特征權(quán)值,具體如下公式(3)所示:

其中fi表示為xi在文檔X 中的出現(xiàn)次數(shù),mxi表示為在集合Y 中出現(xiàn)xi的總文本數(shù)量。

對(duì)其進(jìn)行歸一化處理,則wi由公式(4)所示:

2.2 特征提取

由于互信息(MI)只考慮了xi和文本類別ck之間的關(guān)系,本文考慮到特征的選擇一定程度上還會(huì)收到xi在整個(gè)文本集合Y 中的出現(xiàn)頻率的影響,通過改進(jìn)MI 算法得到如公式(5)所示:其中Pck表示屬于ck的文檔在集合Y 中所占比重,α 為控制閾值,為含有詞xi的文本屬于文本類別ck的比重,其表達(dá)式如下公式(6)所示:

其中hck表示為屬于類別ck的文本的數(shù)量,Su 表示為屬于類別ck的詞的總數(shù),F(xiàn)k為所有詞屬于ck類的數(shù)量。

設(shè)置合適的特征選擇閾值b,選擇互信息值高于閾值b 的詞,將其視為文本的特征值用于文本分類。

2.3 文本分類

假設(shè)經(jīng)過上述預(yù)處理和特征提取之后得到的文本X 的對(duì)應(yīng)特征向量為,其中w<=n。通過已知對(duì)應(yīng)類別標(biāo)簽的文本訓(xùn)練集對(duì)文本分類模型進(jìn)行訓(xùn)練。本文采用LSTM 神經(jīng)網(wǎng)絡(luò)作為文本分類模型進(jìn)行分類訓(xùn)練。其算法偽代碼如下所示:定義輸入為文本Y,其某個(gè)文本X 經(jīng)過預(yù)處理以及特征提取得到特征向量,作為L(zhǎng)STM 神經(jīng)網(wǎng)絡(luò)的輸入節(jié)點(diǎn),輸出為分類模型對(duì)所有文本集合Y 做出的分類預(yù)測(cè)類別集合CY。

輸入:文本Y

輸出:分類預(yù)測(cè)類別CY

步驟3:根據(jù)控制閾值b 獲得模型輸入特征集合Y";

步驟4:CY=LSTM(Y");

3 實(shí)驗(yàn)驗(yàn)證

本文實(shí)驗(yàn)部分的數(shù)據(jù)來自于國(guó)家電網(wǎng)提供的變電站信息系統(tǒng)數(shù)據(jù)。根據(jù)電網(wǎng)的相關(guān)要求,可以將這些數(shù)據(jù)具體分為電網(wǎng)設(shè)備檢修操作票、信息系統(tǒng)檢修計(jì)劃單、信息系統(tǒng)檢修工作票、信息系統(tǒng)檢修操作票、客服服務(wù)工作票。文本總量為3000 篇,平均每類為600篇。選取每類的70%作為文本訓(xùn)練集用于訓(xùn)練模型,剩余每類30%作為測(cè)試集測(cè)試分類模型的性能。經(jīng)過訓(xùn)練以及測(cè)試,其結(jié)果如下所示:其平均率可以達(dá)到91%以上。

表1 實(shí)驗(yàn)分類結(jié)果

4 結(jié)語

本文基于電網(wǎng)系統(tǒng)中存在大量電子文本,但當(dāng)前電網(wǎng)信息管理較為混亂,沒有統(tǒng)一模型的現(xiàn)實(shí),為了對(duì)電網(wǎng)系統(tǒng)中的海量電子文本進(jìn)行檢索和信息提取,構(gòu)建了一個(gè)LSTM 神經(jīng)網(wǎng)絡(luò)分類模型來對(duì)電網(wǎng)文本信息進(jìn)行分類,之后,通過基于國(guó)家電網(wǎng)提供的變電站信息系統(tǒng)數(shù)據(jù)的實(shí)驗(yàn)驗(yàn)證了本方法的有效性。

猜你喜歡
預(yù)處理類別文檔
預(yù)處理對(duì)醫(yī)用外科口罩用熔噴布顆粒過濾性能的影響
淺談Matlab與Word文檔的應(yīng)用接口
手術(shù)器械預(yù)處理在手術(shù)室的應(yīng)用
污泥預(yù)處理-厭氧消化體系的能源經(jīng)濟(jì)性評(píng)價(jià)
有人一聲不吭向你扔了個(gè)文檔
輕松編輯PDF文檔
污泥預(yù)處理及其在硅酸鹽制品中的運(yùn)用
一起去圖書館吧
簡(jiǎn)析基于概率預(yù)測(cè)的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
Word文檔 高效分合有高招
霍山县| 马龙县| 临猗县| 罗源县| 巴彦淖尔市| 元氏县| 荃湾区| 汶上县| 会泽县| 绍兴市| 东乡族自治县| 武宁县| 剑阁县| 禄劝| 景宁| 常熟市| 尉氏县| 寿宁县| 石台县| 济南市| 云南省| 金堂县| 甘孜县| 阳江市| 晋江市| 松溪县| 来安县| 泾源县| 辰溪县| 赤峰市| 长沙市| 策勒县| 神农架林区| 赤城县| 安化县| 洛南县| 娄烦县| 高唐县| 内乡县| 丰都县| 宜宾县|