国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種深度學(xué)習(xí)的文本特征提取方法研究

2021-01-28 03:51:12王新艷
微型電腦應(yīng)用 2021年1期
關(guān)鍵詞:特征提取文檔卷積

王新艷

(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院徐州醫(yī)藥分院基礎(chǔ)教學(xué)部, 江蘇 徐州 221116)

0 引言

隨著網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代的到來(lái),促使網(wǎng)絡(luò)用戶數(shù)量不斷增多,包括短信息、新聞等在內(nèi)的文本數(shù)據(jù)信息數(shù)量也隨之迅速增加,如何快速高效獲取所需信息成為研究熱點(diǎn),同時(shí)對(duì)如何實(shí)現(xiàn)及時(shí)有效的處理用戶產(chǎn)生的文本信息提出了更高的要求。目前高效的文本挖掘技術(shù)已成為解決上述問(wèn)題的重要手段,作為文本挖掘技術(shù)的研究基礎(chǔ),提取文章與主題的關(guān)鍵短語(yǔ)技術(shù)對(duì)文本挖掘的應(yīng)用質(zhì)量產(chǎn)生直接影響。

1 現(xiàn)狀分析

近年來(lái)在對(duì)文本特征進(jìn)行提取時(shí),使用深度學(xué)習(xí)技術(shù)成為越來(lái)越多的研究者的研究重點(diǎn),例如對(duì)高光譜圖像的特征,通過(guò)使用多個(gè)卷積網(wǎng)絡(luò)(包含卷積層與池化層)完成提取過(guò)程,再將其應(yīng)用到圖像分類及目標(biāo)檢測(cè)中,取得了良好應(yīng)用的效果(Chen 等)[1]。關(guān)于文本特征提取,Liang等在相關(guān)文獻(xiàn)已詳細(xì)介紹了常用的文本特征提取方法(包括自編碼神經(jīng)網(wǎng)絡(luò)、受限波茲曼機(jī)、循環(huán)神經(jīng)網(wǎng)絡(luò)等特征提取方法)[2]。針對(duì)文本分類特征,包括向量空間模型、卷積神經(jīng)網(wǎng)絡(luò)、模糊神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)在內(nèi)的提取方法應(yīng)用方面的討論(從詞袋模型方法到神經(jīng)網(wǎng)絡(luò)方法)[3]。目前在文本特征提取的研究領(lǐng)域,基于深度學(xué)習(xí)技術(shù)的提取方法稱為研究重點(diǎn),該類特征提取方法在圖像領(lǐng)域應(yīng)用較為廣泛,但關(guān)于文本特征提取尤其是對(duì)中文文本的特征提取方面的研究成果較少,傳統(tǒng)的手工提取方法得到的特征維度一般較大,降低模型訓(xùn)練效率的同時(shí)增加了資源消耗量。而對(duì)于中文長(zhǎng)文本數(shù)據(jù)集,通過(guò)運(yùn)用深度學(xué)習(xí)方法進(jìn)行特征提取可有效簡(jiǎn)化文本特征提取過(guò)程,并使文本語(yǔ)義信息得到準(zhǔn)確地表示,使模型訓(xùn)練效率得到進(jìn)一步提高。

2 特征提取方法的原理及應(yīng)用

數(shù)據(jù)量快速增加的文本信息增加了獲取有價(jià)值信息的難度,對(duì)文本信息進(jìn)行高效的分類是提升獲取信息質(zhì)量和效率的重要手段。特征提取在處理機(jī)器學(xué)習(xí)任務(wù)、數(shù)據(jù)挖掘、信息檢索等中均發(fā)揮著重要作用。特征提取對(duì)機(jī)器學(xué)習(xí)任務(wù)結(jié)果的好壞產(chǎn)生直接影響,常用的分類任務(wù)所提取特征的質(zhì)量決定著分類結(jié)果的質(zhì)量。傳統(tǒng)以人工提取為主的特征提取方法的特征提取結(jié)果中普遍存在冗余和同分類任務(wù)不相干的問(wèn)題,同時(shí)較大特征的維度導(dǎo)致模型訓(xùn)練過(guò)程的資源消耗量較大,存在模型過(guò)擬合問(wèn)題,在降低訓(xùn)練效率的同時(shí)會(huì)降低分類的準(zhǔn)確率,為了解決這些問(wèn)題通常需降維處理傳統(tǒng)方法提取的特征,并從中挑選出部分最優(yōu)的特征子集(可有效表示文本信息),進(jìn)而提高分類效果,但此種方法極大的增加了分類任務(wù)的工作量。為此本文在現(xiàn)有提取文本特征研究成果的基礎(chǔ)上設(shè)計(jì)了一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并在此基礎(chǔ)上結(jié)合運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(用于句子分類)構(gòu)建了一種特征提取方法,將知網(wǎng)中文學(xué)術(shù)論文數(shù)據(jù)集中的文本特征采用傳統(tǒng)的特征提取方法(TF-IDF和Word2vec)進(jìn)行表示,再經(jīng)分類處理,實(shí)現(xiàn)了對(duì)原生的神經(jīng)網(wǎng)絡(luò)的分類效果的進(jìn)一步優(yōu)化,使用本文深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)高層文本特征進(jìn)行提取時(shí),能夠有效提升文本信息表示的準(zhǔn)確率及特征提取質(zhì)量[4]。

2.1 卷積神經(jīng)網(wǎng)絡(luò)

對(duì)于文本分類通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)已實(shí)現(xiàn)較好的分類效果的獲取。本文以中文學(xué)術(shù)論文數(shù)據(jù)集作為處理對(duì)象,運(yùn)用在分類中應(yīng)用較為成熟的卷積神經(jīng)網(wǎng)絡(luò)建立特征提取模型,據(jù)此完成文本分類和文本語(yǔ)義信息的表示(即提取網(wǎng)絡(luò)中的高層特征),提取文本特征時(shí)使用到的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),如表1所示。

本文基于該網(wǎng)絡(luò)結(jié)構(gòu)中第8層的輸出完成特征提取模型的建立,文本的特征向量則使用該網(wǎng)絡(luò)中最高層的特征,通過(guò)使用128維的向量表示各樣本可使特征的維度得到顯著降低,進(jìn)而使分類器的訓(xùn)練速度以及分類的準(zhǔn)確率得到有效提升[5]。

2.2 TF-IDF

基于統(tǒng)計(jì)學(xué)的TF-IDF方法(即詞頻-逆文檔頻率,)可用于完成對(duì)詞權(quán)重的計(jì)算,常用于特征向量化處理中,在對(duì)語(yǔ)料庫(kù)中的某一文檔同其他文檔進(jìn)行區(qū)分時(shí),可先通過(guò)該方法評(píng)估一個(gè)詞的重要程度,判斷某個(gè)單詞區(qū)分本文檔和其他文檔的能力強(qiáng)弱的依據(jù)為:該詞在本文檔中某個(gè)單詞頻繁出現(xiàn),在其他文檔中出現(xiàn)的較少,此時(shí)該詞對(duì)應(yīng)的權(quán)重值越大,即某篇文檔的某個(gè)詞頻繁出現(xiàn)在其他文檔中時(shí),其區(qū)分能力較弱。為獲取具體詞匯描述文檔內(nèi)容的能力的計(jì)算結(jié)果,假設(shè),某一詞匯在文檔中和第j篇文檔中出現(xiàn)的頻率和次數(shù)分別由TF和ni,j表示,對(duì)第j篇出現(xiàn)的次數(shù)求和由∑knk,j表示[6]。具體計(jì)算,如式(1)。

(1)

采用IDF度量某一詞語(yǔ)的普遍重要性,計(jì)算某一詞語(yǔ)的IDF由Ii表示時(shí),假設(shè),D表示語(yǔ)料庫(kù)中的文檔總數(shù),jt1表示語(yǔ)料庫(kù)中包含詞語(yǔ)ti的文檔數(shù),則Ii的計(jì)算表達(dá)式,如式(2)。

(2)

式中,為保證不存在該詞語(yǔ)時(shí)分母不為0,通常使用jt1+1作為分母。

高頻率詞語(yǔ)對(duì)應(yīng)的TF-IDF權(quán)重值較高,假設(shè),所計(jì)算文本的TF-IDF權(quán)重由Wi,j表示。具體計(jì)算表達(dá)式,如式(3)。

Wi,j=Ti,j×Ii

(3)

2.3 Word2vec

在自然語(yǔ)言處理領(lǐng)域,作為一種詞嵌入工具的Word2vec(由谷歌開源出)應(yīng)用較為廣泛,為有效簡(jiǎn)化特征間的關(guān)系及相似性的計(jì)算過(guò)程,Word2vec詞嵌入方式在向量空間中映射各特征詞后通過(guò)一個(gè)向量進(jìn)行表示,使文本的語(yǔ)義信息得到一定程度的刻畫和表達(dá),主要包括跳字模型(以中心詞為依據(jù)對(duì)其上下文的背景詞進(jìn)行預(yù)測(cè)并調(diào)整中心詞的詞向量)和連續(xù)詞袋模型(根據(jù)上下文背景詞預(yù)測(cè)中心詞,在此基礎(chǔ)上對(duì)上下文背景詞的詞向量進(jìn)行)兩種。實(shí)際訓(xùn)練模型時(shí),可通過(guò)負(fù)采樣或分層 softmax兩種訓(xùn)練方式的使用實(shí)現(xiàn)計(jì)算復(fù)雜程度的顯著降低[7]。

2.4 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

本文結(jié)合運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)在提取局部特征和高質(zhì)量捕獲上下文信息的優(yōu)勢(shì),提出了一種新的特征提取模型及文本分類方法,該模型基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN),能夠提取出高層特征。該網(wǎng)絡(luò)模型結(jié)構(gòu),如表2所示。

表2 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

本文的特征提取模型的輸出采用其中的第10層的輸出,可用高層特征向量(60維)表示各樣本,該模型主要由輸入層、詞嵌入層、卷積層、池化層、LSTM網(wǎng)絡(luò)層和全連接層構(gòu)成,輸入文本信息后先通過(guò)卷積網(wǎng)絡(luò)的使用完成多組特征的提取以及相應(yīng)的池化操作,在此基礎(chǔ)上完成文本中重要特征的提取與融合向LSTM神經(jīng)網(wǎng)絡(luò)傳送,最終的分類結(jié)果由全連接層輸出,能準(zhǔn)確地表示文本的語(yǔ)義信息,通過(guò)使用該特征提取模型可使分類效率及質(zhì)量得到有效提升[8]。

3 實(shí)驗(yàn)測(cè)試及結(jié)果分析

(1) 文本分類實(shí)驗(yàn)

本文選用知網(wǎng)上的包含10個(gè)文獻(xiàn)類別的學(xué)術(shù)論文數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集(包括化學(xué)、輕工業(yè)手工業(yè)、農(nóng)業(yè)經(jīng)濟(jì)、鐵路運(yùn)輸、體育、藥學(xué)、新聞與傳媒等,數(shù)據(jù)集為非公開數(shù)據(jù)集),各類別均包含40 000條實(shí)驗(yàn)數(shù)據(jù)(每條數(shù)據(jù)均包含類別、標(biāo)題、摘要、關(guān)鍵詞4列),數(shù)據(jù)集的80% 為訓(xùn)練數(shù)據(jù),剩余作為測(cè)試數(shù)據(jù),合并類別以外的其他三列得到一條長(zhǎng)文本,采用該長(zhǎng)文本信息進(jìn)行實(shí)驗(yàn)。具體實(shí)驗(yàn)參數(shù)設(shè)置,如表3所示。

表3 CNN與CRNN文本分類實(shí)驗(yàn)配置

設(shè)計(jì)實(shí)驗(yàn)對(duì)使用CNN和本文CRNN的直接分類結(jié)果進(jìn)行對(duì)比,最終結(jié)果取平均值。并使用本文的特征提取模型完成高層的文本特征的提取,接下來(lái)在SVM(采用高斯核函數(shù)作為核函數(shù))和隨機(jī)森林分類器(estimator參數(shù)設(shè)為 100)中分類所提取的特征,據(jù)此對(duì)比得到的分類結(jié)果[9]。

基于TF-IDF特征提取方法的文本分類實(shí)驗(yàn),最大特征個(gè)數(shù)和最小文檔頻率分別設(shè)置為30 000和2,使用該方法提取出數(shù)據(jù)集的特征后,通過(guò)SVM和隨機(jī)森林分類器完成分類操作?;谝杨A(yù)先訓(xùn)練好的詞向量模型Word2vec的文本分類實(shí)驗(yàn),將中文數(shù)據(jù)集中的各特征通過(guò)Word2vec進(jìn)行表示后,將整個(gè)文本的特征向量使用各樣本中的特征詞向量連乘來(lái)計(jì)算,假設(shè),對(duì)于i個(gè)文本,其特征向量由ti表示,其第n個(gè)特征的詞向量由xin表示,如式(4)[10]。

實(shí)驗(yàn)過(guò)程中,對(duì)各個(gè)特征詞無(wú)需通過(guò)迭代方式轉(zhuǎn)換詞向量,一次性完成文本數(shù)據(jù)集中的全部文本特征(通過(guò)神經(jīng)網(wǎng)絡(luò)中的詞嵌入層完成)到Word2vec詞向量(預(yù)訓(xùn)練好)的轉(zhuǎn)化,再將通過(guò)對(duì)其生成的文本特征向量進(jìn)行分類,顯著提高實(shí)驗(yàn)的效率。

(2) 結(jié)果分析

具體的分類結(jié)果,如表4所示。

表4 學(xué)術(shù)論文數(shù)據(jù)分類結(jié)果

相比于TF-IDF和Word2vec方法,在分類器中通過(guò)本文方法提取的文本特征所獲得的分類結(jié)果的質(zhì)量更佳,說(shuō)明文本的語(yǔ)義信息通過(guò)該方法提取的文本特征向量可準(zhǔn)確高效地表示出來(lái),因?yàn)槭褂肨F-IDF(打亂了詞的順序)和Word2vec方法表示文本時(shí)分別存在忽略了詞的上下文關(guān)系及易丟失詞的語(yǔ)義信息(尤其是在文本相對(duì)較長(zhǎng)時(shí))的問(wèn)題和不足。通過(guò)實(shí)驗(yàn)采用論文數(shù)據(jù)集文本驗(yàn)證本文提取方法,相比于CNN ,得到了更好的特征提取分類效果,提取質(zhì)量及效率得到有效提升,證明了該特征提取方法以及提取算法的有效性。

4 總結(jié)

本文針對(duì)自然語(yǔ)言處理過(guò)程,在分析了文本分類及特征提取方面的研究現(xiàn)狀的基礎(chǔ)上,基于深度學(xué)習(xí)設(shè)計(jì)了一種文本特征提取方法,該方法基于卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNN,繼承了卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)),提升了局部特征提取能力,具有循環(huán)神經(jīng)網(wǎng)絡(luò)LSTM的記憶能力 ,在此基礎(chǔ)上通過(guò)前后關(guān)聯(lián)提取的特征實(shí)現(xiàn)對(duì)文本含義更高質(zhì)量地表達(dá)。接下來(lái)將以中文的文本語(yǔ)義理解作為研究重點(diǎn),探索如何實(shí)現(xiàn)大規(guī)模長(zhǎng)文本的分類應(yīng)用。

猜你喜歡
特征提取文檔卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有人一聲不吭向你扔了個(gè)文檔
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
Bagging RCSP腦電特征提取算法
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于MED和循環(huán)域解調(diào)的多故障特征提取
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
紫阳县| 特克斯县| 仙居县| 英德市| 永州市| 东阿县| 石景山区| 澎湖县| 株洲县| 正定县| 德江县| 车险| 额尔古纳市| 延长县| 天台县| 常熟市| 卫辉市| 会同县| 临武县| 西华县| 阳信县| 武平县| 永泰县| 闽清县| 二连浩特市| 定南县| 榆社县| 宜兰市| 化州市| 龙江县| 印江| 安阳县| 玉屏| 绥化市| 潮安县| 南安市| 阳泉市| 济南市| 淮阳县| 思南县| 民乐县|