国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自編碼器的文章側(cè)面信息提取技術(shù)研究

2019-12-26 01:51楊澤華毛月月
中文信息 2019年12期

楊澤華 毛月月

摘 要:通過結(jié)合Word2Vec模型、TF-IDF算法和自編碼器模型,提出了一種從純文本文章中提取側(cè)面信息算法(WT-AutoEncoder)。首先,爬取相關(guān)語料,對文章進(jìn)行分詞、去停用詞等數(shù)據(jù)預(yù)處理,對詞進(jìn)行向量化表示;然后,利用TF-IDF算法對得到的詞向量做關(guān)鍵詞提取;最后,將得到的關(guān)鍵詞應(yīng)用到自編碼器模型中,通過權(quán)重排序后,獲取最終的關(guān)鍵詞,即代表文章側(cè)面信息。結(jié)果表明,應(yīng)用TF-IDF算法和自編碼器模型后,可以獲得到較為準(zhǔn)確的信息提取結(jié)果。

關(guān)鍵詞:Word2Vec模型 TF-IDF算法 自編碼器模型 文本信息提取

Abstract:By combining TF-IDF algorithm and AutoEncoder model, a method of extracting side information from plain text articles is proposed. Firstly, the relevant corpus is crawled, and the data such as word segmentation and word deactivation are preprocessed, and the words are vectorized; secondly, the keywords are extracted by TF-IDF algorithm; finally, the keywords are applied to the AutoEncoder model, and the final keywords are obtained by weight ranking. That is to say, it represents the side information of the article. The results show that more accurate information extraction results can be obtained by using TF-IDF algorithm and AutoEncoder model.

Keywords:Word2Vec model TF-IDF algorithm AutoEncoder model Text Information Extraction

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-9082 (2019)12-000-02

一、引言

隨著互聯(lián)網(wǎng)的出現(xiàn)和大量可用的文本數(shù)據(jù),當(dāng)前的挑戰(zhàn)是開發(fā)新的工具,以簡潔的形式表示內(nèi)容。自動文本摘要是自然語言處理的一個重要研究方向,它主要是以壓縮的方式表達(dá)長文檔,以方便能夠快速地理解和讀取信息。近幾年,基于深度學(xué)習(xí)的方法在許多自然語言處理任務(wù)中都具有令人印象深刻的準(zhǔn)確性,例如在問答、情感分析、文本分類、機(jī)器翻譯等領(lǐng)域。為了輸入數(shù)據(jù)的效果良好以及語義上更有意義的表示,深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù)。大多數(shù)基于深度學(xué)習(xí)的方法,例如卷積神經(jīng)網(wǎng)絡(luò)(RNN),循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的等都是需要標(biāo)記數(shù)據(jù)來訓(xùn)練參數(shù)的深度網(wǎng)絡(luò)構(gòu)架。

目前將有監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)方法應(yīng)用于提取文本摘要的最大挑戰(zhàn)是需要人工創(chuàng)建大規(guī)模的標(biāo)簽。本文通過利用不需要標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練的技術(shù)來解決這個缺點,尤其是基于詞嵌入(Word2Vec)和自編碼器(AutoEncoder)的深度學(xué)習(xí)方法。

本文其余部分安排如下:第二節(jié)介紹相關(guān)理論研究。第三節(jié)詳細(xì)介紹模型的流程。第四節(jié)是對實驗的數(shù)據(jù)及結(jié)果展示分析。最后,第五節(jié)總結(jié)全文所做的工作和主要貢獻(xiàn),并提出一些在未來擴(kuò)展的想法。

二、相關(guān)研究

目前,國內(nèi)外研究者在文本信息抽取方面有多種研究方法。文獻(xiàn)[1] 通過結(jié)合Doc2Vec模型、K-means算法和TextRank算法,提出一種文本摘要提取算法(DK-TextRank)。文獻(xiàn)[2]利用文本主題上下圍概念的提取和不同權(quán)值的度量方式相結(jié)合的方式,提出了主體局的提取方法。文獻(xiàn)[3] 根據(jù)句子時間信息得到的時序權(quán)重,使得時間較近的新聞內(nèi)容具有更高的權(quán)重,提出一種基于查詢的文本摘要技術(shù)。文獻(xiàn)[4] 提出一種用于單個文檔的通用抽取文本摘要的新方法SummCoder,該方法根據(jù)句子內(nèi)容相關(guān)性、句子新穎性和句子位置相關(guān)性這三個學(xué)習(xí)指標(biāo)生成摘要。文獻(xiàn)[5] 提出了一種自動、通用、抽取的阿拉伯文單文檔匯總方法,該方法旨在生成信息豐富的摘要。

在自編碼器方面,文獻(xiàn)[6] 提出了一種門控聯(lián)合池化的自編碼器模型,用于學(xué)習(xí)中英文的文本語義特征。在編碼階段,提出了均值-最大化聯(lián)合表征策略來捕捉輸入文本中多樣性的語義信息。文獻(xiàn)[7] 首先經(jīng)稀疏自編碼器降維,然后通過LDA主題聚類算法進(jìn)行文本聚類,提高聚類準(zhǔn)確性來提取文本特征。

三、模型介紹

對于一篇純文本文章,在進(jìn)行文章分詞、去停用詞等一系列數(shù)據(jù)預(yù)處理過程之后,首先對文本進(jìn)行基于Word2Vec模型的詞向量表示;然后利用TF-IDF算法,做關(guān)鍵詞提取工作;最后將提取到的關(guān)鍵詞通過自編碼器模型訓(xùn)練得到權(quán)重值較大的詞語作為最終的側(cè)面信息詞。如果對結(jié)果不滿意,可以調(diào)整自編碼器模型參數(shù)來調(diào)試結(jié)果,知道效果較優(yōu)為止。

具體流程如圖3-1所示:

1.基于Word2Vec模型的詞向量化

為了提高信息提取的準(zhǔn)確性,本文采用能更好表達(dá)詞語間關(guān)系的Word2vec模型來對文本中的詞語進(jìn)行向量化表示。Word2Vec模型可以將文本表征為數(shù)字化向量。 該模型參考了神經(jīng)網(wǎng)絡(luò)語言模型,構(gòu)建多層神經(jīng)網(wǎng)絡(luò),以極大似然作為目標(biāo)函數(shù)簡歷模型,將每個詞語映射成數(shù)字化向量。經(jīng)過大量訓(xùn)練,可以獲得高精度的詞向量表示,成為NLP在語義相似度計算中的重大突破。

Word2Vec模型主要包括兩種算法,CBOW和Skip-gram。其中,CBOW是指用上下文預(yù)測當(dāng)前詞,而Skip-gram使用當(dāng)前詞來預(yù)測上下文詞的思路。結(jié)合本文的問題,這里采用CBOW。

2.基于TF-IDF算法的文章關(guān)鍵詞提取

TF-IDF(Term Frequency-Inverse DocumentFrequency, 詞頻-逆文件頻率)是一種評估一個詞語對一篇文檔的重要程度。詞語的重要程度與她在文檔中出現(xiàn)的次數(shù)成正比,但與他在所有文檔中出現(xiàn)的頻率成反比。所以,TF-IDF常被應(yīng)用于搜索引擎中,作為評價用戶查詢的相關(guān)程度的度量。

詞頻(TF)是指某個詞在文檔中的出現(xiàn)次數(shù)。逆文檔頻率(IDF)則是指一個詞語普遍重要性的度量。TF-IDf則是詞頻與逆文檔頻率的乘積。

其中,分母加1是為了避免所有文檔都不存在該詞時,分母為零的情況

3.基于自編碼器的文章側(cè)面信息提取

自編碼器(AutoEncoder)是一種采用無監(jiān)督學(xué)習(xí)方式的神經(jīng)網(wǎng)絡(luò)模型。它可以有效地對高維數(shù)據(jù)進(jìn)行特征提取和表示。

AutoEncoder的目的是嘗試將輸入向量壓縮再還原,使得輸出向量盡量還原成為輸入向量,訓(xùn)練過后,得到的中間層向量可以作為輸入的向量表示。因此,它可以看作兩部分組成,一個編碼器函數(shù)和一個生成重構(gòu)的解碼器函數(shù)。編碼器部分的功能是將輸入壓縮成為潛在空間表征,而解碼器部分則用來重構(gòu)來自潛在空間表征的輸入。整個自編碼器可以用來描述,其中輸入r與原始輸入x接近

如上圖2-1所示,這是AutoEncoder的一個基本結(jié)構(gòu)。如果AutoEncoder的唯一目的是讓輸入值等于輸出值,那么將沒有任何作用。我們希望通過訓(xùn)練輸入值等于輸出值的自編碼器,讓潛在表征h更具代表性。

一般地,我們并不關(guān)心自編碼器的輸出,而是關(guān)注通過自編碼器后可以得到隱藏層的潛在表征h。AutoEncoder模型的輸入層和輸出層的維度必須相等,才可以進(jìn)行無監(jiān)督訓(xùn)練。并且,隱藏層的維度一般要小于輸入層,這樣才能實現(xiàn)數(shù)據(jù)的壓縮,從而提取出主要特征。

一個神經(jīng)網(wǎng)絡(luò)模型,一定要有一個輸入、輸出和損失函數(shù)。AutoEncoder的輸入值與輸出值相同。換個角度理解,自編碼器就是一個標(biāo)簽就是輸入本身的有監(jiān)督學(xué)習(xí)。而損失函數(shù)L可以是交叉熵、均方差等,表示輸入值與輸出值之間的誤差。

自編碼器的主要用途在數(shù)據(jù)降噪和降維兩個方面。數(shù)據(jù)降噪是通過輸入得到更加準(zhǔn)確的輸出,從而達(dá)到去噪的效果;降維是通過訓(xùn)練,得到中間的低維度的隱藏層,達(dá)到降維的效果。而本文對于自編碼器的用途不同于以上兩點,主要是通過訓(xùn)練得到輸入層與隱藏層之間的權(quán)值,然后對權(quán)值排序,獲得權(quán)值較大的詞語作為最終需要提取的文章側(cè)面信息詞。

四、實驗結(jié)果與分析

實驗環(huán)境:處理器:Intel(R)Core(TM)i5-6500 CPU @ 3.20GHz(4處理器),內(nèi)存(RAM):8.00GB,系統(tǒng):64位Windows操作系統(tǒng),編程環(huán)境:Python/Pycharm。

1.實驗過程

實驗過程具體如下:

1)數(shù)據(jù)采集。本文爬取新華網(wǎng)、鳳凰新聞網(wǎng)、網(wǎng)易新聞網(wǎng)等新聞文章,涉及文化、教育、體育、經(jīng)濟(jì)、社會等多個方面,共5000篇。

2)數(shù)據(jù)預(yù)處理。通過正則表達(dá)式去除一些特殊字符,然后使用jieba分詞工具進(jìn)行分詞,最后再去掉停用詞。

3)詞向量化。輸入4000篇文章,用于訓(xùn)練Word2Vec模型。向量維度設(shè)定為200維,得到可以表征語義的詞向量集合T,文章可以表示為向量化后的詞語所組成的矩陣。

4)關(guān)鍵詞提取。使用TF-IDF算法對得到的詞向量計算每個詞語的重要程度。

5)自編碼器權(quán)值計算。訓(xùn)練模型后,保存編碼器的權(quán)值作為排序的依據(jù)。

6)文章側(cè)面信息輸出。

2.結(jié)果分析

通常采用內(nèi)部評價方法評價自動摘要的提取效果,即與人工撰寫的摘要進(jìn)行比較評價文摘質(zhì)量。本文實驗采用F值衡量自編碼器訓(xùn)練效果,F(xiàn)值越高,說明模型效果越好。

五、結(jié)論與展望

本文通過對文章的預(yù)處理得到有效數(shù)據(jù),在使用Word2Vec模型生成詞向量的基礎(chǔ)上,應(yīng)用自編碼器模型進(jìn)行訓(xùn)練,并通過訓(xùn)練后的模型得出輸入層的權(quán)值,通過排序提取最終的關(guān)鍵詞。利用新聞報道文章進(jìn)行文章側(cè)面信息提取實驗,結(jié)果表明相對于傳統(tǒng)TF-IDF算法本文提出的WT-Autoencoder算法能有效的提高提取信息的質(zhì)量。下一步將對WT-Autoencoder模型進(jìn)一步訓(xùn)練,從而提升算法效率。

參考文獻(xiàn)

[1]徐馨韜,柴小麗,謝彬,等.基于改進(jìn)TextRank算法的中文文本摘要提取[J].計算機(jī)工程,2019,45(3):273-277.

[2]張云濤,龔玲,王永成.基于綜合方法的文本主題句的自動抽取[J].上海交通大學(xué)學(xué)報,2006(5):771-774,782.

[3]王凱祥,任明.基于查詢的新聞多文檔自動摘要技術(shù)研究[J].中文信息學(xué)報,2019,33(4):93-100.

[4]Akanksha Joshi,E.Fidalgo,E.Alegre,Laura Fernández-Robles.SummCoder: An unsupervised framework for extractive text summarization based on deep auto-encoders[J].Expert Systems With Applications,2019,129.

[5]Aziz Qaroush,Ibrahim Abu Farha,Wasel Ghanem,Mahdi Washaha,Eman Maali.An efficient single document Arabic text summarization using a combination of statistical and semantic features[J].Journal of King Saud University - Computer and Information Sciences,2019.

[6]張明華,吳云芳,李偉康,等.基于門控聯(lián)合池化自編碼器的通用性文本表征[J].中文信息學(xué)報,2019,33(3):25-32.

[7]黃煒,黃建橋,李岳峰.一種基于稀疏自編碼器的涉恐短文本特征提取方法[J].情報雜志,2019,38(3):203-207,186.

普陀区| 阿坝县| 波密县| 榆林市| 当阳市| 巴青县| 宁海县| 博爱县| 兴义市| 宜阳县| 马关县| 桑日县| 科尔| 玉龙| 读书| 白银市| 莱芜市| 林州市| 马鞍山市| 诸城市| 罗田县| 辽阳市| 芦山县| 勃利县| 达尔| 枣阳市| 如东县| 普定县| 沈阳市| 清新县| 呼图壁县| 夏津县| 河西区| 永城市| 中西区| 靖江市| 江安县| 隆昌县| 得荣县| 安溪县| 左权县|