国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句子聚類的中文文本自動摘要算法的研究

2017-08-30 10:17:23楊毅
微型電腦應(yīng)用 2017年8期
關(guān)鍵詞:分詞語義聚類

楊毅

(西安職業(yè)技術(shù)學(xué)院, 西安 710077)

基于句子聚類的中文文本自動摘要算法的研究

楊毅

(西安職業(yè)技術(shù)學(xué)院, 西安 710077)

文本自動摘要在搜索引擎和新聞內(nèi)容推薦等多個領(lǐng)域都有著非常廣闊的應(yīng)用。經(jīng)典的文本摘要算法是提取文本中關(guān)鍵詞進(jìn)行重組,這種方式忽略了文本中句子之間的關(guān)聯(lián)性,而且提取出的關(guān)鍵詞通常缺乏語義和語法上關(guān)聯(lián)性。提出了將文本以句子進(jìn)行劃分,針對句子進(jìn)行聚類,將文本劃分為一定數(shù)量語義相對固定的單元,對每個語義單元進(jìn)行核心詞發(fā)現(xiàn),最后組合各個語義句子的核心詞構(gòu)建文本摘要,試驗結(jié)果表明,改進(jìn)的文本自動摘要算法能夠更有效地召回文本主題。

句子聚類; 主題詞提??; 詞向量; 文本自動摘要

0 引言

搜索引擎中需要將網(wǎng)頁的內(nèi)容以摘要的形式展示給搜索用戶,新聞內(nèi)容推薦中也需要將推薦的內(nèi)容以簡短摘要的形式展示給用戶[1-2],用戶在使用搜索引擎和推薦系統(tǒng)時通常只會注重提供的文本摘要是否符合要求,因此文本摘要的質(zhì)量直接關(guān)系搜索或者推薦的準(zhǔn)確率和用戶召回率。

目前文本摘要大多采用文本向量空間模型[3],即對文本進(jìn)行分詞處理然后提取分詞后的關(guān)鍵詞進(jìn)行重新組合,這種方式通常難以把握文章的主題思想大多是關(guān)鍵詞的簡單堆砌,在語法和語義上存在較大缺陷。另外關(guān)鍵詞的堆砌也容易造成文本主題的缺失,在文章的主題上較難以控制,易造成文章主題偏移[4]。

本文提出首先對文章進(jìn)行句子劃分,對劃分之后的句子進(jìn)行聚類,將文章聚合為有相對固定的語義單元,然后對各個語義單元進(jìn)行關(guān)鍵詞提取,提取的規(guī)則按照TextRank算法進(jìn)行,同時關(guān)鍵詞提取時保留其臨近N個關(guān)鍵詞構(gòu)成一個完整的句子單元,拼接各個句子單元則聚合最終的文本摘要。

1 句子聚類

對于中文文本而言,詞與詞之間沒有明顯的分割符號,語義的表達(dá)也較為抽象[5-6],一般而言,中文以句子為單位構(gòu)成一個相對完整的語義單元,中文對于一個完整的語義表達(dá)通常以句號為結(jié)束。對中文文本,以句號為單位進(jìn)行語義劃分,對文本T,假設(shè)以句號進(jìn)行切分可劃分為T=(S1,S2,…,Sn),切分時不考慮文本的段落關(guān)系,假設(shè)完整的句子已經(jīng)能夠代表語義[7],并且比采用段落劃分時更有緊湊性。

句子聚類首先需要定義句子相似度,句子相似度采用經(jīng)典的余弦相似度[8],如式(1)。

(1)

句子的組成單位是單詞,因此需要對句子進(jìn)行分詞處理,分詞的原則是保證語義的合理性,經(jīng)過分詞之后,句子Si可表示為Si=(wi1,wi2,…,win),wit(1≤t≤n)表示經(jīng)過分詞之后的第t個關(guān)鍵詞,計算句子之間相似度需要依賴分詞后的關(guān)鍵詞,相似度計算的依據(jù)是關(guān)鍵詞的權(quán)重,本文采用經(jīng)典的tf-idf算法計算關(guān)鍵詞權(quán)重,即關(guān)鍵詞的詞頻與句子頻率的比值,如式(2)。

(2)

詞頻(term frequency,TF)表示關(guān)鍵詞在該句子中出現(xiàn)的頻率[9]。這個數(shù)字是對詞數(shù)(term count)的歸一化,以防止它偏向長的句子。(同一個關(guān)鍵詞在長句子里可能會比短句子有更高的詞數(shù),而不管該詞語重要與否。)對于在某一特定句子里的詞語來說,它的重要性則表示為tf。

公示2中ni,j是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。逆向文件頻率(inverse document frequency,IDF)是一個詞語普遍重要性的度量。某一關(guān)鍵詞的IDF,可以由總句子數(shù)目除以包含該關(guān)鍵詞之句子的數(shù)目,再將得到的商取對數(shù)得到[10]。則最終關(guān)鍵詞的權(quán)重由公示2的兩部分組成,即式(3)。

(3)

表1 句子聚類算法

2 文本主題提取

句子經(jīng)過聚類后,每個聚類簇都有相對固定的含義,文本主題提取的原則是從聚類簇中提取具有表征意義的關(guān)鍵詞進(jìn)行文本重組[11]。

句子經(jīng)過聚類后,每個聚類簇中句子的數(shù)量并沒有減少,因此需要提取關(guān)鍵詞進(jìn)行文本表征。提取的原則為關(guān)鍵詞間投票。在中文中一般語義相近的關(guān)鍵詞會放在一塊使用,比如“青春年少”,“青春”和“年少”兩個詞同時出現(xiàn)說明這兩個的相關(guān)性很高,同里,可利用關(guān)鍵詞之間的共現(xiàn)關(guān)系構(gòu)建投票矩陣,投票矩陣反映了關(guān)鍵詞的重要性。

互聯(lián)網(wǎng)的經(jīng)典鏈接分析中,采用網(wǎng)頁之間的相互投票關(guān)系構(gòu)建投票矩陣,網(wǎng)頁獲得鏈接網(wǎng)頁越多,鏈接網(wǎng)頁的質(zhì)量越高,則該網(wǎng)頁最終的重要性也會越高。在文本分析中同樣可以使用這一原則。對于聚類后某個句子簇St(1≤t≤m),重新定義句子簇內(nèi)部的結(jié)構(gòu),對于關(guān)鍵詞片段“K1_K2_K3”,定義關(guān)鍵詞K1會對關(guān)鍵詞K2產(chǎn)生投票,K2會對關(guān)鍵詞K3產(chǎn)生投票,定義關(guān)鍵詞的前后位置關(guān)系為投票關(guān)系,假設(shè)“K1_K2”結(jié)構(gòu)的出現(xiàn)次數(shù)為N,則在句子簇St(1≤t≤m)中,K1對K2的投票值為N,將基于句子簇的關(guān)鍵詞投票關(guān)系表示,如圖1所示。

圖1 基于句子簇的關(guān)鍵詞投票圖

在圖1中,關(guān)鍵詞K1對K2的投票值為N,表示構(gòu)成“K1_K2”結(jié)構(gòu)的數(shù)目。同理,需要統(tǒng)計聚類后所有句子簇中出現(xiàn)“K1_K2”結(jié)構(gòu)的數(shù)量,將加和之后的數(shù)目賦值給邊權(quán)值。如式(4)。

(4)

在公示4中,wij表示關(guān)鍵詞Ki對關(guān)鍵詞Kj的投票,N表示關(guān)鍵詞總數(shù),假設(shè)關(guān)鍵詞Kj有s個關(guān)鍵詞會對該關(guān)鍵詞進(jìn)行投票,則需要對每條鏈向該關(guān)鍵詞的邊權(quán)值進(jìn)行歸一化,如式(5)。

(5)

對于關(guān)鍵詞片段“K1_K2_K3”,定義K1對K2的鏈向關(guān)系構(gòu)成關(guān)鍵詞K2的入度,K2對K3的鏈向關(guān)系構(gòu)成K3的入度,同時也是K2的出度。根據(jù)關(guān)鍵詞間的投票關(guān)系可構(gòu)成關(guān)鍵詞的重要性表征,如式(6)。

(6)

在公示6中,ρ表示概率,v0表示賦予的初始值,|vk|表示關(guān)鍵詞節(jié)點vk的出度。依據(jù)此公示可以得到句子簇中重要關(guān)鍵詞,根據(jù)關(guān)鍵詞的權(quán)重取Top-K個關(guān)鍵詞,然后擴(kuò)展該Top-K個關(guān)鍵詞的前后N個關(guān)鍵詞構(gòu)成文本摘要。文本摘要算法,如表2所示。

表2 文本摘要算法

3 試驗與分析

由于目前沒有統(tǒng)一的中文文本摘要語料,國內(nèi)也沒有專門的評價指標(biāo)來衡量文本摘要的優(yōu)劣,因此本文的驗證采用人工驗證的方式進(jìn)行。

人工從今日頭條社會、科技、國際、健康、教育、旅游、歷史、美文、數(shù)碼和美食共10個領(lǐng)域中篩選100篇文章,篩選時盡量選取主題鮮明的文章,對選取的1 000篇文章進(jìn)行數(shù)據(jù)預(yù)處理,包括句子切分,句子簇聚類和關(guān)鍵詞提取等,選取Top-K個關(guān)鍵詞的K值為15,前后擴(kuò)展關(guān)鍵詞N設(shè)置為5,如表3所示。

表3 今日頭條分領(lǐng)域文章分析表

分別采用本文算法,基于關(guān)鍵詞提取算法和文獻(xiàn)1算法分別進(jìn)行文本摘要提取,并從本校選取10名學(xué)生對3種提取的文本摘要進(jìn)行人工判定,判定的依據(jù)設(shè)定為主題的提取完整性和文本摘要的語義連貫性兩個方面進(jìn)行對比,如圖2所示。

圖2 本文算法、關(guān)鍵詞提取算法和文獻(xiàn)1算法文本摘要 主題完整性對比圖

從圖2中可以看出,社會、科技、國際和健康4個領(lǐng)域的主題完整性都較高,3種算法都呈現(xiàn)較好的表現(xiàn),說明3種算法都對文本描述較為豐富的內(nèi)容提取能力較強,社會、科技、國際和健康4個領(lǐng)域的句子簇和句子關(guān)鍵詞數(shù)都較多,因此在文本的主題表現(xiàn)上更為明顯,這對于提取文本的主題是比較有幫助的,如圖3所示。

圖3 本文算法、關(guān)鍵詞提取算法和文獻(xiàn)1算法文本摘要 語義連貫性對比圖

在圖3中可以看出,3種算法在文本摘要語義表達(dá)上存在一樣的表現(xiàn),即對于長文本的語義表征能力較強,一般而言,關(guān)鍵詞越豐富越能夠提取符合語義要求的摘要,并且關(guān)鍵詞的前后擴(kuò)展時也較為容易。不過整體而言,3種算法的語義表征能力都較為薄弱,這其實與中文的復(fù)雜性有一定的關(guān)系,并沒有融入復(fù)雜的自然語言處理技術(shù)。

4 總結(jié)

本文針對當(dāng)前文本摘要主要采用關(guān)鍵詞聚合的方式進(jìn)行研究,提出以句號作為分割單位首先對文本進(jìn)行句子劃分,并針對劃分的句子單元進(jìn)行句子聚類。句子簇可認(rèn)為是具有相對固定語義的句子簇,提取句子簇中關(guān)鍵詞以關(guān)鍵詞投票模型進(jìn)行關(guān)鍵詞重要性判斷,提取Top的關(guān)鍵詞并進(jìn)行前后關(guān)鍵詞擴(kuò)展,人工試驗評判的結(jié)果也表明本文的文本摘要算法在語義抽取連貫性和主題完整性上表現(xiàn)較好。

[1] 余珊珊,蘇錦鈿,李鵬飛. 基于改進(jìn)的TextRank的自動摘要提取方法[J]. 計算機科學(xué),2016,(06):240-247.

[2] 王瑋,歐陽純萍,陽小華,羅凌云,劉志明. 融合句子情感和主題相似性的中文新聞文本情感摘要[J]. 計算機應(yīng)用研究,2017,(12):1-6.

[3] Inouye D, Kalita J K. Comparing twitter summarization algorithms for multiple post summaries[C]//Privacy, Security, Risk and Trust (PASSAT) and 2011 IEEE Third Inernational Conference on Social Computing (SocialCom), 2011 IEEE Third International Conference on. IEEE, 2011: 298-306.

[4] 劉星含,霍華. 基于互信息的文本自動摘要[J]. 合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2014,(10):1198-1203.

[5] Yousefi-Azar M, Hamey L. Text summarization using unsupervised deep learning[J]. Expert Systems with Applications, 2017, 68: 93-105.

[6] 劉靜,肖璐. 基于依存句法分析的多主題文本摘要研究[J]. 情報雜志,2014,(06):167-171.

[7] 林莉媛,王中卿,李壽山,周國棟. 基于PageRank的中文多文檔文本情感摘要[J]. 中文信息學(xué)報,2014,(02):85-90.

[8] Tayal M A, Raghuwanshi M M, Malik L G. ATSSC: Development of an approach based on soft computing for text summarization[J]. Computer Speech & Language, 2017, 41: 214-235.

[9] 劉德喜,萬常選. 社會化短文本自動摘要研究綜述[J]. 小型微型計算機系統(tǒng),2013,(12):2764-2771.

[10] Yang S, Lu W, Yang D, et al. KeyphraseDS: Automatic generation of survey by exploiting keyphrase information[J]. Neurocomputing, 2017, 224: 58-70.

[11] 張龍凱,王厚峰. 文本摘要問題中的句子抽取方法研究[J]. 中文信息學(xué)報,2012,(02):97-101.

Research on automatic Chinese text summarization based on sentence clustering

Yang Yi

(Xi’an Vocational and Technical College, Xi’an 710077, China)

Automatic text summarization has a wide application in many fields, such as search engine and news content recommendation. The classic text summarization algorithm is to extract the keywords in the text, which ignores the relevance between the sentences in the text, and the extracted keywords are usually lack of semantic and grammatical relevance. The text is divided by sentences, sentences for clustering, divides the text into a number of relatively fixed semantic units, each unit of semantic core words, finally the core word combination of each sentence semantic construction of text summarization, test results show that the improved automatic text summarization algorithm can more effectively recall the theme of the text.

sentenceclustering; topic wordextraction; word vector; text auto summarization

楊毅(1981-),男,陜西西安人,碩士,講師,研究方向:計算機軟件開發(fā)。

1007-757X(2017)08-0054-03

TP393

A

2017.03.28)

猜你喜歡
分詞語義聚類
語言與語義
結(jié)巴分詞在詞云中的應(yīng)用
智富時代(2019年6期)2019-07-24 10:33:16
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
值得重視的分詞的特殊用法
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
認(rèn)知范疇模糊與語義模糊
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
高考分詞作狀語考點歸納與疑難解析
璧山县| 德昌县| 靖宇县| 稷山县| 油尖旺区| 平定县| 剑河县| 微山县| 广西| 成武县| 巴彦县| 抚顺市| 新野县| 灵武市| 徐汇区| 浦县| 鄯善县| 乐清市| 汝阳县| 平舆县| 渝北区| 神木县| 张掖市| 山东| 西和县| 望都县| 泾源县| 武胜县| 平顶山市| 集安市| 曲阳县| 青川县| 武隆县| 台州市| 祁东县| 竹北市| 泸水县| 塔河县| 彭州市| 晋城| 光泽县|