国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)的Web文本自動(dòng)摘要技術(shù)

2019-06-12 00:32:27王健
科教導(dǎo)刊·電子版 2019年12期
關(guān)鍵詞:主題詞

王健

摘 要 自動(dòng)文本摘技術(shù)的出現(xiàn)為人們快速閱讀的帶來(lái)了極大的方便,本文針對(duì)于Web文本的特征設(shè)計(jì)出了計(jì)算詞權(quán)重系數(shù)公式及句子得分公式,改進(jìn)并實(shí)現(xiàn)了兩種重要的摘要算法

關(guān)鍵詞 Web文本 自動(dòng)摘要 摘要算法 主題詞

中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A

0引言

基于統(tǒng)計(jì)的文本自動(dòng)摘要方法主要根據(jù)線索詞典、詞頻、詞或句子的啟發(fā)性函數(shù)進(jìn)行模式匹配,摘取文本中重要句子形成摘要。它不依賴于具體領(lǐng)域,適應(yīng)面廣,響應(yīng)速度快,因而受到越來(lái)越多的研究者的重視?;诮y(tǒng)計(jì)的文本自動(dòng)摘要將文本視為句子的線性序列,將句子視為詞的線性序列。它通常分4步進(jìn)行:(1)計(jì)算詞的權(quán)值;(2)計(jì)算句子的權(quán)值;(3)對(duì)原文中的所有句子按權(quán)值高低降序排列,權(quán)值最高的若干句子被確定為文摘句;(4)將所有文摘句按照它們?cè)谠闹械某霈F(xiàn)順序輸出。在自動(dòng)摘錄中,計(jì)算詞權(quán)、句權(quán)、選擇文摘句的依據(jù)是文本的六種形式特征。

1文本的四種形式特征

(1)詞的頻度:能夠指示文章主題的所謂有效詞(Significant Words),往往是中頻詞。根據(jù)句子中有效詞的個(gè)數(shù)可以計(jì)算句子的權(quán)值,這是Luhn首先提出的自動(dòng)摘錄方法的基本依據(jù)。V.A.Oswald主張句子的權(quán)值應(yīng)按其所含代表性“詞串”的數(shù)量來(lái)計(jì)算,而Doyle則重視共現(xiàn)頻度最高的“詞對(duì)”。美國(guó)IBM公司在1960年前后研制了一套文摘自動(dòng)生產(chǎn)程序ACSI2Matic,該程序在句權(quán)的計(jì)算方面對(duì)Luhn的方法進(jìn)行了改進(jìn)。

(2)標(biāo)題信息:標(biāo)題是作者給出的提示文章內(nèi)容的短語(yǔ),借助停用詞詞表(Stoplist),在標(biāo)題或小標(biāo)題中剔除功能詞或只具有一般意義的名詞,剩下的詞和原文內(nèi)容往往有緊密的聯(lián)系,可以作為有效詞。

(3)位置:美國(guó)的P.E.Baxendale的調(diào)查結(jié)果顯示:段落的論題是段落首句的概率為85%,是段落末句的概率為7%。因此,有必要提高處于特殊位置的句子的權(quán)值。

(4)句法結(jié)構(gòu):句式與句子的重要性之間存在著某種聯(lián)系,比如文摘中的句子大多是陳述句,而疑問(wèn)句、感嘆句等則不宜進(jìn)入文摘。

2主題詞評(píng)價(jià)

本文針對(duì)WEB文檔的結(jié)構(gòu)化特征,在進(jìn)行主題詞選取時(shí)根據(jù)文檔中詞頻的出現(xiàn)位置出現(xiàn)的頻繁程度來(lái)評(píng)價(jià)詞的重要性,并以此給出詞的權(quán)重,賦予重要詞匯權(quán)重,并設(shè)計(jì)出計(jì)算權(quán)重系數(shù)公式。下面是具體的主題詞選取和評(píng)價(jià)過(guò)程:

3段落中句子權(quán)重評(píng)價(jià)

美國(guó)的P.E.Baxendale的研究結(jié)果顯示:人工摘要中的句子為段首句的比例為85%,段尾句的比例為7%。美國(guó)康奈爾大學(xué)G.Salton提出了尋找文章的中心段落為文摘核心的思想。我們觀察表明:除了論題句、段首、段尾等句子之外,段落的第二句常常表示段落的主題。而Mead數(shù)據(jù)中心的自動(dòng)摘要系統(tǒng)Searchable Lead,只是簡(jiǎn)單的摘錄文件中的前60、150或250個(gè)英文詞匯,便達(dá)到了90%以上的可接受度(Brandow, et al.,1995)。

4摘要算法分析及改進(jìn)

4.1 Luhn算法

Luhn在1965年提出了一種基于文章表面級(jí)特征的經(jīng)典的摘要算法,這種算法的核心思想是為文章中的每一個(gè)句子賦予一個(gè)意義值,那些具有最大意義值的句子將會(huì)被抽取出來(lái)作為摘要,其中句子的意義值是通過(guò)句中意義詞的個(gè)數(shù)計(jì)算得到的。Luhn 認(rèn)為意義詞應(yīng)該是文章中的“中”頻詞集。高頻詞區(qū)域中的詞多是一些過(guò)于普通的詞,沒(méi)有什么區(qū)分能力,這些無(wú)用詞可以通過(guò)停用詞表的構(gòu)造得以消除。

4.2 LSA算法

LSA是建立在奇異值分解(Singlue value decomposition,SVD)之上。SVD是一個(gè)矩陣分解技術(shù),已經(jīng)被人們大量應(yīng)用到文本集上。給定一個(gè)m*n 的矩陣,A = [A1,A2,…An],每一列Ai 表示目標(biāo)文檔中一個(gè)句子的詞頻向量,SVD可以表示為:

A = V U A (T)

其中U = [uij] 是一個(gè)m?的列標(biāo)準(zhǔn)化正交矩陣,它的每一列被稱為左奇異向量;∑=diag( 1,2,…,n)是一個(gè)n?對(duì)角矩陣,其對(duì)角線上的元素是按降序排列的非負(fù)奇異值;

LSA算法描述:

(1)輸入WEB文檔,并對(duì)其進(jìn)行解析,解析出文本字段;

(2)進(jìn)行分詞處理,并消除停用詞;

(3)主題詞選擇;

(4)根據(jù)主題詞建立句子詞項(xiàng)矩陣,進(jìn)行奇異值分解;

(5)建立索引矩陣,根據(jù)索引矩陣建立句子摘要;

(6)輸出摘要。

LSA能夠通過(guò)從語(yǔ)義上對(duì)詞和句子進(jìn)行聚類來(lái)捕捉并建模詞語(yǔ)之間的關(guān)系,另外,LSA能夠捕獲文章用來(lái)表示特定概念和主題的那些顯著的、不斷重現(xiàn)的詞的組合模式。

參考文獻(xiàn)

[1] 劉挺,吳巖,王開(kāi)鑄.基于信息抽取和文本生成的自動(dòng)文摘系統(tǒng)設(shè)計(jì)[J].情報(bào)學(xué)報(bào),1997,16(增刊):24-29.

[2] 陳燕敏,王曉龍等.一種基于文章主題和內(nèi)容的摘要方法[J].計(jì)算機(jī)工程與應(yīng)用,2004,40(33):11-15.

猜你喜歡
主題詞
《中國(guó)生物制品學(xué)雜志》2021 年第34 卷主題詞索引
《中國(guó)醫(yī)學(xué)計(jì)算機(jī)成像雜志》2020 年第26 卷主題詞索引
《老年醫(yī)學(xué)與保健》2017年第23卷主題詞索引
《中國(guó)骨與關(guān)節(jié)雜志》2016 年第五卷英文主題詞索引
《結(jié)核病與肺部健康雜志》2005年(第4卷)主題詞索引
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
《機(jī)械科學(xué)與技術(shù)》2015年第3期英文摘要關(guān)鍵詞平均使用2001年以后出現(xiàn)的Ei主題詞1.697個(gè)
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
锡林浩特市| 濮阳市| 北票市| 逊克县| 马公市| 海宁市| 醴陵市| 江阴市| 佛山市| 杨浦区| 博湖县| 平舆县| 安西县| 云霄县| 宁武县| 高邮市| 贵港市| 博客| 和顺县| 永吉县| 天津市| 无极县| 朝阳区| 太保市| 石阡县| 庆云县| 新乡市| 阜新市| 乾安县| 永登县| 寿光市| 鱼台县| 邢台市| 九龙坡区| 新昌县| 涪陵区| 页游| 满洲里市| 万载县| 墨竹工卡县| 于都县|