国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合句義結(jié)構(gòu)模型的微博話題摘要算法

2015-07-11 10:10羅森林賈叢飛原玉嬌潘麗敏
關(guān)鍵詞:壓縮比權(quán)值語(yǔ)義

林 萌,羅森林,賈叢飛,韓 磊,原玉嬌,潘麗敏

(北京理工大學(xué) 信息與電子學(xué)院,北京100081)

微博的出現(xiàn)深刻改變了人們的信息交流方式.以新浪微博為例,截至2014年6月,微博月均活躍用戶數(shù)為1.565 億人,微博平均日活躍用戶數(shù)為6970萬(wàn)人[1].熱門話題是微博中正在熱議的新鮮話題,用戶查詢一個(gè)熱門話題,得到的是按照熱門程度或發(fā)表時(shí)間排序的所有相關(guān)微博.然而,由于微博數(shù)量龐大,用戶得到的信息經(jīng)常是不完整的,甚至是不相關(guān)的或者是重復(fù)的,信息獲取的效率很低,對(duì)微博進(jìn)行摘要能大大提高信息獲取的效率.

多文檔自動(dòng)摘要技術(shù)其處理對(duì)象為結(jié)構(gòu)完整、書(shū)寫規(guī)范、條理清楚的長(zhǎng)文本.微博篇幅短?。?40字以內(nèi)),用詞不規(guī)范,缺失長(zhǎng)文檔的結(jié)構(gòu)信息,并包含大量垃圾內(nèi)容和垃圾用戶.直接利用已有的多文檔摘要技術(shù)對(duì)其摘要存在嚴(yán)重的特征稀疏和結(jié)構(gòu)缺失問(wèn)題.這些問(wèn)題導(dǎo)致抽取特征不足以準(zhǔn)確描述文本內(nèi)容,抽取的句子與話題的中心發(fā)生漂移,生成的摘要與主題相關(guān)度下降,大大影響摘要生成的效果[2-4].提高生成摘要與話題的相關(guān)度問(wèn)題具有十分重要的意義.

1 相關(guān)工作

多文檔自動(dòng)文摘技術(shù)經(jīng)過(guò)多年發(fā)展已經(jīng)出現(xiàn)了很多方法和技術(shù).具有代表性的方法有基于詞頻的方法(如:SumBasic[5]和MEAD[6])、基于概率淺層語(yǔ) 義 分 析(probabilistic latent semantic analysis,PLSA)[7]和淺層狄利克雷分布(latent Dirichlet allocation,LDA)[8-9]的方法、基于圖的方法(如:Lex-PageRank[10]算法,這種方法已經(jīng)成功應(yīng)用到了Google PageRank中)以及基于其他機(jī)器學(xué)習(xí)[11-12]的方法等.

然而,這些方法大都是針對(duì)長(zhǎng)文本的詞項(xiàng)特征進(jìn)行統(tǒng)計(jì)分析處理.微博篇幅短小,單條微博的關(guān)鍵詞一般只有十幾個(gè)甚至幾個(gè),關(guān)鍵詞特征稀疏.單條微博內(nèi)關(guān)鍵詞的重復(fù)率不明顯,缺失長(zhǎng)文檔的結(jié)構(gòu)信息.因此,傳統(tǒng)自動(dòng)摘要技術(shù)將失去原有效果,需要結(jié)合微博特性與傳統(tǒng)自動(dòng)摘要技術(shù)的優(yōu)點(diǎn)來(lái)進(jìn)行微博話題摘要.

近年來(lái),以Twitter[13-15]為代表的英文社會(huì)化短文本摘要逐漸獲得科研人員的關(guān)注.2010 年Sharifi等[16]提出將包含主題詞的最常使用詞匯鏈作為摘要,這種方法獲得的摘要只是包含主題詞的一句話,信息并不全面.2011年,Harabagiu等[17]通過(guò)構(gòu)建復(fù)雜事件的發(fā)展結(jié)構(gòu)模型和用戶行為模型來(lái)生成微博復(fù)雜事件的摘要.Chakrabrti[18]使用隱馬爾可夫模型學(xué)習(xí)微博事件的隱藏狀態(tài),對(duì)高度結(jié)構(gòu)化重復(fù)出現(xiàn)的話題(如:運(yùn)動(dòng)賽事)進(jìn)行摘要.Inouye等[19]在文獻(xiàn)[16]的基礎(chǔ)上提出一種基于聚類的Hybird TF-IDF摘要方法.這種方法計(jì)算詞的TF(term frequency)值是該詞在語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)與語(yǔ)料庫(kù)中出現(xiàn)的詞數(shù)的比值,而在計(jì)算IDF(inverse document frequency)值時(shí),又將每篇微博作為一個(gè)單獨(dú)的文檔對(duì)待,計(jì)算方法為出現(xiàn)該詞的微博總篇數(shù)除以語(yǔ)料中的微博總數(shù).實(shí)驗(yàn)證明,Hybrid TF-IDF取得的效果優(yōu)于一些主流的摘要方法(如:MEAD、LexRank[20]、TextRank[21]).中文的微博摘要處于剛剛起步階段,可以查閱的資料較少.2011年,武漢大學(xué)的何炎祥[2]等提出一種輕巧新穎的LN 算法(light N-tree algorithm),以樹(shù)的形式將話題以摘要的方式展現(xiàn)給用戶,但不能形成可讀性文摘.2013年,Bian等[22]引入微博文本的配圖作為新的特征,提出一種新的概率生成模型MMLDA(multimodal LDA)來(lái)發(fā)現(xiàn)微博話題的子主題并進(jìn)行摘要.

目前的研究大多基于詞形、詞頻等統(tǒng)計(jì)信息進(jìn)行特征抽取,忽略了句子的句義成分以及成分之間的關(guān)系特征,對(duì)微博內(nèi)容挖掘深度不夠,導(dǎo)致僅僅基于詞形匹配的相似度計(jì)算方法無(wú)法準(zhǔn)確計(jì)算句子的內(nèi)容相似.同時(shí),在選擇句子時(shí),沒(méi)有抽取句子之間的隱藏語(yǔ)義聯(lián)系,未充分利用句子所處的子主題信息,導(dǎo)致抽取的句子與主題的相關(guān)性較差.本文針對(duì)以上問(wèn)題提出融合句義結(jié)構(gòu)模型[23]的微博話題摘要方法.

2 句義結(jié)構(gòu)模型及句義分析

句義結(jié)構(gòu)模型以現(xiàn)代漢語(yǔ)語(yǔ)義學(xué)為基礎(chǔ),是從句義角度研究句子的成分以及成分之間關(guān)系的句義結(jié)構(gòu)化表示模型.句義結(jié)構(gòu)分為句型層、描述層、對(duì)象層和細(xì)節(jié)層4個(gè)層次,包含的句義成分有句義類型、話題、述題、謂詞和項(xiàng)等.其中,項(xiàng)又分為基本項(xiàng)與一般項(xiàng),項(xiàng)的功能用語(yǔ)義格表示,一共有7個(gè)基本格和12個(gè)一般格.句義結(jié)構(gòu)模型的基本形式[24]如圖1所示.

句義分析是由句義結(jié)構(gòu)模型分析得到句子的結(jié)構(gòu)信息和語(yǔ)義信息.其具體方法是根據(jù)句義結(jié)構(gòu)模型基本框架,分別處理不同語(yǔ)義格的對(duì)象成分以及語(yǔ)義格結(jié)構(gòu)信息,主要語(yǔ)義格類型說(shuō)明如表1所示.

圖1 句義結(jié)構(gòu)模型的基本形式Fig.1 Basic form of sentential semantic model

表1 主要語(yǔ)義格類型說(shuō)明Tab.1 Description of main semantic cases

3 算法原理

針對(duì)現(xiàn)有方法生成摘要內(nèi)容冗余度高的問(wèn)題,本文從準(zhǔn)確計(jì)算句子內(nèi)容相似性的角度出發(fā),利用句義結(jié)構(gòu)模型分析語(yǔ)義項(xiàng)和項(xiàng)之間的依存關(guān)系抽取句子的句義特征,擴(kuò)充句子的語(yǔ)義維度,利用句義特征準(zhǔn)確表達(dá)語(yǔ)句信息及句子內(nèi)容的相似性,抽取句子時(shí)根據(jù)句子內(nèi)容相似性有效控制文摘冗余度.針對(duì)現(xiàn)有摘要方法抽取的句子與子主題相關(guān)性差的問(wèn)題,本文從挖掘句子之間的隱藏語(yǔ)義聯(lián)系及子主題信息的角度出發(fā),提出抽取句子關(guān)聯(lián)特征的方法.關(guān)聯(lián)特征表示句子與話題的語(yǔ)義聯(lián)系度,利用關(guān)聯(lián)特征增強(qiáng)相似語(yǔ)句的語(yǔ)義聯(lián)系.綜合加權(quán)句子的語(yǔ)義特征和關(guān)聯(lián)特征,抽取子主題內(nèi)的關(guān)鍵句子,得到話題的摘要.

本方法將文檔集合分句,句子清洗,分詞和詞性標(biāo)注得到預(yù)處理結(jié)果,對(duì)預(yù)處理結(jié)果分別計(jì)算語(yǔ)義權(quán)值和關(guān)聯(lián)權(quán)值.在計(jì)算語(yǔ)義權(quán)值時(shí),統(tǒng)計(jì)預(yù)處理結(jié)果中所有實(shí)詞出現(xiàn)的句子頻率,按句子頻率從大到小排序,選擇前N 個(gè)詞作為主題詞的種子詞,加入哈工大同義詞林?jǐn)U展版(HIT IR-Lab Tongyici Cilin(Extended))進(jìn)行擴(kuò)展,得到擴(kuò)展后的主題詞表.結(jié)合主題詞表分析句子的語(yǔ)義特征,包括詞性詞法特征和句義結(jié)構(gòu)特征,對(duì)各個(gè)特征線性加權(quán),得到句子的語(yǔ)義權(quán)值.在計(jì)算關(guān)聯(lián)權(quán)值時(shí),需要先對(duì)預(yù)處理結(jié)果進(jìn)行句子相似度計(jì)算,得到句子兩兩之間的語(yǔ)義相似值,構(gòu)建相似度矩陣,劃分子主題類.利用句子兩兩之間的語(yǔ)義相似值,計(jì)算句子與類內(nèi)及類外其他句子的語(yǔ)義相似度,得到句子的關(guān)聯(lián)權(quán)值.最后對(duì)句子的語(yǔ)義權(quán)值和關(guān)聯(lián)權(quán)值綜合加權(quán),得到句子的最終權(quán)值.最后依次選擇子主題內(nèi)權(quán)重最大的句子作為文摘句.所提出算法的原理圖如圖2所示.

圖2 所提出算法的原理圖Fig.2 Schematic diagram of proposed algorithm

3.1 預(yù)處理

分句、句子清洗是預(yù)處理的第一步.將微博中內(nèi)嵌鏈接URL、表情符號(hào)和@后的用戶名從原始語(yǔ)料庫(kù)中刪除.采用中科院提供的中文分詞軟件“ICTCLAS”[24],按照北京大學(xué)詞性標(biāo)注規(guī)范對(duì)數(shù)據(jù)集進(jìn)行分詞.將有效詞(名詞、動(dòng)詞、形容詞、數(shù)詞、時(shí)間詞等實(shí)詞)數(shù)量小于4 的句子去除.預(yù)處理原理圖如圖3所示.

3.2 語(yǔ)義權(quán)值計(jì)算

圖3 預(yù)處理原理圖Fig.3 Schematic diagram of preprocessing

圖4 主題詞生成原理圖Fig.4 Schematic diagram of topic generation module

3.2.1 主題詞生成 主題詞生成原理圖如圖4所示.將所有實(shí)詞按句子頻率從大到小排序,選擇前N 個(gè)詞作為主題詞的種子詞,加入哈爾濱工業(yè)大學(xué)同義詞林?jǐn)U展版進(jìn)行擴(kuò)展,得到擴(kuò)展后的種子詞.擴(kuò)展版的同義詞林包含77 343條詞語(yǔ),按照五層樹(shù)形結(jié)構(gòu)組織到一起.對(duì)詞義進(jìn)行有效擴(kuò)展,或者對(duì)關(guān)鍵詞做同義詞替換可以明顯改善信息檢索、文本分類和自動(dòng)問(wèn)答系統(tǒng)的性能.本文利用第5級(jí)分類對(duì)種子詞進(jìn)行擴(kuò)展分別按照詞義相等和詞義相關(guān)2大類別擴(kuò)展種子詞.

3.2.2 語(yǔ)義特征提取 分析句子的語(yǔ)義特征,是計(jì)算句子內(nèi)容重要性的關(guān)鍵步驟.現(xiàn)有研究一般只用到句子的詞法特征和句法特征,對(duì)句子內(nèi)容的挖掘僅限于詞、句法層次.本研究不僅使用傳統(tǒng)的詞法句法特征,并加入句子的句義結(jié)構(gòu)特征.句義結(jié)構(gòu)特征可以增加句子的分析深度,能夠更好地表達(dá)句子的深層含義,對(duì)更有效地挖掘句子內(nèi)容.

句義結(jié)構(gòu)模型是對(duì)句子語(yǔ)義層次的分析,是句義的形式化表達(dá).句義結(jié)構(gòu)模型中的話題、謂詞、述題等信息可以體現(xiàn)一個(gè)句子的核心內(nèi)容,此外句義結(jié)構(gòu)模型中各個(gè)句義成分之間的關(guān)系對(duì)句子的語(yǔ)義表達(dá)也很有意義.本文使用的語(yǔ)義特征如表2所示.

特征項(xiàng)F1及F2為句子有效詞的統(tǒng)計(jì)特征.一般認(rèn)為名詞(noun)、動(dòng)詞(verb)比其他詞性更重要,賦權(quán)重為2,其余詞性權(quán)重為1.話題、謂詞、述題特征是句子的核心內(nèi)容,若該句的以上特征在主題詞表內(nèi),則說(shuō)明該句的核心內(nèi)容跟主題相關(guān),出現(xiàn)的詞數(shù)越多則該句與主題的聯(lián)系越緊密,越能表達(dá)主題中心的意義.一般項(xiàng)的句義功能是描述基本項(xiàng)和謂詞,對(duì)其表達(dá)的內(nèi)容作進(jìn)一步說(shuō)明和補(bǔ)充.將句子一般格中包含的主題詞選為特征,作為對(duì)一般項(xiàng)和謂詞的補(bǔ)充.句子的語(yǔ)義權(quán)重值計(jì)算方法如下.

式中:pcon(S)是句子S 的語(yǔ)義權(quán)重值,F(xiàn)i和μi 分別代表語(yǔ)義特征的值和該特征的加權(quán)系數(shù).

表2 句子語(yǔ)義特征Tab.2 Semantic features of sentences

3.3 聯(lián)系權(quán)值計(jì)算

3.3.1 句子相似度計(jì)算 由于句子長(zhǎng)度的限制,單個(gè)句子的關(guān)鍵詞一般只有幾個(gè),特征尤其稀疏,僅僅基于詞形匹配的方法無(wú)法準(zhǔn)確衡量句子內(nèi)容的相似度.在句義結(jié)構(gòu)的基礎(chǔ)上,使用LDA 主題模型,對(duì)單個(gè)句子的關(guān)鍵詞進(jìn)行擴(kuò)充,從而解決由于句子長(zhǎng)度限制特征嚴(yán)重缺失所帶來(lái)的無(wú)法計(jì)算句子相似度的問(wèn)題,并在句義層面計(jì)算句子的內(nèi)容相似度.

句子相似度計(jì)算的原理圖如圖5所示.輸入是預(yù)處理后的所有句子,輸出是句子兩兩之間的相似值.其中,句義結(jié)構(gòu)分析模塊利用BFS-CSA[23]分析句子得到句義結(jié)構(gòu);劃分詞語(yǔ)模塊是根據(jù)句義結(jié)構(gòu)中的成分,將詞語(yǔ)劃分成基本格、一般格和謂詞;LDA 分析模塊通過(guò)計(jì)算劃分好的語(yǔ)義格得到知識(shí)庫(kù);擴(kuò)充句子維度模塊通過(guò)使用知識(shí)庫(kù)的信息對(duì)句子中的格進(jìn)行擴(kuò)充,得到新的表示向量;句子相似度計(jì)算模塊通過(guò)計(jì)算擴(kuò)充后的句子向量的余弦相似度,得到2個(gè)句子間的相似值.

圖5 句子相似度計(jì)算原理圖Fig.5 Schematic diagram of sentence similarity calculation

根據(jù)句義結(jié)構(gòu)理論,句義包括話題和述題.話題是被描述的成分;述題是語(yǔ)義表達(dá)的描述成分,同時(shí)考慮句子的主干(基本格)和修飾成分(一般格).本研究將知識(shí)庫(kù)分為3類:話題(基本格)知識(shí)庫(kù)、述題(基本格和謂詞)知識(shí)庫(kù)和一般格知識(shí)庫(kù).話題知識(shí)庫(kù)中的詞語(yǔ)來(lái)源于文集中句子話題下的基本格,用于對(duì)句子中話題下的基本格詞語(yǔ)進(jìn)行擴(kuò)充,述題知識(shí)庫(kù)中的詞語(yǔ)來(lái)源于文本集中句子述題下的基本格和謂詞,用于對(duì)述題下的基本格詞語(yǔ)和謂詞進(jìn)行擴(kuò)充,一般格知識(shí)庫(kù)中的詞語(yǔ)來(lái)源于句子中的一般格,用于對(duì)句子中所有一般格詞語(yǔ)進(jìn)行擴(kuò)充.

按照Blei[26]提出的理論,使用LDA 主題模型計(jì)算得到同一主題(Topic)下的詞語(yǔ)具有相似的屬性或意義,因此,本文利用LDA 對(duì)3組不同的詞語(yǔ)集合分別計(jì)算不同主題下的概率,最后將句子中話題(基本格)、述題(基本格和謂詞)和一般格下的詞語(yǔ)分別選擇對(duì)應(yīng)知識(shí)庫(kù)所在主題下的其他詞語(yǔ)作為特征向量上該詞的維度擴(kuò)充,擴(kuò)充維度的取值計(jì)算公式如下:

式中:V 為擴(kuò)充詞語(yǔ)的取值,n 為待擴(kuò)充詞在句子中出現(xiàn)的次數(shù),w 為待擴(kuò)充詞在相應(yīng)主題下的概率取值.

對(duì)句子的話題和述題分別進(jìn)行擴(kuò)充,得到句子的話題向量和述題向量,分別計(jì)算句子的話題相似度和述題相似度,對(duì)2個(gè)相似度進(jìn)行加權(quán)得到最終的句子相似度:

以0.1為步進(jìn)值調(diào)整ω,得到摘要的ROUGE評(píng)價(jià)指標(biāo)如表3所示.由表3可得,當(dāng)ω=0.5時(shí),即當(dāng)話題和述題的權(quán)重相等時(shí),ROUGE 評(píng)價(jià)指標(biāo)得分最高.以ROUGE-1 指標(biāo)為例,當(dāng)ω 從0.5 開(kāi)始向0(1)方向減?。ㄔ龃螅r(shí),ROUGE-1指標(biāo)為逐步減小的趨勢(shì)(見(jiàn)圖6),說(shuō)明話題和述題是綜合衡量句子意義的2個(gè)方面,偏向于任何一方,句子相似度的計(jì)算值都不能完全表達(dá)句子的意義.由實(shí)驗(yàn)結(jié)果可知,ω 的最佳取值為0.5.

表3 參數(shù)ω 的選擇實(shí)驗(yàn)結(jié)果Tab.3 Results of parameter selection experiments ofω

圖6 ROUGE-1值隨ω的變化趨勢(shì)圖Fig.6 Diagram ofω-changing trend of ROUGE-1

3.3.2 關(guān)聯(lián)特征提取 通過(guò)句子相似度計(jì)算出句子兩兩之間的語(yǔ)義相似值,構(gòu)建句子的n 維空間向量表示:

式中:空間中的每一維wk,j是句子Sk對(duì)Sj的相似度值,j=1,2,…,n.子主題是圍繞中心主題發(fā)生的現(xiàn)象、后果以及原因等的說(shuō)明,是對(duì)中心主題不同側(cè)面的描述.利用構(gòu)建的句子特征空間對(duì)語(yǔ)料中所有的句子進(jìn)行K-means聚類,劃分子主題.對(duì)于本文所使用的語(yǔ)料庫(kù),每一個(gè)話題下的子主題數(shù)目一般不多于10個(gè).因此,設(shè)定初始聚類中心為10,并將類內(nèi)句子數(shù)量小于總量5%的類作為噪音去除,剩余的類作為子主題劃分結(jié)果.

句子的關(guān)聯(lián)特征表示句子與話題的語(yǔ)義聯(lián)系度,可以通過(guò)加權(quán)計(jì)算該句與不同子主題中其他句子的語(yǔ)義重合度得出.句子Sk對(duì)Sj的語(yǔ)義重合度R(Sk,Sj)定義為句子Sj的語(yǔ)義權(quán)重值Pcon(Sj)與Sj對(duì)Sk的句子相似度值s(Sk,Sj)的乘積:

構(gòu)建無(wú)向圖G(S,E),圖中的每個(gè)節(jié)點(diǎn)S 對(duì)應(yīng)一個(gè)語(yǔ)句,邊E(Si,Sk)表示語(yǔ)句Si與Sk的句子相似度值.節(jié)點(diǎn)S 的度d 是與S 相連的邊的數(shù)目,反映了S 包含信息的重要程度:d 越大,則對(duì)應(yīng)語(yǔ)句所關(guān)聯(lián)的語(yǔ)句數(shù)目越多,那么這個(gè)句子所包含的信息越重要;反之亦成立.如果一個(gè)節(jié)點(diǎn)的度比較大,那么與之相關(guān)聯(lián)的語(yǔ)句也相應(yīng)地比較重要.令節(jié)點(diǎn)S的初始值為句子的內(nèi)容權(quán)重值,通過(guò)計(jì)算其他句子對(duì)該句的語(yǔ)義重合度得到句子的聯(lián)系權(quán)重值.考慮到同一個(gè)子主題下句子聯(lián)系緊密,設(shè)加權(quán)系數(shù)為1,不同子主題下句子的加權(quán)系數(shù)由子主題的平均句子內(nèi)容權(quán)重得出

式中:Prel(Sk)為句子Sk的關(guān)聯(lián)權(quán)重值.若Sk和Si屬于同一個(gè)子主題(i∈G),則加權(quán)系數(shù)為1;若Sk和Sj分屬不同子主題(i?G),加權(quán)系數(shù)為Pave(Cj)/(Pave(Cj)+Pave(Ck)).其中Pave(Cj)、Pave(Ck)分別為句子所屬子主題的句子平均語(yǔ)義權(quán)重值.

3.4 句子權(quán)值計(jì)算

在計(jì)算句子重要性時(shí),現(xiàn)有方法大都偏重于挖掘句子本身的內(nèi)容,而忽略了句子所處“環(huán)境”的影響.一個(gè)好的文摘句,內(nèi)容上不僅要緊扣主題,同時(shí)也應(yīng)該與語(yǔ)料庫(kù)中的其他句子聯(lián)系緊密.本文所用的句子權(quán)重計(jì)算方法不僅考慮了句子的語(yǔ)義信息同時(shí)考慮了句子的關(guān)聯(lián)特征.句子Si的最終權(quán)值為:

式中:α+β=1,參數(shù)α 調(diào)整語(yǔ)義權(quán)值和聯(lián)系權(quán)值的權(quán)重.為了得到選擇參數(shù)α 的最佳取值,α 從0開(kāi)始以0.1為步進(jìn)變化到1,得到當(dāng)壓縮比為1.5%時(shí),ROUGE-1的取值變化如圖7所示.由圖7可知,當(dāng)α=0.1時(shí)ROUGE-1的取值最高.

圖7 參數(shù)α 選擇實(shí)驗(yàn)Fig.7 Parameter selection experiments ofα

3.5 文摘句選擇

句子選擇模塊根據(jù)子主題的重要程度從高到低對(duì)子主題排序,確定子主題的抽取順序和抽取句子數(shù),并根據(jù)句子的重要性和冗余度在子主題內(nèi)抽取文摘句.子主題的重要性與兩方面因素有關(guān):1)子主題包含的句子數(shù)目,句子數(shù)目越多說(shuō)明該子主題在文檔集合中出現(xiàn)的頻率越高;2)子主題包含句子的重要程度,子主題中平均句子權(quán)重越大,該子主題越重要.子主題打分策略如下:

式中:S(Ci)為子主題Ci的得分,Pave(Ci)為子主題Ci的句子平均權(quán)值,k 為子主題個(gè)數(shù),Ni為子主題Ci包含的句子個(gè)數(shù).參數(shù)θ用于調(diào)整子主題內(nèi)句子平均權(quán)值和句子數(shù)目的權(quán)重,一般認(rèn)為兩者同樣重要,本文取θ=0.5.

根據(jù)壓縮比,從不同子主題內(nèi)抽取相應(yīng)數(shù)量的句子生成摘要.子主題句子抽取個(gè)數(shù)由該子主題的重要程度決定:

式中:TCi表示子主題Ci的句子抽取個(gè)數(shù),R 代表壓縮比的值,Nj表示不同子主題內(nèi)句子的數(shù)目.

在選擇文摘句時(shí),不僅要保證選擇的句子與主題的相關(guān)度高,也要保證該句與已選文摘句之間的冗余度盡可能小,從而避免包含同一條重要信息的句子反復(fù)出現(xiàn)在文摘里.句子選擇的具體過(guò)程如下:

4 實(shí)驗(yàn)及分析

4.1 數(shù)據(jù)源

實(shí)驗(yàn)數(shù)據(jù)采用自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLP&&CC)2013年中文微博觀點(diǎn)要素抽取評(píng)測(cè)語(yǔ)料[27].該語(yǔ)料包含2013年3月的微博話題,實(shí)驗(yàn)數(shù)據(jù)的具體描述如表4所示.

表4 微博摘要實(shí)驗(yàn)數(shù)據(jù)表Tab.4 Experimental data of weibo summarization

表中,文本有效長(zhǎng)度是指經(jīng)過(guò)分詞去除停用詞后,每篇微博包含的詞的個(gè)數(shù),Lmax為文本有效長(zhǎng)度的最大值,Lmin為文本有效長(zhǎng)度的最小值,Lmean為文本有效長(zhǎng)度的平均值,RSD表示同一類別下句子文本有效長(zhǎng)度的標(biāo)準(zhǔn)差.由北京理工大學(xué)信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心對(duì)每個(gè)話題生成壓縮比為0.5%、1.0%和1.5%的3篇標(biāo)準(zhǔn)摘要.生成過(guò)程如下:每3人對(duì)同一話題文本集提取不同壓縮比的人工摘要,然后由自然語(yǔ)言處理小組的10名博士、碩士對(duì)3份人工摘要進(jìn)行評(píng)價(jià)并計(jì)算平均得分:將平均得分最高的摘要作為標(biāo)準(zhǔn)摘要放入標(biāo)準(zhǔn)摘要集,如果得分相同則都放入標(biāo)準(zhǔn)摘要集中.

4.2 評(píng)價(jià)方法

本文采用多文檔摘要的通用評(píng)價(jià)方法ROUGE[28]toolkit(版本號(hào)v1.5.5)作為評(píng)價(jià)標(biāo)準(zhǔn).ROUGE方法通過(guò)計(jì)算候選摘要與標(biāo)準(zhǔn)摘要的詞單元重合度來(lái)區(qū)分候選摘要的質(zhì)量,計(jì)算的值包括ROUGE-N、ROUGE-W (本 研 究 取W =1.2)和ROUGE-SU*等:

式中:n代表n-gram 的長(zhǎng)度,D 表示文檔,其中下標(biāo)r表示文檔屬于標(biāo)準(zhǔn)摘要,c表示文檔屬于待評(píng)價(jià)摘要,Countm(gramn)表示同時(shí)出現(xiàn)在待評(píng)價(jià)摘要和標(biāo)準(zhǔn)摘要的n-gram 的個(gè)數(shù),Count(gramn)為標(biāo)準(zhǔn)文摘中的n-gram 個(gè)數(shù).

4.3 實(shí)驗(yàn)結(jié)果及分析

4.3.1 關(guān)聯(lián)特征 為了驗(yàn)證引入句子關(guān)聯(lián)特征對(duì)摘要結(jié)果的提升,在壓縮比為1.5%的條件下,采用單因子變量法,令Pcon(Si)加權(quán)系數(shù)α=0.1保持不變,β從0開(kāi)始以0.05 為步進(jìn)調(diào)整,以加權(quán)系數(shù)的比值β/(α+β)為自變量,得到ROUGE-1的取值變化如圖8所示.

由圖8所示可知,當(dāng)β/(α+β)=0時(shí),即不考慮句子的關(guān)聯(lián)權(quán)重,只考慮句子本身的語(yǔ)義權(quán)重,ROUGE-1為0.466 58,加入句子關(guān)聯(lián)權(quán)重特征,ROUGE-1值有明顯的改善.當(dāng)β(α+β)≤0.9 時(shí),ROUGE-1值呈現(xiàn)上升趨勢(shì),且均明顯優(yōu)于僅考慮語(yǔ)義權(quán)重的ROUGE-1 取值;當(dāng)β(α+β)>0.9 比時(shí),若繼續(xù)增加關(guān)聯(lián)權(quán)重的值,ROUGE-1值呈現(xiàn)下降趨勢(shì),當(dāng)β(α+β)=1.0時(shí)即當(dāng)關(guān)聯(lián)權(quán)重占比遠(yuǎn)大于語(yǔ)義權(quán)重時(shí),ROUGE-1=0.481 25.實(shí)驗(yàn)結(jié)果說(shuō)明:所提出的句子權(quán)值計(jì)算方法,在深入理解句子本身語(yǔ)義的基礎(chǔ)上,可以有效量化該句與語(yǔ)料庫(kù)中其他句子之間的語(yǔ)義聯(lián)系.綜合考慮句子內(nèi)外部特征的權(quán)值計(jì)算方法,有利于豐富句子的特征維度,準(zhǔn)確描述文本內(nèi)容與話題的相關(guān)度,合理利用句子內(nèi)外部語(yǔ)義特征,使同類數(shù)據(jù)內(nèi)聚性增強(qiáng)、噪音影響減弱,對(duì)于選擇關(guān)鍵文摘句以及減少文摘的冗余度都很有意義.

圖8 ROUGE-1值隨加權(quán)系數(shù)比值的變化趨勢(shì)圖Fig.8 Curve of ROUGE-1as weighted coefficient ratio changes

4.3.2 對(duì)比實(shí)驗(yàn) 為了驗(yàn)證所提出方法的有效性,建立了2個(gè)對(duì)照方法與本文方法進(jìn)行對(duì)比實(shí)驗(yàn).

Hybird TF-IDF 是Inouye等[19]于2011 年 提出的一種基于聚類的微博話題摘要方法,該方法已被證明比一些主流的多文檔摘要方法效果要好.SumBasic[5]是經(jīng)典的多文檔摘要方法,在DUC06測(cè)評(píng)大會(huì)上按代表性指標(biāo)排序排名第三,并已獲得應(yīng)用.在壓縮比分別為0.5%、1.0%、1.5%的條件下,3組系統(tǒng)的FROUGR-N值實(shí)驗(yàn)結(jié)果如表5、6和7所示.

表5 壓縮比為0.5%的對(duì)比實(shí)驗(yàn)結(jié)果Tab.5 Contrast experiments results with compress ratio at 0.5%

表6 壓縮比為1%的對(duì)比實(shí)驗(yàn)結(jié)果Tab.6 Contrast Experiments Results with Compress Ratio at 1.0%

表7 壓縮比為1.5%的對(duì)比實(shí)驗(yàn)結(jié)果Tab.7 Contrast experiments results with compress ratio at 1.5%

由表5~7可知,本文提出的微博話題摘要方法在ROUGE-1,ROUGE-2、ROUGE-W、ROUGESU*的評(píng)價(jià)指標(biāo)下平均表現(xiàn)最優(yōu),4個(gè)指標(biāo)的值與對(duì)比方法相比均有明顯提高.相比于Hybrid TFIDF、SumBasic等基于詞形詞頻的短文本摘要方法,本文生成的摘要在兼顧冗余度的同時(shí)與話題更相關(guān),綜合表現(xiàn)ROUGR 值更高.這表明分析句子的句義結(jié)構(gòu),提取句義特征項(xiàng)和項(xiàng)之間的依存關(guān)系可以深入挖掘句子的語(yǔ)義信息,深化了句子分析層次,所提取的句義特征增強(qiáng)了語(yǔ)義特征的表達(dá)能力,有效避免了信息丟失;構(gòu)建相似度矩陣劃分子主題的方法使類內(nèi)語(yǔ)義相關(guān)性增大,同類數(shù)據(jù)內(nèi)聚性增強(qiáng),有效降低了噪聲的影響;綜合考慮句子內(nèi)部語(yǔ)義特征和外部關(guān)聯(lián)特征的句子權(quán)重計(jì)算方法,豐富了句子的特征表示,全面考慮句子的語(yǔ)義環(huán)境,從而提升了摘要與話題的相關(guān)度.

在壓縮比為0.5%~1.5%時(shí),壓縮比越大,系統(tǒng)的性能越好.這是由于人工抽取標(biāo)準(zhǔn)摘要的隨機(jī)性比較大,而壓縮比提高、數(shù)據(jù)量變大在一定程度上克服了這種隨機(jī)性,使得最終得到的摘要更加合理而使評(píng)價(jià)效果有所提高.

4.3.3 泛化能力實(shí)驗(yàn) 當(dāng)壓縮比為0.5%、1.0%和1.5%時(shí),計(jì)算系統(tǒng)對(duì)不同話題的ROUGE 評(píng)價(jià)指標(biāo).因篇幅所限,圖9僅展示壓縮比為1.5%的實(shí)驗(yàn)結(jié)果.

圖9 系統(tǒng)泛化能力實(shí)驗(yàn)結(jié)果Fig.9 System performance on different topics

由圖9可知,系統(tǒng)在不同話題下的評(píng)價(jià)結(jié)果存在一定的差異.一方面是由于人工抽取標(biāo)準(zhǔn)摘要的隨機(jī)性,另一方面是因?yàn)椴煌掝}子主題的結(jié)構(gòu)不同.由ROUGE評(píng)價(jià)指標(biāo)來(lái)看,6個(gè)話題的ROUGE-1值 均 在0.45 以 上,ROUGE-2、ROUGE-W 均 在0.10以上,ROUGE-SU*均在0.15以上.因此,本文方法處理不同話題的泛化能力較好,適用范圍較廣.

4.3.4 實(shí)例分析 以話題“查韋斯”為例,分別采用Hybird TF-IDF方法和本文方法進(jìn)行摘要實(shí)驗(yàn),在壓縮比為0.5%的條件下得到摘要結(jié)果如表8 所示.可知,Hybird TF-IDF 生成的摘要包含子主題較少,內(nèi)容較片面,摘要的冗余度也較大.本文方法生成的摘要覆蓋了話題的多個(gè)子主題,內(nèi)容較全面,摘要冗余度較小,因而本文方法在語(yǔ)義上生成的摘要效果更優(yōu).

表8 2種不同方法得到的“查韋斯”話題摘要結(jié)果對(duì)比Tab.8 Comparison of generated summaries from topic“Chávez”using two different methods

5 結(jié) 論

利用句義結(jié)構(gòu)模型深化了句子分析層次,提取的句義特征增強(qiáng)了語(yǔ)義特征的表達(dá)能力,可以有效避免信息丟失.同時(shí),所提出的句子權(quán)重計(jì)算方法綜合考慮了加權(quán)句子內(nèi)部語(yǔ)義特征和外部關(guān)聯(lián)特征,使得同類數(shù)據(jù)的內(nèi)聚性增強(qiáng),語(yǔ)義相關(guān)性增大,有效降低了噪聲的影響,從而使得生成的摘要與話題相關(guān)度更高.此外,本文方法處理不同話題的泛化能力較優(yōu),適用范圍較廣.

下一步研究的重點(diǎn)是引入句子結(jié)構(gòu)項(xiàng)之間的依存關(guān)系作為特征,完善句義結(jié)構(gòu)模型的特征體系,提高文摘句抽取效果,從而生成更高質(zhì)量的微博話題摘要.

):

[1]Wikipedia.Sina Weibo[EB/OL].(2014-11-10)[2015-10-20].https:∥en.wikipedia.org/wiki/Sina_Weibo.

[2]HE Y,SU W,TIAN Y,et al.Summarizing microblogs on network hot topics[C]∥Proceedings of the 2011International Conference on Internet Technology and Applications(iTAP 2011).New York:Piscataway,2011:1-4.

[3]LONG R,WANG H F,CHEN Y Q,et al.Towards effective event detection,tracking and summarization on microblog data[M]∥ Web-Age Information Management.Berlin:Springer,2011:652-663.

[4]WILLIAN H,ZHANG Y.Threshold and associative based classification for social spam profile detection on Twitter[C]∥2013 9th International Conference on Semantics,Knowledge and Grids(SKG).New York:Piscataway,2013:113-120.

[5]VANDERWENDE L,SUZUKI H,BROCKETT C,et al.Beyond SumBasic:task-focused summarization with sentence simplification and lexical expansion[J].Information Processing and Management,2007,43(6):1606-1618.

[6]RADEV D R,JING H,STYS M,et al.Centroid-based summarization of multiple documents[J].Information Processing and Management,2004,40(6):919-938.

[7]SINGH M,KHAN F U.Effect of incremental EM on document summarization using probabilistic latent semantic analysis[C]∥Proceedings of the World Congress on Engineering(WCE 2012).Hong Kong:Newswood Limited,2012:2198.

[8]GAO D,LI W,OUYANG Y,et al.LDA-based topic formation and topic-sentence reinforcement for graphbased multi-document summarization[M]∥Information Retrieval Technology.Berlin:Springer,2012:376-385.

[9]ARORA R,RAVINDRAN B.Latent dirichlet allocation based multi-document summarization[C]∥Proceedings of the 2nd Workshop on Analytics for Noisy Unstructured Text Data.Singapore:ACM,2008:91-97.

[10]BINTI ZAHRI N A H,F(xiàn)UKUMOTO F,MATSUY-OSHI S.Link analysis based on rhetorical relations for multi-document summarization[J].IEICE Transactions on Information and Systems,2013,96(5):1182-1191.

[11]SUJATHA C,CHIVATE A R,GANIHAR S A,et al.Time driven video summarization using GMM [C]∥2013 4th National Conference on Computer Vision,Pattern Recognition,Image Processing and Graphics(NCVPRIPG).Piscataway:IEEE,2013:1-4.

[12]OLARIU A.Clustering to improve microblog stream summarization[C]∥2012 14th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing(SYNASC 2012).Timisoara:IEEE,2012:220-226.

[13]ZHANG R,LI W,GAO D,et al.Automatic Twitter topic summarization with speech acts[J].IEEE Transactions on Audio Speech and Language Processing,2013,21(3):649-658.

[14]KHAN M A H,BOLLEGALA D,LIU G,et al.Multitweet summarization of real-time events[C]∥2013International Conference on Social Computing(SocialCom).Washington DC:ASE/IEEE,2013:128-133.

[15]LIU F,LIU Y,WENG F L.Why is“SXSW”trending?Exploring multiple text sources for twitter topic summarization[C]∥Proceedings of the Workshop on Languages in Social Media(LSM 2011).Strasbourg:Association for Computational Linguistics,2011:66-75.

[16]SHARIFI B,HUTTON M,KALITA J.Summarizing microblogs automatically[C]∥2010Human Language Technologies Conference of the North American Chapter of the Association for Computational Linguistics,NAACL HLT 2010.Los Angeles: ACL,2010:685-688.

[17]HARABAGIU S M,HICKL A.Relevance modeling for microblog summarization[C]∥Proceedings of the 5th International Conference on Weblogs and Social Media.Menlo Park:AAAI,2011:514-517.

[18]CHAKRABARTI D,PUNERA K.Event summarization using Tweets[C]∥Proc of the 5th Int AAAI Conference and Social Media (ICWSM’11).Menlo Park:AAAI,2011:66-73.

[19]INOUYE D,KALITA J K.Comparing Twitter Summarization Algorithms for Multiple Post Summaries[C]∥Proceedings of the 2011IEEE Third International Conference on Privacy,Security,Risk and Trust and IEEE Third International Conference on Social Computing(PASSAT/SocialCom 2011).Boston:IEEE,2011:298-306.

[20]ERKAN G,RADEV D R.LexRank:graph-based lexical centrality as salience in text summarization [J].Journal of Artificial Intelligence Research,2004:457-479.

[21]MIHALCEA R,TARAU P.TextRank:bringing order into texts[C]∥Conference on Empirical Methods in Natural Language Processing (EMNLP),2004.Barcelona:ACL,2004:275-279.

[22]BIAN J,YANG Y,CHUA T.Multimedia summarization for trending topics in microblogs[C]∥22nd ACM International Conference on Information and Knowledge Management,CIKM 2013.San Francisco:ACM,2013:1807-1812.

[23]羅森林,韓磊,潘麗敏,等.漢語(yǔ)句義結(jié)構(gòu)模型及其驗(yàn)證[J].北京理工大學(xué)學(xué)報(bào),2013,33(2):166-171.LUO Sen-lin,HAN Lei,PAN Li-min,et al.Chinese sentential semantic mode and verification[J].Transactions of Beijing Institute of Technology,2013,33(2):166-171.

[24]羅森林,劉盈盈,馮揚(yáng),等.BFS-CTC 漢語(yǔ)句義結(jié)構(gòu)標(biāo)注語(yǔ)料庫(kù)構(gòu)建方法[J].北京理工大學(xué)學(xué)報(bào),2012,32(3):311-315.LUO Sen-lin,LIU Ying-ying,F(xiàn)ENG Yang,et al.Method of building BFS-CTC:a Chinese Tagged corpus of sentential semantic structure[J].Transactions of Beijing Institute of Technology,2012,32(3):311-315.

[25]張 華 平.ICTCLAS2013 版 [CP/OL].(2013-11-15)[2015-10-20].http:∥ictclas.nlpir.org/newsdownloads?DocId=352.

[26]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet allocation[J].Journal of Machine Learning Research.2003,3(4/5):993-1022.

[27]中國(guó)計(jì)算機(jī)學(xué)會(huì)中文信息技術(shù)專業(yè)委員會(huì).第二屆自然語(yǔ)言處理與中文計(jì)算會(huì)議技術(shù)評(píng)測(cè)結(jié)果[CP/OL].(2013-06-15)[2015-10-20].http:∥tcci.ccf.org.cn/conference/2013/pages/page04_evares.html.

[28]LIN C Y.Rouge:apackage for automatic evaluation of summaries[C]∥Text Summarization Branches Out:Proceedings of the ACL-04 Workshop.Barcelona:ACL,2004:74-81.

猜你喜歡
壓縮比權(quán)值語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
質(zhì)量比改變壓縮比的辛烷值測(cè)定機(jī)
語(yǔ)言與語(yǔ)義
強(qiáng)規(guī)劃的最小期望權(quán)值求解算法?
計(jì)算機(jī)測(cè)量與控制(2018年3期)2018-03-27
“吃+NP”的語(yǔ)義生成機(jī)制研究
漢語(yǔ)依憑介詞的語(yǔ)義范疇
低溫廢氣再循環(huán)及低壓縮比對(duì)降低歐6柴油機(jī)氮氧化物排放的影響
高幾何壓縮比活塞的燃燒室形狀探討
清徐县| 交城县| 锦州市| 鄢陵县| 沂南县| 杭锦旗| 江安县| 重庆市| 威海市| 甘孜| 水城县| 常山县| 南雄市| 临猗县| 株洲市| 武安市| 汾西县| 吕梁市| 滨海县| 宁远县| 临泽县| 磴口县| 通山县| 双牌县| 仙游县| 平舆县| 锦州市| 辽中县| 陈巴尔虎旗| 马关县| 遂平县| 龙海市| 南开区| 阳东县| 巴彦县| 怀化市| 三河市| 义马市| 会理县| 青海省| 武安市|