国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種分層機制的網(wǎng)絡(luò)新聞話題融合方法

2015-08-08 07:14:41趙旭劍涂勇李波張暉楊春明王耀彬
電腦知識與技術(shù) 2015年15期

趙旭劍 涂勇 李波 張暉 楊春明 王耀彬

摘要:傳統(tǒng)的新聞話題融合方法往往將話題表示為一個統(tǒng)一的一層模型進行聚類融合,對于具有多層結(jié)構(gòu)的網(wǎng)絡(luò)新聞存在模型缺陷,容易忽略子話題的細節(jié)特征,影響新聞話題的融合結(jié)果。針對該問題,本文提出一種基于分層機制的網(wǎng)絡(luò)新聞話題融合方法,研究話題的多層表示模型,實現(xiàn)對網(wǎng)絡(luò)新聞話題的自動聚類。實驗表明,本文方法較傳統(tǒng)方法具有更高的準確率,能有效識別網(wǎng)絡(luò)新聞在子話題上的特征差異。

關(guān)鍵詞:多層表示模型;分層機制;新聞話題;話題融合;話題聚類

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2015)15-0212-03

Abstract: Traditional methods for news topic fusion are used to represent the news topic with a uniform one-level model to carry out clustering. With regard to the network news with multi-level topics, the model defects of traditional methods easily result in overlooking the detailed features of the sub-topic and affecting the fusion results. Aiming at this issue, this paper proposes a hierarchical topic fusion method, and discusses the multi-level topic model as well as the implementation of topic clustering for network news. Experiments show that this method has a higher precision than traditional methods and can effectively identifies the differences in the characteristics of the sub topics of network news.

Key words: multi-level representation model; hierarchical method; news topic; topic fusion; topic cluster

1 引言

隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為一種新的新聞媒體傳播媒介。相比其它新聞類別,網(wǎng)絡(luò)新聞具有更新速度快,信息量大,交互性強等優(yōu)點。因此以新聞網(wǎng)頁為對象的數(shù)據(jù)挖掘技術(shù)成為近年來工業(yè)界和學(xué)術(shù)界共同的研究熱點。網(wǎng)絡(luò)上的新聞大多分布比較雜亂,尋找準確的新聞內(nèi)容顯得十分困難。因此,一種高效、準確的新聞話題自動聚類融合方法是很必要的。然而,傳統(tǒng)的方法只是將話題表示為一個統(tǒng)一的單層模型,利用特征融合等方法進行聚類。傳統(tǒng)方法比較簡單便捷,只是對新聞?wù)w進行了簡單地聚類融合,沒有考慮話題的層級結(jié)構(gòu),容易忽略子話題的細節(jié)特征,影響話題融合的準確性,造成話題融合結(jié)果的偏斜。因此,需要一種新的新聞話題聚類融合方法,對新聞?wù)膶崿F(xiàn)基于分層機制的融合,提高新聞聚類的準確度。

目前對新聞話題的分層機制研究主要采用兩種策略:基于關(guān)鍵詞的方法和基于時間信息的方法。張闊等[1]采用基于關(guān)鍵詞的策略,提出以詞元單位為基礎(chǔ)的話題內(nèi)事件檢測方法,以事件的形式體現(xiàn)子話題。仲兆滿等[2]則考慮了文本中的時間信息特征,通過獲取新聞報道的發(fā)布時間對新聞進行排序,進而對相同時間段內(nèi)的新聞進行話題聚類,實現(xiàn)話題分層。文獻[3]對搜索引擎返回的話題相關(guān)文檔進行子話題劃分,結(jié)合了兩種子話題聚類方法。基于關(guān)鍵詞的劃分方法中,首先計算關(guān)鍵詞的權(quán)重,然后根據(jù)關(guān)鍵詞進行分類,但是并沒有分析子話題的內(nèi)容特征。在基于時間信息的劃分方法中,簡單地將同一時間點的子話題片段進行合并,并沒有考慮同一時間點可能出現(xiàn)多個子話題的情況?;谠掝}層級的話題聚類對于話題演化研究具有重要意義,其中,Makkonen[4]提出在話題演化挖掘過程中通過分析名詞實體來測量話題之間的相似度,文獻[5][6]則討論了對于不同話題層級結(jié)構(gòu)的新聞文檔進行話題演化追蹤的相關(guān)工作。而洪宇等[7]將新聞報道劃分為不同的層級結(jié)構(gòu),根據(jù)相關(guān)子話題的比例和分布建立新話題的檢測模型,實現(xiàn)對新事件的識別。與已有工作相比,本文的主要貢獻在于:

(1)提出了面向不同新聞結(jié)構(gòu)類型的網(wǎng)絡(luò)新聞話題層級關(guān)系構(gòu)建方法,有效識別話題的層級關(guān)系,對普通網(wǎng)絡(luò)新聞具有較強的普適性。

(2)提出了基于分層機制的網(wǎng)絡(luò)新聞話題聚類算法,根據(jù)話題層級關(guān)系結(jié)合時間信息,實現(xiàn)子話題的同級聚類,有效提高話題融合算法的準確性。

2 新聞話題層級關(guān)系構(gòu)建

總的來說,網(wǎng)絡(luò)新聞根據(jù)報道格式可以分為兩類:含有子標題的顯式層級新聞和不含有子標題的隱式層級新聞。針對顯式層級新聞,新聞?wù)闹械臉祟}與子標題體現(xiàn)了新聞話題的層級關(guān)系,如圖1所示,方框中的加粗文字作為新聞的子標題表達了整篇新聞局部篇章的內(nèi)容,因此,我們可以直接利用這些子標題作為話題層級結(jié)構(gòu)的子話題進行子話題的融合。

對于隱式層級新聞,我們通過提取段落的關(guān)鍵詞構(gòu)建TextTiling模型[8]來建立層次結(jié)構(gòu)。TextTiling方法主要應(yīng)用于新聞報道中文章段落劃分。Hearst[8]的研究表明,在一篇新聞報道中,通常是相鄰的若干句子表達同一個子主題,這些表達同一子主題的句子中相鄰兩句的相似度都比較高,而子話題有轉(zhuǎn)折的兩個相鄰句子的相似度相對會有大幅度下降,TextTiling方法將表達同一個子話題的句子劃分為同一段落。這種方法具有普遍的適用性,其關(guān)鍵在于爬取新聞網(wǎng)頁的時候新聞的段落層次能夠區(qū)分出來進行數(shù)據(jù)處理。

此外,針對每一篇新聞文檔,我們還將其標題抽取出來作為一個單獨的話題層次,因為新聞的標題是整篇新聞的核心總結(jié),通常我們可以通過新聞標題了解到新聞將要講述些什么。因此,新聞的標題作為一個單獨的話題層次是可行的,對于后期的實驗結(jié)果評測也是一個可參考的參照指標。

3 基于層級關(guān)系的話題融合

根據(jù)新聞文檔的話題層級關(guān)系,進行同級子話題的話題聚類,保留了子話題中表達內(nèi)容的差異性,能有效提高新聞話題融合的準確性。因此,我們將通過建立話題融合模型,采用自下而上(子話題級別到話題級別)的聚類模式實現(xiàn)網(wǎng)絡(luò)新聞話題的融合。

3.1 話題融合模型

傳統(tǒng)的話題融合方法只是將話題表示為一個統(tǒng)一的單層模型,利用特征融合等方法進行聚類(如圖2所示)。這種方法使得許多細節(jié)性的問題被大而化之,或者丟失了子話題的差異性,對于話題關(guān)系復(fù)雜的網(wǎng)絡(luò)新聞不具適用性。

而話題的層級表示模型是把整篇網(wǎng)絡(luò)新聞(包括新聞的標題和正文)看成一個整體,通過構(gòu)建話題層級關(guān)系建立一個自下而上的多層結(jié)構(gòu)。基于層級模型的話題融合能夠很好地體現(xiàn)網(wǎng)絡(luò)新聞的層級特征(子話題特征),通過進行子話題的相似度計算比較,可以判斷新聞文檔的相似度。這樣的網(wǎng)絡(luò)新聞話題融合方式可以極大程度地避免新聞子話題內(nèi)容差異大卻被聚類融合的情況?;趯蛹夑P(guān)系的話題融合模型如圖3所示。

3.2 話題融合方法

新聞文檔進行融合過程中需要首先構(gòu)建特征模型,本文我們采用向量空間模型(Vector Space Model, VSM)來表示新聞文檔。向量空間模型把對文本內(nèi)容的處理簡化為向量空間中的向量運算,并且它以空間上的相似度表達語義的相似度,直觀易懂。當(dāng)文檔被表示為文檔空間的向量,就可以通過計算向量之間的相似性來度量文檔間的相似性。

網(wǎng)絡(luò)新聞話題的層級融合指的是對網(wǎng)絡(luò)新聞構(gòu)建層次結(jié)構(gòu)的子話題,通過子話題之間的融合結(jié)果判斷整個新聞是否可以進行融合。層次結(jié)構(gòu)的子話題融合對每一層的子話題都要做相似度的計算,然后對每一層子話題的相似度數(shù)據(jù)值進行處理,根據(jù)處理后的結(jié)果來判斷新聞是否可以進行話題的融合。

基于話題層級關(guān)系的話題融合方法主要分為四個階段:

第一階段:根據(jù)新聞話題的結(jié)構(gòu)特征,抽取各個層級話題的話題時間[5],計算兩篇新聞文檔各個層級話題的時間相似度TR,當(dāng)TR大于設(shè)定的時間相似判定閾值,則TR為true,否則為false;

第二階段:基于話題內(nèi)容計算新聞文檔子話題相似度SR,設(shè)定話題相似判定閾值,當(dāng)有過半的子話題相似度大于閾值則令SR為true,否則為false;

第三階段:計算子話題融合參數(shù)[α]=TR∩SR,如果[α]為true,則判定兩個子話題相關(guān),可以歸并為一個話題;

第四階段:對總的新聞文本相似度設(shè)定一個閾值,利用每層子話題的相似度數(shù)據(jù)值進行計算,利用簡單的算術(shù)平均求得在整個文檔級的話題相似度,判斷該數(shù)值與閾值的大小,最終判定兩篇新聞文檔是否可以歸并為一個話題。

在具體的算法中,獲取每層子話題相似度數(shù)值是通過遍歷子話題進行相似度比較的方式。正是由于層次結(jié)構(gòu)的子話題融合方法在數(shù)據(jù)處理方式上具有多樣性和豐富性的優(yōu)勢,所以層級模式的話題融合相對于傳統(tǒng)的話題融合方式更能體現(xiàn)話題層級關(guān)系以及不同層級話題中的差異性。

4 實驗結(jié)果與分析

為了評測本文算法的有效性,我們利用新浪、網(wǎng)易的同一個專題的新聞來進行層級模式話題融合算法的實驗分析。本文主要收集了2013年的H7N9禽流感事件,2013年4.20四川雅安蘆山7.0級地震,2013年河南義昌大橋坍塌事故以及2010年河南平煤集團平禹四礦礦難事故四個專題新聞進行實驗評測,具體數(shù)據(jù)見表1。

參考文獻:

[1] 張闊,李涓子,吳剛,等.基于關(guān)鍵詞元的話題內(nèi)容事件檢測[J].計算機研究與發(fā)展,2009,46(2):245-252.

[2] 仲兆滿,朱平,李存華,等.一種基于局部分析面向事件的查詢擴展方法[J].情報學(xué)報,2012,31(2):151-159.

[3] 王巍.基于關(guān)鍵詞和時間點的網(wǎng)絡(luò)話題演化分析[D].上海:復(fù)旦大學(xué),2009.

[4] Makkonen J. Investigations on event evolution in TDT[C]//Proceedings of the Student Workshop of Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Edmonton,Canada,2003.Stroudsburg,PA,USA:Association for Computational Linguistics,2003:43-48.

[5] 趙旭劍,金培權(quán),岳麗華.TTP:一個面向中文新聞網(wǎng)頁的主題時間解析器[J].小型微型計算機系統(tǒng),2013,34(5):1042-1049.

[6] 趙旭劍,楊春明,李波,張暉,金培權(quán),岳麗華,戴文鍇. 一種基于特征演變的新聞話題演化挖掘方法[J]. 計算機學(xué)報,2014,04:819-832.

[7] 洪宇,張宇,范基禮,等.基于子話題分治匹配的新事件檢測[J].計算機學(xué)報,2008,31(4):687-695.

[8] Hearst M A. Multi-paragraph Segmentation of Expository Text[C]//Proceedings of the 32nd Meeting of the Association for Computational Linguistics. 1994.

福贡县| 房山区| 自贡市| 浑源县| 鲁山县| 敖汉旗| 确山县| 彰武县| 特克斯县| 牡丹江市| 汉源县| 陆丰市| 赤峰市| 苗栗市| 迭部县| 临猗县| 开平市| 承德县| 霞浦县| 布拖县| 贺兰县| 甘谷县| 通渭县| 武鸣县| 铜梁县| 布拖县| 福州市| 灵寿县| 平利县| 大英县| 岱山县| 武邑县| 任丘市| 孟津县| 甘肃省| 衡水市| 潮安县| 萨嘎县| 鲜城| 定州市| 吉安市|