趙旭劍等
摘要:新聞話題抽取對(duì)于話題模型構(gòu)建以及新聞話題挖掘具有重要的研究意義和應(yīng)用價(jià)值。傳統(tǒng)的方法僅僅通過(guò)提取關(guān)鍵詞包來(lái)表示話題,缺乏完整的話題語(yǔ)義信息描述。針對(duì)該問(wèn)題,本文從話題事件要素入手,建立話題語(yǔ)義模型,利用淺層語(yǔ)法特征抽取話題語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,本文算法能有效提取新聞話題要素,抽取結(jié)果具有一定的語(yǔ)義表達(dá)能力。
關(guān)鍵詞:話題語(yǔ)義信息; 話題抽??; 事件要素; Text Rank
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)14-0176-03
Abstract:News topic extraction is of great significance and value for topic model construction and news topic discovery. The traditional methods only extract the key words to express the topic and lack the complete topic semantic information description. Aiming at this issue, this paper starts study in the view of the event elements, and builds the topic semantic model, so as to extracts the topic semantic information by using shallow syntax features. The experiment results show that the proposed method can extract the news topic information effectively and the output has certain semantic expression ability.
Key words:topic semantic information; topic extraction; event elements; Text Rank
隨著網(wǎng)絡(luò)的高速發(fā)展,不僅網(wǎng)民呈現(xiàn)爆炸式增長(zhǎng),而且導(dǎo)致信息量也大幅度的增長(zhǎng),這為我們帶來(lái)了很多好處,在搜集信息的時(shí)候我們能夠很快地找到大量的相關(guān)信息,但是同時(shí)也帶來(lái)了很大的麻煩,那就是信息量過(guò)大,我們?cè)趺礃硬拍軌蚩焖僬业綄?duì)我們有價(jià)值的信息成為當(dāng)前計(jì)算機(jī)領(lǐng)域的熱點(diǎn)問(wèn)題。顯然,通過(guò)對(duì)信息進(jìn)行語(yǔ)義化的重組和表達(dá),形成便于人們理解的語(yǔ)義信息將是解決這一難題的關(guān)鍵技術(shù)。網(wǎng)絡(luò)新聞作為互聯(lián)網(wǎng)數(shù)據(jù)的重要組成部分,越來(lái)越體現(xiàn)出對(duì)于社會(huì)大眾的影響力,日益趕超傳統(tǒng)媒體新聞,成為人們獲取社會(huì)資訊的主要方式。面對(duì)大量的新聞事件,如何快速有效的從中獲取有價(jià)值的語(yǔ)義信息,意義重大,也逐漸成為Web數(shù)據(jù)挖掘的研究熱點(diǎn)。已有的研究方法[1,2]僅通過(guò)提取關(guān)鍵詞來(lái)表示話題,缺乏對(duì)話題語(yǔ)義的分析以及事件要素的提取,以關(guān)鍵詞包構(gòu)成的新聞話題挖掘結(jié)果大大影響用戶對(duì)新聞事件的理解。針對(duì)該問(wèn)題,本文提出一種針對(duì)網(wǎng)絡(luò)新聞的話題語(yǔ)義信息抽取方法,從話題事件要素入手,建立話題語(yǔ)義模型,利用淺層語(yǔ)法特征抽取話題語(yǔ)義信息。實(shí)驗(yàn)結(jié)果表明,本文算法能有效提取新聞話題要素,抽取結(jié)果具有一定的話題語(yǔ)義表達(dá)能力。
1 話題語(yǔ)義模型
幾乎所有致力于新聞學(xué)研究或者新聞報(bào)道寫作的人們都沿用了Mott[3]提出的新聞5Ws(Who、What、When、Where、Why)要素學(xué)說(shuō)作為新聞結(jié)構(gòu)的基本準(zhǔn)則從不同角度挖掘新聞話題的具體含義。中文網(wǎng)絡(luò)新聞作為新聞?lì)}材的一個(gè)分支,其結(jié)構(gòu)也應(yīng)滿足5Ws準(zhǔn)則。這樣的五元素結(jié)構(gòu)可以完整地表示新聞話題而不受限于新聞格式或者語(yǔ)言,日益成為當(dāng)前主流的新聞表示結(jié)構(gòu)?;趯?duì)600篇中文新聞網(wǎng)頁(yè)的分析統(tǒng)計(jì),我們發(fā)現(xiàn)分別有98%、100%、72.67%、84.83%和37.33%的新聞包含Who、What、Where、When和Why元素,Who、What、Where和When四個(gè)元素相對(duì)Why具有更大的比重。同時(shí),我們注意到新聞?dòng)脩羰褂眯侣勊阉饕鏁r(shí),查詢的關(guān)鍵詞也主要來(lái)源于Who、What、Where和When四類元素,說(shuō)明這四類元素在話題表達(dá)上更具有代表性。
同時(shí),針對(duì)新聞標(biāo)題,我們進(jìn)行了中文分詞和詞性標(biāo)注,得到如表1所示的統(tǒng)計(jì)結(jié)果。從表格數(shù)據(jù)不難發(fā)現(xiàn)新聞核心四元素主要集中來(lái)源于五類詞語(yǔ),即名詞、動(dòng)詞、非謂語(yǔ)形容詞、時(shí)態(tài)詞以及數(shù)詞。因此,對(duì)于標(biāo)注后的結(jié)果我們只需要關(guān)注以上五類詞語(yǔ),在細(xì)化抽取對(duì)象的同時(shí)排除助詞、連詞等噪聲詞語(yǔ)對(duì)于話題抽取的干擾。
2 話題信息提取
根據(jù)第二節(jié)中關(guān)于話題模型的討論,本文對(duì)網(wǎng)絡(luò)新聞進(jìn)行中文詞性標(biāo)注和命名實(shí)體識(shí)別,選取具有話題語(yǔ)義特征的關(guān)鍵詞作為話題模型元素,同時(shí)采用Text Rank模型[4]計(jì)算話題特征權(quán)重,根據(jù)閾值設(shè)置提取關(guān)鍵詞構(gòu)成新聞話題語(yǔ)義信息。
2.1 詞性標(biāo)注與命名實(shí)體識(shí)別
中文分詞是將漢字序列切分成詞序列,對(duì)于輸入句子的詞序列,模型給句子中的每個(gè)詞標(biāo)注一個(gè)詞性標(biāo)記。因?yàn)樵跐h語(yǔ)中,詞是承載語(yǔ)義的最基本的單元,分詞成了是包括信息檢索、文本分類、情感分析等多項(xiàng)中文自然語(yǔ)言處理任務(wù)的基礎(chǔ)。詞性標(biāo)注是給句子中每個(gè)詞一個(gè)詞性類別的任務(wù)。這里的詞性類別可能是名詞、動(dòng)詞、形容詞或其他。針對(duì)本文的話題模型,我們主要選擇五類詞語(yǔ),即名詞、動(dòng)詞、非謂語(yǔ)形容詞、時(shí)態(tài)詞以及數(shù)詞。命名實(shí)體(Named Entity,NE)[5]是文本中基本的信息單位,是文本中的固有名稱、縮寫及其他唯一標(biāo)志,是正確理解文本的基礎(chǔ)。狹義地講,可以把命名實(shí)體分為人名、地名、組織名等。廣義地講,命名實(shí)體還可以包括時(shí)間表達(dá)式,數(shù)值表達(dá)式等,在各種應(yīng)用領(lǐng)域,還可以根據(jù)具體的需要定義其他類型的命名實(shí)體,例如,在某個(gè)具體應(yīng)用中,可能需要把住址、電子信箱、電話號(hào)碼、會(huì)議名稱等作為命名實(shí)體。簡(jiǎn)單來(lái)說(shuō)實(shí)體識(shí)別即識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等。與詞性標(biāo)注相同,我們通過(guò)命名實(shí)體識(shí)別篩選具有話題語(yǔ)義特征的關(guān)鍵詞。
2.2 話題語(yǔ)義特征抽取
新聞報(bào)道的核心思想(話題)是由文中的詞項(xiàng)來(lái)體現(xiàn)。通過(guò)詞語(yǔ)間的語(yǔ)義關(guān)系分析,找出最能代表該新聞核心內(nèi)容的特征詞項(xiàng)。為了彌補(bǔ)傳統(tǒng)方法(TF-IDF模型)只計(jì)算文中詞語(yǔ)詞頻而沒(méi)有考慮詞項(xiàng)之間語(yǔ)義關(guān)系的不足,本文通過(guò)構(gòu)建詞項(xiàng)間的Text Rank模型[4],分析多文檔間詞項(xiàng)的語(yǔ)義關(guān)系,抽取出有效關(guān)鍵詞。
Text Rank與Google提出的Page Rank非常類似,它本質(zhì)是在以詞匯作為頂點(diǎn)、詞之間關(guān)聯(lián)作為帶權(quán)或無(wú)權(quán),有向或無(wú)向邊的圖上進(jìn)行random walk的過(guò)程[6]。Text Rank模型表示為一個(gè)帶權(quán)有向圖G=(V,E),由點(diǎn)集合V和邊集合E組成,E是V×V的子集,圖中兩點(diǎn)i,j之間的權(quán)重為Wji。對(duì)于一個(gè)給定的點(diǎn)Vi,In(Vi)為指向該點(diǎn)的點(diǎn)集合,Out(Vi)為點(diǎn)Vi指向的點(diǎn)集合。點(diǎn)Vi的分?jǐn)?shù)定義為:
[WS(Vi)=(1-d)+d*Vj∈In(Vi)wjiVk∈Out(Vj)wjkWS(Vj)]
其中,d為阻尼因數(shù),取值范圍為0到1,代表從圖中某一特定點(diǎn)指向其他任一點(diǎn)的概率。在使用Text Rank算法計(jì)算圖中點(diǎn)的分?jǐn)?shù)時(shí),需要給圖中的點(diǎn)指定任意的初值并遞歸計(jì)算知道某個(gè)詞語(yǔ)分?jǐn)?shù)收斂,收斂后每個(gè)點(diǎn)都獲得一個(gè)分?jǐn)?shù),代表該點(diǎn)在圖中的重要性。需要注意,點(diǎn)的最后分?jǐn)?shù)不受給定初值的影響,點(diǎn)的初值只影響該算法達(dá)到收斂的迭代次數(shù)。根據(jù)基于圖排序算法的基本理論,可以在具有語(yǔ)義關(guān)系的詞語(yǔ)之間連線構(gòu)建Text Rank模型。根據(jù)詞語(yǔ)之間的相互“投票”,遞歸計(jì)算詞語(yǔ)分?jǐn)?shù),選擇分?jǐn)?shù)較大的詞語(yǔ)為重要詞語(yǔ),其中不和任何詞語(yǔ)有連線的詞語(yǔ)為孤立點(diǎn)。
構(gòu)建Text Rank模型是根據(jù)待選關(guān)鍵詞詞語(yǔ)之間的語(yǔ)義相似關(guān)系大小來(lái)決定是否在兩個(gè)詞語(yǔ)之間建立邊。因此,Text Rank圖是帶權(quán)無(wú)向圖,邊的權(quán)重為兩個(gè)詞語(yǔ)之間的關(guān)聯(lián)度,通過(guò)詞語(yǔ)間的投票遞歸計(jì)算出權(quán)重,關(guān)鍵詞的選取按分?jǐn)?shù)序列從高到低選擇,選取范圍可以根據(jù)需要設(shè)置。
3 實(shí)驗(yàn)結(jié)果與分析
為了評(píng)測(cè)本文算法的有效性,我們利用從網(wǎng)易爬取的500篇新聞進(jìn)行話題語(yǔ)義信息抽取算法的實(shí)驗(yàn)分析。對(duì)抽取結(jié)果本文結(jié)合搜狗地圖,以可視化的方式進(jìn)行展示,為用戶帶來(lái)一種全新的新聞瀏覽體驗(yàn)。
3.1 話題語(yǔ)義信息抽取結(jié)果
因?yàn)橐粋€(gè)新聞事件中可能存在多個(gè)人名、地名、名詞和動(dòng)詞,如何確定將那些人名、地名、名詞和動(dòng)詞作為一個(gè)事件的事件要素,這就需要對(duì)事件要素進(jìn)行權(quán)重計(jì)算,利用Text Rank算法算出眾多事件要素的權(quán)重,進(jìn)行篩選,得出最核心的事件要素作為一個(gè)新聞話題的關(guān)鍵詞。實(shí)驗(yàn)中將得到的關(guān)鍵詞如圖1所示。
3.2 抽取結(jié)果可視化展示
我們調(diào)用搜狗地圖,對(duì)事件地點(diǎn)進(jìn)行定位,通過(guò)比較事件要素的權(quán)重大小可以獲得事件地點(diǎn),然后添加事件描述(即新聞事件的標(biāo)題,時(shí)間以及抽取下來(lái)的其他話題要素),對(duì)事件進(jìn)行可視化展示。如圖2所示,在圖中我們可以清晰地看到有三個(gè)地方做了位置標(biāo)記(金昌市、白銀市、太原),這三個(gè)地方分別是從三個(gè)話題中抽取出來(lái)的話題地點(diǎn),而每個(gè)話題中可能有多個(gè)地點(diǎn),但是它們的權(quán)重都是不同的,所以通過(guò)比較權(quán)重很容易確定時(shí)間的發(fā)生地點(diǎn)。其他的話題要素也是通過(guò)比較它們的權(quán)重得出的。
如圖2所示,當(dāng)鼠標(biāo)點(diǎn)擊地理位置時(shí),就會(huì)出現(xiàn)關(guān)于該地方最近發(fā)生的新聞事件內(nèi)容摘要,該內(nèi)容摘要正是新聞話題語(yǔ)義信息提取結(jié)果整理后的文字表達(dá)。
參考文獻(xiàn):
[1] 羅凌, 陳毅東, 曹茂元. 微博觀點(diǎn)句識(shí)別的話題影響研究[J]. 電腦知識(shí)與技術(shù),2014,01:123-127.
[2] 談成訪, 汪材印. 基于LDA模型的新聞話題分類研究[J]. 電腦知識(shí)與技術(shù),2014(16):3795-3797.
[3] Mott F L. Trends in Newspaper Content[J]. Annals of the American Academy of Political and Social Science, 1942, 219: 60-65.
[4] 陳宏,陳偉. 基于突發(fā)特征分析的事件檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用研究, 2011, 28(1): 117-120.
[5] 向曉雯. 基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別[D]. 廈門大學(xué), 2006.
[6] Pearson, K. The Problem of the Random Walk[J]. Nature. 1905, 72:294.