国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

話題內(nèi)相關(guān)文本的內(nèi)容計(jì)算

2015-04-21 10:40劉冬明楊爾弘
中文信息學(xué)報(bào) 2015年5期
關(guān)鍵詞:覆蓋度腳本實(shí)體

劉冬明,楊爾弘

(1.中北大學(xué),山西 太原 030051;2. 北京語言大學(xué),北京 100083)

?

話題內(nèi)相關(guān)文本的內(nèi)容計(jì)算

劉冬明1,楊爾弘2

(1.中北大學(xué),山西 太原 030051;2. 北京語言大學(xué),北京 100083)

信息的暴漲給文本處理帶來了更多的挑戰(zhàn)。話題檢測能夠把大量的信息以話題為單位有效地組織起來,然而最終用戶有可能并不需要涉及某一話題的所有文本,而是僅僅關(guān)心該話題的具體內(nèi)容。在我們根據(jù)相關(guān)文本智能表達(dá)話題內(nèi)容推送給用戶之前,自動(dòng)從相關(guān)文本中挑選符合用戶需求的文本是一個(gè)非常有意義的工作。本文致力于相同話題文本之間的內(nèi)容比較,目的是有效地選出滿足需求的文本。我們通過對(duì)話題進(jìn)行重新定義,并根據(jù)此定義設(shè)定了話題和文本的表示方法,給出了基于該表示方法的話題和文本之間的內(nèi)容比較計(jì)算方法。最后,通過實(shí)驗(yàn)說明了這一系列方法的有效性。

話題定義;文本表示; 話題檢測;文本內(nèi)容計(jì)算

1 引言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,信息規(guī)模迅速增長,相同或相近內(nèi)容的信息,特別是新聞話題,在位置上分散,在形式上多樣,導(dǎo)致信息難以被高效利用。話題檢測與跟蹤[1]、話題演化等相關(guān)技術(shù)正是為了將信息根據(jù)其內(nèi)容以有效合理的形式組織起來。然而對(duì)于最終用戶來講,需要的可能不是關(guān)于某一話題成堆的文本,而是關(guān)于該話題的具體內(nèi)容或某一方面的內(nèi)容。為了精準(zhǔn)地給予用戶所需信息,需要依據(jù)內(nèi)容進(jìn)行自動(dòng)語言生成,然而目前該技術(shù)還遠(yuǎn)未達(dá)到應(yīng)用的要求;另外也可采用多文檔自動(dòng)文摘技術(shù),但在效果上遠(yuǎn)不如原文流暢易讀。

本文研究目標(biāo)就在于從描述某一話題的大量文本中尋找符合用戶需求的文本,這樣的文本或者包含了整個(gè)話題的來龍去脈,或者包含了用戶想要了解的該話題某一方面的較為全面的內(nèi)容。因此,本研究以話題檢測與跟蹤應(yīng)用的結(jié)果作為輸入信息,采用一定方式表示文本內(nèi)容,并對(duì)不同文本進(jìn)行內(nèi)容上的比較計(jì)算,最后結(jié)合用戶需求選出特定的文本。

在上述過程中,文本之間基于內(nèi)容的比較計(jì)算是解決此問題的關(guān)鍵所在,而比較計(jì)算的基礎(chǔ)卻在于文本的表示方法。文本表示直觀來講就是將可以讓人理解的文本在盡量保留目標(biāo)任務(wù)所需信息的前提下,將其轉(zhuǎn)化成方便計(jì)算機(jī)處理的一種形式。這種“形式”是文本表示方法的關(guān)鍵所在,不同的計(jì)算機(jī)處理需求會(huì)要求有不同的表示形式。傳統(tǒng)的文本表示方法有向量空間模型、概率模型、圖模型等。其中向量空間模型是目前話題檢測、文本分類以及信息檢索中應(yīng)用最廣泛的模型構(gòu)架,由Salton于1975年提出[2]。在該模型中,每一個(gè)特征項(xiàng)作為向量空間的一維,每個(gè)文本被表示成n維空間的一個(gè)點(diǎn)。根據(jù)特征選取及特征度量的不同,向量空間模型包括許多形式,典型的如詞頻權(quán)重TF*IDF模型[3]、概念表達(dá)模型[4]、多詞表達(dá)模型[5]、句子表示模型[6]、語義關(guān)系模型[7]、維基百科類別模型[8]等等。概率模型是信息檢索領(lǐng)域中較為成熟的模型[9],在許多應(yīng)用中取得了不錯(cuò)的實(shí)用效果,然而其特征選擇范圍受限、語料稀疏等問題導(dǎo)致其應(yīng)用范圍有限。這兩種表示方式中各個(gè)特征項(xiàng)之間要求獨(dú)立,通常為了提高效率將文本作為“詞袋”處理,忽略了文本中的關(guān)聯(lián)信息,導(dǎo)致對(duì)文本內(nèi)容表達(dá)的先天缺失,因此無法對(duì)文本內(nèi)容進(jìn)行進(jìn)一步刻畫。圖模型含有其他模型經(jīng)常忽略的關(guān)聯(lián)特征,用結(jié)構(gòu)圖而非集合來表示文本,最能體現(xiàn)新聞報(bào)道內(nèi)容和結(jié)構(gòu),但也最難構(gòu)造[10]。使用圖模型來表示文本通常會(huì)導(dǎo)致復(fù)雜度的增加,同時(shí)由于理論基礎(chǔ)不足和知識(shí)資源欠缺,致使執(zhí)行效率低下,并且引入噪音較多,在后續(xù)處理中會(huì)有放大效應(yīng),最終結(jié)果未必如簡單的模型。

本研究中的文本表示同上述方式的差別在于: 本研究中的文本表示是基于話題的,即在已知該文本所對(duì)應(yīng)話題的情況下,采用一種形式表示出該文本所描述的話題相關(guān)內(nèi)容。這種表示方式的基礎(chǔ)在于話題的內(nèi)容,因此,有必要首先對(duì)話題給出一個(gè)明確的可操作性的定義,在此基礎(chǔ)上再定義話題和文本的表示方式和計(jì)算方式。

下面第2節(jié)描述本文所提出的話題可操作性定義,第3節(jié)具體說明話題及相應(yīng)文本的表示方法和內(nèi)容比較計(jì)算方法,第4節(jié)給出這種表示方式和計(jì)算方法的實(shí)驗(yàn)驗(yàn)證過程和結(jié)果,最后是總結(jié)和展望。

2 話題定義

話題,雖然在語言表達(dá)上看似比較明確,但是要給出一個(gè)具體的定義卻很困難。歷史上,許多學(xué)者都對(duì)話題給出過定義,至今為多數(shù)研究者所接納的定義如下:

定義1 話題指一個(gè)核心事件或活動(dòng)以及與之直接相關(guān)的事件或活動(dòng)。

文獻(xiàn)[11]中,Cieriet al詳細(xì)解釋了話題和事件的關(guān)系,并給出了具體規(guī)則,并在TDT2和TDT3評(píng)測*指美國國家標(biāo)準(zhǔn)技術(shù)研究所 (NIST)舉辦的話題檢測與跟蹤的國際會(huì)議和相應(yīng)的系統(tǒng)評(píng)測。中以此作為指導(dǎo)方針,制定了評(píng)測語料庫。雖然這個(gè)定義沿用至今,但是實(shí)際上在脫離了TDT的評(píng)測語料庫之后,這個(gè)定義依然模糊,難以操作。原因如下:

a) 事件是該話題定義中的核心元素,但是目前沒有成熟的技術(shù)能夠比較精確地識(shí)別語料中的事件,因此依據(jù)該話題定義難以準(zhǔn)確地表達(dá)話題;

b) 兩個(gè)事件是否直接“相關(guān)”同樣也沒有明確的機(jī)器可操作的判斷方式。

當(dāng)前的研究僅僅將此定義作為話題檢測與跟蹤系統(tǒng)的參考,無法真正依照此定義實(shí)現(xiàn)相關(guān)應(yīng)用。因此不同的具體實(shí)現(xiàn)技術(shù)暗含了不同的對(duì)話題定義的理解,其應(yīng)用結(jié)果因此不具有可比性。

本文在詳細(xì)考察上述定義在話題應(yīng)用研究中的實(shí)際狀況以及本文研究目標(biāo)的基礎(chǔ)上,為了能夠更好地對(duì)話題中的文本進(jìn)行基于內(nèi)容的合理比較計(jì)算,提出了一個(gè)關(guān)于話題的可操作性定義,該定義建立在對(duì)于話題中的元素——事件,進(jìn)行內(nèi)部分解的基礎(chǔ)上,從而使計(jì)算機(jī)能夠在不失效率的前提下,有效地表示和計(jì)算話題的內(nèi)容。

為了引入本文的話題定義,我們首先需要定義抽象事件和抽象腳本:

定義2 抽象事件是指具體事件中移除所有實(shí)體之后的描述,其表征就是描述事件的詞即事件詞。

定義3 抽象腳本是指連續(xù)發(fā)生的一系列具有前因后果關(guān)系的抽象事件。

例如: 在關(guān)于故宮被盜的話題中,“盜竊”、“抓捕”等就是抽象事件,而將所有抽象事件有機(jī)的聯(lián)系在一起就構(gòu)成了抽象腳本: 展覽活動(dòng)中展品被盜、立案、偵查、抓捕、起訴、結(jié)案的過程,其形式化表示為一組相關(guān)的事件詞的集合,即: {“被盜”、“立案”、“偵查”、“抓捕”、“起訴”、“結(jié)案”}。

定義4 話題是一個(gè)或多個(gè)抽象腳本和具體的時(shí)間、地點(diǎn)、人物等實(shí)體相結(jié)合的描述。

從以上定義可以看到,本文將話題分成了具有關(guān)聯(lián)關(guān)系的兩個(gè)部分: 抽象腳本集和實(shí)體集。實(shí)體集中的每一個(gè)實(shí)體都和話題中的某一個(gè)抽象腳本相關(guān),其實(shí)質(zhì)作用即將抽象事件轉(zhuǎn)化成了具體的話題中的事件。例如: {“被盜”、“立案”、“偵查”、“抓捕”、“起訴”、“結(jié)案”}這個(gè)抽象腳本,如果結(jié)合了實(shí)體集{“故宮”、 “展品”、 “公安機(jī)關(guān)”、 “嫌疑人”}就代表了故宮被盜這個(gè)話題。

對(duì)比定義4和定義1,可以得出如下幾點(diǎn):

a) 兩個(gè)定義對(duì)話題組成部分的描述角度不同;

定義1將話題表示為一個(gè)集合,其元素是事件或活動(dòng),在這個(gè)集合中僅有一個(gè)特定元素即核心事件,其余元素處于同等地位,同時(shí)隱含表達(dá)了包含核心事件同其他元素之間具有“相關(guān)”關(guān)系的集合。而定義4是對(duì)話題分成兩個(gè)不同性質(zhì)的部分: 抽象腳本集和實(shí)體集,同時(shí)隱含表達(dá)了包含抽象腳本同實(shí)體具有的關(guān)系集合。

b) 兩個(gè)定義對(duì)話題組成的描述粒度不同;

定義1中關(guān)于話題組成部分中事件或活動(dòng)是其不可拆分的原子成分,在定義4中實(shí)質(zhì)上將具體事件拆成了抽象事件和涉及的實(shí)體兩個(gè)部分,并且這兩個(gè)部分以當(dāng)前的應(yīng)用技術(shù)來講都是可識(shí)別的。

c) 兩個(gè)定義對(duì)相關(guān)性的表達(dá)不同;

定義1中關(guān)于事件“相關(guān)”沒有明確的說明,定義4中將這種“相關(guān)”表達(dá)成了抽象事件同屬于一個(gè)抽象腳本的關(guān)系,而抽象腳本本質(zhì)上是基于一定場景的,也就是說應(yīng)該是一種比較穩(wěn)定的結(jié)構(gòu),可以通過人工方式或機(jī)器學(xué)習(xí)方式來構(gòu)造,因此可以說通過這一定義,計(jì)算機(jī)可以學(xué)習(xí)和表示出抽象事件的相關(guān)性,而事件的相關(guān)性其本質(zhì)就是其所對(duì)應(yīng)的抽象事件的相關(guān)性。

d) 拋開相關(guān)評(píng)論部分之后,二者對(duì)于話題定義的外延在本質(zhì)上是相同的。

從以上幾點(diǎn)可以看到,僅從定義的內(nèi)涵出發(fā),本文提出的定義4是對(duì)話題的更加結(jié)構(gòu)化、細(xì)致化的描述,結(jié)合其組成成分的計(jì)算機(jī)可識(shí)別性,在外延本質(zhì)相同的情況下,應(yīng)該更具有可操作性。

3 話題和文本的表示和計(jì)算

3.1 話題和文本的表示

根據(jù)上一節(jié)給出的話題的可操作性定義,可以將話題表示成如圖1所示的形式:

圖1 話題表示示意圖

這里需要說明如下幾點(diǎn):

a) 抽象腳本在表現(xiàn)形式上就是抽象事件的集合,而抽象事件表現(xiàn)為表示事件的詞,一般來說是動(dòng)詞或具有動(dòng)詞意義的名詞,我們統(tǒng)稱之為事件詞。因此,這里抽象腳本就是相關(guān)事件詞的集合。

b) 實(shí)體在表現(xiàn)形式上可能是話題中提到的命名實(shí)體或者和事件相關(guān)的普通名詞。

c) 每一個(gè)實(shí)體都對(duì)應(yīng)一個(gè)抽象腳本,不能對(duì)應(yīng)抽象腳本的實(shí)體對(duì)于話題內(nèi)容來講是沒有意義的。同時(shí),一個(gè)實(shí)體可能對(duì)應(yīng)多個(gè)抽象腳本。

從這種表示方式可以看出,抽象腳本是話題的核心,而實(shí)體只有依附于抽象腳本才在話題表達(dá)中具有意義,這和我們對(duì)話題的定義是一致的。因此這種話題表示方式的關(guān)鍵條件是必須事先具備關(guān)于要表示的話題的抽象腳本,并且抽象腳本的質(zhì)量決定了這種表示方式對(duì)話題內(nèi)容的表達(dá)能力。

依據(jù)圖1和上述分析,可以將話題采用如下三元組的形式化表示:

T=

J={A1,A2,…Ai, …AN} 其中Ai={wi1,wi2,…wik, …wiM}

E= {e1,e2,…ei, …eK}

R={|Ai∈J,Ui?E}

其中,T表示話題內(nèi)容,J表示抽象腳本集合,Ai表示抽象腳本,wik代表抽象腳本Ai中的事件詞,E為話題所包含的所有實(shí)體構(gòu)成的集合,ei為話題中的某一實(shí)體,Ui為和抽象腳本Ai關(guān)聯(lián)的實(shí)體集合,是E的子集。

對(duì)于話題中文本的表示方式,根據(jù)本文前面的論述,我們主要研究的是基于話題內(nèi)容的文本表示,因此可以設(shè)定文本的表示方式同話題表示方式一樣,差別僅僅在于特定文本的內(nèi)容是話題的一部分。

3.2 基于話題內(nèi)容的文本計(jì)算

本文的目標(biāo)在于考察文本表達(dá)了話題的多少內(nèi)容,或者表達(dá)了話題某一方面的多少內(nèi)容,并給出相應(yīng)的數(shù)值,作為推送給最終用戶的依據(jù)。這里所說的話題的某一方面,指的就是話題中的某一個(gè)抽象腳本。我們把獲取的數(shù)值稱之為文本對(duì)話題的內(nèi)容覆蓋度。

因此,如果將話題用上一小節(jié)三元組的形式化方式表達(dá)出來以后,那么需要針對(duì)話題內(nèi)的每一個(gè)文本,將其表示為該話題三元組的形式,然后以基于集合的方式進(jìn)行內(nèi)容覆蓋度的計(jì)算。其中關(guān)鍵之處有如下三個(gè):

1) 抽象腳本和文本的關(guān)系

詞同文本的關(guān)系是明確的,因?yàn)槲覀兺ǔ⑽谋咀鳛樵~袋處理,即詞的集合,那么具體一個(gè)詞要么屬于文本要么不屬于文本。而抽象腳本本身是事件詞的集合,它同文本的關(guān)系就成了兩個(gè)集合之間的關(guān)系,難以簡單的確定文本是否包含抽象腳本。因此,這里我們采用閾值過濾的方法將其轉(zhuǎn)化為布爾值,設(shè)x表示文本,Ai表示抽象腳本,Sx表示文本x中的所有事件詞構(gòu)成的集合,w表示事件詞,那么文本對(duì)抽象腳本的包含程度如式(1)所示:

(1)

其中f(w)是事件詞w的權(quán)值,這里采用領(lǐng)域特征值[12]來計(jì)算,表示w的領(lǐng)域特性。

2) 文本關(guān)于話題的某個(gè)抽象腳本的內(nèi)容覆蓋度

如果根據(jù)上述判別方法判斷出文本x包含抽象腳本Ai的程度,然后綜合考慮同這個(gè)抽象腳本相關(guān)的實(shí)體,采用式(2)計(jì)算x對(duì)于Ai的內(nèi)容覆蓋度。

(2)

式(2)中λA、λE、λG分別為抽象腳本本身、該抽象腳本所對(duì)應(yīng)的命名實(shí)體、該抽象腳本所對(duì)應(yīng)的普通名詞的權(quán)重,這里要求λA+λE+λG=1。ExAi為文本x中抽象腳本Ai所對(duì)應(yīng)的命名實(shí)體數(shù)量,ETAi為話題中抽象腳本Ai所對(duì)應(yīng)的命名實(shí)體數(shù)量,同樣GxAi為文本x中抽象腳本Ai所對(duì)應(yīng)的普通名詞數(shù)量,GTAi為話題中抽象腳本Ai所對(duì)應(yīng)的普通名詞數(shù)量。因此如果抽象腳本Ai包含了話題中關(guān)于抽象腳本Ai的全部內(nèi)容,則x對(duì)于Ai的內(nèi)容覆蓋度為1。

3) 文本關(guān)于話題的內(nèi)容覆蓋度

(3)

(4)

這個(gè)公式的意義就在于使用話題中每一個(gè)抽象腳本的內(nèi)容覆蓋度加權(quán)平均作為整個(gè)文本的話題內(nèi)容覆蓋度。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)設(shè)計(jì)

本實(shí)驗(yàn)的目標(biāo)在于驗(yàn)證話題的定義和話題及文本的表示是否有效。以本文引言中提出的應(yīng)用需求作為驗(yàn)證方法,即通過采用第3節(jié)提出的話題及文本表示方式和內(nèi)容覆蓋度的計(jì)算方法,在某一個(gè)話題相關(guān)的文本集合中找到滿足用戶需求的文本。

本實(shí)驗(yàn)的前提是必須有該話題的抽象腳本。我們采用人工的方式從話題中提取抽象腳本,以保證抽象腳本的質(zhì)量,使實(shí)驗(yàn)盡可能排除其他干擾因素,真實(shí)反映本文所提出話題和文本的表示和計(jì)算方式的能力。

實(shí)驗(yàn)步驟如下:

1) 從新浪網(wǎng)站專題“故宮被盜”中下載了100篇文本作為實(shí)驗(yàn)語料,并對(duì)其進(jìn)行分詞標(biāo)注。

2) 從所有文本中提取事件詞(動(dòng)詞或動(dòng)名詞),人工整理并分類,確定了六個(gè)抽象腳本: 分別代表展覽過程、防范過程、偵查過程、抓捕過程、盜竊過程、司法過程的事件詞集合。

3) 人工從100篇文本中挑選出對(duì)每個(gè)抽象腳本描述最詳細(xì)的文本,以及整體上描述最詳細(xì)的文本和描述內(nèi)容最少的文本各自五篇。

4) 將所有的100篇文本的合集作為話題,從文本中以句子作為語義范圍提取每個(gè)抽象腳本對(duì)應(yīng)的實(shí)體集合,然后以第3節(jié)公式分別計(jì)算每個(gè)文本相對(duì)話題中每個(gè)抽象腳本的內(nèi)容覆蓋度以及整體的內(nèi)容覆蓋度,針對(duì)每個(gè)抽象腳本找到內(nèi)容覆蓋度最大的五篇文本,整體內(nèi)容覆蓋度最大的五篇文本以及內(nèi)容覆蓋度最少的五篇文本。

5) 將計(jì)算結(jié)果同人工挑選的結(jié)果進(jìn)行對(duì)比。

計(jì)算內(nèi)容覆蓋度時(shí)采用的參數(shù)取值為λA=0.61,λE=0.27,λG=0.12,是根據(jù)經(jīng)驗(yàn)以及重復(fù)實(shí)驗(yàn)來確定的。

4.2 結(jié)果分析

實(shí)驗(yàn)結(jié)果如表1所示。

表1 文本覆蓋度計(jì)算結(jié)果

這里的正確率采用如下方式計(jì)算:

從結(jié)果可以看出,這種計(jì)算方法完全能夠符合我們的應(yīng)用要求。實(shí)驗(yàn)結(jié)果是根據(jù)符合條件的前五名得出的,如果每一種類只選一個(gè)文本的話,那么除了最后一條“整體覆蓋率最小”和“司法過程”之外都和人工方式是一致的。原因是整體覆蓋率最小的計(jì)算結(jié)果有五篇都是為零的,如: “單士兵: 故宮,你丟了最寶貴的文化鑰匙”、“民辦博物館將納入免費(fèi)開放范圍”、“有憾于故宮的接連失守”等等。這些文本的內(nèi)容大部分只是提及了故宮被盜,沒有描述過程,或者轉(zhuǎn)述了其他相關(guān)話題如“錦旗錯(cuò)別字”和“故宮內(nèi)建會(huì)所”,或者是全部評(píng)論。對(duì)于抽象腳本“司法過程”的正確率較低是因?yàn)槲覀冞x取的描述該抽象腳本的事件詞同測試中人工選取的一篇文本中的描述偏差較大,由此也可以看出這種選取和計(jì)算方法的關(guān)鍵在于抽象腳本的質(zhì)量,不論是人工確定抽象腳本還是自動(dòng)生成抽象腳本的方式,抽象腳本對(duì)于內(nèi)容覆蓋的全面性和準(zhǔn)確性是會(huì)相互制約的。

雖然實(shí)驗(yàn)結(jié)果非常好,但是這是在人工針對(duì)待測語料專門制定的抽象腳本的基礎(chǔ)上產(chǎn)生的,在實(shí)際應(yīng)用中不可能針對(duì)每一個(gè)話題都由人工制定抽象腳本,因此本實(shí)驗(yàn)只能說明話題表示方法和計(jì)算方法的有效性,實(shí)際應(yīng)用還必須依賴合理的抽象腳本的自動(dòng)生成。

5 總結(jié)和展望

本文面向話題檢測之后的信息需求,為話題賦予了一個(gè)可操作性定義,在此基礎(chǔ)上提出了話題及話題中文本的表示方式,文本和話題內(nèi)容的計(jì)算方法,并通過實(shí)驗(yàn)進(jìn)行了驗(yàn)證。在這一系列概念中,關(guān)鍵之處在于本文提出的抽象腳本的概念,通過它可以清晰地鑒定話題的內(nèi)容范圍,可以量化話題和文本的內(nèi)容,特別是抽象腳本具有一定的穩(wěn)定度,一次生成可以多次使用,這樣可以有效地提升計(jì)算結(jié)果的效率和效果。

我們?cè)趯?shí)驗(yàn)中為了說明文本和話題表示及計(jì)算方法的有效性,采用了人工生成抽象腳本的方法。在實(shí)際的應(yīng)用中,由于話題種類繁多,這種方式較為費(fèi)時(shí)費(fèi)力,因此在下一步的研究中,我們將考慮將待測話題結(jié)合語義知識(shí)來自動(dòng)生成抽象腳本,并且通過實(shí)際應(yīng)用不斷提高抽象腳本的質(zhì)量;同時(shí)由于抽象腳本的穩(wěn)定性,我們將考慮如何將抽象腳本作為知識(shí)庫應(yīng)用于話題檢測與跟蹤,以提升當(dāng)前的話題檢測與跟蹤應(yīng)用系統(tǒng)。

[1] 洪宇, 張宇, 劉挺, 等. 話題檢測與跟蹤的評(píng)測及研究綜述[J]. 中文信息學(xué)報(bào),2007,21(6), 71-87.

[2] Salton Gerard, Anita Wong, and Chung-Shu Yang. A vector space model for automatic indexing[J]. Communications of the ACM,1975,18(11): 613-620.

[3] Salton G, Buckley C. Term-weighting approaches in automatic text retrieval[J]. Information processing & management, 1988,24(5): 513-523.

[4] Zeng C, Lu Z, Gu J. A new approach to Email classification using Concept Vector Space Model[C]//Proceedings of Future Generation Communication and Networking Symposia, 2008. FGCNS’08. Second International Conference on IEEE,2008, 3:162-166.

[5] Liddy E D. Enhanced text retrieval using natural language processing[J]. Bulletin of the American Society for Information Science and Technology,1998,24(4): 14-16.

[6] Keikha M, Khonsari A, Oroumchian F. Rich document representation and classification: An analysis[J]. Knowledge-Based Systems, 2009,22(1), 67-71.

[7] Scott S, Matwin S. Text classification using WordNet hypernyms[A]. In Use of WordNet in natural language processing systems: Proceedings of the conference[C].1998: 38-44.

[8] 王錦, 王會(huì)珍, 張俐. 基于維基百科類別的文本特征表示[J]. 中文信息學(xué)報(bào),2011,25(2): 27-31.

[9] Jones K S, Walker S, Robertson S E. A probabilistic model of information retrieval: development and comparative experiments: Part 1[J].Information Processing & Management, 2000,36(6): 779-808.

[10] Schenker A, Last M, Bunke H, et al. Classification of web documents using graph matching[J]. International Journal of Pattern Recognition and Artificial Intelligence,2004, 18(03), 475-496.

[11] Cieri C, Strassel S, Graff D,et al. Corpora for topic detection and tracking[A]. In Topic detection and tracking[C]//Springer US.2002: 33-66.

[12] 劉冬明, 楊爾弘. 量化詞語的領(lǐng)域特征[J]. 中文信息學(xué)報(bào), 2014,28(5): 46-50.

劉冬明(1972—),講師,博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:dmliutomorrow@126.com楊爾弘(1965—),通信作者,博士,教授,主要研究領(lǐng)域?yàn)檎Z言信息處理、語言監(jiān)測。E-mail:yerhong@126.com

第十四屆全國計(jì)算語言學(xué)會(huì)議在廣東外語外貿(mào)大學(xué)成功召開

“中國中文信息學(xué)會(huì)2015年學(xué)術(shù)年會(huì)暨第十四屆全國計(jì)算語言學(xué)會(huì)議”與“第三屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(huì)”于2015年11月13—14日在廣東外語外貿(mào)大學(xué)成功舉行。

會(huì)議主辦單位為中國中文信息學(xué)會(huì),組織單位為清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室,承辦單位為廣東外語外貿(mào)大學(xué)。中國中文信息學(xué)會(huì)理事長李生教授和廣東外語外貿(mào)大學(xué)校長仲偉合教授在開幕式上致辭,中國中文信息學(xué)會(huì)副理事長清華大學(xué)孫茂松教授、中國中文信息學(xué)會(huì)副理事長北京理工大學(xué)黃河燕教授和中國中文信息學(xué)會(huì)副理事長兼秘書長中國科學(xué)院軟件研究所孫樂研究員等出席了本次會(huì)議。

會(huì)議收到稿件283篇,錄用口頭報(bào)告論文79篇(中文53篇,英文26篇),錄取率約為28%。會(huì)議評(píng)選出最佳英文論文1篇。會(huì)議錄用的中文論文推薦至《中文信息學(xué)報(bào)》、《計(jì)算機(jī)工程與科學(xué)》和《小型微型計(jì)算機(jī)系統(tǒng)》發(fā)表,英文論文由SpringerLNAI出版,在線論文集網(wǎng)址:http://link.springer.com/book/10.1007%2F978-3-319-25816-4。該在線論文集在2015年12月4日之前可免費(fèi)下載。

本次會(huì)議的投稿數(shù)量和注冊(cè)參會(huì)人數(shù)均創(chuàng)歷史新高。與會(huì)者普遍反映此次活動(dòng)具有很高學(xué)術(shù)水準(zhǔn)、很強(qiáng)的前沿性和多學(xué)科交叉性,學(xué)術(shù)討論廣泛、深入,學(xué)術(shù)氛圍濃厚,共享了一場饕餮學(xué)術(shù)盛宴。

“第十五屆全國計(jì)算語言學(xué)會(huì)議”和“第四屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(huì)”將于2016年10月在魯東大學(xué)舉行。

On Text Content Computing within an Topic

LIU Dongming1, YANG Erhong2

(1. North University of China, Taiyuan, Shanxi 030051, China;2. Beijing Language and Culture University, Beijing 100083, China)

The topic detection can effectively organize the vast information into topics with the unit of text, but end users do not need all the texts on a topic. Instead, they may just demand certain specific content of the topic. To achieve the intelligent push of the relevant content in a topic to the user, it is essential to select the corresponding part of the texts according to the needs of users. This paper compares the contents between the texts in a topic and effectively selects the texts which meets the needs of the user. We redefine the topic and represent the topic and the text according to this definition. Then we design a computation method between the texts and topic based on this representation. Finally, the experiment demonstrates the effectiveness of this approach.

topic definition; textual representation; topic detection; text content computing

1003-0077(2015)05-0098-06

2015-07-31 定稿日期: 2015-09-30

國家語委“十二五”科研規(guī)劃項(xiàng)目(YB125-43)

TP391

A

猜你喜歡
覆蓋度腳本實(shí)體
酒駕
呼和浩特市和林格爾縣植被覆蓋度變化遙感監(jiān)測
八步沙林場防沙治沙區(qū)植被覆蓋度時(shí)空演變分析
基于NDVI的晉州市植被覆蓋信息提取
遼寧省地表蒸散發(fā)及其受植被覆蓋度影響研究
安奇奇與小cool 龍(第二回)
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
快樂假期
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”