国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于樸素貝葉斯的內(nèi)容選擇方法

2017-07-05 12:59龔雋鵬曹娟
關(guān)鍵詞:傳媒大學(xué)貝葉斯樸素

龔雋鵬,曹娟

(1.中國傳媒大學(xué)理工學(xué)部,北京 100024;2.中國傳媒大學(xué)新媒體研究院,北京 100024)

一種基于樸素貝葉斯的內(nèi)容選擇方法

龔雋鵬1,曹娟2

(1.中國傳媒大學(xué)理工學(xué)部,北京 100024;2.中國傳媒大學(xué)新媒體研究院,北京 100024)

主要研究通過語料庫自動(dòng)學(xué)習(xí)特定領(lǐng)域的內(nèi)容選擇方法。我們基于語料庫提出了選擇的內(nèi)容特征,通過樸素貝葉斯方法訓(xùn)練出一個(gè)內(nèi)容選擇模型。實(shí)驗(yàn)標(biāo)明,該方法在特定領(lǐng)域的內(nèi)容選擇任務(wù)中可以取得較好的效果。

內(nèi)容選擇模型;樸素貝葉斯;內(nèi)容特征

1 引言

內(nèi)容選擇是自然語言生成中的一個(gè)重要任務(wù)。在自然語言生成系統(tǒng)中,我們通常將特定某一次內(nèi)容生成的上下文稱為場景Scenarios。不同的場景,生成的文本也相應(yīng)不同。在某場景下,提供的信息通常和領(lǐng)域、用戶等不同的內(nèi)容相關(guān),我們將選擇恰當(dāng)?shù)男畔⑻峁┙o用戶的過程叫做內(nèi)容選擇。

表1是一個(gè)內(nèi)容選擇的實(shí)例,對于出現(xiàn)的概念實(shí)體包括天空遮蔽情況、降雨概率、降雪概率和風(fēng)向,每個(gè)概念對應(yīng)了1到多個(gè)實(shí)例;表格第一列標(biāo)明概念是否選中;表格第二列標(biāo)明所屬概念;表格第三列標(biāo)明實(shí)例的屬性及其取值。其輸入可看作是一個(gè)概念的名-值對的集合Set〈topic,propertySet〉,輸出是一個(gè)被選中的概念名-值對的子集Setselected〈topic,propertySet〉,從集合Set〈topic,propertySet〉到集合Setselected〈topic,propertySet〉的過程就是一個(gè)內(nèi)容選擇過程。其中子集Setselected〈topic,propertySet〉就是包含了最終向用戶需要交付的信息,決定了最終生成的文本。

因此,我們可以將內(nèi)容選擇的過程看作是一個(gè)分類的問題或者是一個(gè)序列標(biāo)注的過程。

如果將內(nèi)容選擇的過程單純考慮成一個(gè)分類的過程,我們的任務(wù)就是對輸入的名-值對集合Set〈topic,propertySet〉中的每一條記錄進(jìn)行簡單的{selected,unselected}二分類的標(biāo)注。內(nèi)容選擇的問題也由此轉(zhuǎn)換為分類問題,對于每個(gè)概念實(shí)體實(shí)例的二分類標(biāo)注。但事實(shí)上,對于某些受限領(lǐng)域的內(nèi)容選擇,也可以考慮成對一般文檔的多標(biāo)簽標(biāo)注[1],在本節(jié)中,我們主要考慮二分類的標(biāo)注問題。

表1 內(nèi)容選擇實(shí)例

2 相關(guān)工作

與人類在用自然語言交流時(shí)總是先想好說什么類似,內(nèi)容選擇在自然語言生成的系統(tǒng)中總是作為第一個(gè)模塊出現(xiàn)。Sripada[2]的工作指出,相較于文字拼寫等其他錯(cuò)誤,文本中信息的不恰當(dāng)是用戶更不能接受的。

在早期經(jīng)典的內(nèi)容選擇方法中,內(nèi)容選擇的問題通常被考慮成真正內(nèi)容索要陳述的內(nèi)容和描述內(nèi)容的結(jié)構(gòu)兩個(gè)方面。Moore[3]的工作將內(nèi)容選擇的算法和文檔結(jié)構(gòu)的算法集成在一起進(jìn)行考慮。文獻(xiàn)[2,4,5]將內(nèi)容選擇和文檔結(jié)構(gòu)的工作看作一個(gè)流水線工作的兩個(gè)階段。

近些年來,出現(xiàn)了很多使用機(jī)器學(xué)習(xí)的方法,直接研究端到端的工作。Konstas[6]的工作研究了一個(gè)直接從語料庫訓(xùn)練文本生成模型,直接完成內(nèi)容選擇和文本生成的工作。Shang[7]研究定義了一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),通過語料訓(xùn)練了一個(gè)語義編碼器,自動(dòng)生成自然語言。

是否將內(nèi)容選擇的問題作為一個(gè)獨(dú)立問題解決,需要根據(jù)不同的場景單獨(dú)思考。在ILEX的工作中,內(nèi)容選擇的查詢一次性的給出了用戶、物品和文章結(jié)構(gòu)的相關(guān)信息。但是,如果要將機(jī)器學(xué)習(xí)的技術(shù)應(yīng)用到相應(yīng)的場景下,這也要求算法中要預(yù)置例如RST等更多的信息,這意味著大量的標(biāo)注工作,也為算法在不同領(lǐng)域的遷移使用帶來了問題。因此,我們將內(nèi)容選擇和用戶模型等內(nèi)容進(jìn)行分解,單獨(dú)考慮內(nèi)容選擇。

3 內(nèi)容選擇算法

本文提出的內(nèi)容選擇算法框架如圖 1 所示。主要思想如下:在首先根據(jù)數(shù)據(jù)集進(jìn)行結(jié)構(gòu)特征的計(jì)算,并訓(xùn)練相應(yīng)的分類器。最后,對于特定場景,可通過分類器得到最終結(jié)果。

圖1 算法框架示意圖

3.1 樸素貝葉斯模型

樸素貝葉斯算法基于貝葉斯定理[8],是利用統(tǒng)計(jì)學(xué)的分類方法,我們假設(shè)topic的特征項(xiàng)之間是相互獨(dú)立的,利用概率求topic的類別。topic的最終類別是由概率的最大值所在的類別指定。

我們假設(shè)話題d={w1,w2,...,wm},使用該算法實(shí)現(xiàn)對文本d的分類,轉(zhuǎn)化成對P(Ck|d),其中1≤j≤n的求解,如果

P(ck|d)=max{P(c1|d)P(c2|d),…,
P(cn|d)}

(1)

則d屬于ck。

計(jì)算公式如下:

(2)

3.2 特征選擇

在傳統(tǒng)的內(nèi)容選擇的工作中,內(nèi)容選擇的方法是通過定義一個(gè)內(nèi)容選擇的規(guī)則集合RuleSet。如果從監(jiān)督學(xué)習(xí)系統(tǒng)的角度考慮,系統(tǒng)通過語料庫學(xué)習(xí)到相應(yīng)的內(nèi)容選擇規(guī)則RuleSet,特別的,在監(jiān)督學(xué)習(xí)系統(tǒng)中,我們可以將這些RuleSet看作樣本的某種特征。

對于所有的內(nèi)容選擇規(guī)則Rule,我們可以認(rèn)為是一個(gè)關(guān)于結(jié)構(gòu)數(shù)據(jù)的函數(shù)f,函數(shù)f將話題映射到至取值為{True,F(xiàn)alse}的二值空間。是否包含某一知識節(jié)點(diǎn)的決策過程,不考慮外部的領(lǐng)域知識庫DomainKnowledge和用戶知識庫Userknowledge,僅由輸入的語料數(shù)據(jù)決定。規(guī)則通常是對實(shí)例節(jié)點(diǎn)本身的取值進(jìn)行判定,例如:一個(gè)異常的溫度通常是值得報(bào)道的。但有的時(shí)候規(guī)則也受其相關(guān)的節(jié)點(diǎn)的內(nèi)容影響,例如:如果報(bào)道了降雨,通常也會(huì)報(bào)道降雨的數(shù)量。

通過對語料庫進(jìn)行分析和驗(yàn)證后,使用如表2的限定規(guī)則。

表2 內(nèi)容選擇特征

與話題節(jié)點(diǎn)間關(guān)系相關(guān)的規(guī)則。

Topic規(guī)則主要獲取宏觀層面的內(nèi)容選擇特征。對于每一個(gè)話題選擇,

f2主要獲取話題結(jié)構(gòu)方面的內(nèi)容選擇信息。例如,我們可以學(xué)習(xí)到在描述風(fēng)向后,通常會(huì)緊接著秒速風(fēng)速。

f1主要捕獲話題的共現(xiàn)情況,例如,降水概率可能和雨夾雪共同出現(xiàn)的概率可能很低。

與話題節(jié)點(diǎn)相關(guān)的規(guī)則。

f3主要體現(xiàn)當(dāng)前話題類型出現(xiàn)的概率情況,例如,降水出現(xiàn)的概率很大,通常是會(huì)被提到的。

與話題節(jié)點(diǎn)屬性相關(guān)的規(guī)則

f4主要體現(xiàn)不同取值情況下,話題被選擇的情況。

4 試驗(yàn)及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

WeatherGov數(shù)據(jù)集包含了地區(qū)天氣預(yù)報(bào)的詳細(xì)氣象信息,其文本是天氣預(yù)報(bào)的短文本。數(shù)據(jù)集收集了2009年2月7日-2009年2月9日期間,人口超過1000人的美國城市天氣預(yù)報(bào),共計(jì)3753個(gè)城市,文字和相應(yīng)的數(shù)據(jù)來源均為www.weather.gov。數(shù)據(jù)集每天為每個(gè)城市創(chuàng)建2個(gè)記錄,共計(jì)22000條,一個(gè)場景是日間天氣預(yù)報(bào),一個(gè)場景是夜間天氣預(yù)報(bào),其內(nèi)容主要由氣溫,風(fēng)速,降雨概率等構(gòu)成。

4.2 實(shí)驗(yàn)設(shè)置

我們分別使用特征f1,f1+f2,f1+f2+f3,f1+f2+f3+f4的特征集進(jìn)行測試,考查不同特征對結(jié)果的影響。

構(gòu)建的數(shù)據(jù)集被分為兩部分。第一部分20000條被作為訓(xùn)練集(development set),第二部分2000條作為測試集(test set)。

4.3 評價(jià)

評價(jià)標(biāo)準(zhǔn)使用精確率(precision)、召回率(recall)和F1值(F1-measure)。

4.4 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果如表3所示。

表3 實(shí)驗(yàn)結(jié)果

可以看出,樸素貝葉斯模型在受限領(lǐng)域的內(nèi)容選擇任務(wù)上可以達(dá)到較好的效果,從圖3中可以看出,在使用f1+f2+f3時(shí)的效果最好,f1值可以達(dá)到0.86。受到樸素貝葉斯其獨(dú)立性假設(shè)影響,使用所有的特征f1+f2+f3+f4效果相比反而有所下降。

圖2 樣本數(shù)與F1值間的關(guān)系

此外,圖2描述了訓(xùn)練樣本數(shù)和F1值間的關(guān)系,樣本數(shù)量在10000左右到達(dá)最優(yōu)。

5 小結(jié)

本文提出了一種基于樸素貝葉斯的內(nèi)容選擇方法。實(shí)驗(yàn)表明,模型可以較好的在天氣數(shù)據(jù)集上完成內(nèi)容選擇的任務(wù)。在未來的工作中,我們將研究獨(dú)立于領(lǐng)域的內(nèi)容選擇特征,研究通用領(lǐng)域的內(nèi)容選擇模型。

[1]Gkatzia D.Data-driven approaches to content selection for data-to-text generation[D].Edinburgh,UK:Heriot-Watt University,2015.

[2]Sripada S G,Reiter E,Hunter J,et al.A two-

stage model for content determination[C].Proceedings of the 8th European workshop on Natural Language Generation,Association for Computational Linguistics,2001,8:1-8.

[3]Moore J D,Swartout W R.A reactive approach to explanation:taking the user’s feedback into account[C].Natural language generation in artificial intelligence and computational linguistics,Springer,US,1991:3-48.

[4]Lester J C,Porter B W.Developing and empirically evaluating robust explanation generators:The KNIGHT experiments[J].Computational Linguistics,1997,23(1):65-101.

[5]Bontcheva K,Wilks Y.Dealing with dependencies between content planning and surface realisation in a pipeline generation architecture[C].International Joint Conference on Artificial Intelligence,Lawrence Erlbaum Associates Ltd,2001,17(1):1235-1240.

[6]Konstas I,Lapata M.A Global Model for Concept-to-Text Generation[J].J Artif Intell Res(JAIR),2013,48:305-346.

[7]Shang L,Lu Z,Li H.Neural responding machine for short-text conversation[C].arXiv preprint arXiv:1503.02364,2015.

[8]Lewis D D.Naive(Bayes)at forty:The independence assumption in information retrieval[C].European Conference on Machine Learning,Springer,Berlin Heidelberg,1998:4-15.

(責(zé)任編輯:王謙)

A Na?ve Bayes-based Content Selection Model

GONG Jun-peng1,CAO Juan2

(1.Faulty of Science and Technology,Communication University of China,Beijing 100024,China;2. New Media Institute,Communication University of China,Beijing 100024,China)

This article proposes a new method for learning content selection rules.Central to this approach is the content select feature.The algorithm introduced in the article automatically train a na?ve bayes model from a set of concept features.The results indicate model suits the task well in specific domain.

content selection;na?ve bayes;content feature

2017-04-25

北京市科委項(xiàng)目(Z161100000216141);中國傳媒大學(xué)工科規(guī)劃項(xiàng)目(3132016XNG1605)

龔雋鵬(1982-),男(漢族),重慶市人,中國傳媒大學(xué)副教授.E-mail:JPGONG@cuc.edu.cn

TP

A

1673-4793(2017)04-0014-04

猜你喜歡
傳媒大學(xué)貝葉斯樸素
隔離樸素
A look at Britain教學(xué)設(shè)計(jì)
基于貝葉斯定理的證據(jù)推理研究
基于貝葉斯解釋回應(yīng)被告人講述的故事
樸素的安慰(組詩)
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
孫翌飛作品
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
南和县| 太仆寺旗| 定南县| 神农架林区| 兴仁县| 嵊泗县| 竹溪县| 慈利县| 铁力市| 衡东县| 乌苏市| 垦利县| 通化县| 织金县| 延川县| 洛扎县| 平顺县| 康保县| 宜阳县| 正安县| 庆城县| 会理县| 金堂县| 梁平县| 开封市| 长岭县| 和林格尔县| 牡丹江市| 平利县| 宁陵县| 调兵山市| 无极县| 桓台县| 白玉县| 双辽市| 广饶县| 琼结县| 呈贡县| 玛沁县| 札达县| 吉隆县|