国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用于網(wǎng)絡(luò)新聞熱點(diǎn)識(shí)別的熱點(diǎn)新詞發(fā)現(xiàn)

2020-12-31 02:24:12徐建民
計(jì)算機(jī)應(yīng)用 2020年12期
關(guān)鍵詞:詞串時(shí)間性新聞標(biāo)題

王 煜,徐建民

(河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,河北保定 071000)

(?通信作者電子郵箱wy@mail.hbu.edu.cn)

0 引言

網(wǎng)絡(luò)信息具有傳播速度快、影響范圍廣的特點(diǎn)。網(wǎng)絡(luò)熱點(diǎn)話題的識(shí)別與追蹤通過整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)對(duì)互聯(lián)網(wǎng)海量信息進(jìn)行處理,解決人們?cè)诤A啃畔⒅姓邕x話題的難題。熱點(diǎn)詞直接反映了熱點(diǎn)話題的中心思想。因此,熱點(diǎn)詞的識(shí)別對(duì)于熱點(diǎn)話題識(shí)別與追蹤非常重要。

識(shí)別熱點(diǎn)詞首先需要分詞系統(tǒng)可以將其識(shí)別為“詞”。在自然語言處理中,中文處理技術(shù)比西文處理技術(shù)復(fù)雜。其中一個(gè)重要原因就是中文只有句和段能通過明顯的分界符來簡(jiǎn)單劃界,但作為句子基本單元的詞卻沒有形式上的分界符。因此分詞,也就是識(shí)別句中的詞,成為了中文信息處理的基礎(chǔ)。分詞技術(shù)需要將已經(jīng)存在的詞存于詞典中,分詞依賴于詞典。熱點(diǎn)話題往往涉及人名、機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱、事件名稱等。這些熱點(diǎn)涉及的詞不斷增加,詞典中卻往往并無這些詞。分詞系統(tǒng)無法識(shí)別詞典中沒有的詞,但是這些詞對(duì)于新聞熱點(diǎn)發(fā)現(xiàn)又至關(guān)重要。因此,熱點(diǎn)新詞識(shí)別成為網(wǎng)絡(luò)熱點(diǎn)話題識(shí)別與追蹤要解決的關(guān)鍵問題之一。

網(wǎng)絡(luò)媒體信息量巨大,新詞不斷出現(xiàn)。針對(duì)這些新詞目前國內(nèi)已有許多新詞發(fā)現(xiàn)的研究。這些研究針對(duì)不同背景從不同角度出發(fā)識(shí)別網(wǎng)絡(luò)媒體新詞,其中互信息和信息熵是新詞發(fā)現(xiàn)的重要方法之一。文獻(xiàn)[1]針對(duì)社會(huì)媒體文本的領(lǐng)域分布廣、口語化程度高等特征提出一種面向社會(huì)媒體的開放領(lǐng)域新詞發(fā)現(xiàn)算法,采用了標(biāo)注模型和語料庫頻繁模式挖掘相結(jié)合的方法。文獻(xiàn)[2]提出一種非監(jiān)督的新詞識(shí)別方法,該方法利用互信息的改進(jìn)算法與少量基本規(guī)則相結(jié)合,從大規(guī)模語料中自動(dòng)識(shí)別網(wǎng)絡(luò)新詞。文獻(xiàn)[3]提出一種融合內(nèi)外部統(tǒng)計(jì)量的微博新詞發(fā)現(xiàn)方法,該方法針對(duì)目前新詞發(fā)現(xiàn)算法中的數(shù)據(jù)稀疏以及可移植性較差的缺點(diǎn)提出了融合內(nèi)外部統(tǒng)計(jì)量的改進(jìn)N-Gram 算法。文獻(xiàn)[4]提出的特定領(lǐng)域新詞檢測(cè)利用組合互信息技術(shù)解決用戶發(fā)明新詞和轉(zhuǎn)換感傷詞的疏忽問題。文獻(xiàn)[5]提出了一種從左至右逐字在未切詞的微博語料中發(fā)現(xiàn)新詞的算法。這些研究均改進(jìn)互信息和鄰接熵信息作為新詞識(shí)別標(biāo)準(zhǔn)之一。目前新詞識(shí)別的研究多是根據(jù)應(yīng)用背景不同分析新詞特點(diǎn),針對(duì)其特征提出識(shí)別方法。目前多為針對(duì)微博、貼吧等社交媒體進(jìn)行新詞識(shí)別研究,例如文獻(xiàn)[1-3,5-8]均是以此背景展開研究。此外,還有一些針對(duì)其他應(yīng)用背景的研究,文獻(xiàn)[4]針對(duì)旅游領(lǐng)域研究新詞識(shí)別,文獻(xiàn)[9]針對(duì)食品安全研究新詞,文獻(xiàn)[10]針對(duì)金融知識(shí)自動(dòng)問答研究新詞識(shí)別,文獻(xiàn)[11]則是研究古漢語中新詞識(shí)別。因新聞熱點(diǎn)詞具有獨(dú)有的特征,這些研究并不適應(yīng)網(wǎng)絡(luò)新聞的熱點(diǎn)新詞識(shí)別。文獻(xiàn)[12]中新聞熱點(diǎn)的新詞發(fā)現(xiàn)中僅用改進(jìn)FP-tree(Frequent Pattern tree)算法識(shí)別新詞,沒有考慮熱點(diǎn)新詞的特性。

要識(shí)別網(wǎng)絡(luò)新聞中的熱點(diǎn)新詞,首先分析新聞熱點(diǎn)詞特性:

1)新聞熱點(diǎn)詞具有時(shí)間特征。也就是說熱點(diǎn)詞會(huì)在短期內(nèi)變得頻繁出現(xiàn)在新聞中,之前或之后隨著熱點(diǎn)熱度消失后可能很少出現(xiàn)或不出現(xiàn)。

2)新聞熱點(diǎn)主體涉及人名、機(jī)構(gòu)名、地名、場(chǎng)所、產(chǎn)品名、商標(biāo)名、簡(jiǎn)稱等名稱。這些名稱數(shù)量巨大,放入分詞的詞典會(huì)造成巨大成本。因其大多不適合存于詞典中,造成分詞系統(tǒng)無法識(shí)別。

3)新聞熱點(diǎn)詞有時(shí)在分詞系統(tǒng)中并不成為一個(gè)詞,如某些事件被冠以一些名稱,但分詞技術(shù)往往不將其作為一個(gè)詞。例如,2018 年發(fā)生的“殺妻騙保案”?!皻⑵掾_保案”五個(gè)字是一個(gè)整體,代表了天津男子給妻子買3 000余萬保險(xiǎn)后在普吉島殺妻騙保這件案件。

4)新聞熱點(diǎn)中的這些新詞以名稱居多,不符合一般詞構(gòu)成規(guī)律。例如人名音譯、事件簡(jiǎn)稱、地名等均毫無規(guī)律可言。

5)由于新聞標(biāo)題要表達(dá)出新聞關(guān)鍵,所以熱點(diǎn)詞必存在于新聞標(biāo)題中。

針對(duì)熱點(diǎn)新詞特性,本文先給出改進(jìn)的FP-tree 來尋找頻繁出現(xiàn)在新聞標(biāo)題中的詞串作為新詞候選,而不是按照構(gòu)詞規(guī)律尋找候選詞;根據(jù)加入時(shí)間特征值的多元時(shí)間逐點(diǎn)互信息(Time Pointwise Mutual Information,TPMI)判斷詞的內(nèi)部結(jié)合強(qiáng)度,根據(jù)鄰接熵判斷詞邊界,從而識(shí)別出熱點(diǎn)新詞;網(wǎng)絡(luò)上的輿情監(jiān)控需要處理數(shù)以億計(jì)的網(wǎng)頁,過長(zhǎng)的識(shí)別時(shí)間嚴(yán)重影響實(shí)用性,因此本文僅使用新聞標(biāo)題識(shí)別熱點(diǎn)新詞以提高識(shí)別速度。

1 基于改進(jìn)FP-tree的熱點(diǎn)新詞候選集確定

FP-tree 算法是Apriori 算法的改進(jìn),大幅度減少了掃描數(shù)據(jù)次數(shù),并且FP-tree 的樹形結(jié)構(gòu)保存了頻繁集的完整信息,去除掉非頻繁集的數(shù)據(jù),刪減了無關(guān)的內(nèi)容。為了快速找到新聞中新的熱點(diǎn)詞,本文采用改進(jìn)FP-tree 算法利用新聞標(biāo)題快速獲得熱點(diǎn)新詞的候選集。

1.1 改進(jìn)FP-tree的建樹

本文采用FP-tree 算法尋找頻繁出現(xiàn)的詞串,將其作為熱點(diǎn)新詞的候選集。詞中字間的前后順序不能改變且中間不能有其他詞,因此必須改進(jìn)FP-tree 算法。由于新聞標(biāo)題中含有大量和熱點(diǎn)新詞無關(guān)信息,必須進(jìn)行刪減方可降低FP-tree 規(guī)模。因此,本文從如下兩方面進(jìn)行FP-tree算法改進(jìn):

1)為維持詞順序,頻繁1-詞串的生成結(jié)果無需排序。

2)為了減少FP-tree 的非頻繁內(nèi)容,降低其復(fù)雜度,利用非頻繁1-詞串和非頻繁2-詞串進(jìn)行新聞標(biāo)題的化簡(jiǎn)分割。

一個(gè)詞若為非頻繁詞,則其不可能出現(xiàn)在頻繁詞串中,可判定該詞不可能出現(xiàn)在熱點(diǎn)新詞中。新詞構(gòu)成是必須連續(xù)的,那么非頻繁詞去掉后并可將標(biāo)題進(jìn)行分割,如“周五國內(nèi)油價(jià)‘五連跌’幾成定局或下調(diào)幅度超260 元/噸”。若按照出現(xiàn)8 次以下為非頻繁詞串,則其中“幾成”“下調(diào)”“260”為非頻繁詞,則該標(biāo)題分割為“周五國內(nèi)油價(jià)‘五連跌’”“定局或”“幅度超”“元/噸”四條數(shù)據(jù)(“元/噸”因符號(hào)分割開)。由于新聞標(biāo)題必須反映新聞核心內(nèi)容的特性,新聞標(biāo)題中短期內(nèi)頻繁出現(xiàn)的詞相對(duì)較少,因而刪減非頻繁詞可以大幅削減數(shù)據(jù)量。非頻繁2-詞串也不可能為熱點(diǎn)新詞的一部分,可據(jù)此分割數(shù)據(jù)。假如“周五國內(nèi)”“國內(nèi)油價(jià)”“幅度超”三個(gè)詞串為非頻繁2-詞串,則繼續(xù)分割標(biāo)題為“周五”“國內(nèi)”“油價(jià)”“幅度”“超”。切割后的數(shù)據(jù)都變得非常短,新聞標(biāo)題被切成比較小的數(shù)據(jù)可提高處理速度。由于是識(shí)別新詞,因此還需去掉只包含一個(gè)詞的數(shù)據(jù)。之后,數(shù)據(jù)中無用信息量大幅減少。此例中,該新聞標(biāo)題被全部去除。據(jù)此建立的FP-tree 不僅包含所有熱點(diǎn)新詞有用信息且刪除了大部分無用信息。

本文根據(jù)上述分析,采用三次掃描數(shù)據(jù)建立改進(jìn)FP-tree,算法步驟如下:

1)用分詞工具進(jìn)行分詞,若“”‘’和《》內(nèi)無標(biāo)點(diǎn)的字串被分開則合并,作為一個(gè)新詞候選,并計(jì)入集合D(注意:集合D中的新詞只需要根據(jù)時(shí)間特征值判定是否為熱點(diǎn)詞即可)。

2)第一次掃描新聞標(biāo)題獲得頻繁1-詞串word 列表(每項(xiàng)包括頻繁1-詞串和頭指針),根據(jù)頻繁1-詞串生成頻繁2-詞串候選集,刪除集合D中非頻繁詞。

3)第二次掃描新聞標(biāo)題,刪除新聞標(biāo)題中非頻繁1-詞串中的詞并分割新聞標(biāo)題,被分割后若只剩下一個(gè)詞則被刪除,同時(shí)統(tǒng)計(jì)頻繁2-詞串候選計(jì)數(shù)。

4)第三次掃描第3)步處理后的新聞標(biāo)題,兩個(gè)連續(xù)詞若不為頻繁2-詞串,則從兩個(gè)詞間分割標(biāo)題,被分割后若只剩下一個(gè)詞則被刪除,同時(shí)根據(jù)分割刪除后的新聞標(biāo)題建立FP-tree:首先初始化根節(jié)點(diǎn)為null;對(duì)每條數(shù)據(jù)的詞從根節(jié)點(diǎn)出發(fā),依次對(duì)比,若存在相同的詞則計(jì)數(shù)加1,若不存在則增加新的孩子節(jié)點(diǎn),計(jì)數(shù)1;相同詞串成一條鏈,頭指針存于word列表。

例如,“重慶公交墜江”“重慶公交墜江事故后”“重慶公交墜江悲劇”“公交墜江悲劇”和“墜江事故后重慶公交”新聞數(shù)據(jù)形成的FP-tree 如圖1 所示(假定最小頻繁計(jì)數(shù)為2)。

圖1 改進(jìn)FP-tree示例Fig.1 Example of improved FP-tree

1.2 基于改進(jìn)FP-tree的熱點(diǎn)新詞候選集生成

本文在改進(jìn)FP-tree上挖掘新詞候選的步驟如下:

1)對(duì)集合word每個(gè)詞在FP-tree 上統(tǒng)計(jì)每個(gè)以該詞為開頭的所有詞串的計(jì)數(shù),將頻繁的詞串x加入集合newcword,如newcword存在y,若y是x的子串且x和y的計(jì)數(shù)相同,則刪除y;若x是y的子串且x和y的計(jì)數(shù)相同,則刪除x。

2)根據(jù)圖1 挖掘的熱點(diǎn)新詞的候選集為{“重慶公交:4”,“重慶公交墜江:3”,“公交墜江:4”,“公交墜江悲劇:2”,“墜江:5”“墜江事故后:2”}。

2 基于TPMI和鄰接熵的熱點(diǎn)新詞判斷

Pecina 等[13]采用55 種不同的統(tǒng)計(jì)量進(jìn)行2 元詞匯識(shí)別實(shí)驗(yàn),結(jié)果表明逐點(diǎn)互信息(Pointwise Mutual Information,PMI)算法是最好的衡量詞匯相關(guān)度的算法之一。通常情況下,PMI 方法能夠很好地反映字串之間的結(jié)合強(qiáng)度,PMI 值越大表示結(jié)合字間程度越強(qiáng)。本文首先設(shè)計(jì)多元PMI的計(jì)算方法用來衡量候選新詞的內(nèi)部結(jié)合度,并引入了時(shí)間特征。對(duì)于結(jié)合強(qiáng)度滿足閾值的候選新詞用鄰接熵衡量其左鄰接字詞和右鄰接字符的不確定性,解決新詞左右邊界問題。

2.1 熱點(diǎn)詞時(shí)間特征值計(jì)算

本文的新詞識(shí)別是熱點(diǎn)新詞的識(shí)別,和普通新詞識(shí)別不同。熱點(diǎn)新詞其實(shí)就是一種由不出現(xiàn)或極少出現(xiàn)的非頻繁詞串變得頻繁出現(xiàn)的詞串,并且這個(gè)詞串在新聞熱度退去后又變?yōu)榉穷l繁詞串。因此熱點(diǎn)新詞具有開始短期內(nèi)變得頻繁出現(xiàn)的突起和之后衰減的時(shí)間特征。例如,2014 年3 月8 日一架載有239人的馬來西亞航空公司MH370客機(jī)在從吉隆坡飛往北京的途中失蹤之后,網(wǎng)絡(luò)新聞里就爆發(fā)性出現(xiàn)“馬航”這個(gè)新詞,具有短時(shí)間上突然增多的特性。而一些頻繁的非熱點(diǎn)詞串,如“外交部回應(yīng)”“外媒關(guān)注”,具有持續(xù)性,不具有時(shí)間突起和衰減的特征。

本文將時(shí)間特征分為兩種:一是突起時(shí)間性,由很少出現(xiàn)或不出現(xiàn)變?yōu)轭l繁出現(xiàn);二是時(shí)間衰減時(shí)間性,由頻繁詞變?yōu)楹苌俪霈F(xiàn)或不出現(xiàn)。在一個(gè)時(shí)間段section內(nèi),熱點(diǎn)新詞可能在此前已經(jīng)經(jīng)過了突起時(shí)間性,也可能在這個(gè)section內(nèi)經(jīng)歷突起時(shí)間性,或者突起時(shí)間性處于兩個(gè)section臨界處:前一個(gè)section為非頻繁,而進(jìn)入后一個(gè)section立刻變?yōu)轭l繁的。同樣,熱點(diǎn)新詞在這個(gè)section內(nèi)可能經(jīng)歷衰減時(shí)間性,可能在兩個(gè)section臨界處衰減,也可能在下個(gè)section或之后才衰減。因此,可以將section內(nèi)熱點(diǎn)詞的時(shí)間特征分為以下七種情況(圖2 中密集區(qū)表示section時(shí)間段內(nèi)達(dá)到頻繁計(jì)數(shù)一半的最密集處):

1)在section時(shí)間段內(nèi)具有突起時(shí)間性,如圖2(a);

2)在section時(shí)間段內(nèi)具有衰減時(shí)間性,如圖2(b);

3)在section時(shí)間段內(nèi)既具有突起時(shí)間性又具有衰減時(shí)間性,如圖2(c);

4)在section時(shí)間段內(nèi)既不具有突起時(shí)間性又不具有衰減時(shí)間性,但是和下一個(gè)section臨界處具有衰減時(shí)間性,可在處理下一個(gè)section獲得衰減時(shí)間性,但數(shù)據(jù)不繼續(xù)采集則無法判斷,如圖2(d)和圖2(f);

5)在section時(shí)間段內(nèi)既不具有突起時(shí)間性又不具有衰減時(shí)間性,在和上一個(gè)section臨界處具有突起時(shí)間性,前移半個(gè)section獲得突起時(shí)間性,如圖2(e)和圖2(f);

6)無法獲得突起時(shí)間性和衰減時(shí)間性,熱度維持時(shí)間長(zhǎng)的事件的熱點(diǎn)詞具有此種情況,如圖2(g)。

圖2 詞w在時(shí)間段(section)內(nèi)計(jì)數(shù)情況Fig.2 Counts of word w in one period(section)

由圖2 可看出,具有時(shí)間性的熱點(diǎn)詞分布是不均勻的,具有集中性:圖2(a)、(b)、(c)三種情況,密集區(qū)在section內(nèi)所占時(shí)間比例要比1/2 小很多;而圖2(e)、(f)兩種情況,若把時(shí)間段時(shí)間向前推移1/2的section時(shí)間段,可以看出密集區(qū)所占時(shí)間比例也要比1/2 小很多;同樣圖2(d)、(f)兩種情況,在推后1/2 的section時(shí)間段也可以統(tǒng)計(jì)到其密集區(qū)時(shí)間比例遠(yuǎn)低于1/2;而不具有時(shí)間性的情況圖2(g)就無法判斷??紤]密集區(qū)數(shù)據(jù)比例太低無法判斷w整體是否具有集中性,而比例太高則造成稀疏部分影響過大,因此選擇了密集區(qū)包含詞w的50%計(jì)數(shù)。因此本文根據(jù)包含一半計(jì)數(shù)的最頻繁時(shí)間長(zhǎng)短來判斷詞w的集中性,據(jù)此判定其時(shí)間性。本文設(shè)計(jì)了時(shí)間特征值計(jì)算式(1),判定候選新詞w的時(shí)間特征值:

其中:section為選定的統(tǒng)計(jì)新聞的時(shí)間段的天數(shù);time(t)為詞w在這個(gè)時(shí)間段內(nèi)出現(xiàn)的某個(gè)時(shí)間點(diǎn)t;halftime(t)為從時(shí)間點(diǎn)t開始詞w出現(xiàn)次數(shù)達(dá)到該時(shí)間段內(nèi)50%的時(shí)間點(diǎn);()求最小值,即詞w在section時(shí)間段內(nèi)出現(xiàn)次數(shù)達(dá)到該段內(nèi)總數(shù)50%的最短連續(xù)天數(shù);a是調(diào)節(jié)系數(shù)(a≥1/2,a=1/2時(shí)均勻出現(xiàn)詞的時(shí)間特征值在1 左右)。新聞?dòng)袝r(shí)間性,大多數(shù)熱點(diǎn)新聞很難持續(xù)高熱度,少數(shù)新聞持續(xù)受關(guān)注,但熱度也會(huì)降低;并且選擇時(shí)段過長(zhǎng)會(huì)加大數(shù)據(jù)計(jì)算量,因此section時(shí)間段不宜過長(zhǎng)??紤]開始追蹤新聞熱點(diǎn)時(shí),剛剛已經(jīng)爆發(fā)的熱點(diǎn)需要處理,且圖2(e)、(f)情況也需要判斷出時(shí)間性,因此對(duì)于section時(shí)間段內(nèi)均勻出現(xiàn)的高頻詞串可做二次處理,計(jì)算方法如式(2):

其中:T1(w)是詞串w在section的時(shí)間特征值;T01(w)是詞串w在上一個(gè)section后半段時(shí)間和當(dāng)前section的前半段時(shí)間內(nèi)的時(shí)間特征值。

對(duì)于圖2(d)的情況,可將頻繁出現(xiàn)且未判定為熱點(diǎn)詞的新詞在下一個(gè)section處理。

2.2 多元TPMI

文獻(xiàn)[14]給出的PMIk是二元的互信息計(jì)算公式,如式(3)。

其中:pk(x)和pk(y)分別表示詞串x和y的概率的k次冪;pk(x,y)表示字串x和y的聯(lián)合概率的k次冪。當(dāng)k=1 時(shí),PMIk即PMI。本文采用的是PMI。

本文候選新詞至少由2 個(gè)詞組成,需要用多元PMI 計(jì)算相關(guān)度。因此,需要擴(kuò)展二元PMI 為多元PMI。從式(3)可以看出,PMI計(jì)算兩個(gè)詞的結(jié)合度,其實(shí)是計(jì)算兩個(gè)詞屬于某個(gè)詞組成部分的程度,并不能確定一個(gè)完整的詞。如“尸位素餐”這個(gè)詞,在現(xiàn)代文中計(jì)算“位”“素餐”的PMI可以發(fā)現(xiàn)其結(jié)合度很高,這說明“位素餐”很可能是一個(gè)詞的一部分。因此本文設(shè)計(jì)了一種擴(kuò)展PMI 方式。對(duì)于詞串w1w2…wn-1wn(記為w),首先尋找其中PMI 最高的相鄰兩個(gè)詞,并認(rèn)為最大可能成為某個(gè)詞一部分,所以將兩個(gè)詞合為一個(gè)詞,然后繼續(xù)如此擴(kuò)展。選擇最后一次PMI值并乘時(shí)間特征系值形成該詞的TPMI值。

對(duì)于詞串w,TPMI計(jì)算方法如下:

2.3 基于TPMI和鄰接熵的新詞判定

本文判定候選詞是否為新詞過程為:首先計(jì)算改進(jìn)TPMI,若TPMI 大于一定閾值,再計(jì)算該詞的左右邊界的鄰接熵[15];若左右邊界熵在一定閾值,則判定該詞為一個(gè)完整詞,為熱點(diǎn)新詞。左鄰接熵的計(jì)算如式(4),右鄰接熵的計(jì)算如式(5):

其中:CL、CR分別是候選詞w的左、右鄰接詞的集合;p(xi|w)是候選詞w的左鄰接詞概率,p(xj|w)是候選詞w的右鄰接詞概率。候選新詞鄰接熵越大,鄰接字詞不確定性越大,成為新詞邊界可能性越大。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 測(cè)試數(shù)據(jù)集

為了驗(yàn)證本文算法的正確性和有效性,本文采集網(wǎng)絡(luò)新聞作為測(cè)試數(shù)據(jù)集進(jìn)行驗(yàn)證。新聞熱點(diǎn)詞往往是短期內(nèi)出現(xiàn)比較集中的詞,而熱點(diǎn)新詞短期內(nèi)爆發(fā),因此無需采集長(zhǎng)時(shí)間的數(shù)據(jù)集進(jìn)行測(cè)試。2018 年12 月新浪國內(nèi)新聞中各種熱度的新聞事件較多,本文采用2018年12月的新浪國內(nèi)新聞作為測(cè)試集,共采集新聞7 222 條。通過人工處理,發(fā)現(xiàn)數(shù)據(jù)集中包含熱度非常高的新聞熱點(diǎn)1個(gè),一般熱度新聞事件16個(gè),以及熱度低的新聞事件16個(gè),具體新聞事件如表1所示。

新聞熱度是該事件新聞被關(guān)注的情況,網(wǎng)絡(luò)新聞上可以根據(jù)該事件新聞出現(xiàn)量判定其熱度,不同需求設(shè)定不同。為了研究本文方法,設(shè)置比較低熱度值,將在半個(gè)月內(nèi)出現(xiàn)30次以上新聞事件設(shè)為高熱度新聞(平均每天出現(xiàn)2 次及以上),半個(gè)月內(nèi)出現(xiàn)15~29 次的為一般熱度(平均每天1~2次)。低熱度的新聞是否算作新聞熱點(diǎn)需要根據(jù)實(shí)際需要決定,可能算熱點(diǎn)也可能不算熱點(diǎn),本文低熱點(diǎn)新聞為半月內(nèi)相關(guān)新聞8~14條的新聞事件。此外,是否為新詞和分詞軟件有關(guān),本文采用gooseeker的分詞工具對(duì)數(shù)據(jù)集進(jìn)行分詞。

本文實(shí)驗(yàn)使用軟硬件環(huán)境為:處理器為Intel Core i7-8750H CPU@2.20 GHz 2.21 GHz,內(nèi)存大小為16 GB,所用軟件為Microsoft Visual C++2015。

3.2 采用改進(jìn)FP-tree獲得熱點(diǎn)新詞的候選集

采用不同的參數(shù)可采集不同程度熱點(diǎn)新聞的熱點(diǎn)新詞。在本文實(shí)驗(yàn)中,采用最小頻繁計(jì)數(shù)為8 時(shí),可基本采集所有程度熱點(diǎn)的新詞。若采用頻繁計(jì)數(shù)16,則低熱度新聞的新詞大多無法采集。采集所有程度熱點(diǎn)的新詞,識(shí)別更困難,本文處理包括低熱度(最小頻繁計(jì)數(shù)為8)的熱點(diǎn)新詞。

利用本文改進(jìn)的FP-tree 算法,獲得頻繁詞串作為熱點(diǎn)詞的候選集,結(jié)果如表1所示。

3.3 熱點(diǎn)新詞識(shí)別結(jié)果

為了驗(yàn)證本文時(shí)間特征值的作用,實(shí)驗(yàn)中先采用不加時(shí)間特征的多元PMI 和邊界熵進(jìn)行熱點(diǎn)新詞識(shí)別(簡(jiǎn)稱多元PMI 實(shí)驗(yàn)),再采用融入時(shí)間特征的TPMI 和左右信息熵獲得新聞熱點(diǎn)新詞(簡(jiǎn)稱TPMI 實(shí)驗(yàn)),并對(duì)兩個(gè)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析。本文實(shí)驗(yàn)時(shí)間特征計(jì)算中,section選擇為一個(gè)月;從出現(xiàn)次數(shù)最多的前200 個(gè)多字詞中隨機(jī)抽樣50,計(jì)算平均多元PMI 值作為多元PMI 的閾值和TPMI 的閾值,計(jì)算平均邊界熵作為邊界熵的閾值。通過觀察大部分新聞熱點(diǎn)爆發(fā)、持續(xù)情況和考慮處理數(shù)據(jù)量,建議section小于等于一個(gè)月且大于等于2個(gè)星期。

表1 熱點(diǎn)詞的候選集Tab.1 Candidates for hot words

分析實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn):非洲豬瘟相關(guān)報(bào)道是在8 月份開始頻繁出現(xiàn),之后一直不斷,所以TPMI 實(shí)驗(yàn)未能找回“非洲豬瘟”“非洲豬瘟疫情”兩個(gè)詞,但比較集中的有些地區(qū)宣布解除疫情,因此獲得了“非洲豬瘟疫區(qū)解除封鎖”這個(gè)詞。如果用于持續(xù)檢測(cè)新聞熱點(diǎn),連續(xù)一個(gè)時(shí)段、一個(gè)時(shí)段采集,那么上述熱點(diǎn)新詞均可在這些新聞爆發(fā)時(shí)識(shí)別出。此外,通過分析多元PMI 實(shí)驗(yàn)識(shí)別的新詞發(fā)現(xiàn)有2 個(gè)詞為從2018 年11 月下旬開始變?yōu)轭l繁,但在12 月屬于低熱度且無法判別時(shí)間特征的詞。本文算法進(jìn)行時(shí)間特征二次計(jì)算時(shí)只考慮了高頻詞,無法識(shí)別這兩個(gè)低熱度詞的時(shí)間特征,造成a三種取值的TPMI實(shí)驗(yàn)中均未曾識(shí)別。

實(shí)驗(yàn)中,a取值不宜選擇過大,否則會(huì)造成持續(xù)熱度的詞更難識(shí)別;a取值也不宜過小,否則造成時(shí)間特征弱化。本文測(cè)試了a=1/2,2,8的情況,除了均無法識(shí)別上述兩個(gè)低熱點(diǎn)詞外:

1)當(dāng)a=1/2 時(shí),正確識(shí)別熱點(diǎn)新詞51 個(gè),丟失識(shí)別“非洲豬瘟”“非洲豬瘟疫情”2 個(gè)熱點(diǎn)詞(與a=2 相同),錯(cuò)誤識(shí)別5個(gè),將非熱點(diǎn)詞“環(huán)球時(shí)報(bào)社評(píng)”“涉黑”“九二共識(shí)”“紅通人員”“加媒”5個(gè)詞錯(cuò)誤識(shí)別成熱點(diǎn)新詞。錯(cuò)誤識(shí)別的這5個(gè)詞出現(xiàn)比較零散,每個(gè)詞對(duì)應(yīng)多個(gè)事件,不是熱點(diǎn)詞。a=1/2時(shí),出現(xiàn)比較均勻的詞的時(shí)間特征為1,時(shí)間特征影響小。

2)當(dāng)a=2 時(shí),正確識(shí)別熱點(diǎn)新詞51 個(gè),丟失識(shí)別“非洲豬瘟”“非洲豬瘟疫情”2個(gè)熱點(diǎn)詞。

3)當(dāng)a=8 時(shí),正確識(shí)別熱點(diǎn)新詞50 個(gè)詞,丟失識(shí)別“非洲豬瘟”“非洲豬瘟疫情”“經(jīng)貿(mào)磋商”3 個(gè)熱點(diǎn)詞?!敖?jīng)貿(mào)磋商”屬于這段時(shí)間內(nèi)時(shí)間特征相對(duì)弱的詞,強(qiáng)化時(shí)間特征造成了未識(shí)別出該詞。

a=2 時(shí)的TPMI 實(shí)驗(yàn)結(jié)果和多元PMI 實(shí)驗(yàn)結(jié)果如表2所示。

多元PMI 實(shí)驗(yàn)明顯比TPMI 實(shí)驗(yàn)多找到“震源深度、級(jí)地震”和其他統(tǒng)計(jì)詞97 個(gè),這些詞都不是熱點(diǎn)新詞,震源深度存在于所有地震新聞中,不屬于哪個(gè)地震相關(guān)報(bào)道,其他詞不是錯(cuò)誤就明顯是一些常用詞組。而TPMI 實(shí)驗(yàn)識(shí)別出“經(jīng)貿(mào)磋商、中美元首”是因?yàn)槊贤碇凼录螅忻狸P(guān)系和中美貿(mào)易的相關(guān)新聞不斷出現(xiàn)造成的,而“二手房”是因?yàn)橛幸恍《螘r(shí)間各地樓市信息提到二手房問題,沒有將二手房新聞列入低熱度新聞,這其實(shí)也可以算一個(gè)低熱度新聞點(diǎn)。人工標(biāo)注時(shí)并未發(fā)現(xiàn),實(shí)驗(yàn)后發(fā)現(xiàn)關(guān)于退役軍人的新聞也在短期少量出現(xiàn),也可算關(guān)于退役軍人的低熱度新聞,因此這四個(gè)詞的識(shí)別不能認(rèn)為是錯(cuò)誤識(shí)別。

表2 多元PMI和TPMI的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results of multivariant PMI and TPMI

從以上分析可以看出:引入時(shí)間特征值后,可以將一些常用詞組合去掉,TPMI 明顯大大提高了熱點(diǎn)新詞的正確識(shí)別率。

可以看出,本文的新詞識(shí)別是應(yīng)用于熱點(diǎn)新聞識(shí)別當(dāng)中,所以有些詞不是真正意義上的詞。例如,對(duì)應(yīng)新聞“四川宜賓興文5.7 級(jí)地震”識(shí)別出的“5.7 級(jí)地震”“四川興文地震”“四川宜賓”“四川興文5.7 級(jí)地震”,每個(gè)詞都代表了一個(gè)地點(diǎn)或一個(gè)事件,當(dāng)然它們也是相關(guān)的,不是傳統(tǒng)意義的詞,但在新聞識(shí)別中若拆開會(huì)影響識(shí)別效果。

本文采集的數(shù)據(jù)中,沒有“”‘’和《》分割的熱點(diǎn)詞。

本文實(shí)驗(yàn)中的TPMI 和邊界熵的參數(shù)是根據(jù)最頻繁出現(xiàn)的詞進(jìn)行計(jì)算平均值得到的。這造成了強(qiáng)化時(shí)間特征,時(shí)間特征強(qiáng)的熱點(diǎn)詞容易識(shí)別,而長(zhǎng)時(shí)間熱度詞由于時(shí)間特征被弱化反而易丟失。因此無論a還是TPMI、邊界熵的閾值都應(yīng)該研究更合理的選擇方案。

4 結(jié)語

本文通過分析新聞熱點(diǎn)詞特征提出了一種用于網(wǎng)絡(luò)熱點(diǎn)識(shí)別的熱點(diǎn)新詞發(fā)現(xiàn)方法。本文利用非頻繁1、2-詞串刪除和切分新聞標(biāo)題來刪除大量無用信息;設(shè)計(jì)融入時(shí)間特征的TPMI使得熱點(diǎn)新詞識(shí)別率大幅度提升。

本文方法適用于網(wǎng)絡(luò)熱點(diǎn)新聞的新詞發(fā)現(xiàn)。而網(wǎng)絡(luò)熱點(diǎn)不僅僅涉及新聞,還包括微博類開放社交媒體。這些平臺(tái)所發(fā)布內(nèi)容的標(biāo)題不夠正規(guī)或無標(biāo)題,甚至有時(shí)候?yàn)榱宋W(wǎng)民注意力故意歪曲標(biāo)題,本文方法還需考慮提煉發(fā)布內(nèi)容和標(biāo)題的基礎(chǔ)上進(jìn)行改進(jìn)才可應(yīng)用。此外,單獨(dú)處理某段新聞則會(huì)出現(xiàn)之前已經(jīng)成為熱點(diǎn)詞且熱度始終持續(xù)的新詞無法識(shí)別的問題,可考慮用聚類的方法解決此問題。

猜你喜歡
詞串時(shí)間性新聞標(biāo)題
靈動(dòng)的詞串,寫話的紐帶
談新聞標(biāo)題的現(xiàn)實(shí)性
活力(2019年22期)2019-03-16 12:49:06
網(wǎng)絡(luò)新聞標(biāo)題與報(bào)紙新聞標(biāo)題的對(duì)比
活力(2019年22期)2019-03-16 12:48:00
報(bào)紙新聞標(biāo)題中的“熱詞群”和“熱詞串”
新聞傳播(2018年15期)2018-09-18 03:19:58
智珠二則
舞蹈藝術(shù)發(fā)展進(jìn)程中的審美鑒賞能力
戲劇之家(2017年1期)2017-02-05 13:29:39
無意間擊中幽默的新聞標(biāo)題
喜劇世界(2016年9期)2016-08-24 06:17:26
美語口語詞串You Know What探析
淺談新聞標(biāo)題的裝扮技巧
新聞傳播(2015年22期)2015-07-18 11:04:06
如何奠基形而上學(xué):康德與海德格爾
江漢論壇(2014年6期)2014-12-05 15:02:56
城口县| 紫云| 乐昌市| 康马县| 娱乐| 射洪县| 修文县| 涪陵区| 绩溪县| 松滋市| 文安县| 韶山市| 台中市| 东安县| 行唐县| 达州市| 宽城| 新绛县| 巫山县| 涟源市| 巴中市| 郴州市| 潮安县| 进贤县| 洪泽县| 泊头市| 邳州市| 青海省| 靖西县| 准格尔旗| 固安县| 贞丰县| 宁海县| 那曲县| 五家渠市| 乐至县| 正蓝旗| 贵港市| 克拉玛依市| 江津市| 万盛区|