国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向短文本的網(wǎng)絡(luò)輿情話題

2019-06-20 10:31龍永深彭沖陳衛(wèi)彌
電子技術(shù)與軟件工程 2019年5期
關(guān)鍵詞:注意力機(jī)制網(wǎng)絡(luò)輿情

龍永深 彭沖 陳衛(wèi)彌

摘要??? 本文的目的即是自動(dòng)從海量社交短文本中,自動(dòng)發(fā)現(xiàn)熱點(diǎn)事件或熱點(diǎn)話題,利用Python編程對(duì)短文本中的詞語(yǔ)進(jìn)行處理,進(jìn)一步提取出候選詞組,最后再進(jìn)行話題的話題精篩,從而可以挖掘出相關(guān)人群重點(diǎn)關(guān)注的內(nèi)容。

【關(guān)鍵詞】網(wǎng)絡(luò)輿情 話題分析 貝葉斯平均 注意力機(jī)制

隨著社交網(wǎng)絡(luò)的發(fā)展和積累,內(nèi)容的產(chǎn)生、傳播、消費(fèi)等已經(jīng)根深蒂固地融入在人們的生活里。隨之內(nèi)容分析的工作也就走進(jìn)了人們的視野。信息的流動(dòng)不再是單方向的,報(bào)紙的信息流動(dòng)是從報(bào)紙到讀者,而在互聯(lián)網(wǎng)應(yīng)用中,可以方便地通過(guò)“評(píng)論”、“回復(fù)”等技術(shù)手段,使信息流動(dòng)變成雙向的,甚至評(píng)論和回復(fù)成為信息中的有機(jī)組成部分,進(jìn)一步地豐富原有信息的內(nèi)容。因此,從互聯(lián)網(wǎng)上主動(dòng)地收集信息,用數(shù)據(jù)挖掘方法或者自然語(yǔ)言處理的方法來(lái)分析信息中用戶的觀點(diǎn),成為當(dāng)前輿情分析的一種非常重要和直接的手段,也就是“網(wǎng)絡(luò)輿情分析”。

1 熱詞處理

本文從以下的一些方面進(jìn)行熱詞提取工作。首先是文本的預(yù)處理,這里主要包括文本去重、廣告識(shí)別等方法,對(duì)數(shù)據(jù)進(jìn)行一些去躁的工作。

其次進(jìn)行熱度分?jǐn)?shù)計(jì)算:利用貝葉斯平均對(duì)梯度分?jǐn)?shù)進(jìn)行修正。貝葉斯平均的典型應(yīng)用包括用戶投票排名,產(chǎn)品評(píng)分排序,廣告點(diǎn)擊率的平滑等等。以用戶投票排名為例,用戶投票評(píng)分的人很少,則算平均分很可能會(huì)出現(xiàn)不夠客觀的情況。這時(shí)引入外部信息,假設(shè)還有一部分人(C人)投了票,并且都給了平均分(m分)。把這些人的評(píng)分加入到已有用戶的評(píng)分中,再進(jìn)行求平均,可以對(duì)平均分進(jìn)行修正,以在某種程度或角度上增加最終分?jǐn)?shù)的客觀性。容易得到,當(dāng)投票人數(shù)少的時(shí)候,分?jǐn)?shù)會(huì)趨向于平均分;投票人數(shù)越多,貝葉斯平均的結(jié)果就越接近真實(shí)投票的算術(shù)平均,加入的參數(shù)對(duì)最終排名的影響就越小。

再通過(guò)頻繁項(xiàng)集、word2vector等方法,發(fā)現(xiàn)出共現(xiàn)詞語(yǔ)的關(guān)系。利用共現(xiàn)詞語(yǔ)的信息,對(duì)熱詞進(jìn)行一輪篩選,提取出最有價(jià)值的熱詞,避免信息冗余。通過(guò)對(duì)詞頻進(jìn)行時(shí)間序列分析,可以更詳細(xì)地區(qū)分短期、長(zhǎng)期與周期性熱點(diǎn);對(duì)一些更有價(jià)值的熱詞做熱度預(yù)警;對(duì)熱詞的增長(zhǎng)趨勢(shì)進(jìn)行分析等。

綜上,本文在周期時(shí)間間隔內(nèi),通過(guò)貝葉斯平均修正的詞語(yǔ)梯度分?jǐn)?shù)來(lái)分析詞語(yǔ)熱度,并利用語(yǔ)料中詞語(yǔ)的共現(xiàn)信息,進(jìn)一步篩選得出熱詞。通過(guò)時(shí)間序列分析,得出熱詞的特性和增長(zhǎng)趨勢(shì)等。

2 話題提取

話題提取的工作也分為兩步,第一步先找出一些候選的話題詞組;第二步利用Attention的思想,從候選詞組中找出一個(gè)包含的詞語(yǔ)更加重要的詞組,作為輸出話題。

2.1 候選詞組提取

信息熵是用來(lái)衡量一個(gè)隨機(jī)變量出現(xiàn)的期望值,一個(gè)變量的信息熵越大,表示其可能的出現(xiàn)的狀態(tài)越多,越不確定,也即信息量越大?;バ畔⒖梢哉f(shuō)明兩個(gè)隨機(jī)變量之間的關(guān)系強(qiáng)弱。定義如下:

公式

對(duì)上式做變換可以得到:

公式

則可知表示由X引入而使Y的不確定度減小的量。越大,說(shuō)明X出現(xiàn)后,Y出現(xiàn)的不確定度減小,即Y很可能也會(huì)出現(xiàn),也就是說(shuō)X、Y關(guān)系越密切。反之亦然。在實(shí)際應(yīng)用中,詞組的內(nèi)部聚合度即為詞語(yǔ)間的內(nèi)部聚合度。對(duì)于一個(gè)詞組,選取使不確定性減少的程度最多的一種詞語(yǔ)組合,來(lái)說(shuō)明詞組的內(nèi)部聚合度。

2.2 話題精篩

對(duì)于某一個(gè)熱詞,挑選出來(lái)一批候選詞組后,每個(gè)詞組所含的詞語(yǔ)不同,包含的信息量也不同。篩選的主要依據(jù)或思想,其實(shí)和Attention機(jī)制是一樣的,關(guān)鍵是要找出重要的詞語(yǔ)。比如與“巴黎”的搭配,“巴薩”、“逆轉(zhuǎn)”、“時(shí)裝周”比“球迷”、“球員”、“心疼”、

“法國(guó)”包含的信息更多,意義更大。可以想到,“巴薩”、“逆轉(zhuǎn)”、“時(shí)裝周”這些詞語(yǔ)在其他無(wú)關(guān)語(yǔ)料中不常出現(xiàn),“球迷”、“球員”、“心疼”、“法國(guó)”在不同語(yǔ)料中都常會(huì)出現(xiàn),信息不明確。所以,可以通過(guò)TF-IDF的思路來(lái)確定Attention。

熱詞的候選詞組s的事件或話題表示能力分?jǐn)?shù)可由以下公式求得:

公式

其中,N為候選詞組中的詞語(yǔ)個(gè)數(shù),為候選詞組中包含的第i個(gè)詞語(yǔ),Corpus(w)表示含有詞語(yǔ)w的相關(guān)語(yǔ)料。另一方面也需要考慮詞組出現(xiàn)的頻次,詞組出現(xiàn)的次數(shù)越多,說(shuō)明事件越重要。

綜上所述,本文通過(guò)候選詞組的事件或話題表示能力分?jǐn)?shù)以及出現(xiàn)頻次,精篩出熱詞的相關(guān)話題。

3 結(jié)論

近年來(lái),各種公眾趨勢(shì)分析類產(chǎn)品涌現(xiàn),各大公司都利用自身資源紛紛搶占一席之地。公眾趨勢(shì)分析平臺(tái)利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)方法對(duì)數(shù)據(jù)進(jìn)行分析,給用戶提供輿情分析、競(jìng)品分析、數(shù)據(jù)營(yíng)銷、品牌形象建立等幫助。其中,熱點(diǎn)發(fā)現(xiàn)問(wèn)題是公眾趨勢(shì)分析中不可或缺的一部分。本文集中在文本數(shù)據(jù)方面進(jìn)行分析,挖掘相關(guān)人群重點(diǎn)關(guān)注的內(nèi)容。

參考文獻(xiàn)

[1]張群,王紅軍,王倫文.詞向量與LDA相融合的短文本分類方法[J].現(xiàn)代圖書情報(bào)技術(shù),2016(12).

[2]劉紅兵,李文坤,張仰森.基于LDA模型和多層聚類的微博話題檢測(cè)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(06).

[3]葉成緒,楊萍,劉少鵬.基于主題詞的微博熱點(diǎn)話題發(fā)現(xiàn)[J].計(jì)算機(jī)應(yīng)用與軟件,2016(02).

猜你喜歡
注意力機(jī)制網(wǎng)絡(luò)輿情
基于序列到序列模型的文本到信息框生成的研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
InsunKBQA:一個(gè)基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
淺析網(wǎng)絡(luò)輿情治理
基于社會(huì)穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機(jī)制構(gòu)建的思考