基于無監(jiān)督的熱點(diǎn)話題發(fā)現(xiàn)研究

2022-02-17 00:29:53聞彬，熊飛，陳薇

電腦知識(shí)與技術(shù) 2022年35期

關(guān)鍵詞：自然語言處理熱點(diǎn)話題機(jī)器學(xué)習(xí)

聞彬，熊飛，陳薇

摘要：高?！鞍俣荣N吧”經(jīng)常會(huì)有用戶發(fā)表一些討論帖，這些信息對(duì)于學(xué)校來說是非常有用的。但是未經(jīng)處理的信息無法實(shí)時(shí)給當(dāng)局者提供幫助。因此，文章提出一種利用自然語言處理方法獲取“貼吧”信息，并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題的方法。本文首先獲取網(wǎng)絡(luò)文本信息，對(duì)文本進(jìn)行預(yù)處理，包括分詞、去除停用詞，再計(jì)算文本的TF-IDF值，最后利用無監(jiān)督學(xué)習(xí)方法（K-means）對(duì)文本進(jìn)行聚類，從而獲取熱點(diǎn)話題。從實(shí)驗(yàn)結(jié)果中可以看出，本方法可以有效地發(fā)現(xiàn)“貼吧”中的熱點(diǎn)話題。

關(guān)鍵詞：自然語言處理；熱點(diǎn)話題；機(jī)器學(xué)習(xí)；K-means

中圖分類號(hào)：TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）35-0016-03

1 概述

眾所周知，互聯(lián)網(wǎng)已經(jīng)成為當(dāng)前人們?nèi)粘＋@取信息的主要途徑?；诖耍藗円矘分杂谠诨ヂ?lián)網(wǎng)上發(fā)表自己的看法和觀點(diǎn)。但是絕大部分信息可能是沒有太大意義的，需要過濾掉不太重要的信息，并從中挖掘出有意義的信息。熱點(diǎn)話題發(fā)現(xiàn)就是在此背景下應(yīng)運(yùn)而生，并引起了廣泛的關(guān)注。

熱點(diǎn)話題發(fā)現(xiàn)的目的是在海量的數(shù)據(jù)信息中，找到引起大家共鳴、為大家津津樂道的信息，為當(dāng)局或者管理者提供實(shí)時(shí)的情報(bào)，也為輿情監(jiān)控和觀點(diǎn)抽取等提供支持。

2 研究現(xiàn)狀

話題發(fā)現(xiàn)（Topic Detection）[1]是指分析大量語料，在無需人工監(jiān)督的情況發(fā)現(xiàn)文本中的熱點(diǎn)話題。話題發(fā)現(xiàn)常用的方法主要有三類：基于聚類的、基于主題模型和基于詞共現(xiàn)的方法。Xie[2]等人針對(duì)微博信息，首先提出用句子嵌入法來表示微博文本，然后再提取微博子主題，最后利用K-means[3]聚類算法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證，實(shí)驗(yàn)結(jié)果顯示，該算法取得較好的效果。Mathioudakis[4]等人建立了TwitterMonitor系統(tǒng)，該系統(tǒng)可以通過實(shí)時(shí)監(jiān)測(cè)微博文本信息，并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題，最后創(chuàng)建圖表來對(duì)熱點(diǎn)話題進(jìn)行顯示。

目前的話題發(fā)現(xiàn)學(xué)習(xí)方式主要有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

2.1 有監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中，通過給出訓(xùn)練數(shù)據(jù)集，并在數(shù)據(jù)集中標(biāo)注類別，訓(xùn)練機(jī)器并讓其能夠識(shí)別出是哪個(gè)類別，圖1為有監(jiān)督學(xué)習(xí)流程圖。

有監(jiān)督學(xué)習(xí)原理如圖2所示。

圖2中，分別對(duì)狗類和貓類進(jìn)行了正確分類以及標(biāo)注，然后利用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練，獲取到模型的相應(yīng)參數(shù)，再根據(jù)訓(xùn)練好的模型，對(duì)新的樣本進(jìn)行判定，如圖3所示，以此獲取新樣本的屬性。

監(jiān)督學(xué)習(xí)算法根據(jù)任務(wù)的不同，又分為了回歸分析（Regression）和統(tǒng)計(jì)分類（Classification）兩大類。回歸和分類的算法區(qū)別在于輸出變量的類型，定量輸出稱為回歸，或者說是連續(xù)變量預(yù)測(cè)；定性輸出稱為分類，也稱為離散變量預(yù)測(cè)?；貧w不是本文的重點(diǎn)，因此在這里不再講述，本文重點(diǎn)講述分類算法。以上介紹的是利用算法對(duì)模型訓(xùn)練后，能夠?qū)ⅰ肮贰焙汀柏垺边M(jìn)行分類。常用的分類算法有以下幾種：K-近鄰算法（K-Nearest Neighbors，KNN）、決策樹（Decision Trees）、神經(jīng)網(wǎng)絡(luò)分類（Neural Network）、支持向量機(jī)（Support Vector Machine， SVM）等。

2.2無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)是指在缺乏足夠的先驗(yàn)知識(shí)時(shí)，讓計(jì)算機(jī)幫助解決這些問題，或者至少提供一部分幫助，因此無監(jiān)督學(xué)習(xí)使用的訓(xùn)練集是沒有任何標(biāo)注的，目的是發(fā)現(xiàn)數(shù)據(jù)集本身的聚集性。如圖4所示，訓(xùn)練集本身沒有任何標(biāo)注，通過機(jī)器學(xué)習(xí)訓(xùn)練之后，聚類為2大類，同時(shí)也無法判定類別。

常見的無監(jiān)督學(xué)習(xí)算法分為聚類和降維兩大類，熱點(diǎn)發(fā)現(xiàn)使用的為聚類算法，本文僅討論聚類算法。常見的聚類算法有：K-均值（K-means）聚類、層次聚類（Hierarchical Clustering）、基于密度聚類（Mean Shift）等。聚類算法的目的是將相似的樣本聚在一起，聚類只需要考慮樣本之間的相似度，而不需要考慮類別數(shù)目。以K-means為例，該算法用來對(duì)n維空間內(nèi)的樣本根據(jù)歐式距離遠(yuǎn)近程度進(jìn)行聚類。

3 方法

本文以學(xué)校的百度貼吧為討論對(duì)象，從對(duì)應(yīng)的學(xué)校的“貼吧”中獲取該學(xué)校的討論文本。然后對(duì)文本進(jìn)行處理，從而獲得該學(xué)校的熱點(diǎn)話題。

從貼吧中獲取到相應(yīng)文章，分別為Text1，Text2，Text3，...， Textn，熱點(diǎn)發(fā)現(xiàn)原理如圖2所示。

3.1 分詞

對(duì)文本進(jìn)行分詞，使用Jieba[5]進(jìn)行分詞。

Jieba的常用三種模式：

1）精確模式，盡可能將句子精確切分；

2）全模式，快速地將句子中的可能成詞的詞語都切分出來，不足之處在于無法解決漢語詞語的歧義問題；

3）搜索引擎模式，在第一種模式的基礎(chǔ)上，對(duì)句子中出現(xiàn)的長詞語再次精確切分，目的是提高召回率，一般適用于搜索引擎中的分詞工作。

本文采用第一種方式精確模式對(duì)文本進(jìn)行處理。

3.2 去除停用詞

停用詞是指那些對(duì)句子沒有多大意義的詞語。在不犧牲句子含義的情況下，可以忽略。因此，需要將這些停用詞進(jìn)行刪除，經(jīng)過整理，共獲得1598個(gè)停用詞，在分詞后的文本中刪除停用詞。

3.3計(jì)算文本的TF-IDF值

首先考慮計(jì)算文本之間的相似度。本文使用TF-IDF對(duì)文本進(jìn)行向量化。下面介紹一下TF-IDF的原理。

[TF-IDF=TF×IDF]? ? ? ? ? ? ? ? ?（1）

其中：

[TF=某個(gè)詞語在文章中的出現(xiàn)次數(shù)文章的總詞數(shù)]? ? ? ? ?（2）

[IDF=log（語料庫的文檔總數(shù)包含該詞的文檔數(shù)+1）]? ? ? ? ? ?（3）

TF-IDF用來評(píng)估某個(gè)詞語對(duì)于某篇文檔或者整個(gè)語料庫中其中一份文檔的重要性。例如，當(dāng)一個(gè)詞語在一篇文檔中出現(xiàn)頻率很高，同時(shí)在其他文檔中出現(xiàn)頻率很低，甚至沒有出現(xiàn)，那就認(rèn)為該詞語對(duì)于該詞語所在的文檔具有很強(qiáng)的代表性，適用于對(duì)文本進(jìn)行處理。其中詞頻（Term Frequency，TF）就是指一個(gè)給定的詞語在該文本中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)的歸一化處理，以防止它偏向長的文本，從而忽略短文本的重要性。逆向文件頻率（Inverse Document Frequency，IDF）是一個(gè)詞語普遍重要性的度量。

3.4 向量空間模型

向量空間模型首先是假設(shè)文本內(nèi)的詞語之間是不相關(guān)的，再利用向量將文本表示成向量模式，充分利用權(quán)重信息計(jì)算文檔之間存在的相關(guān)性[6]。

計(jì)算出TF-IDF值之后，為防止出現(xiàn)維度過高問題，采用Compressed Sparse Row Format（CSR）壓縮稀疏行矩陣進(jìn)行存儲(chǔ)。

利用余弦相似度計(jì)算文本之間的距離，用向量空間中兩個(gè)向量的余弦值作為衡量?jī)蓚€(gè)個(gè)體差異大小，如圖6所示。

其中，A、B分別為2個(gè)文本向量，Dist（A，B）為AB間的距離，cosθ為相似度，cosθ值越接近1，就表示夾角越接近0度，也就是兩個(gè)向量越相似，從而判定文本之間的相似程度similarity。

[similarity=cosθ=A·BAB=i=1nAi×Bii=1nAi2×i=1nBi2]? ? ? （4）

3.5 利用K-means聚類算法進(jìn)行聚類

（1）隨機(jī)生成K個(gè)聚類中心；

（2）計(jì)算每個(gè)樣本與每個(gè)聚類中心的距離（余弦相似度），離哪個(gè)聚類中心近，就劃分到哪個(gè)聚類中心所屬的集合當(dāng)中；

（3）重新計(jì)算每個(gè)集合的聚類中心；

（4）重復(fù)2、3步，直到收斂（聚類中心偏移很小，或者計(jì)算聚類中心次數(shù)超過閾值）；

（5）返回所有聚類標(biāo)簽。

從“百度貼吧”下載湖北輕工職業(yè)技術(shù)學(xué)院、武漢理工大學(xué)、華中師范大學(xué)下載各1000篇文本，利用本文的方法對(duì)文本進(jìn)行處理，處理完后，發(fā)現(xiàn)熱點(diǎn)話題如表1所示。

4 結(jié)束語

熱點(diǎn)話題發(fā)現(xiàn)有助于快速獲取網(wǎng)絡(luò)中的當(dāng)前熱點(diǎn)，能夠及時(shí)為當(dāng)局提供快速響應(yīng)的依據(jù)。從實(shí)驗(yàn)中可以看出，本文提供的方法可以有效且及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的熱點(diǎn)話題。不僅在貼吧平臺(tái)可以使用，在有數(shù)據(jù)來源的情況下，同樣可以作為社會(huì)輿論的監(jiān)測(cè)工具。但是本實(shí)驗(yàn)中數(shù)據(jù)量有限，實(shí)驗(yàn)結(jié)果可能與實(shí)際情況存在稍許偏差，后期筆者將重點(diǎn)放在增加實(shí)驗(yàn)數(shù)據(jù)和改進(jìn)實(shí)驗(yàn)方法的工作上。

參考文獻(xiàn)：

[1] Allan J.Topic Detection and Tracking：Event-based Information Organization[M].Boston，MA：Springer US，2002.

[2] Yu X，Bin Z，Yang O.A method based on sentence embeddings for the sub-topics detection[J].Journal of Physics：Conference Series，2019，1168：052004.

[3] Naik M P，Prajapati H B，Dabhi V K.A survey on semantic document clustering[C]//2015 IEEE International Conference on Electrical，Computer and Communication Technologies.Coimbatore，India.IEEE，2015：1-10.

[4] Mathioudakis M，Koudas N.TwitterMonitor：trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.Indianapolis，Indiana，USA.New York：ACM，2010：1155-1158.

[5] https：//github.com/fxsjy/jieba.

[6] 徐云青，徐義峰，李舟軍.基于VSM的中文信息檢索[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2007，16（4）：21-23.

【通聯(lián)編輯：唐一東】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于無監(jiān)督的熱點(diǎn)話題發(fā)現(xiàn)研究