国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無監(jiān)督的熱點(diǎn)話題發(fā)現(xiàn)研究

2022-02-17 00:29:53聞彬,熊飛,陳薇
電腦知識(shí)與技術(shù) 2022年35期
關(guān)鍵詞:自然語言處理熱點(diǎn)話題機(jī)器學(xué)習(xí)

聞彬,熊飛,陳薇

摘要:高?!鞍俣荣N吧”經(jīng)常會(huì)有用戶發(fā)表一些討論帖,這些信息對(duì)于學(xué)校來說是非常有用的。但是未經(jīng)處理的信息無法實(shí)時(shí)給當(dāng)局者提供幫助。因此,文章提出一種利用自然語言處理方法獲取“貼吧”信息,并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題的方法。本文首先獲取網(wǎng)絡(luò)文本信息,對(duì)文本進(jìn)行預(yù)處理,包括分詞、去除停用詞,再計(jì)算文本的TF-IDF值,最后利用無監(jiān)督學(xué)習(xí)方法(K-means)對(duì)文本進(jìn)行聚類,從而獲取熱點(diǎn)話題。從實(shí)驗(yàn)結(jié)果中可以看出,本方法可以有效地發(fā)現(xiàn)“貼吧”中的熱點(diǎn)話題。

關(guān)鍵詞:自然語言處理;熱點(diǎn)話題;機(jī)器學(xué)習(xí);K-means

中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)35-0016-03

1 概述

眾所周知,互聯(lián)網(wǎng)已經(jīng)成為當(dāng)前人們?nèi)粘+@取信息的主要途徑?;诖耍藗円矘分杂谠诨ヂ?lián)網(wǎng)上發(fā)表自己的看法和觀點(diǎn)。但是絕大部分信息可能是沒有太大意義的,需要過濾掉不太重要的信息,并從中挖掘出有意義的信息。熱點(diǎn)話題發(fā)現(xiàn)就是在此背景下應(yīng)運(yùn)而生,并引起了廣泛的關(guān)注。

熱點(diǎn)話題發(fā)現(xiàn)的目的是在海量的數(shù)據(jù)信息中,找到引起大家共鳴、為大家津津樂道的信息,為當(dāng)局或者管理者提供實(shí)時(shí)的情報(bào),也為輿情監(jiān)控和觀點(diǎn)抽取等提供支持。

2 研究現(xiàn)狀

話題發(fā)現(xiàn)(Topic Detection)[1]是指分析大量語料,在無需人工監(jiān)督的情況發(fā)現(xiàn)文本中的熱點(diǎn)話題。話題發(fā)現(xiàn)常用的方法主要有三類:基于聚類的、基于主題模型和基于詞共現(xiàn)的方法。Xie[2]等人針對(duì)微博信息,首先提出用句子嵌入法來表示微博文本,然后再提取微博子主題,最后利用K-means[3]聚類算法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果顯示,該算法取得較好的效果。Mathioudakis[4]等人建立了TwitterMonitor系統(tǒng),該系統(tǒng)可以通過實(shí)時(shí)監(jiān)測(cè)微博文本信息,并實(shí)時(shí)發(fā)現(xiàn)熱點(diǎn)話題,最后創(chuàng)建圖表來對(duì)熱點(diǎn)話題進(jìn)行顯示。

目前的話題發(fā)現(xiàn)學(xué)習(xí)方式主要有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。

2.1 有監(jiān)督學(xué)習(xí)

在監(jiān)督學(xué)習(xí)中,通過給出訓(xùn)練數(shù)據(jù)集,并在數(shù)據(jù)集中標(biāo)注類別,訓(xùn)練機(jī)器并讓其能夠識(shí)別出是哪個(gè)類別,圖1為有監(jiān)督學(xué)習(xí)流程圖。

有監(jiān)督學(xué)習(xí)原理如圖2所示。

圖2中,分別對(duì)狗類和貓類進(jìn)行了正確分類以及標(biāo)注,然后利用機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練,獲取到模型的相應(yīng)參數(shù),再根據(jù)訓(xùn)練好的模型,對(duì)新的樣本進(jìn)行判定,如圖3所示,以此獲取新樣本的屬性。

監(jiān)督學(xué)習(xí)算法根據(jù)任務(wù)的不同,又分為了回歸分析(Regression)和統(tǒng)計(jì)分類(Classification)兩大類。回歸和分類的算法區(qū)別在于輸出變量的類型,定量輸出稱為回歸,或者說是連續(xù)變量預(yù)測(cè);定性輸出稱為分類,也稱為離散變量預(yù)測(cè)?;貧w不是本文的重點(diǎn),因此在這里不再講述,本文重點(diǎn)講述分類算法。以上介紹的是利用算法對(duì)模型訓(xùn)練后,能夠?qū)ⅰ肮贰焙汀柏垺边M(jìn)行分類。常用的分類算法有以下幾種:K-近鄰算法(K-Nearest Neighbors,KNN)、決策樹(Decision Trees)、神經(jīng)網(wǎng)絡(luò)分類(Neural Network)、支持向量機(jī)(Support Vector Machine, SVM)等。

2.2無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)是指在缺乏足夠的先驗(yàn)知識(shí)時(shí),讓計(jì)算機(jī)幫助解決這些問題,或者至少提供一部分幫助,因此無監(jiān)督學(xué)習(xí)使用的訓(xùn)練集是沒有任何標(biāo)注的,目的是發(fā)現(xiàn)數(shù)據(jù)集本身的聚集性。如圖4所示,訓(xùn)練集本身沒有任何標(biāo)注,通過機(jī)器學(xué)習(xí)訓(xùn)練之后,聚類為2大類,同時(shí)也無法判定類別。

常見的無監(jiān)督學(xué)習(xí)算法分為聚類和降維兩大類,熱點(diǎn)發(fā)現(xiàn)使用的為聚類算法,本文僅討論聚類算法。常見的聚類算法有:K-均值(K-means)聚類、層次聚類(Hierarchical Clustering)、基于密度聚類(Mean Shift)等。聚類算法的目的是將相似的樣本聚在一起,聚類只需要考慮樣本之間的相似度,而不需要考慮類別數(shù)目。以K-means為例,該算法用來對(duì)n維空間內(nèi)的樣本根據(jù)歐式距離遠(yuǎn)近程度進(jìn)行聚類。

3 方法

本文以學(xué)校的百度貼吧為討論對(duì)象,從對(duì)應(yīng)的學(xué)校的“貼吧”中獲取該學(xué)校的討論文本。然后對(duì)文本進(jìn)行處理,從而獲得該學(xué)校的熱點(diǎn)話題。

從貼吧中獲取到相應(yīng)文章,分別為Text1,Text2,Text3,..., Textn,熱點(diǎn)發(fā)現(xiàn)原理如圖2所示。

3.1 分詞

對(duì)文本進(jìn)行分詞,使用Jieba[5]進(jìn)行分詞。

Jieba的常用三種模式:

1)精確模式,盡可能將句子精確切分;

2)全模式,快速地將句子中的可能成詞的詞語都切分出來,不足之處在于無法解決漢語詞語的歧義問題;

3)搜索引擎模式,在第一種模式的基礎(chǔ)上,對(duì)句子中出現(xiàn)的長詞語再次精確切分,目的是提高召回率,一般適用于搜索引擎中的分詞工作。

本文采用第一種方式精確模式對(duì)文本進(jìn)行處理。

3.2 去除停用詞

停用詞是指那些對(duì)句子沒有多大意義的詞語。在不犧牲句子含義的情況下,可以忽略。因此,需要將這些停用詞進(jìn)行刪除,經(jīng)過整理,共獲得1598個(gè)停用詞,在分詞后的文本中刪除停用詞。

3.3計(jì)算文本的TF-IDF值

首先考慮計(jì)算文本之間的相似度。本文使用TF-IDF對(duì)文本進(jìn)行向量化。下面介紹一下TF-IDF的原理。

[TF-IDF=TF×IDF]? ? ? ? ? ? ? ? ?(1)

其中:

[TF=某個(gè)詞語在文章中的出現(xiàn)次數(shù)文章的總詞數(shù)]? ? ? ? ?(2)

[IDF=log(語料庫的文檔總數(shù)包含該詞的文檔數(shù)+1)]? ? ? ? ? ?(3)

TF-IDF用來評(píng)估某個(gè)詞語對(duì)于某篇文檔或者整個(gè)語料庫中其中一份文檔的重要性。例如,當(dāng)一個(gè)詞語在一篇文檔中出現(xiàn)頻率很高,同時(shí)在其他文檔中出現(xiàn)頻率很低,甚至沒有出現(xiàn),那就認(rèn)為該詞語對(duì)于該詞語所在的文檔具有很強(qiáng)的代表性,適用于對(duì)文本進(jìn)行處理。其中詞頻(Term Frequency,TF)就是指一個(gè)給定的詞語在該文本中出現(xiàn)的頻率。這個(gè)數(shù)字是對(duì)詞數(shù)的歸一化處理,以防止它偏向長的文本,從而忽略短文本的重要性。逆向文件頻率(Inverse Document Frequency,IDF)是一個(gè)詞語普遍重要性的度量。

3.4 向量空間模型

向量空間模型首先是假設(shè)文本內(nèi)的詞語之間是不相關(guān)的,再利用向量將文本表示成向量模式,充分利用權(quán)重信息計(jì)算文檔之間存在的相關(guān)性[6]。

計(jì)算出TF-IDF值之后,為防止出現(xiàn)維度過高問題,采用Compressed Sparse Row Format(CSR)壓縮稀疏行矩陣進(jìn)行存儲(chǔ)。

利用余弦相似度計(jì)算文本之間的距離,用向量空間中兩個(gè)向量的余弦值作為衡量?jī)蓚€(gè)個(gè)體差異大小,如圖6所示。

其中,A、B分別為2個(gè)文本向量,Dist(A,B)為AB間的距離,cosθ為相似度,cosθ值越接近1,就表示夾角越接近0度,也就是兩個(gè)向量越相似,從而判定文本之間的相似程度similarity。

[similarity=cosθ=A·BAB=i=1nAi×Bii=1nAi2×i=1nBi2]? ? ? (4)

3.5 利用K-means聚類算法進(jìn)行聚類

(1) 隨機(jī)生成K個(gè)聚類中心;

(2) 計(jì)算每個(gè)樣本與每個(gè)聚類中心的距離(余弦相似度),離哪個(gè)聚類中心近,就劃分到哪個(gè)聚類中心所屬的集合當(dāng)中;

(3) 重新計(jì)算每個(gè)集合的聚類中心;

(4) 重復(fù)2、3步,直到收斂(聚類中心偏移很小,或者計(jì)算聚類中心次數(shù)超過閾值);

(5) 返回所有聚類標(biāo)簽。

從“百度貼吧”下載湖北輕工職業(yè)技術(shù)學(xué)院、武漢理工大學(xué)、華中師范大學(xué)下載各1000篇文本,利用本文的方法對(duì)文本進(jìn)行處理,處理完后,發(fā)現(xiàn)熱點(diǎn)話題如表1所示。

4 結(jié)束語

熱點(diǎn)話題發(fā)現(xiàn)有助于快速獲取網(wǎng)絡(luò)中的當(dāng)前熱點(diǎn),能夠及時(shí)為當(dāng)局提供快速響應(yīng)的依據(jù)。從實(shí)驗(yàn)中可以看出,本文提供的方法可以有效且及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)中的熱點(diǎn)話題。不僅在貼吧平臺(tái)可以使用,在有數(shù)據(jù)來源的情況下,同樣可以作為社會(huì)輿論的監(jiān)測(cè)工具。但是本實(shí)驗(yàn)中數(shù)據(jù)量有限,實(shí)驗(yàn)結(jié)果可能與實(shí)際情況存在稍許偏差,后期筆者將重點(diǎn)放在增加實(shí)驗(yàn)數(shù)據(jù)和改進(jìn)實(shí)驗(yàn)方法的工作上。

參考文獻(xiàn):

[1] Allan J.Topic Detection and Tracking:Event-based Information Organization[M].Boston,MA:Springer US,2002.

[2] Yu X,Bin Z,Yang O.A method based on sentence embeddings for the sub-topics detection[J].Journal of Physics:Conference Series,2019,1168:052004.

[3] Naik M P,Prajapati H B,Dabhi V K.A survey on semantic document clustering[C]//2015 IEEE International Conference on Electrical,Computer and Communication Technologies.Coimbatore,India.IEEE,2015:1-10.

[4] Mathioudakis M,Koudas N.TwitterMonitor:trend detection over the twitter stream[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data.Indianapolis,Indiana,USA.New York:ACM,2010:1155-1158.

[5] https://github.com/fxsjy/jieba.

[6] 徐云青,徐義峰,李舟軍.基于VSM的中文信息檢索[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2007,16(4):21-23.

【通聯(lián)編輯:唐一東】

猜你喜歡
自然語言處理熱點(diǎn)話題機(jī)器學(xué)習(xí)
2017年高考作文熱點(diǎn)話題預(yù)測(cè)
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
基于SVM的熱點(diǎn)話題跟蹤實(shí)現(xiàn)過程研究
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
同心县| 沽源县| 大丰市| 泽州县| 广安市| 泉州市| 琼海市| 鱼台县| 衡阳市| 舟山市| 城市| 儋州市| 馆陶县| 贡觉县| 闽清县| 孝义市| 筠连县| 昆明市| 清流县| 祁阳县| 海兴县| 九龙坡区| 应用必备| 乌拉特后旗| 道孚县| 苏州市| 云和县| 西峡县| 正阳县| 九江市| 巧家县| 和田市| 巴里| 搜索| 宁明县| 内乡县| 平遥县| 象州县| 都江堰市| 中西区| 靖江市|