国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA的長(zhǎng)短文本分類比較

2017-04-01 17:26王海林張雅君
關(guān)鍵詞:文本分類

王海林++張雅君

摘要:LDA作為一種常用的主題模型,在文本挖掘中作為特征選擇的方法被廣泛應(yīng)用。但隨著互聯(lián)網(wǎng)中短文本信息的逐漸增多,短文本代表性詞少的特點(diǎn)使得LDA對(duì)于短文本的主題挖掘不一定能夠達(dá)到理想效果,這給LDA的應(yīng)用帶來了巨大挑戰(zhàn)。為了探究LDA主題模型對(duì)短文本的分類效果,基于LDA,對(duì)長(zhǎng)文本和短文本進(jìn)行分類,對(duì)比分類效果,判斷LDA對(duì)于短文本的適用性。

關(guān)鍵詞:LDA 主題模型 文本分類 短文本

中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)10-0230-01

Abstract:As a common method of topic mining, LDA is used as a method of feature selection in text mining widely. But with the increase in the number of short text, the result of LDA for the topic mining of short text may be not good. It is a challenge for LDA to deal with the few words .This paper classified the short text and long text based on LDA, respectively, compared the result, and estimated whether LDA is suitable for short text.

Key Words:LDA; topic model; text classification; short text

文本數(shù)據(jù)作為非結(jié)構(gòu)化數(shù)據(jù)的一種,如何從中進(jìn)行信息的提取,得到了高度的關(guān)注。微博、商品評(píng)論等信息都表現(xiàn)為短小、代表性詞少等特征,LDA對(duì)于短文本的主題挖掘并不一定能夠達(dá)到理想效果。因此,基于LDA對(duì)長(zhǎng)、短文本進(jìn)行分類,探究LDA主題模型對(duì)于短文本挖掘是否適用。

1 LDA主題模型概述

1.1 LDA基本思想

LDA主題模型[1]認(rèn)為文檔集合中所有的文檔按照一定的概率共享某些潛在主題,而這些潛在的主題又可以由文檔中的一些特征詞來表示[2]。因此,就可以用一個(gè)三層貝葉斯模型來表示 “文檔”、“主題”和“特征詞”之間的關(guān)系,如圖1所示。LDA模型可以表示為。

1.2 參數(shù)估計(jì)

LDA主題模型使用Gibbs抽樣[3]對(duì)未知參數(shù)φ和θ進(jìn)行估計(jì),吉布斯更新規(guī)則為:參數(shù)估計(jì)。

2 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果

2.1 實(shí)驗(yàn)數(shù)據(jù)集及預(yù)處理

長(zhǎng)文本實(shí)驗(yàn)數(shù)據(jù)來源于微信公眾號(hào)抓取的新聞數(shù)據(jù),共社會(huì)、教育、健康等7個(gè)類別。短文本實(shí)驗(yàn)數(shù)據(jù)集來源于SODA上海開放數(shù)據(jù)創(chuàng)新應(yīng)用大賽網(wǎng)格化管理數(shù)據(jù),共有暴露垃圾、跨門營(yíng)業(yè)和占道無證經(jīng)營(yíng)3個(gè)小類。長(zhǎng)文本平均每條新聞在180字以上,共741條;短文本中每條數(shù)據(jù)平均字?jǐn)?shù)在100字以下,共998條。

2.2 實(shí)驗(yàn)環(huán)境

分詞處理:R

主題挖掘:JGibbs

文本分類:libsvm[4]

2.3 實(shí)驗(yàn)結(jié)果

選擇精確度、召回率和F值作為評(píng)價(jià)指標(biāo)[5]比較分類準(zhǔn)確性,結(jié)果評(píng)價(jià)如表1所示。表1中顯示長(zhǎng)文本的各指標(biāo)均高于短文本的各個(gè)指標(biāo),面對(duì)短文本,LDA效果較差。

3 結(jié)語

使用LDA對(duì)不同長(zhǎng)度的文本集進(jìn)行主題挖掘,利用libsvm進(jìn)行分類,根據(jù)分類結(jié)果各評(píng)價(jià)指標(biāo)可以看出長(zhǎng)文本分類效果明顯高于短文本分類效果,LDA并不適用于短文本。數(shù)據(jù)集的選取、文本分詞的效果和數(shù)據(jù)集中類別的數(shù)量會(huì)對(duì)分類結(jié)果造成一定的影響,因此,可以進(jìn)一步研究如何消除這些外在條件的影響從而更加嚴(yán)謹(jǐn)?shù)膶?duì)比LDA對(duì)于長(zhǎng)、短文本的主題挖掘效果。

參考文獻(xiàn)

[1]Blei D, Ng A ,Jordan M. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003(3):993-1022.

[2]王鵬,高鋮,陳曉美.基于LDA模型的文本聚類研究[J].情報(bào)科學(xué),2015,1(33):63-68.

[3]Thomas L. Grimths, Mark Steyvers. Finding scientific topics[J]. PNAS,2004:52.

[4]董露露.基于特征選擇及LDA模型的中文文本分類研究與實(shí)現(xiàn)[D].安徽大學(xué)碩士學(xué)位論文,2014(4).

[5]Xiaojun Wu, Liying Fang, Pu Wang, et al. Performance of Using LDA for Chinese News Text Classification [C]. Proceeding of the IEEE 28th Canadian Conference on Electrical and Computer Engineering,2015:1260-1264.

收稿日期:2016-08-26

作者簡(jiǎn)介:王海林(1962—),男,漢族,山西大同人,副教授,碩士研究生導(dǎo)師,主要研究領(lǐng)域?yàn)椋簲?shù)據(jù)建模、大數(shù)據(jù)、分布式系統(tǒng);張雅君(1992

—),女,漢族,山西大同人,碩士研究生,主要研究領(lǐng)域?yàn)椋簲?shù)據(jù)挖掘、數(shù)據(jù)建模。

猜你喜歡
文本分類
基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
不同情境下中文文本分類模型的表現(xiàn)及選擇
基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
如东县| 明水县| 建阳市| 绥阳县| 东港市| 富平县| 顺平县| 大名县| 德阳市| 通许县| 莎车县| 双江| 资阳市| 巴马| 容城县| 松江区| 家居| 清苑县| 广平县| 屯门区| 牙克石市| 浠水县| 望城县| 进贤县| 顺昌县| 高密市| 保德县| 昌江| 驻马店市| 桐庐县| 黑河市| 榆中县| 天门市| 平利县| 木兰县| 郁南县| 清徐县| 仙游县| 平果县| 黄石市| 余姚市|