国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多種算法對(duì)不同中文文本分類(lèi)效果比較研究

2019-05-24 14:17陳慧田大鋼馮成剛
軟件導(dǎo)刊 2019年5期
關(guān)鍵詞:文本分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)支持向量機(jī)

陳慧 田大鋼 馮成剛

摘 要:為彌補(bǔ)目前國(guó)內(nèi)學(xué)者只做單一算法研究且語(yǔ)料單一的缺陷,使用Word2vec詞向量模型結(jié)合支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)3種不同分類(lèi)算法,研究了不同中文文本分類(lèi)問(wèn)題,包括微博語(yǔ)料的多維細(xì)粒度情感分類(lèi)、酒店評(píng)價(jià)的傾向性分析和新聞文本的主題分類(lèi)。將3種分類(lèi)模型在不同文本中的分類(lèi)效果進(jìn)行對(duì)比,結(jié)果顯示這3種算法對(duì)于不同的中文分類(lèi)效果各有不同:不同維度的詞向量對(duì)準(zhǔn)確率等評(píng)價(jià)指標(biāo)影響很大;支持向量機(jī)模型更適合于細(xì)粒度的微博情感分類(lèi);卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)算法更適合于噪聲小、文本長(zhǎng)且規(guī)范的新聞主題分類(lèi)任務(wù)。分類(lèi)粒度會(huì)對(duì)算法準(zhǔn)確性產(chǎn)生影響,粒度越細(xì)、任務(wù)越復(fù)雜,算法準(zhǔn)確性越低。

關(guān)鍵詞:文本分類(lèi);Word2vec;支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò);長(zhǎng)短期記憶網(wǎng)絡(luò)

DOI:10. 11907/rjdk. 182489

中圖分類(lèi)號(hào):TP3-0 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2019)005-0073-06

Abstract:In order to make up for the shortcomings of a single algorithm and a single corpus, this paper uses Word2vec combined with support vector machine (SVM), convolutional neural network (CNN) and long short-term memory (LSTM) to study the classification of different Chinese text, including multi-dimensional fine-grained emotional classification of micro-blog corpus, tendentiousness analysis of hotel evaluation and thematic classification of news text. Finally, the classification effects of the three classification models in different texts are compared. The results show that word vectors of different dimensions have significant effects on accuracy and other evaluation indicators; support vector machine model is more suitable for fine grained micro-blog sentiment classification; convolutional neural network and long short-term memory are more suitable for news topic classification tasks with low noise, long text and standard; classification granularity will also affect the accuracy of the algorithm, including the finer granularity, the more complex task, the lower the accuracy of the algorithm.

Key Words:text classification;Word2vec;SVM;CNN;LSTM

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)逐漸成為人們獲取信息的重要途徑。但正因?yàn)榫W(wǎng)上信息的爆炸式增長(zhǎng),用戶想要從海量信息中高效且準(zhǔn)確地獲取需要的信息反而變得更加困難。如何從這些浩瀚的文本中抽取出有價(jià)值的信息成為研究熱點(diǎn)。文本分類(lèi)利用自然語(yǔ)言處理、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù),有效地對(duì)不同類(lèi)型的文本進(jìn)行自動(dòng)分類(lèi),發(fā)現(xiàn)其中的規(guī)律[1]。文本分類(lèi)是文本挖掘的重要組成部分,其主要任務(wù)是將給定的文本集合劃分到已知的一個(gè)或多個(gè)類(lèi)別集合中[2],例如將新聞文本根據(jù)主題分配到其所屬的頻道,將產(chǎn)品評(píng)論文本根據(jù)情感傾向分為積極和消極兩部分。

目前,文本分類(lèi)任務(wù)已應(yīng)用到許多領(lǐng)域,如情感分析(Sentiment Analysis)、主題分類(lèi)(Topic Classification)、垃圾郵件檢測(cè)(Spam Detection)等[3]。文本分類(lèi)的核心問(wèn)題是文本表示和分類(lèi)模型。在自然語(yǔ)言處理和文本分析問(wèn)題中,詞袋(Bag of Words)和詞向量(Word Embedding)是兩種最常用的模型。傳統(tǒng)的文本表示利用詞袋模型將詞無(wú)序地表示到一個(gè)高維的向量空間模型中,這種做法拋棄了原文本中的語(yǔ)法和詞序等結(jié)構(gòu)信息。Google[4]發(fā)布的一款Word2vec工具,將詞表示為K維實(shí)數(shù)向量,使用向量空間上的相似度表示文本語(yǔ)義上的相似度。

目前,文本分類(lèi)研究主要是基于機(jī)器學(xué)習(xí)的方法[5],且主要研究同一算法在相同語(yǔ)料下的分類(lèi)效果。唐曉波等[6]提出的一種基于旋進(jìn)原則的回歸SVM情感分類(lèi)模型,魏勇[7]提出一種結(jié)合關(guān)聯(lián)語(yǔ)義和卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文本分類(lèi)方法等,均只研究了單一算法對(duì)文本分類(lèi)的效果;趙明等[8]比較了SVM、CNN和LSTM模型對(duì)飲食健康文本的分類(lèi)效果,只針對(duì)飲食健康文本分類(lèi),語(yǔ)料單一,結(jié)論不具有普適性。本文使用支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)3種算法研究不同的中文文本分類(lèi)問(wèn)題,包括微博語(yǔ)料多維細(xì)粒度的情感分類(lèi),酒店評(píng)價(jià)的傾向性分析和新聞文本的主題分類(lèi),彌補(bǔ)了只做單一算法研究且語(yǔ)料單一的缺陷。筆者首先通過(guò) Word2vec 模型將不同中文文本訓(xùn)練成詞向量,然后將訓(xùn)練成的詞向量分別輸入到支持向量機(jī)模型(SVM)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,3種模型通過(guò)學(xué)習(xí)得到詞向量中隱藏的分類(lèi)信息并給出文本分類(lèi)結(jié)果,對(duì)3種模型在不同中文文本中的分類(lèi)效果進(jìn)行對(duì)比。

1 文本分類(lèi)技術(shù)

1.1 文本分類(lèi)過(guò)程

文本分類(lèi)(Text Categorization)指將未標(biāo)明類(lèi)別的文本分類(lèi)到各自對(duì)應(yīng)的類(lèi)別中?;静襟E如下:①確定分類(lèi)類(lèi)別,即文本共分為哪幾類(lèi);②對(duì)文本作清洗、分詞等準(zhǔn)備工作,并將人工分類(lèi)過(guò)的文本作為訓(xùn)練集;③確定文本表示方法;④應(yīng)用具體分類(lèi)模型訓(xùn)練文本分類(lèi)器;⑤評(píng)價(jià)分類(lèi)器性能并進(jìn)行文本分類(lèi)。本文文本分析流程如圖1所示。

1.2 文本表示技術(shù)

文本分類(lèi)的核心問(wèn)題之一是文本表示。Zhang等[9]利用One-hot把文本表示為向量,即將單詞看作一個(gè)原子符號(hào),這種表示方式容易造成維度災(zāi)難且不能展示詞語(yǔ)之間的語(yǔ)義關(guān)系。Paccanaro等[10]提出了Distributed representation概念,統(tǒng)稱為詞向量(Word embedding)。該方法將詞語(yǔ)表示成一個(gè)定長(zhǎng)連續(xù)的稠密向量,使用詞語(yǔ)之間的“距離”概念表示詞語(yǔ)的語(yǔ)義關(guān)系。

本文采用Word2vec工具中的CBOW模型,將中心詞窗口大小k內(nèi)的詞作為上下文,求中心詞出現(xiàn)的概率。使用長(zhǎng)度[m=2k]定義上下文長(zhǎng)度,系統(tǒng)輸入為m個(gè)上下文單詞,用[w1,w2,?wm]表示。用[w]表示目標(biāo)(輸出)單詞,將[w]可以看作d維向量,其中d是字典長(zhǎng)度,模型的目的就是計(jì)算概率[P(w|w1,w2,?wm)]并使這些結(jié)果在訓(xùn)練集上達(dá)到最大。由圖2可知模型包含輸入層、隱藏層和輸出層。輸入層有[m×d]個(gè)節(jié)點(diǎn),輸入m個(gè)上下文單詞的d維one-hot向量,one-hot向量的分量只有一個(gè)為1,其余全為0,1所對(duì)應(yīng)的位置就是該詞在字典中的索引。因此,可用對(duì)應(yīng)于上下文位置和單詞索引表示一個(gè)輸入[xij]。具體就是輸入[xij∈{0,1}]包含兩個(gè)索引i和j,其中[i∈{1,2,?,m}]表示上下文位置,[j∈{1,2,?d}]是單詞標(biāo)識(shí)符。隱藏層有p個(gè)節(jié)點(diǎn),則Word2vec詞向量的維度即為p。用[h1,h2,?hp]表示隱藏節(jié)點(diǎn)的輸出。經(jīng)多次試驗(yàn)發(fā)現(xiàn),在p為300時(shí)效果達(dá)到最優(yōu)。輸入層和隱藏層通過(guò)[d×p]的共享權(quán)重矩陣u連接,其中[ujq]表示字典中第j個(gè)單詞到第q個(gè)隱層節(jié)點(diǎn)的連接。

3.2 實(shí)驗(yàn)設(shè)計(jì)

如圖4所示,首先從網(wǎng)絡(luò)上下載和爬取NLPCC2017微博數(shù)據(jù)集、譚松波教授收集整理的酒店評(píng)價(jià)情感語(yǔ)料和搜狐新聞數(shù)據(jù),然后對(duì)原始數(shù)據(jù)進(jìn)行降噪清洗,并對(duì)剩余數(shù)據(jù)進(jìn)行分詞處理。分詞后的數(shù)據(jù)輸入到Word2vec工具中進(jìn)行訓(xùn)練,輸出的詞向量構(gòu)成訓(xùn)練集和測(cè)試集數(shù)據(jù)。本文選取支持向量機(jī)模型(SVM)、長(zhǎng)短期記憶網(wǎng)絡(luò)模型(LSTM)和卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練與測(cè)試。最后根據(jù)精度(Precision)、召回率(Recall)和F1值分別判定這3種算法的分類(lèi)效果。本研究所有實(shí)驗(yàn)均使用Python語(yǔ)言實(shí)現(xiàn)。

3.3 數(shù)據(jù)來(lái)源與清洗

本文數(shù)據(jù)來(lái)源:①微博數(shù)據(jù)來(lái)源于第六屆自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC2017)中的微博語(yǔ)料數(shù)據(jù)集,該語(yǔ)料主要用于識(shí)別整條微博所表達(dá)的情緒,不同于簡(jiǎn)單的褒貶分類(lèi),它將情感分為喜、怒、哀、樂(lè)、惡5個(gè)細(xì)粒度情緒類(lèi)別,屬于細(xì)粒度的情感分類(lèi)問(wèn)題。經(jīng)過(guò)刪除重復(fù)語(yǔ)料、小于12字符的語(yǔ)句和空語(yǔ)句等數(shù)據(jù)清洗、降噪工作,最后選擇30 294條語(yǔ)料,并按4∶1比例分為訓(xùn)練集和測(cè)試集;②酒店評(píng)價(jià)語(yǔ)料來(lái)源于譚松波教授搜集整理的酒店評(píng)價(jià)情感語(yǔ)料。該語(yǔ)料主要用于識(shí)別評(píng)價(jià)中所表達(dá)的情緒是積極還是消極的,屬于二分類(lèi)問(wèn)題。經(jīng)過(guò)語(yǔ)料清洗降噪,最后選擇10 000條語(yǔ)料,按4∶1分為訓(xùn)練集和測(cè)試集;③新聞?wù)Z料來(lái)源于搜狐新聞數(shù)據(jù)(SogouCS)。搜狗新聞數(shù)據(jù)沒(méi)有直接提供分類(lèi),需要通過(guò)新聞來(lái)源網(wǎng)址的URL查詢其對(duì)應(yīng)分類(lèi)。由于新聞分布不均,所以需要去除新聞數(shù)量較少的類(lèi)別,最后選取汽車(chē)、財(cái)經(jīng)、IT、健康、體育、旅游、教育、軍事、文化、娛樂(lè)、時(shí)尚11個(gè)類(lèi),每個(gè)類(lèi)分別抽取2 000條新聞??紤]到新聞標(biāo)題意義重大,將新聞標(biāo)題和新聞內(nèi)容連接到一起,然后截取每條新聞前 100個(gè)字作為一條語(yǔ)料,將所有語(yǔ)料按4∶1分成訓(xùn)練集與測(cè)試集。

3.4 預(yù)訓(xùn)練詞向量

中文文本和英文文本在語(yǔ)法和分詞處理時(shí)具有較大差異,中文文本需要經(jīng)歷一個(gè)分詞過(guò)程,即把連續(xù)的文字分成單獨(dú)的詞匯,而英文文本只需通過(guò)空格和標(biāo)點(diǎn)便可將獨(dú)立的詞從原文中分離出來(lái)。因此,首先將各中文語(yǔ)料用jieba分詞工具進(jìn)行分詞處理,然后使用Word2vec工具訓(xùn)練詞向量庫(kù),訓(xùn)練參數(shù)設(shè)置如表1所示,Word2vec工具包括CBOW和Skip-Gram模型。試驗(yàn)表明:3種語(yǔ)料中CBOW模型訓(xùn)練效果較好。因此,本文采用CBOW模型進(jìn)行詞向量訓(xùn)練,即根據(jù)已知中心詞的上下文預(yù)測(cè)該詞出現(xiàn)的概率,同時(shí)本實(shí)驗(yàn)設(shè)置丟棄詞頻少于3的單詞不訓(xùn)練。上下文窗口設(shè)置為5,即當(dāng)前詞與預(yù)測(cè)詞在一個(gè)句子中的最大距離是5。高頻詞匯的隨機(jī)降采樣配置閾值為1e-3。

試驗(yàn)結(jié)果表明,不同維度的詞向量對(duì)準(zhǔn)確率影響效果很大。在詞向量維度增加過(guò)程中,詞向量包含的語(yǔ)義和語(yǔ)法特征信息越來(lái)越多,各算法在語(yǔ)料中的分類(lèi)準(zhǔn)確率、召回率和F1值3個(gè)指標(biāo)都出現(xiàn)遞增趨勢(shì)。以SVM算法微博語(yǔ)料分類(lèi)為例,從圖5可以看出,當(dāng)詞向量從50維變化到300維時(shí),準(zhǔn)確率、召回率、F1三個(gè)指標(biāo)均增加10%以上。但隨著詞向量維度增加到400維、500維時(shí),訓(xùn)練難度和時(shí)間越來(lái)越大,準(zhǔn)確率等評(píng)價(jià)指標(biāo)卻增加緩慢,因此本實(shí)驗(yàn)采用300維訓(xùn)練語(yǔ)料的詞向量。

3.5 實(shí)驗(yàn)結(jié)果及分析

將微博語(yǔ)料、酒店評(píng)價(jià)語(yǔ)料和新聞文本語(yǔ)料訓(xùn)練成的詞向量分別輸入到支持向量機(jī)(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)中,分別通過(guò)3種模型學(xué)習(xí)得到詞向量中隱藏的情感信息并給出情感分類(lèi)結(jié)果,如表2所示。

根據(jù)實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)模型的準(zhǔn)確率、召回率等模型性能評(píng)估指標(biāo),得出如下結(jié)論:

(1)支持向量機(jī)模型(SVM)更適合于細(xì)粒度的微博情感分類(lèi)。圖6、圖7給出了詞向量為300維時(shí)各分類(lèi)模型對(duì)微博語(yǔ)料和酒店評(píng)價(jià)的分類(lèi)結(jié)果。由圖可知:①在微博情感細(xì)分類(lèi)任務(wù)和酒店評(píng)價(jià)二分類(lèi)任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的分類(lèi)效果不如支持向量機(jī)(SVM)。在微博語(yǔ)料情感多分類(lèi)任務(wù)中,由于微博語(yǔ)料噪聲大、文本短、口語(yǔ)化嚴(yán)重等原因,卷積神經(jīng)網(wǎng)絡(luò)的卷積效果較差,長(zhǎng)短期記憶網(wǎng)絡(luò)儲(chǔ)存遠(yuǎn)距離信息的優(yōu)勢(shì)發(fā)揮不明顯,導(dǎo)致分類(lèi)效果不理想,準(zhǔn)確率等評(píng)價(jià)指標(biāo)遠(yuǎn)低于SVM模型;②在酒店評(píng)價(jià)傾向性二分類(lèi)任務(wù)中,雖然酒店評(píng)價(jià)和微博語(yǔ)料一樣具有噪聲大、口語(yǔ)化嚴(yán)重的特點(diǎn),但由于是簡(jiǎn)單的二分類(lèi)問(wèn)題,復(fù)雜程度不高,CNN和LSTM的分類(lèi)效果只是略低于SVM模型。由此可見(jiàn),支持向量機(jī)模型(SVM)更適合于細(xì)粒度的微博情感分類(lèi)。

(2)分類(lèi)粒度會(huì)對(duì)算法的準(zhǔn)確性產(chǎn)生影響。對(duì)比圖4、圖5可以看出:粒度越細(xì)、任務(wù)越復(fù)雜,算法的準(zhǔn)確性會(huì)越低。因此,酒店評(píng)價(jià)二分類(lèi)任務(wù)的準(zhǔn)確性遠(yuǎn)高于多維細(xì)粒度的微博情感分析。原因有兩點(diǎn):①在二分類(lèi)問(wèn)題中,積極和消極情感區(qū)分度較大,而在細(xì)粒度情感分析中,有些情感粒度之間區(qū)別度并不是很高。例如,本微博細(xì)粒度情感細(xì)分為喜、怒、哀、樂(lè)、惡5維粒度,其中喜與樂(lè)、怒與惡這類(lèi)情感彼此之間會(huì)有情感交叉,區(qū)分度不是很高;②一條語(yǔ)料往往不只包含一種情感,大多數(shù)文本會(huì)包含幾種情感,給微博文本情感分析造成了難度。

(3)卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)更適合于噪聲小、文本較長(zhǎng)且規(guī)范的新聞主題分類(lèi)任務(wù)。圖8給出了詞向量為300維時(shí)各分類(lèi)模型對(duì)新聞主題分類(lèi)的評(píng)價(jià)結(jié)果。實(shí)驗(yàn)結(jié)果表明:新聞主題多分類(lèi)任務(wù)中,3種分類(lèi)模型都達(dá)到了良好的分類(lèi)效果,分類(lèi)準(zhǔn)確率都在82%以上。其中,CNN和LSTM的分類(lèi)效果最優(yōu),均達(dá)到了85%以上,具體原因如下:不同于微博語(yǔ)料和酒店評(píng)價(jià)語(yǔ)料的噪聲大、文本短、口語(yǔ)化嚴(yán)重,新聞?wù)Z料具有噪聲小、文本長(zhǎng)、用詞規(guī)范的特點(diǎn)。與SVM模型相比,LSTM 能夠存儲(chǔ)遠(yuǎn)距離信息,CNN 能夠提取不同維度的特征,這些功能能夠更好地挖掘出新聞?wù)Z料詞向量中隱藏的分類(lèi)信息。而SVM模型在挖掘詞向量中隱藏的分類(lèi)信息時(shí),損失了詞與詞之間的語(yǔ)義信息,這是在新聞主題分類(lèi)任務(wù)中SVM模型性能不如CNN和LSTM模型的主要原因。

4 結(jié)語(yǔ)

本文使用Word2vec詞向量工具和多種算法結(jié)合,研究了不同中文文本分類(lèi)問(wèn)題,包括微博語(yǔ)料的多維細(xì)粒度情感分類(lèi)、酒店評(píng)價(jià)的傾向性分析和新聞文本的主題分類(lèi)。將支持向量機(jī)模型(SVM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)3種算法在各領(lǐng)域文本中的分類(lèi)效果進(jìn)行了對(duì)比。研究表明:①不同維度的詞向量對(duì)正確率影響效果顯著,當(dāng)詞向量從50維變化到300維時(shí),準(zhǔn)確率、召回率、F1三個(gè)指標(biāo)均增加10%以上;②支持向量機(jī)模型(SVM)除燥能力更強(qiáng),更適合于細(xì)粒度的微博情感分類(lèi);③卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)更適合于噪聲小、文本規(guī)范的新聞主題分類(lèi)任務(wù);④分類(lèi)粒度會(huì)對(duì)算法的準(zhǔn)確性產(chǎn)生影響。粒度越細(xì),任務(wù)越復(fù)雜,算法的準(zhǔn)確性會(huì)越低。今后的工作是改進(jìn)Word2vec詞向量模型,使其在分類(lèi)效果上得到進(jìn)一步提升,以及改進(jìn)機(jī)器學(xué)習(xí)算法,使其對(duì)不同領(lǐng)域的文本分類(lèi)具有普適性。

參考文獻(xiàn):

[1] RIVERO L. Encyclopedia of database technologies and applications[M]. IGI Publishing, 2005.

[2] 張彪. 文本分類(lèi)中特征選擇算法的分析與研究[D]. 合肥:中國(guó)科學(xué)技術(shù)大學(xué), 2010.

[3] 劉婷婷,朱文東,劉廣一. 基于深度學(xué)習(xí)的文本分類(lèi)研究進(jìn)展[J]. 電力信息與通信技術(shù), 2018(3):59-63.

[4] 唐曉麗,白宇,張桂平,等. 一種面向聚類(lèi)的文本建模方法[J]. 山西大學(xué)學(xué)報(bào):自然科學(xué)版, 2014, 37(4):595-600.

[5] PIAO S,WHITTLE J. A feasibility study on extracting twitter users' interests using NLP tools for serendipitous connections[C].IEEE Third International Conference on Privacy, Security, Risk and Trust. IEEE, 2012:910-915.

[6] 唐曉波,嚴(yán)承希. 基于旋進(jìn)原則和支持向量機(jī)的文本情感分析研究[J]. 情報(bào)理論與實(shí)踐,2013,36(1):98-103.

[7] 魏勇. 關(guān)聯(lián)語(yǔ)義結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法[J]. 控制工程,2018(2):167-172.

[8] 趙明,杜會(huì)芳,董翠翠,等. 基于Word2vec和LSTM的飲食健康文本分類(lèi)研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(10):202-208.

[9] ZHANG W,TANG X,YOSHIDA T. Text classification with support vector machine and back propagation neural network[M].Computational Science-ICCS 2007. Springer Berlin Heidelberg,2007:150-157.

[10] PACCANARO A,HINTON G E. Learning distributed representations of concepts using linear relational embedding[J]. IEEE Transactions on Knowledge & Data Engineering, 2002, 13(2):232-244.

[11] 何躍,鄧唯茹,張丹. 中文微博的情緒識(shí)別與分類(lèi)研究[J]. 情報(bào)雜志,2014(2):136-139.

[12] 劉勇,全廷偉. 基于DAG-SVMS的SVM多分類(lèi)方法[J]. 統(tǒng)計(jì)與決策,2007(20):146-148.

[13] SANTOS C N D,GATTIT M. Deep convolutional neural networks for sentiment analysis of short texts[C].International Conference on Computational Linguistics,2014.

[14] KIM Y. Convolutional neural networks for sentence classification[J]. Eprint Arxiv, 2014(5):215-219.

[15] ELMAN J L. Finding structure in time[J]. Cognitive science,1990,14(2):179-211.

[16] HOCHREITER S,SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780.

(責(zé)任編輯:杜能鋼)

猜你喜歡
文本分類(lèi)卷積神經(jīng)網(wǎng)絡(luò)支持向量機(jī)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
遂宁市| 崇左市| 牙克石市| 吉水县| 武安市| 元阳县| 如皋市| 合肥市| 资兴市| 塔河县| 京山县| 晋州市| 十堰市| 永宁县| 奉化市| 万年县| 辉南县| 临武县| 泸西县| 蓝田县| 子洲县| 深水埗区| 二手房| 泰来县| 彩票| 肇庆市| 平潭县| 乌拉特中旗| 大新县| 九龙坡区| 冕宁县| 黎城县| 中方县| 绥化市| 沅陵县| 泾川县| 沛县| 绿春县| 蓝田县| 云龙县| 汶川县|