国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM的高維混合特征短文本情感分類

2018-03-05 02:40:35王義真
關(guān)鍵詞:詞典語料庫(kù)分類器

王義真,鄭 嘯,后 盾,胡 昊

(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243032)

0 引 言

隨著移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,智能終端的普及,用戶通過移動(dòng)網(wǎng)絡(luò)更容易獲取和發(fā)布互聯(lián)網(wǎng)信息。社交媒體的興起,加速了用戶自由表達(dá)對(duì)人或事的態(tài)度、觀點(diǎn)以及情感傾向。近年來網(wǎng)絡(luò)上涌現(xiàn)的短文本迅速膨脹,如商品評(píng)論、影評(píng)、移動(dòng)短信、微博、論壇等,僅靠人工的方法難以應(yīng)對(duì)網(wǎng)上海量信息的收集和處理。傳統(tǒng)的基于關(guān)鍵字的檢索,文本的分類,文本的聚類往往忽略了文本中的情感。因此迫切需要計(jì)算機(jī)幫助用戶快速獲取和整理這些情感相關(guān)信息。文本情感分類主要是通過分析用戶發(fā)表的主觀性文本內(nèi)容,挖掘其情感傾向,從而判斷其情感傾向的極性(如:正向,負(fù)向,中立)。針對(duì)文本的情感分析有利于更好地了解用戶的情感觀點(diǎn),從中發(fā)現(xiàn)商業(yè)價(jià)值,增強(qiáng)用戶體驗(yàn)。文本根據(jù)長(zhǎng)度的不同可以分為長(zhǎng)文本和短文本兩類。由于短文本具有發(fā)布頻率快、參與者多、長(zhǎng)度較短、結(jié)構(gòu)差異大、交互性強(qiáng)、口語化、省略化、特征關(guān)鍵詞稀疏等特性,直接采用現(xiàn)有的情感傾向分類方法對(duì)短文本分類的準(zhǔn)確率較低。此外,短文本在社區(qū)問答[1]、搜索引擎[2]等領(lǐng)域發(fā)揮了重要作用,短文本的情感分析日益受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。

目前,國(guó)內(nèi)外短文本的情感分析主要是針對(duì)微博、在線評(píng)論等短文本。在國(guó)外,短文本的情感分析研究主要分為主題無關(guān)的情感分析和主題相關(guān)的情感分析。情感分析的研究思路主要分為兩種:一種是基于語義的研究方法,主要利用現(xiàn)有情感詞典或建立傾向性語義模式庫(kù),應(yīng)用情感規(guī)則匹配的方式實(shí)現(xiàn)文本語義的理解,從而實(shí)現(xiàn)對(duì)文本的情感識(shí)別。文獻(xiàn)[3]利用詞典中情感詞和短語的相關(guān)極性和強(qiáng)度,并采用集約化和否定化計(jì)算文本的情感得分。文獻(xiàn)[4]結(jié)合詞典和規(guī)則來計(jì)算文本的情感極性。重點(diǎn)是情感評(píng)價(jià)詞語或其組合的極性判斷以及極性求和的方法。另一種是基于機(jī)器學(xué)習(xí)的研究方法,將情感分析看做分類問題。Pang等[5]將機(jī)器學(xué)習(xí)方法應(yīng)用于電影評(píng)論的二分類問題;Kang等[6]提出應(yīng)用在酒店評(píng)論的樸素貝葉斯的改進(jìn)算法;Liu等[7]提出應(yīng)用在Tweet的自適應(yīng)協(xié)同訓(xùn)練算法。

傳統(tǒng)的方法或只依賴情感知識(shí)(需要建設(shè)情感詞典或領(lǐng)域性情感詞庫(kù)),或只側(cè)重從大量的訓(xùn)練集中抽取情感特征,而大量的工作表明,這兩者之間相互依賴、互為補(bǔ)充。雖然針對(duì)文本的情感分析研究已經(jīng)取得了一定的成果,如果能將兩者很好地進(jìn)行融合,必將對(duì)情感分類的效果有很大的提升。基于此,文中提出基于SVM的高維混合特征模型。在短文本的特征提取上,兼顧了情感和語義兩者,充分挖掘短文本的情感特征,并且引入了新的特征。

1 相關(guān)工作

情感分析[8](sentiment analysis),又稱傾向性分析,意見抽取(opinion extraction),意見挖掘(opinion mining),情感挖掘(sentiment mining),主觀分析(subjectivity analysis),它是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。情感分析自從2002年由Bo Pang提出后,獲得了很大程度的關(guān)注,特別是在在線評(píng)論的情感傾向性分析上獲得了很大的發(fā)展,具有很大的研究和應(yīng)用價(jià)值。由于短文本的特殊性,直到近些年,人們才開始關(guān)注微博等短文本情感分析任務(wù)。

一般而言,當(dāng)前的短文本情感分析任務(wù)主要關(guān)注于特征提取和分類器選擇兩個(gè)部分。由于短文本特征非常稀疏,F(xiàn)lekova等[9]通過計(jì)算同義詞詞典詞匯語義相似度拓充twitter情感特征,并結(jié)合詞典、n-gram等特征訓(xùn)練支持向量機(jī)分類器。Kokciyan等[10]則加入了主題標(biāo)簽、上下文、指示等特征構(gòu)建twitter情感分析系統(tǒng)。由于中文短文本的復(fù)雜性,不少研究人員利用現(xiàn)有的通用詞典WordNet或 HowNet,進(jìn)行擴(kuò)展來獲取大量的極性詞語及極性。楊超等[11]在HowNet和NTUSD的基礎(chǔ)上進(jìn)行擴(kuò)展,建立了一個(gè)具有傾向程度的情感詞典。基于情感詞典和修飾詞詞典,計(jì)算句子的傾向性,最后得到一條評(píng)論的傾向性。何鳳英等[12]以HowNet情感詞語集為基準(zhǔn),構(gòu)建中文基礎(chǔ)情感詞典,利用詞典及程度副詞和否定副詞詞典計(jì)算情感詞的極性,利用詞典及程度副詞和否定副詞詞典來獲取博文的情感傾向性。研究發(fā)現(xiàn),綜合考慮三種因素,采用支持向量機(jī)(SVM)和信息增益(IG),以及TF-IDF(term frequency-inverse document frequency)作為特征項(xiàng)權(quán)重,三者結(jié)合對(duì)微博的情感分類效果最好。謝麗星等[13]針對(duì)中文微博消息展開了情感分析方面的初步調(diào)研,實(shí)驗(yàn)對(duì)比了三種情感分析的方法,包括表情符號(hào)的規(guī)則方法、情感詞典的規(guī)則方法、基于SVM的層次結(jié)構(gòu)多策略方法,結(jié)果證明基于SVM的層次結(jié)構(gòu)多策略方法效果最好。

2 情感特征的構(gòu)造

2.1 表情符號(hào)特征

文中通過對(duì)微博、在線評(píng)論等主流網(wǎng)站采集一定規(guī)模的數(shù)據(jù)后,發(fā)現(xiàn)短文本語料中包含豐富的表情符號(hào)。有些表情含有明顯的情感傾向,利用正則表達(dá)式能夠提取文本的表情符號(hào)。選擇了表1具有代表性的帶情感傾向的表情符號(hào)。

表1 表情符號(hào)列表

選擇的依據(jù):一是出現(xiàn)頻次越高,選取的機(jī)會(huì)越大;二是根據(jù)經(jīng)驗(yàn)知識(shí)判定表情符號(hào)情感傾向。最終在抽取特征后形成:

另外,網(wǎng)民在發(fā)表這些評(píng)論信息結(jié)束時(shí)會(huì)使用一個(gè)或者多個(gè)表情用于更好地表達(dá)自己的情感,而這些表情看上去是圖片,實(shí)際上是由特殊符號(hào)組成。

例如,這部電影真心不錯(cuò)[good]。由此可見,最后一個(gè)表情能夠表達(dá)網(wǎng)民發(fā)表的短文文本情感傾向。在該特征的提取方面,發(fā)現(xiàn)正則表達(dá)式能夠很好地處理這種有特殊表情符號(hào)組成的表情。

2.2 詞聚類特征

其中,C(w)表示一組單詞w的上下文。文中使用該工具運(yùn)用在收集到的語料庫(kù)上聚100類后得到1 533個(gè)基元。

2.3 詞性標(biāo)注特征

常見的分詞系統(tǒng)的詞性標(biāo)注的粒度能達(dá)到:名詞、動(dòng)詞、形容詞、副詞等。文中選用中科院的ICTCLAS[15]作為分詞系統(tǒng),它能將詞性標(biāo)注粒度更為細(xì)分。例如,名詞可以分成人名、地名;形容詞可以分為副形詞、名形詞、形容詞性語素、形詞詞性慣用語。

例如,語句是:“又一部國(guó)產(chǎn)良心之作 笑點(diǎn)從頭到尾 搞笑卻不乏溫情 真是讓人又哭又笑,同一個(gè)道理聽過太多次總覺得平淡無味沒有分量,然而這一次卻說到心里?!睒?biāo)注后:又/d 一/m 部/q 國(guó)產(chǎn)/b 良心/n 之/uzhi 作/ng 笑/vd 點(diǎn)/v 從頭到尾/dl 搞/v 笑/v 卻/v 不乏/v 溫情/n 真/d 是/vshi 讓/v 人/n 又/d 哭/v 又/d 笑/v,/wj 同/p 一個(gè)/mq 道理/n 聽/v 過/uguo 太/d 多/m 次/qv 總/d 覺得/v 平淡/a 無味/a 沒/d 有/vyou 分量/n,/wj 然而/c 這/rzv 一/m 次/qv 卻/d 說/v 到/v 心里/s 。/wj

2.4 n-gram特征

對(duì)于給定的文本,都可以將其看做是長(zhǎng)度不同序列的集合。在這些序列中,相鄰的N個(gè)字或詞稱為n-gram,n-gram算法的基本思想是通過一個(gè)大小為N的滑動(dòng)窗口將文本內(nèi)容進(jìn)行切分,形成長(zhǎng)度為N的片段序列,每個(gè)片段序列稱為gram。使用n-gram特征,盡可能地獲取有限長(zhǎng)度短文本的未登錄情感詞和情感信息。

例如:“乒乓球拍賣啦”,采用傳統(tǒng)的分詞技術(shù),會(huì)被切分成“乒乓球/拍賣/啦”或“乒乓/球拍/賣啦”。可見傳統(tǒng)分詞技術(shù)對(duì)于短文本的分詞存在明顯的缺陷,甚至可能會(huì)改變?cè)性u(píng)價(jià)對(duì)象。文中將n-gram作為一類特征用于短文本的情感分析。鑒于此類情況增加n-gram特征:對(duì)于1-gram是單個(gè)的字或詞對(duì)于特征的選擇并沒有多大意義,所以選擇從2-gram開始,但超過4-gram同樣沒什么意義。

2.5 否定特征

含有主觀傾向的語句往往有很明顯的否定詞。與傳統(tǒng)文本情感分類不同,“不”、”沒“等否定詞不再作為停頓詞被刪除。在句子里“不”或“沒”的否定范圍是“不”或“沒”的全部詞。一個(gè)詞在不在否定范圍內(nèi)對(duì)正確情感分類產(chǎn)生了很大影響。

例如:“他一直沒上班/他沒一直上班;你沒天天學(xué)習(xí)/你天天沒學(xué)習(xí)?!蔽闹胁捎梅穸ㄌ卣魇且跃渥映霈F(xiàn)否定詞為否定特征的開始直至句子結(jié)束都加上否定標(biāo)記,并且記錄否定詞的個(gè)數(shù)也作為否定特征的一部分。

2.6 情感詞典

在對(duì)文本情感分類時(shí),往往文本中含有的少數(shù)帶有情感傾向的詞匯最直接表現(xiàn)文本情感的傾向。如正向詞匯“高興”和負(fù)向情感詞“難過”。由于中文詞語的復(fù)雜性,情感詞匯非常豐富,多為形容詞、副詞等。文中選擇四個(gè)情感詞典進(jìn)行情感特征選擇。其中包含整理好的HowNet、NTUSD、大連理工大學(xué)的本體詞匯以及使用CHI統(tǒng)計(jì)對(duì)情感短文語料庫(kù)構(gòu)建的AHUT詞典。其中由于前兩者并沒有標(biāo)注情感詞的情感極性,所以將正向詞匯的得分定為1.0,負(fù)向詞匯的得分定為-1.0。在情感詞典特征上,采用下面四個(gè)規(guī)則進(jìn)行情感分?jǐn)?shù)的計(jì)算。

規(guī)則1:分別計(jì)算情感文本中的正向詞、負(fù)向詞的數(shù)量;

規(guī)則2:分別計(jì)算情感文本中的正向詞、負(fù)向詞的得分總數(shù);

規(guī)則3:分別計(jì)算情感文本中的得分最大正向詞、負(fù)向詞的分值;

規(guī)則4:分別計(jì)算情感文本中的最后一個(gè)情感詞的分值。

3 SVM高維混合特征情感分類器

3.1 理論基礎(chǔ)

情感短文本經(jīng)過特征抽取后得到的是高維稀疏向量矩陣,直接用來作為分類器的訓(xùn)練和測(cè)試數(shù)據(jù),選用適合處理大規(guī)模文本分類的SVM算法構(gòu)建情感分類器。給定一組樣本集{xi,yi},i=1,2,…,l,xi∈Rn,yi∈{-1,+1},SVM需要解決如下無約束最優(yōu)化問題:

(1)

其中,ξ(w;xi,yi)為損失函數(shù);C為懲罰系數(shù);l為樣本總數(shù)。

通常在分類問題中使用標(biāo)準(zhǔn)C-SVM(L1-SVM)作為有效的分類算法。L1-SVM的損失函數(shù)是一階范數(shù),而二階L2-SVM的損失函數(shù)增加了一個(gè)由懲罰因子對(duì)角矩陣逆的Hessian矩陣的雙重方法。這提高了求解過程的穩(wěn)定性。L1-SVM和L2-SVM的損失函數(shù)公式分別如下:

max(1-yiwTxi,0)

(2)

max(1-yiwTxi,0)2

(3)

通常在SVM的分類問題中增加一個(gè)偏置項(xiàng)b,文中處理偏置項(xiàng)b如下所示:

(4)

其中,B為常數(shù)。

式(1)稱作SVM的原始形式,在求解中將其轉(zhuǎn)變成對(duì)偶形式:

(5)

在L1-SVM中,U=C,Dij=0;在L2-SVM中,U=∞,Dij=1/2C,?i。對(duì)于式(5)中對(duì)偶問題的求解,文獻(xiàn)[16]提供了開源的大規(guī)模線性SVM的工具包LIBLINEAR,實(shí)現(xiàn)了L1-SVM、L2-SVM等損失函數(shù)。

通過實(shí)驗(yàn)對(duì)比表明:在處理大規(guī)模數(shù)據(jù)時(shí),L2-SVM的性能優(yōu)于L1-SVM、PEGASOS、SVMperf。因此,文中同樣選用L2-SVM作為SVM情感分類器的損失函數(shù)。

3.2 框架實(shí)現(xiàn)

情感文本特征的表示是情感分類的關(guān)鍵步驟,包括預(yù)處理、中文分詞、特征抽取三個(gè)部分。

預(yù)處理:目的是將原始文本中涉及到用戶隱私的內(nèi)容刪除。其中可能會(huì)包含超鏈接、用戶名以及一些特定話題。

中文分詞:文中使用的是ICTCLAS分詞工具,為下一步的特征抽取提供較為準(zhǔn)確的基元。

特征抽取:第2節(jié)已經(jīng)列舉了實(shí)驗(yàn)所要用到的各種情感特征。

實(shí)驗(yàn)思路:先從目標(biāo)網(wǎng)站爬取評(píng)論、微博等數(shù)據(jù)進(jìn)行標(biāo)注;然后使用k折交叉的方法進(jìn)行訓(xùn)練和測(cè)試;最后經(jīng)過情感分類器輸出情感極性(正向、負(fù)向、中立),并統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果。

4 實(shí)驗(yàn)方法及相關(guān)分析

4.1 實(shí)驗(yàn)數(shù)據(jù)及預(yù)處理

中文情感文本分析不同于英文,到目前為止情感評(píng)測(cè)語料庫(kù)尚未完善。實(shí)驗(yàn)采用的語料庫(kù)是由COAE2014評(píng)測(cè)提供的語料集和從新浪、京東等國(guó)內(nèi)知名網(wǎng)站上采集的數(shù)據(jù)組成。文中將語料庫(kù)命名為DataSet,其中正向條數(shù)為5 200,中立條數(shù)為5 600,負(fù)向條數(shù)為5 430。考慮到短文本內(nèi)容可能含有用戶的一些隱私信息,所以要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理。文中刪除了語料庫(kù)中url鏈接、用戶名、話題等信息。

4.2 評(píng)價(jià)指標(biāo)

使用準(zhǔn)確率P(precision)、召回率R(recall)和F1值(F-Score)作為評(píng)價(jià)分類器的性能指標(biāo),其具體計(jì)算公式如下:

(6)

(7)

(8)

其中,TP表示分類器將輸入文本正確地分類到某個(gè)類別的數(shù)量;FN表示分類器將輸入文本錯(cuò)誤地分類到某個(gè)類別的數(shù)量;FP表示分類器將輸入文本錯(cuò)誤地排除在某個(gè)類別之外的數(shù)量。

4.3 實(shí)驗(yàn)結(jié)果與分析

文本語料庫(kù)經(jīng)過特征篩選器處理后得到的稀疏向量矩陣,可直接作為情感分類器訓(xùn)練、測(cè)試以及交叉驗(yàn)證的數(shù)據(jù)集。

(1)基于5折交叉驗(yàn)證的實(shí)驗(yàn)結(jié)果。

首先對(duì)短文本語料庫(kù)進(jìn)行特征抽取(約有267萬),然后對(duì)語料庫(kù)進(jìn)行5折交叉驗(yàn)證的實(shí)驗(yàn)。選用Naive Bayes作為對(duì)比的baseline方法,在全部特征上做5折交叉的實(shí)驗(yàn)(見圖1),并且模型參數(shù)為默認(rèn)值。

從圖1可以看出,文中模型的分類效果明顯高于Naive Bayes,其平均準(zhǔn)確率為84.69%,平均召回率為83.13%,而平均F1值為83.90%。

(2)不同懲罰系數(shù)的實(shí)驗(yàn)比較。

在5折交叉實(shí)驗(yàn)的基礎(chǔ)上,驗(yàn)證不同懲罰系數(shù)C對(duì)模型三個(gè)評(píng)價(jià)指標(biāo)的影響,實(shí)驗(yàn)結(jié)果如圖2所示。

對(duì)比圖2可以發(fā)現(xiàn),短文本情感分類的各評(píng)價(jià)指標(biāo)的變化趨勢(shì)一致,懲罰系數(shù)在75左右時(shí),實(shí)驗(yàn)效果達(dá)到最好。

(3)不同特征組合的實(shí)驗(yàn)對(duì)比。

為驗(yàn)證不同類特征對(duì)實(shí)驗(yàn)結(jié)果的影響,選用不含有AHUT情感詞典和詞性標(biāo)注作為base feature,然后依次在上一次特征的基礎(chǔ)上加入AHUT字典、表情符號(hào)、詞聚類、n-gram以及否定特征(即所有特征)來對(duì)部分語料進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)的平均準(zhǔn)確率結(jié)果統(tǒng)計(jì)如圖3所示。

圖1 5折交叉的實(shí)驗(yàn)結(jié)果

圖2 不同懲罰系數(shù)C在5折交叉驗(yàn)證中的分類性能

圖3 不同特征組合的實(shí)驗(yàn)結(jié)果對(duì)比

從圖3可以看出,在base feature的基礎(chǔ)上加入文中構(gòu)建的AHUT字典后,分類效果提升比較明顯,在加入全部特征后效果達(dá)到最好。這是由于文中方法針對(duì)短文本抽取的特征有效。但由于實(shí)驗(yàn)特征的組合上采用的是依次增加的方式,而不是隨機(jī)選用其中幾類特征的組合,故存在不足。

(4)多種模型的對(duì)比。

最后,為進(jìn)一步驗(yàn)證提出模型的有效性,在使用同樣語料庫(kù)的基礎(chǔ)上與一步三分類方法[13]、Recursive AutoEncoder[17]、Doc2vec方法進(jìn)行對(duì)比,結(jié)果如表2所示。

表2 多種模型準(zhǔn)確率對(duì)比 %

實(shí)驗(yàn)結(jié)果表明,提出模型的準(zhǔn)確率優(yōu)于其他幾種模型,驗(yàn)證了模型的正確性。這是因?yàn)榕c一步三分類方法對(duì)比,文中的情感特征增加了詞聚類、否定特征等特征,明顯提高了準(zhǔn)確率;與Recursive AutoEncoder、Doc2vec相比,后兩者在準(zhǔn)確率多分類上低于二分類。而且,文中在特征選取方面采取正則化手段,避免了特征的二次選擇和“高維”災(zāi)難。

5 結(jié)束語

文中充分考慮短文本的特點(diǎn),從多維混合特征的角度進(jìn)行文本的特征抽取,做到盡可能兼顧語義和情感,并且取得了較好的實(shí)驗(yàn)效果,驗(yàn)證了該方法的有效性和魯棒性。

文中提出了基于SVM的高維混合特征框架,采用正則化的手段解決維數(shù)災(zāi)難問題;彌補(bǔ)了傳統(tǒng)情感字典未標(biāo)注情感強(qiáng)度值的不足,構(gòu)建了帶有情感強(qiáng)度值的AHUT情感詞典;考慮到語義對(duì)短文本情感分類的正確率影響,將詞聚類加入到情感分析的特征,提高了1.4%的準(zhǔn)確率。雖然取得了一定的成果,但也存在不足之處:對(duì)情感詞典有一定的依賴;在針對(duì)不同特征的組合上,并沒有隨機(jī)選取幾種特征的組合進(jìn)行實(shí)驗(yàn),可能給實(shí)驗(yàn)的最終結(jié)果帶來偏差;無法對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)、并行化處理。接下來的工作將著手解決上述存在的不足之處。

[1] WU H,WU W,ZHOU M,et al.Improving search relevance for short queries in community question answering[C]//Proceedings of the 7th ACM international conference on web search and data mining.New York,NY,USA:ACM,2014:43-52.

[2] TEEVAN J,RAMAGE D,MORRIS M R.#TwitterSearch:a comparison of microblog search and web search[C]//Proceedings of the fourth ACM international conference on web search and data mining.New York,NY,USA:ACM,2011:35-44.

[3] TABOADA M,BROOKE J,TOFILOSKI M,et al.Lexicon-based methods for sentiment analysis[J].Computational Linguistics,2011,37(2):267-307.

[4] YUAN D,ZHOU Y,LI R,et al.Sentiment analysis of microblog combining dictionary and rules[C]//IEEE/ACM international conference on advances in social networks analysis and mining.[s.l.]:IEEE,2014:785-789.

[5] PANG B,LEE L,VAITHYANATHAN S.Thumbs up?:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on empirical methods in natural language processing-Volume 10.[s.l.]:Association for Computational Linguistics,2002:79-86.

[6] KANG H,YOO S J,HAN D.Senti-lexicon and improved Na?ve Bayes algorithms for sentiment analysis of restaurant reviews[J].Expert Systems with Applications,2012,39(5):6000-6010.

[7] LIU S,LI F,LI F,et al.Adaptive co-training SVM for sentiment classification on tweets[C]//Proceedings of the 22nd ACM international conference on information & knowledge management.New York,NY,USA:ACM,2013:2079-2088.

[8] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

[9] FLEKOVA L, FERSCHK O, GUREVYCH I.UKPDIPF:a lexical semantic approach to sentiment polarity prediction in twitter data[C]//Proceedings of the 8th international workshop on semantic evaluation.Dublin,Ireland:[s.n.],2014:704-710.

[10] KOKCIYAN N,ARDA C,OZGUR A,et al.BOUNCE:sentiment classification in twitter using rich feature sets[C]//Proceedings of the 7th international workshop on semantic evaluation.Atlanta,Georgia:ACL,2013:554-561.

[11] 楊 超,馮 時(shí),王大玲,等.基于情感詞典擴(kuò)展技術(shù)的網(wǎng)絡(luò)輿情傾向性分析[J].小型微型計(jì)算機(jī)系統(tǒng),2010,31(4):691-695.

[12] 何鳳英.基于語義理解的中文博文傾向性分析[J].計(jì)算機(jī)應(yīng)用,2011,31(8):2130-2133.

[13] 謝麗星,周 明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2012,26(1):73-83.

[14] MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems.[s.l.]:[s.n.],2013:3111-3119.

[15] ZHANG H P,YU H K,XIONG D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17.[s.l.]:Association for Computational Linguistics,2003.

[16] FAN R E,CHANG K W,HSIEH C J,et al.LIBLINEAR:a library for large linear classification[J].Journal of Machine Learning Research,2008,9:1871-1874.

[17] 梁 軍,柴玉梅,原慧斌,等.基于深度學(xué)習(xí)的微博情感分析[J].中文信息學(xué)報(bào),2014,28(5):155-161.

猜你喜歡
詞典語料庫(kù)分類器
《語料庫(kù)翻譯文體學(xué)》評(píng)介
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
評(píng)《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
把課文的優(yōu)美表達(dá)存進(jìn)語料庫(kù)
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
基于JAVAEE的維吾爾中介語語料庫(kù)開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
404 Not Found

404 Not Found


nginx
榆社县| 萝北县| 许昌县| 元阳县| 凤冈县| 平舆县| 大兴区| 辽阳县| 曲麻莱县| 沛县| 阳山县| 贵德县| 张家川| 吉林省| 启东市| 密山市| 鸡西市| 红桥区| 共和县| 合山市| 丹东市| 福海县| 白水县| 庆阳市| 武隆县| 化州市| 平山县| 芜湖县| 富蕴县| 汶上县| 玉田县| 洛川县| 陵川县| 宁津县| 凯里市| 铜川市| 温泉县| 万山特区| 景东| 永靖县| 丹巴县|