吳鐘強,張耀文,商琳
(1.南京大學 計算機軟件新技術國家重點實驗室,江蘇 南京 210046; 2. 南京大學 計算機科學與技術系,江蘇 南京 210046)
基于語義特征的多視圖情感分類方法
吳鐘強1,2,張耀文1,2,商琳1,2
(1.南京大學 計算機軟件新技術國家重點實驗室,江蘇 南京 210046; 2. 南京大學 計算機科學與技術系,江蘇 南京 210046)
情感分析也稱為意見挖掘,是對文本中所包含的情感傾向進行分析的技術。目前很多情感分析工作都是基于純文本的。而在微博上,除了文本,大量的圖片信息也蘊含了豐富的情感信息。本文提出了一種基于文本和圖像的多模態(tài)分類算法,通過使用潛在語義分析,將文本特征和圖像特征分別映射到同維度下的語義空間,得到各自的語義特征,并用SVM-2K進行分類。利用新浪微博熱門微博欄目下爬取的文字和配圖的微博數據進行了實驗。實驗結果表明,通過融合文本和圖像的語義特征,情感分類的效果好于單獨使用文本特征或者圖像特征。
情感分析;文本挖掘;潛在語義分析;多模態(tài);語義特征;特征融合;特征提取
隨著互聯網的快速發(fā)展,微博自2006年以來已經成為社交網絡的最主要應用之一。用戶可以通過手機或平板電腦等終端設備在微博上發(fā)布動態(tài)。近年來,從微博數據中挖掘出有價值的信息引起了很多研究者的關注。情感分析或意見挖掘,是一種對人們發(fā)表的觀點、表達的情感或商品評價進行分析的技術[1]。隨著Pang等[2]將機器學習方法成功應用在情感分類之后,情感分析領域不斷涌現新的工作,針對于粒度的不同可以分為文檔級別[2](document level)、句子級別[3](sentence level)和方面級別[4-5](aspect level)。情感分析的應用也越來越廣泛,如Liu等[6]將其用于預測銷售業(yè)績上,Mishne等[7]使用博文的情感來預測電影票房,O’Connor將文本中的情感與票選關聯[8]。但是絕大多數研究都只是基于文本,結合微博圖像進行情感分類的工作較少。但圖像也是傳達情感信息的重要渠道。對于文本和圖像并存的情況,圖像也可以作為傳播情感的載體,如果僅對文本部分進行特征的提取,可能導致對微博整體情感特征提取的缺失,使得整體情感分類的結果不理想。
要使用不同視圖的特征就涉及特征融合問題。特征融合被廣泛應用在多個領域,如目標跟蹤和識別[9]、圖像處理[10]等領域,主要可以分為串行融合和并行融合[11]。
本文通過復數矩陣融合的方式并使用潛在語義分析[2](latent semantic analysis, LSA)技術提出了基于語義特征的多視圖分類方法。首先,將文本和圖像并行融合之后的特征,通過潛在語義分析將原始的文本和圖像特征映射到低維的概念空間(語義空間)得到文本和圖像的語義特征;然后,通過語義特征訓練分類器;最后,將分類器用于微博的情感分類。實驗通過爬取的新浪微博數據集驗證了本文提出的方法能夠有效地提高多視圖情感分類的效果,同時分析了幾個常用特征的利弊。
1.1 潛在語義分析概念
在信息檢索或者文本分析領域,通常使用向量空間模型[12](vector space model, VSM)來表示一篇文檔。它將一篇文檔或者一段話表示成向量,方便進行各種數學處理。雖然此種方法在一些應用中可以獲得不錯的效果,但在實際生活中,可能存在多次同義的問題,而VSM并不能很好地發(fā)現詞與詞之間在語義上的關系。
LSA可以在一定程度上解決上述問題。LSA源自信息檢索領域問題:如何從query中找到相關的文檔[13]。LSA試圖表達一個詞背后隱藏的語義信息,它把詞和文檔都映射到一個語義空間并在這個空間內進行各種運算。這種想法是受到心理語言學家的啟發(fā)[14]。LSA認為文本中的詞語存在著潛在的語義結構,同義詞被映射到相同的語義空間之后應該有很大的關聯度。
1.2 潛在語義分析
LSA是一種無監(jiān)督的學習技術,處理的是詞-文檔矩陣(在本文中處理的是文本和圖像特征融合后的復數矩陣)。構建詞-文檔矩陣之后,LSA通過使用奇異值分解[15](singular value decomposition,SVD)技術將詞-文檔矩陣分解,可以將原始高維空間中表示的詞和文檔投射到低維語義空間。
式中:U為m×m的矩陣,Σ為m×n矩陣,V為n×n矩陣。矩陣U、V為奇異向量組成的正交方陣。Σ是奇異值的對角矩陣,Σ=diag(σ1,σ2,…,σn),其中σ1,σ2,…σn是矩陣N的n個奇異值,且σ1≥σ2≥…≥σn。得到了奇異值之后,取前r個最大的奇異值以及對應的特征向量即可以得到矩陣的低階近似,如式(2)所示:
現有的情感分類研究工作很多都是圍繞文本展開的,但微博除了文本還存在大量的圖片,如果能夠將文本和圖片結合,就可以獲得比純文本更多的信息量。但若僅僅使用原始特征,有可能帶來維度災難問題。
本文提出的基于語義特征的多視圖情感分類方法將文本和圖像特征并行融合,并使用LSA抽取各自的語義特征,其流程如圖1所示。
圖1 基于語義特征的多視圖情感分類方法流程圖 Fig.1 Flow chart of sentiment classification of microblogs based on semantic features
圖像和文本的特征融合,在信息檢索領域里的跨模型檢索(cross-modal retrieval)中已經有相應的應用。但使用較多的融合方式是文本和圖像特征的串行融合[10]。
Wang等[16]在3D目標檢索時,使用的兩組特征串行融合方式如式(3)所示:
(3)
式中:m表示樣本的個數,n表示第1個視圖的特征維度,t表示第2個視圖的特征維度。αij是第i個樣本的第j維特征,βij是第i個樣本的第j維特征。
但是這樣將兩種不同屬性的特征強行拼接在一個特征空間中,應用到微博中會失去原有的物理特性:一條微博是由文字和配圖組成的整體。一條微博的文字和配圖有一定的內在聯系,而不是兩個獨立的個體?;诓⑿腥诤戏椒╗10],本文對于融合前后的文本和圖像特征使用復數進行表示。將文字圖片的特征使用復數進行融合,可以反應微博的整體關系,即復數的實部表示文本特征,虛部表示圖像特征。由于復數矩陣分解之后仍為復數矩陣,故分解之后的實部和虛部分別對應文本和圖像的語義特征。
文本特征和圖像特征融合方法如式(4)所示,將融合之后的復合特征稱為一個新的文檔dj。
式中:實部αj為文本特征向量,虛部βj為圖像特征向量,θ是權重因子。極端情況:
當θ→0時,融合的特征dj≈αj,此時近似于純文本特征。
當θ→+∞時,則dj≈βj,即此時近似于使用純圖像特征的分類效果。
在本文工作中,我們將文本和圖片同等對待,因此設θ=1。假設有m條微博,文本和圖像的語義空間的維度為n。那么由復數構成新的文檔集合用矩陣表示如式(5)所示:
式中:αij是第i條微博文本的第j維特征,βij是第i條微博圖像對應的第j維特征。
現在分詞短語做后置定語時在意義上相當于一個定語從句,它與所修飾詞的關系是主動關系,在轉換時要注意動詞的主語和時態(tài)。例如上述一句可轉換為:
對上面的復數矩陣N進行奇異值分解并進行低階近似,把高維的空間映射到低維的語義空間。將其映射到語義空間之后,再分別提取分解后低階近似矩陣的每個元素的實部和虛部,得到文本和圖片在低維空間的新特征,即語義特征。最后將提取的文本和圖片的語義特征用于訓練多視圖分類器SVM-2K[17],并使用測試集測試模型分類結果。具體步驟如下:
1)提取微博數據中的文本數據和圖像數據,然后將文本和圖像數據分成訓練集和測試集。
2)分別對文本和圖像進行預處理,并提取文本和圖像的特征。
3)將文本特征和圖像特征進行融合,形成一個復數矩陣。對該復數矩陣進行奇異值分解降維。將降維后的矩陣分離實部和虛部分別得到文本的語義特征和圖片的語義特征,語義特征提取過程如算法所示。
4) 將該語義特征在SVM-2K分類器中進行訓練,然后用測試集驗證。
5)得到測試集的情感分類結果。
算法語義特征提取
輸入trainset, testset;
輸出lsa_trainset, lsa_testset。
1)txtimgtr←Text(trainset) + i×Image(trainset);
/* Text函數取數據集中的文本數據,Image函數取數據集中的圖像數據,i為虛數的單位i*/;
2)txtimage←Text(testset) + i × Image(testset);
3)COMPS_LSA←300 ;
4)comTxtImgTr←txtimgtrT
/* txtimgtrT為矩陣txtimgtr的轉置*/;
5)[U,Σ,VT]=svd(comTxtImgTr,COMPS_LSA);
6)US←U(∶, 1∶COMPS_LSA);
7)SS← S(1∶COMPS_LSA, 1∶COMPS_LSA);
/* 對矩陣進行奇異值分解,取前COMPS_LSA=300個最大的奇異值,也即為語義空間的維度*/;
8)comTxtImgTe←comTxtImgTe·U·inv(SS);
9)comTxtImgTr ←comTxtImgTrT·US·inv(SS);
/* inv為取矩陣的逆的函數*/;
10)lsa_Ttr←Text(comTxtImgTr);
11)lsa_Tte←Text(comTxtImgTe);
12)lsa_Itr←Image(comTxtImgTr);
13)lsa_Ite←Image(comTxtImgTe);
14)return lsa_Ttr+lsi_Itr, lsa_Tte + lsi_Ite。
本節(jié)實驗是為了驗證多視圖語義特征融合的有效性。我們使用了基于復數表示的文本特征和圖像特征的并行融合方法,并將其進行潛在語義分析。將文本特征和圖像特征分別映射到同維度下語義空間,得到各自的語義特征,將得到的語義特征用于訓練分類器,最后使用測試集驗證了微博情感分類的效果。
3.1 數據集
實驗的數據集為爬蟲從新浪微博的熱門微博下爬取的。為了完成本文的任務,在爬取微博的時候僅僅保留同時含有文字和配圖的微博。最終留下1 000條微博數據并手動進行標注。為了驗證所提出方法的有效性我們采取了交叉驗證的方式,其中700條數據作為訓練集,300條數據作為測試集。
數據采集過程如圖2所示。
圖2 新浪微博數據采集過程Fig.2 Sina micro-blog data acquisition process
將得到的微博數據作如下數據預處理:
1)過濾微博的一些冗余信息,如網址、轉發(fā)對象、表情符號等。
2)將得到的微博文本和圖像分離并編號,同一條微博的文本和圖片編號相同。
3)分詞:我們使用漢語分詞系統ICTCLAS[18]對微博的文本進行分詞。
4)去除停用詞:分詞后,去除一些無意義的停用詞。
3.2 實驗設計
實驗中我們設置LSA語義空間的維度r=300,分別用向量空間模型(vector space model)和布爾模型(Bool model)進行加權。由于Tan等[19]已經證明對于情感分類來說,6 000維度已經可以充分表示文本。除了選取6 000作為特征維度,我們展示了特征維度為5 000維下的實驗結果。
在文本特征選擇時,使用了文檔頻率(document frequency, DF)、互信息(mutual information, MI)、卡方分布(Chi-squared distribution, CHI)和信息增益(Information Gain, IG)這4種文本特征選擇的方法,并比較了這4種特征做情感分類時的結果;對于圖像,我們提取了圖像的亮度、飽和度、色相、紋理、灰度共生矩陣。然后將提取的特征通過LSA映射到一個語義空間得到各自的語義特征,最后將文本和圖像的語義特征使用SVM-2K進行分類,并使用測試集測試得到情感分類的結果。通過實驗結果驗證本文提出的基于文本和圖像的語義特征情感分類方法的有效性。
3.3 實驗結果
表1展示了文本特征為5 000維度時,使用純文本特征、純圖像與使用文本和圖像結合的語義特征多視圖分類的結果對比。表1對比了DF、CHI、MI和IG這4種文本特征選擇方式對于不同分類方法結果的影響,表中的SVM-2K是指使用基于文本特征結合圖像語義特征的多視圖分類器。
表1 5 000維度的布爾模型
表2展示了文本特征為6 000維度時各種分類方法的對比,特征為布爾模型。
表2 6 000維度的布爾模型
表3展示了文本特征為5 000維度時,使用純文本特征、純圖像與使用文本和圖像結合的語義特征多視圖分類的結果對比,同樣對比了DF、CHI、MI和IG這4種特征選擇方式對于各種分類方法結果的影響。
表3 5 000維度的向量空間模型
表4展示了文本特征為6 000維度時各種分類方法的對比,特征的加權方式為向量空間模型。
表4 6 000維度的向量空間模型
實驗最后對比了不使用語義特征的多視圖分類效果。為分析各個特征對于結果的影響,表5匯總了本文所提出方法情感分類精度結果。
表5基于語義特征的多視圖情感分類方法分類精度統計
Table5Accuracyofmulti-viewsentimentclassificationofmicroblogsbasedonsemanticfeatures
特征提取方法表1表2表3表4平均值DF0.8090.7910.650.770.755CHI0.8120.810.810.830.816MI0.8060.780.790.820.799IG0.810.770.8060.7850.793
3.4 實驗分析
特征抽取方法的比較:通過表5可知,使用本文方法時CHI特征表現得最好,平均正確率為81.6%;DF表現得最不穩(wěn)定,有時效果不錯(如表1所示),有時表現得很差(如表3所示)。
語義特征:可以用不同的方式得到一個文檔的語義特征,例如,可以用LDA[20]或者針對于文本較短的情況改進的LDA模型[21-22]對文本進行聚類,用聚類的結果對文本進行再分析。圖像也可以使用類似的方法。但把文本特征和圖像特征分開進行語義映射,會失去二者的內在聯系。
詞項特征和語義特征:通過對比,我們可以發(fā)現,語義特征的分類精度最好的是81.6%,最壞情況是75.5%;而未經過LSA處理的純文本特征最好情況是75.75%,最壞情況是74.5%。不難看出,使用經過LSA得到的語義特征,有助于提升微博情感分類的精度。不僅整體的分類效果更好,而且各個子分類器的分類效果也比純文本特征有所提高。這表明,進行情感分類工作時在語義級別處理并行融合后特征能得到更好的分類效果。
在用戶發(fā)的帶有文本和圖片的微博數據中,我們可以發(fā)現,本文所提出的基于語義特征的多視圖微博情感分類方法的效果明顯優(yōu)于只考慮純文本的情況。例如,微博“我希望躺在向日葵上,即使沮喪,也能朝著陽光”,其配圖如圖3所示。若使用純文本將其分類得到的是負面的,而若采用本文提出的多視圖語義特征方法將其分類得到的為正面情感。再如,微博“一個人不會,也不可能,將祂的全部呈現給你。你所看到的永遠是祂的局部,而局部永遠是美好的?!逼渑鋱D如圖4所示。若僅使用純文本分類則分類結果為正面情感。采用本文提出的方法,則得到的是負面情感,而負面情感更加符合事實的判斷。進而說明了本文方法的有效性。
圖3 示例1配圖Fig.3 Image in case 1
圖4 示例2配圖Fig.4 Image in case 2
本文首先利用并行特征融合方式,將文本和圖像合理地組合在一起,然后用潛在語義分析技術,將文本和圖像特征統一地映射到一個語義空間,最后使用多視圖分類器SVM-2K進行分類。實驗表明,基于本文多視圖的語義特征方法的情感分類獲得了比單純的文本特征或者圖像特征更好的效果。使用融合后的語義特征不管是文本特征做情感分類還是單從圖像特征做情感分類,都比原來的分類精度有所提高。但是在3.1小節(jié)數據預處理時難免會剔除一些有用的信息,如表情、終端信息、轉發(fā)信息、地理位置信息等。如何有效地利用這些因素提高情感分類精度有待進一步的研究。
[1]LIU B. Sentiment analysis and opinion mining[J]. Synthesis lectures on human language technologies, 2012, 5(1): 1-167.
[2]PANG T B, PANG B, LEE L. Thumbs up? Sentiment classification using machine learning[J].Proceedings of EMNLP, 2002: 79-86.
[4]QIU G, LIU B, BU J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational linguistics, 2011, 37(1): 9-27.
[5]WU Y, ZAHNG Q, HUANG X, et al. Phrase Dependency Parsing for Opinion Mining[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, USA, 2009: 1533-1541.
[6]LIU Y, HUANG X, AN A, et al. ARSA: a sentiment-aware model for predicting sales performance using blogs[C]//International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA, 2007: 607-614.
[7]MISHNE G, GLANCE N S. Predicting movie sales from blogger sentiment[C]//National Conference on Artificial Intelligence. Menlo Park, USA, 2006: 155-158.
[8]O’CONNOR B, BALASUBRAMANYAN R, ROUTLEDGE B R, et al. From tweets to polls: linking text sentiment to public opinion time series[C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Menlo Park, USA, 2010: 122-129.
[9]CHIANG H C, MOSES R L, POTTER L C. Model-based Bayesian feature matching with application to synthetic aperture radar target recognition[J]. Pattern recognition, 2001, 34(8): 1539-1553.
[10]MCCULLOUGH C L. Feature and data-level fusion of infrared and visual images[J]. Proceedings of SPIE-the international society for optical engineering, 1999, 3719: 312-318.
[11]YANG J, YANG J Y, ZHANG D, et al. Feature fusion: parallel strategy vs. serial strategy[J]. Pattern recognition, 2003, 36(6): 1369-1381.
[12]SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[M]. New York:ACM, 1975: 613-620.
[13]DEERWESTER S, DUMAIS S T, FURNAS G W. Indexing by latent semantic analysis[J]. Journal of the american society for information science, 1990, 41: 391-407.
[14]REHDER B, SCHREINER M E, WOLFE M B W, et al. Using latent semantic analysis to assess knowledge: some technical considerations[J]. Discourse processes, 1998, 25(2/3): 337-354.
[15]GOLUB G H, REINSCH C. Singular value decomposition and least squares solutions[J]. Numerische mathematik,1970, 14(5): 403-420.
[16]WANG F, PENG J, LI Y. Hypergraph based feature fusion for 3-D object retrieval[J]. Neurocomputing, 2015, 151:612-619.
[17]FARQUHAR J D R, HARDOON D R, MENG H, et al. Two view learning: SVM-2K, theory and practice[C]//International Conference on Neural Information Processing Systems. Stroud sburg, USA, 2005: 355-362.
[18]ZHANG H P, YU H K, XIONG D Y, et al. HHMM-based Chinese lexical analyzer ICTCLAS[C]//Proceedings of the second SIGHAN workshop on Chinese language Processing-Volume 17. Stroudsburg, USA, 2003: 758-759.
[19]TAN S, ZHANG J. An empirical study of sentiment analysis for chinese documents[J]. Expert systems with applications, 2008, 34(4): 2622-2629.
[20]BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of machine learning research, 2003, 3: 993-1022.
[21]ZHAO W X, JIANG J, WENG J, et al. Comparing twitter and traditional media using topic models[J]. Lecture notes in computer science, 2011, 6611: 338-349.
[22]YAN X, GUO J, LAN Y, et al. A biterm topic model for short texts[C]//Proceedings of the 22nd international conference on World Wide Web. New York, USA, 2013: 1445-1456.
吳鐘強,男,1992年生,碩士研究生,主要研究方向為文本挖掘、情感分析。
張耀文,男,1989年生,碩士研究生,主要研究方向為文本挖掘、情感分析。
商琳,女,1973年生,副教授,博士,主要研究方向為計算智能、 機器學習、 文本挖掘等。
Multi-viewsentimentclassificationofmicroblogsbasedonsemanticfeatures
WU Zhongqiang1, 2, ZHANG Yaowen1,2, SHANG Lin1,2
(1. State Key Laboratory of Novel Software Technology, Nanjing University, Nanjing 210046, China; 2. Department of Computer Science and Technology, Nanjing University, Nanjing 210046, China)
The objective in sentiment analysis is to analyze the sentiment tendency contained in subjective text. Most sentiment analysis methods deal with text only and ignore the information provided in the corresponding pictures. In this paper, we propose a multi-view microblog analysis method based on semantic features. Using latent semantic analysis, we map both the text and image features to the semantic space in the same dimensionality, and use SVM-2K to obtain and classify the respective semantic features. We conducted experiments by crawling text and pictures from popular microblogs. The results show that, by combining the semantic features of text and pictures, the sentiment classification result is better than that obtained using text or image features alone.
sentiment analysis; text mining; latent semantic analysis; multi-view; semantic features; feature fusion; feature extraction
10.11992/tis.201706026
http://kns.cnki.net/kcms/detail/23.1538.TP.20171021.1350.010.html
TP181
A
1673-4785(2017)05-0745-07
中文引用格式:吳鐘強,張耀文,商琳.基于語義特征的多視圖情感分類方法J.智能系統學報, 2017, 12(5): 745-751.
英文引用格式:WUZhongqiang,ZHANGYaowen,SHANGLin.Multi-viewsentimentclassificationofmicroblogsbasedonsemanticfeaturesJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 745-751.
2017-06-08. < class="emphasis_bold">網絡出版日期
日期:2017-10-21.
國家自然科學基金項目(61672276);江蘇省自然科學基金項目(20161406).
吳鐘強.E-mail: wuzqchom@163.com.