張冠東, 楊琛, 詹曉琳, 方紅, 王繼芬
(1. 上海第二工業(yè)大學(xué) 文理學(xué)部, 上海 201209; 2. 武漢大學(xué) 經(jīng)濟(jì)與管理學(xué)院, 湖北 武漢 430072)
在大數(shù)據(jù)時(shí)代,人們依靠大量的數(shù)據(jù)來(lái)發(fā)現(xiàn)事物的規(guī)律和本質(zhì)。隨著科技的發(fā)展,數(shù)據(jù)分析已經(jīng)越來(lái)越離不開計(jì)算機(jī)的支持。在所有現(xiàn)有的數(shù)據(jù)類型中,文本數(shù)據(jù)是最普遍存在也是最容易獲得的數(shù)據(jù)。因此,文本數(shù)據(jù)分析已經(jīng)逐漸成為數(shù)據(jù)分析領(lǐng)域一個(gè)重要的研究方向。在中文的文本分析領(lǐng)域中,研究方向有很多,包括文本分類、文本排序、情感識(shí)別等。在這些研究方向上,文本的情感識(shí)別是一個(gè)比較熱門的研究方向,因?yàn)樗軌蜓杆僮R(shí)別所研究的目標(biāo)文本,為后續(xù)的深入分析打下基礎(chǔ)。這是因?yàn)槟壳拔⑿?、微博和各種社交媒體已經(jīng)成為公眾關(guān)注社會(huì)狀況的一種重要途徑。在這些社交媒體中,文字或者文本表述是它們主要的表現(xiàn)形式。由于中文詞匯豐富,由中文所組成的文本語(yǔ)句能夠用于表達(dá)作者的情感、觀點(diǎn)等信息,因此這些文字信息能夠讓讀者了解作者的意圖和想法。因此我們可以通過對(duì)文字所包含的褒貶信息進(jìn)行判斷,推測(cè)出作者的意圖從而了解作者的喜好。
先前的文本語(yǔ)句褒貶研究是依托于詞匯的褒貶進(jìn)行的,這種研究適用于詞匯的褒貶意義,但是對(duì)于文本整體而言,無(wú)法根據(jù)褒義或者貶義詞匯的多少來(lái)判斷該文本是褒義還是貶義的意思。此外,如果僅僅是計(jì)算褒貶詞匯之間的比例,也會(huì)因?yàn)楹雎晕谋菊w的信息量而使得研究結(jié)果缺乏一定的價(jià)值。由于信息熵(Information Entropy)具有檢驗(yàn)整體信息量的功能,因此我們可以利用其對(duì)整體信息質(zhì)量進(jìn)行檢測(cè)的方法來(lái)檢驗(yàn)。
情感分析也被稱為具有感情色彩的傾向性數(shù)據(jù)挖掘,它是對(duì)用戶所發(fā)表的言論、評(píng)價(jià)、觀點(diǎn)等一系列文字內(nèi)容進(jìn)行識(shí)別,找出用戶的觀點(diǎn)傾向。文本的情感分析可以從詞語(yǔ)、句子和段落方面來(lái)研究。然而,詞語(yǔ)的情感分析則太微小,因?yàn)楫吘乖~匯的情感因素?zé)o法反映出整體語(yǔ)句的情感傾向;段落的情感分析則太寬,因?yàn)橛行┒温湮淖痔嗵L(zhǎng),所以我們只能從一大段語(yǔ)句中粗略看出情感的整體傾向。由此,語(yǔ)句的情感分析能幫助我們了解一個(gè)句子的情感傾向,從而看出作者的情感變化狀況。由于文本的情感分析也是屬于文本分析的范疇,所以我們采用文本分析的研究方法來(lái)做文本的情感分析。目前,有很多研究方法被用于對(duì)文本做系統(tǒng)性的分析,例如LDA、Topic Modeling、Information Entropy等。在這些方法中,信息熵是一種高效且先進(jìn)的分析方法,它結(jié)合了概率的理念從整體的角度來(lái)檢測(cè)所包含的某些信息的質(zhì)量。對(duì)于文本分析而言,當(dāng)某一類特定的文本信息越多,那么說(shuō)明這種文本所代表的意義被傳播得越廣泛,表達(dá)得越豐富。
在國(guó)內(nèi),李圣文等[1]采用熵的方法來(lái)檢測(cè)文本之間的相似程度,他們通過對(duì)公共字符串相似性的研究使得文本的相似度統(tǒng)計(jì)的精確度比傳統(tǒng)的分析方法更好。齊園和王琴[2]采用熵權(quán)TOPSIS法對(duì)獲取的國(guó)家和地方裝配式建筑配套政策的文本數(shù)據(jù)進(jìn)行了分析研究,并以此對(duì)我國(guó)的相關(guān)政策和發(fā)展提出了相應(yīng)的建議。李輝等[3]則針對(duì)網(wǎng)頁(yè)中缺失的評(píng)價(jià)信息對(duì)網(wǎng)頁(yè)內(nèi)容推薦結(jié)果的影響做了分析研究,他們的研究通過利用特征詞及其相關(guān)權(quán)重計(jì)算出文本信息熵和最鄰近熵差得出推薦值進(jìn)行文本推薦,從而提高了推薦算法的準(zhǔn)確性。黃文明和孫艷秋[4]利用最大熵的理念對(duì)社交媒體的評(píng)論文本進(jìn)行情感分析,該研究利用有限擬牛頓平滑算法對(duì)情感分析的模型加以優(yōu)化,通過以關(guān)鍵字為劃分的評(píng)論數(shù)據(jù)集上的對(duì)比試驗(yàn)驗(yàn)證了模型的有效性。陳科文等[5]使用文本特征的詞的權(quán)重提出了一種基于支持向量機(jī)(Support Vector Machine,SVM)的 LTF-ECDP(Logarithmic Term Frequency & Entropy-based Class Distinguishing Power)方法,該方法不但使得文本分類更加準(zhǔn)確而且不會(huì)因?yàn)閿?shù)據(jù)集的變化而性能不穩(wěn)定。
除了國(guó)內(nèi)的文本研究以外,國(guó)外的科研工作者也熱衷于文本信息的分析和研究。Maryam和Ali[6]提出了用Tsallis信息熵來(lái)對(duì)文本按照某種主題進(jìn)行排序,他們通過應(yīng)用統(tǒng)計(jì)理論和概念設(shè)計(jì)出一種詞排序矩陣從文檔中來(lái)抽取關(guān)鍵詞,其實(shí)驗(yàn)結(jié)果表明Tsallis熵優(yōu)于其他一些文本排序方法。Olga等[7]對(duì)阿拉伯新聞報(bào)紙中語(yǔ)言意思的變化做了研究,他們的研究在基于詞嵌入和詞統(tǒng)計(jì)過程的基礎(chǔ)上對(duì)出版的傳統(tǒng)媒體提出了一種動(dòng)態(tài)的模式判斷方法,其實(shí)驗(yàn)表明該方法能夠抓住文本語(yǔ)言信息中的顯著變化。Vashishtha和Seba[8]將模糊熵(Fuzzy Entropy)和K均值聚類算法(K-means)相結(jié)合對(duì)文本語(yǔ)句中的情感元素進(jìn)行分析,該方法以電影評(píng)論為數(shù)據(jù)資料,通過檢驗(yàn)發(fā)現(xiàn),該方法具有較高的準(zhǔn)確率。
在本研究中,我們將基于信息熵的理念,提出一種新穎的情感傾向分析模型——比例信息熵模型,該模型將褒貶意詞匯的比例和信息熵相結(jié)合來(lái)分析文本語(yǔ)句的整體情感傾向。首先,計(jì)算出詞匯的褒貶意傾向;然后,通過比例信息熵得出文本語(yǔ)句的褒貶傾向;最后,用公共文本數(shù)據(jù)庫(kù)來(lái)驗(yàn)證模型的效果。
熵是由Shannon[9]所提出的,最初起源于熱力學(xué),它是一個(gè)用于描述分子狀態(tài)混亂程度的熱力學(xué)物理量。Shannon指的熵主要是用于描述各種信息的不確定程度。因此,熵可用來(lái)檢測(cè)信息包含量或者是信息質(zhì)量的優(yōu)劣程度。根據(jù)Shannon所介紹的,其計(jì)算式可以表達(dá)為式(1)。
(1)
其中,Pi為某信息在整個(gè)文本中所占的比重(0 (2) 本研究的研究對(duì)象是中文語(yǔ)句,所使用的中文數(shù)據(jù)集名為Chinese conversation sentiment master(該數(shù)據(jù)發(fā)布于https://github.com/z17176/Chinese_conversation_sentiment)。該數(shù)據(jù)集作為公共中文數(shù)據(jù)已經(jīng)被用于情感分析[10]。在該數(shù)據(jù)集中,中文語(yǔ)句的詞匯已經(jīng)做了分割,并且已經(jīng)預(yù)設(shè)了語(yǔ)句的褒貶含義。 在模型的比較過程中,一般需要采用較為公認(rèn)的檢驗(yàn)標(biāo)準(zhǔn)來(lái)檢測(cè)模型運(yùn)行效果的優(yōu)劣。在文本研究過程中,一般采用褒貶精準(zhǔn)率、查全率、查準(zhǔn)率和F檢測(cè)值來(lái)評(píng)價(jià)文本模型的準(zhǔn)確程度,因?yàn)檫@些檢測(cè)指標(biāo)能夠有效評(píng)估分類的效果和結(jié)果的精確程度,但是由于查準(zhǔn)率在一般情況下是隨著查全率的降低而增加的[11]。因此,為了能提高對(duì)實(shí)驗(yàn)結(jié)果的評(píng)估效果,本研究采用褒貶精準(zhǔn)率和F值來(lái)評(píng)價(jià)模型的表現(xiàn)。 褒貶精準(zhǔn)率(Commendatory and Derogatory Accuracy,CDAcc)描述的是由模型得出的褒貶語(yǔ)句和真實(shí)褒貶語(yǔ)句所匹配的數(shù)量與總的語(yǔ)句數(shù)量之間的比例,其檢驗(yàn)式如式(3)。 (3) 其中,n表示由模型得出的褒貶語(yǔ)句和真實(shí)褒貶語(yǔ)句所匹配的數(shù)量;N表示總的語(yǔ)句數(shù)量。 F檢測(cè)值也是由實(shí)驗(yàn)結(jié)果和原始數(shù)據(jù)的比較所構(gòu)成的,在計(jì)算該指標(biāo)之前,根據(jù)曾凡鋒等[11]所述,需要預(yù)先定義褒貶判斷模式,如表1所示。 表1 褒貶模式定義 根據(jù)表1,F(xiàn)-Score的檢驗(yàn)式如式(4)。 (4) 由于SnowNLP庫(kù)已經(jīng)被前期的研究者所使用來(lái)分析詞匯的情感含義[12],該庫(kù)能夠區(qū)分詞匯含義的積極或消極觀點(diǎn)。因此在本研究中,我們先使用SnowNLP庫(kù)來(lái)判斷中文詞匯的褒貶,再使用比例信息熵來(lái)驗(yàn)證整個(gè)語(yǔ)句的褒貶,同時(shí)我們選擇目前流行的熵:香農(nóng)熵(Shannon Entropy,SE);模糊熵(Fuzzy Entropy,F(xiàn)E);Tsallis熵(Tsallis Entropy,TE))來(lái)做對(duì)比,其流程示意圖如圖1所示。 圖1 語(yǔ)句褒貶流程圖 對(duì)于同一批中文文本數(shù)據(jù)而言,不同的熵會(huì)計(jì)算出不同的褒貶結(jié)果,從而做出不同的判斷。由于本研究所采用的公共數(shù)據(jù)集中已經(jīng)對(duì)每個(gè)語(yǔ)句有了褒貶的判斷,因此我們將用以上4種方法對(duì)該數(shù)據(jù)集進(jìn)行分析計(jì)算并比較計(jì)算結(jié)果的準(zhǔn)確性。我們將分別選取該數(shù)據(jù)集中的前幾千條數(shù)據(jù)進(jìn)行整體語(yǔ)句的褒貶分析,其褒貶精準(zhǔn)率和F檢測(cè)值的測(cè)試結(jié)果如表2、表3所示。 表2 褒貶精準(zhǔn)率 表3 F檢測(cè)值 從上述對(duì)比結(jié)果,我們發(fā)現(xiàn)比例信息熵對(duì)公共數(shù)據(jù)集分析結(jié)果的褒貶精準(zhǔn)率和F檢測(cè)值都分別要高于其他信息熵,對(duì)此我們還從準(zhǔn)確率提升百分比的角度出發(fā)對(duì)上述的分析結(jié)果進(jìn)行研究,如表4、表5所示。 表4 平均褒貶精準(zhǔn)率提升百分比 表5 平均F檢測(cè)值提升百分比 雖然表2和表3已經(jīng)表明比例信息熵比其他所選的信息熵在文本語(yǔ)句整體褒貶檢測(cè)方面的效果都要優(yōu)越,但是表4和表5從優(yōu)越性的提升百分比角度出發(fā)說(shuō)明了比例信息熵的檢測(cè)效果較其他所選的熵模型更加理想。 語(yǔ)句的褒貶含義和單個(gè)詞匯的褒貶含義有所不同,單個(gè)詞匯的褒貶含義不能真實(shí)地反映出整個(gè)語(yǔ)句的褒貶含義,而整個(gè)語(yǔ)句的褒貶含義能夠更加真實(shí)地反映出作者的觀點(diǎn)和態(tài)度,因此我們有必要去研究整個(gè)語(yǔ)句的褒貶意義。本文所提出的比例信息熵,從褒義詞匯的整體信息質(zhì)量和貶義詞匯的整體信息質(zhì)量出發(fā)來(lái)研究文本語(yǔ)句整體的褒貶含義。和其他所選的信息熵相比,該比例信息熵在公共數(shù)據(jù)集的測(cè)試中具有更高的準(zhǔn)確性,這說(shuō)明該模型能夠更好地判斷中文語(yǔ)句整體的褒貶含義。3 數(shù)據(jù)來(lái)源
4 檢驗(yàn)標(biāo)準(zhǔn)
4.1 褒貶精準(zhǔn)率
4.2 F檢測(cè)值
5 實(shí)例分析
6 總結(jié)