国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于情感依存元組的簡(jiǎn)單句情感判別方法

2017-07-18 10:53歐陽(yáng)純萍陽(yáng)小華劉志明張書(shū)卿
中文信息學(xué)報(bào) 2017年3期
關(guān)鍵詞:元組修飾詞中心詞

周 文,歐陽(yáng)純萍,陽(yáng)小華,劉志明,張書(shū)卿,饒 婕

(1. 南華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 湖南 衡陽(yáng) 421001;2. 懷化市煙草專(zhuān)賣(mài)局,湖南 懷化 418000)

一種基于情感依存元組的簡(jiǎn)單句情感判別方法

周 文1,2,歐陽(yáng)純萍1,陽(yáng)小華1,劉志明1,張書(shū)卿1,饒 婕1

(1. 南華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 湖南 衡陽(yáng) 421001;2. 懷化市煙草專(zhuān)賣(mài)局,湖南 懷化 418000)

基于依存句法“動(dòng)詞配價(jià)”原理與組塊的概念,提出以情感依存元組(EDT)作為中文情感表達(dá)的基本單位。它以句中能承載情感的幾類(lèi)實(shí)詞作為中心詞,修飾詞依附于中心詞,程度詞和否定詞依附于中心詞和修飾詞。該文對(duì)句子進(jìn)行句法分析,在句法樹(shù)和依賴關(guān)系中按規(guī)則提取情感依存元組,建立簡(jiǎn)單句情感依存元組判別模型計(jì)算情感傾向性。針對(duì)COAE2014評(píng)測(cè)公布的網(wǎng)絡(luò)新聞?wù)Z料,將該方法分別與有監(jiān)督分類(lèi)算法(KNN、SVM)和半監(jiān)督算法(K-means)進(jìn)行實(shí)驗(yàn)對(duì)比。結(jié)果表明,基于EDT的情感分類(lèi)性能與有監(jiān)督的機(jī)器學(xué)習(xí)算法相當(dāng),遠(yuǎn)高于半監(jiān)督的聚類(lèi)算法。

情感依存元組;情感傾向性;依存語(yǔ)法;句法分析

1 引言

互聯(lián)網(wǎng)的興盛催生了大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和技術(shù)領(lǐng)域,成為不可或缺的生產(chǎn)要素。網(wǎng)絡(luò)數(shù)據(jù)中存在大量包含用戶觀點(diǎn)、心情、態(tài)度等主觀性信息的文本,對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理叫文本情感分析[1]。文本情感分析具有重要的研究?jī)r(jià)值和應(yīng)用價(jià)值,例如,對(duì)產(chǎn)品評(píng)論分析,可以幫助商家對(duì)產(chǎn)品進(jìn)行改進(jìn),也可指導(dǎo)用戶消費(fèi);對(duì)新聞評(píng)論分析,可以給企業(yè)、政府等機(jī)構(gòu)提供重要的決策依據(jù)[2]。文獻(xiàn)[1]闡述了文本情感分類(lèi)的兩種研究思路: 基于情感知識(shí)和基于特征分類(lèi)的方法?;谔卣鹘y(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)代價(jià)小,但最終獲得的概念層次結(jié)構(gòu)的可理解性難以達(dá)到較高的水平[3];基于預(yù)定義知識(shí)工程的方法則需要過(guò)多人工參與,實(shí)現(xiàn)代價(jià)高。

傳統(tǒng)的文本挖掘方法由于不能有效運(yùn)用語(yǔ)義信息而難以達(dá)到更高的準(zhǔn)確度,越來(lái)越多的學(xué)者轉(zhuǎn)向從計(jì)算語(yǔ)言學(xué)角度進(jìn)行文本分析。對(duì)以微博、網(wǎng)絡(luò)新聞為代表的社會(huì)媒體而言,簡(jiǎn)單句是它們的主要構(gòu)成成分,所以要分析這類(lèi)社會(huì)媒體的情感傾向性,關(guān)鍵在于對(duì)簡(jiǎn)單句進(jìn)行情感分析。本文提出了一種結(jié)合淺層句法分析和語(yǔ)義分析,對(duì)簡(jiǎn)單句情感表達(dá)結(jié)構(gòu)進(jìn)行抽取和分析的方法。通過(guò)對(duì)中文情感的表達(dá)結(jié)構(gòu)進(jìn)行分析、歸納,提出以情感依存元組(emotional dependency tuple,EDT)作為情感表達(dá)的單位,并基于情感依存元組建立情感判別模型,從而實(shí)現(xiàn)對(duì)句子級(jí)及篇章級(jí)簡(jiǎn)單文本的情感判別。

2 相關(guān)概念

目前基于句法分析的研究大多只是借助句法構(gòu)造基于機(jī)器學(xué)習(xí)的高精度句法分析程序,并沒(méi)有實(shí)現(xiàn)從句法層面到語(yǔ)義層面的轉(zhuǎn)換。這種對(duì)句法依存關(guān)系的籠統(tǒng)分析容易引入主題不相關(guān)情感噪聲,為避免噪聲影響,本文致力于探尋一種能有效抽取句子情感表達(dá)成分,針對(duì)情感表達(dá)結(jié)構(gòu)進(jìn)行精確分析,以判別句子情感傾向性的方法。情感表達(dá)結(jié)構(gòu)應(yīng)具有下述特征:

(1) 情感表達(dá)結(jié)構(gòu)是句子的一部分,嚴(yán)格遵循句法規(guī)則。

(2) 每個(gè)情感表達(dá)結(jié)構(gòu)以一個(gè)中心詞為框架,其他成分修飾中心詞,中心詞為能夠承載或者抒發(fā)情感的實(shí)詞,如名詞、動(dòng)詞、形容詞、代詞等。

(3) 情感表達(dá)結(jié)構(gòu)的粒度不宜過(guò)大,粒度越大其本身的正確識(shí)別就越困難,只考慮對(duì)與情感有關(guān)的依賴關(guān)系進(jìn)行分析,即情感修飾及程度和否定關(guān)系。

(4) 程度依賴決定修飾程度因子,否定依賴決定情感極性因子,兩者的順序雖對(duì)情感表達(dá)結(jié)構(gòu)的情感強(qiáng)度有影響,但不影響情感結(jié)構(gòu)的極性,在進(jìn)行傾向性判別的任務(wù)時(shí)暫不細(xì)分。

(5) 修飾詞對(duì)中心詞的情感貢獻(xiàn)及情感表達(dá)結(jié)構(gòu)對(duì)句子的情感貢獻(xiàn)可以采用線性組合模型計(jì)算得到。

分析發(fā)現(xiàn)情感表達(dá)結(jié)構(gòu)與依存句法的“動(dòng)詞配價(jià)”理論及組塊的概念存在諸多相似之處。與“動(dòng)詞配價(jià)”理論的區(qū)別在于情感表達(dá)結(jié)構(gòu)的中心詞為能夠表達(dá)或承載情感的實(shí)詞,即可以是產(chǎn)生情感的對(duì)象,也可以是情感描述的對(duì)象,不限定為動(dòng)詞;不同于組塊理論的是情感表達(dá)結(jié)構(gòu)不是按詞性劃分,其相當(dāng)于情感功能組塊。下面對(duì)句法分析與組塊進(jìn)行介紹。

2.1 句法分析

句法分析是根據(jù)給定的語(yǔ)法體系,以詞法分析結(jié)果為基礎(chǔ),自動(dòng)推導(dǎo)出句子的語(yǔ)法結(jié)構(gòu),并識(shí)別出句子所包含的語(yǔ)法單元和這些語(yǔ)法單元之間的關(guān)系。句法分析是自然語(yǔ)言處理的核心技術(shù),是對(duì)語(yǔ)言進(jìn)行深層理解的基石,同時(shí)也由于自然語(yǔ)言中大量歧義的存在和隨著句子長(zhǎng)度增長(zhǎng)候選搜索樹(shù)的空間過(guò)大使其成為一個(gè)難點(diǎn)[4-5]。目前廣泛應(yīng)用的語(yǔ)法體系有短語(yǔ)結(jié)構(gòu)語(yǔ)法和依存語(yǔ)法。短語(yǔ)結(jié)構(gòu)語(yǔ)法描述能力強(qiáng),對(duì)語(yǔ)言學(xué)界和自然語(yǔ)言處理領(lǐng)域都產(chǎn)生了重要的影響,但其不能很好地理解自然語(yǔ)言的歧義結(jié)構(gòu)。依存語(yǔ)法(配價(jià)語(yǔ)法)認(rèn)為句子中的述語(yǔ)動(dòng)詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有受支配成分都以某種依存關(guān)系從屬于其支配者。

短語(yǔ)結(jié)構(gòu)語(yǔ)法目前的研究集中在英文語(yǔ)料上,而依存語(yǔ)法則可直接表示詞語(yǔ)間的關(guān)系,并側(cè)重反映語(yǔ)義關(guān)系,對(duì)深層次的角色標(biāo)注和信息抽取十分有利,被各國(guó)學(xué)者廣泛接納,使得對(duì)它的研究已經(jīng)在多種語(yǔ)言中開(kāi)展。在中文句法分析方面,清華大學(xué)和哈爾濱工業(yè)大學(xué)都基于依存語(yǔ)法分別建立各自的句法樹(shù)庫(kù)(SDN、CDT)。周明[6]最先從事漢語(yǔ)句法分析工作,采用分塊的思想抽取句子中固定關(guān)系的語(yǔ)塊進(jìn)行依存分析。羅強(qiáng)[7]等用產(chǎn)生式模型進(jìn)行依存分析,然后用SVM分類(lèi)器訓(xùn)練,并在哈工大依存樹(shù)上實(shí)驗(yàn)取得不錯(cuò)的效果。張莉[8]等采用句法結(jié)構(gòu)提取候選特征,結(jié)合CRFs進(jìn)行模型訓(xùn)練抽取評(píng)價(jià)對(duì)象。本文沿用了依存語(yǔ)法體系,認(rèn)為句子的情感表達(dá)結(jié)構(gòu)符合情感表達(dá)結(jié)構(gòu)特征的句法樹(shù)中的子樹(shù),子樹(shù)內(nèi)部各節(jié)點(diǎn)符合配價(jià)語(yǔ)法規(guī)則。

2.2 組塊

在文本情感分析時(shí),有時(shí)我們并不需要實(shí)現(xiàn)完全句法分析,可只進(jìn)行淺層句法分析以降低難度。淺層分析技術(shù)已廣泛應(yīng)用于分詞、命名實(shí)體識(shí)別等任務(wù)中[9]。組塊分析作為淺層句法分析的代表致力于識(shí)別句子中的某些結(jié)構(gòu)相對(duì)簡(jiǎn)單、功能和意義相對(duì)重要的成分,只限于把句子解析成較小的單元[4]。淺層句法分析的結(jié)果并不是一棵完整的句法樹(shù),各個(gè)組塊是完整句法樹(shù)的子樹(shù),只要加上組塊之間的依附關(guān)系,就可以構(gòu)成完整的句法樹(shù),對(duì)語(yǔ)塊的識(shí)別是組塊分析的主要任務(wù)[10]。

Abney[11]最早提出了一個(gè)完整的組塊描述體系,他把組塊定義為句子中一組相鄰的屬于同一個(gè)s-投射的詞語(yǔ)的集合。其后,學(xué)者們對(duì)英文組塊的定義達(dá)成了共識(shí)[4]: 句子是由一些短語(yǔ)構(gòu)成的,而每一個(gè)短語(yǔ)是由句法相關(guān)的詞構(gòu)成的,這些短語(yǔ)彼此不重疊、無(wú)交集,不含嵌套關(guān)系。然而,中文組塊的定義尚未達(dá)成統(tǒng)一,最初的研究集中在對(duì)名詞短語(yǔ)、介詞短語(yǔ)及短語(yǔ)的自動(dòng)界定上。文獻(xiàn)[12]和文獻(xiàn)[13]在Abney定義的基礎(chǔ)上各自做了擴(kuò)展,但他們都強(qiáng)調(diào)組塊是一種語(yǔ)法結(jié)構(gòu),是符合一定語(yǔ)法功能的非遞歸短語(yǔ),每個(gè)組塊都有一個(gè)中心詞,并圍繞該中心詞展開(kāi),以中心詞作為組塊的開(kāi)始或結(jié)束。后者還指出組塊是嚴(yán)格按照句法定義的,不能破壞句子的句法結(jié)構(gòu),不體現(xiàn)句子的語(yǔ)義和功能;組塊的劃分只依據(jù)局部的表層信息,例如詞信息、詞性信息等,而不考慮遠(yuǎn)距離約束及句子的整體句法結(jié)構(gòu)。文獻(xiàn)[14]則認(rèn)為組塊是由實(shí)詞(名詞、動(dòng)詞、形容詞、數(shù)詞、量詞、副詞等)組成的詞語(yǔ)序列。除此之外,還有大量研究結(jié)合基于統(tǒng)計(jì)的方法在開(kāi)放標(biāo)準(zhǔn)的語(yǔ)料庫(kù)進(jìn)行了組塊識(shí)別、內(nèi)部結(jié)構(gòu)分析等一系列研究,并取得了不錯(cuò)的成績(jī)。

本文綜合了上述幾種中文組塊的定義,認(rèn)為組塊是圍繞中心詞展開(kāi)的實(shí)詞序列,嚴(yán)格按照句法定義,不能破壞其內(nèi)部的句法結(jié)構(gòu)。同時(shí)將情感表達(dá)結(jié)構(gòu)理解為具有情感表達(dá)功能的組塊。

2.3 情感依存元組

句子中詞語(yǔ)依存關(guān)系的樹(shù)形表示叫作“依存樹(shù)”(dependency tree),樹(shù)中節(jié)點(diǎn)之間的關(guān)系主要有支配關(guān)系和前于關(guān)系兩種。同一樹(shù)枝上的上層節(jié)點(diǎn)支配所有下層節(jié)點(diǎn),不同分支上左邊的節(jié)點(diǎn)前于所有右邊分支的節(jié)點(diǎn)。如句子“鐵路工人學(xué)習(xí)英語(yǔ)語(yǔ)法”的依存樹(shù)如圖1所示。其中“學(xué)習(xí)”節(jié)點(diǎn)支配其他四個(gè)節(jié)點(diǎn),“工人”節(jié)點(diǎn)和“語(yǔ)法”節(jié)點(diǎn)又分別支配“鐵路”和“英語(yǔ)”節(jié)點(diǎn),“工人”和“鐵路”節(jié)點(diǎn)都前于“語(yǔ)法”和“英語(yǔ)”節(jié)點(diǎn)。

圖1 句子依存樹(shù)

綜上所述,情感表達(dá)結(jié)構(gòu)是句子組塊在功能上的劃分,用以表達(dá)句子情感的基本單位,是句子句法樹(shù)的子樹(shù),結(jié)構(gòu)內(nèi)部仍遵守句法規(guī)則。如圖1所示,“學(xué)習(xí)”、“工人”和“語(yǔ)法”可以作為中心詞構(gòu)成三個(gè)情感表達(dá)結(jié)構(gòu),本文將這種情感表達(dá)結(jié)構(gòu)定義為情感依存元組。

定義1情感依存元組(EDT, emotional dependency tuple): 以承載情感或產(chǎn)生情感的實(shí)詞作中心詞(CW),情感修飾詞(EW)依附于中心詞,程度詞(DW)和否定詞(NW)序列修飾核心詞和情感修飾詞,構(gòu)成的中文情感表達(dá)的基本結(jié)構(gòu)。

定義2情感依存元組匹配模型: EDT=[*NW/DW][*[*NW/DW]EW]CW[*[*NW/DW]EW],每個(gè)EDT有且僅有一個(gè)中心詞、若干個(gè)修飾詞,每個(gè)中心詞和修飾詞又包含若干個(gè)程度和否定依賴關(guān)系。

情感依存元組是句子情感表達(dá)的片段,雖不是完整的句子,但其依存樹(shù)中節(jié)點(diǎn)同樣遵守句子依存樹(shù)中節(jié)點(diǎn)的關(guān)系,中心詞節(jié)點(diǎn)支配著其他所有修飾詞和情感詞節(jié)點(diǎn),一般否定和程度詞前于被修飾的詞,完整的情感依存元組的樹(shù)形表示如圖2所示。

圖2 完整的情感依存元組的樹(shù)形表示

3 基于情感依存元組模型的情感判別

基于情感依存元組的簡(jiǎn)單句情感判別方法要先對(duì)句子進(jìn)行句法分析,生成句法樹(shù)和依存關(guān)系,然后根據(jù)統(tǒng)計(jì)創(chuàng)建的規(guī)則,從中抽取出情感依存元組,再基于情感依存元組對(duì)簡(jiǎn)單句建立情感判別模型進(jìn)行情感傾向性分析。規(guī)則的創(chuàng)建與文本體裁無(wú)關(guān),且基于簡(jiǎn)單句建立情感判別模型,使得本方法具有通用性,并在無(wú)領(lǐng)域區(qū)分的數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

3.1 EDT的抽取

句法分析產(chǎn)生的依賴關(guān)系和句法分析樹(shù)是一種結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)之上進(jìn)行信息抽取能更準(zhǔn)確地獲取知識(shí),提高信息抽取系統(tǒng)的性能。本文采用Stanford句法分析器,句法分析前先采用中科院分詞器(NLPIR)進(jìn)行分詞,為保證句法分析的準(zhǔn)確性,對(duì)用戶詞典進(jìn)行了擴(kuò)充,未進(jìn)行停用詞過(guò)濾。以句子“記者還發(fā)現(xiàn)很多心態(tài)較好的股民十分樂(lè)觀”為例,其分詞和詞性標(biāo)注結(jié)果為: “記者/NN 還/AD 發(fā)現(xiàn)/VV 很多/CD 心態(tài)/NN 較好/JJ 的/DEG股民/NN 十分/AD 樂(lè)觀/VA”,對(duì)應(yīng)的句法分析樹(shù)和依賴關(guān)系如圖3所示。

圖3 句法分析樹(shù)與依賴關(guān)系

準(zhǔn)確和全面的情感依存元組抽取是建立情感分析模型的基礎(chǔ)和關(guān)鍵,其具體抽取流程具體如下。

(1) 構(gòu)建中心詞集T: 情感依存元組的中心詞應(yīng)該是能引出情感動(dòng)詞,或者是承載情感的名詞或代詞,在一些主語(yǔ)省略的句子里,形容詞也可以作為中心詞;若中心詞來(lái)源于主題特征集,則可只提取與主題相關(guān)的情感依存元組,這對(duì)排除其他情感因素干擾很有幫助。本文直接從句子提取符合詞性要求的詞作為中心詞,即T={記者,發(fā)現(xiàn),心態(tài),股民}。

(2) 提純中心詞集: 對(duì)T中的每個(gè)詞判斷,若該詞是句法分析樹(shù)的葉子節(jié)點(diǎn)則從T中刪除該詞,因?yàn)槿~子節(jié)點(diǎn)中的這些詞不能單獨(dú)存在,一定存在支配它們的詞,即它們已經(jīng)屬于其他情感依存元組。遍歷完之后T={發(fā)現(xiàn),股民}。

(3) 提取中心詞的修飾成分: 根據(jù)《現(xiàn)代漢語(yǔ)實(shí)詞搭配詞典》中的搭配框架和根據(jù)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)的提取規(guī)則(見(jiàn)表1)進(jìn)行修飾結(jié)構(gòu)提取。在中心詞所在的兄弟節(jié)點(diǎn)及兄弟節(jié)點(diǎn)的所有子樹(shù)中根據(jù)規(guī)則進(jìn)行匹配,抽取中心詞的修飾成分,如對(duì)中心詞“股民”可提取出(股民,心態(tài))、(股民,較好)、(股民,樂(lè)觀)三對(duì)形如(中心詞,修飾詞)的修飾結(jié)構(gòu)。

(4) 提取程度和否定依賴: 從句子的依賴關(guān)系中提取中心詞和修飾詞的否定依賴和程度依賴關(guān)系, 提取出依賴關(guān)系advmod(樂(lè)觀-10, 十分-9)和nummod(心態(tài)-5, 很多-4)。

按上述步驟即可完成對(duì)一個(gè)簡(jiǎn)單句的情感依存元組的提取,其中中心詞為“股民”的元組根據(jù)匹配模型可表示為[[很多[心態(tài)]][樂(lè)觀]股民[十分[樂(lè)觀]]]。

表1 中心詞的修飾關(guān)系提取規(guī)則

3.2 基于EDT的情感判別模型

不考慮復(fù)雜句間的語(yǔ)義關(guān)系,句子的情感極性與強(qiáng)度由句子中包含的情感依存元組的個(gè)數(shù)和極性決定,我們建立情感分析模型對(duì)句子進(jìn)行情感傾向性判別,具體算法設(shè)計(jì)如下。

(1) 對(duì)每個(gè)情感依存元組,設(shè)置中心詞的原始極性PriorPolarity(CW)=1,執(zhí)行以下操作。

(2) 查詢情感詞典獲取并設(shè)置每個(gè)中心詞CW的情感極性 PriorPolarity(CW),正極性為1,負(fù)極性為-1,無(wú)極性時(shí)采用原始極性。

(3) 對(duì)每個(gè)中心詞獲取其修飾詞EW,若存在修飾詞則設(shè)置其原始極性PriorPolarity(EW)=0,并為每個(gè)修飾詞從情感詞典中獲取它的情感極性;若中心詞沒(méi)有支配任何修飾詞,則執(zhí)行步驟(5)。

(4) 初始化修飾詞的每個(gè)程度和否定修飾為1,即ModifiedPolarity(EW)=1,然后從句子的依賴關(guān)系集中獲取程度依賴和否定依賴,每獲取一個(gè)程度依賴,則將ModifiedPolarity(EW)乘以程度系數(shù)(首先建立程度詞表),每獲取一個(gè)否定依賴則ModifiedPolarity(EW)=-ModifiedPolarity(EW),最終得到每個(gè)修飾詞的否定程度。

(5) 對(duì)每個(gè)中心詞按步驟(4)中的方法計(jì)算其否定程度ModifiedPolarity(CW)。

(6) 計(jì)算整個(gè)情感依存元組的情感極性Polarity(EDT),中心詞和修飾詞的極性都由原始極性和修飾極性兩部分疊加而成,所以元組的情感計(jì)算公式為

其中,n為中心詞的修飾詞個(gè)數(shù),P表示Polarity,MP為ModifiedPolarity,PP為PriorPolarity。式中加1是使得當(dāng)沒(méi)有修飾詞或修飾詞無(wú)情感時(shí),由中心詞的極性決定。

(7) 句子的情感值為句子各情感依存元組的情感之和,句子總情感計(jì)算公式為

其中,n為句子Sen中情感依存元組的個(gè)數(shù)。

基于情感依存元組的情感分析模型綜合考慮了中心詞有、無(wú)修飾詞的情況,將否定和程度作為一個(gè)整體進(jìn)行考慮,并可以疊加計(jì)算多層否定和程度關(guān)系,保證在極性和強(qiáng)度上與實(shí)際情感值一致。

4 對(duì)比試驗(yàn)

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)數(shù)據(jù)采用第六屆中文傾向性評(píng)測(cè)(COAE2014)“面向新聞的情感關(guān)鍵句抽取與判定”任務(wù)提供的評(píng)測(cè)數(shù)據(jù),數(shù)據(jù)樣本采集自各大新聞網(wǎng)站、博客及論壇,未劃分領(lǐng)域,且長(zhǎng)度、文體各異,共5 355條已人工標(biāo)注傾向性的句子。先從數(shù)據(jù)集中排除了具有多義性的樣本,然后隨機(jī)抽取3 000條作為訓(xùn)練數(shù)據(jù),剩余的2 347作為測(cè)試數(shù)據(jù)。共設(shè)置了兩組實(shí)驗(yàn),分別采用有監(jiān)督的KNN和SVM分類(lèi)算法及半監(jiān)督的K-Means聚類(lèi)算法與本文方法在同一數(shù)據(jù)集上進(jìn)行簡(jiǎn)單句情感傾向性判別的對(duì)比實(shí)驗(yàn)。由于特征表示對(duì)于機(jī)器學(xué)習(xí)算法性能的影響巨大,本文采用了已實(shí)驗(yàn)成功的特征表示方法[17],即基于頻率和頻率比值的方法提取特征詞和特征詞性。最后采用F值(F-measure)、準(zhǔn)確率(Precision)、召回率(Recall),以及微平均(Micro)準(zhǔn)確率、召回率和F值作為實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)。計(jì)算公式如下:

Micro_Precision=

Micro_Recall=

Micro_F-measure=

其中,#gold是測(cè)試集中人工標(biāo)注情感為Y的樣本數(shù)目;#system_correct是測(cè)試集中計(jì)算結(jié)果與人工標(biāo)注結(jié)果匹配的數(shù)目;#system_proposed是測(cè)試集中計(jì)算結(jié)果為Y的樣本數(shù)目;i分別表示句子的正、負(fù)情感。

4.2 基于有監(jiān)督分類(lèi)算法的情感判別

分類(lèi)算法又稱為有監(jiān)督學(xué)習(xí)算法,分類(lèi)器可以根據(jù)已標(biāo)注類(lèi)別的訓(xùn)練集通過(guò)訓(xùn)練對(duì)未知類(lèi)別的樣本進(jìn)行分類(lèi)。在有監(jiān)督的機(jī)器學(xué)習(xí)算法中我們挑選了KNN和SVM兩種公認(rèn)效果比較好的分類(lèi)算法來(lái)做對(duì)比實(shí)驗(yàn)。

KNN(KNearestNeighbors,K最近鄰)算法是通過(guò)待分類(lèi)樣本周?chē)罱腒個(gè)樣本中分布數(shù)目最多類(lèi)別確定待分類(lèi)樣本的類(lèi)別,K值的選定對(duì)算法的準(zhǔn)確性有重大影響,K值選取過(guò)大容易引入不相似樣本的干擾,K值選擇過(guò)小則影響算法精度。我們?cè)谟?xùn)練過(guò)程中不斷調(diào)整K值的大小,通過(guò)實(shí)驗(yàn)確定K值為21。通過(guò)為每個(gè)句子構(gòu)建特征向量,以測(cè)試樣本向量與每個(gè)訓(xùn)練樣本向量間的余弦距離找出最近的K個(gè)訓(xùn)練樣本,確定測(cè)試樣本的類(lèi)別。

SVM(support vector machine,支持向量機(jī))算法,是一種基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則的分類(lèi)方法,可以根據(jù)有限的樣本信息在模型的復(fù)雜度和學(xué)習(xí)能力之間求得最佳折中,即獲取局部最優(yōu)解。SVM可將多標(biāo)簽分類(lèi)問(wèn)題分解成多個(gè)二分類(lèi)問(wèn)題,為提高分類(lèi)效果,本文先構(gòu)造一個(gè)有、無(wú)情感的二分類(lèi)器,再為有情感的樣本構(gòu)造一個(gè)正、負(fù)傾向的二分類(lèi)器。SVM訓(xùn)練程序是來(lái)自臺(tái)灣大學(xué)林智仁教授等開(kāi)發(fā)的Libsvm,通過(guò)3 000條訓(xùn)練數(shù)據(jù)訓(xùn)練出一個(gè)穩(wěn)定的分類(lèi)器,然后對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。

4.3 基于半監(jiān)督聚類(lèi)算法的情感判別

有監(jiān)督算法需要人工標(biāo)注大量的樣本作指導(dǎo),而大規(guī)模標(biāo)注不切實(shí)際。無(wú)監(jiān)督聚類(lèi)算法能在沒(méi)有任何先驗(yàn)數(shù)據(jù)的條件下對(duì)樣本進(jìn)行聚類(lèi)分析,但性能還有待進(jìn)一步提高。在實(shí)際問(wèn)題中,我們能利用少量先驗(yàn)知識(shí)對(duì)大量沒(méi)有標(biāo)注的樣本數(shù)據(jù)進(jìn)行無(wú)監(jiān)督的聚類(lèi)分析,這類(lèi)算法通常被稱為半監(jiān)督算法[16]。本文選取K-means聚類(lèi)算法在半監(jiān)督條件下進(jìn)行對(duì)比實(shí)驗(yàn)。

K-means是一種有效的基于樣本間相似度的間接聚類(lèi)算法,算法通過(guò)迭代將N個(gè)對(duì)象劃分成K個(gè)簇,每次迭代利用各聚類(lèi)中各項(xiàng)與“質(zhì)心”相似度均值更新“質(zhì)心”,使得同一簇中的對(duì)象相似度較高,不同簇中對(duì)象的相似度較低。初始質(zhì)心的選擇對(duì)K-Means算法的聚類(lèi)效果十分關(guān)鍵,隨機(jī)選取初始質(zhì)心的聚類(lèi)效果往往很差。本實(shí)驗(yàn)中類(lèi)別標(biāo)簽已知為正向、負(fù)向和中性三類(lèi),K取值為3,并通過(guò)小樣本先驗(yàn)知識(shí)確定3個(gè)初始質(zhì)心來(lái)提高聚類(lèi)效果。

K-means算法實(shí)現(xiàn)過(guò)程如下:

(1) 令K=3,從實(shí)驗(yàn)數(shù)據(jù)D={d1,d2,…,dn}中取出各類(lèi)樣本50條,先分別手工計(jì)算出各聚類(lèi)質(zhì)心{CP-1,CP0,CP1}。

(2) 對(duì)數(shù)據(jù)集D中的每個(gè)數(shù)據(jù)點(diǎn)di,計(jì)算di與CPk(k=-1,0,1)的余弦距離CosDistance(k),將數(shù)據(jù)點(diǎn)di劃歸為CosDistance(k)最大值對(duì)應(yīng)的質(zhì)心。

(3) 對(duì)每個(gè)質(zhì)心,根據(jù)其所包含的數(shù)據(jù)點(diǎn)集合,重新計(jì)算得到一個(gè)新的質(zhì)心。

(4) 計(jì)算新質(zhì)心和原質(zhì)心之間的距離,若新、舊質(zhì)心的距離達(dá)到設(shè)定閾值,即質(zhì)心變化不大,趨于穩(wěn)定,則終止算法,否則迭代步驟(2)~(4)步,直到新舊質(zhì)點(diǎn)達(dá)到閾值或迭代規(guī)定的次數(shù)。

(5) 輸出每個(gè)文檔所屬分類(lèi)。

4.4 實(shí)驗(yàn)及結(jié)果分析

基于情感依存元組的情感判別方法是基于情感知識(shí)和規(guī)則相結(jié)合的無(wú)監(jiān)督方法,而SVM、KNN和K-means均屬于基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,其中SVM和KNN算法是有監(jiān)督的方法,K-means算法則是半監(jiān)督聚類(lèi)方法。文獻(xiàn)[2]和[18]對(duì)這幾類(lèi)方法做了總結(jié),基于機(jī)器學(xué)習(xí)的分類(lèi)器要比手工分類(lèi)效果好得多;基于有監(jiān)督學(xué)習(xí)的方法精度較高,但依賴于人工標(biāo)注語(yǔ)料庫(kù);無(wú)監(jiān)督的方法依賴于處理語(yǔ)料的領(lǐng)域范圍,正確率較低。為分析基于情感依存元組的無(wú)監(jiān)督方法與機(jī)器學(xué)習(xí)方法的對(duì)比效果,分別在同一組實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行了四組實(shí)驗(yàn),并在實(shí)驗(yàn)數(shù)據(jù)上采用N-CV(cross validation)方法進(jìn)行驗(yàn)證,其中N值取2。從正向、負(fù)向和微平均查準(zhǔn)率、查全率及F值幾個(gè)指標(biāo)對(duì)四種方法進(jìn)行分析,結(jié)果如表2所示。

表2 實(shí)驗(yàn)結(jié)果

從實(shí)驗(yàn)結(jié)果來(lái)看: 基于EDT的方法總體上與有監(jiān)督的分類(lèi)方法的效果處于同一水平,明顯高于半監(jiān)督的K-means聚類(lèi)方法。再單獨(dú)分析各個(gè)指標(biāo),EDT的準(zhǔn)確率較高,召回率較SVM和KNN兩者略低。可見(jiàn),基于中文句子語(yǔ)法提取情感表達(dá)的結(jié)構(gòu),分析句子情感的思路是可行的,對(duì)情感依存元組的定義及(中心詞、修飾詞)的提取規(guī)則是正確的,迭代地對(duì)每個(gè)情感依存元組的程度和否定關(guān)系進(jìn)行了細(xì)化分析提高了準(zhǔn)確率。為進(jìn)一步提高準(zhǔn)確率,還需進(jìn)一步完善情感本體庫(kù)的構(gòu)建。

針對(duì)本方法召回率不高的問(wèn)題,分析其主要原因有情感依存元組抽取規(guī)則不夠完善,句法分析和模型分析的細(xì)節(jié)處理不夠精細(xì)。我們將在情感依存元組的提取規(guī)則進(jìn)一步完善和句法分析的準(zhǔn)確性方面做更加深入的研究,并可對(duì)情感依存元組的中心詞做了同義替換,提高情感分類(lèi)的召回率。

5 總結(jié)

本文從中文句子的語(yǔ)法結(jié)構(gòu)出發(fā),分析情感表達(dá)的基本結(jié)構(gòu)、組織形式、成分間的關(guān)系,并將情感表達(dá)結(jié)構(gòu)定義為情感依存元組(EDT)。通過(guò)建立提取情感依存元組的中心詞-修飾成分的規(guī)則集,實(shí)現(xiàn)了情感依存元組的有效抽取。并針對(duì)簡(jiǎn)單句建立了完整的情感判別模型,對(duì)情感依存元組的否定和程度關(guān)系做迭代分析,實(shí)現(xiàn)了一種新的無(wú)監(jiān)督簡(jiǎn)單句情感分類(lèi)方法。通過(guò)與經(jīng)典的聚類(lèi)算法和分類(lèi)算法效果進(jìn)行比較,本方法分類(lèi)性能基本接近有監(jiān)督分類(lèi)算法,遠(yuǎn)高于半監(jiān)督的聚類(lèi)算法,并且克服了兩類(lèi)機(jī)器學(xué)習(xí)方法各自的局限。

本文總結(jié)了情感依存元組的提取規(guī)則,下一步,我們將對(duì)詞的語(yǔ)義分析進(jìn)行研究,考慮研究中心詞的同義替換,以提高本方法的性能,并在不同的語(yǔ)料集,特別是以微博、微信為代表的新興社會(huì)媒體語(yǔ)料中進(jìn)行交叉對(duì)比實(shí)驗(yàn),驗(yàn)證本方法統(tǒng)計(jì)的顯著性與普適性。同時(shí)考慮將互聯(lián)網(wǎng)上弱監(jiān)督的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),將情感依存元組以不同特征組合的形式加入分類(lèi)器中,進(jìn)一步提升算法的分類(lèi)性能。

[1] 趙妍妍, 秦兵, 劉挺.文本情感分析[J].軟件學(xué)報(bào), 2010, 21(8): 1834-1848.

[2] 周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J].計(jì)算機(jī)應(yīng)用,2008,28(11): 2725-2728.

[3] 賈焰, 王永恒, 楊樹(shù)強(qiáng).基于本體論的文本挖掘技術(shù)綜述[J].計(jì)算機(jī)應(yīng)用,2006,26(9): 2013-2015.

[4] 李業(yè)剛, 黃河燕.漢語(yǔ)組塊分析研究綜述[J].中文信息學(xué)報(bào),2013(3): 1-8.

[5] 吳偉成, 周俊生, 曲維光. 基于統(tǒng)計(jì)學(xué)習(xí)模型的句法分析方法綜述[J].中文信息學(xué)報(bào),2013(3): 9-19.

[6] Zhou M. A block-based robust dependency parser for unrestricted Chinese text [C]//Proceedings of 2nd Chinese Language Processing Work shop, ACL. 2000: 224-30.

[7] 羅強(qiáng), 奚建清. 一種結(jié)合SVM學(xué)習(xí)的產(chǎn)生式依存分析方法[J]. 中文信息學(xué)報(bào),2007,21(4), 21-26。

[8] 張莉, 錢(qián)玲飛, 許鑫. 基于核心句及句法關(guān)系的評(píng)價(jià)對(duì)象抽取[J].中文信息學(xué)報(bào),2011,25(3): 23-29.

[9] 劉挺, 馬金山. 漢語(yǔ)自動(dòng)句法分析的理論與方法[J]. 中文信息學(xué)報(bào),2009,11(2),100-112.

[10] 孫宏林, 俞士汶. 淺層句法分析方法概述[J].當(dāng)代語(yǔ)言學(xué),2000,2(2)74-83.

[11] Berwiek R, Abney S , Carol T, eds. Principle-based parsing[M]. Dordrecnt: Kluwer Academic Publishers, 1991: 257-278.

[12] 李素建, 劉群, 白碩. 統(tǒng)計(jì)和規(guī)則相結(jié)合的漢語(yǔ)組塊分析[J]. 計(jì)算機(jī)研究與發(fā)展,2002,39(4): 385-391.

[13] 孫廣路. 基于詞聚類(lèi)特征的統(tǒng)計(jì)中文組塊分析模型[J].電子學(xué)報(bào),2008,36(12): 2450-2454.

[14] 張昱琪, 周強(qiáng). 漢語(yǔ)基本短語(yǔ)的自動(dòng)識(shí)別[J].中文信息學(xué)報(bào),2002,16(6): 1-8.

[15] 肖宇, 于劍. 基于近鄰傳播算法的半監(jiān)督聚類(lèi)[J]. 軟件學(xué)報(bào),2008, 19(11): 2803-2813.

[16] 歐陽(yáng)純萍, 陽(yáng)小華, 雷龍艷. 多策略中文微博細(xì)粒度情緒分析研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014,50(1): 67-72.

[17] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2012,26(1): 73-83.

ASimple-sentenceSentimentClassificationMethodBasedonEmotionalDependencyTuples

ZHOU Wen1,2, OUYANG Chunping1, YANG Xiaohua1, LIU Zhiming1, ZHANG Shuqing1, RAO Jie1

(1. School of Computer Science and Technology, University of South China, Hengyang, Hunan 421001, China; 2. Huaihua Tobacco Monoply Bureau, Huaihua, Hunan 418000,China)

Based on the principle of “Verb Valency” and the dependency parsing, this paper proposes to treat the emotional dependency tuple (EDT) as the basic unit of Chinese emotional expression. An EDT consists of the core words (i.e. several selected categories of contents words expressing emotion in the sentence), the modifier attached to the core words, and the degree or negative words attached to either the core words or the modifiers. The EDTs are extracted from the parsed sentences, and the emotional dependency tuples based sentiment classification model is established. Experimented on the web news corpus released by COAE2014, the proposed method outperforms the semi-supervised algorithm(K-MEANS), producing comparable results to the supervised classification algorithms(KNN,SVM).

emotional dependency tuple; emotional tendencies; dependency syntax; parsing

周文(1988—), 碩士研究生,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘、自然語(yǔ)言處理。

歐陽(yáng)純萍(1979—),副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)槊麑?shí)體識(shí)別、自然語(yǔ)言處理。

陽(yáng)小華(1963—),通信作者,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索與知識(shí)科學(xué)。

1003-0077(2017)03-0177-07

2015-02-04定稿日期: 2016-01-05

國(guó)家自然科學(xué)基金(61402220);湖南省自然科學(xué)基金(13JJ4076);湖南省教育廳優(yōu)秀青年項(xiàng)目(13B101);南華大學(xué)重點(diǎn)學(xué)科和創(chuàng)新團(tuán)隊(duì)建設(shè)基金項(xiàng)目

TP391

: A

猜你喜歡
元組修飾詞中心詞
Python核心語(yǔ)法
學(xué)加修飾詞
針對(duì)隱藏Web數(shù)據(jù)庫(kù)的Skyline查詢方法研究*
Why I ride
一種基于時(shí)間戳的簡(jiǎn)單表縮減算法?
海量數(shù)據(jù)上有效的top-kSkyline查詢算法*
我屬“懶”
欲探詩(shī)家筆中意 扣字品詞解其味
俄漢語(yǔ)定語(yǔ)對(duì)比
發(fā)揮學(xué)生主體作用 提升復(fù)習(xí)效率
宜兰县| 刚察县| 大港区| 铜山县| 云南省| 长春市| 固原市| 龙州县| 视频| 济南市| 革吉县| 凤城市| 安庆市| 桂东县| 吉首市| 文山县| 彭阳县| 会宁县| 哈巴河县| 夏河县| 岳阳县| 兴国县| 灵寿县| 盐津县| 卫辉市| 巴彦县| 清徐县| 祁东县| 和硕县| 金乡县| 丹凤县| 五原县| 韶山市| 修文县| 呼和浩特市| 石阡县| 宣威市| 沅陵县| 临桂县| 长寿区| 遂平县|