張 莉,錢玲飛,許 鑫
(1. 南京大學(xué) 信息管理系,江蘇 南京 210008;2. 南京大學(xué) 計算機科學(xué)與技術(shù)系 國家重點實驗室,江蘇 南京 210008;3. 華東師范大學(xué) 商學(xué)院信息學(xué)系,上海 200241)
隨著Internet的迅速發(fā)展,人們越來越傾向于在Web上發(fā)表自己的觀點和評論。相比傳統(tǒng)的社會調(diào)查方法,從新聞、產(chǎn)品論壇和博客等網(wǎng)絡(luò)載體上獲取評論文本具有方便、快捷和代價小等優(yōu)點,近年來從主觀性文本中抽取觀點逐漸成為一個熱門的研究課題。對于以抽取觀點為任務(wù)的意見挖掘技術(shù)被廣泛應(yīng)用于如電影、數(shù)碼相機和汽車等領(lǐng)域,抽取結(jié)果有利于人們的決策及商家的反饋改進,也有利于輿情監(jiān)控,具有較大的應(yīng)用價值。
Kim和Hovy認為觀點(意見)由四個元素組成[1]: 即主題(Topic)、持有者(Holder)、陳述(Claim)和情感(Sentiment),意見挖掘的主要任務(wù)是從主觀文本中找出評價對象及其判斷觀點的極性,國際上也有一些相關(guān)的評測如TREC Blog Track和NTCIR,而國內(nèi)第一屆中文傾向性分析評測COAE2008[2]即包含了屬性級的評價對象(任務(wù)3)抽取和篇章級的文本褒貶極性判斷。第二屆中文傾向性分析評測COAE2009[3]把相關(guān)任務(wù)推廣到了句子級,其任務(wù)3為觀點句抽取,任務(wù)4為觀點評價對象抽取,要求輸出一個三元組{觀點句,評價對象,評價的傾向性}。本文致力于研究從COAE2009的任務(wù)4的評測結(jié)果來看難度較大的評價對象抽取,如句子“‘老練者’甚至認為互聯(lián)網(wǎng)是生活中理所當(dāng)然,不可或缺”,需要抽取的評價對象為“互聯(lián)網(wǎng)”,而對于任務(wù)4的另一子任務(wù)即評價的傾向性研究將作為后繼的研究目標(biāo)。
關(guān)于評價對象抽取國內(nèi)外也有較多的研究。文獻[4]利用標(biāo)注觀點相關(guān)的語義角色來確定觀點的持有者和主題;文獻[5]使用關(guān)聯(lián)規(guī)則挖掘頻繁項集作為產(chǎn)品候選評價對象;文獻[6,8-9,11,14]均使用了CRFs進行了評價對象抽取,其中文獻[6]結(jié)合模式匹配方式,文獻[8,11]基于詞性特征,文獻[9]基于屬性詞和評價詞的上下文、詞性和語義等特征,文獻[14]基于自定義的6個組塊如評價對象NP組塊、情感表達EM組塊等;文獻[19]利用層級隱馬模型識別產(chǎn)品評價對象;文獻[7,10,12-14,16-18]均利用了名詞詞性組合和NP、VP等組塊生成候選評價對象集,然后通過一定的策略縮小候選評價對象的范圍,如文獻[7]利用語言模型及短語依存樹,文獻[10]結(jié)合情感詞位置,文獻[12]考慮“強調(diào)”和“稱”等主張詞的影響,文獻[13]和文獻[16]結(jié)合領(lǐng)域和句法規(guī)則,文獻[17]利用詞形和詞性模板采用模糊匹配方法進一步獲得小范圍的候選對象集,再通過雙向Bootstrapping方法識別出產(chǎn)品評價對象,文獻[18]結(jié)合詞頻、PMI和名詞剪枝算法篩選評價對象;文獻[15]基于詞性、屬性詞典和用戶詞典利用CRFs進行評價對象的第一步抽取,在未抽取的句子上再利用NP組塊獲得候選子集,進一步通過主張詞和情感詞密度及領(lǐng)域知識等方式獲得最終的評價對象。
可以看出,目前抽取評價對象常用兩類方法: 一種方法是基于一些語言特征利用HMM或CRFs等機器學(xué)習(xí)模型進行訓(xùn)練獲得模型;另一種方法是先根據(jù)NP和VP等句法結(jié)構(gòu)獲得候選特征集,然后再利用規(guī)則進一步篩選獲得最終結(jié)果。對于前一種方法需要尋找一些如詞性、句法結(jié)構(gòu)和語義等語言特征,一般能獲得較高的精確率,但召回率通常較低;而后者需要確定縮小特征范圍的規(guī)則和模板,通常召回率較高而精確率較低。
鑒于目前常用方法存在的問題,我們試圖通過一種能夠結(jié)合兩種方法優(yōu)點的途徑來抽取評價對象。如果基于詞性特征,利用機器學(xué)習(xí)模型進行訓(xùn)練時,由于句子中通常包含不止一個名詞或名詞詞組(評價對象的常見形式為名詞或名詞組塊),學(xué)習(xí)后并不能獲得較高的召回率。例如對于如下兩個例句:
例句1: 病毒和黑客也一樣,你不知道何時會出現(xiàn),因此只有平時做好防范工作,當(dāng)病毒發(fā)作或黑客入侵時,才能將損失減到最低限度 (評價對象:病毒和黑客)
例句2: 城市發(fā)展說,金光大廈的銷售表現(xiàn)能夠逆流而上,相信是因為它靠近新加坡管理大學(xué)、超級市場、商店和地鐵站,并在2001年就可以入住 (評價對象:金光大廈的銷售表現(xiàn))
兩個例句中除評價對象外還包含其他的名詞或名詞詞組,如第一個例句中的“你”、“損失”和“限度”等,第二個例句中的“城市”、“它”、“新加坡管理大學(xué)”和“超級市場”等。當(dāng)基于詞性特性進行訓(xùn)練時,每個句子中若與評價對象相同詞性的短語越多,則建模越困難。為克服這一問題,設(shè)想如果能夠去掉句子中的一些與評價對象無關(guān)的片段后再交由CRFs訓(xùn)練,這樣既能進一步提高CRFs的精確率,同時召回率也能得到提升。正是基于這一想法,我們首先提出一種根據(jù)規(guī)則尋找核心句的方法。
所謂核心句即為依據(jù)一定的規(guī)則將原句進行處理后得到的新句,新句一般為原句的核心片段,如果原句不符合任何規(guī)則,則保持不變。通過觀察我們發(fā)現(xiàn),部分句子中除以往文獻(如文獻[12]和文獻[15])中提到的若干如“認為”、“聽說”和“覺得”等主張詞外,還有一些如“據(jù)…報道”和“…說”等短語也會影響評價對象的抽取,另外,對于一些由“但是”和“而”等轉(zhuǎn)折詞開頭構(gòu)成的句子其評價對象往往位于轉(zhuǎn)折詞后面的句子中。例如:
例句3: 據(jù)法新社報道,美國專家懷疑造成巨大損失的蠕蟲病毒來源是香港,但是調(diào)查相當(dāng)困難,專家認為猶如大海撈針(評價對象:調(diào)查)
例句4: 據(jù)佳登室內(nèi)設(shè)計裝飾的工程設(shè)計師鄭小姐受訪時說,她和黃先生夫婦倆溝通之后,便依照他們的需求進行設(shè)計,而最后完成的裝修效果,令雙方都感到十分滿意(評價對象:裝修效果)
基于這些語言特征同時考慮到盡量不丟失原句中表示傾向性的短語和句子,在對數(shù)據(jù)分詞和標(biāo)注詞性的基礎(chǔ)上我們確定了如下7條規(guī)則:
規(guī)則1: 刪除所有括號及括號內(nèi)的序列,左括號包含“[”、“【”、“(”和“(”,右括號包含“]”、“】”、 “)”和“)”,左右括號可任意配對;
規(guī)則2: 刪除“據(jù)…報道”序列;
規(guī)則3: 若句子以名詞或名詞詞組開頭后跟詞性為動詞的“說”,或者“說”之前含一個形容詞,則將包含“說”及其前面的詞刪除,若“說”后緊跟標(biāo)點符號,則刪除該標(biāo)點;
規(guī)則4: 若句子以名詞短語(如機構(gòu)名、人名和一些專有名詞)開頭,后面緊跟如認為、相信和覺得等主張詞(詞性需為動詞),則將此名詞短語及主張詞刪除。主張詞選用知網(wǎng)的38個主張詞;
規(guī)則5: 若一個單句(不含標(biāo)點符號的單個句子)中含“從…來看”或“從…來說”,則刪除該序列;
規(guī)則6: 若一個單句內(nèi)中含“當(dāng)…時”或“當(dāng)…時候”,且“當(dāng)”為單獨的一個介詞,“時”或“時候”為名詞,則刪除該序列;
規(guī)則7: 若句子開頭含“但”、“但是”、“而”、“然而”和“不過”這幾個轉(zhuǎn)折連詞,且轉(zhuǎn)折詞后緊跟人名、機構(gòu)名和外來詞等名詞或名詞短語則刪除轉(zhuǎn)折詞前的句子及轉(zhuǎn)折詞本身,若轉(zhuǎn)折詞后不含名詞短語則刪除時保留整個句子的第一個名詞或名詞短語;特殊的,若轉(zhuǎn)折詞后為“它”、“他”、“她”、“它們”、“他們”、“她們”和“其”等指代詞,則同樣需要保留整個句子的第一個名詞或名詞短語并刪除指代詞;另外若整個句子包含多個轉(zhuǎn)折詞,則依據(jù)最后一個轉(zhuǎn)折詞進行處理。
將句子按照以上7條規(guī)則順序處理后即可利用CRFs模型進行學(xué)習(xí)。例如對于例句3:
步驟1: 匹配規(guī)則2,句子處理后變?yōu)椤懊绹鴮<覒岩稍斐删薮髶p失的蠕蟲病毒來源是香港,但是調(diào)查相當(dāng)困難,專家認為猶如大海撈針”;
步驟2: 匹配規(guī)則4,句子處理后變?yōu)椤懊绹鴮<覒岩稍斐删薮髶p失的蠕蟲病毒來源是香港,但是調(diào)查相當(dāng)困難,猶如大海撈針”;
步驟3: 匹配規(guī)則7,句子處理后變?yōu)椤罢{(diào)查相當(dāng)困難,猶如大海撈針”。
例句3的核心句即為“調(diào)查相當(dāng)困難,猶如大海撈針”。
需要指出的是,對于不同的語料,抽取核心句的規(guī)則會有所不同。我們隨機抽取了新浪網(wǎng)“奇虎360與騰訊紛爭”的200條新聞評論,發(fā)現(xiàn)規(guī)則1、5、6的覆蓋率較低,規(guī)則7的覆蓋率較高。本文旨在提出利用核心句來提高CRFs的精確率,具體核心句的規(guī)則設(shè)定需具體考慮,如語料在同一個領(lǐng)域,則可尋找更佳的規(guī)則以其更好地發(fā)揮核心句的作用。
條件隨機場模型(簡稱CRFs)由John Lafferty和Andrew McCallum于2001年提出[20],它是一個在給定觀察序列的條件下計算整個觀察序列的聯(lián)合條件概率分布的無向圖模型。CRFs是隱馬爾科夫和最大熵模型的擴展,它具有兩者的優(yōu)點同時又克服了這些模型的缺點,它不是對單一標(biāo)記歸一化后再進行全局搜索,而是基于整個觀察序列求解一個最優(yōu)的標(biāo)記序列,避免了標(biāo)記偏置問題。
CRFs這樣的序列化標(biāo)注模型在命名實體識別任務(wù)上具有良好的表現(xiàn),由于評價對象抽取也可以看成一個序列化標(biāo)注問題,所以可以利用CRFs進行對象標(biāo)注。
以往的工作主要是基于詞、詞性及對象是否在用戶詞典中出現(xiàn)這些特征利用CRFs進行標(biāo)注,但是對象是否在用戶詞典中出現(xiàn)需要在訓(xùn)練時進行額外的人工處理,且用戶詞典中的詞的數(shù)目和種類與處理時間及領(lǐng)域均有較大的關(guān)聯(lián),對于混合領(lǐng)域的對象標(biāo)注問題并不是一個較好的解決方案;而詞和詞性信息不夠豐富,所以我們試圖尋找一種與領(lǐng)域無關(guān)的簡單且有效的特征。通過觀察發(fā)現(xiàn),評價對象的句法模式常常有章可循,我們確定了長度不超過5個詞的如下10種句法模式:
模式1: 定中關(guān)系+定中關(guān)系+定中關(guān)系+定中關(guān)系+主謂關(guān)系(ATT-ATT-ATT-ATT-SBV)
模式2: 定中關(guān)系+“的”字結(jié)構(gòu)+定中關(guān)系+主謂關(guān)系(ATT-DE-ATT-SBV)
模式3: “的”字結(jié)構(gòu)+定中關(guān)系+定中關(guān)系+主謂關(guān)系(DE-ATT-ATT-SBV)
模式4: 定中關(guān)系+并列關(guān)系+主謂關(guān)系(ATT-COO-SBV)
模式5: 定中關(guān)系+數(shù)量關(guān)系+主謂關(guān)系(ATT-QUN-SBV)
模式6: 數(shù)量關(guān)系+定中關(guān)系+主謂關(guān)系(QUN-ATT-SBV)
模式7: “的”字結(jié)構(gòu)+定中關(guān)系+主謂關(guān)系(DE-ATT-SBV)
模式8: 定中關(guān)系+主謂關(guān)系(ATT-SBV)
模式9: 狀中結(jié)構(gòu)+主謂關(guān)系(ADV-SBV)
模式10: 主謂關(guān)系(SBV)
在實際的特征標(biāo)注過程中,按照從模式1至模式10順序?qū)⑦@10種句法模式標(biāo)出,句子中其余不含此模式的位置用默認標(biāo)記標(biāo)注。
對于所提出的句法模式,我們同樣考察了2.1節(jié)中所提到的200條新聞評論,實驗結(jié)果顯示有32%的句子中的評價對象符合這10種句法模式,可以說明模式具有較好的適用性。
實驗主要有數(shù)據(jù)預(yù)處理、生成核心句和訓(xùn)練集與測試集特征標(biāo)注并利用CRFs進行訓(xùn)練這三個主要階段。
本文采用的數(shù)據(jù)集為COAE2009任務(wù)4已標(biāo)注的數(shù)據(jù),數(shù)據(jù)集中包含4 000多條句子,涉及體育、電影和手機等多個領(lǐng)域,標(biāo)注的答案格式為“觀點句 評論對象 傾向性”,每個句子只包含一個評價對象,共有三個裁判員參與了標(biāo)注。
在數(shù)據(jù)預(yù)處理的第一步我們首先根據(jù)句子的傾向性縮小了數(shù)據(jù)集的范圍。句子的傾向性包含四種情況: 0(表示無傾向性)、1(表示貶義)、2(表示混合)、3(表示褒義),考慮到后繼需要做判斷句子褒貶極性的工作且句子的主觀性判斷方法已經(jīng)較為成熟,這里我們僅選擇了傾向性為貶義和褒義的句子。
進一步考慮到由褒義句和貶義句構(gòu)成的數(shù)據(jù)集并不大,我們在其中選擇了不少于兩個裁判員給出相同評價對象標(biāo)注結(jié)果的句子。經(jīng)過篩選,符合條件的句子共2 723條,其中最長的句子含字符400多個,最短的句子僅含幾個字符。
第三步對句子中的標(biāo)點符號做了處理,將一些不位于句子結(jié)尾的但常被認為是句子結(jié)束標(biāo)記的符號進行了替換,目的是適應(yīng)分詞和詞性標(biāo)注工具標(biāo)點符號處理的限制。我們使用的哈爾濱工業(yè)大學(xué)的LTP2.0將包括 “。”、“!”、“;”、“?”、“ ”和“ ”在內(nèi)的符號均視為句子結(jié)束標(biāo)記符,因此需要將這些符號預(yù)先替換為逗號,避免LTP2.0提前截斷句子。
將2 723條句子先用LTP2.0分詞并標(biāo)注詞性,然后順序使用7條生成核心句的規(guī)則進行處理,規(guī)則處理主要通過自己編寫的程序、若干正則表達式及少量的人工輔助判斷來完成,同時利用程序進行評價對象是否丟失的判斷。具體的處理結(jié)果如表1 所示。
7條規(guī)則共匹配句子595條次,丟失評價對象的句子51條,其中規(guī)則7共匹配292條句子,有37條句子丟失了評價對象;而規(guī)則2僅匹配5條句子,未丟失評價對象。
對于匹配句子最多的規(guī)則7丟失評價對象的現(xiàn)象相對較多,例如:
例句5: 市場機制的部分引入,使得“內(nèi)部人”利用國有資源賺取利益名正言順,并可以此推諉來自政府方面的責(zé)任與義務(wù),而國有壟斷、權(quán)力支持的優(yōu)勢又使它們在市場上沒有競爭對手,所向披靡 (評價對象:內(nèi)部人)
例句6: 失望的媒體和觀眾對影片毫不留情,惡評如潮,批評它無論情節(jié)、表演都一無可取,明年的金酸莓爛片獎,《本能2》已穩(wěn)操勝券,而莎朗更是金酸莓影后的不二人選 (評價對象:本能2)
例句5和例句6在使用規(guī)則7后均丟失了評價對象,通過觀察可以發(fā)現(xiàn),例句5中的轉(zhuǎn)折詞“而”后其實包含了評價對象“內(nèi)部人”的指代詞“它們”,而例句6的轉(zhuǎn)折詞“而”后的名詞“莎朗”也可以算作是句子的另一個評價對象。但是雖然本數(shù)據(jù)集中的句子均只標(biāo)注了一個評價對象,而類似于例句5和例句6這種一個句子含兩個評價對象的情況不多,所以我們沒有另行處理,類似這種情況的句子仍然被認為是丟失了評價對象。
在處理中也發(fā)生了一個有趣的現(xiàn)象,有些句子在處理后評價對象比原句的標(biāo)注更精確了。例如:
例句7: 崔永元說他的女兒很可愛,也很乖、很懂事,一點也不吵,也從來不無理取鬧
例句7的原評價對象為“他的女兒”,核心句處理后變成了“崔永元的女兒很可愛,也很乖、很懂事,一點也不吵,也從來不無理取鬧”。
獲得核心句后我們對原始數(shù)據(jù)和核心句分別進行標(biāo)注,由于核心句的句子結(jié)構(gòu)已發(fā)生變化,所以必須要重新處理。首先利用LTP2.0對兩類數(shù)據(jù)集進行分詞,然后標(biāo)注其詞性,并利用其句法分析器標(biāo)注滿足10種模式的句法結(jié)構(gòu),同時也標(biāo)注了評價對象,評價對象的標(biāo)注方法使用了IOB2形式,即用B、I、E、O和S分別表示當(dāng)前詞是一個組塊的開始、內(nèi)部、終點、不在任意一個組塊中、是一個組塊但該組塊只有一個詞。為了進行對比試驗,我們分別設(shè)計了如表2所示的三種標(biāo)注形式。
表2 數(shù)據(jù)標(biāo)注形式
例如句子“話劇《英雄》中雖然沒有電影《英雄》中的壯美景色,舞美效果卻出奇的好”用PRT形式標(biāo)注后的結(jié)果如圖1所示。
圖1 PRT形式標(biāo)注例
分別將原數(shù)據(jù)和核心句的三種標(biāo)注形式交由CRFs進行學(xué)習(xí),我們使用了CRF++-0.53[21],詞性和句法結(jié)構(gòu)的模板窗口均設(shè)置為[-3,3],PT和PRT的詞的模板窗口為[-1,1],RT的詞的模板窗口為[-2,2]。另外由于總句子數(shù)只有 2 723 條,所以我們選用了5折交叉驗證方式。
(1) 實驗結(jié)果
實驗結(jié)果按照COAE的方式采用精確評測(Strict)和覆蓋評測(Lenient)兩種形式,其中覆蓋評測時如果書名和電影名等整體詞只標(biāo)出一部分的不算正確,除此之外標(biāo)出部分比原標(biāo)注對象序列長的也算正確。例如句子“舞臺上的董卿是非常溫婉清新的,她沒有煽情做作的表演,有的只是最真實的表現(xiàn)”,原標(biāo)注的評價對象是“董卿”,但實際標(biāo)注時若標(biāo)出“舞臺上的董卿”也算正確。標(biāo)注結(jié)果用P值、R值和F值來表示。原始數(shù)據(jù)的實驗結(jié)果如表3所示,核心句的實驗結(jié)果如表4所示。
表3 原始數(shù)據(jù)評測結(jié)果
表4 核心句評測結(jié)果
(2) Baseline
我們分別使用了PT標(biāo)注形式和 CRF++-0.53的標(biāo)準(zhǔn)模板(Baseline1)以及類似文獻[18]中提到的COAE2008評價對象抽取最佳結(jié)果方法(Baseline2)作為Baseline。Baseline1覆蓋評測結(jié)果的P值、R值和F值分別為0.687 1、0.344 4和0.458 6;對于Baseline2,根據(jù)文獻[18]和以往文獻的實驗結(jié)果發(fā)現(xiàn),不同領(lǐng)域數(shù)據(jù)屬性抽取結(jié)果的F值相差很小,所以選擇了語料中領(lǐng)域更為專指的“NBA”有關(guān)的句子進行了實驗,以期獲得更好的實驗結(jié)果。我們采用了文獻[18]中的主要方法: 首先識別句子中的名詞和名詞短語作為候選評價對象,其次利用詞頻信息和PMI算法進行過濾,所用PMI算法公式為:
PMIa-b=-log(Nab/(Na×Nb))
領(lǐng)域代表詞使用“NBA”,分別考察了候選評價對象和“NBA”同時出現(xiàn)的次數(shù)與候選評價對象單獨出現(xiàn)的次數(shù)之比為60%(PMI值為8.22)至30%(PMI值為8.52)之間評價對象的抽取精度,發(fā)現(xiàn)在PMI為8.40~8.48之間其P值和R值能達到一個相對高的水平,如果PMI值過低則P值和R值均會較低,如果PMI值過高則P值會較低;同時考慮到“NBA”相關(guān)句的所有評價對象的PMI平均值為8.52并呈現(xiàn)兩極分化嚴(yán)重的情況,最終以PMI值為8.48時的結(jié)果作為Baseline,其覆蓋評測的P值、R值和F值分別為29.90%、61.70%和40.28%。另外由于文獻[18]中提出的名詞冗余方法并不適合本語料,所以此處并未采用。
(3) 實驗結(jié)果分析
從表3可以看出,單獨使用RT標(biāo)注形式的效果不佳,而使用PRT形式即同時考慮詞、詞性和句法關(guān)系的效果最好。使用自定義的模板以PT標(biāo)注形式學(xué)習(xí)后F值提高了2.8%,而以PRT標(biāo)注形式學(xué)習(xí)后F值提高了7.29%,證明使用我們提出的10種句法模式結(jié)合詞性標(biāo)注進行學(xué)習(xí)的方法是可行的。
另外對比表3和表4可以看出,不管哪種標(biāo)注形式核心句實驗結(jié)果的F值均比原始數(shù)據(jù)的F值有所提高,PT、RT和PRT標(biāo)注形式的F值分別提高了3.53%、3.47%和2.55%,其中P值能保持原有水平并略有提高,而R值相對提升多一些,這證明了核心句的思路是正確的。但是由于數(shù)據(jù)集中的句子包含多個領(lǐng)域,句子形式松散,且有多條句子的長度較長,所以導(dǎo)致核心句處理后評價對象丟失較多;另外又因為本身數(shù)據(jù)集較小且要考慮不丟失傾向性成分以作為后繼傾向性研究,這些因為核心句帶來的R值和P值的提高只能是小范圍的,無法產(chǎn)生規(guī)模效應(yīng)。如果數(shù)據(jù)在一個單一領(lǐng)域內(nèi)且數(shù)據(jù)量較大,或者所處理的數(shù)據(jù)形式較為規(guī)范,利用核心句進行學(xué)習(xí)的方法效果將進一步能得到一個較大的提高。
在以上結(jié)果的基礎(chǔ)上,我們做了后繼處理,將核心句中用PRT形式學(xué)習(xí)后未標(biāo)注的數(shù)據(jù)利用PT形式進行再學(xué)習(xí),以期進一步提升性能。二次處理后P值為0.720 9、R值為0.469 1、F值為0.595,F(xiàn)值有了3.8%的提高。整個實驗過程中性能的提升情況可見表5所示。
表5 實驗結(jié)果提升比較
通過表5可以看到,通過運用新的模板和添加句法關(guān)系進行學(xué)習(xí)、利用核心句提升R值及二步學(xué)習(xí)這幾個步驟后我們發(fā)現(xiàn),與Baseline1和Baseline2相比,F(xiàn)值分別有了13.64%和19.22%的提高。對于獲得COAE2008的覆蓋評測下評價對象抽取最佳結(jié)果的Baseline2,我們在NBA語料上雖然沒有完全按照其方式進行實驗,但對其性能提高最顯著的PMI算法進行了細致的實驗,所以本文實驗取得的F值0.595可以在一定程度上說明我們采用的幾種方法的融合是可取的。
本文主要研究了如何在句子中抽取評價對象,通過尋找核心句和句法關(guān)系特征來更有效發(fā)揮CRFs的標(biāo)注效能,實驗結(jié)果表明我們提出的方法是可取的,且如果應(yīng)用在單一領(lǐng)域或語言形式較規(guī)范的領(lǐng)域內(nèi)抽取效果將會有進一步的提升。在后繼的工作中,我們將在以下幾方面繼續(xù)開展研究:
1. 修改核心句的規(guī)則,進一步提升抽取評價對象的召回率,并考慮將核心句的思路應(yīng)用到某一個特定領(lǐng)域或文本格式較為規(guī)范的新聞?wù)Z料上;
2. 尋找或修改更合適的句法關(guān)系,并同樣考察其他領(lǐng)域中句子的詞法是否具有領(lǐng)域獨特性的結(jié)構(gòu);
3. 通過觀察發(fā)現(xiàn)表現(xiàn)句子傾向性的內(nèi)容絕大多數(shù)仍然保留在核心句中,所以后一步需要考慮是否能將核心句和句法關(guān)系應(yīng)用到句子的傾向性分析上;對于傾向性判斷將首先考慮抽取觀點表達后再判斷其極性;
4. 本實驗提出的方法適合含多個評價對象句子的屬性抽取,后繼將進一步研究評價對象抽取中更有挑戰(zhàn)性的問題,如評價對象缺失句中評價對象抽取的問題。
感謝哈爾濱工業(yè)大學(xué)信息檢索研究室為本文研究提供了LTP2.0工具和COAE2009提供的標(biāo)注語料。
[1] S.-M. Kim and E. Hovy. Determining the Sentiment of Opinions [C]//Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004). Geneva, Switzerland, 2004: 1367-1373.
[2] 趙軍,許洪波,黃萱菁,等.中文傾向性分析評測技術(shù)報告[C]//第一屆中文傾向性分析評測論文集.北京:第一屆中文傾向性分析評測委員會,2008: 1-20.
[3] 許洪波,姚天昉,黃萱菁,等.第二屆中文傾向性分析評測技術(shù)報告[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 1-23.
[4] S.-M. Kim and E. Hovy. Extracting opinions, opinion holders, and topics expressed in online news media text[C]//Proceedings of ACL/COLING Workshop on Sentiment and Subjectivity in Text. Sydney,Australia:2006: 1-8.
[5] Hu, Minqing and Bing Liu. 2004. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD-2004). Seattle, Washington, USA, 2004: 168-177.
[6] Yejin Choi, Claire Cardie, Ellen Riloff et al. Identifying Sources of Opinion with Conditional Random Fields and Extraction Patterns[C]//HLT/EMNLP’05.Vancouver,Birtish Columbia,Canada, 2005: 355-362.
[7] Qi Zhang, Yuanbin Wu and Tao Li. Mining Product Reviews Based on Shallow Dependency Parsing[C]//SIGIR’09.Boston,MA,USA:2009: 726-727.
[8] 蒙新泛,王厚峰. 基于CRF 的對象抽取及對象抽取的領(lǐng)域特定性研究[C]//第一屆中文傾向性分析評測論文集.北京:第一屆中文傾向性分析評測委員會,2008: 32-37.
[9] 張姝,賈文杰,夏迎炬,等. 基于CRF 的評價對象抽取技術(shù)研究[C]//第一屆中文傾向性分析評測論文集.北京,第一屆中文傾向性分析評測委員會,2008: 70-76.
[10] 何婷婷,聞彬,宋樂,等. 詞語情感傾向性識別及觀點抽取研究[C]//第一屆中文傾向性分析評測論文集.北京:第一屆中文傾向性分析評測委員會,2008: 89-93.
[11] 徐冰,王山雨.句子級文本傾向性分析評測報告[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 69-73.
[12] 王會珍,張春良,等,觀點句和評價對象一體化抽取技術(shù)研究[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 83-91.
[13] 王素格,李紅霞,等.中文文本觀點分析技術(shù)研究[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 92-101.
[14] 潘鳳鳴,王宇軒,等.DUTIR COAE2009評測報告[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 107-116.
[15] 濮小佳,黃億華,等.中文傾向性分析及評價對象抽取研究[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 117-127.
[16] 張玉杰,潘文彬,等.CISTR: 中文文本傾向性分析評測報告[C]//第二屆中文傾向性分析評測會議(COAE2009)論文集.北京: 第二屆中文傾向性分析評測委員會,2009: 144-152.
[17] 宋曉雷,王素格,李紅霞.面向特定領(lǐng)域的產(chǎn)品評價對象自動識別研究[C]//中文信息學(xué)報,2010.24,(1),89-93.
[18] 劉鴻宇,趙妍妍,等.評價對象抽取及其傾向性分析[J].中文信息學(xué)報,2010,24,(1),84-88,122.
[19] 劉非凡, 趙軍, 呂碧波,等. 面向商務(wù)信息抽取的產(chǎn)品評價對象識別研究[J].中文信息學(xué)報, 2006,20,(1),17-20.
[20] Lafferty, J., McCallum, A., Pereira, F. 2001. Conditional random fields: probabilistic models for segmenting and labeling or sequence data[C]//ICML.2001: 282-289.
[21] http://crfpp.sourceforge.net[CP/OL].