李婷玉,葛正榮,姚天昉
(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)
網(wǎng)絡(luò)技術(shù)的高速發(fā)展,宣告了信息時(shí)代的到來。如何將自己需要的信息從網(wǎng)絡(luò)上海量的數(shù)據(jù)中抽取出來,已經(jīng)成為一個(gè)熱點(diǎn)研究方向。傳統(tǒng)搜索引擎的方法往往是依靠關(guān)鍵字的搜索,通過匹配來檢索出用戶所需要的信息和內(nèi)容。但是,關(guān)鍵字的匹配并不能很好地獲取用戶所需要的內(nèi)容,往往會(huì)夾雜著大量的無用信息,需要用戶人工篩選。而問答系統(tǒng)(Question Answering)的出現(xiàn)有望代替原有的信息檢索技術(shù),使用戶能夠更方便地找到所要的信息。
傳統(tǒng)的問答系統(tǒng)一般只針對(duì)比較簡單的、基于事實(shí)的問句,而隨著大量評(píng)論性信息的出現(xiàn),傳統(tǒng)的問答系統(tǒng)回答這些情感問題不再顯得有效。對(duì)此,Wiebe和Cardie等人首先實(shí)現(xiàn)了一個(gè)MPQA(Multi-Perspective Question Answering)系統(tǒng),它沒有專門對(duì)問題進(jìn)行分類,而只是簡單地采用人工的方法對(duì)情感問題和基于事實(shí)的問題進(jìn)行手工標(biāo)識(shí), 構(gòu)建了一個(gè)主觀性文本語料庫,通過分析和抽取語料庫中的情感信息片段,回答情感問題。Someasundaran和Wilson[1]等人在此基礎(chǔ)上,進(jìn)一步對(duì)情感的類型體系進(jìn)行細(xì)分。 接著,Yu和Hatzivassibloglou[2]分別在篇章層和句子層對(duì)情感分類做了研究。針對(duì)一個(gè)情感問題,他們?cè)噲D在文本中尋找與問題具有相同情感傾向的句子,然后根據(jù)這些情感句子產(chǎn)生答案,但是在情感問題分析方面,僅僅只是對(duì)情感問題的極性進(jìn)行了分類。Kim和Hovy[3]專門對(duì)情感問答系統(tǒng)中句子的情感持有者識(shí)別做了研究。Lun-Wei Ku和Hsin-His Chen[4]等人基于TREC-11和NTCIR等語料實(shí)現(xiàn)了一個(gè)簡單的情感問答系統(tǒng)。
情感問題分析是情感問答系統(tǒng)中第一個(gè)處理步驟,它對(duì)于理解問題的關(guān)鍵信息、提高檢索速度、縮小答案范圍等具有重要的意義。由于對(duì)漢語的搜索技術(shù)研究開展地比較晚,再加上中文的復(fù)雜性,所以西方研究者所提出的一些方法與技術(shù)往往會(huì)“水土不服”。本文將重點(diǎn)研究非特定領(lǐng)域的情感問題分類,從語法、語義、領(lǐng)域等不同層面分析并定義情感問題的類型。在語法層面,采用漢語語法的疑問句式的分類標(biāo)準(zhǔn);在語義層面,利用關(guān)鍵字等特征進(jìn)行分類;在領(lǐng)域?qū)用?,采用本體等工具確定領(lǐng)域。在此基礎(chǔ)上建立情感問題類型體系。接著篩選區(qū)分情感問題和非情感問題的敏感特征,這些特征可以來源于不同的語言層面。在完成情感問題和非情感問題分類以后,針對(duì)情感問題,采用情感問題類型體系對(duì)它進(jìn)行進(jìn)一步分類,確定問題的關(guān)鍵信息(如命名實(shí)體)與預(yù)期候選答案的關(guān)系。
一般采用基于示例的指導(dǎo)性學(xué)習(xí)進(jìn)行問題分類時(shí),都按照疑問短語來進(jìn)行[5],其主要方法有以下幾種:統(tǒng)計(jì)方法、規(guī)則學(xué)習(xí)、樹方法以及神經(jīng)網(wǎng)絡(luò)方法等。其中最常用的是統(tǒng)計(jì)方法,其次是規(guī)則學(xué)習(xí)和樹方法,而神經(jīng)網(wǎng)絡(luò)方法較少用。
在本次實(shí)驗(yàn)中,我們考慮從語法、語義、領(lǐng)域等層面分析并定義情感問題的類型。在語法層面,采用漢語語法的疑問句式的分類標(biāo)準(zhǔn);在語義層面,利用關(guān)鍵字等特征進(jìn)行分類;在領(lǐng)域?qū)用妫梢圆捎帽倔w等工具確定領(lǐng)域。并在此基礎(chǔ)上建立情感問題類型體系。針對(duì)情感問題,采用情感問題類型體系對(duì)它進(jìn)一步分類,確定問題的關(guān)鍵信息和與預(yù)期候選答案的關(guān)系。
所以,總的來說,對(duì)于問題的分析,最終將有三部分組成:
a) 語義層面的一些關(guān)鍵詞;
b) 語法層面的不同疑問句類型的分類;
c) 領(lǐng)域?qū)用骖I(lǐng)域的確定。
對(duì)于一般的文本來說,往往可以通過一些關(guān)鍵詞的搜索來進(jìn)行語義層面的分類。但是問題分類有其特殊性,由于篇幅較小,一個(gè)問題不超過20個(gè)語素,所以往往其語義不容易判斷。而對(duì)于情感問題來說,它的問題覆蓋面更狹窄,情感問題往往是圍繞著一個(gè)情感表達(dá)事件來進(jìn)行提問。因此只要將關(guān)于這個(gè)情感表達(dá)事件描述的關(guān)鍵詞抽取出來,那么,就可以了解整個(gè)情感表達(dá)事件的大致意思。通過對(duì)大量情感問題的觀察,我們認(rèn)為主要有以下幾個(gè)關(guān)鍵詞:
(1) 情感詞(sentiment word)
對(duì)于絕大多數(shù)情感問題來說,帶有極性的形容詞或者動(dòng)詞往往是表達(dá)情感和看法用的最多的語素。因?yàn)樗鼛в幸欢ǖ那楦袃A向,而這些傾向則往往用來表達(dá)人對(duì)于事物的態(tài)度。本次實(shí)驗(yàn)利用《知網(wǎng)》(HowNet)情感詞辭典來判斷情感詞。
值得一提的是,大多數(shù)情感詞具有兩種詞性,一為形容詞,另一為動(dòng)詞。由于這兩種詞在句中的語法作用不同,所以往往要分開標(biāo)記。
(2) 主題詞(target)
在情感問題中,情感詞是用來修飾主題詞的,是為了對(duì)該主題表達(dá)一定的情感。在本次實(shí)驗(yàn)中,主要利用我們實(shí)驗(yàn)室已有的汽車主題庫進(jìn)行搜索[6]。
(3) 持有者(holder)
在情感問題中,不同的人和團(tuán)體對(duì)于相同的主題可能抱有不同的情感和看法,因此持有者也應(yīng)該作為一個(gè)關(guān)鍵詞。
由于持有者可以是任何人、組織或者團(tuán)體,范圍很大,所以利用辭典不可能囊括。因此,還要加上語法上的判斷,比如動(dòng)詞前面很有可能就是情感的持有者,特別是建議性動(dòng)詞和情感動(dòng)詞。所以對(duì)于這兩者前面的名詞、代詞,和一些專有名詞,都認(rèn)為是情感持有者并提取出來。要注意的是,很多句子中會(huì)缺少情感持有者。
例如:吉普車安全嗎?
問題的情感持有者被省略了。通過分析,本次實(shí)驗(yàn)中把情感持有者省略的狀況認(rèn)為是對(duì)于“你”的提問。對(duì)于上例即看作“你認(rèn)為吉普車安全嗎?”
在本次實(shí)驗(yàn)中對(duì)于情感問題分類的語法層面研究主要向英語語法借鑒[7],將其分成兩大類,即一般疑問句和特殊疑問句。鑒于一般疑問句的回答比較簡單,所以不再細(xì)分。而特殊疑問句首先與上一節(jié)抽取到的三個(gè)關(guān)鍵詞相對(duì)應(yīng)。用英語來表示即為:情感詞對(duì)應(yīng)“how”,主題詞對(duì)應(yīng)“what”,持有者對(duì)應(yīng)“who”。同樣問原因“why”的特殊疑問句也可以放在情感問題的分類里面,但是對(duì)于“where”和“when”這兩個(gè)問地點(diǎn)和時(shí)間的特殊疑問詞,則將它們舍去,因?yàn)樗鼈兛偸浅霈F(xiàn)在非情感問題當(dāng)中,不在我們所討論的情感問題范疇之內(nèi)。
情感問題分類如表1所示。
表1 情感問題分類表
情感詞類:這類問題是詢問人或者團(tuán)體對(duì)于某一事件或事物的看法,而這類問題回答的要點(diǎn)總是在于情感詞,表2是幾種基本的問句類型。
表2 情感詞類句式規(guī)則表
主題詞類:這類問題是詢問人或者團(tuán)體什么事物或事件持有特定的看法,而這類問題回答的要點(diǎn)總是在于主題詞,表3是幾種基本的問句類型。
持有者類:這類問題是詢問哪些人或團(tuán)體對(duì)某些事物或事件持有某種看法,而這類問題回答的要點(diǎn)總是在于持有者,表4是幾種基本的問句類型。
表3 主題詞類句式規(guī)則表
表4 持有者類句式規(guī)則表
原因類:這類問題是詢問情感事件表達(dá)的原因,而這類問題的回答要點(diǎn)總是在于理由,表5是幾種基本的問句類型。
表5 原因類句式規(guī)則表
一般疑問句類:在情感問題中,一般疑問句常常詢問某一情感表達(dá)事件的正確與否,而這類問題的答案一般只有兩種:正確或錯(cuò)誤。表6是幾種基本的問句類型。
從上述五種疑問句類型中可以總結(jié)出幾點(diǎn)情感問題句式規(guī)律:
(1) 一般來說主題詞和情感詞的位置可以互換,且不影響句子的表達(dá)。
(2) 一般來說句子帶有持有者和建議性動(dòng)詞的,兩者可以省略,不影響句子的表達(dá)。
(3) 疑問詞的不同和某種關(guān)鍵詞的缺失往往決定了句子的類型。
表6 一般疑問句句式規(guī)則表
對(duì)情感問題的分析來看,決定這個(gè)問題是屬于哪個(gè)領(lǐng)域最關(guān)鍵的是主題詞。主題詞往往決定了情感所針對(duì)的對(duì)象,這個(gè)對(duì)象屬于哪個(gè)領(lǐng)域則這個(gè)情感問題也屬于該領(lǐng)域。在本次實(shí)驗(yàn)中,利用Google來進(jìn)行相關(guān)性的搜索。比如主題是“奔馳”,那么在Google中輸入“奔馳 汽車”,記錄其相關(guān)網(wǎng)頁數(shù)量,同時(shí)也輸入“奔馳 食物”,記錄其相關(guān)網(wǎng)頁數(shù)量,“汽車”和“食物”為領(lǐng)域。當(dāng)將主題詞和不同的領(lǐng)域的搜索引擎相關(guān)網(wǎng)頁數(shù)得到后,其中數(shù)值最大的領(lǐng)域便是這個(gè)主題的領(lǐng)域。對(duì)于問題的領(lǐng)域,并不是說要將其限定在某個(gè)領(lǐng)域中,而是將其歸納到某個(gè)領(lǐng)域中方便以后對(duì)答案進(jìn)行篩選等步驟,對(duì)于問題本身沒有影響。
例如:對(duì)于主題“寶馬”的領(lǐng)域判斷,以下數(shù)據(jù)來源于www.google.com。
約有 19 100 000項(xiàng)符合 寶馬 汽車 的查詢結(jié)果
約有 9 730 000項(xiàng)符合 寶馬 食物 的查詢結(jié)果
約有 1 570 000項(xiàng)符合 寶馬 mp3 的查詢結(jié)果
可見寶馬與汽車的相關(guān)網(wǎng)頁最多,所以判斷寶馬屬于汽車領(lǐng)域。
從圖1來看,在語義、語法、領(lǐng)域三個(gè)方面,語義層次的分析最重要,它是一切的基礎(chǔ),關(guān)鍵詞的標(biāo)注是另外兩步的基礎(chǔ)。而語法層面和領(lǐng)域?qū)用嬖谀玫秸Z義分析的結(jié)果后則可以分別獨(dú)立執(zhí)行,最后將三個(gè)部分的結(jié)果整合輸出。
圖1 情感問題分類流程圖
本次實(shí)驗(yàn)對(duì)于每種疑問句類型準(zhǔn)備20句左右的測(cè)試語料,并按難度將其分成三等,對(duì)整個(gè)情感問題分類系統(tǒng)進(jìn)行測(cè)試,并且手工判斷其結(jié)果正確與否。最后的結(jié)果如表7所示。
從表7看來,本次實(shí)驗(yàn)的結(jié)果一開始不是十分理想,仔細(xì)觀察一些錯(cuò)位的句子,發(fā)現(xiàn)主要有以下幾個(gè)主要問題:
例1:哪些人覺得寶馬車是最舒適的跑車?
這句問題,系統(tǒng)的類型判斷正確,但是對(duì)于情感詞的提取則不夠精確,系統(tǒng)提取了“舒適”而不是“最舒適”,而“最”、“不”、“比較”這類副詞對(duì)于后續(xù)研究中對(duì)于答案的搜索有著至關(guān)重要的作用,所以應(yīng)該將情感形容詞前的副詞一并加入情感詞輸出。
例2: 為什么人們覺得奧迪漂亮安全?
該句疑問句分類正確,但是對(duì)于情感詞的提取不夠全面,系統(tǒng)提取了“漂亮”,但是“安全”則被忽略了。在情感問題中,常常有這一類問題,其主題擁有多個(gè)情感詞。應(yīng)該將并列的情感詞一起輸出。
表7 情感問題分類系統(tǒng)實(shí)驗(yàn)結(jié)果
修改了以上一些問題之后,用新的系統(tǒng)來進(jìn)行測(cè)試,結(jié)果有了很大的改善,對(duì)于簡單和中等的情感問題處理得比較理想。但是,對(duì)于困難的情感問題,處理起來仍有些吃力,主要是由于漢語隨意性較強(qiáng),句型、詞性等在不同的情況下都可以有不同的變化。
本文對(duì)情感問題分類進(jìn)行研究,從語義、語法和領(lǐng)域三個(gè)方面對(duì)其進(jìn)行分類。語義上挑選出三種關(guān)鍵詞;在語法上,將問題分成五種類型,并制定相應(yīng)的規(guī)則,對(duì)其進(jìn)行分類;在領(lǐng)域上,利用網(wǎng)絡(luò)搜索引擎得到結(jié)果進(jìn)行分類。實(shí)驗(yàn)的結(jié)果比較理想。經(jīng)過實(shí)驗(yàn),我們認(rèn)為漢語情感問題分類最關(guān)鍵的部分還是在語法層面,如果能將每個(gè)詞在句子中所起到的作用分析清楚并且在系統(tǒng)中很好地加以識(shí)別,分類會(huì)方便很多。
綜上所述,可以看出:漢語情感問答系統(tǒng)作為一個(gè)新興的搜索引擎發(fā)展方向,對(duì)其的研究才剛剛起步,不管是理論上還是工程上,仍有很大的提升空間。
[1] SOMASUNDARAN S, WILSON T, WIEBE J, et al. QA with attitude: exploiting opinion type analysis for improving question answering in on-line discussions and the news[C]//Proceedings of the International Conference on Weblogs and Social Media. Boulder, Colorado,USA, 2007.
[2] YU H, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan, 2003: 129-136.
[3] Kim, S-M and Hovy, E. Identifying Opinion Holders for Question Answering in Opinion Texts[C]//Proceedings of AAAI-05 Workshop on Question Answering in Restricted Domains.2005.
[4] Lun-Wei Ku etc. Question Analysis and Answer Passage Retrieval for Opinion Question Answering Systems[C]//Computational Linguistics and Chinese Language Processing Vol.13,No.3, September 2008: 307-326.
[5] 鄭實(shí)福,劉挺,秦兵,等.自動(dòng)問答綜述[J].中文信息學(xué)報(bào),2002,16(6):46-52.
[6] 姚天昉,聶青陽,李建超,等. 一個(gè)用于漢語汽車評(píng)論的意見挖掘系統(tǒng)[C]//中文信息處理前沿進(jìn)展-中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集. 北京:清華大學(xué)出版社,2006,260-281.
[7] 張剛,劉挺,鄭實(shí)福,等.開放域中文問答系統(tǒng)的研究與實(shí)現(xiàn)[C]//哈爾濱工業(yè)大學(xué)信息檢索研究室論文集,第一卷,2003.