劉慧慧,王素格,2,趙策力
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西大學 數(shù)學科學學院,山西 太原 030006)
微博以其短小精悍的語言特點從眾多社交平臺中脫穎而出,歸因于它不僅是一個信息傳播平臺,而且是一個內(nèi)容自創(chuàng)的平臺,讓人人都成為內(nèi)容的制造者、見證者、傳播者以及評論者。用戶不僅可以發(fā)表文字內(nèi)容,而且可以通過超鏈接、圖片和視頻分享資源,使得微博具有豐富的延伸性,給予用戶簡便的閱讀體驗和自由度,它要求用戶發(fā)表的文字內(nèi)容僅限在140個字數(shù)之內(nèi),因此,人們通常會使用言簡意賅的語言表述對某一事物或者某一產(chǎn)品的看法和觀點,但這導致了不規(guī)范的、口語化的文本數(shù)據(jù)日益劇增,如何從這類文本數(shù)據(jù)中挖掘所蘊含的有價值的觀點,已經(jīng)成為自然語言處理領域的一個熱點研究課題[1]。
在語言表達中,人們通常省略某些語言成分,即句子存在缺省項,在相關文獻中也稱它為零指代[2]。它是句子中的一個缺口,指代前文中出現(xiàn)一個語言單位。相比于其他語言而言,漢語表達更加靈活,缺省使用也較頻繁。據(jù)Kim[3]進行調(diào)查,發(fā)現(xiàn)在英文文本中顯式主語的使用率高達96%,而在中文文本中顯式主語的使用率只有64%,這就意味著在中文文本中零指代的現(xiàn)象較為普遍。在情感觀點句中,人們在不影響表達的前提下,往往使用指示性代詞代替前文中所出現(xiàn)的某個評價對象和評價屬性,或者直接將評價對象和評價屬性省略。我們稱前者為評價要素指代,后者為評價要素缺省。在觀點要素抽取時,如果不能正確地處理評價對象與評價屬性的對應關系,將導致評價對象與評價屬性之間張冠李戴。例如,“蘋果過于封閉,更新速度相對較慢且價格昂貴,而三星等品牌系統(tǒng)開放,硬件技術日益完善,手機更新速度快,受眾群涵蓋上、中、下三層。”該句中評價屬性“價格”、“硬件技術”對應的評價對象分別為“蘋果”、“三星等品牌”。
對于評價要素指代,可以借鑒文獻[4-6]中的指代消解技術。而對于評價要素缺省識別,評價對象和評價屬性的缺省問題還鮮有研究。為了尋找評價對象與評價屬性的關聯(lián)對,需要準確識別觀點句中評價對象和評價屬性的對應關系,而確定缺省項的位置是其至關重要的環(huán)節(jié)。本文首先分析了觀點句中評價對象和評價屬性缺省項句法特點,構造候選缺省項識別規(guī)則集,在此基礎上,利用句子的詞性序列和候選缺省項識別規(guī)則集,獲取觀點句中待識別的缺省項侯選集。為了準確判定缺省項在句子中的位置,將其看作一個二分類問題。利用缺省項的上下文詞性信息和依存句法信息構建分類特征集。在訓練集上使用決策樹C4.5算法,訓練分類模型,對測試集進行缺省項識別,最終獲得情感觀點句中評價對象或評價屬性缺省項所在的位置,為實現(xiàn)評價對象或評價屬性缺省項的恢復奠定了基礎。
目前,零指代識別與消解的相關研究在國內(nèi)外得到了廣泛的關注[2],主要表現(xiàn)在以下兩個方面。
基于規(guī)則方面,Kong等[7]提出了一種基于規(guī)則探測零指代詞的方法,該方法通過對一個句子進行完全句法分析,獲取覆蓋當前預測節(jié)點的最小子樹。在此基礎上,構造規(guī)則,用于確定該句子是否含有零指代詞。實驗結果表明,在正確的句法分析樹上,F(xiàn)值可達82.45%,但在自動句法分析樹上,F(xiàn)值下降了近20%。Yeh和Chen[8]提出了一種基于詞性標注的零指代消解方法,利用一個分割程序將句子劃分為帶詞性標注的序列,在此基礎上,使用短語級解析樹將其分割為更小的成分,例如名詞短語和動詞短語。每一個短語作為詞序列,被轉化為一個完整的三元組T=[S,P,O]。利用零指代三元組,挖掘零指代候選集,通過約束規(guī)則最終確定零指代詞。實驗結果表明,僅使用三元組識別零指代的精確率達到65.2%,加上約束規(guī)則后,精確率可達到80.5%。
基于機器學習方面,大都沿用了Soon等[9]提出的框架,其基本思想是將零指代消解看成二元分類問題。Ng等[1]將零指代消解劃分為零指代識別和零指代消解兩個階段,分別使用零指代詞識別特征集和零指代詞先行語確定特征集。在候選詞選取時,他們采用了簡單的啟發(fā)式規(guī)則,獲得大部分的零指代詞,但同時也引入了太多噪音,導致前照應零指代詞識別的精確率較低。Xue等[10]給出了一種基于機器學習的空語類識別方法。該方法在完全正確的句法樹上,獲得了很好的結果,但在自動標注的句法樹上,性能有所下降,說明句法信息對空語類識別有一定的作用。Kong和Zhou[11]提出了一種基于樹核方法的統(tǒng)一框架,用于解決零指代消解問題。在零指代識別階段,他們使用有效的句法樹片段代替以往的平面特征,雖然保留了必要的上下文信息,在一定程度上提高了識別的性能,但是若句子越長,解析樹越可能出現(xiàn)錯誤,并且時間復雜度也將隨之增高。
對于評價對象和評價屬性識別,Santosh[12]等人針對屬性詞抽取提出了一種無監(jiān)督和領域無關的方法,整個實驗過程分為三個步驟,第一步從輸入的文本中識別出相關的名詞短語;第二步將描述同一個屬性的名詞短語聚成一類;第三步定義了屬性得分函數(shù),得分最高的侯選集即為屬性詞。通過在不同規(guī)模的數(shù)據(jù)集進行實驗,證明了他們的算法具有較好的魯棒性。Katharina[13]等人利用半監(jiān)督學習技術抽取屬性值-評價詞關系對,首先自動地從未標注的數(shù)據(jù)中抽取一個初始化種子列表,將其作為半監(jiān)督分類算法的訓練集,最后使用依存信息和co-location得分建立了屬性詞和評價詞之間的關系。
本文的研究目標是對情感觀點句中缺省的評價對象和屬性進行識別,通過挖掘缺省項識別規(guī)則集,選取缺省項侯選集,最后通過機器學習方法對缺省項進行識別。
根據(jù)文獻[14],一個中文句子一般包括一個或者幾個分句。依據(jù)中心理論,一個句子中,主語最可能被指代,其次是賓語,最后是其它名詞。在以往的零指代研究中,側重于處理前照應零指代,即零指代詞出現(xiàn)在先行語之后,并且零指代詞在句子中作主要的句法成分。與零指代識別研究不同,在多對象評論文本中,一個觀點句可能涉及多個對象/方面。如圖1所示。
圖1 觀點句—評價對象—評價屬性關系對應圖
圖1中,觀點句i可能涉及n個評價對象,每個評價對象可能涉及m個屬性。
通過對大量情感觀點句考察,將評價要素缺省項分為以下兩種情況。
(1) 缺省項作為句子的主要成分
例1三星太她媽難用了,還是iphone好,任何手機都比不上。
在例1中,第3個子句缺省了評價對象“iphone”,它作為句子的賓語。
例2三星手機質量太差,一進水就不好用,而且不禁摔。懷念諾基亞。
在例2中,第2和第3個子句中缺省了評價對象“三星手機”,它作為句子的主語。
(2) 缺省項不作為句子的主要成分
例3新機nexus 4入手,外觀比我想像中還要大氣。手機的速度不是我吹水,真的比三星的9300快多了。
在例3中,第2個子句缺省了評價屬性“外觀”的評價對象“新機nexus 4”。在第4個子句中缺省了評價對象“三星的9300”的評價屬性“手機的速度”。
根據(jù)第3節(jié)介紹的缺省項類型,本文提出一種缺省項識別方法,框架如圖2所示。
根據(jù)圖2,首先,初始文本經(jīng)過分詞和詞性標注預處理,利用情感詞典識別情感觀點句。在此基礎上,構造缺省項識別規(guī)則集獲取待識別的缺省項侯選集。在訓練階段和測試階段分別提取特征,使用決策樹C4.5算法訓練分類器模型,將其用于測試集,最后得到觀點句的缺省項識別結果。
圖2 缺省項識別框架
為了獲取缺省項候選集,人們通常依據(jù)語言現(xiàn)象總結啟發(fā)式規(guī)則,但在開放的網(wǎng)絡平臺和文本大數(shù)據(jù)中,僅僅依靠人工無法將所有的情況包括其中。為了減少人為因素,我們使用缺省規(guī)則挖掘算法以期獲取一個全面、科學的規(guī)則集。
定義1: 根據(jù)文獻[14],設A是一個由規(guī)則構成的集合,則稱A為項集。若A中包含k個規(guī)則,則稱其為k項集。
定義2: 設S={s1,s2,…,st}為所有句子的集合,項集A在句子集S中出現(xiàn)的次數(shù)占S中總句子數(shù)的百分比稱為項集A的支持度(support)。
定義3: 如果項集的支持度超過用戶給定的最小支持度閾值(Min-support),則稱該項集為頻繁項集(或大項集)。
形如規(guī)則X→Y,X是規(guī)則的前件,Y是結果。只有當X→Y的支持度和置信度分別大于最小支持度和最小置信度時,X與Y之間存在關聯(lián)關系。X→Y支持度和置信度計算公式如式(1)~(2)所示:
為了獲得選取缺省項侯選集的規(guī)則集,本文利用缺省項識別規(guī)則挖掘算法獲取規(guī)則集,算法流程圖如圖3所示。
圖3 缺省項識別規(guī)則挖掘算法流程圖
根據(jù)圖3的算法流程圖,缺省項識別規(guī)則挖掘算法描述如下:
算法說明:Li、Ci分別為頻繁i項集和i項集侯選集(i=1,2,…,m);DR為啟發(fā)式缺省項識別規(guī)則集,它是通過對觀點句缺省位置的考察,利用該位置的上下文信息,總結得到的規(guī)則集;DF為DR中規(guī)則的頻度集;DAR、UDAR分別為確定性關聯(lián)規(guī)則集和非確定性關聯(lián)規(guī)則集。frequence(x)為x出現(xiàn)的次數(shù),本文最小置信度Min-confidence設置為0.6-1.0,窗口大小Window_size=i+1,i=1,2,3。
輸入: 序列化之后的句子集S={s1,s2,…,st},DR,Min-confidence,DAR=?,UDAR=?,C1=?,C2=?,L1=?,L2=?。
輸出: 缺省項識別規(guī)則集UDR。
Step1: 設置最小支持度Min-support
設DR={r1k}(k=1,2,3,…,n),DF={f(r1k)},Min-support=min{x∈DF}。
Step2: 獲取規(guī)則集R
從句子si中截取Window_size長度的規(guī)則集,記為Ri+1(i=1,2,3)。
Step3: 選取候選規(guī)則集C1
Step4: 產(chǎn)生頻繁1項集L1//頻度大于最小支持度閾值的規(guī)則組成的集合。
Step5: 連接,即L1與自身連接
將L1的非空真子集與自身連接,產(chǎn)生候選2項集的集合,記為C2。
Step6: 產(chǎn)生頻繁2項集L2
Step7: 由頻繁項集產(chǎn)生關聯(lián)規(guī)則
對于L2中每個非空真子集a,如果frequence(L2)/frequence(a)≥Min-confidence,則a→(L2-a)是一個關聯(lián)規(guī)則,UDAR=UDAR∪{a→(L2-a)}。
Step8:DAR生成
遍歷DR和L1,取DR中的元素dri,L1中的元素l1j,構造dri→{l1j},i=1,2,…,|DR|;j=1,2,…,|L1|的關聯(lián)規(guī)則。如果frequence(dri∧{l1j})/frequence(dri)≥Min-confidence,則DAR=DAR∪{dri→{l1j}}。
Step9: 剪枝,將UDAR中無關的規(guī)則剔除。
遍歷UDAR中每個元素x,如果x前件不包含在DAR中元素的后件組成的集合中,則將其從UDAR中剔除。
Step10: 生成缺省規(guī)則集UDR
UDAR中元素的前件和后件逐一加入UDR中。
Step11: 算法結束。
本文將缺省項識別的過程看作一個二元分類問題,通過引入詞法特征和依存句法特征,建立一個缺省項識別分類器。
(1) 詞法特征
缺省項位置上前后詞語的詞性決定了它在句子中的句法成分,而一個句子的句法成分是否完整,對缺省項識別非常關鍵,因此本文使用缺省項φ位置上前后詞語的詞性用于刻畫缺省項的特征。
例4φ 真心/d 是/v 我/r 買/v 過/u 最/d 好/a 的/u 手機/n 。/w
從例4中可以看出,φ之后是副詞,之前沒有任
何詞,那么這個位置存在缺省。由此可見,詞法特征可以確定缺省項的位置。
根據(jù)語料中的語言現(xiàn)象,詞法特征描述見表1所示。
表1 詞法特征集的描述
利用表1的描述,例4的詞性特征即為After_adv,其值為Y。
(2) 依存句法特征
雖然詞法特征在一定程度上反應了缺省項的特點,但是這種平面特征只考慮了缺省項前后詞的詞性,往往忽略了缺省項與上下文之間的關系。為了彌補這種缺陷,我們利用依存句法分析樹建立句子中詞語與詞語之間的聯(lián)系,以其刻畫詞語之間的關系。
本文直接利用哈工大的依存句法樹自動獲取依存信息,例4的依存句法分析結果,如圖4所示。
圖4 依存句法分析結果圖
從圖4中可以看出,缺省項φ與“是”之間形成了主謂關系(SBV),而且只作為從屬詞(箭尾),不做支配詞(箭頭)。
根據(jù)缺省項的上下文依存句法信息,本文構造了5個依存句法特征,特征集描述見表2所示。
依據(jù)表2的描述,例4的依存句法特征即為SBV。
決策樹學習是一種臨近離散值目標函數(shù)的方法,它對錯誤有很好的健壯性,而且適用于屬性值較
表2 依存句法特征集的描述
少的情況。本文采用決策樹C4.5作為分類器。在訓練階段,將缺省項侯選集的每個實例通過上述表1和表2的特征集表示,對每個實例打上類標簽,使用weka中的決策樹J48訓練分類器模型。在測試階段,同樣地,向量化每個實例,然后使用訓練好的分類模型預測每個實例所屬類別。
本文選自2014年中文文本傾向性分析評測(COAE 2014)中手機領域的292篇微博作為實驗數(shù)據(jù),使用山西大學情感詞典(共計17 445個情感詞)識別觀點句,將包含情感詞的句子當作情感觀點句,并在情感觀點句(共計1 077個子句)上標注了缺省項的位置以及類型,如表3所示。該語料中共包含848個缺省項,其中,零指代缺省(φZ)占45.7%,非零指代缺省(φN)占24.3%,其他類型占30%。
為了進一步說明僅使用情感詞典判斷情感句對最終實驗帶來的影響,本文在所有的句子(共計1 337個子句)上標注缺省項,實驗結果見表3。
表3 缺省項類型統(tǒng)計結果
由表3可知,僅使用情感詞典判斷情感句,必然會造成部分φZ和φN缺失,但相比所有句子的φZ和φN,它們在情感句中的比例略高,而第三種類型的缺省卻有所上升。本文只針對前兩種缺省進行處理,而使用情感詞典判斷情感句可以有效地減少噪音(第三種類型缺省)數(shù)據(jù)的引入。
在手機領域中,新功能、新型號以及新別稱層出不窮,由于分詞軟件詞庫未能將全部的新詞收錄,從而造成錯分、錯標等問題。為了減少預處理階段對本文方法產(chǎn)生不良影響,我們對自動分詞與詞性標注后的評價對象和評價屬性進行了校對。
(1) 分詞錯誤
例5三星/nz 這/r 款/q 手機/n 之所以/c 讓/v 我/r 滿意/v ,/w 是因為/c 自/a 拍/j 是/a 200萬/m 像/d 素/a 的/b 。/w
例5中的“自/a 拍/j”、“像/d 素/a”是手機的屬性,應進行合并,并標注詞性為“n”。
(2) 詞性標注錯誤
例6“9300/m 好/a 了/y ,/w 原來/d 是/v 頹廢/a 的/u 包/n 的/u 問題/n ”
這里“9300/m”是三星手機的一個型號,經(jīng)過校對標注為“nz”。
根據(jù)第4節(jié)缺省項識別框架和第7.2小節(jié)語料校對,設計如下實驗。
(1) 語料校對對缺省項侯選集選取的影響
為了說明語料校對前后對實驗結果的影響,我們針對缺省項侯選集DR方法設置了對比實驗,實驗結果見表4。
表4 語料校對前后對缺省項侯選集選取的影響
由表4可知: 使用相同的規(guī)則集DR,在語料校對前后得到的缺省項的個數(shù)幾乎沒有發(fā)生變化,但缺省項侯選集選取的召回率有明顯地改變,說明語料經(jīng)過校對后在一定程度上可尋找出更多的缺省項。
(2) 規(guī)則的置信度對缺省項侯選集的影響
由于規(guī)則集的大小受規(guī)則置信度高低的制約,為了識別盡可能多的缺省項,以建立較完備的缺省項侯選集,本實驗選取置信度為0.6~1.0的規(guī)則,用于獲取缺省項侯選集,實驗結果見表5所示。
由表5可以看出:
① 規(guī)則挖掘算法中的置信度大小對擴充啟發(fā)式缺省項識別規(guī)則集有一定的影響,規(guī)則置信度越低,擴充的規(guī)則集合就越大。
② 隨著置信度增大,規(guī)則集的規(guī)模、缺省項個數(shù)
表5 規(guī)則的置信度對缺省項侯選集的影響
以及規(guī)則的召回率均減小,而缺省項識別的精確率和F值均有增長。
(3) 特征對缺省項識別的影響
為了驗證本文構造各類特征集對缺省項識別的影響,分別考察了使用不同特征集的分類效果。與此同時,使用Zhao[2]提出的啟發(fā)式規(guī)則作為本文的baseline。最終的實驗結果采用五倍交叉驗證,實驗結果見表6。
表6 缺省項識別結果
從表6可以得知:
① 當使用依存句法特征對缺省項識別時,召回率和F值均略高于詞法特征,從而說明依存句法涵蓋的缺省項上下文信息更為豐富。
② 將詞法特征和依存句法特征融合之后,精確率要遠遠優(yōu)于任一單類特征,而融合的特征集在召回率和F值也有較為明顯的提高,說明詞法特征和依存句法特征之間具有互補性。
(4) 錯誤分析
通過對情感觀點句的評價對象和評價屬性缺省項識別結果的分析,得出識別錯誤的主要原因有以下三個方面:
① 缺省項φ的詞性錯標: 由于在利用依存句法工具之前,人工已標記了句子的缺省項符號,導致依存句法工具對個別句子進行句法分析時,產(chǎn)生缺省項φ的詞性錯標。
例如,“φ1 感覺φ2 真不錯”的依存句法圖如圖5所示:
圖5 依存句法分析圖
其中,“感覺”是一個動詞,卻被誤標成了名詞,導致與缺省項φ1之間的關系發(fā)生錯誤,“φ2”的詞性應該是名詞,卻被誤標成副詞,使形成的依存關系也出現(xiàn)錯誤。
② 詞性標注錯誤: 微博中的表情符號有著重要的意義,但是在分詞時,往往會被冠以某一種詞性,例如,“屏幕/n 大/a 又/d 4核/n ~/n φ3 太/d 爽/a 了/v”,其中“~”被標注為名詞,使用詞法特征分類時,“φ3 ”被認為不是缺省項,又因為“φ3 ”之前是名詞,之后是完整的謂語,故機器誤認為這個句子不存在缺省。
③ 結構化信息過少: 本文主要針對兩種類型的缺省項識別,一類是在句子中作主要成分的零指代缺省項,另一類是不作主要成分的非零指代缺省項。從實驗結果中,可以看出句法特征SBV、VOB、ADV對于零指代缺省項的識別效果較好,但是對于非零指代缺省項的識別,效果不太理想,例如,“φ質量很差”,φ與“質量”之間形成ATT的關系,經(jīng)常被錯標成其他關系類型,導致非零指代的缺省項識別結果較差。
針對評價要素缺省項識別的問題,本文提出了一種有效的解決方法。首先使用山西大學情感詞典,將包含情感詞的句子作為情感句。在以往的零指代識別中,通常利用啟發(fā)式規(guī)則獲取侯選集,雖然簡單,但也引入了過多的噪音數(shù)據(jù),為了避免噪音數(shù)據(jù)帶來的影響,本文在情感觀點句上,采用缺省項識別規(guī)則挖掘算法得到規(guī)則集,用于獲取缺省項侯選集。從實驗結果中可以得知,使用規(guī)則挖掘算法得到的規(guī)則集優(yōu)于簡單啟發(fā)式規(guī)則。最后,本文在缺省項候選集的基礎上,構造了兩類特征集用于缺省項識別的分類器,從實驗結果可知,兩類特征的融合要優(yōu)于單類特征,從而也證明了本文方法的有效性。
本文方法的不足是整體召回率還偏低,說明構造的特征集還不夠完善。未來工作中,將尋找更好的特征方法以利于缺省項識別,在此基礎上,開展缺省項消解方面的研究工作。
致謝本文使用的依存句法工具來自哈爾濱工業(yè)大學信息檢索研究中心的中文依存句法分析工具,在此我們特別誠摯地感謝哈爾濱工業(yè)大學提供的語言技術平臺。
[1] C L Yeh, Y C Chen. Using zero anaphora resolution to improve text categorization[C]//Proceedings of the 17th Pacific Asia Conference, 2003: 423-430.
[2] S H Zhao, H T Ng. Identification and resolution of Chinese zero pronoun: a machine learning approach[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2007: 541-550.
[3] Young-Joo Kim. Subject/Object drop in the acquisition of Korean: A Cross-linguistic Comparison[J]. Journal of East Asian Linguistics, 2000: 325-351.
[4] R Mitkov. Robust pronoun resolution with limited knowledge[C]//Proceedings of the 18th International Conference on Computation Linguistics,1998: 869-875.
[5] S Converse. Pronominal anaphora resolution in Chinese[D]. Ph.D. Thesis, University of Pennsylvania. http://www.researchgate.net/Publication,2006.
[6] G D Zhou, F Kong, Q M Zhu. Context-sensitive convolution tree kernel for pronoun resolution[C]//IJCNLP’2008: 25-31.
[7] K W Qin, F Kong, P F Li, et al. Chinese zero anaphor detection: rule-based approach[J]. Advances in Intelligent and Soft Computing, 2011: 403-407.
[8] C L Yeh, Y C Chen. Zero anaphora resolution in Chinese with shallow parsing[J]. Journal of Chinese Language and Computing, 2007: 41-56.
[9] W Soon, H Ng, D Lim. A machine learning approach to coreference resolution of noun phrase[J]. Computational Linguistics, 2001: 521-544.
[10] Y Q Yang, N W Xue. Chasing the ghost recovering empty categories in the Chinese Tree -bank[C]//Proceedings of the Coling’10 Beijing, 2010: 1382-1390.
[11] F Kong, G D Zhou. A tree kernel-based unified framework for Chinese zero anaphora resolution[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010: 882-891.
[12] R Santosh, P Prasad, V Vasudeva. An Unsupervised Approach to Product Attribute Extraction[C]//Proceedings of the 31st European Conference on IR Research. Toulouse, France:[s.n.], 2009: 796-800.
[13] P Katharina, G Rayid, K Marko, et al. Semi-supervised Learning of Attribute-value Pairs from Product Descriptions[C]//Proceedings of the 20th International Joint Conference on Artificial Intelligence.[S.I.]: IEEE Press, 2007: 2838-2843.
[14] Y Huang. Anaphora: A cross-linguistic study[M]. Oxford, England: Oxford University Press.