宋偉偉 李權(quán)
【摘要】本文主要探討了決策支持系統(tǒng)的應(yīng)用結(jié)構(gòu)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)分析等技術(shù)方面的內(nèi)容。對數(shù)據(jù)挖掘在中文網(wǎng)絡(luò)產(chǎn)品評論中的應(yīng)用進(jìn)行了全面深入的探討,介紹了挖掘系統(tǒng)的通用框架,然后對產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷、挖掘結(jié)果等五個任務(wù)進(jìn)行了詳細(xì)闡述。顯然,數(shù)據(jù)挖掘在評論挖掘中的廣泛應(yīng)用對于網(wǎng)上購物各方面的進(jìn)一步推進(jìn)具有借鑒價值。
【關(guān)鍵詞】網(wǎng)絡(luò)中文評論;數(shù)據(jù)挖掘;通用框架;應(yīng)用
1 引言
這篇文章旨在探討了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘的定義和相關(guān)概念,提出了網(wǎng)絡(luò)產(chǎn)品評論挖掘的研究背景以及步驟和方法,并在用戶產(chǎn)品評論分析的基礎(chǔ)上,進(jìn)一步對產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷進(jìn)行分析,更全面的介紹了數(shù)據(jù)挖掘在各方面的應(yīng)用和作用。
2 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的技術(shù)分析
2.1數(shù)據(jù)倉庫
數(shù)據(jù)倉庫系統(tǒng)會隨著時間而發(fā)生改變,包括數(shù)據(jù)倉庫的創(chuàng)建、設(shè)計以及使用;縱向上所呈現(xiàn)的是數(shù)據(jù)倉庫的管理體系,它最終是通過元數(shù)據(jù)對整個數(shù)據(jù)倉庫系統(tǒng)進(jìn)行了管理[1]。數(shù)據(jù)具有單向流動性,在存儲過程中還具有層次性。數(shù)據(jù)經(jīng)由源數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫,接著在分析處理后進(jìn)入用戶界面。
2.2 數(shù)據(jù)挖掘技術(shù)分析
基于數(shù)據(jù)倉庫的通用數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)是基于傳統(tǒng)的結(jié)構(gòu)框架以及數(shù)據(jù)倉庫的特點所分析出來的,適用于不同的數(shù)據(jù)挖掘。對網(wǎng)絡(luò)產(chǎn)品有用評價信息的挖掘分為用戶產(chǎn)品評論語料庫構(gòu)建、數(shù)據(jù)預(yù)處理、產(chǎn)品評論挖掘和挖掘結(jié)果分析四個步驟。
3 挖掘技術(shù)在產(chǎn)品評論中的應(yīng)用
產(chǎn)品評論挖掘是文本挖掘研究領(lǐng)域中最近幾年興起的研究熱點。以Web上發(fā)表的用戶產(chǎn)品評論作為挖掘?qū)ο?,采用自然語言處理技術(shù),從大量文本中發(fā)現(xiàn)用于對該產(chǎn)品各方面性能的評價。目前產(chǎn)品評論挖掘分為產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷和分析挖掘結(jié)果五個子任務(wù)。
3.1 在產(chǎn)品特征提取中的應(yīng)用
在產(chǎn)品特征方面,生產(chǎn)廠商一般會給出關(guān)于相關(guān)產(chǎn)品各方面性能的說明文件,但是產(chǎn)品評論挖掘一般不從這樣的說明性文件中提取產(chǎn)品特征,主要原因之一是生產(chǎn)廠商和用戶對產(chǎn)品特征的關(guān)注度不一樣,用戶關(guān)注的是對于產(chǎn)品的相關(guān)的特征信息,而生產(chǎn)廠商提供的產(chǎn)品特征更多的專注于一些技術(shù)細(xì)節(jié),對于這樣的細(xì)節(jié)用戶一般不感興趣。其次產(chǎn)品評論中對特征的描述是一個開放性的問題。產(chǎn)品特征提取是在分詞和詞性的基礎(chǔ)上,首先提取出全部的名詞,找出出現(xiàn)頻率比較高的名詞作為候選詞匯,之后通過人工定義,得到用戶關(guān)注產(chǎn)品特征集合F1,假設(shè)產(chǎn)品規(guī)格說明書中提取的產(chǎn)品特征集合設(shè)定為F1,則最終產(chǎn)品特征集合為F=F1∪F2。
3.2 在主觀句定位中的應(yīng)用
判定主觀句的方法主要是查看語句中是否出現(xiàn)了主觀性特征,主觀性特征包括可以表示主觀性的動詞、形容詞、名詞短語、文本模式或人工定義的詞匯表,主觀性特征的獲取分為人工定義和自動獲取兩種方式。根據(jù)李存青給出的4種漢語評論常用語法模式基礎(chǔ)上[2],單曉紅給出了9種語法模式:名詞+形容詞、名詞+動詞、名詞+副詞+形容詞、名詞+副詞+動詞、名詞+副詞+副詞+形容詞、名詞+副詞+副詞+動詞、動詞+名詞、副詞+動詞+名詞、形容詞+的+名詞,在分詞和詞性標(biāo)注的基礎(chǔ)上,對于每一條產(chǎn)品評論句子Ri,構(gòu)造其語法模式集合[14],來作為產(chǎn)品評論中主觀句定位的方法。
3.3 在用戶態(tài)度提取中的應(yīng)用
Kobayashi、Inui和Matsumoto 建立了形容詞的用戶態(tài)度詞匯表(比如:comfortable,tight,supportive)[3]。Li Zhuang從人工標(biāo)注的數(shù)據(jù)中尋找了1093 個詞匯作為正性詞匯,780個詞匯作為負(fù)性詞匯,無論評論語句中出現(xiàn)了正性還是負(fù)性詞匯,那么都將該詞匯作為表示了用戶態(tài)度的詞匯[8]。Bing Liu和Mingqing Hu提取句法分析樹中修飾作為產(chǎn)品特征的名詞和名詞短語的形容詞或副詞作為用戶態(tài)度[4]。Kim和Hovy不進(jìn)行句法分析而是直接定義一個窗口,將在窗口中出現(xiàn)的形容詞作為用戶態(tài)度和使用文本模式提取用戶態(tài)度,將出現(xiàn)在文本模式中的形容詞作為用戶態(tài)度。
3.4 在態(tài)度極性判定中的應(yīng)用
文本的態(tài)度分析分為詞語、短語、句子、篇章等多個層次,篇章層次的態(tài)度極性的判斷多用于基于情感的多文本摘要等領(lǐng)域,極性詞匯表的建立分為人工定義和自動獲取兩種方法。Turney[5]采用互信息和信息檢索結(jié)合(PMI-IR)的方法判定詞匯極性,該方法假設(shè)同一篇文章中出現(xiàn)的詞語具有相同的情感極性方向,首先建立7個單詞構(gòu)成的正性詞匯集Pwords和7個單詞構(gòu)成的負(fù)性詞匯集Nwords,對需要進(jìn)行極性判斷的詞匯Uword,分別計算Uword 與Pwords和Nwords中的每個極性詞匯的互信息(PMI:Point Mutual Information),下面的公式采用IR方法計算兩個詞的互信息:
PMI(Word1,Word2)=Log2()
小結(jié)
隨著網(wǎng)上交易信息的快速發(fā)展,伴隨著對數(shù)據(jù)分析工具的需求,近年來產(chǎn)品評論挖掘研究對數(shù)據(jù)挖掘技術(shù)的研究呈逐步增長趨勢。本文主要探討了決策支持系統(tǒng)的應(yīng)用結(jié)構(gòu)、數(shù)據(jù)倉庫、聯(lián)機分析處理技術(shù)、數(shù)據(jù)挖掘技術(shù),分析了網(wǎng)絡(luò)產(chǎn)品評價挖掘步驟以及挖掘技術(shù)在產(chǎn)品評論挖掘過程中的應(yīng)用分析。
參考文獻(xiàn):
[1]數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù).孫水華、趙釗林、劉建華編著.清華大學(xué)出版社.P5
[2]李實,葉強,李一軍,Rob Law.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究.管理科學(xué)學(xué)報,2009,12(2):142-151.
[3]Kobayashi N,Lida R,Inui K,etal.Opinion mining as extraction of attribute-value relation[C]//The 19th Annual Conference of JSAI,Japan,2005.
[4]Hu Mingqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of Nineteeth National Conference on Artificial Intelligience,San Jose,USA,2004.
[5]Kim S M,Hovy E.Automatic detection of opinion bearing words and sentences[C],2005.