国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在中文產(chǎn)品評價中的應(yīng)用研究

2014-04-29 14:50:59宋偉偉李權(quán)
東方教育 2014年10期
關(guān)鍵詞:數(shù)據(jù)挖掘應(yīng)用

宋偉偉 李權(quán)

【摘要】本文主要探討了決策支持系統(tǒng)的應(yīng)用結(jié)構(gòu)、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘技術(shù)分析等技術(shù)方面的內(nèi)容。對數(shù)據(jù)挖掘在中文網(wǎng)絡(luò)產(chǎn)品評論中的應(yīng)用進(jìn)行了全面深入的探討,介紹了挖掘系統(tǒng)的通用框架,然后對產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷、挖掘結(jié)果等五個任務(wù)進(jìn)行了詳細(xì)闡述。顯然,數(shù)據(jù)挖掘在評論挖掘中的廣泛應(yīng)用對于網(wǎng)上購物各方面的進(jìn)一步推進(jìn)具有借鑒價值。

【關(guān)鍵詞】網(wǎng)絡(luò)中文評論;數(shù)據(jù)挖掘;通用框架;應(yīng)用

1 引言

這篇文章旨在探討了數(shù)據(jù)倉庫、數(shù)據(jù)挖掘的定義和相關(guān)概念,提出了網(wǎng)絡(luò)產(chǎn)品評論挖掘的研究背景以及步驟和方法,并在用戶產(chǎn)品評論分析的基礎(chǔ)上,進(jìn)一步對產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷進(jìn)行分析,更全面的介紹了數(shù)據(jù)挖掘在各方面的應(yīng)用和作用。

2 數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的技術(shù)分析

2.1數(shù)據(jù)倉庫

數(shù)據(jù)倉庫系統(tǒng)會隨著時間而發(fā)生改變,包括數(shù)據(jù)倉庫的創(chuàng)建、設(shè)計以及使用;縱向上所呈現(xiàn)的是數(shù)據(jù)倉庫的管理體系,它最終是通過元數(shù)據(jù)對整個數(shù)據(jù)倉庫系統(tǒng)進(jìn)行了管理[1]。數(shù)據(jù)具有單向流動性,在存儲過程中還具有層次性。數(shù)據(jù)經(jīng)由源數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫,接著在分析處理后進(jìn)入用戶界面。

2.2 數(shù)據(jù)挖掘技術(shù)分析

基于數(shù)據(jù)倉庫的通用數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)是基于傳統(tǒng)的結(jié)構(gòu)框架以及數(shù)據(jù)倉庫的特點所分析出來的,適用于不同的數(shù)據(jù)挖掘。對網(wǎng)絡(luò)產(chǎn)品有用評價信息的挖掘分為用戶產(chǎn)品評論語料庫構(gòu)建、數(shù)據(jù)預(yù)處理、產(chǎn)品評論挖掘和挖掘結(jié)果分析四個步驟。

3 挖掘技術(shù)在產(chǎn)品評論中的應(yīng)用

產(chǎn)品評論挖掘是文本挖掘研究領(lǐng)域中最近幾年興起的研究熱點。以Web上發(fā)表的用戶產(chǎn)品評論作為挖掘?qū)ο?,采用自然語言處理技術(shù),從大量文本中發(fā)現(xiàn)用于對該產(chǎn)品各方面性能的評價。目前產(chǎn)品評論挖掘分為產(chǎn)品特征提取、主觀句定位、用戶態(tài)度提取、態(tài)度極性判斷和分析挖掘結(jié)果五個子任務(wù)。

3.1 在產(chǎn)品特征提取中的應(yīng)用

在產(chǎn)品特征方面,生產(chǎn)廠商一般會給出關(guān)于相關(guān)產(chǎn)品各方面性能的說明文件,但是產(chǎn)品評論挖掘一般不從這樣的說明性文件中提取產(chǎn)品特征,主要原因之一是生產(chǎn)廠商和用戶對產(chǎn)品特征的關(guān)注度不一樣,用戶關(guān)注的是對于產(chǎn)品的相關(guān)的特征信息,而生產(chǎn)廠商提供的產(chǎn)品特征更多的專注于一些技術(shù)細(xì)節(jié),對于這樣的細(xì)節(jié)用戶一般不感興趣。其次產(chǎn)品評論中對特征的描述是一個開放性的問題。產(chǎn)品特征提取是在分詞和詞性的基礎(chǔ)上,首先提取出全部的名詞,找出出現(xiàn)頻率比較高的名詞作為候選詞匯,之后通過人工定義,得到用戶關(guān)注產(chǎn)品特征集合F1,假設(shè)產(chǎn)品規(guī)格說明書中提取的產(chǎn)品特征集合設(shè)定為F1,則最終產(chǎn)品特征集合為F=F1∪F2。

3.2 在主觀句定位中的應(yīng)用

判定主觀句的方法主要是查看語句中是否出現(xiàn)了主觀性特征,主觀性特征包括可以表示主觀性的動詞、形容詞、名詞短語、文本模式或人工定義的詞匯表,主觀性特征的獲取分為人工定義和自動獲取兩種方式。根據(jù)李存青給出的4種漢語評論常用語法模式基礎(chǔ)上[2],單曉紅給出了9種語法模式:名詞+形容詞、名詞+動詞、名詞+副詞+形容詞、名詞+副詞+動詞、名詞+副詞+副詞+形容詞、名詞+副詞+副詞+動詞、動詞+名詞、副詞+動詞+名詞、形容詞+的+名詞,在分詞和詞性標(biāo)注的基礎(chǔ)上,對于每一條產(chǎn)品評論句子Ri,構(gòu)造其語法模式集合[14],來作為產(chǎn)品評論中主觀句定位的方法。

3.3 在用戶態(tài)度提取中的應(yīng)用

Kobayashi、Inui和Matsumoto 建立了形容詞的用戶態(tài)度詞匯表(比如:comfortable,tight,supportive)[3]。Li Zhuang從人工標(biāo)注的數(shù)據(jù)中尋找了1093 個詞匯作為正性詞匯,780個詞匯作為負(fù)性詞匯,無論評論語句中出現(xiàn)了正性還是負(fù)性詞匯,那么都將該詞匯作為表示了用戶態(tài)度的詞匯[8]。Bing Liu和Mingqing Hu提取句法分析樹中修飾作為產(chǎn)品特征的名詞和名詞短語的形容詞或副詞作為用戶態(tài)度[4]。Kim和Hovy不進(jìn)行句法分析而是直接定義一個窗口,將在窗口中出現(xiàn)的形容詞作為用戶態(tài)度和使用文本模式提取用戶態(tài)度,將出現(xiàn)在文本模式中的形容詞作為用戶態(tài)度。

3.4 在態(tài)度極性判定中的應(yīng)用

文本的態(tài)度分析分為詞語、短語、句子、篇章等多個層次,篇章層次的態(tài)度極性的判斷多用于基于情感的多文本摘要等領(lǐng)域,極性詞匯表的建立分為人工定義和自動獲取兩種方法。Turney[5]采用互信息和信息檢索結(jié)合(PMI-IR)的方法判定詞匯極性,該方法假設(shè)同一篇文章中出現(xiàn)的詞語具有相同的情感極性方向,首先建立7個單詞構(gòu)成的正性詞匯集Pwords和7個單詞構(gòu)成的負(fù)性詞匯集Nwords,對需要進(jìn)行極性判斷的詞匯Uword,分別計算Uword 與Pwords和Nwords中的每個極性詞匯的互信息(PMI:Point Mutual Information),下面的公式采用IR方法計算兩個詞的互信息:

PMI(Word1,Word2)=Log2(

小結(jié)

隨著網(wǎng)上交易信息的快速發(fā)展,伴隨著對數(shù)據(jù)分析工具的需求,近年來產(chǎn)品評論挖掘研究對數(shù)據(jù)挖掘技術(shù)的研究呈逐步增長趨勢。本文主要探討了決策支持系統(tǒng)的應(yīng)用結(jié)構(gòu)、數(shù)據(jù)倉庫、聯(lián)機分析處理技術(shù)、數(shù)據(jù)挖掘技術(shù),分析了網(wǎng)絡(luò)產(chǎn)品評價挖掘步驟以及挖掘技術(shù)在產(chǎn)品評論挖掘過程中的應(yīng)用分析。

參考文獻(xiàn):

[1]數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù).孫水華、趙釗林、劉建華編著.清華大學(xué)出版社.P5

[2]李實,葉強,李一軍,Rob Law.中文網(wǎng)絡(luò)客戶評論的產(chǎn)品特征挖掘方法研究.管理科學(xué)學(xué)報,2009,12(2):142-151.

[3]Kobayashi N,Lida R,Inui K,etal.Opinion mining as extraction of attribute-value relation[C]//The 19th Annual Conference of JSAI,Japan,2005.

[4]Hu Mingqing,Liu Bing.Mining opinion features in customer reviews[C]//Proceedings of Nineteeth National Conference on Artificial Intelligience,San Jose,USA,2004.

[5]Kim S M,Hovy E.Automatic detection of opinion bearing words and sentences[C],2005.

猜你喜歡
數(shù)據(jù)挖掘應(yīng)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
多媒體技術(shù)在小學(xué)語文教學(xué)中的應(yīng)用研究
考試周刊(2016年76期)2016-10-09 08:45:44
分析膜技術(shù)及其在電廠水處理中的應(yīng)用
科技視界(2016年20期)2016-09-29 14:22:00
GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
科技視界(2016年20期)2016-09-29 12:03:12
煤礦井下坑道鉆機人機工程學(xué)應(yīng)用分析
科技視界(2016年20期)2016-09-29 11:47:01
氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
科技視界(2016年20期)2016-09-29 11:02:20
會計與統(tǒng)計的比較研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
富阳市| 亚东县| 牙克石市| 溧阳市| 阿荣旗| 禄丰县| 图木舒克市| 聂拉木县| 扬中市| 桃江县| 昌吉市| 九江县| 四会市| 上林县| 平邑县| 凤凰县| 华蓥市| 荆门市| 望江县| 和硕县| 那曲县| 长汀县| 历史| 禄丰县| 保康县| 甘南县| 南投市| 辉县市| 波密县| 武宁县| 尼玛县| 三门县| 南川市| 和田县| 永康市| 曲阜市| 临武县| 仁化县| 山东省| 阿拉善盟| 全南县|