涂順林+劉利++李衛(wèi)華++趙義霞
摘要:基于中文特點,提出一種融合詞性標注和統(tǒng)計的產(chǎn)品特征提取方法。該方法利用模式匹配對候選特征詞進行裁剪并通過無關詞庫過濾得到產(chǎn)品特征集。對該方法進行實驗驗證,實驗的數(shù)據(jù)為通過爬蟲技術獲得的某天貓服裝店服裝商品的真實評論信息,實驗結果表明了該方法的有效性。
關鍵詞:產(chǎn)品評論;產(chǎn)品特征;特征提?。辉u論挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)14-0159-03
A Product Feature Extraction Method Based on Customer Comments
TU Shun-lin, LIU Li, LI Wei-hua, ZHAO Yi-xia
(Department of Computer Science, Huizhou University, Huizhou 516007, China)
Abstract:The paper combine with the characteristics of Chinese proposed an approach to obtain product features set.Part-of-speech tagging and statistics are used to get the candidate product features set,then use pattern matching to tailors the candidate product features set and filtered it according to the stop words library.Finally the product features set are obtained. The proposed method was tested with the real clothing reviews which were obtained by scrawler technology from Internet and the results show that the validity of the method is proved preliminarily.
Key words: product reviews;product features ; features extracting;review mining
1 概述
電商的蓬勃發(fā)展與規(guī)模的迅速壯大,越來越多的人選擇網(wǎng)購的同時也導致越來越多產(chǎn)品評論的積累。Web上的評論信息是海量的無結構化數(shù)據(jù),企業(yè)和客戶想要從產(chǎn)品中獲得信息只有通過人工閱讀的方式進行,而這是一個消耗時間而且容易產(chǎn)生錯誤的過程[1]。如此處理并沒有很好地利用這些數(shù)據(jù),既不能及時有效地反饋客戶對商品的態(tài)度,更難以為企業(yè)高層的決策提供輔助,由此“評論挖掘”應運而生。評論挖掘作為非結構化信息挖掘的一個新興領域,主要涉及網(wǎng)絡評論中的情感分析、產(chǎn)品特征提取以及主觀內(nèi)容識別等[2]。與國外比,漢語評論挖掘方法和技術的研究起步較晚,而文化的差異、語言表達方式、詞匯語法等差異也注定很多國外的研究成果無法直接應用到中文評論處理上。因此,結合相關文獻與研究,本文提出一種簡單自動提取出客戶評論中的產(chǎn)品特征的方法,實驗證明該方法行之有效,可為企業(yè)建立評論挖掘系統(tǒng)提供參考。
2 客戶評論中的產(chǎn)品特征
產(chǎn)品特征指的是客戶、企業(yè)、廠方等對產(chǎn)品本身、產(chǎn)品部件、部件的性能或功能上的抽象概括。一般來說,生產(chǎn)商對于產(chǎn)品都會提供一份描述產(chǎn)品各方面功能和性能的說明文件。對于服裝產(chǎn)品來說,這份說明除了包括品牌、風格、上市年份、材質(zhì)等服裝的基本屬性外,還包括更多的技術細節(jié),但是這些細節(jié)客戶往往都不太感興趣。此外,客戶評論中對于產(chǎn)品特征的描述是一個開放性的問題,客戶可能在產(chǎn)品評論中發(fā)表一些企業(yè)或廠商根本就沒注意到的一些產(chǎn)品特征,而這些特征正影響著廣大消費者的購買決策。正因如此,需要從產(chǎn)品評論中提取客戶評論中的產(chǎn)品特征[3]。
產(chǎn)品的特征分為顯式特征和隱式特征兩種[4]。顯式特征是直接出現(xiàn)在產(chǎn)品評論中描述產(chǎn)品的性能或功能的名詞或名詞短語。比如說“好喜歡,尺碼挺準,挺合身的”,這里尺碼是顯式特征。而隱式特征就需要對句子的語義進行理解才能提取出來,并沒有在語句中有直接的描述。如“從廣州到佛山給我送了5天我就呵呵了”,其實這里指出了產(chǎn)品物流的這個隱式特征。抽取隱式特征需要自然語言的分析和理解技術,但是目前該技術尚不成熟,所以這里所說的產(chǎn)品特征提取是指顯式特征的提取。
3 產(chǎn)品顯式特征的提取
3.1 人工定義和自動提取
顯式產(chǎn)品特征的提取分人工定義和自動提取兩類方法。
采用人工定義的方法就是從某特定領域的產(chǎn)品評論庫中以人工的方式抽取出產(chǎn)品特征。當產(chǎn)品類型不同或者產(chǎn)品發(fā)生改變時,都需要重新構建產(chǎn)品特征集合。這種方法的可移植性、自適應性都比較差,查全率較低。
采用自動提取的方法主要依靠詞性標注、句法分析等方法配合其他的提取技術實現(xiàn)。比如利用NLP分詞及詞性標注技術對客戶評論進行解析,從中提取名詞或名詞短語來作為候選特征詞。此方法的優(yōu)點是處理速度快,但是只依賴詞性的提取精確度不高。另外有學者提出基于關聯(lián)規(guī)則挖掘頻繁項集并用支持度進行裁剪的方法提取特征詞,使用這種方法能提取到高頻特征詞但對低頻特征詞提取效果不好[5]。文獻[6]提出一種利用互信息(PMI)的特征提取方法。該方法首先提取出頻率高于某一閾值的名詞或名詞短語來作為候選特征詞,然后利用搜索引擎計算出候選特征詞與產(chǎn)品的互信息,依此確定特征詞與該產(chǎn)品的相關性。但是由于是基于搜索引擎的方法,所以在處理的速度上會比其他方法慢許多。
3.2 產(chǎn)品特征提取方法
本文依據(jù)中文特點融合多種產(chǎn)品特征提取方法,提出一種簡單有效的產(chǎn)品特征提取方法。該方法通過詞性標注和統(tǒng)計抽取產(chǎn)品特征候選集,再利用模式匹配對產(chǎn)品特征候選集進行裁剪,最后構建無關詞庫對產(chǎn)品特征候選集進行過濾,得到產(chǎn)品特征。提取過程如圖1所示。
該方法的具體步驟如下:
(1)利用爬蟲程序下載服裝商品評論。
本文實驗數(shù)據(jù)采用某品牌天貓服裝的評論信息,因此需要設計出合適的爬蟲程序。網(wǎng)絡爬蟲是一種自動提取網(wǎng)頁的程序,提取的數(shù)據(jù)是半結構化的HTML結構。
(2)過濾無價值的評論信息并形成商品評論庫。
爬蟲下載的源文檔HTML結構中包含大量的與商品評論無關的內(nèi)容。如HTML文檔的頭部和尾部信息、外部資源的鏈接、客戶端腳本程序的定義、文檔樣式定義等內(nèi)容,這些內(nèi)容均屬于無價值的內(nèi)容。另外,由于客戶對商品的評論是開放性的,有部分客戶會借此做出惡意的推廣或誤導評論。包含各種聯(lián)系方式(電話號碼、QQ號等)和外部鏈接的評論基本都屬于無價值的惡意評論。
(3)利用中文分詞和詞性標注工具處理評論庫。
通過過濾處理的評論數(shù)據(jù)組成評論庫,評論以句為單位通過分詞工具的處理,同時統(tǒng)計計算出詞語或短語出現(xiàn)的頻率。定義候選詞庫的數(shù)據(jù)結構為{A,B,C,D},其中A為詞語或短語,B為詞性,C為出現(xiàn)頻數(shù),D為該詞在該句評論中的出現(xiàn)語法模式。如:評論“感覺衣服尺碼偏大”,若“尺碼”在庫中出現(xiàn)10次,則提取結果為{"尺碼","/n",10,"/n/n/尺碼/a/a"},最后形成由詞語和詞性標注的有序排列。
(4)抽取候選特征詞。
由于產(chǎn)品特征值主要由名詞或者名詞短語組成,所以本文關注詞性標注為名詞或名詞短語的分詞結果并將其抽取為候選特征詞集合。每一款服裝商品的所有評論都形成各自的候選特征詞集。
(5)通過半自動的方法建立停用詞庫。
為了節(jié)省空間、提高提取效率和準確率,需要過濾某些詞,這些詞稱為“停用詞”。這些詞往往出現(xiàn)頻率較高,但卻不是產(chǎn)品特征,有的甚至沒有什么含義。例如:“給表妹買的,很合身”這樣的句式在評論中是很常見的。其中“表妹”一類的人稱代詞出現(xiàn)的頻率較高,而一般的基于概率統(tǒng)計思想的算法往往會將其認為是“高頻特征”而錯誤提取。因此,使用停用詞庫進行過濾就能較好地解決這一類問題。首先獲取其他類型商品的評論信息,按上述方法抽取出這些商品的特征詞,最后取這些特征詞的交集構建停用詞庫。但是因為有的特征詞如上市時間,物流,外觀等屬于通用特征詞所以需人工挑選出來。
(6)裁剪候選特征詞。
通過統(tǒng)計和模式匹配對候選特征詞進行裁剪。利用統(tǒng)計的方法選取高頻特征詞,并在這些已經(jīng)選取的高頻特征詞中前后尋找語法模式。然后調(diào)整統(tǒng)計的閾值并用語法模式的匹配裁剪以提取低頻的特征詞。最后通過停用詞庫過濾得出最終的產(chǎn)品特征詞集。
4 數(shù)據(jù)實驗
4.1 特征詞集合
由高頻特征詞以及符合匹配模式的名詞組成,最后通過無關詞庫的過濾的出特征詞集合。采用某品牌天貓店中的1132款服裝的商品信息和對應的17039條有效評論通過本文方法獲取商品特征如下:
其中特征詞旁的標號為該詞在評論語句中出現(xiàn)的頻數(shù),沒有標號的詞通過匹配模式提取。
4.2 驗證與評價
對產(chǎn)品特征提取方法的性能判斷,可用查全率和查準率進行評價。產(chǎn)品屬性的提取相當于對屬性詞語的二維分類,即真實屬性還是非真實屬性、已提取屬性和未提取屬性的分類。采用列聯(lián)表(表2)說明如下:
查全率(R)=A/(A+B);
查準率(P)=A/(A+C);
利用人工識別的方法,可做查全率和查準率的計算,并說明上述方法的準確性[7]。以一款男裝和一款女裝為例,統(tǒng)計結果如下:
某款夏季男裝(id:3953xxx0863)
相對于其他產(chǎn)品特征挖掘方法,本文所提出的方法與其他方法的結果比較如表5所示。以上述兩款服裝為例,算得查全率和查準率的平均值分別為66.19和85.25。
通過比較,表明本文方法對于商品評論中的特征提取有著較高的查準率,但是明顯的查全率偏低,基本保持在66%左右。這主要是由于低頻特征詞的獲取是由匹配模式?jīng)Q定的,個別的產(chǎn)品特征出現(xiàn)頻數(shù)較少以及網(wǎng)絡評論句式的自由化、多樣化都給匹配模式的準確構建提出了更高的要求。隨著匹配模式的進一步研究與改進,相信將會取得更好的效果,同時這也是本文今后的研究方向。總之,從實驗結果來看基于詞性標注和統(tǒng)計并利用模式匹配對候選特征詞進行裁剪的產(chǎn)品特征提取方法還是比較有效的。
5 總結
產(chǎn)品特征不僅是影響客戶做出商品購買決策的重要因素,也是企業(yè)為提高產(chǎn)品和服務質(zhì)量、提高收益的關鍵。而產(chǎn)品特征提取是產(chǎn)品評論挖掘的重要方面,更直接影響到評論挖掘系統(tǒng)的性能。本文提出的方法能夠有效地從商品評論庫中提取出商品特征值,并以真實評論數(shù)據(jù)為實驗,表明了該方法的有效性,可為企業(yè)構建評論挖掘系統(tǒng)作參考。
參考文獻:
[1] 伍星,何中市,黃永文.產(chǎn)品評論挖掘研究綜述[J].計算機工程與應用,2008,4(36):37-40.
[2] 李實,葉強,李一軍,羅嗣卿.挖掘中文網(wǎng)絡客戶評論的產(chǎn)品特征及情感傾向[J].計算機應用研究,2010,27(8):3016-3019
[3] 郗亞輝, 張明, 袁方,等. 產(chǎn)品評論挖掘研究綜述[J]. 山東大學學報:理學版, 2011, 46(5):16-23.
[4] 王永, 張勤, 楊曉潔. 中文網(wǎng)絡評論中產(chǎn)品特征提取方法研究[J]. 現(xiàn)代圖書情報技術, 2013(12):70-73.
[5] 李培. 產(chǎn)品評論挖掘的觀點抽取和分類技術研究[D]. 重慶大學, 2009.
[6] 桑書娟,王敏.一種結合文檔頻率和互信息的特征項提取方法[J].電腦知識與技術, 2012, 08(11):2593-2594
[7] 翟東升,徐穎,黃魯成,趙京.基于產(chǎn)品評論挖掘的競爭產(chǎn)品優(yōu)勢分析[J].情報雜志,2013,32(2): 45-51.