呂宏玉,樊 坤,楊建林(.南京大學(xué)信息管理學(xué)院;2.北京林業(yè)大學(xué)經(jīng)濟管理學(xué)院)
隨著移動智能終端的廣泛普及和互聯(lián)網(wǎng)技術(shù)的快速推進,應(yīng)用商店和App都得到了蓬勃發(fā)展,用戶對于App的需求被激發(fā)。[1]應(yīng)用商店作為中間平臺,允許開發(fā)者發(fā)布以及允許用戶搜索、購買、下載、評論App,[2]評價形式為評分星級、評論標(biāo)題和評論文本構(gòu)成的單條評論。其中評論文本里的評價對象,即用戶的關(guān)注點稱為軟件特征,[3]一般為描述軟件功能或性能的詞或短語。[4]以軟件特征為中心的文字評價往往包含與需求相關(guān)的信息,如錯誤異常反饋[5]、用戶體驗總結(jié)[2]、功能優(yōu)化建議[6]、新功能提議[7]等內(nèi)容,這些反映用戶對App改進和演化期望的內(nèi)容被稱為特征請求。[8]因此,獲取特征請求將有助于開發(fā)者初步確定軟件質(zhì)量[9]和修改軟件下一版本的需求。[10]
但是,開發(fā)者從用戶評論中獲取特征請求具有一定難度。一方面,應(yīng)用商店內(nèi)評論數(shù)據(jù)量大,[5,11]評論文本具有非結(jié)構(gòu)化的特點;[12]另一方面,評論具有較大的自由性,評分星級與評論文本具有不對稱性,[13]即高評分星級對應(yīng)的評論文本表達(dá)負(fù)面情感傾向,或低評分星級對應(yīng)的評論文本表達(dá)正面情感傾向;此外,評論文本質(zhì)量不一致,部分評論文本只是簡單地整體評價而非針對特定質(zhì)量。[14-15]因此,挖掘用戶在整篇評論中所表達(dá)的情感態(tài)度不具有太多的實際意義,獲取用戶反饋的有效途徑是挖掘出軟件特征再進一步分析用戶對具體特征的情感態(tài)度。[16]
目前,學(xué)術(shù)界在評論文本的特征挖掘領(lǐng)域主要從特征頻繁項、特征-意見共現(xiàn)關(guān)系、模型訓(xùn)練和顯隱式特征匹配四個方面展開。[17]現(xiàn)有研究的評論對象主要是實體商品,對App評論文本提取特征的相關(guān)研究較少。文濤等使用規(guī)則模板提取App軟件特征和情感詞匯,考慮范圍限于顯性特征。[2]Guzman等利用搭配發(fā)現(xiàn)算法挖掘用戶評論中細(xì)粒度的軟件特征,并使用主題建模技術(shù)將軟件特征分組成更有意義的高級特征。[4]彭珍連提出一種基于特征模型和協(xié)同過濾的特征獲取方法,該方法可探索出歷史軟件特征之間的關(guān)系,可補充App的缺失特征以及預(yù)測待開發(fā)App的缺失特征。Johann等應(yīng)用詞類和句子模式同時從產(chǎn)品頁面和用戶評論提取軟件特征,并對2個來源的提取結(jié)果進行匹配。[18]冉猛提取用戶評論中的特征詞、副詞和情感詞,并逐級量化計算用戶對App的情感傾向程度。[19]
為獲取軟件特征,本文提出新的挖掘方法。具體而言,先利用句式匹配和情感傾向相結(jié)合的識別方法確定包含特征請求的評論,在該范圍內(nèi)使用基于關(guān)聯(lián)規(guī)則的算法提取軟件特征。與現(xiàn)有研究相比,本文的不同之處是在提取軟件特征之前,從App用戶評論全集中識別出包含特征請求的評論,確定出有效的挖掘范圍。該方法將幫助App開發(fā)者從評論中獲取用戶對App的反饋信息。
本文的研究思路是將軟件特征挖掘分為4個步驟進行(見下圖)。① 評論數(shù)據(jù)收集:利用爬蟲程序從網(wǎng)站上收集Apple App Store中的App用戶評論。② 評論數(shù)據(jù)處理:對收集的用戶評論數(shù)據(jù)進行去噪處理,重新整理成結(jié)構(gòu)化的文本語料,并進行分詞和詞性標(biāo)注。③ 特征請求評論識別:應(yīng)用句式匹配和情感傾向相結(jié)合的方法,從評論全集中識別出評論文本里包含特征請求的評論。④ 軟件特征提取:在特征請求評論范圍內(nèi)基于關(guān)聯(lián)規(guī)則的算法提取App軟件特征。
圖 軟件特征挖掘流程
本文的數(shù)據(jù)對象是Apple App Store內(nèi)用戶對App發(fā)表的評論,數(shù)據(jù)收集地址為德普優(yōu)化網(wǎng)。本文選取的App來自社交、工具、音樂、攝影和游戲5個類別,在每個類別中選擇最熱門的2個App,共計10個。以2018年2月20日為時間起點,利用Python爬蟲程序按照逆向時間順序爬取評論,數(shù)量共計11,437條,將該原始評論集合命名為R0。單條評論收集5項內(nèi)容:評論時間、用戶名、評分星級、評論標(biāo)題和評論文本。
評論集合R0包含部分噪音數(shù)據(jù),因此先進行數(shù)據(jù)預(yù)處理工作,包括3種常規(guī)去噪處理和2種針對App特殊評論的處理。整個過程通過Python程序?qū)崿F(xiàn)。
(1)非中文評論處理。本文提出的軟件特征挖掘方法面向中文用戶評論,但評論集合R0中含有其他語言評論。如以下2條對“QQ”的用戶評論文本。
①“Le logiciel n佴cessaire伽 la communication de la Chine.”
②“Ireallyreallyreallycan’tstand thespeed ofuploadingpictures.”
本文先去除評論集合R0評論文本中的標(biāo)點符號,判別評論文本的語言,過濾非中文評論。對于中文評論中的單個英文詞匯,因為多數(shù)屬于專有名詞,本文保留并做大寫轉(zhuǎn)小寫的處理。如以下是1條“QQ”的評論原文及其處理后的結(jié)果。
評論原文:“iPhoneX都出來這么久了,QQ還不打算適配嗎?”
處理結(jié)果:“iphonex都出來這么久了,qq還不打算適配嗎?”
(2)無關(guān)內(nèi)容評論處理。評論集合R0中存在部分與App無關(guān)的評論:一種是表達(dá)簡單情感態(tài)度而缺少評價對象的評論,評論文本字?jǐn)?shù)一般較少;另一種是垃圾評論制造者為吸引瀏覽者的注意力編寫的字?jǐn)?shù)過多評論。[20]如以下2條關(guān)于“QQ”的用戶評論文本。
①“還行。”
②“你不能不知道的某寶某貓購物內(nèi)幕,省錢黨首席攻略!驚天地泣鬼神,就在這里發(fā)生,花生日記通過整合成千上萬家的電商商家,向用戶每天呈現(xiàn)多達(dá)幾萬的品類豐富、實惠、高折扣的商品。適合所有網(wǎng)購用戶,當(dāng)前絕佳的省錢利器。安卓用戶在應(yīng)用寶或應(yīng)用商店里搜索花生日記,蘋果用戶在app store搜索花生日記,下載后注冊賬號輸入邀請碼完成,注冊邀請碼qcty3r或hewpiho。完成注冊后把注冊手機號后五位發(fā)我,領(lǐng)取2元微信紅包或花生日記99元代理資格。”
本文將評論文本長度作為過濾器,過濾評論集合R0中評論文本字?jǐn)?shù)小于4或大于300的評論。
(3)高字重復(fù)率評論處理。字重復(fù)率是中文評論中重復(fù)的字出現(xiàn)的比率,采用如下公式[20]表示。
評論集合R0中包含評論文本字重復(fù)率較高的評論。如以下2條對“QQ”的用戶評論文本。
①“可以可以可以可以可以可以?!?/p>
②“啊啊啊啊啊好的好的好的好的好的?!?/p>
上述2條評論文本的字重復(fù)率分別為0.833和0.8,表達(dá)含義不明確。因此,本文過濾評論集合R0中字重復(fù)率大于0.6的評論。
(4)文本錯位評論處理。經(jīng)觀察分析發(fā)現(xiàn),與其他種類商品評論相比,App用戶評論中存在文本錯位的特殊情況:部分評論的評論標(biāo)題中含有異常反饋、使用體驗、功能需求、優(yōu)化建議等有用信息,而評論文本的內(nèi)容是“為什么”“如題”“見標(biāo)題”等文字。如以下2條對“QQ”的用戶評論。
① 評論標(biāo)題:“要是能增大聊天表情收藏數(shù)量就好了”。評論文本:“如題”。
② 評論標(biāo)題:“我都是很多年的老用戶了,QQ寵物下線也不正式通知”。review:“為什么?”
因此,本文在評論數(shù)據(jù)預(yù)處理階段,根據(jù)評論文本中的“為什么”“如題”“見標(biāo)題”等文字識別出問題評論,將其評論標(biāo)題內(nèi)容與評論文本內(nèi)容做置換處理。
(5)網(wǎng)絡(luò)用語評論處理。App用戶評論的特殊性還表現(xiàn)在評論文本中的網(wǎng)絡(luò)用語較多,如以下2條對“QQ”的用戶評論文本。
①“qq的離線傳輸功能有毒吧,一個txt文檔整整用了一個小時,我還能說什么?”
②“為qq的視頻美顏瘋狂打call,素顏也可以和別人視頻啦”。
上述2條評論包含網(wǎng)絡(luò)用語“有毒”和“打call”,分詞工具和詞性標(biāo)注工具都無法識別。因此,本文利用搜索引擎收集近一年的網(wǎng)絡(luò)用語,收錄詞條共計107個,結(jié)合App用戶評論的詞匯使用統(tǒng)計結(jié)果構(gòu)建全新的網(wǎng)絡(luò)用語替換詞典,利用該詞典對評論集合R0中的網(wǎng)絡(luò)用語進行識別并將之替換為書面語。如,網(wǎng)絡(luò)詞匯“渣”“炒雞”“膩害”“為毛”“醉了”,用書面詞匯分別替換為“差勁”“超級”“厲害”“為什么”“無語”。
預(yù)處理后每個App得到有效評論1,000條,共計10,000條,將該有效評論集合命名為R1。
本文采用Python中文分詞組件“jieba”對評論集合R1的評論文本進行分詞和詞性標(biāo)注,處理所得評論集合R2用于進一步數(shù)據(jù)分析。
評論集合R2同時包含特征請求評論和非特征請求評論。用戶在特征請求評論中表達(dá)對具體特征的情感態(tài)度,其中必定包含軟件特征;非特征請求評論多為用戶對App做出的整體評價,評論中包含的軟件特征較少。本文對評論集合R2進行人工標(biāo)注,判斷單條評論屬于特征請求評論或非特征請求評論,進一步標(biāo)注非特征請求評論中是否包含軟件特征,統(tǒng)計結(jié)果見表1。
表1 評論集合R2人工標(biāo)注結(jié)果
由表1可知,非特征請求評論包含軟件特征的平均比例僅為0.111。為保證挖掘效率,本文忽略非特征請求評論中的軟件特征,將軟件特征的挖掘范圍確定為特征請求評論,提出基于句式匹配和情感傾向的特征請求評論識別方法。
通過對特征請求評論的觀察,發(fā)現(xiàn)由于App的特殊商品屬性,其評論文本通常包含固定句式,而非特征請求評論文本中不含該類固定句式。因此,可以通過檢測評論文本中是否包含固定句式來判斷評論類別。本文共總結(jié)出否定、疑問、抱怨、惋惜、建議和期望6種固定句式。在判斷評論是否符合某一固定句式時,檢測評論文本中是否包含關(guān)鍵詞,以及關(guān)鍵詞一定距離內(nèi)是否有評價對象,即名詞或動詞詞性的軟件特征,并且關(guān)鍵詞與特征詞的位置固定。因此,固定句式由關(guān)鍵詞、特征詞詞性和特征詞相對位置構(gòu)成。對于部分語氣明顯的關(guān)鍵詞,不需要檢測評論文本中的特征詞詞性及其相對位置,關(guān)鍵詞出現(xiàn)在評論文本中即可判斷該評論是特征請求評論。
(1)否定句式。用戶在使用App過程中若發(fā)現(xiàn)當(dāng)前版本功能未涵蓋的領(lǐng)域,在撰寫評論文本時就會以否定句的形式指出App尚未滿足自身需求的功能特征。經(jīng)總結(jié)得到14個否定句式。表2是用戶對“QQ”的否定句式評論。
表2 否定句式評論樣例
上述2條評論的評論文本對“QQ”的賬號管理和版本更新做了評價,屬于特征請求評論。它們符合固定句式“不允許+v/n”和“v/n+沒有了”,其中“不允許”和“沒有了”為否定關(guān)鍵詞,“v/n”為特征詞詞性,特征詞相對位置分別在關(guān)鍵詞后和關(guān)鍵詞前。
(2)疑問句式。當(dāng)App出現(xiàn)異常導(dǎo)致某些功能無法正常使用,或App存在不合理的設(shè)計、限制和使用條款等問題時,用戶將通過應(yīng)用商店向開發(fā)者反映問題,在撰寫評論文本時會以疑問句的形式表達(dá)。經(jīng)總結(jié)得到17個疑問句式。表3是用戶對“QQ”的疑問句式評論。
表3 疑問句式評論樣例
(3)抱怨句式。當(dāng)App出現(xiàn)的錯誤嚴(yán)重影響使用或已存在問題長時間未得到解決時,會引起用戶的不滿情緒,用戶對App進行評價時發(fā)泄不滿情緒,用含有抱怨語氣的句式表達(dá)App的缺陷。經(jīng)總結(jié)得到25個抱怨句式。表4是用戶對“QQ”的抱怨句式評論。
表4 抱怨句式評論樣例
(4)惋惜句式。App的某些屬性或功能低于用戶期望且開發(fā)者對此進行優(yōu)化調(diào)整的可能性較小時,用戶會在撰寫評論文本時以惋惜語氣的句式表達(dá)。經(jīng)總結(jié)得到10個惋惜句式。表5是用戶對“QQ”的惋惜句式評論。
表5 惋惜句式評論樣例
(5)建議句式。部分用戶對App整體較為滿意并希望持續(xù)使用,他們會在應(yīng)用商店平臺向開發(fā)者提出優(yōu)化建議,因此在撰寫評論文本時會以建議語氣的句式表達(dá)。經(jīng)總結(jié)得到15個建議句式。表6是用戶對“QQ”的建議句式評論。
表6 建議句式評論樣例
(6)期望句式。部分用戶根據(jù)自身使用體驗希望開發(fā)者對現(xiàn)有版本功能進一步優(yōu)化時,會用期望的句式撰寫評論文本。經(jīng)總結(jié)得到8個期望句式。表7是用戶對“QQ”的期望句式評論。
表7 期望句式評論樣例
最終總結(jié)所得固定句式共計87個,每個類型選擇3個固定句式展示(見表8)。
表8 固定句式樣例
對App用戶評論進行分析,可以發(fā)現(xiàn)當(dāng)評論文本的情感傾向為負(fù)向時,評論內(nèi)容更有可能包含使用體驗、功能需求、錯誤反饋和優(yōu)化建議等信息,即可以從中提取出軟件特征。而情感傾向為正向時,評論文本多為用戶對App整體的情感態(tài)度,缺少評價對象。本文嘗試對評論文本進行情感挖掘,根據(jù)情感傾向判斷評論是否為特征請求評論,將負(fù)向情感傾向的評論篩選出來作為非特征請求評論。實現(xiàn)方法為情感詞典分析法,情感詞典采用大連理工大學(xué)情感詞匯本體庫。
首先,對評論集合R2進行句式匹配,篩選出符合固定句式的評論;其次,對剩余不含固定句式的評論進行情感分析,篩選出情感傾向為負(fù)向的評論;最后,將兩種方法識別得到的評論進行合并,得到特征請求評論集合R3。上述方法就是基于句式匹配和情感傾向的特征請求評論識別方法,實現(xiàn)工具為Python程序。
通過基于句式匹配和情感傾向的識別方法得到的特征請求評論集合為R3,即軟件特征挖掘范圍。為驗證該識別方法的效果,將評論集合R2的人工標(biāo)注結(jié)果作為識別結(jié)果的評判標(biāo)準(zhǔn)。評價指標(biāo)選擇準(zhǔn)確率和召回率,計算公式[20]如下。
在分類過程中,準(zhǔn)確率和召回率值越大代表分類效果越好。為了綜合比較分類性能,引用準(zhǔn)確率與召回率的調(diào)和平均值F_score,計算公式[20]如下。
以人工標(biāo)注結(jié)果為參考,利用準(zhǔn)確率、召回率和F_score3個指標(biāo)衡量,基于句式匹配和情感傾向的特征請求評論識別方法對10個App的用戶評論識別效果見表9。
表9 特征請求評論識別效果
基于句式匹配和情感傾向的特征請求評論識別方法的3個衡量指標(biāo)值全部在0.7左右,均值分別是0.747、0.712、0.728,說明比較穩(wěn)定。
在特征請求范圍提取軟件特征階段,本文通過基于關(guān)聯(lián)規(guī)則算法的Python程序?qū)崿F(xiàn),由以下5個步驟組成。
(1)創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件。這一步驟采用特征請求評論集合R3的評論文本創(chuàng)建關(guān)聯(lián)規(guī)則事務(wù)文件。以評論文本為事務(wù)單位,提取評論中的全部名詞、名詞短語、動詞和動名詞短語作為項,以文本文件格式存儲。
(2)確定候選軟件特征集合。利用關(guān)聯(lián)規(guī)則Aprioir算法從事務(wù)文件中找出滿足最小支持度為1%[21]的頻繁項作為候選軟件特征集合I0,不考慮3項以上的頻繁項。[22]
(3)候選軟件特征集合剪枝。根據(jù)中文評論的臨近規(guī)則,[21]對候選軟件特征集合I0進行剪枝,得到候選軟件特征集合I1。
(4)獨立支持度修正。根據(jù)中文評論中的獨立支持度定義,[21]確定最小獨立支持度為3,過濾候選軟件特征集合I1中獨立支持度小于3的項,得到候選軟件特征集合I2。
(5)過濾非軟件特征詞。將App軟件用戶評論中的高頻非軟件特征詞從候選軟件特征集合I2中過濾掉,形成最終的軟件特征集合I。非軟件特征詞包括2種類型:① App軟件、開發(fā)商的名稱及其簡稱,如“酷狗音樂”“酷狗”“百度網(wǎng)盤”“百度”。② 表達(dá)用戶情感傾向、與App功能屬性不相關(guān)的動詞,如“喜歡”“希望”“感覺”“建議”。
通過上述方法在軟件特征挖掘范圍即特征請求評論集合R3內(nèi)提取軟件特征,選取每個App軟件特征集合I中頻率排在前10位的元素,結(jié)果見表10。
表10 App軟件特征
觀察表10可以發(fā)現(xiàn),提取出的軟件特征與多種類型的特征請求相關(guān)。以“QQ”為例,第一個軟件特征“閃退”,其所在的評論文本反映了用戶對系統(tǒng)穩(wěn)定運行的特征請求,內(nèi)容類型屬于錯誤異常反饋;最后一個軟件特征“適配iphonex”,其所在的評論文本表達(dá)的是用戶對兼容最新手機型號的特征請求,內(nèi)容類型屬于新功能請求。其余8個特征所在的評論文本都與用戶對改進現(xiàn)有功能的特征請求相關(guān),內(nèi)容類型屬于功能優(yōu)化建議,如特征“消息”的一個所在評論文本“好友發(fā)來的消息總是延遲通知,這個缺陷難道很難修復(fù)嗎?”由此可見,挖掘所得軟件特征來自錯誤異常反饋、新功能請求和功能優(yōu)化建議等不同類型的特征請求評論文本。因此,進一步挖掘用戶對具體特征的情感態(tài)度來獲取特征請求是開發(fā)者獲取用戶反饋的一種有效途徑。
以人工標(biāo)注結(jié)果為參考,利用準(zhǔn)確率、召回率和F_score3個指標(biāo)衡量,10個App的軟件特征獲取結(jié)果見表11。
表11 App軟件特征挖掘結(jié)果
觀察表11可得,各App的準(zhǔn)確率、召回率和F-score較為穩(wěn)定。為進一步驗證方法的有效性,本文設(shè)置對照實驗,將未經(jīng)范圍識別的評論集合R2作為實驗數(shù)據(jù),用同樣的提取方法進行實驗,并記錄2次實驗結(jié)果的平均值以及同類研究的結(jié)果(見表12)。
表12 App軟件特征挖掘結(jié)果
由表中數(shù)據(jù)可得,本文實驗結(jié)果的3個指標(biāo)均優(yōu)于對照實驗結(jié)果,表明在軟件特征提取前進行挖掘范圍識別是十分必要的。本文實驗較同類研究在準(zhǔn)確率、召回率和F-score均有改善,驗證了軟件特征提取方法的有效性。
面對數(shù)量激增的App用戶評論,開發(fā)者如何高效地從中獲取軟件特征以協(xié)助App的改進和演化,已經(jīng)成為一個亟待解決的問題。本文提出基于挖掘范圍識別和關(guān)聯(lián)規(guī)則算法的App用戶評論軟件特征獲取方法:收集大量評論數(shù)據(jù)并進行預(yù)處理,利用基于句式匹配和情感傾向的識別方法確定包含特征請求的評論范圍,并通過關(guān)聯(lián)規(guī)則算法提取出軟件特征。結(jié)果表明了該方法的有效性。
但是,本文存在一定局限性。首先,在挖掘范圍內(nèi)基于關(guān)聯(lián)規(guī)則算法提取軟件特征時選取滿足最小支持度的頻繁項加入到候選項中,沒有對非頻繁特征項進行處理。今后研究可將非特征頻繁項加入到軟件特征集合中,以補充關(guān)聯(lián)規(guī)則算法提取的結(jié)果,從而最大限度地提高軟件特征挖掘的準(zhǔn)確性和全面性。其次,本文只選取了應(yīng)用商店內(nèi)5個類別的App用戶評論,后續(xù)研究應(yīng)涉及更多類別的App或者其他類型的軟件產(chǎn)品,以增加研究資料的推論價值。