林 波 丁東輝 郭靖羽 林偉佳 黃 翰
基于投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)
林 波 丁東輝 郭靖羽 林偉佳 黃 翰
本文研究開發(fā)了一套基于廣東移動(dòng)投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)。系統(tǒng)主要分為聚類分析、情感分析和匹配文本記錄三個(gè)功能模塊,處理的數(shù)據(jù)是大量的廣東移動(dòng)的投訴文本記錄。廣東移動(dòng)呼叫中心平均每天需要為用戶提供超過(guò)70萬(wàn)人次的人工話務(wù)支撐,這是一個(gè)十分龐大的數(shù)字,這些大數(shù)據(jù)背后隱藏了無(wú)限的挖掘潛力。這些待挖掘的潛力無(wú)論是在公司應(yīng)對(duì)消費(fèi)者投訴處理方面還是在改善服務(wù)質(zhì)量方面都有很重要的意義。本文是使用JSP動(dòng)態(tài)網(wǎng)頁(yè)技術(shù)開發(fā)完成。系統(tǒng)采用了MVC設(shè)計(jì)模式,基于Oracle 11g數(shù)據(jù)庫(kù)和Tomcat7.0服務(wù)器開發(fā)平臺(tái)。
隨著市場(chǎng)競(jìng)爭(zhēng)越來(lái)越激烈,作為企業(yè)生命力源泉的業(yè)務(wù),各大企業(yè)開始不斷地開發(fā)適合不同需求客戶群的多種業(yè)務(wù)及其組合。因此如何開發(fā)出合理、合適、高效益的業(yè)務(wù)成了企業(yè)的關(guān)注熱點(diǎn)。廣東移動(dòng)呼叫中心平均每天需要為用戶提供超過(guò)70萬(wàn)人次的人工話務(wù)支撐,這是一個(gè)十分龐大的數(shù)字,這些大數(shù)據(jù)背后隱藏了無(wú)限的挖掘潛力。這些待挖掘的潛力無(wú)論是在公司應(yīng)對(duì)消費(fèi)者投訴處理方面還是在改善服務(wù)質(zhì)量方面都有很重要的意義。
盡管以客戶分析為基礎(chǔ)開發(fā)業(yè)務(wù)將會(huì)成為企業(yè)的重中之重。未來(lái)的市場(chǎng)營(yíng)銷將會(huì)是精準(zhǔn)營(yíng)銷的天下,開發(fā)出真正針對(duì)客戶需求的業(yè)務(wù),實(shí)現(xiàn)精準(zhǔn)營(yíng)銷,才能獲得客戶的青睞。因此我們以開發(fā)適合不同需求的客戶群的多種業(yè)務(wù)為目標(biāo),以客服文本數(shù)據(jù)為基礎(chǔ),提供各個(gè)業(yè)務(wù)的詳細(xì)數(shù)據(jù),分析業(yè)務(wù)的優(yōu)缺點(diǎn),幫助企業(yè)面對(duì)越來(lái)越激烈的市場(chǎng)競(jìng)爭(zhēng)。而傳統(tǒng)客戶分析有以下主要缺點(diǎn):技術(shù)手段低效。
客服系統(tǒng)目前僅解決了企業(yè)與外部市場(chǎng)進(jìn)行信息接入的問題,產(chǎn)生的大量數(shù)據(jù)通過(guò)報(bào)表等傳統(tǒng)的統(tǒng)計(jì)方法,只能得到一般意義上的業(yè)務(wù)信息反匱。其原因有以下幾點(diǎn):
1)數(shù)據(jù)繁復(fù),信息過(guò)少
2)難以獲得各種業(yè)務(wù)的優(yōu)缺點(diǎn)分析
3)難以挖掘出潛在的市場(chǎng)規(guī)律
4)難以把將新舊數(shù)據(jù)結(jié)合,數(shù)據(jù)之間形成鼓搗
5)難以獲得業(yè)務(wù)套餐組合的合理分析數(shù)據(jù)
1系統(tǒng)需求分析
經(jīng)過(guò)多次調(diào)研分析,確定了系統(tǒng)的功能需求。系統(tǒng)的功能模塊分為五個(gè)功能模塊:聚類分析模塊、情感分析模塊、匹配文本記錄模塊、情感詞庫(kù)管理模塊和關(guān)鍵詞庫(kù)管理模塊。每個(gè)功能模塊又有子功能。關(guān)鍵詞匹配文本記錄模塊包括業(yè)務(wù)關(guān)鍵詞庫(kù)管理和匹配文本記錄兩大子功能,每個(gè)子功能下還有對(duì)應(yīng)的功能點(diǎn)。用戶角色分為系統(tǒng)管理員和用戶兩種角色。
(1)聚類分析模塊:聚類分析模塊分為投訴細(xì)項(xiàng)聚類分析和投訴原因短語(yǔ)聚類分析兩個(gè)子功能。聚類分析模塊對(duì)每個(gè)時(shí)間間隔中的投訴文本記錄的投訴細(xì)項(xiàng)和投訴原因短語(yǔ)進(jìn)行聚類分析,其聚類結(jié)果以云標(biāo)簽的形式進(jìn)行顯示。用戶點(diǎn)擊云標(biāo)簽的關(guān)鍵字,能夠自動(dòng)匹配出相對(duì)應(yīng)的投訴文本記錄的投訴內(nèi)容。
(2)情感分析模塊:系統(tǒng)對(duì)投訴文本記錄進(jìn)行情感分析,并顯示出情感分析結(jié)果。每一條投訴文本記錄通過(guò)分析分為三種情感程度,輕度、中度和重度。在頁(yè)面加載時(shí),統(tǒng)計(jì)各種情感程度的投訴文本記錄,顯示情感程度的分布情況。在點(diǎn)擊“輕度”、“中度”和“重度”按鈕圖標(biāo)是,頁(yè)面顯示該情感程度對(duì)應(yīng)的投訴文本記錄。當(dāng)用戶點(diǎn)擊任何一條頁(yè)面中的投訴文本記錄時(shí),顯示該投訴文本記錄對(duì)應(yīng)的情感詞信息。
(3)匹配文本記錄模塊:根據(jù)用戶的輸入,篩選并導(dǎo)出相匹配的文本記錄。在頁(yè)面加載時(shí),業(yè)務(wù)關(guān)鍵詞庫(kù)成功顯示在列表中。用戶輸入模糊的查詢內(nèi)容,從關(guān)鍵詞庫(kù)中篩選出包含該輸入內(nèi)容的關(guān)鍵詞,由用戶從詞語(yǔ)列表中自行過(guò)濾掉不需要處理的詞語(yǔ)(使用按鈕“刪除待匹配詞語(yǔ)”)。確認(rèn)刪除后,系統(tǒng)根據(jù)剩余的待匹配的關(guān)鍵詞篩選出對(duì)應(yīng)的文本記錄,并以文件形式導(dǎo)出文本記錄。
(4)情感詞庫(kù)管理模塊:該功能針對(duì)投訴文本記錄進(jìn)行情感分析,識(shí)別投訴文本記錄的語(yǔ)氣強(qiáng)度。在情感詞庫(kù)中,存在三種不同程度的情感詞,分為為輕度、中度和重度。系統(tǒng)用戶管理情感詞分為三個(gè)子功能:新增情感詞、刪除情感詞和查詢情感詞。
圖1 系統(tǒng)功能架構(gòu)
圖2 數(shù)據(jù)庫(kù)E-R圖設(shè)計(jì)
(5)關(guān)鍵詞庫(kù)管理模塊:關(guān)鍵詞庫(kù)主要是為了用戶匹配投訴文本記錄使用。系統(tǒng)用戶可以進(jìn)行業(yè)務(wù)關(guān)鍵字詞庫(kù)管理,分為新增關(guān)鍵詞、刪除關(guān)鍵詞和查詢關(guān)鍵詞三個(gè)子功能。
數(shù)據(jù)庫(kù)設(shè)計(jì)
(1)E-R設(shè)計(jì)。在進(jìn)行需求分析之后,各個(gè)模塊的功能將比較清晰。現(xiàn)在進(jìn)行數(shù)據(jù)庫(kù)設(shè)計(jì),本系統(tǒng)主要的實(shí)體主要有投訴文本記錄、問題細(xì)項(xiàng)、投訴短語(yǔ)、業(yè)務(wù)關(guān)鍵詞和情感關(guān)鍵詞。E-R圖如圖2所示。
(2)在數(shù)據(jù)庫(kù)E-R圖設(shè)計(jì)之后,接下來(lái)進(jìn)行數(shù)據(jù)庫(kù)表的設(shè)計(jì)。數(shù)據(jù)庫(kù)表如下:投訴文本記錄表、問題細(xì)項(xiàng)表、業(yè)務(wù)關(guān)鍵詞表、情感關(guān)鍵詞表、投訴短語(yǔ)表。
MVC設(shè)計(jì)模式
系統(tǒng)采用的是MVC設(shè)計(jì)模式,即模型-視圖-控制器(model-view-control)框架。Mvc設(shè)計(jì)模式現(xiàn)在已被廣泛使用,是在80年代由Xerox PARC發(fā)明的。
圖3 mvc設(shè)計(jì)模式
模型層:模型層主要是與數(shù)據(jù)庫(kù)交互,封裝數(shù)據(jù),在與數(shù)據(jù)庫(kù)交互的過(guò)程中系統(tǒng)使用的技術(shù)是hibernate。Hibernate是一個(gè)開放源代碼的對(duì)象關(guān)系映射框架。
視圖層:視圖層使用的技術(shù)是JSP。JSP是一種跨平臺(tái)的動(dòng)態(tài)網(wǎng)頁(yè)技術(shù),還有前臺(tái)技術(shù)css、javascript、js、jquery等。通過(guò)業(yè)務(wù)邏輯給用戶展示不同的視圖,將結(jié)果反饋給用戶。
表1 投訴文本記錄表
表2 問題細(xì)項(xiàng)表
表3 業(yè)務(wù)關(guān)鍵詞表
表4 情感詞表
表5 投訴短語(yǔ)表
控制層:主要是負(fù)責(zé)業(yè)務(wù)邏輯的處理,使用的技術(shù)的Struts 2。Struts2是Struts的下一代產(chǎn)品,是在struts 1和WebWork的技術(shù)基礎(chǔ)上進(jìn)行了合并的全新的Struts 2框架。業(yè)務(wù)邏輯與模型層進(jìn)行交互然后直到最后將數(shù)據(jù)返回給視圖層。
系統(tǒng)開發(fā)環(huán)境
操作系統(tǒng):Windows xp,Win7
編譯環(huán)境:MyEclipse 2014或以上版本
瀏覽器: IE 10、Chrome
數(shù)據(jù)庫(kù): Oracle 11g
服務(wù)器:Tomcat7.0
模型層
(1)Hibernate連接Oracle數(shù)據(jù)庫(kù)
Resources.properties文件配置參數(shù):
hibernate.dialect=org.hibernate.dialect. Oracle10gDialect
hibernate.hbm2ddl.auto=update
hibernate.show_sql=true
hibernate.format_sql=false
hibernate.query.substitutions=true 1, false 0
hibernate.default_batch_fetch_size=16
hibernate.max_fetch_depth=2
hibernate.bytecode.use_reflection_ optimizer=true
//四大配置參數(shù)
connection.driver_class=oracle.jdbc. OracleDriver
connection.url=jdbc:oracle:thin:@localhost:1521:orcl
connection.username=
connection.password=
//c3p0連接池
c3p0.minPoolSize=5
c3p0.maxPoolSize=30
c3p0.initialPoolSize=10
c3p0.maxIdleTime=60
c3p0.acquireIncrement=5
聚類分析模塊
聚類分析的界面設(shè)計(jì)如圖4所示。在頁(yè)面的上方是導(dǎo)航欄,對(duì)應(yīng)于“匹配文本記錄”、“聚類分析”頁(yè)面和“情感分析”頁(yè)面,這三個(gè)頁(yè)面的用戶角色都是普通用戶。當(dāng)點(diǎn)擊文字圖標(biāo)時(shí),三個(gè)按鈕之間可以相互跳轉(zhuǎn),下劃線代表了當(dāng)前頁(yè)面。
在導(dǎo)航欄的下方,有五個(gè)按鈕圖標(biāo),對(duì)應(yīng)于五個(gè)不用的時(shí)間間隔,分別是“最近1小時(shí)”、“最近2小時(shí)”、“最近3小時(shí)”、“當(dāng)天”和“兩天內(nèi)”,點(diǎn)擊任意一個(gè)按鈕圖標(biāo),對(duì)相應(yīng)時(shí)間間隔內(nèi)的投訴文本記錄進(jìn)行分析。
在五個(gè)按鈕圖標(biāo)的下方,分別是投訴細(xì)項(xiàng)聚類分析結(jié)果和投訴原因短語(yǔ)聚類分析結(jié)果兩大部分。每個(gè)部分分為左邊云標(biāo)簽和右邊投訴文本記錄兩大塊。云標(biāo)簽顯示的是聚類分析后的投訴細(xì)項(xiàng)或者投訴原因短語(yǔ),而右邊顯示的是投訴文本記錄。在點(diǎn)擊云標(biāo)簽上的短語(yǔ)后,右邊需要顯示相應(yīng)的投訴文本記錄。
情感分析模塊
情感分析的界面設(shè)計(jì)如圖5所示。在頁(yè)面的上方是導(dǎo)航欄,如“聚類分析”頁(yè)面的導(dǎo)航欄一樣,實(shí)現(xiàn)三個(gè)頁(yè)面之間的跳轉(zhuǎn)。
圖4 聚類分析界面
圖5 情感分析界面
圖6 匹配文本記錄界面
在導(dǎo)航欄的下方,頁(yè)面從上往下4大部分。首先是情感強(qiáng)度的顯示,左邊是餅狀圖,形象地顯示三種情感程度的比例,右邊顯示的是情感程度比例最大的情感程度。然后是三個(gè)情感程度按鈕,分別是“輕度”、“中度”和“重度”。之后是一個(gè)<select>html標(biāo)簽,用于顯示投訴文本記錄。在點(diǎn)擊情感程度圖標(biāo)按鈕時(shí),下方將顯示投訴文本記錄。最后的話是情感詞顯示框。在點(diǎn)擊投訴文本記錄時(shí),情感詞顯示框內(nèi)將顯示該文本記錄的情感詞信息。
圖7 業(yè)務(wù)關(guān)鍵詞庫(kù)管理界面
圖8 情感詞庫(kù)管理界面
匹配文本記錄模塊
匹配文本記錄的界面設(shè)計(jì)如圖6所示。在頁(yè)面的上方是導(dǎo)航欄,如“聚類分析”頁(yè)面的導(dǎo)航欄一樣。
在導(dǎo)航欄的下方,頁(yè)面分成左邊和右邊兩大部分。左邊部分是為了搜索出關(guān)鍵詞使用,包括搜索輸入框、搜索按鈕圖標(biāo)、關(guān)鍵詞顯示列表和刪除關(guān)鍵詞按鈕圖標(biāo)。模糊搜索中支持模糊匹配,也支持多個(gè)關(guān)鍵詞搜索,中間用空格區(qū)分。關(guān)鍵詞顯示列表<select>標(biāo)簽是在點(diǎn)擊“搜索”按鈕之后返回的關(guān)鍵詞列表顯示。刪除待匹配詞是刪除此時(shí)要匹配的關(guān)鍵詞,不是數(shù)據(jù)庫(kù)中的關(guān)鍵詞。
右邊主要是“匹配文件”按鈕、“導(dǎo)出文本記錄”按鈕和一個(gè)文本提示信息的顯示區(qū)域。在點(diǎn)擊“匹配文件”按鈕后,若成功匹配到文件,則“導(dǎo)出文本記錄”按鈕切換圖片,變成可以點(diǎn)擊;點(diǎn)擊“導(dǎo)出文本記錄”按鈕圖標(biāo)后,將匹配好的投訴文本記錄存儲(chǔ)在一個(gè)文件中。
業(yè)務(wù)關(guān)鍵詞庫(kù)管理模塊
庫(kù)管理的界面設(shè)計(jì)如圖7所示。在頁(yè)面的上方是導(dǎo)航欄,對(duì)應(yīng)于“關(guān)鍵詞庫(kù)管理”和“情感詞詞庫(kù)管理”頁(yè)面,當(dāng)點(diǎn)擊按鈕圖標(biāo)時(shí),如點(diǎn)擊“情感詞庫(kù)管理”管理,系統(tǒng)會(huì)跳轉(zhuǎn)到情感詞庫(kù)管理頁(yè)面。圖標(biāo)的下劃線代表了當(dāng)前顯示頁(yè)面。
在頁(yè)面的左側(cè),是一個(gè)下拉列表標(biāo)簽<select>標(biāo)簽,是為了顯示關(guān)鍵詞列表使用。在頁(yè)面的右側(cè)上方,是一個(gè)文本顯示區(qū)域,顯示查詢到的關(guān)鍵詞。文本顯示區(qū)域下方對(duì)應(yīng)該情感詞庫(kù)的三個(gè)功能,查詢關(guān)鍵詞、新增關(guān)鍵詞和刪除關(guān)鍵詞。三個(gè)按鈕在點(diǎn)擊、懸浮和移除時(shí)會(huì)切換圖標(biāo),給用戶好的使用體驗(yàn)。最后提示信息顯示區(qū)域。如“成功刪除關(guān)鍵詞”、“成功添加關(guān)鍵詞”等等。
情感詞庫(kù)管理模塊
情感詞庫(kù)管理的界面設(shè)計(jì)如圖8所示。在頁(yè)面的上方是導(dǎo)航欄,和關(guān)鍵詞庫(kù)管理的頁(yè)面的導(dǎo)航欄是相同的,因?yàn)檫@兩個(gè)功能模塊的用戶角色是系統(tǒng)用戶,詳見需求分析。
在頁(yè)面的左側(cè),是一個(gè)下拉列表標(biāo)簽<select>標(biāo)簽,是為了顯示情感詞列表使用。在頁(yè)面的右側(cè)上方,是一個(gè)文本顯示區(qū)域,顯示查詢到的情感詞。文本顯示區(qū)域下方對(duì)應(yīng)該情感詞庫(kù)的三個(gè)功能,查詢情感詞、新增情感詞和刪除情感詞。頁(yè)面中所有的按鈕按鈕圖標(biāo)在點(diǎn)擊、懸浮和移除時(shí)會(huì)切換圖標(biāo),給用戶好的使用體驗(yàn)。其中新增情感詞是因?yàn)橛星楦性~的內(nèi)容和情感詞的程度,所以在點(diǎn)擊“添加”情感詞是需要點(diǎn)擊“輕度”、“中度”和“重度”按鈕來(lái)選擇情感詞的強(qiáng)度。最后提示信息顯示區(qū)域。如“成功刪除情感詞”、“成功添加情感詞”等等。
本文設(shè)計(jì)實(shí)現(xiàn)了一個(gè)基于廣東移動(dòng)投訴文本記錄的數(shù)據(jù)挖掘系統(tǒng)。系統(tǒng)對(duì)廣東移動(dòng)大量的投訴文本記錄進(jìn)行投訴細(xì)項(xiàng)和投訴原因短語(yǔ)聚類分析和情感分析,挖掘出有用的信息。實(shí)驗(yàn)表明,將文本挖掘技術(shù)應(yīng)用于廣東移動(dòng)投訴文本記錄所開發(fā)出來(lái)的系統(tǒng),能夠獲取客服過(guò)程中客戶及時(shí)的反饋等有效信息,幫助企業(yè)來(lái)提高他們業(yè)務(wù)營(yíng)銷的效率,推出大眾期望的新套餐或改進(jìn)原有的套餐,更有針對(duì)性地解決客戶的需求。
10.3969/j.issn.1001-8972.2015.21.014