顧斌++彭濤++車偉
摘 要: 為了有效提高電力企業(yè)客戶滿意度及主動服務(wù)意識,結(jié)合電力客服工單文本特征,構(gòu)建了電力客服工單情感分析模型。先通過TF?IDF思想進(jìn)行工單關(guān)鍵詞提取,采用word2vec訓(xùn)練得出每個詞語的詞向量,通過計算余弦相似度將高相似領(lǐng)域詞匯擴(kuò)充到情感詞典,再進(jìn)行工單傾向性分析及文本分類。通過實驗分析驗證該方法的有效性,實驗結(jié)果表明,相較于原始情感詞典,進(jìn)行詞典擴(kuò)充及工單情感傾向性分析方法更具優(yōu)勢,準(zhǔn)確率更高,可為電力企業(yè)客戶關(guān)系管理提供一定的參考。
關(guān)鍵詞: 情感分析; 情感傾向性; 詞典擴(kuò)充; 電力客服工單; 主動服務(wù)
中圖分類號: TN915.853?34; V249 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2017)11?0163?04
Dictionary expansion based sentiment tendency analysis of power customer service order
GU Bin, PENG Tao, CHE Wei
(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)
Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.
Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service
0 引 言
隨著電力體制改革的逐步深化,配電市場競爭不斷加劇,迫切需要供電企業(yè)改變傳統(tǒng)的思維方式和工作模式,進(jìn)一步樹立市場化服務(wù)意識,從客戶需求出發(fā),挖掘客戶的潛在需求和內(nèi)在價值,從而提升客戶滿意度和運(yùn)營效益。作為與客戶交流、溝通的重要窗口,電力企業(yè)95598客服系統(tǒng)記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關(guān)注焦點(diǎn),對電力企業(yè)和客戶都將具有十分重要的意義[1]。
電力客服工單情感傾向性分析可以有效地發(fā)掘客戶情感信息和需求,可根據(jù)客戶情感傾向性識別潛在的投訴客戶,可根據(jù)反饋信息判別某項業(yè)務(wù)的實施效果等。針對文本情感傾向性分析,現(xiàn)有的理論研究比較側(cè)重于文本特征提取以及采用機(jī)器學(xué)習(xí)方法對文本進(jìn)行分類,但是基于具體業(yè)務(wù)特征進(jìn)行情感詞典擴(kuò)充的研究還比較少,導(dǎo)致情感傾向性計算往往會存在一定的差異,因此,根據(jù)電力行業(yè)的特點(diǎn),進(jìn)行客戶服務(wù)工單情感詞典擴(kuò)充及情感傾向性的研究非常有必要。
情感分析是指利用文本挖掘、機(jī)器學(xué)習(xí)技術(shù)分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態(tài)度和消極情感態(tài)度[2]。目前,國內(nèi)外關(guān)于文本情感傾向性分析已經(jīng)進(jìn)行了較多的研究工作[3?7],文獻(xiàn)[3]基于情感詞間的點(diǎn)互信息和上下文約束,提出一種兩階段的領(lǐng)域情感詞典構(gòu)建算法,提升了情感詞情感傾向的識別能力。文獻(xiàn)[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實現(xiàn)對商品評價的情感分析,不僅可以有效識別商品評論情感性傾向,而且提升了識別效率。文獻(xiàn)[5]將詞級別向量和字級別向量作為原始特征,采用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征并進(jìn)行情感傾向性分析,結(jié)果表明字級別向量可取得較高的準(zhǔn)確率。文獻(xiàn)[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權(quán)值,并將其作為條件隨機(jī)場模型特征預(yù)測情感詞傾向,提升了具體語境下預(yù)測的準(zhǔn)確性,但是針對文本數(shù)量較大的情況準(zhǔn)確率較低。文獻(xiàn)[7]結(jié)合句子結(jié)構(gòu)上下文語義關(guān)聯(lián)信息,提出一種基于深度神經(jīng)網(wǎng)絡(luò)的跨文本粒度情感分類模型,提升了分類準(zhǔn)確率,但該方法只適應(yīng)于特定領(lǐng)域,泛化能力較低。
鑒于以上研究現(xiàn)狀,本文以電力客戶服務(wù)領(lǐng)域文本特征為突破口,構(gòu)建了電力客服工單情感分析模型,基于工單關(guān)鍵詞提取對原始的情感詞典進(jìn)行擴(kuò)充,并對工單情感傾向性進(jìn)行分析,最后,通過算例應(yīng)用驗證了本文所提方法的有效性。
1 相關(guān)工作
1.1 情感分類
情感分類技術(shù)的主要目標(biāo)是基于文本數(shù)據(jù)識別用戶所表達(dá)的情感信息,并將文本數(shù)據(jù)分為正類和負(fù)類。當(dāng)前,針對情感分類的研究,主要從監(jiān)督學(xué)習(xí)、基于規(guī)則方法、跨領(lǐng)域情感分析等方面展開研究,與此同時,針對文本特征的提取和特征情感判別是情感分類研究的兩個關(guān)鍵問題。
1.2 Word2vec介紹
word2vec是Google在2013年開源的一款將詞表征為實數(shù)值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續(xù)的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經(jīng)過對輸入集數(shù)據(jù)進(jìn)行訓(xùn)練,可以實現(xiàn)將文本詞匯轉(zhuǎn)換為維空間向量,然后基于空間向量相似度來表達(dá)文本語義相似度,模型輸出結(jié)果可用于自然語言處理領(lǐng)域相關(guān)工作,比如文本聚類、詞典擴(kuò)充、詞性分析等。
word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個三層神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型,假設(shè)某個詞的出現(xiàn)只與前個詞相關(guān),其原理示意圖如圖1所示。
圖1中,最下方的為前個輸入詞,并根據(jù)其預(yù)測下一個詞每個輸入詞被映射為一個向量,為詞語的詞向量。網(wǎng)絡(luò)的第一層(輸入層)為輸入詞語組成的維向量網(wǎng)絡(luò)第二層(隱藏層)計算為偏置因子,使用激活函數(shù)tanh;網(wǎng)絡(luò)第三層(輸出層)包含個節(jié)點(diǎn),每個節(jié)點(diǎn)表示下一詞的未歸一化log概率,并使用softmax激活函數(shù)將輸出值歸一化,最后使用隨機(jī)梯度下降法對模型進(jìn)行優(yōu)化。
圖1 NNLM原理模型圖
模型的目標(biāo)函數(shù)為:
需要滿足的約束條件為:
2 電力客服工單情感分析模型
本文以某電力公司客服工單數(shù)據(jù)為研究對象,在深入理解電力業(yè)務(wù)及工單文本語義特點(diǎn)的基礎(chǔ)上,建立了一種電力客服工單情感分析模型。首先,在進(jìn)行文本預(yù)處理的基礎(chǔ)上,對文本進(jìn)行分詞處理并且完成關(guān)鍵詞提??;然后,采用word2vec訓(xùn)練工單數(shù)據(jù),并基于關(guān)鍵詞進(jìn)行情感詞典擴(kuò)充,構(gòu)建電力客服領(lǐng)域?qū)S们楦性~典;最后,進(jìn)行工單情感傾向性分析。
2.1 工單文本預(yù)處理
由于工單文本數(shù)據(jù)中存在大量價值含量較低甚至沒有價值意義的數(shù)據(jù),在進(jìn)行分詞、情感分析中會對結(jié)果產(chǎn)生較大的影響,那么在文本挖掘之前就必須先進(jìn)行文本預(yù)處理,去除大量沒有挖掘意義的工單數(shù)據(jù)。工單文本預(yù)處理工作主要包括:刪除未標(biāo)注業(yè)務(wù)類型數(shù)據(jù)、分句處理、文本去重、短句刪除等。
分句處理:將工單數(shù)據(jù)處理成以句子為最小單位,以句尾標(biāo)點(diǎn)符號為標(biāo)志分割,包括“,”,“?!?,“;”,“!”等符號。
文本去重:就是去除工單數(shù)據(jù)中重復(fù)的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。
短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設(shè)置文本字符數(shù)下限為10個國際字符。
2.2 電力客戶服務(wù)領(lǐng)域情感詞典構(gòu)建
2.2.1 分詞
本文采用python的jieba分詞工具對數(shù)據(jù)集進(jìn)行分詞,并完成詞性標(biāo)注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進(jìn)行分詞,三種模式的分詞效果如表1所示。
另外,在實際的分詞過程中,出現(xiàn)了個別分詞結(jié)果與實際的語義不符,原因是字典中缺少相關(guān)的專有名詞,或者是這些詞語的詞頻較低,比如“客戶/咨詢/抄/表示/數(shù)等/信息”,“客戶/查戶/號”,“變壓器/重/過載”,“查/分/時/電價”等,因此,需要對原有詞典進(jìn)行更新。python中采用jieba.load_userdict(dict.txt)語句添加自定義詞典,其中dict.txt是保存字典內(nèi)容的文件,其格式為每一行分三部分:一部分為詞語;另一部分為詞頻;最后為詞性(可省略),用空格隔開。
2.2.2 關(guān)鍵詞提取
構(gòu)建電力客戶服務(wù)領(lǐng)域?qū)偾楦性~典,需要盡可能保證領(lǐng)域詞典的多樣性,關(guān)鍵詞的提取要求一方面能夠盡量反應(yīng)出這個特征項所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區(qū)分開來,依據(jù)此原理,本文采用TF?IDF思想進(jìn)行電力客戶服務(wù)領(lǐng)域關(guān)鍵詞的提取,關(guān)鍵詞選取的權(quán)重決定了情感詞典的多樣性,為下文情感詞典的擴(kuò)充做好基礎(chǔ),算法原理如下。
將工單文檔和特征項構(gòu)建成二維矩陣,各條工單的特征向量可表示為:
式中:表示第個工單中第個特征中的詞頻。則與為:
式中:表示語料庫中的文件總數(shù);表示包含詞語的文件總數(shù),防止分母為零的情況,通常對分母做+1的處理。因此,的計算公式為:
實際應(yīng)用中,依據(jù)維度的大小確定相應(yīng)的權(quán)重大小,這樣就形成了代表語料特征的關(guān)鍵詞集。
2.2.3 基于word2vec進(jìn)行情感詞典擴(kuò)充
隨著經(jīng)濟(jì)技術(shù)的發(fā)展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個對象特征,且電力行業(yè)中存在許多專用詞匯,同樣也表達(dá)了一定情感,但這些詞脫離于現(xiàn)有的情感詞典,因此,有必要對現(xiàn)有的情感詞典進(jìn)行擴(kuò)充,進(jìn)而提升工單情感傾向性分析的準(zhǔn)確性[8]。選取中國知網(wǎng)情感詞集和大連理工大學(xué)林鴻飛教授整理和標(biāo)注的中文情感詞匯本體庫作為基礎(chǔ)的情感詞典,然后依據(jù)權(quán)重較大的關(guān)鍵詞對原有詞典進(jìn)行擴(kuò)充[9]?;谏衔碾娏蛻舴?wù)工單中提取的關(guān)鍵詞,采用word2vec工具對工單數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)CBOW模型或Skip?Gram模型訓(xùn)練出每個詞的詞向量,并通過計算余弦相似度得到文本語義上的相似度,并將相似度較高的詞語加入到情感詞典中。
依據(jù)上文分詞后得到的工單文本數(shù)據(jù),采用Linux Version2.6環(huán)境對數(shù)據(jù)進(jìn)行訓(xùn)練,操作命令如下:
./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1
其中,data95598.txt為輸入數(shù)據(jù)集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進(jìn)行訓(xùn)練,詞向量維度設(shè)置為200;訓(xùn)練窗口大小設(shè)置為5;-sample表示采樣的閾值,訓(xùn)練結(jié)果采用二進(jìn)制方式存儲。這樣,得到的模型文件中就包含了每個詞的詞向量。
采用余弦相似度計算關(guān)鍵詞的相似詞,即基于生成的詞向量計算兩個維向量的相似度,因為word2vec本身就是基于上下文語義生成的詞向量,因此,余弦值越大,表明兩個詞語的語義越相似。向量與的余弦計算公式如下:
通過distince命令計算輸入詞與其他詞的余弦相似度,經(jīng)過排序返回相似詞列表,再經(jīng)過人工篩選,將這些詞加入到原有情感詞典中,實現(xiàn)對原有情感詞典的擴(kuò)充。
2.3 工單情感傾向性分析
工單情感傾向性分析是基于構(gòu)建的情感詞典,計算每個客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個客服工單都可以被分割成一個個子句片段,表示為每個子句片段由一系列分詞后的詞語構(gòu)成,提取每個句子的情感詞、否定詞等,表示為依據(jù)情感詞典中給定詞的極性值計算每個子句的情感值,分別計算每個句子的正向和負(fù)向情感分值,計算公式如下:
式中:SenSum表示某個客服工單的情感分值;表示第個子句中第個正向情感詞的極性值;表示第個子句中第個負(fù)向情感詞的極性值。
在否定子句中,當(dāng)為偶數(shù)時,否定子句情感為正;當(dāng)為奇數(shù)時,否定子句情感極性為負(fù)。對所有的子句情感分值求和并求均值,就得到了整個客服工單的情感值,進(jìn)而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負(fù)向。
3 實驗分析
3.1 實驗數(shù)據(jù)準(zhǔn)備
本文的實驗環(huán)境基于Linux系統(tǒng),采用python語言進(jìn)行算法的實現(xiàn),抽取某電力公司95598客服工單數(shù)據(jù)作為研究對象,運(yùn)用jieba包進(jìn)行中文分詞處理,并采用word2vec訓(xùn)練數(shù)據(jù)生成詞向量及擴(kuò)充情感詞典。由于工單數(shù)據(jù)是按照業(yè)務(wù)類型生成的,因此選取業(yè)務(wù)類型為表揚(yáng)的工單作為正類,選取業(yè)務(wù)類型為投訴的作為負(fù)類,其中,正類和負(fù)類數(shù)據(jù)比例為21,共得到20 000條數(shù)據(jù)作為實驗數(shù)據(jù)集,隨后進(jìn)行情感傾向性分析,隨機(jī)選擇70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測試集。
3.2 評價指標(biāo)
當(dāng)前針對文本分類效果評估有許多方法,本文選擇準(zhǔn)確率(precision)、召回率(recall)和值進(jìn)行文本情感分類效果的評估,準(zhǔn)確率是對分類精確性的度量,召回率是對分類完全性的度量,值越大說明分類效果越好,準(zhǔn)確率和召回率是一組互斥指標(biāo),值是將二者結(jié)合的一個度量指標(biāo),值越大,分類效果越好,并將通過本文情感分析模型得到的結(jié)果與業(yè)務(wù)員標(biāo)注的類型做對比分析。它們的計算公式如下:
3.3 實驗結(jié)果及分析
本文基于抽取到的客服工單數(shù)據(jù),結(jié)合設(shè)計的電力客服工單情感分析模型,實現(xiàn)對電力客戶服務(wù)領(lǐng)域情感詞典的擴(kuò)充,并基于構(gòu)建的電力客服領(lǐng)域?qū)僭~典進(jìn)行工單情感傾向性分析,70%的數(shù)據(jù)用于訓(xùn)練word2vec并進(jìn)行情感詞典的擴(kuò)充,30%的數(shù)據(jù)用于測試工單情感分類的準(zhǔn)確性。測試集共包含工單數(shù)6 000條,其中正類工單3 895條,負(fù)類工單2 105條。將采用本文情感分析模型得到的結(jié)果與原始基礎(chǔ)情感詞典得到的結(jié)果進(jìn)行對比分析,見表2。
由表2可知,采用本文構(gòu)建的電力客服工單詞典針對正向和負(fù)向的情感詞都有較高的準(zhǔn)確率、召回率和值,由此可知,本文設(shè)計的電力客服工單情感分析模型是合理的,且具有明顯的性能優(yōu)勢。
4 結(jié) 語
本文設(shè)計了一種電力客服工單情感分析模型,構(gòu)建了電力客服領(lǐng)域情感專用詞典并進(jìn)行工單情感傾向性分析。采用word2vec工具對采集到的數(shù)據(jù)進(jìn)行訓(xùn)練,并用測試集數(shù)據(jù)對本文提出的模型進(jìn)行驗證分析,結(jié)果表明,本文所提方法具有一定的合理性和可行性,可為電力企業(yè)客戶關(guān)系管理提供一定的參考意義,促進(jìn)企業(yè)客戶滿意度及運(yùn)營效益的提升。此外,本文主要研究了基于構(gòu)建的電力客服專用情感詞典進(jìn)行客戶情感傾向性分析,但是對于無監(jiān)督性學(xué)習(xí)方法情感傾向性分析以及情感強(qiáng)度的分析還有待進(jìn)一步研究。
參考文獻(xiàn)
[1] 李勝宇,高俊波,許莉莉.面向酒店評論的情感分析模型[J].計算機(jī)系統(tǒng)應(yīng)用,2017,26(1):227?231.
[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.
[3] 郗亞輝.產(chǎn)品評論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學(xué)報,2016,30(5):136?144.
[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評價情感分析[J].計算機(jī)應(yīng)用,2014,34(8):2317?2321.
[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報,2015,29(6):159?165.
[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計算機(jī)工程,2015,41(4):171?175.
[7] 劉金碩,張智.一種基于聯(lián)合深度神經(jīng)網(wǎng)絡(luò)的食品安全信息情感分類模型[J].計算機(jī)科學(xué),2016,43(12):277?280.
[8] 黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計算機(jī)科學(xué),2016,43(z1):387?389.
[9] 張冬雯,楊鵬飛,許云峰.基于word2vec和SVMperf的中文評論情感分類研究[J].計算機(jī)科學(xué),2016,43(z1):418?421.