国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語言處理在電力智能問答領(lǐng)域的應(yīng)用研究

2021-04-29 03:22田麗洪福斌
科技與創(chuàng)新 2021年8期
關(guān)鍵詞:知識庫分詞客服

田麗,洪福斌

自然語言處理在電力智能問答領(lǐng)域的應(yīng)用研究

田麗,洪福斌

(國網(wǎng)電子商務(wù)有限公司,北京 100053;國網(wǎng)雄安金融科技集團有限公司,河北 保定 071000)

利用自然語言處理技術(shù)和機器學(xué)習技術(shù),結(jié)合電力常識和居民用電側(cè)知識積累(包含用電安全、用電常識、用電政策、應(yīng)急預(yù)案等內(nèi)容),構(gòu)建電力行業(yè)知識庫,在用戶側(cè)提供智能在線客服。智能在線客服支持用戶通過文本或語音輸入,系統(tǒng)識別客戶真實意圖,通過引導(dǎo)交互式地問詢,為居民用戶提供問題解答,問題涵蓋生活用電方面的常識、電力政策、停電信息、辦電流程等,既能顯著節(jié)約客服中心的工作量,提高工作效率,又能豐富客服系統(tǒng)功能,提升用戶體驗。

自然語言處理;機器學(xué)習;知識庫構(gòu)建;智能問答

1 引言

電力領(lǐng)域目前對用戶的問題訴求處理仍采用傳統(tǒng)的呼叫模式:以電話→坐席受理→問題解答→坐席回訪為主[1],用戶的問題涵蓋了故障報修、停電信息查詢、電量電費查詢、投訴舉報、電動車聯(lián)網(wǎng)等業(yè)務(wù)類型,客服中心為了保證能夠隨時解答用戶提出的問題,提供7×24 h服務(wù),投入了大量的人力資源。盡管如此,業(yè)務(wù)知識更新速度快,業(yè)務(wù)人員的知識儲備和學(xué)習能力不一,人力成本不斷增加,而且電話客服通過語音菜單對客戶進行分類引流,雖然一定程度上提高了匹配程度和應(yīng)答效率,但是相對復(fù)雜的客服流程卻無形中增加了用戶和客服之間的溝通門檻,造成不佳的用戶體驗。因此,如何減輕客服壓力,降低人力成本,打造功能更加豐富、體驗更好的客服系統(tǒng),是急需解決的問題。

人工智能是目前研究的熱點和技術(shù)發(fā)展趨勢,智能問答作為人工智能的一種典型表現(xiàn)形式,允許用戶口語化表達,并為用戶直接返回所需的答案,提高了溝通效率,節(jié)省了人力資源,具有較強的應(yīng)用需求和研究價值。

目前在智能問答方面的研究主要有三方面:文獻[2-3]提出基于語法分析的問答系統(tǒng)構(gòu)建方法,文獻[4-6]提出基于復(fù)雜神經(jīng)網(wǎng)絡(luò)詞向量技術(shù)可提高信息檢索的速度以及準確率,文獻[7-8]提出深度學(xué)習技術(shù)、Learning to Rank以及基于用戶反饋信息調(diào)整檢索答案技術(shù)。

綜上所述,構(gòu)建一套問答系統(tǒng),既需要理解自然語言問句,還需要構(gòu)建海量的知識庫,因此,本文通過對自然語言問句的理解和研究,設(shè)計一套智能問答系統(tǒng),實現(xiàn)兩個目標:一是能更好地理解用戶的上下文語境和語義,提升對問題的理解能力;二是系統(tǒng)自身具備更強大的知識庫和自我學(xué)習的能力,通過問答訓(xùn)練和算法調(diào)優(yōu),不斷提升答案的匹配精準度。本文提到的智能問答系統(tǒng),主要結(jié)合電力常識和公司居民用電側(cè)知識積累(包含用電安全、用電常識、用電政策、應(yīng)急預(yù)案等內(nèi)容),構(gòu)建電力行業(yè)知識庫,在用戶側(cè)提供智能在線客服,通過語音識別和語義分析技術(shù),識別客戶真實意圖,通過引導(dǎo)交互式地服務(wù),為居民用戶提供生活用電方面的常識、電力政策、停電信息、辦電流程等問題的解答。

2 自然語言處理方法研究

自然語言處理是一門交叉學(xué)科,涉及語言學(xué)、數(shù)學(xué)、計算機科學(xué)、信息學(xué)、電子科學(xué)、心理科學(xué)、認知科學(xué)、神經(jīng)科學(xué)等,而作為專業(yè)領(lǐng)域內(nèi)的研究,還需要加入該專業(yè)的領(lǐng)域知識[9-11]。本文所設(shè)計的智能問答系統(tǒng)關(guān)鍵模塊主要包含知識庫創(chuàng)建、問題理解、問題檢索,涉及的技術(shù)主要包含語料清洗、中文分詞、特征工程、模型訓(xùn)練。

2.1 語料清洗

把不感興趣或者無用的,視為噪音的內(nèi)容進行刪除,如針對原始文本,提取標題、摘要、正文等信息,對于爬取的網(wǎng)頁內(nèi)容,去除廣告、標簽、HTML、JS等代碼和注釋。

2.2 中文分詞

漢語以字為基本書寫單位,詞語之間沒有明顯的區(qū)分標記,分詞技術(shù)是知識庫搜索查詢過程中的第一步,分詞實現(xiàn)效果的好壞對系統(tǒng)問答結(jié)果的影響非常大[12]。中文分詞后,給每個詞或者詞語進行詞性標注,如給詞語打上形容詞、動詞、名詞等標簽;去停用詞指對文本特征沒有任何貢獻作用的字詞進行刪除,比如標點符號、語氣、人稱等;命名實體識別指識別文本中具有特定意義的實體,主要包括人名、地名、機構(gòu)名、專有名詞等。

2.3 特征工程

把分詞之后的字和詞語表示成計算機能夠計算的類型。把中文分詞的字符串轉(zhuǎn)換成數(shù)字,主要運用的技術(shù)為詞向量技術(shù),詞向量是一種將單詞表征成為高維空間的向量表示方法。詞向量技術(shù)最初用于在語言模型技術(shù)中,將單詞詞典作為一個向量,詞典中所含詞的個數(shù)即為向量的維度,某個單詞的向量即為單詞在詞典中出現(xiàn)的位置。本文所述智能問答系統(tǒng)所使用的詞向量技術(shù)來源于谷歌發(fā)布的Word2vec開源工具[13]。其主要包含兩個模型,即跳字模型(Skip-Gram)和連續(xù)詞袋模型(Continuous Bag of Words,簡稱CBOW),以及兩種高效訓(xùn)練的方法,即負采樣(Negative Sampling)和層序Softmax(Hierarchical Softmax)。Word2Vec詞向量可以較好地表達不同詞之間的相似和類比關(guān)系。

2.4 模型訓(xùn)練

卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,卷積神經(jīng)網(wǎng)絡(luò)包含至少六層的神經(jīng)網(wǎng)絡(luò),包含輸入層、特征表示層、卷積層、下采樣層、隱藏層和輸出層[12]。在分類模型的建立上,本文選擇使用的是卷積神經(jīng)網(wǎng)絡(luò)CNN。CNN最大的優(yōu)勢在特征提取方面。由于CNN的特征檢測層通過訓(xùn)練數(shù)據(jù)進行學(xué)習,避免了顯示的特征抽取,而是隱式地從訓(xùn)練數(shù)據(jù)中進行學(xué)習;再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習,相比于傳統(tǒng)的Randomforest或是Xgboost等經(jīng)典分類模型,CNN具有發(fā)現(xiàn)更多難以察覺的局部特征的能力,而不是像傳統(tǒng)的方法最終的結(jié)果始終要受到特征工程好壞的限制。

3 電力智能問答系統(tǒng)研究與實現(xiàn)

3.1 系統(tǒng)整體設(shè)計

電力智能問答系統(tǒng)產(chǎn)品功能流程如圖1所示,用戶通過語音方式或者文本方式將問答語句輸入,如果用戶輸入為語音,需要通過語音識別技術(shù)將其轉(zhuǎn)化為文字,并通過語義識別技術(shù)將其轉(zhuǎn)換為表達式,自然語言處理模塊理解表達式,將其轉(zhuǎn)化并輸入至對話管理模塊,對話管理模塊采取特定的算法進行回復(fù),然后再生成自然語言,完成文字至語音的輸出。

圖1 電力智能問答系統(tǒng)產(chǎn)品功能流程

本文電力智能問答系統(tǒng)體系架構(gòu)如圖2所示,最下層為數(shù)據(jù)獲取層,往上分別為知識庫構(gòu)建、智能問答處理及應(yīng)用模塊。

圖2 電力智能問答系統(tǒng)體系架構(gòu)

知識庫構(gòu)建模塊:通過數(shù)據(jù)爬取、人工標注、關(guān)系抽取、知識分類、規(guī)則構(gòu)建等一系列過程,形成知識庫。

智能問答處理模塊:用戶以語音或者文字輸入后,主要經(jīng)過預(yù)處理、問題理解、問題檢索和反饋,最終以文字或者語音形式輸出給用戶。

應(yīng)用模塊:在智能問答核心技術(shù)的支撐下產(chǎn)生的各種應(yīng)用和服務(wù),可提供業(yè)務(wù)辦理咨詢、服務(wù)申請、家庭電氣導(dǎo)購、電費電量查詢、用電常識查詢、電力政策查詢、停電通知等服務(wù),同時可和傳統(tǒng)人工坐席相結(jié)合,在智能問答無法回答的情況下,再呼叫人工坐席。

3.2 數(shù)據(jù)獲取

智能應(yīng)答系統(tǒng)首先要有數(shù)據(jù)來構(gòu)建知識庫,數(shù)據(jù)可以來自于互聯(lián)網(wǎng)爬取,也可是現(xiàn)有的知識庫或者特定的語料庫。

數(shù)據(jù)源:95598熱線業(yè)務(wù)范圍覆蓋故障報修、業(yè)務(wù)咨詢、投訴、舉報、建議、意見、表揚、服務(wù)申請等業(yè)務(wù)類型,經(jīng)過多年運營已經(jīng)形成了海量、翔實的數(shù)據(jù)積累[14]。另外,數(shù)據(jù)源還可包括電力公司網(wǎng)站、營業(yè)廳、供電所、電管家等各業(yè)務(wù)數(shù)據(jù),國網(wǎng)各業(yè)務(wù)系統(tǒng)日志數(shù)據(jù)以及百度、論壇等網(wǎng)絡(luò)數(shù)據(jù)。

數(shù)據(jù)獲?。壕W(wǎng)絡(luò)爬蟲、人工維護錄入、第三方開放平臺接口。

數(shù)據(jù)挖掘:對所獲取的數(shù)據(jù)按一定的結(jié)構(gòu)和規(guī)則,通過數(shù)據(jù)挖掘技術(shù)挖掘成有用的信息或結(jié)構(gòu)化信息[15]。

電力智能問答系統(tǒng)的數(shù)據(jù)獲取與挖掘如圖3所示。

圖3 電力智能問答系統(tǒng)的數(shù)據(jù)獲取與挖掘

3.3 知識庫構(gòu)建

知識庫有通用領(lǐng)域的知識庫和專用領(lǐng)域知識庫,針對電力領(lǐng)域智能問答領(lǐng)域,通用領(lǐng)域的知識庫已不能滿足需求,需要構(gòu)建專用領(lǐng)域知識庫,獲取數(shù)據(jù)后,可以進行知識庫構(gòu)建,知識庫構(gòu)建模塊主要分為詞類管理、知識庫管理和問答歷史管理。

3.3.1 詞類管理

詞類管理模塊實現(xiàn)對業(yè)務(wù)關(guān)鍵詞、近義詞、敏感詞、專業(yè)詞、前后綴和拼音詞的處理。特定領(lǐng)域內(nèi)部有許多領(lǐng)域內(nèi)術(shù)語,需要人工設(shè)置領(lǐng)域內(nèi)關(guān)鍵詞,用以區(qū)分和精確匹配答案,詞類管理通過人工手動添加的方式,增加詞類信息。

3.3.2 知識庫管理

知識庫是智能問答系統(tǒng)的知識中樞,由知識分類、標準問題、擴展問題、標準答案、實例、屬性組成。其中知識分類是運營人員或客戶預(yù)先對知識庫的各個問答對標注的分類信息,實例是指一個針對同一答案的不問問法的集合,屬性是另一種分類信息。標準問題和標準答案是指客戶給出的常用知識問答對,擴展問題是指運營人員針對同一標注答案提供不同問法。

3.3.3 問答歷史管理

問答歷史模塊記錄所有用戶跟系統(tǒng)的聊天記錄,基于此可以重點關(guān)注未解決問題,分析、改進系統(tǒng)的智能化程度。

3.4 智能問答

智能問答主要包括預(yù)處理、問題理解、問題檢索3個模塊,預(yù)處理模塊將用戶輸入的查詢語句通過智能分詞、命名實體標注等方法轉(zhuǎn)換為關(guān)鍵字、詞序列。問題理解模塊明確用戶提出的問題,問題檢索模塊指系統(tǒng)提供根據(jù)用戶提出的問題進行查詢以及排序并返回結(jié)果的過程。

3.4.1 預(yù)處理

預(yù)處理包括智能分詞、命名實體識別、智能反問模塊。

智能分詞模塊:將用戶輸入的查詢語句進行分詞,分詞時將詞類管理中生成的特殊詞以及詞組添加入分詞詞典,并保持更新。

命名實體識別模塊[16]:主要負責將語句中的人名、地名以及事先標注好的實體名識別出,并加以特殊標記。

智能反問模塊:在檢索不到用戶答案時,判斷用戶是不是表意不清,反問用戶是不是想要咨詢另一問題。

3.4.2 問題理解

問題分析模塊主要通過分類器識別、分析用戶問題的意圖,在問題分析模塊中,使用基于詞向量的卷積神經(jīng)網(wǎng)絡(luò)模型對用戶意圖進行分類。其中詞向量技術(shù)主要用于解決文本表示的問題,而卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)文本特征的刪選和構(gòu)建分類模型。

3.4.3 問題檢索與反饋

數(shù)據(jù)庫中存儲一些常用用戶問題和標準問題的問答,通過一個分布式的內(nèi)存數(shù)據(jù)庫實現(xiàn),主要解決用戶最常用的問題,例如“電費電量查詢”等。檢索模塊主要根據(jù)問題分析模塊分析得到的詞,去分布式索引庫中檢索問題相關(guān)的問題。與此同時,為了更精準地理解用戶以及擴大知識范圍,問題通過推薦模塊對用戶進行相應(yīng)的推薦,推薦模塊通過業(yè)務(wù)邏輯樹實現(xiàn)分層次的業(yè)務(wù)推薦。另外,為了更好地完成與用戶的會話信息,系統(tǒng)還會對用戶Session進行維護,使之能夠?qū)崿F(xiàn)業(yè)務(wù)與操作的自動補全。

系統(tǒng)在完善業(yè)務(wù)相關(guān)問答的同時,還可以回答客戶的一些非業(yè)務(wù)問題,基于機器學(xué)習技術(shù)的情感分析模塊可以對用戶的情感進行判斷,使系統(tǒng)能人性化地對用戶的投訴等問題進行針對性的回答。

3.5 創(chuàng)新點

3.5.1 上下文理解

系統(tǒng)通過用戶ID維護對話Session,自動記錄用戶的相關(guān)信息,如有要處理的業(yè)務(wù)以及要進行的操作,在Session可以實現(xiàn)對用戶業(yè)務(wù)和操作的自動補全。此外還包括對話上下文理解、對話流控制。同時具有多用戶狀態(tài)管理功能,維護多用戶對話記錄上下文,追蹤和控制多用戶之間不同的狀態(tài)。

3.5.2 智能推薦

為了使系統(tǒng)給出的答案更加多樣化,系統(tǒng)對Query進行了推薦,該模塊通過處理用戶的問詢,結(jié)合用戶之前的提問內(nèi)容,補全上下文信息,結(jié)合關(guān)鍵詞匹配技術(shù),為用戶提供語義相關(guān)、多維度的信息服務(wù),實現(xiàn)推薦信息最大化。同時開通了以業(yè)務(wù)邏輯樹為主體的推薦平臺,該平臺通過提取業(yè)務(wù)關(guān)鍵詞之間的邏輯關(guān)系,建立業(yè)務(wù)之間的多層分支結(jié)構(gòu),為推薦平臺多維度、精細化語義匹配推薦算法的實現(xiàn)提供基礎(chǔ)。

3.5.3 情感分析

系統(tǒng)通過已有數(shù)據(jù)進行特征提取,找到表示具有情感傾向性的特征詞,通過機器學(xué)習方法對大量數(shù)據(jù)進行建模,訓(xùn)練模型,判斷問題的情感傾向,以此判斷當前用戶的情感傾向性,如高興、憤怒等,對用戶進行針對性的回答。

4 結(jié)束語

本文提出的基于自然語言處理處理技術(shù)和機器學(xué)習技術(shù)構(gòu)建電力領(lǐng)域智能問答系統(tǒng),為居民用電測提供智能在線客服,既能顯著節(jié)約人工客服的工作量,更能滿足業(yè)務(wù)需求,提高客戶體驗,有著非常重要的應(yīng)用前景,另外,由于自然語言和領(lǐng)域知識的復(fù)雜性,當前限定領(lǐng)域的問答系統(tǒng)的實現(xiàn)在技術(shù)上還有很多難點需要解決,需要進一步研究語義理解、語境識別、指代消解、自學(xué)習等技術(shù),提升問答系統(tǒng)的效率和準確率。

[1]游紹華,張羿,段紅剛,等.智能客服在電網(wǎng)呼叫中心的應(yīng)用[J].科技傳播,2018(1):57-59.

[2]BERNAT J,CHOU A,ROY F,et al.Semantic parsing on freebase from question-answer pairs[C]//The 2013 conference on empirical methods on natural language processing,seattle:association fbr computational linguistics,2013:1533-1544.

[3]BERANT J,LIANG P.Semantic parsing via paraphrasing[C]//The 52nd annual meeting of the association for computational linguistics,baltimore: association for computational linguistics,2014:479-485.

[4]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vctor space[J/OL].[2021-03-23].https://www.oalib.com/paper/4057741.

[5]MIKOLOV T,SUTSKEVER I,CHEN K ,et al. Distributed representations of words and phrases and their compo sitionality[J]. Advances in neural information processing systems,2013(26):3111-3119.

[6]MAAS A L,DALY R E,PHAM P T,et al.Learning word vectors for sentiment analysis[C]//49th annual meeting of the association for computational Linguistics:human language technologies,2011.

[7]LEI Y,HERMANN K M,BLUNSOM P,et al.Deep learning for answer sentence selection[J/OL].[2021-03-23].https://www.oalib.com/paper/4067539.

[8]CHELARU S,ORELLANA-RODRIGUEZ C,ALTINGOVDE I S.How useful is social feedback for learning to rank YouTube videos?[J]. World wide web,2013,17(5):997-1025.

[9]MANNING C D.Computational linguistics and deep learning[J].Computational linguistics,2015,41(4):1-7.

[10]JURAFSKY D,MARTIN J H.Speech and Language processing:an introduction to natural language processing,computational linguistics,and speech recognition[M]. NJ:Prentice Hall,Upper Saddle River,2008.

[11]MANNING C D,SCHIITZE H.Foundations of statistical natural language processing[M].London:The MIT Press,1999.

[12]王蕾.面向醫(yī)療健康領(lǐng)域的智能問答系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2018.

[13]邢超.智能問答系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京交通大學(xué),2015.

[14]游紹華,張羿,段紅剛,等.智能客服在電網(wǎng)呼叫中心的應(yīng)用[J].科技傳播,2018(1):57-59.

[15]邱劍.電力中文文本數(shù)據(jù)挖掘技術(shù)及其在可靠性中的應(yīng)用研究[D].杭州:浙江大學(xué),2016.

[16]楊燕.面向電商領(lǐng)域的智能問答系統(tǒng)若干關(guān)鍵技術(shù)研究[D].上海:華東師范大學(xué),2016.

TP391.1

A

10.15913/j.cnki.kjycx.2021.08.002

2095-6835(2021)08-0005-04

田麗(1992—),女,本科,主要研究方向為自然語言處理技術(shù)的主要模型及算法及其在語音識別、搜索引擎、知識圖譜等方面的應(yīng)用。

〔編輯:王霞〕

猜你喜歡
知識庫分詞客服
漢語近義詞辨析知識庫構(gòu)建研究
分詞在英語教學(xué)中的妙用
語音推銷
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
建議
出大事了等
銷售能手
我國聯(lián)合虛擬參考咨詢系統(tǒng)知識庫現(xiàn)狀研究*
——基于與QuestionPoint的對比
位置與方向測試題
儋州市| 香港| 宣城市| 合阳县| 特克斯县| 花莲县| 兴仁县| 德清县| 姚安县| 方正县| 十堰市| 云南省| 宜兰市| 霍林郭勒市| 嘉峪关市| 兴化市| 章丘市| 连州市| 安远县| 浮山县| 丰原市| 凯里市| 利川市| 尚志市| 东城区| 城口县| 南岸区| 昔阳县| 雅安市| 南雄市| 山阴县| 临沧市| 五大连池市| 二连浩特市| 吉首市| 股票| 浙江省| 武汉市| 镇江市| 苏尼特左旗| 舒兰市|