基金項目:2019年度廣西中青年教師科研基礎(chǔ)能力提升項目,名稱:基于知識圖譜的電子商務(wù)客服問答算法設(shè)計與實踐(項目編號:2019KY1519)
摘 要:隨著互聯(lián)網(wǎng)信息技術(shù)的快速發(fā)展,我國社會經(jīng)濟(jì)結(jié)構(gòu)發(fā)生了較大的變化,社會各領(lǐng)域信息化技術(shù)得到了較為廣泛的應(yīng)用,社會各行各業(yè)中都產(chǎn)生了大量的數(shù)據(jù)。近年來,我國電商行業(yè)得到了快速的發(fā)展,相關(guān)商品的咨詢量也變得越來越大,而問答系統(tǒng)可以幫助人工客服緩解相應(yīng)的壓力,并且可以根據(jù)用戶的相關(guān)信息進(jìn)行功能擴(kuò)展,從而能夠給用戶提供比較個性化的智能服務(wù)。電商領(lǐng)域具有較為廣泛的知識數(shù)據(jù),電商平臺上大量商品的咨詢和商品服務(wù)的進(jìn)行,都需要應(yīng)用到相應(yīng)的問答系統(tǒng)。在互聯(lián)網(wǎng)語義數(shù)據(jù)不斷產(chǎn)生和積累的現(xiàn)狀下,問答系統(tǒng)相關(guān)的應(yīng)用可以為用戶提供智能的知識服務(wù),所以受到用戶們的認(rèn)可和使用。在知識圖譜快速發(fā)展的背景下,基于知識圖譜的問答系統(tǒng)得到進(jìn)一步的研究,然而,目前大多數(shù)問答系統(tǒng)都是面向英文的,尤其是在當(dāng)前熱門的電商領(lǐng)域,基于中文知識圖譜的問答系統(tǒng)也已經(jīng)成為相關(guān)部門重要的研究方向。本文針對電子商務(wù)領(lǐng)域問答系統(tǒng),分析了相應(yīng)的技術(shù),并探討了大數(shù)據(jù)知識圖譜的電商領(lǐng)域問答系統(tǒng)的設(shè)計。
關(guān)鍵詞:電商領(lǐng)域;大數(shù)據(jù);知識圖譜;相關(guān)技術(shù);問答系統(tǒng)設(shè)計
在當(dāng)今信息化社會環(huán)境中,隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)得到了極大的發(fā)展和進(jìn)步,相關(guān)電商購物平臺上的用戶量也在不斷增長,商品的種類和數(shù)量也在不斷增加,每時每刻都會產(chǎn)生海量的數(shù)據(jù),在這種情況下,電商領(lǐng)域中用戶量的增加,給提供商品服務(wù)的客服人員帶來了巨大的工作量,問答系統(tǒng)的出現(xiàn),能夠有效緩解人工客服提供商品服務(wù)時的工作壓力,并提高相應(yīng)的工作效率。
自動問答系統(tǒng)不僅能夠幫助人工客服緩解壓力,還可以結(jié)合用戶信息進(jìn)行相應(yīng)的擴(kuò)展,給用戶提供個性化和智能化的服務(wù)。知識圖譜其實就是一種語義網(wǎng)絡(luò),知識圖譜上的每個結(jié)點(diǎn),代表的都是一種實體或者概念,而知識圖譜的邊代表的是結(jié)點(diǎn)之間的各種語義關(guān)系。在目前的情況下,結(jié)構(gòu)化數(shù)據(jù)源劇烈增加,對于搜索引擎而言,知識圖譜能夠?qū)崿F(xiàn)語義層面上的功能,利用傳統(tǒng)的關(guān)鍵詞搜索,在當(dāng)前社會環(huán)境下已經(jīng)不能夠滿足用戶的需求。用戶通過使用自然語言查詢進(jìn)而得到自己想要的問題答案,這其中應(yīng)用到的問答系統(tǒng)也正在成為信息檢索技術(shù)發(fā)展的趨勢。
一、知識圖譜以及相關(guān)技術(shù)概述
1.知識圖譜
知識圖譜最早出現(xiàn)在谷歌上面,其就是一種語義網(wǎng)絡(luò),知識圖譜上的每個結(jié)點(diǎn),代表的都是一種實體或者概念,而知識圖譜的邊代表的是結(jié)點(diǎn)之間的各種語義關(guān)系。在當(dāng)前的社會中,許多企業(yè)都建立了相應(yīng)的知識圖譜知識庫,在構(gòu)建知識圖譜時,采用的都是自底向上數(shù)據(jù)驅(qū)動型,該種類型具有靈活的數(shù)據(jù)語義表達(dá)能力,實體覆蓋率也比較高,結(jié)點(diǎn)之間的語義關(guān)系也變得更加全面。對于當(dāng)前的知識圖譜而言,其標(biāo)準(zhǔn)數(shù)據(jù)是由RDF三元組數(shù)據(jù)存儲形式構(gòu)成,在知識圖譜的信息結(jié)構(gòu)中,還具有一些OWL數(shù)據(jù),這些數(shù)據(jù)中還包含著本體的類、屬性、實例等基本概念。
2.問答系統(tǒng)的實體識別技術(shù)
實體識別技術(shù)在中文知識圖譜的問答系統(tǒng)中,能夠具體區(qū)分相應(yīng)的中文文本,在一定程度上,該問題得到了較多的關(guān)注和廣泛的研究。在知識圖譜問答系統(tǒng)進(jìn)行分析的過程中,根據(jù)用戶不同的表述語句,系統(tǒng)的實體識別技術(shù)能夠準(zhǔn)確找到用戶所要表達(dá)的詞匯,在當(dāng)前情況下,對知識圖譜問答系統(tǒng)設(shè)計進(jìn)行研究時,中文知識圖譜問答系統(tǒng)中的實體識別技術(shù),是進(jìn)行系統(tǒng)設(shè)計時需要研究的基礎(chǔ)性工作。在自動問答系統(tǒng)中的算法中,對實體識別進(jìn)行了相應(yīng)的定義,實體識別主要作用于對命名實體的識別,在一定程度上講就是其從文本中識別具有特殊意義的實體。
3.實體鏈接技術(shù)
在電商領(lǐng)域問答系統(tǒng)中,實體鏈接技術(shù)可以對構(gòu)建語言系統(tǒng)和中文知識圖譜知識庫中的相關(guān)應(yīng)用進(jìn)行利用,這是電商領(lǐng)域中問答系統(tǒng)應(yīng)用的基礎(chǔ)。在一定程度上,問答系統(tǒng)所研究的范圍是清晰表達(dá)用戶想要表達(dá)的問題,并且能夠快速了解用戶語句的含義。在電商領(lǐng)域中問答系統(tǒng)的設(shè)計中,鏈接客戶的表達(dá)和知識庫是需要重點(diǎn)研究的內(nèi)容。以往的實體鏈接任務(wù)中所研究的基本是機(jī)構(gòu)名、人名和地名,按照給定的目標(biāo),對實體名詞進(jìn)行分析并對相關(guān)文檔進(jìn)行查詢,然后再根據(jù)電商領(lǐng)域相關(guān)企業(yè)的知識庫中已經(jīng)有的實體詞匯,將目標(biāo)實體名詞與之進(jìn)行匹配,觀察能否進(jìn)行正確的鏈接。
當(dāng)前環(huán)境下的電商領(lǐng)域知識圖譜中的知識不斷變化,同義表達(dá)也比較多,雖然有關(guān)學(xué)者研究計算了詞匯和近義詞匯之間的相似度,但是對于之前的同義詞庫中的知識詞匯,其已經(jīng)不能滿足當(dāng)前電商領(lǐng)域發(fā)展的需求。
二、基于知識圖譜的問答系統(tǒng)中存在的問題及解決方法
1.基于知識圖譜的問答系統(tǒng)中存在的問題
基于知識圖譜的問答系統(tǒng)一般存在著前端語義理解、后端知識圖譜的構(gòu)建兩大核心問題。對于問答系統(tǒng)通用的流程,其能夠?qū)⒆匀徽Z言進(jìn)行翻譯,轉(zhuǎn)化成結(jié)構(gòu)化的查詢語言,比如SQL、SPARQL等,從而查詢知識圖譜中的實體和關(guān)系。對于基于知識圖譜的問答系統(tǒng)而言,其可以實現(xiàn)支持推理等更多的復(fù)雜問題的解決,像處理包含邏輯判斷的問句等。近些年來,我國電子商務(wù)相關(guān)行業(yè)得到了迅速的發(fā)展,用戶對于商品的咨詢量也在不斷增加,自動問答系統(tǒng)能夠幫助相關(guān)平臺客服人員緩解一定的壓力,在一定程度上能夠結(jié)合用戶信息進(jìn)行擴(kuò)展,并為用戶提供個性化智能服務(wù),但是其中存在的問題仍然需要重點(diǎn)研究和解決。
基于知識圖譜的問答系統(tǒng)雖然可以處理多個語義網(wǎng)資源混合情況下的問答,但仍然無法有效處理需要統(tǒng)計的復(fù)雜問題。ORAKEL和Pythia系統(tǒng)雖然準(zhǔn)確性比較高,但是在應(yīng)用的時候需要構(gòu)建相關(guān)領(lǐng)域內(nèi)的知識庫詞典,這就造成較高的人工構(gòu)建的覆蓋率和代價。使用傳統(tǒng)的語法解析方法,可以通過依存句法分析對初步的語義塊進(jìn)行提取,雖然在一定程度上能夠保證相應(yīng)的準(zhǔn)確度,但對于口語類型之類的短文本,只是使用依存句法分析得到的結(jié)果,并沒有理想的效果。
2.問題相關(guān)解決辦法
對于問答系統(tǒng)存在的問題,相應(yīng)的解決方法主要包括三類,與模式相關(guān)的問答系統(tǒng)、與統(tǒng)計學(xué)習(xí)相關(guān)的語義提取技術(shù)、與依賴樹相關(guān)的語義提取技術(shù)。對于與模式相關(guān)的問答系統(tǒng)而言,按照相應(yīng)的模板和規(guī)則,該方法采用的是基于模式匹配的語義提取方法,該方法是在用戶的語句中,找到符合相關(guān)規(guī)則的問句,然后使用提前制定好的模板進(jìn)行轉(zhuǎn)換。TBSL系統(tǒng)可以按照相應(yīng)的依賴關(guān)系、詞性關(guān)系,通過構(gòu)建相應(yīng)的SPARQL解析器,來生成相應(yīng)的查詢模板,而且在這個過程中使用更多的信息,能夠提高對三元組提取的準(zhǔn)確率,這要比直接使用依賴關(guān)系進(jìn)行構(gòu)建查詢的準(zhǔn)確率高。
三、大數(shù)據(jù)知識圖譜的電商領(lǐng)域問答系統(tǒng)架構(gòu)
1.問題的分類器
針對電商領(lǐng)域詞庫而言,在一定程度上將知識圖譜中的實體概念和相關(guān)屬性等詞匯引入其中,抽取的標(biāo)注根據(jù)所獲取的集成來進(jìn)行,通常情況下可以定義八種類型的問題。在進(jìn)行問題分類時,首先要對具體問題進(jìn)行相應(yīng)的分類,這樣能夠?qū)栴}的重點(diǎn)進(jìn)行快速的把握;然后再根據(jù)問題種類中提供的關(guān)鍵詞,可以有效構(gòu)造問句的類別向量。而對于問題的分類,其一般都是從統(tǒng)計學(xué)的角度進(jìn)行的。對于本文的問答系統(tǒng)而言,重點(diǎn)關(guān)注的是知識圖譜的問答鏈接數(shù)據(jù),只有更加清晰地了解這些數(shù)據(jù),才能夠更好設(shè)計相應(yīng)的問答系統(tǒng),并充分滿足用戶的需求。
2.關(guān)于序列詞性依賴的標(biāo)注問題
在分析重點(diǎn)詞匯的過程中,通常會利用到傳統(tǒng)的依存句法,這時比較重要的是實詞與實詞之間的關(guān)系。在一定程度上,有語義關(guān)系的詞匯需要更加關(guān)注。雖然在一定程度上,利用SDP可以對語義相關(guān)的詞匯關(guān)系進(jìn)行有效的提取,但是在實際的應(yīng)用中,這其中還存在著較多的問題,所以基于SDP的語義依存序列和特定領(lǐng)域中的實體序列,本文提出了一種依賴減縮的算法,該算法能夠進(jìn)行基于SDP的初始化。從一定程度上來講,OMT所代表的含義,是對這一條詞匯的關(guān)系進(jìn)行刪除,所有節(jié)點(diǎn)詞匯之間的鏈接需要進(jìn)行分開刪除,在進(jìn)行合并之后,也要保留詞匯之間的緣由節(jié)點(diǎn),之前的原點(diǎn)也可以繼續(xù)利用,用來做出指向的關(guān)系,能夠找到對該依賴進(jìn)行具體操作的實際操作,使其在問答系統(tǒng)中的實際效果得到有效的提升。
3.提取SPARAL
針對上面所涉及到的標(biāo)注序列,在使用的過程中可以生成相應(yīng)的SPARAL模板,在實際應(yīng)用中使用該模板,針對不同類型的問題在很大程度上能夠進(jìn)行針對性的回答。對于事實類的問題,定義了相應(yīng)的基礎(chǔ)查詢模板,對于類是完全正確的情況下,對應(yīng)的類型可以使用c去代替,然后通過利用相關(guān)的詞匯信息和依存句法分析,對三元組的相關(guān)信息進(jìn)行提取,針對不同用戶所提出的問題類型,制定出相對應(yīng)的語義模板,再結(jié)合相應(yīng)的實體信息,提取出有關(guān)問題的答案,從而保證問答系統(tǒng)為相關(guān)用戶提供所需要的更準(zhǔn)確的信息。
四、大數(shù)據(jù)知識圖譜的電商領(lǐng)域問答系統(tǒng)設(shè)計與實現(xiàn)
1.系統(tǒng)整體設(shè)計
該系統(tǒng)是在MVC的架構(gòu)上進(jìn)行設(shè)計完成,對于數(shù)據(jù)存儲層而言,主要存在兩種數(shù)據(jù)需要進(jìn)行存放,一種是電商領(lǐng)域知識庫的RDF數(shù)據(jù),另一種是Redis數(shù)據(jù)。整體知識圖譜的結(jié)構(gòu),通常使用的是RDF數(shù)據(jù)存儲,其能夠支持調(diào)用CEQA的算法包,而Redis只能支持部分調(diào)用CEQA的算法,但是Redis可以加速鏈接過程,提升系統(tǒng)的整體性能。邏輯層對前后端交互和邏輯算法部分進(jìn)行了隔離,而展示層使用的是HTML5技術(shù),該技術(shù)能夠根據(jù)用戶的不同問題類型,完成不同的展示任務(wù)。
2.數(shù)據(jù)緩存的設(shè)計與實現(xiàn)
Redis和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同,其是利用key-value類型數(shù)據(jù)庫可以對CEQA算法框架中的link環(huán)節(jié)進(jìn)行加速,能夠有效提高link算法的工作效率。對Redis的基本存儲結(jié)構(gòu)進(jìn)行定義,進(jìn)而對RDF的三元組數(shù)據(jù)進(jìn)行快速查詢,能夠避免對jean-api進(jìn)行直接調(diào)用,可以有效縮短三元組的簡單鏈接過程。
3.View層的設(shè)計與實現(xiàn)
ECharts是一個具有強(qiáng)大制圖和可視化庫以及高度可定制的圖表,CEQA系統(tǒng)在EChart的基礎(chǔ)上進(jìn)行了前端交互的設(shè)計,擁有不同用戶不一樣的問題類別,可以進(jìn)行不同形式的展示。系統(tǒng)通過對ECharts關(guān)系圖部分功能進(jìn)行修改,能夠有效滿足用戶點(diǎn)擊、拖動、懸停相應(yīng)的知識數(shù)據(jù),并且可以重新定義節(jié)點(diǎn)和邊的基本數(shù)據(jù)結(jié)構(gòu)。
4.CEQA-Live-Service的設(shè)計與實現(xiàn)
CEQA-Live-Service是基于MVC框架進(jìn)行設(shè)計的,能夠?qū)ν馓峁〩TTP的訪問接口,該項目是利用maven2進(jìn)行構(gòu)建,通過使用java語言進(jìn)行編寫,具有容易移植和跨平臺的優(yōu)點(diǎn),Control層能夠支持與前端進(jìn)行交互,并提供3個相應(yīng)的接口。
五、總結(jié)
綜上所述,近年來,我國電商行業(yè)發(fā)展迅速,用戶對于商品的咨詢量較大,對于電商這樣的焦點(diǎn)領(lǐng)域,設(shè)計出一種基于知識圖譜的電商領(lǐng)域問答系統(tǒng),能夠很好地緩解相關(guān)人工客服的壓力,并且通過結(jié)合用戶信息進(jìn)行相應(yīng)的擴(kuò)展,可以為用戶提供更好的、個性化的智能服務(wù)。通過對基于知識圖譜的電商領(lǐng)域問答系統(tǒng)的設(shè)計進(jìn)行研究,也能夠更好實現(xiàn)知識圖譜的價值。
參考文獻(xiàn):
[1]廖美紅.基于中文知識圖譜的電商領(lǐng)域問答算法設(shè)計與系統(tǒng)實現(xiàn)[J].商場現(xiàn)代化,2019(05):34-35.
[2]杜澤宇,楊燕,賀樑.基于中文知識圖譜的電商領(lǐng)域問答系統(tǒng)[J].計算機(jī)應(yīng)用與軟件,2017,34(05):153-159.
[3]楊燕.面向電商領(lǐng)域的智能問答系統(tǒng)若干關(guān)鍵技術(shù)研究[D].華東師范大學(xué),2016.
[4]杜澤宇.基于中文知識圖譜的電商領(lǐng)域問答算法設(shè)計與系統(tǒng)實現(xiàn)[D].華東師范大學(xué),2016.
作者簡介:廖美紅,女,廣西南寧人,廣西工商職業(yè)技術(shù)學(xué)院計算機(jī)教學(xué)骨干教師,副教授