劉澤 徐瀟潔 邵波
摘 要 隨著人工智能技術(shù)的發(fā)展,智能咨詢機(jī)器人可作為智慧圖書館咨詢服務(wù)的新選擇。論文從圖書館咨詢服務(wù)的實(shí)際需求出發(fā),搭建圖書館智能咨詢機(jī)器人系統(tǒng)框架,基于知識(shí)庫(kù)、文本硬匹配、相似度匹配、深度學(xué)習(xí)等技術(shù),分別構(gòu)建面向寒暄類和咨詢類的問(wèn)答子系統(tǒng)和面向任務(wù)類的對(duì)話子系統(tǒng),并研究其應(yīng)用效果。圖書館通過(guò)多策略混合的問(wèn)答系統(tǒng)模型構(gòu)建智能咨詢機(jī)器人,能夠提高問(wèn)答系統(tǒng)的性能,為讀者提供更優(yōu)質(zhì)準(zhǔn)確的參考咨詢服務(wù)。
關(guān)鍵詞 多策略混合;咨詢服務(wù);智能咨詢機(jī)器人;系統(tǒng)框架
分類號(hào) G251
DOI 10.16810/j.cnki.1672-514X.2022.05.008
Design and Application of Library Consultation Robot Based on Multi-strategy Mixed Question Answering System Model
Liu Ze, Xu Xiaojie, Shao Bo
Abstract With the development of artificial intelligence technology, intelligent consulting robots can be used as a new choice for library consulting services. The framework of intelligent library consulting robots was built according to the actual needs of library consulting services. Based on repository text hard matching, similarity matching and deep learning, a question-and-answer subsystem for greetings and consulting and a dialogue subsystem for task-oriented dialogues were constructed respectively. This paper analyzed the effect of its application. An consulting robot platform is built through a multi-strategy mixed question answering system model, which can improve the performance of the question answering system and provide readers with more high-quality and accurate reference consulting services.
Keywords Multi-strategy. Consulting service. Intelligent consulting robot. System construction.
0 引言
現(xiàn)如今,人工智能技術(shù)正在影響社會(huì)生活和經(jīng)濟(jì)發(fā)展的方方面面。2019年,李克強(qiáng)總理在政府工作報(bào)告中提出“深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用”作為政府工作的重要建議[1]。人工智能的技術(shù)創(chuàng)新、軟硬件升級(jí)以及相關(guān)學(xué)科的發(fā)展,使其滲透至各行各業(yè),推動(dòng)著數(shù)字化、網(wǎng)絡(luò)化社會(huì)過(guò)渡到智能化社會(huì)。同時(shí),由于圖書館知識(shí)資源密集和人力資源短缺的特點(diǎn),圖書館工作迫切需要人工智能強(qiáng)大的數(shù)據(jù)處理能力與自我學(xué)習(xí)能力幫助圖書館館員完成復(fù)雜或重復(fù)的任務(wù)。咨詢服務(wù)作為圖書館傳統(tǒng)的業(yè)務(wù)工作,多年來(lái)都是由館員提供咨詢幫助,需要較高的人力成本[2]。面對(duì)機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、深度學(xué)習(xí)等多種人工智能技術(shù)的發(fā)展和廣泛應(yīng)用,圖書館智能咨詢機(jī)器人作為虛擬的圖書館館員,可以為讀者提供不間斷的在線服務(wù),提高咨詢效率,減輕館員的工作量。
然而,即使高校圖書館正努力向“智慧圖書館”進(jìn)行變革,全國(guó)僅有13所“雙一流”高校圖書館采用智能機(jī)器人提供咨詢服務(wù),表明高校智能咨詢服務(wù)仍未充分發(fā)展[3]。此外,當(dāng)前投入應(yīng)用的圖書館咨詢機(jī)器人缺乏與圖書館咨詢服務(wù)相關(guān)的專業(yè)知識(shí)庫(kù),并且不支持動(dòng)態(tài)更新;機(jī)器人回答問(wèn)題不夠準(zhǔn)確。為解決上述問(wèn)題,本文構(gòu)建多策略混合的問(wèn)答系統(tǒng)模型。以此提高智能機(jī)器人的工作效率和用戶滿意度,以期為圖書館智能咨詢機(jī)器人的發(fā)展提供思路。
1 智能咨詢機(jī)器人研究現(xiàn)狀
1.1 國(guó)外研究與應(yīng)用
國(guó)外對(duì)圖書館咨詢機(jī)器人的研究較早,并且范圍較廣,主要包括理論研究、實(shí)際應(yīng)用和功能優(yōu)化三個(gè)方面。
在理論研究方面,有不少學(xué)者探討了圖書館應(yīng)用咨詢機(jī)器人的必要性。Peter Fernandez[4]調(diào)查了圖書館新技術(shù)將如何影響圖書館,發(fā)現(xiàn)許多圖書館已經(jīng)設(shè)有在線專家聊天,相信在不久的將來(lái),完全可以將大多數(shù)基本參考問(wèn)題移交給聊天機(jī)器人。2020年,Kane[5]對(duì)ANTswers從2014年創(chuàng)建至2018年產(chǎn)生的聊天記錄進(jìn)行分析評(píng)估,結(jié)果表明ANTswers對(duì)UCI圖書館的功用顯著,定期分析統(tǒng)計(jì)用戶請(qǐng)求的資源與服務(wù)類型,可以對(duì)圖書館館員的工作起到指導(dǎo)作用。
在實(shí)際應(yīng)用方面,相較于其他學(xué)術(shù)機(jī)構(gòu),圖書館一直走在發(fā)現(xiàn)、利用和實(shí)現(xiàn)創(chuàng)新科技的前沿[6]。事實(shí)上,歐洲圖書館最早探索在圖書館中使用機(jī)器人,比如德國(guó)漢堡大學(xué)著名的Stella實(shí)驗(yàn)開發(fā)的機(jī)器人Stella,多特蒙德工業(yè)大學(xué)開發(fā)的Askademicus。此外,Nebraska-Lincoln[7]大學(xué)圖書館基于人工智能標(biāo)記語(yǔ)言的Pixel聊天機(jī)器人是美國(guó)首批上線的聊天機(jī)器人之一,Pixel能夠?qū)崿F(xiàn)模擬人類對(duì)話的交互式體驗(yàn),該系統(tǒng)通過(guò)廣泛收集圖書館網(wǎng)站的聊天咨詢記錄構(gòu)造其數(shù)據(jù)庫(kù),但僅能匹配回答有關(guān)圖書館服務(wù)和資源的常見(jiàn)問(wèn)題。此外,還有聯(lián)機(jī)計(jì)算機(jī)圖書館中心(Online Computer Library Center, OCLC)開發(fā)的機(jī)器人Lillian,Akron-Summit County Public Library(ASCPL)和Mentor Public Library(MPL)合作開發(fā)的咨詢機(jī)器人Emma等[8],圖書館咨詢機(jī)器人的應(yīng)用越來(lái)越普遍。
在功能優(yōu)化方面,J.Hartsell-Gundy[9]認(rèn)為圖書館參考咨詢服務(wù)的核心是通過(guò)遠(yuǎn)程呈現(xiàn)系統(tǒng)與機(jī)器人相結(jié)合,在現(xiàn)有的參考服務(wù)中增加遠(yuǎn)程呈現(xiàn)功能可以擴(kuò)大咨詢機(jī)器人的服務(wù)覆蓋范圍,使咨詢機(jī)器人能夠不受空間限制與讀者進(jìn)行互動(dòng),并使得其服務(wù)內(nèi)容更加豐富。悉尼科技大學(xué)[10]在現(xiàn)有咨詢機(jī)器人的基礎(chǔ)上,開發(fā)了一個(gè)圖書館咨詢機(jī)器人原型,進(jìn)一步研究如何利用咨詢機(jī)器人提高大學(xué)生學(xué)術(shù)研究的潛力,為圖書館機(jī)器人添加了個(gè)性化配置。
1.2 國(guó)內(nèi)研究與應(yīng)用
圖書館咨詢機(jī)器人的主要應(yīng)用在于參考咨詢服務(wù)。郭山[11]對(duì)31個(gè)省級(jí)公共圖書館的參考咨詢現(xiàn)狀展開深入調(diào)研,并討論了圖書館利用咨詢機(jī)器人提供參考咨詢服務(wù)的必要性,總結(jié)出咨詢機(jī)器人主要有準(zhǔn)確性高、實(shí)時(shí)在線、操作簡(jiǎn)單等優(yōu)點(diǎn)。此外,焦?jié)峓12]利用UTAUT2模型,對(duì)用戶使用咨詢機(jī)器人的影響因素展開問(wèn)卷調(diào)查與分析,最終發(fā)現(xiàn)享樂(lè)動(dòng)機(jī)、便利條件和績(jī)效期望等是主要影響因素,進(jìn)而為咨詢機(jī)器人的參考咨詢服務(wù)提供改進(jìn)策略,以提高其用戶粘性與使用頻率。
國(guó)內(nèi)許多圖書館正積極投入咨詢機(jī)器人的設(shè)計(jì)與應(yīng)用,主要有兩種模式:基于開源系統(tǒng)的二次開發(fā)和對(duì)接商用軟件。基于開源系統(tǒng)二次開發(fā)的機(jī)器人主要包括基于BotPlatform開源平臺(tái)、基于ALICE開源系統(tǒng)、基于AIMLBot開源平臺(tái)、基于微信和移動(dòng)App[13]這4種服務(wù)模式。2008年上海交通大學(xué)最早利用開放式BotPlatform平臺(tái)開發(fā)出具有“聊天”“參考咨詢”和“圖書檢索”等功能的服務(wù)機(jī)器人[14]。2011年清華大學(xué)創(chuàng)新性地利用ALICE開源軟件構(gòu)建咨詢機(jī)器人“小圖”,“小圖”具有自我學(xué)習(xí)的功能,并且能為讀者提供資源查閱、借閱提醒等多種服務(wù)[15];此后,2014年清華大學(xué)圖書館將“小圖”的服務(wù)范圍擴(kuò)展到App和微信端等移動(dòng)端[16]。此外,還有重慶文理學(xué)院圖書館基于AIMLBot開源平臺(tái)的虛擬參考咨詢機(jī)器人等。
在對(duì)接商用軟件方面,許多圖書館選擇直接與商業(yè)客戶服務(wù)機(jī)器人對(duì)接,圖書館僅需要將多年來(lái)積累的咨詢記錄和常見(jiàn)問(wèn)題以軟件所需的格式導(dǎo)入知識(shí)庫(kù),并在線配置相關(guān)服務(wù)。例如,西安電子科技大學(xué)圖書館于2019年采用的曉多智能客服機(jī)器人[17],可以與App、網(wǎng)頁(yè)、微信和其他客戶端進(jìn)行交互,實(shí)現(xiàn)多渠道為用戶提供咨詢服務(wù)。但是商用機(jī)器人價(jià)格昂貴且難以二次開發(fā),并且作為通用智能客戶服務(wù)軟件,它與圖書館業(yè)務(wù)并不完全吻合。
2 圖書館咨詢機(jī)器人現(xiàn)存問(wèn)題及要求
筆者通過(guò)對(duì)圖書館智能咨詢機(jī)器人應(yīng)用現(xiàn)狀展開調(diào)查,發(fā)現(xiàn)存在的問(wèn)題主要有以下幾個(gè)方面:(1)線上線下數(shù)據(jù)沒(méi)有統(tǒng)一的運(yùn)營(yíng)管理后臺(tái)。對(duì)線上咨詢渠道如QQ、微信和網(wǎng)頁(yè)等和線下咨詢渠道如實(shí)體機(jī)器人沒(méi)有進(jìn)行統(tǒng)一的管理,導(dǎo)致實(shí)時(shí)數(shù)據(jù)無(wú)法自動(dòng)導(dǎo)入知識(shí)庫(kù),需要定期人工整理添加至知識(shí)庫(kù),浪費(fèi)了碎片化數(shù)據(jù)所帶來(lái)的巨大價(jià)值。(2)商用機(jī)器人成本過(guò)高。采用商用咨詢機(jī)器人雖然功能和算法上都相對(duì)穩(wěn)定成熟,但是基于后臺(tái)算法以及業(yè)務(wù)處理的邏輯,無(wú)法實(shí)行定制化,且商業(yè)平臺(tái)成本過(guò)高,普通的公共圖書館與高校圖書館通常只能購(gòu)買商用機(jī)器人的部分功能。(3)自建機(jī)器人構(gòu)建難度大。目前高校自建的咨詢機(jī)器人只能實(shí)現(xiàn)最為基礎(chǔ)的日常咨詢,與商用軟件差距較大。知識(shí)庫(kù)與語(yǔ)料庫(kù)無(wú)法實(shí)現(xiàn)自動(dòng)更新,需要圖書館館員定期人工操作來(lái)更新;此外,大多數(shù)高校咨詢機(jī)器人只能完成單輪會(huì)話功能,需要進(jìn)一步開發(fā)多輪會(huì)話功能,并且自建咨詢機(jī)器人需要一定的磨合期和調(diào)整期才能達(dá)到穩(wěn)定的效果,無(wú)法快速投入使用。
通過(guò)對(duì)圖書館智能咨詢機(jī)器人服務(wù)現(xiàn)狀的調(diào)研,并借鑒已有系統(tǒng)的成功經(jīng)驗(yàn),筆者認(rèn)為在之后的平臺(tái)構(gòu)建中應(yīng)滿足以下需求:(1)實(shí)現(xiàn)服務(wù)自助化:咨詢機(jī)器人能夠?qū)崿F(xiàn)24*7全天為用戶提供服務(wù),并且線上平臺(tái)可以同時(shí)對(duì)接多個(gè)用戶,以一致、及時(shí)地回答解決用戶的疑問(wèn);此外,對(duì)于知識(shí)庫(kù)中沒(méi)有涵蓋的問(wèn)題,咨詢機(jī)器人難以做出合理答復(fù),此時(shí),用戶可以選擇人工服務(wù),轉(zhuǎn)接圖書館館員,為其提供在線幫助。(2)實(shí)現(xiàn)管理統(tǒng)一化:智能咨詢機(jī)器人能夠與多種客戶端對(duì)接,這樣用戶可以通過(guò)多種平臺(tái)進(jìn)行參考咨詢服務(wù);同時(shí),圖書館館員只需管理一個(gè)后臺(tái),便能夠?qū)崿F(xiàn)對(duì)多種渠道知識(shí)庫(kù)的統(tǒng)一管理。(3)實(shí)現(xiàn)知識(shí)動(dòng)態(tài)化:咨詢機(jī)器人系統(tǒng)能夠自動(dòng)收集用戶咨詢數(shù)據(jù),定期擴(kuò)充后臺(tái)知識(shí)庫(kù)的內(nèi)容,不斷優(yōu)化參考咨詢服務(wù)的效果。(4)滿足場(chǎng)景全面化:在控制經(jīng)濟(jì)成本的前提下,首先針對(duì)讀者不同咨詢問(wèn)句類型能夠智能判斷,做出多元應(yīng)答模式。其次,針對(duì)用戶提問(wèn)意圖模糊、用戶提問(wèn)拒識(shí)、用戶提問(wèn)不完整等多種情形,均能夠返回正確的應(yīng)答提示,形成用戶體驗(yàn)閉環(huán)。最后借鑒商用客服系統(tǒng),可以提供特色功能如輸入聯(lián)想、熱門問(wèn)題、滿意度評(píng)價(jià)等來(lái)提高讀者滿意度。
3 圖書館智能咨詢機(jī)器人系統(tǒng)設(shè)計(jì)
3.1 系統(tǒng)問(wèn)答流程
本文設(shè)計(jì)的是一種多策略融合的自動(dòng)問(wèn)答系統(tǒng),研究在圖書館參考咨詢這個(gè)專業(yè)領(lǐng)域內(nèi)實(shí)現(xiàn)對(duì)用戶自然語(yǔ)言的分析和理解,通過(guò)對(duì)用戶問(wèn)句的分析,系統(tǒng)利用不同的策略給出準(zhǔn)確的答復(fù)。多策略是指針對(duì)不同類型的問(wèn)句系統(tǒng)調(diào)用不同的技術(shù)模型,提高回復(fù)的準(zhǔn)確性。系統(tǒng)如圖1所示,技術(shù)模型主要分為對(duì)話系統(tǒng)(針對(duì)任務(wù)類問(wèn)句)和問(wèn)答系統(tǒng)(針對(duì)咨詢類問(wèn)句和寒暄類問(wèn)句)兩大子系統(tǒng),其中問(wèn)答系統(tǒng)又可以細(xì)分為文本硬匹配、相似度匹配和深度學(xué)習(xí)三種功能模塊。
首先,用戶根據(jù)需求鍵入自然語(yǔ)言問(wèn)句,系統(tǒng)會(huì)調(diào)用對(duì)話系統(tǒng)識(shí)別其對(duì)話意圖,如果問(wèn)句成功匹配為任務(wù)類問(wèn)句,那么用戶將進(jìn)入流程式對(duì)話,隨后用戶需按照咨詢機(jī)器人的引導(dǎo)提供相關(guān)需求信息,咨詢機(jī)器人將返回相應(yīng)的答復(fù);若匹配失敗,對(duì)話則進(jìn)入問(wèn)答系統(tǒng)。問(wèn)答系統(tǒng)會(huì)根據(jù)已構(gòu)建的寒暄庫(kù),對(duì)問(wèn)句進(jìn)行文本硬匹配,若匹配成功,則輸出答案;否則會(huì)利用相似度匹配,若相似度大于閾值,則輸出答案,反之,則調(diào)用深度學(xué)習(xí)模塊,再根據(jù)概率分布和置信區(qū)間進(jìn)行判別,判別成功則輸出答案。若系統(tǒng)仍未成功識(shí)別,則轉(zhuǎn)接人工服務(wù),將拒識(shí)問(wèn)題發(fā)送給圖書館館員。此外,系統(tǒng)后臺(tái)會(huì)定期挖掘在線日志、聚類、人工標(biāo)注等,以此訓(xùn)練深度學(xué)習(xí)模型,提高模型的精確性和靈活性,使系統(tǒng)越來(lái)越“智慧化”。
3.2 智能咨詢機(jī)器人系統(tǒng)框架
根據(jù)圖書館參考咨詢服務(wù)的特點(diǎn),結(jié)合對(duì)南京大學(xué)圖書館讀者參考咨詢內(nèi)容的分析研究,本文將用戶所提出的問(wèn)句分為三類:閑聊類、咨詢類以及任務(wù)類。閑聊類和咨詢類的問(wèn)句分別對(duì)應(yīng)的應(yīng)用場(chǎng)景為“寒暄”和“一問(wèn)一答”,這兩種應(yīng)用場(chǎng)景都采用面向寒暄類和咨詢類的問(wèn)答子系統(tǒng),模式為單輪對(duì)話。任務(wù)類的問(wèn)句屬于“多輪會(huì)話”的應(yīng)用場(chǎng)景,采用面向任務(wù)類的對(duì)話子系統(tǒng),模式為多輪對(duì)話。
基于已有的研究基礎(chǔ),本文構(gòu)建基于多策略混合問(wèn)答系統(tǒng)模型的圖書館智能咨詢機(jī)器人系統(tǒng),系統(tǒng)總體架構(gòu)如圖2所示。該系統(tǒng)分為物理層、源數(shù)據(jù)層、知識(shí)資源層、技術(shù)層和應(yīng)用層五個(gè)部分。
物理層:以基礎(chǔ)設(shè)施即服務(wù)(IaaS)的形式提供基礎(chǔ)服務(wù),如安全支持、系統(tǒng)維護(hù)和數(shù)據(jù)存儲(chǔ)等,從各方面保障整個(gè)平臺(tái)的正常運(yùn)作。
源數(shù)據(jù)層:主要為知識(shí)資源層知識(shí)庫(kù)的構(gòu)建提供原始數(shù)據(jù)與知識(shí)儲(chǔ)備,原始數(shù)據(jù)主要來(lái)源于網(wǎng)絡(luò)數(shù)據(jù)、詞表資源、垂直領(lǐng)域知識(shí)庫(kù)和歷史問(wèn)答數(shù)據(jù)等。首先,常識(shí)和寒暄語(yǔ)料收錄于相關(guān)網(wǎng)站和調(diào)用的API接口。其次,為了擴(kuò)充參考咨詢服務(wù)范圍,需要利用知識(shí)圖譜等技術(shù)將學(xué)術(shù)信息添加到對(duì)話子系統(tǒng)中,各類詞表資源是必不可少的。此外,垂直領(lǐng)域知識(shí)庫(kù)主要包含了學(xué)術(shù)信息資源。最后,可從圖書館參考咨詢服務(wù)部門獲取歷史問(wèn)答數(shù)據(jù),一方面,要獲取圖書館線上參考咨詢系統(tǒng)中FAQ常見(jiàn)問(wèn)題、實(shí)時(shí)咨詢和非實(shí)時(shí)異步咨詢產(chǎn)生的相關(guān)數(shù)據(jù),另一方面要收集館員在服務(wù)過(guò)程中積累的問(wèn)答經(jīng)驗(yàn)。
知識(shí)資源層:為參考咨詢服務(wù)提供數(shù)據(jù)來(lái)源,同時(shí)也是技術(shù)層和應(yīng)用層的數(shù)據(jù)基礎(chǔ),將源數(shù)據(jù)整理歸納后得到分詞詞表、停用詞表、同義詞表、寒暄庫(kù)、FAQ庫(kù)、任務(wù)場(chǎng)景庫(kù)以及本體庫(kù)。利用分詞詞表和停用詞表將問(wèn)答子系統(tǒng)中的文本數(shù)據(jù)進(jìn)行預(yù)處理;同義詞表的應(yīng)用主要是為了提高用戶問(wèn)句的匹配度;寒暄庫(kù)應(yīng)用于與用戶的閑聊和寒暄;FAQ庫(kù)為常見(jiàn)的咨詢問(wèn)題提供接單;任務(wù)場(chǎng)景庫(kù)用于為對(duì)話子系統(tǒng)提供數(shù)據(jù)支持;本體庫(kù)存儲(chǔ)了各類學(xué)術(shù)領(lǐng)域?qū)I(yè)知識(shí),為用戶的學(xué)術(shù)資源查詢提供數(shù)據(jù)支撐。
技術(shù)層:筆者對(duì)圖書館參考咨詢服務(wù)進(jìn)行調(diào)查研究,發(fā)現(xiàn)可以將用戶咨詢可以分為“一問(wèn)一答”和“多輪會(huì)話”兩種模式,“一問(wèn)一答”模式是基于FAQ(問(wèn)題—答案對(duì)集合)匹配用戶問(wèn)句;而“多輪會(huì)話”則是咨詢機(jī)器人不斷向用戶獲取用以實(shí)現(xiàn)特定查詢?nèi)蝿?wù)的相關(guān)信息所進(jìn)行的流程式問(wèn)答,針對(duì)兩種類型的問(wèn)句,分別調(diào)用問(wèn)答子系統(tǒng)和對(duì)話子系統(tǒng)來(lái)進(jìn)行處理。
應(yīng)用層:包括智能咨詢問(wèn)答和機(jī)器人管理兩個(gè)模塊。智能咨詢問(wèn)答模塊用于為用戶提供圖書館參考咨詢服務(wù),既提供智能問(wèn)答和交互問(wèn)答等核心功能,還包括輸入聯(lián)想、關(guān)聯(lián)問(wèn)題、熱門問(wèn)題等個(gè)性化功能。機(jī)器人管理模塊用于幫助館員對(duì)智能咨詢機(jī)器人進(jìn)行運(yùn)營(yíng)管理,如熱門問(wèn)題管理、數(shù)據(jù)報(bào)表統(tǒng)計(jì)分析和知識(shí)庫(kù)管理等。
4 技術(shù)實(shí)現(xiàn)環(huán)節(jié)及其應(yīng)用效果
4.1 知識(shí)庫(kù)構(gòu)建
智能咨詢系統(tǒng)中知識(shí)資源層所需要的分詞詞表、停用詞表和同義詞表均可從網(wǎng)上獲取,此外,寒暄庫(kù)、FAQ庫(kù)和任務(wù)場(chǎng)景庫(kù)需要人工構(gòu)建。
問(wèn)答子系統(tǒng)的準(zhǔn)確率和召回率由FAQ庫(kù)的質(zhì)量直接決定。本文主要通過(guò)四種渠道來(lái)收集問(wèn)題—答案集:(1)對(duì)提供FAQ咨詢方式的“雙一流”A類高校進(jìn)行內(nèi)容爬取;(2)按照用戶常用的提問(wèn)方式,將從各圖書館官網(wǎng)收集參考咨詢服務(wù)的相關(guān)信息與知識(shí)進(jìn)行轉(zhuǎn)換(3)通過(guò)采訪圖書館館員,獲取其在提供參考咨詢服務(wù)時(shí)所積累的經(jīng)驗(yàn);(4)參考學(xué)者對(duì)問(wèn)答系統(tǒng)的專業(yè)研究。將收集到的問(wèn)題—答案集進(jìn)行整理,歸納整合相似問(wèn)句,得到包含801條問(wèn)句—答案對(duì)的FAQ庫(kù)。最后邀請(qǐng)圖書館參考咨詢服務(wù)部門的老師對(duì)FAQ庫(kù)進(jìn)行復(fù)核,完成FAQ庫(kù)的構(gòu)建。
其次,通過(guò)對(duì)圖書館參考咨詢服務(wù)的場(chǎng)景進(jìn)行調(diào)研,收集并整理其中有關(guān)任務(wù)型的對(duì)話場(chǎng)景,用于構(gòu)建對(duì)話子系統(tǒng)。當(dāng)問(wèn)句中存在任務(wù)目標(biāo)以及需要將請(qǐng)求參數(shù)化時(shí),則可判斷該問(wèn)句為任務(wù)型的問(wèn)句,通過(guò)此依據(jù)整理得到任務(wù)。
此外,為了提高用戶的人機(jī)交互體驗(yàn),本文構(gòu)建的智能咨詢機(jī)器人除了能為用戶提供專業(yè)的參考咨詢服務(wù)外,還構(gòu)建了寒暄庫(kù),實(shí)現(xiàn)與用戶的日常寒暄,如“你好”“謝謝”“再見(jiàn)”等[18],增加用戶對(duì)咨詢機(jī)器人的好感度。
4.2 面向咨詢類和寒暄類的問(wèn)答子系統(tǒng)
本文采用問(wèn)答子系統(tǒng)和對(duì)話子系統(tǒng)相結(jié)合的雙策略模式,以改進(jìn)智能咨詢問(wèn)答系統(tǒng)的服務(wù)效果。當(dāng)用戶輸入的問(wèn)句匹配為任務(wù)型問(wèn)句時(shí),則進(jìn)入對(duì)話子系統(tǒng),進(jìn)行多輪流程式對(duì)話;否則,將進(jìn)入問(wèn)答子系統(tǒng)。
本文基于文本硬匹配、相似度匹配和深度學(xué)習(xí)三個(gè)模塊,構(gòu)建問(wèn)答子系統(tǒng)。因?yàn)楹颜Z(yǔ)句比較簡(jiǎn)練,用相似度匹配的效果較差,因此本文采用完全匹配的策略,當(dāng)對(duì)話進(jìn)入問(wèn)答子系統(tǒng)后,利用文本硬匹配對(duì)問(wèn)句進(jìn)行文本硬匹配,快速對(duì)寒暄作出回復(fù)。若匹配失敗,在進(jìn)入相似度匹配子模塊時(shí)還可以將寒暄語(yǔ)作為停用詞處理用戶問(wèn)句,提高準(zhǔn)確率。
本文選擇基于向量空間模型和基于語(yǔ)義詞典相結(jié)合的方法來(lái)計(jì)算句子的相似度?;谙蛄靠臻g模型的TF-IDF方法[19],將用戶輸入的問(wèn)句利用Jieba庫(kù)進(jìn)行文本預(yù)處理,即對(duì)Query進(jìn)行去停用詞、詞性標(biāo)注和分詞等處理[20],再運(yùn)用Gensim框架中的TF-IDF模型處理用戶輸入的問(wèn)句,通過(guò)余弦距離進(jìn)行相似度計(jì)算。
當(dāng)FAQ庫(kù)中的問(wèn)答對(duì)不斷增加,如果單純地依賴文本硬匹配和相似度匹配模塊,將會(huì)導(dǎo)致計(jì)算效率和準(zhǔn)確率低下的問(wèn)題。因此本文提出利用Bi-LSTM和CNN結(jié)合形成的LSTM_CNN深度學(xué)習(xí)分類模型來(lái)改進(jìn)候選集的質(zhì)量,得到高質(zhì)量并且與用戶問(wèn)句語(yǔ)義相關(guān)的候選集,從而提高匹配的精確性。該深度學(xué)習(xí)分類神經(jīng)網(wǎng)絡(luò)架構(gòu)如圖3所示[21]。
此外,智能咨詢機(jī)器人系統(tǒng)的深度學(xué)習(xí)支持自我學(xué)習(xí)的功能。系統(tǒng)將無(wú)法識(shí)別的用戶問(wèn)句定期進(jìn)行聚類處理,圖書館館員再對(duì)收集到的語(yǔ)料進(jìn)行清理和標(biāo)注,接著利用新的語(yǔ)料集訓(xùn)練LSTM_CNN網(wǎng)絡(luò)模型,并且對(duì)模型進(jìn)行測(cè)評(píng),只有當(dāng)準(zhǔn)確度達(dá)到閾值時(shí),才將模型投入線上運(yùn)行,否則繼續(xù)完善語(yǔ)料集。該模型提高了智能咨詢機(jī)器人的學(xué)習(xí)能力,通過(guò)持續(xù)對(duì)模型的訓(xùn)練和語(yǔ)料庫(kù)的完善,使得機(jī)器人的回答準(zhǔn)確度得以提高,從而改善用戶的人機(jī)體驗(yàn)。
4.3 面向任務(wù)類的對(duì)話子系統(tǒng)
本文調(diào)研了國(guó)內(nèi)應(yīng)用最為廣泛的7種具有多輪會(huì)話功能的聊天機(jī)器人系統(tǒng),結(jié)合圖書館領(lǐng)域的應(yīng)用場(chǎng)景,調(diào)研主要從自然語(yǔ)言理解、對(duì)話管理和擴(kuò)展功能三個(gè)方面展開,調(diào)研結(jié)果如表1所示。根據(jù)調(diào)研結(jié)果,結(jié)合平臺(tái)的實(shí)用性、功能種類、應(yīng)用效果和成本等因素綜合考慮,本文最終選擇在百度的UNIT對(duì)話系統(tǒng)的基礎(chǔ)上構(gòu)建對(duì)話子系統(tǒng)。
為了解決用戶意圖模糊或表述不清的問(wèn)題,系統(tǒng)首先需要定義意圖和詞槽,UNIT平臺(tái)支持自定義詞典,也可選擇系統(tǒng)預(yù)設(shè)詞典,本文結(jié)合圖書館參考咨詢服務(wù)的應(yīng)用場(chǎng)景,選擇自定義詞典,再設(shè)置詞槽與意圖關(guān)聯(lián)屬性。其次,導(dǎo)入樣本數(shù)據(jù)集訓(xùn)練模型,樣本數(shù)據(jù)集需要包括真實(shí)場(chǎng)景下用戶的各種問(wèn)句與標(biāo)注部分,需要標(biāo)注所有問(wèn)句的意圖和槽位。最后,完成模型的訓(xùn)練后,可以進(jìn)行測(cè)試體驗(yàn)。
4.4 應(yīng)用效果
南京大學(xué)圖書館推出了實(shí)體機(jī)器人“圖寶”,并設(shè)計(jì)出圖書館智能問(wèn)答系統(tǒng)“圖寶在線”,打造了智慧圖書館咨詢機(jī)器人,統(tǒng)一管理線上線下的咨詢服務(wù),幫助讀者通過(guò)任意兼容的終端來(lái)獲取精準(zhǔn)化的知識(shí)[22]。
南京大學(xué)智能咨詢機(jī)器人平臺(tái)通過(guò)API或SDK與圖書館網(wǎng)站、微信公眾號(hào)、QQ在線咨詢、App,甚至館內(nèi)移動(dòng)的實(shí)體機(jī)器人等客戶端進(jìn)行對(duì)接,讀者通過(guò)訪問(wèn)或者登陸可以和機(jī)器人之間建立通信鏈路。所有咨詢都預(yù)先進(jìn)入機(jī)器人渠道,通過(guò)機(jī)器人進(jìn)行讀者識(shí)別、問(wèn)句處理、意圖識(shí)別、知識(shí)庫(kù)檢索、輸出答案、學(xué)習(xí)挖掘等等,只有在機(jī)器人無(wú)法識(shí)別讀者問(wèn)題或者讀者主動(dòng)要求在線館員服務(wù)時(shí)才會(huì)進(jìn)入人工服務(wù)。
目前,南京大學(xué)智慧圖書館智能咨詢機(jī)器人平臺(tái)部分實(shí)現(xiàn)了本研究構(gòu)建的框架中的主要模塊,如咨詢類問(wèn)答、寒暄類問(wèn)答、對(duì)話類問(wèn)答等,但由于本平臺(tái)還在試用階段,還存在問(wèn)題—答案的匹配準(zhǔn)確率不高,無(wú)法使用數(shù)據(jù)來(lái)量化平臺(tái)運(yùn)行效果的問(wèn)題,在日后的研究中還需補(bǔ)足。
5 結(jié)語(yǔ)
本文基于對(duì)國(guó)內(nèi)外圖書館咨詢機(jī)器人的研究成果的分析,創(chuàng)新性地提出了一種多策略混合的問(wèn)答系統(tǒng)模型,并根據(jù)問(wèn)句的類型分別構(gòu)建問(wèn)答子系統(tǒng)和對(duì)話子系統(tǒng),實(shí)現(xiàn)了以此為框架的圖書館參考咨詢機(jī)器人平臺(tái),該系統(tǒng)現(xiàn)已初步應(yīng)用于南京大學(xué)智慧圖書館系統(tǒng)。為了提高智能咨詢機(jī)器人的服務(wù)水平,未來(lái)可從這些方面進(jìn)行優(yōu)化:(1)提高問(wèn)題識(shí)別精度。通過(guò)提高機(jī)器人對(duì)關(guān)鍵詞提取和問(wèn)題識(shí)別匹配的精確性,加深對(duì)用戶問(wèn)題背景、情境和任務(wù)的理解,從而提高回答的準(zhǔn)確性;(2)健全咨詢機(jī)器人評(píng)價(jià)體系,可通過(guò)設(shè)計(jì)自動(dòng)評(píng)分反饋系統(tǒng),收集用戶對(duì)咨詢服務(wù)的滿意度與意見(jiàn),以期提高機(jī)器人的服務(wù)效果;(3)進(jìn)一步挖掘咨詢機(jī)器人在參考咨詢服務(wù)中的應(yīng)用,包括引導(dǎo)用戶、指定用戶個(gè)性化服務(wù)、智能推薦圖書及相關(guān)信息等功能。
參考文獻(xiàn):
中國(guó)政府網(wǎng).政府工作報(bào)告(文字實(shí)錄)[EB/
OL].[2021-04-20].http://www.gov.cn/guowuyuan/2019-03/05/content_5370734.htm.
聶亮亮. 基于移動(dòng)端的圖書館咨詢服務(wù)研究與系統(tǒng)設(shè)計(jì)[D].南京:南京農(nóng)業(yè)大學(xué),2017:8-9.
趙蘋.“雙一流”建設(shè)背景下的高校圖書館智慧服務(wù)推進(jìn)路徑探究[J].大學(xué)圖書情報(bào)學(xué)刊,2019(4):44-47.
FERNANDEZ P. “Through the looking glass: envisioning new library technologies”how artificial intelligence will impact libraries[J]. Library Hi Tech News, 2016, 33(5):5-8.
Creating, managing and analyzing an academic library chatbot[EB/OL].[2020-02-28].http://bid.ub.edu/en/43/kane.htm.
初景利,段美珍.智慧圖書館與智慧服務(wù)[J].圖書館建設(shè),2018(4):85-90.
The University of Nebraska. Pixel[EB/OL].[2021-04-20].http://pixel.unl.edu.
ALLISON D A. Chatbots in the library: is it time?[J]. Library Hi Tech, 2012, 30(1):95-107.
HARTSELL-GUNDY J, JOHNSON E O, KROMER J. Testing telepresence remote reference service via robotics[J]. Reference & User Services Quarterly, 2015, 55(2):118-122.
MCKIE I A S , NARAYAN B. Enhancing the academic library experience with chatbots: an exploration of research and implications for practice[J]. Australian Library and Information Association, 2019, 68(3):268-277.
郭山.智能機(jī)器人技術(shù)在公共圖書館實(shí)時(shí)參考咨詢服務(wù)中的應(yīng)用[J].圖書館學(xué)研究,2017(10):58-61.
焦?jié)? 圖書館智能機(jī)器人應(yīng)用研究[D].鄭州:鄭州大學(xué),2020:1-2.
何瑤. 基于智能機(jī)器人的智慧圖書館服務(wù)研究[D].南京:南京大學(xué),2018:9-13.
孫翌,李鮑,曲建峰.圖書館智能化IM咨詢機(jī)器人的設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2011,27(5):88-92.
姚飛,紀(jì)磊,張成昱,等.實(shí)時(shí)虛擬參考咨詢服務(wù)新嘗試:清華大學(xué)圖書館智能聊天機(jī)器人[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2011,27(4):77-81.
姚飛,張成昱,陳武.清華智能聊天機(jī)器人“小圖”的移動(dòng)應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(7):120-126.
覃顯晶,王祥偉,莊卉卉.基于人工智能技術(shù)的圖書館咨詢機(jī)器人設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)探索,2019(3):91-97.
陸偉,戚越,胡瀟戈,等. 圖書館自動(dòng)問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].情報(bào)工程,2019(2):5-16.
薛蘇琴,牛永潔.基于向量空間模型的中文文本
相似度的研究[J].電子設(shè)計(jì)工程,2016,24(10):28-31.
黃賢英,謝晉,龍姝言.基于公共詞塊及N-gram模型的問(wèn)句相似度算法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,31(10):175-179,197.
史夢(mèng)飛,楊燕,賀樑,等.基于Bi-LSTM和CNN
并包含注意力機(jī)制的社區(qū)問(wèn)答問(wèn)句分類方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(9):157-162.
南京大學(xué)智慧圖書館二期:智能機(jī)器人正式發(fā)布
[EB/OL].[2021-04-20].https://bkzs.nju.edu.cn/0c/42
/c4547a199746/page.htm.
劉 澤 南京大學(xué)信息管理學(xué)院碩士研究生。 江蘇南京,210023。
徐瀟潔 南京大學(xué)信息管理學(xué)院碩士研究生。 江蘇南京,210023。
邵 波 南京大學(xué)圖書館副院長(zhǎng),信息管理學(xué)院教授、博士生導(dǎo)師。 江蘇南京,210023。
(收稿日期:2021-07-16 編校:陳安琪,左靜遠(yuǎn))