來云
〔摘 要〕圖書館智能化咨詢問答機(jī)器人是圖書館智能化機(jī)器人中的一種重要類型,系統(tǒng)設(shè)計是研究的首要內(nèi)容,語料技術(shù)則是其服務(wù)效能的核心要素。本文從圖書館智能化咨詢問答機(jī)器人的系統(tǒng)設(shè)計方案、問題語料庫和答案語料庫的建設(shè)與來源、分類類型、語料問題的分類與擴(kuò)展、個性化分析與處理等方面,對圖書館智能化咨詢問答機(jī)器人系統(tǒng)設(shè)計與語料技術(shù)進(jìn)行了研究。此項研究對于圖書館智能化咨詢問答機(jī)器人的全面研究具有參考和借鑒意義。
〔關(guān)鍵詞〕圖書館;智能機(jī)器人;咨詢問答機(jī)器人;系統(tǒng)設(shè)計;語料技術(shù)
DOI:10.3969/j.issn.1008-0821.2017.11.020
〔中圖分類號〕G258.94 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)11-0121-04
Research on System Design and Corpus Technology of Intelligent Advisory Question and Answering Robot in Library
Lai Yun
(Library,Qinzhou University,Qinzhou 535000,China)
〔Abstract〕The intelligent question answering robot in library is an important type of intelligent robot in library.Its system design is the primary content of the research.Its system design is the primary content of the research.Therefore,the system design and corpus technology of intelligent question answering robot were studied in this paper from many aspects,including the system design,the problem corpus and answer corpus construction and source,the classification type,the corpus classification and expansion,the personalized analysis and processing of intelligent advisory question answering robot in library.This research had reference and reference significance for the comprehensive study of intelligent question answering robot in library.
〔Key words〕library;intelligent robot;robot of advisory question and answer;system design;corpus technology
圖書館智能化機(jī)器人技術(shù)在圖書館的多個應(yīng)用領(lǐng)域已經(jīng)發(fā)揮了十分明顯的優(yōu)勢,目前已經(jīng)擴(kuò)展應(yīng)用到圖書館智能化參考咨詢問答服務(wù)、圖書館智能化24小時自助圖書館服務(wù)、圖書館書庫自動巡架檢查服務(wù)、圖書館外借閱覽讀者自助借還書服務(wù)、圖書館智能化機(jī)器人圖書自動上架與自動取書服務(wù)等方面。圖書館智能化咨詢問答機(jī)器人的系統(tǒng)設(shè)計是其研究的首要內(nèi)容[1],而圖書館智能化咨詢問答機(jī)器人語言體系中的語料技術(shù)則是其服務(wù)效能的核心要素,二者在圖書館智能化咨詢問答機(jī)器人技術(shù)研究中具有關(guān)鍵作用。對圖書館智能化咨詢問答機(jī)器人技術(shù)中的系統(tǒng)設(shè)計方案和語料技術(shù)的研究,將為圖書館智能化咨詢問答機(jī)器人的全面研究提供借鑒和參考。
1 系統(tǒng)設(shè)計方案研究
1.1 接收問題和處理問題
接收問題部分是處理問題的前道程序,所以,在圖書館智能化咨詢問答機(jī)器人的系統(tǒng)設(shè)計方案中,只有能夠全面準(zhǔn)確地接收問題,才能夠為后續(xù)的處理問題提供條件。其中,存在一個接收度和接受率的問題。接收度是指圖書館智能化咨詢問答機(jī)器人在多大程度上可以接收讀者的問題。問題的語種既包括常見的漢語問題,也應(yīng)當(dāng)包括可能遇到的英語、日語、韓語、俄語問題等。問題處理部分是對讀者用自然語言提出的問題進(jìn)行預(yù)處理,包括進(jìn)行詞匯分解、語義分析、句法分析,主題詞提取等。需要注意的一個問題是,在系統(tǒng)接收語料問題時,要在自動學(xué)習(xí)語言部分設(shè)置有效的受限語料詞匯庫,防止發(fā)生類似于清華大學(xué)咨詢機(jī)器人“小圖”被“教壞”的情況[2]。通過上述分析對讀者提出的問題進(jìn)行分類,通過復(fù)述技術(shù)尋找語料庫中的相似和類似問題。
1.2 問題檢索和問題分類
問題檢索部分是運(yùn)用傳統(tǒng)的信息檢索理論,加入現(xiàn)代的互聯(lián)網(wǎng)信息搜商技術(shù),結(jié)合計算機(jī)信息檢索技術(shù),以及互聯(lián)網(wǎng)信息檢索技術(shù),獲得問題答案大概率可能發(fā)生的文檔,并對相關(guān)和近似的文檔進(jìn)行排序處理。問題分類部分是對系統(tǒng)中所有存儲的問題進(jìn)行分類處理,可以采用的分類標(biāo)準(zhǔn)除中國圖書館分類法外,還可以采用問題專題分類法,以及涉及到問題諸元素的時間分類法、地點分類法、人物分類法等多種方法。對讀者提出問題中的所有關(guān)鍵詞因素,與系統(tǒng)中所有存儲的問題進(jìn)行分類處理。
1.3 答案抽取和答案排序
答案抽取部分是對讀者提出問題中的所有關(guān)鍵詞,包括可能運(yùn)用到的標(biāo)題詞和敘述詞,以及計算機(jī)系統(tǒng)中進(jìn)行排列組合詞匯所經(jīng)常使用到的單元詞進(jìn)行語料詞匯元素的抽取,以便為后續(xù)的答案排序提供基礎(chǔ)元素[3]。答案排序部分是將已經(jīng)抽取出的關(guān)鍵詞、標(biāo)題詞、敘述詞和單元詞等語料詞匯元素,利用系統(tǒng)設(shè)定的固定排序方式、交叉組合排序方式、疊加排序方式等多種不同的排序方式進(jìn)行排序。如時間排序法、地點排序法、人物排序法、事件排序法等。其中人物排序法還可以進(jìn)一步包括根據(jù)人物的姓名、生卒年、籍貫、學(xué)科、成就等元素進(jìn)行細(xì)化分類排序。endprint
1.4 答案優(yōu)選和答案反饋
圖書館智能化咨詢問答機(jī)器人在接收到讀者的咨詢問題后,需要自動到語料問題資源庫中尋找答案。由于相同的答案可能有多種,所以,需要從中進(jìn)行優(yōu)選,或者根據(jù)進(jìn)一步向讀者提問,從中獲得可以進(jìn)一步細(xì)化和優(yōu)選的信息。再根據(jù)語料資源庫的問題元素進(jìn)行組配選擇,最終優(yōu)選出最佳的答案回答讀者,從而滿足讀者的咨詢問題需求[4]。對于圖書館智能化咨詢問答機(jī)器人對于讀者問題的回答,可以通過設(shè)定必要的讀者信息反饋機(jī)制,或建立必不可少的讀者信息自動反饋系統(tǒng)予以收集。系統(tǒng)將收集到的讀者反饋信息再自動回輸?shù)秸Z料資源庫中,形成對于答案語料資源庫的有效補(bǔ)充,建立動態(tài)化的最佳答案抽取模板,為后續(xù)讀者咨詢同樣的問題提供更為優(yōu)化的回答語料元素,這也是答案反饋的重要意義和作用所在。
1.5 答案統(tǒng)計和答案存檔
答案統(tǒng)計是指圖書館智能化咨詢問答機(jī)器人在回答讀者的咨詢問題后,需要利用系統(tǒng)內(nèi)的程序設(shè)計自動進(jìn)行讀者提問問題和系統(tǒng)回答問題的數(shù)據(jù)統(tǒng)計,同時對統(tǒng)計數(shù)據(jù)按照預(yù)先所設(shè)定的分類標(biāo)準(zhǔn)進(jìn)行統(tǒng)計數(shù)據(jù)的各級分類。答案存檔是指對經(jīng)過數(shù)據(jù)分類統(tǒng)計的讀者提問語料問題信息,以及系統(tǒng)回答語料問題信息進(jìn)行分類存檔,并由此形成讀者提問語料問題資源庫的存檔信息資料和系統(tǒng)回答讀者問題語料資源庫的存檔信息資料[5]。這些答案存檔資料對于后續(xù)的語料信息資源庫利用具有重要的作用,它類似于計算機(jī)中的緩存信息資源,可以在后續(xù)讀者提問語料問題和系統(tǒng)回答語料問題的利用過程中,起到快速調(diào)取的作用,大大節(jié)約系統(tǒng)對于相關(guān)語料的反映和處理時間,同時也節(jié)約了相應(yīng)的語料問題資源庫的存儲空間。
2 語料庫的建設(shè)與來源研究
2.1 問題語料庫和答案語料庫的建設(shè)
問題語料庫和答案語料庫的建設(shè)是圖書館智能化咨詢問答機(jī)器人的一項關(guān)鍵技術(shù),其建設(shè)的內(nèi)容類型應(yīng)當(dāng)遵循通用語料為主、本館語料為輔、特色語料為補(bǔ)的原則。即以絕大多數(shù)讀者所需要提問和回答的通用問題,作為問題語料庫和答案語料庫的主要語料元素,以能夠體現(xiàn)本館特色、具有本館(含本校)特點的語料元素作為問題語料庫和答案語料庫的輔助語料元素,以通用和本館特點外的其他語料元素作為問題語料庫和答案語料庫的補(bǔ)充語料元素。除此之外,還可以在這3種類型范圍內(nèi)繼續(xù)細(xì)分。所以,問題語料庫和答案語料庫的建設(shè),可以包括建設(shè)通用性咨詢內(nèi)容的通用語料庫,建設(shè)圖書館專業(yè)通用性咨詢內(nèi)容的圖書館專業(yè)通用語料庫,建設(shè)針對本館特色咨詢內(nèi)容的本館特色語料庫,建設(shè)專門針對本校各學(xué)科專業(yè)咨詢內(nèi)容的本校學(xué)科專業(yè)化特色語料庫,建設(shè)針對本館特殊讀者各種個性化類型咨詢內(nèi)容的讀者個性化語料庫。
2.2 問題語料庫和答案語料庫的來源
問題語料庫和答案語料庫的來源主要有3方面,一方面是來源于互聯(lián)網(wǎng)上的百科知識資源庫,如“百度百科”資源庫、“維基百科”資源庫等。此類語料問題元素的來源范圍廣泛,內(nèi)容既有很大的寬度,又有相當(dāng)?shù)纳疃?,受到圖書館智能化咨詢問答機(jī)器人問題和答案語料庫容量的限制[6],需要對這些語料進(jìn)行不同級別的篩選,從中選擇出那些利用頻率最高或次高的語料元素予以保留,其余則予以剔除,以防止語料問題資源庫過于龐大。另一方面是來源于圖書館專業(yè)知識數(shù)據(jù)庫,其中包括全國各類圖書館的FAQ(Frequently Asked Questions,即經(jīng)常會被問到的問題)資源庫[7]。此類語料問題元素的來源范圍相對較小,其廣度和深度都較為有限,是比較容易選擇的語料元素集合。第三方面是來源于本館專門建設(shè)的,具有本館、本校特點以及本館特定讀者個性化特點的特色知識資源。此類語料問題元素的個性化程度很強(qiáng),是最能體現(xiàn)本館智能化咨詢問答機(jī)器人特色的語料問題元素。
3 語料庫的分類類型研究
3.1 一般通用語料庫
利用互聯(lián)網(wǎng)搜索引擎上的通用百科知識資源,可以建立圖書館智能化咨詢問答機(jī)器人問題語料庫和答案語料庫的通用語料資源庫。如問:利用互聯(lián)網(wǎng)可以檢索到本校圖書館的文獻(xiàn)資料嗎?答:只要輸入本館的中文名稱或正確網(wǎng)址就可以檢索到本校圖書館的文獻(xiàn)資料。再如,問:利用常用的互聯(lián)網(wǎng)搜索引擎,可以搜索到免費全文的電子圖書和電子期刊資源嗎?答:可以的。只要在搜索引擎中輸入帶有書名號的電子圖書或電子期刊的名稱,后面增加合適的后綴,如“.PDF”等,在一般情況下,就可以搜索到所需要的電子圖書或電子期刊資源。
3.2 圖書館專業(yè)通用語料庫
利用圖書館專業(yè)問題和答案資源,可以建立圖書館智能化咨詢問答機(jī)器人問題和答案的圖書館專業(yè)語料庫[8]。如問:本校圖書館圖書和期刊索書號中的U46代表什么內(nèi)容的圖書和期刊?答:U46是《中國圖書館分類法》的分類號,它代表“汽車工程”類的圖書和期刊。又如,問:中國最早的公共圖書館是什么圖書館?答:1902年,湖廣總督張之洞和湖北巡撫端方聯(lián)合奏請清廷設(shè)立湖北省圖書館獲準(zhǔn),并于1904年8月27日開館(是利用武昌蘭陵街的博文書院改建而成,1935年在武昌的閱馬場重修了館舍),它是中國最早的公共圖書館。
3.3 本館特色語料庫
利用本校圖書館的特點,可以建立圖書館智能化咨詢問答機(jī)器人問題和答案的本館特色語料庫。如問:本校主校區(qū)圖書館的詳細(xì)地址在哪里?本校鹿泉校區(qū)圖書館的詳細(xì)地址在哪里?兩者之間有多遠(yuǎn)的距離?有方便的公交車嗎?答:本校主校區(qū)圖書館的詳細(xì)地址在河北省石家莊市高新技術(shù)開發(fā)區(qū)和平西路256號,本校鹿泉校區(qū)圖書館的詳細(xì)地址在河北省石家莊市鹿泉區(qū)山前大道32號,兩者之間有16多公里的距離,乘坐通達(dá)5路公交車或鹿泉9路公交車均可以到達(dá)。
3.4 本校專業(yè)化語料庫
利用本校所開設(shè)的學(xué)科專業(yè)特點,可以建立圖書館智能化咨詢問答機(jī)器人問題和答案的本校專業(yè)化語料庫。如問:本校圖書館適合高爾夫?qū)I(yè)閱讀的圖書資料是什么分類號?架位在幾樓?本校圖書館適合馬術(shù)運(yùn)動與管理專業(yè)閱讀的圖書資料是什么分類號?架位在幾樓?答:本校圖書館適合高爾夫?qū)I(yè)閱讀的圖書資料是G849.3,架位在圖書館6樓的第5架位。本校圖書館適合馬術(shù)運(yùn)動與管理專業(yè)閱讀的圖書資料是G882.1,架位在圖書館6樓的第12架位。endprint
3.5 讀者個性化語料庫
根據(jù)本館特定讀者的個性化特殊需求,可以擴(kuò)展建立圖書館智能化咨詢問答機(jī)器人問題和答案的讀者個性化語料庫。如問:本校圖書館有沒有設(shè)立個人捐贈圖書專柜,我(李詩坤)過去捐贈的圖書還可以看到嗎?在圖書館的什么位置?答:本校圖書館鼓勵和歡迎各界人士踴躍捐贈圖書等各類文獻(xiàn)資源,已經(jīng)設(shè)置捐贈圖書專架,經(jīng)過檢索,李詩坤女士過去捐贈的圖書在圖書館3樓的第1架位,書標(biāo)上標(biāo)注有“李詩坤女士捐贈”字樣,歡迎你前來參觀和閱讀。
4 語料問題的分類與擴(kuò)展研究
4.1 語料問題的分類
圖書館智能化咨詢問答機(jī)器人要回答讀者的咨詢問題,首先需要對問題進(jìn)行系統(tǒng)的分類和歸類。問題的分類和歸類是相輔相成的兩個方面,分類就是把不同類別的問題進(jìn)行區(qū)分,歸類就是把相同性質(zhì)的問題集中歸納到同一類別中。系統(tǒng)對問題進(jìn)行分類和歸類后的下一步,就是要根據(jù)問題所屬的類別和內(nèi)容進(jìn)行計算機(jī)邏輯思維理解。所以,對讀者提出問題的內(nèi)容和類型進(jìn)行分類和歸類,是決定系統(tǒng)如何回答問題,以及回答問題的完美程度的重要因素。這里需要首先為圖書館智能化咨詢問答機(jī)器人建立一個較為完善的和實用性較強(qiáng)的語料問題分類系統(tǒng)[9]。該分類系統(tǒng)要盡可能地包含讀者咨詢問題的各種分類元素,如大類中的時間元素,其小類則需要包含世紀(jì)、年代、年度、季度、月度、半月度、旬度、周度、日度、小時度、分鐘度、甚至精細(xì)到秒度。除了常用的公元紀(jì)年法以外,還要包含各種不同的紀(jì)年方法,如我國的農(nóng)歷紀(jì)年法、臺灣的民國紀(jì)年法,伊斯蘭教的回歷紀(jì)年法等,用以適應(yīng)更為廣泛的讀者問題咨詢范圍。
4.2 語料問題的擴(kuò)展
語料問題的擴(kuò)展可以表現(xiàn)在多方面進(jìn)行擴(kuò)展,如對于相同問題和概念的不同說法[10]。例如,“自行車”這一概念,不同的讀者可能會另外使用“單車”、“腳踏車”等說法來提問;有關(guān)“西紅柿”類文獻(xiàn)的問題,有可能被讀者用“番茄”、“火柿子”、“狼桃”等同義詞來提問;有關(guān)“土豆”內(nèi)容的文獻(xiàn),有可能被讀者用“馬鈴薯”、“洋芋”、“山藥蛋”等同義詞來提問。甚至?xí)霈F(xiàn)兩個或兩個以上概念同時被讀者提問的情況,如讀者向圖書館智能化咨詢問答機(jī)器人提問:“土豆”和“洋芋”和“馬鈴薯”是同一種東西嗎?凡此種種,都屬于語料問題的擴(kuò)展范疇。因此,在語料問題庫中,必須十分注意語料問題的擴(kuò)展,以便可以更好地滿足讀者從多方面和多角度提出問題的需求,滿足圖書館智能化咨詢問答機(jī)器人語料庫豐富性的需求。
5 語料問題的個性化分析與處理研究
5.1 語料問題的情感個性化分析與處理
語料問題情感個性化分析是一個分析的重點[11]。由于讀者類型和身份的多樣性因素,讀者在咨詢問題的提問語言方面,往往不可避免地帶有一些感情化的色彩。正是這種感情化的提問語言色彩,往往會直接決定著圖書館智能化咨詢問答機(jī)器人對于問題答案的回答結(jié)果,并且直接影響著讀者對于咨詢問題答案的滿意度水平。例如,對于問題的褒義和貶義提問,反映著讀者提問的喜好和希望得到的答案。對于這種類型的語料問題分析,被稱之為“情感分析”,它是通過對語料問題情感的分析和判斷,往往可以獲得更好的問題答案。通過對語料問題中情感詞語的分析和判斷理解,能更好地有助于圖書館智能化咨詢問答機(jī)器人自動回答問題。不過,有些情感詞語也需要在特定的語言環(huán)境下才能進(jìn)行判斷,否則,讀者得到的問題答案極有可能是相反的結(jié)果。
5.2 語料問題的地方個性化分析與處理
語料問題的地方個性化分析也是語料問題個性化分析的一個重點內(nèi)容。因為它在很大程度上體現(xiàn)了本館讀者的地方特色,其中不僅包括本校讀者的生源地方特點,還可能包括本館對社會開放服務(wù)后,本地民眾讀者的地方特點。如地方語言特點,地方習(xí)慣特點,地方少數(shù)民族讀者特點等[12]。最為典型的例證就是一些與臺灣相關(guān)高校保持密切教育學(xué)術(shù)交往的高校圖書館,在他們的圖書館智能化咨詢問答機(jī)器人語料問題的地方個性化分析中,就需要將具有臺灣地方特點的語料加入到語料庫中。因為在臺灣的語料問題中,對于同一個問題和概念,具有明顯不同于大陸地區(qū)的語料元素,除了中文的簡體字和繁體字的分別外,如大陸地區(qū)與臺灣地區(qū)對于相同語料詞語的不同對應(yīng)各系詞匯:網(wǎng)絡(luò)——網(wǎng)路,軟件——軟體、數(shù)字——數(shù)位,鼠標(biāo)——滑鼠,幼兒園——幼稚園,菠蘿——鳳梨,普通話——國語,班主任——班導(dǎo),短信——簡訊,學(xué)位論文計量單位的“篇”——學(xué)位論文計量單位的“筆”,等等。這些都需要在語料庫中予以體現(xiàn),以便圖書館智能化咨詢問答機(jī)器人在回答有此類需求的讀者問題時做出讀者所需要的回答。
6 結(jié) 語
始于20世紀(jì)90年代的圖書館智能化機(jī)器人技術(shù),由于符合21世紀(jì)信息時代現(xiàn)代化圖書館的發(fā)展趨勢,所以,正在以前所未有的速度快速進(jìn)入到各類圖書館中[13]。圖書館智能化機(jī)器人技術(shù)的引進(jìn),極大地改變了圖書館的現(xiàn)代化水平和自動化程度,為實現(xiàn)智能化圖書館打下了堅實的基礎(chǔ)。圖書館智能化咨詢問答機(jī)器人是圖書館智能化機(jī)器人系列類型中的一種重要類型,它是讀者進(jìn)入圖書館后首先要接觸到的智能化機(jī)器人設(shè)備,所以,其功能的完善與否以及服務(wù)效果的優(yōu)劣,將會直接關(guān)系到讀者對于圖書館現(xiàn)代化和智能化水平的第一印象,因此,加強(qiáng)圖書館智能化咨詢問答機(jī)器人的相關(guān)研究是十分必要的。
參考文獻(xiàn)
[1]楊艷飛.智能化IM咨詢機(jī)器人在數(shù)字圖書館信息服務(wù)中的應(yīng)用[J].圖書館學(xué)刊,2016,(9):117-120.
[2]曹畋.基于Android平臺的圖書館咨詢機(jī)器人探究[J].內(nèi)蒙古科技與經(jīng)濟(jì),2014,(20):65-67.
[3]王艷.IM咨詢機(jī)器人在公共圖書館的實現(xiàn)與應(yīng)用:以深圳圖書館為例[J].數(shù)字圖書館論壇,2015,(5):42-46.
[4]解娜.圖書館服務(wù)機(jī)器人語音指令深層信息識別系統(tǒng)[J].農(nóng)業(yè)圖書情報學(xué)刊,2016,28(2):48-50.
[5]孫翌,李鮑,曲建峰.圖書館智能化IM咨詢機(jī)器人的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2011,(5):88-92.
[6]陳雨祺.機(jī)器人技術(shù)在圖書館智能化IM咨詢中的應(yīng)用研究[J].河北科技圖苑,2016,29(1):67-69.
[7]羅濤,朱瑩.圖書館微信機(jī)器人的研究與應(yīng)用[J].圖書館雜志,2014,(11):55-61.
[8]羅濤.圖書館IM機(jī)器人的應(yīng)用研究[J].圖書館論壇,2013,33(3):113-117.
[9]王文,趙群飛,朱特浩.人-服務(wù)機(jī)器人交互中自然語言理解研究[J].微型電腦應(yīng)用,2015,31(3):45-49.
[10]閔騰超.微信機(jī)器人在圖書館實時虛擬咨詢服務(wù)中的應(yīng)用研究:以上海閔行區(qū)圖書館為例[J].新世紀(jì)圖書館,2015,(8):54-57.
[11]李雪婷,李莘.圖書館微信平臺自動問答機(jī)器人語言體系研究[J].現(xiàn)代情報,2016,(10):99-101,122.
[12]熊志恒,閔華松.基于自然語言的分揀機(jī)器人解析器技術(shù)研究[J].計算機(jī)工程與應(yīng)用,2017,53(8):113-119.
[13]趙辰陽,李波.服務(wù)機(jī)器人在圖書館發(fā)展趨勢的應(yīng)用前瞻[J].中國科技信息,2016,(16):94,96.endprint