劉婷婷,汪健雄,賈成強(qiáng),賈 靜
(中國鐵道科學(xué)研究院 電子計算技術(shù)研究所,北京 100081)
檢索法在客票系統(tǒng)知識庫中的應(yīng)用研究
劉婷婷,汪健雄,賈成強(qiáng),賈 靜
(中國鐵道科學(xué)研究院 電子計算技術(shù)研究所,北京 100081)
本文介紹客票系統(tǒng)的知識庫系統(tǒng)現(xiàn)狀和關(guān)鍵詞檢索法,對客票系統(tǒng)知識庫中不同類型的知識如何有效地和各類檢索技巧及算法特點(diǎn)結(jié)合在一起,從而形成與之相匹配的檢索方法進(jìn)行研究。應(yīng)用這些檢索方法將使客票系統(tǒng)知識庫的檢索達(dá)到便捷、高效、準(zhǔn)確的效果。
中國鐵路客票發(fā)售和預(yù)訂系統(tǒng)(簡稱:客票系統(tǒng))經(jīng)歷了近20年的發(fā)展,目前已形成集互聯(lián)網(wǎng)售票、手機(jī)售票、窗口售票、電話訂票、自動售票等多渠道售票模式,服務(wù)范圍也發(fā)展到覆蓋客票核心業(yè)務(wù)、自動售檢票業(yè)務(wù)、旅服業(yè)務(wù)、公安驗證業(yè)務(wù)、鐵路客服技術(shù)支持業(yè)務(wù)等。業(yè)務(wù)領(lǐng)域的擴(kuò)展對運(yùn)維人員的知識掌握提出了更高、更全面的要求。建立客票系統(tǒng)運(yùn)維知識庫已成為支撐客票系統(tǒng)運(yùn)維技術(shù)發(fā)展的重點(diǎn)。對于知識庫的檢索方法也成為快速、準(zhǔn)確獲取解決方案和信息依據(jù)的關(guān)鍵技術(shù)。
1.1 客票系統(tǒng)知識庫數(shù)據(jù)源組成
目前,客票系統(tǒng)的知識庫數(shù)據(jù)來源主要有3個途徑:(1)由運(yùn)維技術(shù)支持工程師事件錄入庫中提煉、挖掘、整理得到,具有針對性強(qiáng)、可操作性強(qiáng)、實效性長的特點(diǎn)。(2)由專家經(jīng)過總結(jié)提煉的各業(yè)務(wù)模塊常見問題匯總得到,具有業(yè)務(wù)性強(qiáng),注重邏輯、分析的特點(diǎn)。(3)由系統(tǒng)說明文檔中總結(jié)出來的信息作為知識點(diǎn),具有更新快,時效性強(qiáng)的特點(diǎn)。
1.2 客票系統(tǒng)知識庫檢索方法
客票系統(tǒng)知識庫信息的檢索方式主要采用核心關(guān)鍵字匹配的方法,結(jié)合目錄劃分對知識點(diǎn)信息進(jìn)行檢索。
關(guān)鍵詞檢索是目前檢索中較為通用的技術(shù),它通過人工或計算機(jī)對數(shù)據(jù)信息內(nèi)容預(yù)先進(jìn)行加工分析,將能反應(yīng)主題概念具有實質(zhì)意義的詞抽取出來進(jìn)行標(biāo)引,再通過標(biāo)引進(jìn)行信息定位。用戶根據(jù)自己的信息需求,利用關(guān)鍵詞入口,輸入自己的關(guān)鍵詞,系統(tǒng)根據(jù)查詢指令查找符合條件的內(nèi)容,并把檢索結(jié)果提供給用戶的一種檢索方法。
由于目前客票系統(tǒng)知識庫的應(yīng)用主要以檢索問題解決方案為主,加之對關(guān)鍵詞長度的定義較短,系統(tǒng)采用了布爾邏輯檢索技術(shù)。
2.1 關(guān)鍵詞類型
關(guān)鍵詞檢索法主要依據(jù)是關(guān)鍵詞類型,主要分為以下兩類。
2.1.1 核心關(guān)鍵詞
是指能體現(xiàn)主題的詞或詞組,它的特點(diǎn)是比較短,目標(biāo)明確。在客票系統(tǒng)知識庫系統(tǒng)中適用于信息量較短的事件類信息檢索。
2.1.2 長尾關(guān)鍵詞
其特征是比較長,往往由2~3個詞或短語組成,具有可延伸性強(qiáng)、針對性強(qiáng)、范圍廣的特點(diǎn),在文件信息搜索方面具有優(yōu)勢。在客票系統(tǒng)知識庫系統(tǒng)中適用于規(guī)章類、業(yè)務(wù)系統(tǒng)類、資源類等知識內(nèi)容較長的信息檢索。
2.2 關(guān)鍵詞檢索技巧
2.2.1 布爾邏輯檢索法
檢索信息量較大時采用布爾邏輯檢索可以提高檢索準(zhǔn)確率。采用邏輯符“與”檢索,可以在一次檢索數(shù)據(jù)量大的情況下,通過“與”的關(guān)系加強(qiáng)二次檢索的專指度,限制檢索結(jié)果的數(shù)量,提高檢索結(jié)果命中率。采用邏輯符“或”檢索,可在檢索結(jié)果過少的情況下,擴(kuò)大檢索范圍,提高檢索結(jié)果查全率。采用邏輯符“非”檢索,采用提出不要的概念,從第1個關(guān)鍵詞中剔除第2個關(guān)鍵詞,最終達(dá)到提高檢索準(zhǔn)確度的目的,如圖1所示。
圖1 邏輯關(guān)系圖
2.2.2 截詞檢索法
截詞檢索就是部分檢索或模糊檢索,是一種計算機(jī)被檢索信息與被標(biāo)引詞部分匹配的智能型檢索技術(shù),是針對于關(guān)鍵詞檢索容易出現(xiàn)漏檢現(xiàn)象的一種擴(kuò)檢方法。用戶可以根據(jù)需要在檢索詞的合適位置進(jìn)行截斷,同時加上一個替代符號,完成檢索詞的輸入。根據(jù)截斷位置的不同可分為前截詞、中截詞、后截詞、前后截詞;根據(jù)截斷字符數(shù)量的不同可分為有限截詞和無限截詞。截詞檢索具有靈活性高,匹配度高的特點(diǎn)。
此檢索法在文字較多的文件類信息的搜索方面具有優(yōu)勢,在客票系統(tǒng)知識庫中適用于規(guī)章類、業(yè)務(wù)系統(tǒng)類、資源類知識的檢索。 它的優(yōu)勢在于可以將語言表述不完全一致,但關(guān)鍵詞相似,而且在不限制關(guān)鍵詞字符長度的情況,將盡可能多的關(guān)鍵詞加以組合,形成檢索條件,完成對信息的檢索。
2.3 關(guān)鍵詞檢索頻率統(tǒng)計
關(guān)鍵詞檢索頻率統(tǒng)計即關(guān)鍵詞詞頻統(tǒng)計,它能夠較為客觀準(zhǔn)確的反映出結(jié)果。該方法是目前網(wǎng)頁搜索中計算相關(guān)度的基本方法。能夠從信息中抽取表達(dá)主題含義的關(guān)鍵詞,略去只起到語法作用的無用詞。一個詞在信息中出現(xiàn)的頻率越高,就表示它與該主題的關(guān)聯(lián)程度越大,將其作為標(biāo)引詞的準(zhǔn)確度越高,權(quán)值越大。在與提問關(guān)鍵詞匹配時,它所代表的信息與查詢關(guān)鍵詞的相關(guān)度就越高。
2.4 排序算法的應(yīng)用
排序算法即PageRank算法。它的基本原理是:如果從A網(wǎng)頁可以鏈接到B網(wǎng)頁,則表示A認(rèn)同B,如果A是重要的,則B也是重要的,如果同時還有很多網(wǎng)頁可以鏈接到B,則說明B的重要性大于A,通過算法計算出PR值進(jìn)行排序,在檢索結(jié)果中PR值高的排在前面。
3.1 知識庫在客票系統(tǒng)中的意義及作用
面對數(shù)據(jù)量大、問題時效性強(qiáng)、解決問題及時度高、政策規(guī)章多、服務(wù)對象眾多等特點(diǎn),要求運(yùn)維工程師對于客票系統(tǒng)所有業(yè)務(wù)都要熟練掌握,而且要隨時應(yīng)對不斷變化的技術(shù)規(guī)章,以及在應(yīng)對現(xiàn)場出現(xiàn)的各類突發(fā)問題時做到隨問隨答。客票系統(tǒng)知識庫系統(tǒng)正是客票運(yùn)維服務(wù)的有力保障。它不但解決了大量知識的信息儲備問題,而且通過關(guān)鍵詞檢索方法的運(yùn)用,能夠?qū)崿F(xiàn)對知識的全面快速檢索和解決方案的準(zhǔn)確定位。
3.2 客票系統(tǒng)知識庫系統(tǒng)中的知識類型
由于客票系統(tǒng)日趨復(fù)雜、業(yè)務(wù)量快速增長、技術(shù)覆蓋面逐步擴(kuò)大、服務(wù)對象日益增多,客票系統(tǒng)知識庫建設(shè)也將向著信息含量更多、更全,檢索速度更快、更準(zhǔn)的方向發(fā)展。
客票系統(tǒng)知識庫系統(tǒng)中包含現(xiàn)有的事件處理類知識、規(guī)章類知識信息、信息傳遞類知識、業(yè)務(wù)系統(tǒng)相關(guān)類知識、資源類知識,成為內(nèi)容全面、形式多樣的各類型信息整合體。
在知識庫檢索方面需要結(jié)合不同類型知識的特點(diǎn)應(yīng)用不同的檢索方法,以達(dá)到知識信息的快速檢索、結(jié)果內(nèi)容的準(zhǔn)確輸出,提高知識庫信息的利用率的標(biāo)準(zhǔn)。
3.3 事件類知識的檢索方案
目前客票系統(tǒng)知識庫主要以事件類知識為主要檢索對象,采用的是布爾邏輯檢索法??推毕到y(tǒng)知識庫檢索界面如圖2所示。
圖2 知識庫檢索界面圖
事件類的知識其內(nèi)容描述簡單明了,關(guān)鍵詞簡短明確,因此適合使用布爾邏輯檢索法。但由于目前系統(tǒng)中只有3個關(guān)鍵詞可以輸入,而且邏輯關(guān)系只能選擇一種并保持相互邏輯關(guān)系一致,這樣就形成了一定的局限性。如果能夠?qū)⑦壿嫛胺恰钡年P(guān)系加入,并且3個關(guān)鍵詞間可以自由組合邏輯關(guān)系,檢索結(jié)果就會更加準(zhǔn)確高效。同時在輸出檢索結(jié)果時配合使用檢索頻率統(tǒng)計算法計算出目標(biāo)結(jié)果及各自的相關(guān)度,按照排序算法以預(yù)先設(shè)定好的排序方案列舉解決方案,這樣用戶就能在最短時間內(nèi)獲取有效的解決方案。
3.4 信息傳遞類知識的檢索方案
信息類知識主要以通話記錄、傳真電報為主。此類信息時間戳明確,內(nèi)容重復(fù)性高,而且多以圖片格式出現(xiàn)。
使用核心關(guān)鍵詞檢索,可以將關(guān)鍵詞長度放大,使用長尾關(guān)鍵詞檢索,以短語或短句的形式配合布爾邏輯檢索法,按照時間戳將目標(biāo)結(jié)果輸出。也可以使用截詞檢索法,把與輸入信息相近的,匹配度高的信息篩選出來按照時間戳輸出結(jié)果,從而達(dá)到快速檢索,準(zhǔn)確輸出的要求。
3.5 規(guī)章類、業(yè)務(wù)系統(tǒng)類知識的檢索方案
規(guī)章類知識主要包括客運(yùn)規(guī)章、技術(shù)規(guī)范等,具有內(nèi)容條目清晰,信息量大,關(guān)鍵詞出現(xiàn)頻率高,多以文件形式出現(xiàn)且篇幅較大的特點(diǎn)。
業(yè)務(wù)系統(tǒng)類知識主要包括升級說明、版本管理等,具有時間戳明確,信息量大特點(diǎn)。
由于這兩類的知識,內(nèi)容都較多,而且多以文檔形式出現(xiàn),因此在檢索時要檢索題目和內(nèi)容,在此使用截詞檢索法要優(yōu)于布爾邏輯檢索法。不去判斷關(guān)鍵詞間的邏輯關(guān)系,而直接采用模糊查詢,檢索與之相匹配的信息,通過應(yīng)用頻率統(tǒng)計法,將匹配度進(jìn)行計算,得到準(zhǔn)確的結(jié)果信息,再通過排序算法,按照預(yù)設(shè)順序進(jìn)行排序輸出。
這兩類知識還具有相互依存的關(guān)系。一次版本的升級必然依據(jù)相關(guān)規(guī)章的制定或修正,反之亦然。因此,在檢索這兩類知識時要充分發(fā)揮檢索頻率統(tǒng)計法的特點(diǎn):統(tǒng)計與目標(biāo)相關(guān)聯(lián)的信息關(guān)聯(lián)度,關(guān)聯(lián)度越高,說明它們之間的依存性越高。檢索到的一種類型的知識點(diǎn),通過二次檢索關(guān)聯(lián)到與之相匹配的另一類型的知識點(diǎn)。
例如:需要檢索“鐵路始發(fā)改簽規(guī)則改變,可實現(xiàn)全國任意站改簽。”相關(guān)的文檔信息,改簽規(guī)則的具體內(nèi)容和規(guī)則執(zhí)行時間。這條檢索信息中關(guān)鍵詞為“始發(fā)改簽”、“任意站”,通過使用檢索頻率計算法,計算所有信息中該關(guān)鍵詞出現(xiàn)的頻率,頻率越多的則說明該信息對于需要檢索的信息匹配度越高,相對來說匹配度低的如始發(fā)改簽故障處理方法就會由于頻率低而被過濾掉,不在結(jié)果中出現(xiàn)。再通過排序算法將結(jié)果按相互的關(guān)聯(lián)權(quán)值由大到小排序,實現(xiàn)檢索結(jié)果的合理篩選及排序。
假設(shè)此時的檢索結(jié)果屬于規(guī)章類知識,而用戶需要得到在此規(guī)章的指導(dǎo)下所涉及的版本升級時間及具體內(nèi)容,此時可通過一次檢索結(jié)果再次使用檢索頻率統(tǒng)計法計算得到與之匹配度最高的二次檢索結(jié)果,即獲得版本升級相關(guān)信息的知識檢索。
3.6 資源類知識的檢索方案
資源類知識主要包括故障手冊、培訓(xùn)資料、考核試題庫等,它的特點(diǎn)是內(nèi)容條目清晰,信息量大,形式多樣,包括Word、Excel、PPT、PDF格式以及圖片、視頻格式等。
檢索故障手冊、培訓(xùn)資料等時可以參照規(guī)章類、業(yè)務(wù)系統(tǒng)類知識的檢索方法,獲取信息內(nèi)容。檢索考核試題庫、視頻類可以參照事件類知識的檢索方法,獲取信息內(nèi)容。
各類型的知識所對應(yīng)的特點(diǎn)及其適用檢索方法如表1所示。
表1 知識類型的對比
客票系統(tǒng)擁有龐大的數(shù)據(jù)量,復(fù)雜的運(yùn)算法則及大量的使用者。本文研究如何利用關(guān)鍵詞檢索方法的各類檢索技術(shù)和計算方法,將客票系統(tǒng)知識庫的應(yīng)用向著全面、便捷、高效并且實用的方面發(fā)展,在今后的實際應(yīng)用中具有重要意義。
[1]朱小平.關(guān)鍵詞檢索技術(shù)與應(yīng)用技巧[J].咸寧學(xué)院學(xué)報,2006(8).
[2]張 帆,朱紅濤.基于關(guān)鍵詞的網(wǎng)絡(luò)信息檢索優(yōu)化[J].探索情報科學(xué),2005(6).
責(zé)任編輯 陳 蓉
Key words retrieving method in knowledge base of Ticketing and
Reservation System
LIU Tingting, WANG Jianxong, JIA Cheng qiang, JIA Jing
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
This article introduced the current condition of the knowledge base of the Ticketing and Reservation System(TRS) and the key words retrieving method(KWRM) technology, researched on that how the knowledge with different types in the knowledge base could be combined with the skills and algorithms of the retrieving effectively to form the corresponding retrieving methods at the same time. These methods could make the retrieving easily, eff i ciently and exactly in the knowledge base of TRS.
Ticketing and Reservation System; knowledge base; KWRM(key words retrieving method)
U293.22∶TP39
A
1005-8451(2015)11-0061-04
2015-04-10
劉婷婷,助理研究員;汪健雄,副研究員。
關(guān)鍵詞:客票系統(tǒng);知識庫;關(guān)鍵詞檢索法