国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

適合話音服務平臺的結構化小文本搜索引擎的研究

2011-06-27 03:00陳曉勤
電信科學 2011年12期
關鍵詞:話音搜索引擎結構化

楊 震,夏 艷,陳曉勤

(中國電信股份有限公司上海研究院 上海200122)

1 引言

電信運營商在轉型過程中一直謀求在增值服務領域進行突破。信息服務從接入平臺看有傳統(tǒng)互聯(lián)網(wǎng) (寬帶internet)、移動互聯(lián)網(wǎng)(含客戶端)、話音、短信4大渠道,其中傳統(tǒng)互聯(lián)網(wǎng)的信息服務模式最為成熟,而移動互聯(lián)網(wǎng)的信息服務模式還在探索和發(fā)展階段,話音信息服務渠道歷史最為悠久,也是目前可見的、運營商可以發(fā)力的渠道。如何在新形式和技術背景下,把先進的信息技術引入到話音信息服務平臺,從技術實現(xiàn)和業(yè)務研發(fā)角度為話音信息服務注入新活力是值得探索的問題。

中國電信集團公司以號碼百事通為主導,在話音信息服務平臺進行了轉型業(yè)務的探索,幾年以來取得了不俗的成績,其中不但有業(yè)務模式的創(chuàng)新,更重要的是在傳統(tǒng)話音“114”信息服務平臺上引入搜索引擎的思想,使用先進的搜索引擎技術手段整合信息資源,開發(fā)并升級適合于增值話音信息服務平臺的信息查詢系統(tǒng),為用戶提供更精準的信息服務,無疑是一個亮點。

2 話音信息服務平臺對于信息搜索的需求分析

隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎技術和應用逐步占據(jù)互聯(lián)網(wǎng)應用的核心,以Google為代表的搜索引擎引領了互聯(lián)網(wǎng)信息服務的發(fā)展方向。其主要特點是采集互聯(lián)網(wǎng)上不同網(wǎng)頁的信息,經(jīng)過信息加工、分析,提取網(wǎng)頁中的關鍵詞,之后建立關鍵詞和出現(xiàn)網(wǎng)頁的索引,供用戶進行互聯(lián)網(wǎng)信息的搜索和使用。

但是面向互聯(lián)網(wǎng)非結構化信息的搜索引擎設計方法如果不加改造,是不適用于話音信息服務平臺的,相比較而言,兩者有兩個顯著的差異點。第一,信息資源的差異:話音平臺的信息服務資源是可以通過人工整理并進行設計的,是有限的、結構化的,并且信息相對精煉。而互聯(lián)網(wǎng)信息是海量的、非結構化的,數(shù)據(jù)量大且信息質量難以控制;搜索引擎是利用網(wǎng)頁之間的鏈接及Pagerank技術進行信息的評價和排序。因此,如何利用好話音平臺信息資源定義及整理的優(yōu)勢,是話音平臺搜索引擎設計所必須考慮的問題。第二個差異是話音信息服務的用戶界面小,通過話音信息交互每次播報給用戶的查詢結果只有有限的幾條,要求結果十分準確。而互聯(lián)網(wǎng)的搜索引擎是通過瀏覽器與用戶進行信息交互,一頁有10條結果,用戶可以通過翻頁、調(diào)整關鍵詞自由地與引擎進行交互,學習并適應互聯(lián)網(wǎng)搜索引擎的特性,使搜索更加有針對性。因而話音平臺的信息服務的準確率較互聯(lián)網(wǎng)信息服務要求更高,對搜索算法的設計更加苛刻。

3 號碼百事通搜索引擎的設計思想

在號碼百事通搜索引擎設計和開發(fā)之前,以“114”為代表的話音信息服務平臺是基于傳統(tǒng)數(shù)據(jù)思想進行設計和開發(fā)的,是數(shù)據(jù)庫全文檢索。而傳統(tǒng)數(shù)據(jù)庫的發(fā)展是面向報表類信息,即物料的進銷存而設計和發(fā)展的,把數(shù)據(jù)庫能力用于信息服務領域是其應用的延伸,但是從本質上講,其自身的局限性很難適應號碼百事通這類苛刻的信息服務的需求。主要有以下局限性。

·不能很好地滿足模糊查詢需求:傳統(tǒng)的“114”信息查詢是一種編碼查詢,信息的排序也只是簡單地依據(jù)拼音或是筆畫排序,這無法滿足越來越多的模糊的語義或同義詞查詢需求。另外編碼查詢座席的培訓成本較高,且服務的種類、靈活性支持有限,信息服務擴展能力不強。

·多字段組合查詢:數(shù)據(jù)庫全文檢索只是簡單地把若干個字段信息進行合并后的檢索,沒有考慮各個字段的信息定義及相互關系。而話音平臺的搜索引擎需要能夠利用話音平臺的結構化信息定義,設計出符合信息表達本質的聯(lián)合查詢算法,即考慮到關鍵詞在某個字段出現(xiàn)的情況,又考慮到這個字段的定義對于一條完整信息表達的貢獻度。

·信息搜索的精確性:信息搜索精準的直觀表達即是信息的排序。由于話音信息服務平臺的特殊性,因此要求話音信息服務平臺的搜索引擎具備極高的查準率,這樣不但適合每次只能播報幾條信息的苛刻要求,還能節(jié)省用戶獲取信息的時間。而傳統(tǒng)的“114”信息查詢只能實現(xiàn)基于拼音或是筆畫的排序,無法按照服務內(nèi)容的相關程度進行排序。

·不能很好地實現(xiàn)各種業(yè)務模式:后向經(jīng)營的業(yè)務模式,對報號(排序和播報)提出很靈活的要求,如按次、天、概率進行符合搜索需求的信息輪循排序,這點傳統(tǒng)數(shù)據(jù)庫支持能力也有限。

·不能很好地支持后向企業(yè)信息發(fā)布服務:由于話音服務平臺的界面限制,要求信息發(fā)布更加具有針對性,使企業(yè)發(fā)布的信息有效地傳達到目標用戶群。因此用戶信息需求特征的識別和發(fā)布信息的匹配顯得越發(fā)重要。

·不能很好地支撐經(jīng)營分析:查詢用戶需求取向、被查詢客戶的客戶分析,各類排行榜和分布圖等原有系統(tǒng)都不支持。

·平臺并發(fā)能力弱:基于數(shù)據(jù)庫的信息查詢服務,在大并發(fā)量和復雜業(yè)務模式下支持能力有限,查詢時間長。

本文應用搜索引擎基本原理和技術,并考慮“114”信息服務的特點,創(chuàng)新地提出了結構化小文本搜索引擎的信息搜索系統(tǒng)和方法,對傳統(tǒng)“114”查號服務進行改造提升,同時考慮了平臺后向商家信息發(fā)布的需求,從而打造出以話音為基礎的雙向綜合信息服務平臺。

4 基于結構化小文本搜索引擎的設計

為了克服傳統(tǒng)數(shù)據(jù)庫信息搜索方面的缺陷,本文引入基于內(nèi)容的信息檢索到話音服務系統(tǒng)中。基于內(nèi)容的信息檢索不只是簡單地考慮是否包含某一個詞條,還要考慮這個詞條在文檔中的含義,可以有效去除那些對文檔內(nèi)容沒有貢獻但是與需要檢索詞條相同的文檔噪音(詞條);同時,把話音信息服務平臺中信息的定義也考慮到檢索模型的設計中,因為模型的構造對基于內(nèi)容搜索的效率有重要的影響[1]。目前比較成熟的檢索模型主要有布爾邏輯模型、向量空間模型、概率推理模型等[2,3]。其中Salton等提出的向量空間模型相對較適用于話音服務信息平臺的需求。該模型將查詢條件和文檔分別抽象成多維向量空間中的向量,通過比較兩個向量之間的關系來判斷查詢與文檔的相似程度,再根據(jù)相似度的大小返回滿足條件的結果集合[4~9]。

通過發(fā)展向量空間模型,在模型的建立過程中考慮話音信息服務平臺結構化信息的表達方式,考慮話音平臺信息的定義明確、信息資源文本量少、可計算參數(shù)少,但是服務針對性強,服務種類相對可規(guī)范的特點,最大限度地發(fā)揮話音平臺結構化信息的優(yōu)勢。同時應用服務的積累能力,完善模型的構建及相關權值的計算。

本文中的結構化是指話音信息服務平臺的信息是經(jīng)過整理和定義的,信息描述的各個維度是結構化的,有定義的;而小文本是指信息包含的文本量少、精煉,按照傳統(tǒng)文本搜索計算模型的可計算參數(shù)相對較少??傮w設計思路是建設基于結構化小文本搜索系統(tǒng),包括:

·結構化小文本搜索算法設計;

·結構化小文本搜索引擎設計。

4.1 結構化小文本搜索引擎算法設計

基于結構化小文本的相關度計算模型如下。

假設:一個關鍵詞d1經(jīng)過同義詞、近義詞擴展后,獲得查詢的目標向量為D′={d1,d2,…,dn},其中D′既是查詢向量,也是獲得的查詢結果需要匹配的查詢目標向量,而dn是D′中第n個關鍵詞;x代表系統(tǒng)對一個關鍵詞的評價值,即權重,xn為對查詢目標向量D′中第n個關鍵詞的評價,則查詢目標向量D′擴展后為 D,表示為D={(d1,x1),(d2,x2),…,(dn,xn)}。在實際開發(fā)中,同義詞、近義詞擴展,權重的評價值可以在服務過程中,根據(jù)話音信息服務平臺的特點逐步積累獲得。

檢索服務器基于查詢目標向量D={(d1,x1),(d2,x2),…,(dn,xn)}在數(shù)據(jù)庫中查詢,獲得M條記錄,這些記錄的各個字段中或多或少地包含查詢擴展之后的查詢目標向量中的關鍵詞,其矩陣表示形式如下。

其中xnm代表第n個關鍵詞在第m條記錄中出現(xiàn),并且其對應的權重為xnm。

設一條記錄有j個字段,按字段對查詢的貢獻程度,目前定義服務特征級、戶名級、地址級和其他級4個級別,并綜合計算。各個字段的貢獻程度以貢獻系數(shù)表示,分別為 α、β、ε、η,則:

其中 α+β+ε+η=1;1≥α>β>ε>η≥0;參數(shù)可以動態(tài)調(diào)整。j1代表關鍵詞在服務特征字段出現(xiàn);j2代表關鍵詞在戶名字段出現(xiàn);j3代表關鍵詞在地址字段出現(xiàn);j4代表關鍵詞在其他字段出現(xiàn)。雖然在此給出的例子中僅使用了4個級別及其對應的貢獻系數(shù)α、β、ε、η,但是根據(jù)實際需要,可以使用任意數(shù)量的級別及其對應的貢獻系數(shù)。

在確定了xnm之后,查詢目標向量D與第m個記錄Mm之間的相似度Y就可以計算了,例如取向量之間的夾角,相似度越大,兩個向量間的夾角越小,cos→1,計算式如下:

在實際使用過程中,可以根據(jù)實際情況,調(diào)整用于計算兩個向量之間的相似程度的數(shù)學公式,對于語義相對簡單的情況可以采用歐式語義距離等簡單公式。歐式語義距離是在進行結構化小文本相關度計算中采用的另一種計算公式,其來源于矩陣分析、模糊數(shù)學,目的是計算多維空間中兩個向量的相似程度。本文中選取的具體應用式子和其中關鍵參數(shù)的選擇都是根據(jù)號碼百事通搜索的具體需求而設計開發(fā)的。歐式語義距離計算公式如下:

其中A,B為被比較的兩向量,即查詢向量和查詢結果向量:A=(a1,a2,…,an)和B=(b1,b2,…,bn)。相似度由計算結果倒排序,由式(3)可見,與一個向量最相似的向量為其自身,相似度的計算結果為0。

4.2 計算實例說明

應用本搜索算法,可以根據(jù)座席的輸入,綜合考慮歷史服務經(jīng)驗積累、被服務信息資源特征、系統(tǒng)語義理解能力及后臺各類相關業(yè)務的特征,計算出最符合用戶信息需求的目標信息集合,以下是算例說明。

假設關鍵詞W,經(jīng)過搜索引擎擴展后形成一組查詢關鍵詞,表示為W=(W1,W2,W3,W4),經(jīng)過后臺算法處理后,查詢目標可表示為向量X,應用搜索引擎技術在數(shù)據(jù)庫中搜索,一條查詢到的信息可以表示為向量Y,應用歐式語義公式,計算兩個向量的相似度,相似程度的計算結果用來給查詢結果進行排序。

首先,說明如何獲得量化的查詢向量和被查詢向量。

用戶查詢:請給我找一家廣東口味的菜館,有包房、停車位,可以用信用卡付款。

基本查詢關鍵詞的形成:座席人員可以根據(jù)用戶要求,提煉出查詢關鍵詞:廣東菜、停車位、信用卡,作為輸入關鍵詞進行查詢。

經(jīng)過系統(tǒng)處理,查詢關鍵詞向量為如下:廣東菜、粵菜(粵菜為廣東菜同義詞,系統(tǒng)可自動生成)、廣州菜(近義詞)、停車位、車位(同義詞)、免費泊車(同義詞)、泊車(同義詞)、信用卡。

這樣系統(tǒng)就可以表示查詢向量W,查詢向量再經(jīng)數(shù)值化就可以形成計算向量X,數(shù)值化的過程系統(tǒng)根據(jù)一定的規(guī)則自動完成。W={(廣東菜),(粵菜),(廣州菜),(包房),(停車位),(車位),(免費泊車),(泊車),(信用卡)},X′={1.0,1.0,0.8,1.0,1.0,1.0,1.0,1.0,1.0}。

同時,存在企業(yè)A,簡要介紹如下:可容納300人同時就餐,高級包房,免費停車,可用信用卡消費。推薦菜譜:板栗煲老雞、百合鯽魚湯、里水金絲蝦、魚餃、炒糕。企業(yè)A的用戶信息經(jīng)過處理可以形成一列被比較的關鍵詞信息,即為被查詢信息,W′={(粵菜),(高級),(包房),…,(魚餃)}。

將被查詢信息與查詢向量進行比較,取被查詢信息中與查詢向量相對應的單元形成查詢結果向量。同時,根據(jù)簽約情況和其他情況,為客戶的被查詢信息加權、數(shù)值化(系統(tǒng)可以根據(jù)設定自動完成)。本算例中W′與查詢向量W進行比較,取{(粵菜),(包房),(停車位),(信用卡)}4 個單元進行信息比對,再進行數(shù)值化,形成被查詢向量的數(shù)學表達。

在實際的系統(tǒng)運行中,首先是形成被查詢信息的索引信息,并且形成了相應的權重系數(shù),完成整個搜索空間的構建,然后查詢向量映射到這個搜索空間,進行向量之間的比對計算。

最后,基于式(3)進行被查詢信息與查詢向量之間的相似度計算。例如,省略其他計算步驟,經(jīng)過搜索引擎處理后一個查詢向量為X=(0.7,0.8,0.2,0.9),被查詢的數(shù)據(jù)庫記錄為兩條,處理后的被查詢向量為Y1=(0.6,0,0,0.5),Y2=(0.2,0.3,0.1,0.3),則應用歐式語義距離公式計算的過程如下:

由計算結果可知,Y2與X相關程度要優(yōu)于Y1與X的相關程度。

系統(tǒng)將Y2首先返回給電信業(yè)務排序模塊以便根據(jù)電信相關的業(yè)務需求以靈活排序方式對查詢結果進行排序,并根據(jù)排序后的結果將其提供給用戶。當然,也可以直接將Y2返回關鍵詞查詢界面以便座席人員根據(jù)搜索結果與用戶進行交流,使用戶獲得滿意的信息,之后進行自動話音報號。

4.3 結構化小文本搜索引擎結構、功能設計

結構化小文本搜索引擎的核心是應用歷史服務知識及搜索引擎面向服務對象的分析,進行搜索知識的積累及應用,包括搜索請求分析、搜索擴展、相關度計算模塊等,如圖1所示,主要介紹如下。

結構化小文本搜索引擎系統(tǒng)包括:

·業(yè)務層,負責對外與業(yè)務系統(tǒng)的接口定義,業(yè)務邏輯所需的關鍵參數(shù)的輸出;

·業(yè)務生成層,負責對搜索請求進行分析,調(diào)用下層搜索引擎進行搜索及實現(xiàn)相應的搜索邏輯;

·基礎能力層,本層打包系統(tǒng)所需的各種基礎能力,如內(nèi)外部不同基礎搜索引擎或先進系統(tǒng)的能力調(diào)用,并且可以提供搜索算法定制所需的各種基礎搜索元數(shù)據(jù)的存儲及調(diào)用;

·搜索服務數(shù)據(jù)及日志模塊,存儲搜索所需的各類數(shù)據(jù),根據(jù)搜索請求對外提供服務,同時記錄服務過程中的各類日志;

·數(shù)據(jù)挖掘及分析模塊,主要提供各類對外服務報表,同時需要對服務日志進行挖掘,挖掘結果反饋給搜索引擎優(yōu)化調(diào)整模塊進行搜索引擎的優(yōu)化調(diào)整,如自動擴展模塊所需的同義詞等;

·支撐層,主要定義了搜索引擎業(yè)務邏輯的應用開發(fā)接口,方便根據(jù)業(yè)務系統(tǒng)要求進行搜索引擎的二次開發(fā)及算法的調(diào)整定制,此外還有標準數(shù)據(jù)接口及專用數(shù)據(jù)接口供搜索引擎服務引入外部數(shù)據(jù)進行搜索服務。

對比傳統(tǒng)搜索引擎,本系統(tǒng)更加強調(diào)在服務數(shù)據(jù)的搜集、整理、提煉過程中的結構化處理,以對搜索引擎進行相應的優(yōu)化。其中結構化小文本的計算方法,即對文本類信息描述的實際應用,使用結構化方法確定一條信息的不同部分的小文本的描述集合對于這條信息表達和理解的作用的強弱關系。在信息搜索過程中,轉化關鍵詞查詢?yōu)橐唤M關鍵詞或是搜索特征組成的查詢向量。同時,數(shù)據(jù)庫中被搜索信息根據(jù)數(shù)據(jù)模型的定義,也被表示成一組關鍵詞或信息特征組成的向量。這樣傳統(tǒng)數(shù)據(jù)庫關鍵詞的全文檢索,被轉化成兩組特征向量的相關度計算。根據(jù)結構化小文本的計算,可以綜合算出許多數(shù)據(jù)庫全文檢索無法分辨的信息的排序關系,此方法有效地解決了話音服務平臺對于信息的排序問題,使撥打“114”的用戶信息需求和后臺信息收集的方法有效地對應起來,方便信息的組織整理和應用。應用特征向量或其變體進行信息查詢,還可以把服務信息的特征疊加到搜索引擎的設計及搜索服務過程中,方便地根據(jù)服務信息的種類和特性開發(fā)精準的搜索服務。

5 結束語

傳統(tǒng)的結構化數(shù)據(jù)庫檢索,沒有把信息的結構化定義的因素應用到信息搜索服務中,本文在搜索算法及模型的構建過程中考慮了服務信息的定義因素,在分析以“114”(號碼百事通)呼叫中心為代表的話音信息服務平臺服務、平臺信息組織、原有基于數(shù)據(jù)庫查詢系統(tǒng)特點的基礎上,結合語義搜索的最新進展,提出基于可設定信息模型條件下的結構化小文本搜索算法,在話音信息服務平臺上引入了搜索引擎的設計開發(fā)思想。

在此基礎上設計了以話音信息服務平臺為應用領域的基于結構化小文本搜索引擎的信息搜索系統(tǒng),為廣大電話用戶提供便捷的生活信息服務。更重要的是這種方式將搜索引擎的技術引入海量數(shù)據(jù)庫檢索中,可以積累搜索引擎應用過程中產(chǎn)生的各種知識,并應用這些知識在未來的搜索過程中,提升了搜索能力和搜索效率。未來,結構化小文本搜索引擎還需進一步根據(jù)話音信息服務平臺資源類型及服務業(yè)務種類的特點,細化結構化數(shù)據(jù)的定義,構建更加精確的算法模型,完善計算調(diào)用的邏輯及相關計算權值的動態(tài)維護標準等。

1 楊震,夏艷等.基于結構化小文本的號碼百事通搜索系統(tǒng)和方法.中華人民共和國國家知識產(chǎn)權局授權專利,ZL200710084911.7

2 吳立德.大規(guī)模中文文本處理.上海:復旦大學出版社,1997

3 Gudivada V N,Raghavan V V,et al.Information retrieval on the world wide Web.IEEE Internet Computing,1997,1(5):58~68

4 Salton G.A vector space model for automatic indexing.CACM,1975,18(11):613~620

5 黃萱菁,夏迎炬,吳立德.基于向量空間模型的文本過濾系統(tǒng).軟件學報,2003,14(3):435~442

6 Wenlei Mao,Wesley W Chu.The phrase-based vector space model for automatic retrieval of free-text medical documents.Data&Knowledge Engineering,2007,61(1):76~92

7 龐劍鋒,卜東波,白碩.基于向量空間模型的文本自動分類系統(tǒng)的研究與實現(xiàn).計算機應用研究,2001,18(9):23~26

8 唐明偉,卞藝杰,陶飛飛.基于語義向量空間模型的文檔檢索系統(tǒng)研究.情報雜志,2010,29(5):167~170,177

9 邢軍,韓敏.基于兩層向量空間模型和模糊FCA本體學習方法.計算機研究與發(fā)展,2009,46(3):443~451

猜你喜歡
話音搜索引擎結構化
促進知識結構化的主題式復習初探
結構化面試方法在研究生復試中的應用
左顧右盼 瞻前顧后 融會貫通——基于數(shù)學結構化的深度學習
話音疊加中實時混音算法的FPGA實現(xiàn)
網(wǎng)絡搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
IP語音報頭壓縮設計與實現(xiàn)
基于軟信息的結構化轉換
基于網(wǎng)優(yōu)平臺的數(shù)據(jù)話音均衡分析
基于Lucene搜索引擎的研究
台东市| 溧阳市| 昌吉市| 宁明县| 聊城市| 邵阳县| 松江区| 宜良县| 丰县| 雅安市| 岳西县| 夏邑县| 永川市| 达日县| 肥乡县| 大港区| 伊宁市| 平泉县| 渭南市| 五大连池市| 济宁市| 万宁市| 东乌珠穆沁旗| 吉安市| 肇州县| 东乡族自治县| 峨眉山市| 鄂州市| 石柱| 忻城县| 台东县| 永泰县| 晋宁县| 长岭县| 大姚县| 达尔| 秦皇岛市| 安吉县| 大田县| 土默特右旗| 利川市|