王 銳,張穎慧,陳 麗
(1.中國移動通信集團公司廣東分公司 廣州 510623;2.億陽信通股份有限公司 北京 100095;3.廣東交通職業(yè)技術(shù)學(xué)院計算機工程學(xué)院 廣州510650)
目前,隨著通信網(wǎng)絡(luò)的發(fā)展,網(wǎng)絡(luò)容量愈來愈龐大,新型設(shè)備層出不窮,電信運營商之間的競爭也越來越激烈,為了盤活網(wǎng)絡(luò)存量資產(chǎn),加快網(wǎng)絡(luò)割接效率,達到有效使用網(wǎng)絡(luò)資源和快速開通業(yè)務(wù)的目的,各通信運營商建立了自己的網(wǎng)絡(luò)資源管理系統(tǒng),包括傳輸、無線、數(shù)據(jù)、交換、動力、管線等各專業(yè)資源數(shù)據(jù),為企業(yè)網(wǎng)絡(luò)管理和規(guī)劃、運營生產(chǎn)提供數(shù)據(jù)支撐。早期的資源管理系統(tǒng)各自獨立,例如無線資源管理系統(tǒng)、傳輸資源管理系統(tǒng)等,目前逐步向統(tǒng)一資源管理系統(tǒng)演進和發(fā)展,形成統(tǒng)一的網(wǎng)絡(luò)資源管理平臺。
綜合資源管理系統(tǒng)作為通信運營商OSS域的核心系統(tǒng)之一,管理了通信網(wǎng)絡(luò)中各專業(yè)的網(wǎng)絡(luò)資源。其最關(guān)鍵的業(yè)務(wù)應(yīng)用之一就是給使用者提供從海量資源數(shù)據(jù)中快速、精確定位所需資源的能力,從而為后續(xù)資源的其他業(yè)務(wù)應(yīng)用提供快捷的數(shù)據(jù)支撐及應(yīng)用入口。
傳統(tǒng)的資源數(shù)據(jù)搜索方法都基于關(guān)系型數(shù)據(jù)庫,用戶查詢界面的方法主要有兩種。一種是完全基于用戶特定查詢條件需求的定制化開發(fā),即用戶根據(jù)自己的搜索需求,給出一系列搜索條件,然后資源系統(tǒng)建設(shè)廠商根據(jù)搜索條件需求,從網(wǎng)絡(luò)資源數(shù)據(jù)的數(shù)據(jù)庫中按需進行搜索;另一種是資源系統(tǒng)建設(shè)廠商實現(xiàn)查詢條件在一定范圍的自定義能力,允許用戶在資源模型的范圍內(nèi),根據(jù)資源的屬性對查詢條件進行自定義,從而自行配置出滿足自己需要的搜索條件,由系統(tǒng)根據(jù)搜索條件從網(wǎng)絡(luò)資源數(shù)據(jù)的數(shù)據(jù)庫中按需進行搜索。
本文通過基于配置策略的網(wǎng)絡(luò)資源數(shù)據(jù)搜索方法,實現(xiàn)綜合、跨專業(yè)、快速、簡潔、準(zhǔn)確的資源搜索方法,具體表現(xiàn)在:建立了在多個資源系統(tǒng)或多個專業(yè)資源搜索的索引,當(dāng)發(fā)現(xiàn)資源有更新時,及時更新資源索引信息;同時針對資源模型進行業(yè)務(wù)模型抽象,建立網(wǎng)絡(luò)資源特有的數(shù)據(jù)抽取字段及索引分詞字段,使用戶以最少的輸入條件獲取盡可能多的匹配信息;同時通過關(guān)注優(yōu)先技術(shù),屏蔽傳統(tǒng)權(quán)限預(yù)定義模式,通過分析用戶行為,保障用戶搜索定位結(jié)果逐步趨向個人最期望獲取的搜索結(jié)果,即隨需而變。
傳統(tǒng)的資源數(shù)據(jù)搜索方法一般都存在如下缺點。
(1)按需定制化開發(fā)的搜索方法
·需要針對不同的用戶需求,開發(fā)出不同的資源數(shù)據(jù)搜索功能。一旦用戶需求有變更則必須重新進行定制開發(fā),隨著資源系統(tǒng)業(yè)務(wù)應(yīng)用的日益廣泛,需求的變更幾乎是必然的,這就導(dǎo)致后續(xù)的應(yīng)用開發(fā)和維護成本非常高昂。
·主要針對某個資源管理系統(tǒng)或某個專業(yè),如果涉及公共資源或多個專業(yè)資源關(guān)聯(lián)信息的搜索,就需要到各個系統(tǒng)或各個專業(yè)分別進行資源的搜索,搜索的信息孤立而且效率較低。
·無法根據(jù)用戶的關(guān)注點或查詢的頻次,個性化地提供搜索結(jié)果,無法提供基于用戶行為的搜索結(jié)果。
(2)基于模型的自定義搜索方法
·實現(xiàn)技術(shù)門檻較高,尤其是涉及多表關(guān)聯(lián)的資源數(shù)據(jù)搜索方法的自定義,目前業(yè)內(nèi)缺乏成功的案例,絕大部分只實現(xiàn)了基于單表的資源搜索。
·用戶需要對資源模型有一定了解,自定義搜索條件有一定的難度及工作量。
由于目前傳統(tǒng)的資源數(shù)據(jù)搜索方法都是基于關(guān)系型數(shù)據(jù)庫的搜索模式,所以對于綜合資源系統(tǒng)這種資源模型復(fù)雜(資源關(guān)聯(lián)關(guān)系繁多),而且日益海量的數(shù)據(jù)的搜索,存在搜索效率低下的問題,無法滿足實際生產(chǎn)的需要。
基于以上問題,在資源項目中,引入了全文檢索技術(shù)。通過如下方面解決傳統(tǒng)資源檢索面臨的問題。
·統(tǒng)一檢索入庫,所有的資源準(zhǔn)實時同步到索引庫中,采用統(tǒng)一的檢索頁面進行資源檢索。
·提供分次策略的可配置性及可維護性。按照業(yè)務(wù)屬性組合成用于某個業(yè)務(wù)屬性的精確查詢維度及全文模糊匹配維度策略,以滿足可擴展的業(yè)務(wù)需求。
·提供用戶的屬性、檢索信息和業(yè)務(wù)屬性的相關(guān)性,記錄分析用戶的檢索喜好,提供快速及智能的查詢結(jié)果優(yōu)化分析。
基于配置策略的網(wǎng)絡(luò)資源數(shù)據(jù)搜索平臺的技術(shù)架構(gòu),主要包括配置控制層、資源索引層和資源搜索層,如圖1所示。
·配置控制層:根據(jù)資源數(shù)據(jù)的業(yè)務(wù)特點,進行數(shù)據(jù)的模型配置,支撐資源的索引建立和搜索,是整個系統(tǒng)的核心控制中樞。
·資源索引層:負責(zé)從網(wǎng)絡(luò)資源管理系統(tǒng)及外部系統(tǒng)提取資源數(shù)據(jù),并按照從配置控制層抽取的資源搜索模型進行數(shù)據(jù)清洗以及相關(guān)的索引分詞策略配置,完成索引庫的創(chuàng)建,以便進行資源數(shù)據(jù)搜索。由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫的搜索必須依賴于資源存儲的數(shù)據(jù)庫表查詢,而本搜索平臺是基于搜索引擎的設(shè)計,支持從多數(shù)據(jù)源獲取數(shù)據(jù),滿足綜合資源管理的業(yè)務(wù)定位要求。故本搜索平臺在設(shè)計上考慮了對多數(shù)據(jù)源、多數(shù)據(jù)格式的支持,如 DB、XML、Excel。
·資源搜索層:負責(zé)分析用戶行為,即根據(jù)用戶輸入條件按照配置控制層定義的資源搜索模型權(quán)值,從資源索引層進行數(shù)據(jù)搜索,并將搜索結(jié)果轉(zhuǎn)化為用戶可識別的格式化數(shù)據(jù)。
下面就核心的配置控制模塊作進一步表述。
在資源管理系統(tǒng)中,所涵蓋的數(shù)據(jù)覆蓋了業(yè)務(wù)、物理、邏輯、空間等領(lǐng)域,并且數(shù)據(jù)量達到TB級以上。采用搜索引擎技術(shù)很好地解決了傳統(tǒng)關(guān)系型數(shù)據(jù)庫查詢單一以及效率低下的問題。配置控制層就是通過對資源業(yè)務(wù)模型以及索引模型的關(guān)系進行配置,使搜索引擎的查詢效率滿足用戶需求。
配置控制層包括了業(yè)務(wù)模型的描述以及依賴業(yè)務(wù)模型的索引模型配置。在本搜索平臺的全生命周期運行中,包括數(shù)據(jù)抽取、索引入庫、輸入分析、資源搜索等環(huán)節(jié),都需要通過配置控制層進行相關(guān)的業(yè)務(wù)分析處理,主要包括如下信息。
(1)業(yè)務(wù)模型
業(yè)務(wù)模型表示從復(fù)雜的資源特征數(shù)據(jù)中抽取出共有的以及適合搜索的信息,并將關(guān)系型數(shù)據(jù)轉(zhuǎn)化成平面的二維數(shù)據(jù)格式。業(yè)務(wù)模型的定義為數(shù)據(jù)的抽取采集提供了執(zhí)行指導(dǎo)和標(biāo)準(zhǔn)。
業(yè)務(wù)模型主要包括以下兩類。
·群體模型:群體特征屬性,如專業(yè)、網(wǎng)絡(luò)層次、地區(qū)、狀態(tài)等,按照群體將資源分類后,可以依據(jù)群體特征為后續(xù)的模型配置完成各種個性化的場景定制。
·個體模型:根據(jù)群體特征屬性進行細分,如網(wǎng)元名稱、電路名稱、管理IP地址、互聯(lián)IP地址等,個體模型的配置依賴于群體模型。
(2)搜索模型
為了有效地保障查詢的命中率,合理的分詞技術(shù)是關(guān)鍵。搜索模型就是針對業(yè)務(wù)模型,按照業(yè)務(wù)特征進行索引字段、分詞策略和權(quán)重的定義,提高資源搜索的命中率以及關(guān)注優(yōu)先級。
(3)視圖模型
視圖模型是將搜索結(jié)果進行轉(zhuǎn)換,把結(jié)果轉(zhuǎn)換成用戶識別的業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)。
本方法的實施流程如圖2所示,具體包括創(chuàng)建資源索引(步驟1)和資源檢索查詢(步驟2)。
步驟1.1:建立資源模型的示意如圖3所示,根據(jù)目前電信資源業(yè)務(wù)模型,將資源搜索按照資源專業(yè)劃分為IP承載網(wǎng)、核心網(wǎng)、無線網(wǎng)、智能網(wǎng)、CMNET、GPRS、WLAN、IMS、集客、傳輸、動環(huán)、空間等大類。根據(jù)各大類包含的資源模型相似度,抽取資源模型的基礎(chǔ)屬性、擴展屬性。
基礎(chǔ)屬性指該大類內(nèi)所有資源都具備的常用屬性,如IP承載網(wǎng)網(wǎng)元的基礎(chǔ)屬性包括網(wǎng)元名稱、別名、集團標(biāo)準(zhǔn)名、所屬站點、所屬機房、所屬專業(yè)、狀態(tài)、網(wǎng)元類型、管理IP地址、廠商等,傳輸鏈路的基礎(chǔ)屬性包括鏈路名稱、本端站點、本端網(wǎng)元、本端端口、對端站點、對端網(wǎng)元、對端端口等,集客的基礎(chǔ)屬性包括產(chǎn)品編碼、產(chǎn)品類型、客戶名稱、行業(yè)、客戶級別等。
擴展屬性指該資源預(yù)留的可擴展搜索屬性,對目前沒有固化的資源搜索屬性,做出針對性的搜索擴展,如對基站滿足廣東是否超級基站的搜索需求擴展。
為保證搜索結(jié)果的有效、準(zhǔn)確,降低后續(xù)搜索擴展對框架的影響,就上述屬性進行約束,各類屬性均基于10個名稱類屬性、5個枚舉類屬性和3個日期類屬性約束定義。名稱屬性對應(yīng)n0,n1,n2,…,n9,如名稱、站點、機房等,枚舉屬性對應(yīng)s0,s1,s2…,s4,如專業(yè)、類型、狀態(tài)等,日期屬性對應(yīng)d0,d1,d2,如創(chuàng)建日期、最后修改日期等。
步驟1.2:根據(jù)綜合資源管理的數(shù)據(jù)范圍,按照模型從各網(wǎng)管系統(tǒng)進行數(shù)據(jù)抽取。針對資源內(nèi)部數(shù)據(jù),可采用DB方式從各資源關(guān)系模型中抽取搜索模型字段,而對于其他網(wǎng)管系統(tǒng),不一定完全能采用DB,可能采用Web Service+FTP方式進行XML格式數(shù)據(jù)傳遞,因此數(shù)據(jù)的來源可能是文件或XML消息。為了適應(yīng)數(shù)據(jù)來源的多樣性,需要對數(shù)據(jù)采集模塊進行適配器設(shè)計,使其支持不同的數(shù)據(jù)源。同時,為了及時維護索引,還需要增加任務(wù)調(diào)度接口。資源索引建立的UML類圖設(shè)計如圖4所示。
以DB方式實現(xiàn)數(shù)據(jù)網(wǎng)的資源索引策略描述主要的運行過程,即配置數(shù)據(jù)集與索引模型的映射以及執(zhí)行的SQL。運行過程如圖5所示。
圖5配置定義了索引文檔調(diào)用的數(shù)據(jù)源(如數(shù)據(jù)網(wǎng)數(shù)據(jù)視圖 view_search_datanet)、查詢 SQL、更新調(diào)度 SQL、索引字段與SQL結(jié)果集的映射。
步驟1.3:基于步驟1.1,將各大類資源數(shù)據(jù)進行基礎(chǔ)屬性、擴展屬性、全部屬性的組合打包,實現(xiàn)基于基礎(chǔ)屬性包、擴展屬性包、全部屬性包的多重屬性分詞,如BTS可以將n0,n1,n2,n3,n4屬性打包分詞,BSC可以將n0,n2,n4,s打包分詞,同樣也可以將BTS的n0字段與BSC的n0字段打包分詞。
對各搜索屬性、屬性包進行特有的分詞規(guī)則定制。如基本名稱類,采用資源特有的中文詞庫的中文分詞規(guī)則;對于特殊類名稱,由于特殊詞組多,命名規(guī)則特殊,采用較松散的字符串匹配分詞;對于枚舉類,采用全詞匹配;對于描述類,由于內(nèi)容偏多,采用基于統(tǒng)計的分詞,根據(jù)關(guān)鍵詞的出現(xiàn)次數(shù),獲取匹配率最高的數(shù)據(jù)。
屬性的打包配置分析如下。
(1)定義分詞策略
定義分詞策略運行流程如圖6所示。
圖6 定義分詞策略運行流程
(2)查詢索引庫策略
將n0,n1,n2,n3打包成n_s屬性包,如作為BSC網(wǎng)元的查詢索引庫策略,其運行流程如圖7所示。
(3)為n_s配置相應(yīng)的分詞策略
為n_s配置相應(yīng)的分詞策略的流程如圖8所示。
圖7 查詢索引庫策略運行流程
圖8為n_s配置相應(yīng)的分詞策略流程
步驟2.1:根據(jù)資源模型類型及搜索模型,定義其顯示的業(yè)務(wù)名稱,這里需要配置映射規(guī)則,保障搜索結(jié)果的格式化顯示。
以實現(xiàn)無線專業(yè)的視圖模型配置為例,說明索引字段對應(yīng)的業(yè)務(wù)顯示屬性映射,如圖9所示。
圖9 實現(xiàn)無線專業(yè)的視圖模型配置
步驟2.2:針對資源的搜索模型,劃分了不同的維度模型,如專業(yè)、網(wǎng)元類型、狀態(tài)、名稱、廠商等屬性,分別屬于大類、基礎(chǔ)、擴展。而這些信息的查詢權(quán)重不同,可以定義查詢的權(quán)重策略,優(yōu)先查詢權(quán)重高的索引字段。
以BSC網(wǎng)元的查詢權(quán)重配置為例,說明按照專業(yè)及維度建立索引字段的權(quán)重配置,如圖10所示。
圖10 建立索引字段的權(quán)重配置
步驟2.3:針對用戶經(jīng)常關(guān)注的資源進行記錄,記錄其專業(yè)及網(wǎng)元類型,保障用戶搜索資源時,進行用戶行為習(xí)慣的專業(yè)權(quán)重規(guī)則匹配。目前模式策略有兩種:統(tǒng)計優(yōu)先原則,即根據(jù)用戶一段時間內(nèi)的資源關(guān)注記錄,進行專業(yè)及網(wǎng)元類型匯總統(tǒng)計,將匯總結(jié)果最高的專業(yè)及網(wǎng)元類型作為默認搜索的權(quán)重規(guī)則匹配條件;最近優(yōu)先原則,即將用戶上次關(guān)注的資源的所在專業(yè)和網(wǎng)元類型作為搜索的權(quán)重規(guī)則匹配條件。其實現(xiàn)步驟如下。
·用戶輸入關(guān)鍵字“廣州”進行搜索,查詢結(jié)果按照順序顯示如下:站點廣州羅沖圍;IP承載網(wǎng)的廣州地市的AR01;傳輸電路廣州西德勝—清遠核心站點30N0002等。
·用戶點擊 “傳輸電路廣州西德勝—清遠核心站點30N0002”,進行資源履歷信息或拓撲查詢等業(yè)務(wù)操作,系統(tǒng)記錄當(dāng)前用戶點擊的“傳輸電路廣州西德勝—清遠核心站點30N0002”的所屬專業(yè)及網(wǎng)元類型,并進行點擊次數(shù)的計數(shù)器累加。
·用戶下次輸入“廣州”搜索,系統(tǒng)根據(jù)傳輸或傳輸電路的權(quán)重規(guī)則,自動優(yōu)先查詢“業(yè)務(wù)站點A”字段。則當(dāng)前的查詢結(jié)果按照順序顯示如下:傳輸電路廣州西德勝—清遠核心站點30N0002;IP承載網(wǎng)的廣州地市的AR01;站點廣州羅沖圍等。
至此,完成了從數(shù)據(jù)抽取、索引創(chuàng)建到客戶搜索查詢的過程。
本文彌補了傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫的搜索技術(shù)對于海量資源數(shù)據(jù)的搜索效率不高及資源定位不準(zhǔn)確以及需要根據(jù)需求定制搜索功能等缺陷,充分利用資源索引策略的配置和建立,結(jié)合用戶行為分析、關(guān)注優(yōu)先的技術(shù),在提升搜索效率的基礎(chǔ)上,真正實現(xiàn)了用戶搜索結(jié)果的隨需而變。
目前此搜索方法已經(jīng)應(yīng)用于網(wǎng)絡(luò)資源管理系統(tǒng)中,運行結(jié)果穩(wěn)定、可靠,用戶能夠迅速、準(zhǔn)確、便捷地查詢和配置資源數(shù)據(jù),給網(wǎng)管支撐、網(wǎng)絡(luò)管理和監(jiān)控等工作帶來價值和便捷。后續(xù)將進一步完善網(wǎng)絡(luò)資源管理的中文分詞和業(yè)務(wù)模型研究,提升搜索結(jié)果的廣度、深度和準(zhǔn)度。
1 程錦,張建.網(wǎng)絡(luò)化制造資源垂直搜索引擎的研究與應(yīng)用.計算機應(yīng)用,2007,27(5):1 116~1 118
2 王莉云,王華,陳剛等.基于Lucene的全文檢索系統(tǒng)的設(shè)計與實現(xiàn).計算機工程與設(shè)計,2007,28(24):5 959~5 961
3 朱學(xué)昊,王儒敬,余鋒林等.基于Lucene的站內(nèi)搜索設(shè)計與實現(xiàn).計算機應(yīng)用與軟件,2008,25(10)