摘 要 隨著信息社會(huì)的飛速發(fā)展,如何準(zhǔn)確、全面的在大量信息中獲取用戶所需的信息成為研究熱點(diǎn)。傳統(tǒng)檢索是基于關(guān)鍵字匹配,這種方式只涉及了字符匹配,并沒(méi)有達(dá)到語(yǔ)義匹配的目的,導(dǎo)致檢索結(jié)果或者龐大或者漏檢。本文借助本體,將簡(jiǎn)單的字符匹配提升為語(yǔ)義性強(qiáng)的概念匹配,基于OWL-S服務(wù)描述框架,對(duì)服務(wù)進(jìn)行分級(jí)匹配,最后將結(jié)果返回給用戶,使得檢索結(jié)果更加準(zhǔn)確和全面,更能滿足用戶的檢索需求。
關(guān)鍵詞 語(yǔ)義檢索;領(lǐng)域本體;OWL-S
引言
傳統(tǒng)的檢索基本上是基于關(guān)鍵字的信息檢索,利用分詞工具將用戶輸入的檢索信息抽取出關(guān)鍵詞,采用匹配算法在數(shù)據(jù)庫(kù)中查找與該關(guān)鍵詞相匹配的文檔,返回給用戶。這種檢索方法缺乏語(yǔ)義上的處理,使得檢索結(jié)果可能會(huì)不全面。針對(duì)這種不足,本文提出了基于領(lǐng)域本體的語(yǔ)義檢索技術(shù)研究,通過(guò)本體所構(gòu)建的語(yǔ)義關(guān)系的應(yīng)用,提高了檢索的查全率和查準(zhǔn)率[1]。
1語(yǔ)義檢索技術(shù)
本文研究的語(yǔ)義檢索的關(guān)鍵技術(shù)主要包括領(lǐng)域本體構(gòu)建模塊、查詢擴(kuò)展模塊和服務(wù)匹配模塊。各模塊協(xié)同完成用戶檢索任務(wù)。
1.1 本體理論
本體是概念模型的形式化的規(guī)范說(shuō)明,具有概念性,明確性,形式性和共享性。本文通過(guò)七步法的思想構(gòu)建交通領(lǐng)域本體,由Protege來(lái)實(shí)現(xiàn)。
1.2 查詢擴(kuò)展
由于用戶輸入的查詢語(yǔ)句很難反映具體的查詢需求,因此需對(duì)其做查詢擴(kuò)展。將查詢語(yǔ)句分解為關(guān)鍵詞匯集合,依次抽取集合中的關(guān)鍵詞與本體概念做資源映射得到同義本體概念集合,根據(jù)本體結(jié)構(gòu)對(duì)新得到的同義本體概念擴(kuò)展,得到擴(kuò)展后的查詢概念集合。
1.3 服務(wù)匹配
本文借助OWL-S服務(wù)描述框架進(jìn)行服務(wù)匹配。OWL-S是一種具有語(yǔ)義的描述Web服務(wù)屬性和功能的標(biāo)記語(yǔ)言。OWL-S從服務(wù)概況、服務(wù)模型和服務(wù)基礎(chǔ)三方面定義了Web服務(wù)的語(yǔ)義信息。對(duì)于服務(wù)匹配過(guò)程通過(guò)服務(wù)概況來(lái)實(shí)現(xiàn)。服務(wù)概況從服務(wù)的非功能信息和功能信息描述Web服務(wù)。非功能信息提供了面向用戶的可讀信息。功能性信息主要是指服務(wù)的輸入、輸出、前提和效果,簡(jiǎn)稱IOPE。
(1)非功能信息匹配算法。用戶在查詢時(shí)會(huì)提供一個(gè)OWL-S文檔,對(duì)所需服務(wù)進(jìn)行描述,服務(wù)發(fā)布者也會(huì)向注冊(cè)中心提供一個(gè)OWL-S文檔,對(duì)所提供服務(wù)進(jìn)行描述,非功能信息匹配即為短文本匹配通過(guò)詞語(yǔ)間相似度進(jìn)行計(jì)算。先對(duì)注冊(cè)服務(wù)進(jìn)行聚類處理,將類別一致的服務(wù)聚類到一起,這樣請(qǐng)求服務(wù)只需與各簇的代表服務(wù)進(jìn)行匹配,達(dá)到設(shè)定閾值后則與該簇內(nèi)的所有服務(wù)進(jìn)行匹配,若未達(dá)到設(shè)定閾值則無(wú)須與該簇內(nèi)的服務(wù)進(jìn)行匹配,這樣大大提高了檢索效率[2]。
①根據(jù)經(jīng)典K-means算法對(duì)注冊(cè)服務(wù)進(jìn)行服務(wù)聚類,得到各簇的代表服務(wù)。②對(duì)服務(wù)請(qǐng)求文檔R和各簇代表服務(wù)文檔A進(jìn)行預(yù)處理,得到兩個(gè)詞語(yǔ)集合R1和A1。③依次取R1和A1中的元素通過(guò)詞向量按位累加的方式,計(jì)算兩個(gè)詞語(yǔ)的向量表示,利用余弦相似度計(jì)算兩個(gè)向量的相似度。④利用詞向量相似度代表文檔相似度,設(shè)置相應(yīng)的閾值,超過(guò)該閾值的進(jìn)行下一步的功能匹配,未超過(guò)的則舍棄。最終得到非功能信息相似度S1
(2)IOPE功能信息匹配算法。注冊(cè)服務(wù)在非功能信息匹配符合設(shè)定的閾值后進(jìn)行IOPE功能信息匹配。定義一個(gè)請(qǐng)求服務(wù)Wr,輸出滿足功能的服務(wù)集Ws。
①將Ws 置空。②對(duì)于符合設(shè)定閾值要求的服務(wù)聚類,假設(shè)該聚類中有k個(gè)服務(wù),將請(qǐng)求服務(wù)Wr依次與中的注冊(cè)服務(wù)進(jìn)行基于PE參數(shù)的匹配,匹配成功進(jìn)行3,否則執(zhí)行第6步。③將請(qǐng)求服務(wù)Wr依次與中的注冊(cè)服務(wù)進(jìn)行IO參數(shù)匹配,匹配成功進(jìn)行第4步,否則執(zhí)行第6步。④根據(jù)IOPE匹配的結(jié)果及其權(quán)重計(jì)算總體匹配度T,設(shè)定一個(gè)匹配閾值x,若T>=x則將此服務(wù)添加到匹配結(jié)果集Ws中,若T (3)基于PE參數(shù)的匹配。定義Pa、Ea表示服務(wù)提供者的PE描述信息,Pr、Er表示服務(wù)請(qǐng)求者的PE描述信息,發(fā)布服務(wù)Wa(Pa,Ea)與請(qǐng)求服務(wù)Wr(Pr,Er)關(guān)于PE參數(shù)的匹配方式如下:①匹配:若Pr∈Pa,Er∈Ea,即Wr∈Wa,表示服務(wù)提供者描述的前提和效果包含服務(wù)請(qǐng)求者的描述,此時(shí)完全匹配。②不匹配:Pr≠Pa,Er≠Er,即Wa≠Wr,表示服務(wù)提供者與服務(wù)請(qǐng)求者的前提和效果描述完全不一致,匹配失敗 (4)基于IO參數(shù)的匹配。對(duì)于web服務(wù)一般具有多個(gè)輸入輸出參數(shù),進(jìn)行IO參數(shù)匹配時(shí): ①對(duì)請(qǐng)求的輸入概念集與服務(wù)的輸入概念集進(jìn)行兩兩匹配,根據(jù)本體概念相似度計(jì)算每個(gè)請(qǐng)求輸入概念與注冊(cè)服務(wù)的輸入概念的相似度,對(duì)所有的相似度求平均值作為概念集合的相似度In。②同理得到輸出概念集的匹配相似度On。③設(shè)置相應(yīng)的閾值Im和Om,若In>=Im且On>=Om,則將該服務(wù)添加至相應(yīng)的匹配隊(duì)列里,否則過(guò)濾掉。④基于IO參數(shù)的服務(wù)相似度即為輸入概念集相似度和輸出概念集相似度的綜合。 綜合的服務(wù)匹配相似度為: Match(SA,SB)=α*S1+ β*S2 其中α與β和為1,α和β可根據(jù)要求賦值以調(diào)節(jié)非功能信息和功能信息的權(quán)重大小。根據(jù)上述算法計(jì)算服務(wù)匹配的相似度大小并排序,最后將檢索結(jié)果返回給用戶,完成語(yǔ)義檢索[3]。 2結(jié)束語(yǔ) 本文提出的基于領(lǐng)域本體的語(yǔ)義檢索技術(shù),借助本體使得關(guān)鍵詞所包含的語(yǔ)義信息更明確,增強(qiáng)了用戶的檢索需求表達(dá),提高了查全率和查準(zhǔn)率。對(duì)請(qǐng)求服務(wù)和注冊(cè)服務(wù)在進(jìn)行分級(jí)匹配時(shí)融合了聚類的思想,極大地提高了服務(wù)匹配的效率,彌補(bǔ)了傳統(tǒng)檢索的不足。 參考文獻(xiàn) [1] 王李冬,張慧熙.基于HowNet的微博文本語(yǔ)義檢索研究[J].情報(bào)科學(xué),2016,34(9):134-137. [2] 溫有奎.信息檢索系統(tǒng)的關(guān)聯(lián)關(guān)鍵詞推薦研究[J].數(shù)字圖書(shū)館論壇,2016(4):11-14. [3] 楊月華,杜軍平,平源.基于本體的智能信息檢索系統(tǒng)[J].軟件學(xué)報(bào),2015,26(7):1675-1687. 作者簡(jiǎn)介 張秀麗(1994-),女;碩士研究生在讀,研究方向:網(wǎng)絡(luò)服務(wù)與信息安全。