常寶嫻,陳瑋瑋,李素娟
(南京工業(yè)大學理學院,南京 211816)
一種基于分布式rough本體的語義相似度計算方法
常寶嫻,陳瑋瑋,李素娟*
(南京工業(yè)大學理學院,南京 211816)
針對傳統(tǒng)的語義相似度計算方法缺少相應領域本體和精確知識支撐等缺陷,提出一種基于分布式rough本體的語義相似度計算方法.通過半自動構建領域本體保證語義相似度計算的準確度,采用rough的上下近似提高語義相似度計算的精確性,并通過實例驗證了該算法的有效性.結果表明:該文方法不僅可減弱對領域專家的依賴,而且還能大幅提高語義相似度計算的查全率和準確率.
rough本體;語義相似度;分布式;遠程教育
互聯(lián)網作為人們獲取信息的重要渠道,其規(guī)模在不斷擴大,如何提高信息的準確度成為目前研究的熱點之一.針對現(xiàn)有的網絡信息難以運用計算機進行處理的現(xiàn)狀,Bemers-Lee[1-2]提出了語義網的概念.而作為語義網基礎的本體則采用了規(guī)范化語言對概念和關系進行形式化說明,使得計算機理解及互操作成為可能[3-4].與基于語法的信息檢索不同,本體在信息檢索中的應用能夠顯著提高檢索的精確率和返回率[5].本體信息檢索領域中概念的語義相似度計算起著重要的作用.語義相似度的計算通過對本體要素的語義距離或者貼近度的度量,能綜合評價本體的復用及重用的可能性,也可作為本體融合與集成等任務的前期評估[6].近年來,國內外出現(xiàn)的語義相似度計算的相關研究成果大多根據某種分類體系來計算,或利用大規(guī)模的語料庫進行統(tǒng)計,如李鵬等[7]提出基于語義詞典的樹狀層次結構中的路徑長度計算語義相似度;夏天[8]提出基于詞語空間向量模型統(tǒng)計并計算特征詞向量間的相似度.然而,由于分類體系受主觀因素影響較大,難以反映客觀性能,語料庫統(tǒng)計法則因依賴于語料庫的優(yōu)劣而存在數(shù)據稀疏的問題,并伴有噪聲干擾;因此,Slowinski[9],Ishizu[10]等提出利用rough集擴展本體,以rough關系作為概念的上下近似,從原始語義和數(shù)據層面規(guī)避了主觀性和稀疏性等問題.本文應用rough本體改善基于經典本體的信息檢索方法,探討了rough本體的構建、計算、匹配等關鍵技術,采用分布式計算方法從現(xiàn)有網頁頁面提取并構建rough領域本體,建立rough本體語義相似度計算模型,設計相關語義相似度計算算法,并通過遠程教育領域語義相似度的計算驗證該方法的可行性和有效性.
基本步驟:首先根據基于主題相似度判定的垂直搜索引擎框架Nutch算法從初始地址集合中搜集出與研究主題相關的網頁集合,然后采用自然語言處理(natural language processing,NLP)處理網頁內容,得出資源描述框架(resource description framework,RDF)數(shù)據并存入已設計的分布式非關系數(shù)據庫HBASE(Hadoop database),最后通過本文語義相似度計算算法計算概念間的語義相似度.
采用Nutch搜索引擎框架,有針對性地建立初始網頁地址集,利用Nutch垂直搜索算法對網頁進行抓取,創(chuàng)建動態(tài)判定矩陣
進行主題相關性識別,其中wURL(u)為頁面u對應的地址的權值,wCLK(u)為頁面u的點擊次數(shù)對應的權值.wURL(u)=w(u)[δ+(1-δ)S(T,Q)],w(u)為頁面的PageRank值,S(T,Q)為所得鏈接文本T和主題詞集Q的相似度,δ為調整參數(shù),一般取0.4~0.8.
資源描述框架可通過斷言三元組表示為
下文簡稱SPO.斷言的主語必須通過通用資源標識符 (uniform resource identifier,URI)識別.謂語必須在詞匯表中定義,以便與詞匯表的名稱空間URI關聯(lián).賓語可以通過URI或文本識別,如果該賓語是另一個斷言的主語,則其必須通過URI識別.謂語的主要作用是定義主語和賓語之間的關系.通過NLP文本處理工具處理大量文本數(shù)據得到相應的斷言三元組.
根據斷言三元組設計成不同的HBASE表結構:SPO(主謂賓)、POS(謂賓主)與OSP(賓主謂).3張表的表定義相同,每張表只包含一個簇列(分布式數(shù)據庫的訪問控制單元),每行數(shù)據均存儲在一個簇列中.區(qū)別在于所存放的數(shù)據不同,SPO表的分布式數(shù)據庫的主鍵是(主語,謂語),簇列中存放賓語值;POS表的分布式數(shù)據庫的主鍵是(謂語,賓語),簇列中存放主語值;OSP表的分布式數(shù)據庫的主鍵是(賓語,主語),簇列中存放謂語值.將NLP文本處理得到的斷言三元組,根據其位置關系及內容存儲至對應的SPO、POS或OSP表中.
將處理得到的SPO近似空間的整個個體全集U劃分成等價類集合,即以屬性集Q作為等價關系構造近似空間所得到的結果.
定義1 對于概念A,其等價概念集R(A)為所有(S,P,O)三元組中P(O,S)=A的概念的集合,即
定義2 概念A的上近似概念集
定義3 概念A的下近似概念集
定義4 概念A與概念B的粗糙相似度S(A,B)為概念A、B的上近似概念集的交集與概念A、B下近似概念集的交集之和,即
通過上下近似關系可進一步得到
其中sum(·)表示概念出現(xiàn)的次數(shù).
本文算法具體步驟如下:
步驟1 通過HBASE簇分割數(shù)據至HBASE每個子域.
步驟2 映射.
1)通過各個子域U i計算概念A,B的等價概念子集R i(A),Ri(B);
2)參考定義2,3計算概念A,B在每個子域里的上下近似概念集R*i(A),(A),R*i(B),(B);
3)計算在每個子域里概念A,B的相似度
步驟3 約簡.統(tǒng)計所有子域的相似度,加權求和得到概念A,B的相似度
通過遠程教育領域的相關數(shù)據測試本文算法,初始網頁地址集合選取了教育領域內比較著名的幾個網站,如中國現(xiàn)代遠程與繼續(xù)教育網、中國遠程教育網、21互聯(lián)遠程教育網、中國農村遠程教育網等,將其網址作為Nutch搜索的輸入.抓取網站中涉及遠程教育資源的頁面,參考幾個主要網站中重要詞匯表選取遠程教育資源的重要概念,如課件、試題、教案、素材、問題、答疑、名師、測評、名師課堂、教學視頻、試聽課程、論文、備課筆記、聽課筆記、教育禮儀、教學媒體、學習難點、相似課程、隨堂問題、課堂反饋、輔導、信譽評價、學員動態(tài)、學生作品、教育評估、模擬考試、技能培訓等.根據Nutch垂直搜索算法,篩選出有效頁面1 235個,然后對這些頁面采用SPO三元組參考重要概念進行數(shù)據提取,得到37 542個三元組存入HBASE,依據公式(8)分為10個子域循環(huán)計算每兩個重要概念間的相似度,最后對每個子域的計算值進行加權求和得到每兩個概念的相似度,并與基于Word Net語義相似度[11]的計算結果進行比較,部分結果如表1所示.
由表1可見,本文算法相比簡單的關鍵詞匹配算法相似度較高,且在進行大量數(shù)據處理時效率較高.
表1 語義相似度計算結果Tab.1 Result of computation
本文提出了一種基于分布式rough本體的語義相似度計算方法,其相似度計算準確率較一般語義相似度計算方法高,且處理效率高,為大量數(shù)據的查詢處理提供了新的方法,對于構建領域本體具備較強的借鑒意義.然而,本文在進行SPO三元組數(shù)據提取時,未考慮謂語詞匯對概念的影響,一定程度上影響了概念間相似度的準確值,今后將在謂語詞匯對語義相似度的影響及領域本體的自動化構建方面作進一步的研究.
[1]BERNERS-LEE T.Long live the web:a call for continued open standards and neutrality[J].Sci Am,2010,303(6):80-85.
[2]BERNERS-LEE T,HENDLER J,LASSILA O.The semantic web:a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities[J].Sci Am,2001,284(5):34-43.
[3]HITZLER P,HARMELEN F V.A reasonable semantic web[J].Semant Web,2010,1(1):39-44.
[4]孫茂圣,朱俊武,李斌.一個基于agent組織的web服務集成框架 [J].揚州大學學報:自然科學版,2009,12(4):60-65.
[5]TAGARELLI A,GULLO F.Evaluating PageRank methods for structural sense ranking in labeled tree data[C]//Proceedings of the 2nd International Conference on Web Intelligence,Mining and Semantics.New York,USA:ACM,2012:129-174.
[6]徐健,方安,洪娜.一種基于詞語相似度計算的本體映射方法 [J].現(xiàn)代圖書情報技術,2013,29(2):36-42.
[7]李鵬,陶蘭,王弼佐.一種改進的本體語義相似度計算及其應用 [J].計算機工程與設計,2007,28(1):227-229.
[8]夏天.漢語詞語語義相似度計算研究 [J].計算機工程,2007,33(6):191-194.
[9]SLOWINSKI R,GRECO S,MATARAZZO B.Rough sets in decision making[M]//MEYERS R A.Encyclopedia of complexity and systems science.New York:Springer,2009:7753-7787.
[10]ISHIZU S,GEHRMANN A,NAGAI Y,et al.Rough ontology:Extension of ontologies by rough sets[M]//HUTCHISON D,KANADE T,KITTLER J,et al.Lecture notes in computer science.Berlin:Springer-Verlag,2007,4557:456-462.
[11]ZHAO Lihua,ICHISE R.Aggregation of similarity measures in ontology matching[C]//The 5th International Workshop on Ontology Matching.Shanghai:[s.n.],2010:423-441.
A distributed computing method of semantic similarity based on rough ontology
CHANG Baoxian,CHEN Weiwei,LI Sujuan*
(Coll of Sci,Nanjing Univ of Technol,Nanjing 211816,China)
This paper presents a distributed computing method of semantic similarity based on rough ontology and improves the precision according to ontology,the completeness according to the upper approximation and low approximation of rough theory.It also improves the independence according to distributed data processing.An experiment of gathering web pages automatically of remote education is used to construct domain rough ontology and compute the semantic similarity.The experiment shows that the algorithm not only reduces the dependence of domain experts,but also greatly enhances the rates of completeness and precision.
rough ontology;semantic similarity;distributed;remote education
TP 311.51
A
1007-824X(2014)01-0060-03
2013-09-05.* 聯(lián)系人,E-mail:lisujuan1978@126.com.
江蘇省高校自然科學基金資助項目(11KJB520006).
常寶嫻,陳瑋瑋,李素娟.一種基于分布式rough本體的語義相似度計算方法 [J].揚州大學學報:自然科學版,2014,17(1):60-62,66.
(責任編輯 林 子)