阮懷偉 胡松華 陳艷平 鄒樂(lè)
摘要:本文在基于知識(shí)本體庫(kù)的基礎(chǔ)上,提出了個(gè)性化用戶模型的興趣樹構(gòu)建方法,并在此基礎(chǔ)上提出了基于WordNeT的語(yǔ)義相似度計(jì)算方法,為個(gè)性化服務(wù)提供理論指導(dǎo),與其他方法相比,本文提出的方法可以為個(gè)性化用戶提供更為精準(zhǔn)的推送服務(wù)。
關(guān)鍵詞:本體;興趣模型;個(gè)性化;語(yǔ)義相似度
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)20-0183-03
1 領(lǐng)域本體知識(shí)庫(kù)和語(yǔ)義相關(guān)度的理論與方法
隨著計(jì)算機(jī)在信息化方面的應(yīng)用,人們對(duì)數(shù)字信息的處理需求越來(lái)越高。信息技術(shù)開始面臨知識(shí)表示、信息組織和軟件復(fù)用等各種新的挑戰(zhàn)。特別是互聯(lián)網(wǎng)的迅速發(fā)展,使得組織、管理和維護(hù)海量信息,為用戶提供有效的服務(wù)成了一個(gè)重要而緊迫的研究課題[1-4]。為了適應(yīng)信息化處理需求,出現(xiàn)了一個(gè)新的概念,本體(Ontology)作為一種能夠在知識(shí)層面和語(yǔ)義層面描述信息系統(tǒng)的建模工具,引起了國(guó)內(nèi)外許多研究者的關(guān)注,并被廣泛應(yīng)用于計(jì)算機(jī)等知識(shí)領(lǐng)域[5-7]。
動(dòng)態(tài)數(shù)字語(yǔ)義標(biāo)引技術(shù)主要通過(guò)對(duì)本體資源的語(yǔ)義標(biāo)注,充分挖掘用戶感興趣和需要的資源,為用戶推送個(gè)性化的學(xué)習(xí)資源和學(xué)習(xí)計(jì)劃等。主要在于建立資源領(lǐng)域本體,對(duì)資源進(jìn)行語(yǔ)義標(biāo)注、審核、加工等,利用本體建立實(shí)體與知識(shí)點(diǎn)的關(guān)聯(lián)關(guān)系,知識(shí)點(diǎn)與資源的關(guān)聯(lián)關(guān)系,最終為個(gè)性化推送服務(wù)。
在領(lǐng)域本體知識(shí)庫(kù)方面,當(dāng)前本體建模缺乏邏輯層知識(shí)表達(dá)的問(wèn)題,一般方法是通過(guò)闡釋符號(hào)與符號(hào)過(guò)程的概念,聯(lián)系符號(hào)框架理論,將知識(shí)表達(dá)和關(guān)聯(lián)過(guò)程分為3個(gè)維度,即語(yǔ)法、語(yǔ)義、語(yǔ)用的應(yīng)用。另外一個(gè)是語(yǔ)義相關(guān)度計(jì)算,是信息檢索、文檔分類和聚類、推薦系統(tǒng)、機(jī)器學(xué)習(xí)等諸多領(lǐng)域,仍然存在一些關(guān)鍵技術(shù)亟待解決。
2 基于本體的個(gè)性化用戶模型—“興趣樹”構(gòu)建方法
在基于本體領(lǐng)域資源的基礎(chǔ)上,提出了一種基于本體的個(gè)性化用戶模型——興趣樹構(gòu)建的平衡方法。核心內(nèi)容是:基于已經(jīng)構(gòu)建了信息系統(tǒng)的領(lǐng)域本體,通過(guò)領(lǐng)域本體中的概念關(guān)系描述用戶模型,并選擇用戶模型中最廣泛的“直接關(guān)系”和“對(duì)等關(guān)系”,從而形成用戶模型,一棵樹狀的“興趣樹”?!芭d趣樹”的具體思想是在構(gòu)建良好的領(lǐng)域本體的基礎(chǔ)上為用戶提供固定的興趣點(diǎn),然后分析用戶的URL屬性,并利用屬性中包含的概念構(gòu)造用戶興趣樹[8-10]。構(gòu)建的用戶模型以用戶個(gè)人信息和用戶興趣樹的形式呈現(xiàn)。用戶模型的具體構(gòu)建過(guò)程如圖1所示。
3 基于WordNeT的語(yǔ)義相似度計(jì)算方法
語(yǔ)義相似度的計(jì)算需要先確定語(yǔ)義信息的含義,并使用各種語(yǔ)義信息,包括距離、信息系數(shù)IC(Information Coefficient)、深度、語(yǔ)義關(guān)系和概念特征。距離是最簡(jiǎn)單、最直觀的語(yǔ)義信息。在現(xiàn)有的研究中,都設(shè)置了所有的混合語(yǔ)義相似度。相似度的計(jì)算方法利用距離的語(yǔ)義信息進(jìn)行計(jì)算。本文提出的計(jì)算方法也是一種距離相關(guān)計(jì)算方法。該距離分為江提出的實(shí)際物理距離和語(yǔ)義距離[11-12]。本文提出了一種新的語(yǔ)義相似度計(jì)算方法:
[Sim(c1,c2)=e-(α×L(path)+β×L(IC))] (1)
式中的參數(shù)說(shuō)明如下,其中[L(IC)]為與信息系數(shù)IC有關(guān)的函數(shù),[L(path)]為最短路徑距離相關(guān)的函數(shù),和語(yǔ)義距離相關(guān)的函數(shù),[α]和[β]為參數(shù),參數(shù)范圍為[α>0],[β>0]。[L(IC)]與Jiang定義的語(yǔ)義距離公式相同,即:
[L(IC)=IC(c1)+IC(c2)-2×IC(LCS(c1,c2))] (2)
其中[IC(c1)]和[IC(c2)]為分別表示本體概念[c1],[c2]的IC值,[LCS(c1,c2)]為[c1],[c2]的公共包含,[IC(LCS(c1,c2))]為概念[c1],[c2]的最小公共包含IC值。公式中的所有IC的計(jì)算方法均使用新的IC計(jì)算方法。
為了確定最短路徑距離[L(path)]對(duì)語(yǔ)義相似度的影響,本文給出如下兩種[L(path)]的計(jì)算方法:
(1)方法1:
[L(path)=Distance(c1,c2)2×Depthmax] (3)
(2)方法2:
[L(path)=log(Distance(c1,c2)+1)log(2×Depthmax+1)] (4)
其中[Distance(c1,c2)]表示兩個(gè)概念結(jié)點(diǎn)[c1],[c2]的最短路徑距離,[Depthmax]為WordNet的最大深度。在計(jì)算IC的過(guò)程中,使用了諸如深度和密度等語(yǔ)義信息,在語(yǔ)義相似度的計(jì)算中使用最短路徑距離和深度,因此所提出的方法屬于混合語(yǔ)義相似度計(jì)算方法[13]。
4 個(gè)人偏好模型構(gòu)建和個(gè)性化推送服務(wù)
4.1 個(gè)人偏好模型構(gòu)建
根據(jù)語(yǔ)義本體和相似度計(jì)算方法,個(gè)人偏好模型知識(shí)來(lái)源如圖2所示,分為5個(gè)步驟:
1) 首先根據(jù)個(gè)人知識(shí)空間、個(gè)人顯性信息、個(gè)人隱性信息構(gòu)建個(gè)人偏好模型;
2) 基于個(gè)人偏好模型,在教材資源、圖書資源、試題資源和視音資源的支持下,進(jìn)行基于偏好、知識(shí)點(diǎn)和主題的資源聚合;
3) 然后進(jìn)行基于偏好的、面向不同用戶和不同主題的個(gè)性化出版;
4) 接著偏好統(tǒng)計(jì)分析;
5) 最后優(yōu)化個(gè)人偏好信息和偏好模型,從而實(shí)現(xiàn)后續(xù)的個(gè)性化出版優(yōu)化。
從圖2可以看出,主要分為5個(gè)部分,分別為:個(gè)人信息空間,個(gè)人知識(shí)空間,個(gè)人顯性信息,個(gè)人隱性信息,個(gè)人偏好信息。各部分的具體功能為:
1) 個(gè)人知識(shí)空間:個(gè)人知識(shí)空間記錄學(xué)生在當(dāng)前階段已經(jīng)掌握的知識(shí)或者技能。
2) 個(gè)人顯性信息:顯性信息是指用戶注冊(cè)系統(tǒng)時(shí)所填寫的信息,例如姓名、年級(jí)、聯(lián)系方式等。
3) 個(gè)人隱性信息:隱性信息是指用戶在學(xué)習(xí)過(guò)程中對(duì)某個(gè)知識(shí)點(diǎn)學(xué)習(xí)頻率、學(xué)習(xí)時(shí)間等網(wǎng)絡(luò)日志的記錄以及用戶在學(xué)習(xí)過(guò)程中對(duì)不同資源類型(如視頻、文檔等)使用度等。
4) 個(gè)人偏好信息:通過(guò)對(duì)用戶的顯性信息以及隱性信息進(jìn)行挖掘分析客戶的偏好信息。
將圖中的個(gè)人知識(shí)空間、顯性信息、隱性信息構(gòu)成個(gè)人的偏好信息,利用偏好信息構(gòu)建個(gè)人偏好模型。個(gè)人偏好模型構(gòu)建的流程如圖3所示。
個(gè)人偏好模型構(gòu)建的流程包括:
1) 用戶需要?jiǎng)?chuàng)建個(gè)人賬戶,注冊(cè)個(gè)人基本信息,并可以隨時(shí)修改自己的信息資料,生成個(gè)人顯性信息,并初始化成用戶偏好信息;
2) 然后通過(guò)網(wǎng)絡(luò)日志記錄用戶的學(xué)習(xí)行為,從而挖掘出用戶的隱性信息,用戶顯性信息與隱性信息構(gòu)成偏好信息;
3) 最后通過(guò)用戶顯性信息與隱性信息的不斷變化來(lái)更新用戶偏好信息,進(jìn)而形成用戶的偏好模型。
4.2 基于個(gè)人偏好的資源聚合
在構(gòu)建了用戶偏好模型后,就可以對(duì)基于偏好的資源進(jìn)行聚合,其聚合過(guò)程如圖4所示。
基于偏好的資源整合具體流程為:
1) 用戶登錄后,系統(tǒng)會(huì)自動(dòng)讀取用戶的偏好模型;
2) 根據(jù)用戶的偏好信息讀取已經(jīng)標(biāo)注的試題、教材、圖書和視音頻等資源信息;
3) 若資源符合偏好模型則進(jìn)行資源聚合,如果不是則繼續(xù)讀取資源;
4) 當(dāng)所有的資源都已經(jīng)讀取完畢則結(jié)束,此時(shí)基于偏好的資源聚合過(guò)程完成。
4.3 基于用戶偏好的個(gè)性化資源推送服務(wù)
根據(jù)不同用戶的偏好模型推薦相應(yīng)的資源,以使得用戶能夠及時(shí)有效的獲得自己感興趣的資源。例如用戶A偏好于視頻類資源,用戶B喜歡文檔類的資源,系統(tǒng)就分別推薦相應(yīng)所偏好的資源,而不是由系統(tǒng)統(tǒng)一的推送同一類資源。
5 結(jié)論
本文首先介紹了國(guó)內(nèi)外領(lǐng)域本體知識(shí)庫(kù)的相關(guān)理論與方法。接著,具體闡述了構(gòu)建用戶模型和構(gòu)建領(lǐng)域本體的“興趣樹”構(gòu)建方法的相關(guān)理論。然后基于已有的WordNet語(yǔ)義相似度計(jì)算方法,提出了一種基于混合式WordNeT的語(yǔ)義相似度計(jì)算方法。最后,本文對(duì)所構(gòu)建的用戶模型和語(yǔ)義相似度計(jì)算方法,用于用戶興趣模型的建立和個(gè)性化資源聚合服務(wù),并結(jié)合具體實(shí)例論證所構(gòu)建的用戶模型和語(yǔ)義計(jì)算度的可行性。
參考文獻(xiàn):
[1] 曹恬,周麗,張國(guó)煊.一種基于詞共現(xiàn)的文本相似度計(jì)算[J].計(jì)算機(jī)工程與科學(xué),2007(3):52-53.
[2] 潘謙紅,王炬,史忠植.基于屬性論的文本相似度計(jì)算[J].計(jì)算機(jī)學(xué)報(bào),1999(6):651-655.
[3] 戴弘寧,文貴華,丁月華,等.非結(jié)構(gòu)化數(shù)據(jù)的可視化編輯系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2003(6):75-76.
[4] 尹坤,尹紅風(fēng),楊燕,賈真.基于Sim Rank的百度百科詞條語(yǔ)義相似度計(jì)算[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2014(3):29-35.
[5] 于東,荀恩東.基于Word Embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧[J].中文信息學(xué)報(bào),2014(5):51-59.
[6] 吳奎,周獻(xiàn)中,王建宇,趙佳寶. 基于貝葉斯估計(jì)的概念語(yǔ)義相似度算法[J].中文信息學(xué)報(bào),2010,02:52-57.
[7] 蔡圓媛,盧葦.基于低維語(yǔ)義向量模型的語(yǔ)義相似度度量[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016(9):719-726.
[8] 魏韡,向陽(yáng),陳千.計(jì)算術(shù)語(yǔ)間語(yǔ)義相似度的混合方法[J].計(jì)算機(jī)應(yīng)用,2010(6):1668-1670.
[9] 曾琦,周剛,蘭 明敬,等.一種多義詞詞向量計(jì)算方法[J].小型微型計(jì)算機(jī)系統(tǒng),2016(7):1417-1421.
[10] 李青,陳陽(yáng),謝浩然,等.一種基于文本相似度矩陣運(yùn)算的非結(jié)構(gòu)化海量投訴數(shù)據(jù)分類算法[J].計(jì)算機(jī)工程與科學(xué),2012(1):103-107.
[11] Mihalcea R,Corley C,Strapparava C.Corpus-based and Knowledge-based Measures of Text Semantic Similarity[C]//National Conference on Artificial Intelligence and the Eighteenth Innovative
Applications of Artificial Intelligence Conference,July 16-20,2006,Boston, Massachusetts, Usa. DBLP, 2006:775-780.
[12] Thomas K Landauer,Peter W.Foltz,Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes,1998,25(2-3):259-284.
[13] Gabrilovich E,Markovitch S.Wikipedia-based Semantic Interpretation for Natural Language Processing[J].Journal of Artificial Intelligence Research,2014,34(4):443-498.