丁婉瑩
[摘要]標(biāo)簽作為一種大眾標(biāo)引的形式,它既可以用于構(gòu)建詞表,也可以表示用戶的個(gè)性化特征。隨著網(wǎng)絡(luò)用戶對(duì)于個(gè)性化信息服務(wù)需求的加劇,個(gè)性化成為目前研究的熱點(diǎn)。利用本體構(gòu)建用戶模型逐漸成為一種主流趨勢(shì)。本文重點(diǎn)討論如何利用用戶標(biāo)簽,結(jié)合網(wǎng)絡(luò)詞表WordNet來(lái)構(gòu)建用戶的個(gè)人本體,從而為個(gè)性化服務(wù)的發(fā)展提供一種新的實(shí)施方案。
〔關(guān)鍵詞〕標(biāo)簽;本體;個(gè)性化;模型構(gòu)建;WordNet
DOI:10.3969/j.issn.1008-0821.2011.07.009
〔中圖分類號(hào)〕G254.29 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2011)07-0042-05
Research on the Model of Building Personal Ontology Based on Tagger餾 TagDing Wanying
(Department of Information Management,Peking University,Beijing 100871,China)
〔Abstract〕Tag,as a form of Folksonomy,can not only be used as a tool to build a controlled vocabulary but also represent the tagger餾 personality.With the intensifying demands of personalized service called by Web users,personalization has been the hot spot of nowadays research.And building user profile with ontology has been the main method in the certain field.This paper has concentrated on making use of tagger餾 tag to build a personal ontology with the help of WordNet,which is a Web controlled vocabulary.And the purpose of this paper was to propose a new method for personalized service in the Web.
〔Keywords〕tag;ontology;personalization;model building;WordNet
1 標(biāo)簽及標(biāo)簽的研究現(xiàn)狀
標(biāo)簽作為Web2.0的核心技術(shù)之一,它是用戶為自己感興趣的文章、圖片、音頻、視頻等一系列文件定義的一個(gè)或者多個(gè)描述[1]。以Del.icio.us[2],F(xiàn)lickr[3]等為代表的標(biāo)簽平臺(tái)在互聯(lián)網(wǎng)上得到了廣泛的應(yīng)用。而隨著標(biāo)簽的廣泛應(yīng)用,學(xué)術(shù)界也開(kāi)始注意到標(biāo)簽的內(nèi)在價(jià)值,展開(kāi)了大量對(duì)于標(biāo)簽的研究。
目前對(duì)于標(biāo)簽的研究主要可以歸結(jié)到如下3個(gè)方面:
1.1 對(duì)于標(biāo)簽自身價(jià)值的研究
主要包括對(duì)標(biāo)簽分類的研究[4]、標(biāo)簽對(duì)于被標(biāo)引資源的內(nèi)容揭示程度研究[5]、用戶標(biāo)引行為的研究[6]以及標(biāo)簽與其他標(biāo)引之間的關(guān)系[7]等等。
1.2 利用標(biāo)簽構(gòu)建網(wǎng)絡(luò)詞表
這方面的大部分研究集中在構(gòu)建標(biāo)簽結(jié)構(gòu)。研究思路又主要分成兩部分,一部分是利用例如自動(dòng)分類[8]、數(shù)據(jù)挖掘[9]以及浮動(dòng)語(yǔ)義[10]等方法直接來(lái)構(gòu)建標(biāo)簽詞之間的語(yǔ)義關(guān)系。另一部分主要是利用已有的例如WordNet[11]、Wikipedia[12]以及Swoogle[13]這樣的資源來(lái)輔助構(gòu)建標(biāo)簽結(jié)構(gòu)。
1.3 利用標(biāo)簽為用戶提供個(gè)性化服務(wù)
這部分應(yīng)用主要是用戶個(gè)性化檢索[14]和個(gè)性化推薦[15]兩個(gè)方面。主要是利用用戶標(biāo)簽來(lái)構(gòu)建簡(jiǎn)單的用戶模型,通過(guò)用戶模型來(lái)進(jìn)行個(gè)性化服務(wù)。但是對(duì)于這方面的研究一直比較零散,沒(méi)有形成規(guī)模。
其中利用標(biāo)簽構(gòu)建網(wǎng)絡(luò)詞表是現(xiàn)在標(biāo)簽研究的最為主要的組成部分。但是目前研究的都是針對(duì)于普適性詞表的構(gòu)建,即通過(guò)對(duì)標(biāo)簽的優(yōu)化和標(biāo)簽詞間的關(guān)系的構(gòu)建來(lái)制定一個(gè)在網(wǎng)絡(luò)范圍內(nèi)替代傳統(tǒng)詞表的,具有成本低、靈活性大、便于更新等優(yōu)勢(shì)的詞表。但是標(biāo)簽除了是一種標(biāo)引詞外,它區(qū)別于傳統(tǒng)詞表的另一個(gè)特點(diǎn)是它能夠反映標(biāo)引用戶的特性和興趣。這也是利用標(biāo)簽為用戶提供個(gè)性化服務(wù)研究得以存在的原因。
但是目前對(duì)于利用標(biāo)簽構(gòu)建詞表和利用標(biāo)簽提供個(gè)性化服務(wù)的研究之間相互比較獨(dú)立,很少有將兩者結(jié)合起來(lái)探討的研究成果。但是隨著網(wǎng)絡(luò)個(gè)性化的發(fā)展,將兩者聯(lián)合起來(lái)研究有著非常重要的意義。
2 基于標(biāo)簽的個(gè)人本體的意義和具體應(yīng)用
隨著互聯(lián)網(wǎng)的發(fā)展,用戶開(kāi)始訴求于個(gè)性化的信息服務(wù)。在個(gè)性化服務(wù)中,用戶模型是最為重要的一個(gè)環(huán)節(jié)。目前用于構(gòu)建用戶模型的方法很多,例如基于規(guī)則方法[16]、基于協(xié)同的方法[17],基于用戶歷史行為[18]的方法等等。但是這些方法都存在很多不足,因此很多專家開(kāi)始將本體應(yīng)用到個(gè)人性服務(wù)的領(lǐng)域,但是很多研究?jī)H僅是將領(lǐng)域本體直接應(yīng)用到個(gè)性化服務(wù)中來(lái)[19],或者從用戶瀏覽過(guò)的資源角度間接地構(gòu)建用戶本體[18]。這些方法都難以直接體現(xiàn)用戶的個(gè)性。
在另一個(gè)方面,用戶標(biāo)簽在構(gòu)建詞表和進(jìn)行個(gè)性化的服務(wù)方面的能力都已經(jīng)被大量證實(shí)。因此可以講這兩個(gè)方面相結(jié)合來(lái)構(gòu)建基于用戶標(biāo)簽的個(gè)人本體,從而來(lái)支持現(xiàn)在網(wǎng)絡(luò)上所倡導(dǎo)的個(gè)性化服務(wù)。
基于標(biāo)簽所構(gòu)建出的個(gè)人本體可以被應(yīng)用到許多的網(wǎng)絡(luò)服務(wù)領(lǐng)域,例如個(gè)性化檢索、個(gè)性化信息推送、個(gè)性化智能導(dǎo)航等等。隨著Web2.0向Web3.0[20]的發(fā)展,Web2.0平臺(tái)的整合將是一個(gè)大的發(fā)展趨勢(shì),因此必然會(huì)產(chǎn)生對(duì)Web2.0平臺(tái)進(jìn)行整合的中介服務(wù)商,由它們收集用戶的標(biāo)簽并為用戶構(gòu)建個(gè)人本體。而其他網(wǎng)絡(luò)信息服務(wù)商在經(jīng)過(guò)用戶許可之后,可獲得用戶個(gè)人本體,再根據(jù)自身服務(wù)特點(diǎn)進(jìn)行小幅度修改,就可以實(shí)現(xiàn)用戶個(gè)人本體的復(fù)用,為用戶提供個(gè)性化的信息服務(wù)。
因此本文的研究重點(diǎn)是構(gòu)建一套流程來(lái)使用用戶標(biāo)簽構(gòu)建用戶的個(gè)人本體,為個(gè)性化信息服務(wù)提供一種可參考的用戶模型實(shí)施方案。
2011年7月第31卷第7期基于用戶標(biāo)簽的個(gè)人本體的構(gòu)建模型研究July,3 用戶標(biāo)簽和個(gè)人本體
標(biāo)簽作為一種新型的標(biāo)引形式,擁有著簡(jiǎn)單易用、靈活地多維揭示、立即可見(jiàn)的收益、使用用戶語(yǔ)言、更新速度快等傳統(tǒng)受控標(biāo)引語(yǔ)言難以匹敵的優(yōu)勢(shì)[21]。但是標(biāo)簽的語(yǔ)法混亂、語(yǔ)義模糊、關(guān)系不明確等問(wèn)題是在標(biāo)簽要作為一種完善的標(biāo)引語(yǔ)言所必須解決的問(wèn)題。
本體是一種形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明[22]。本體是現(xiàn)在最為先進(jìn)的知識(shí)表示方式。本體一般由類、關(guān)系、函數(shù)、公理和實(shí)例5大元素構(gòu)成[23]。個(gè)人本體是根據(jù)個(gè)人特征、興趣構(gòu)建服務(wù)于一個(gè)人的本體結(jié)構(gòu),該本體可以針對(duì)用戶的個(gè)性特征進(jìn)行推理,便于提供更符合用戶的需求的信息服務(wù)。
因此要將標(biāo)簽這種極度不規(guī)范化的標(biāo)引語(yǔ)言轉(zhuǎn)化成個(gè)人本體這種極度規(guī)范化的知識(shí)表表示系統(tǒng),需要完成以下幾個(gè)工作:
(1)詞語(yǔ)的規(guī)范化:用戶標(biāo)簽用的用詞是隨意的,但本體中的類是嚴(yán)格規(guī)范的。
(2)關(guān)系的明朗化:用戶的標(biāo)簽詞之間是沒(méi)有明確關(guān)系的,但是在本體中需要詞與詞直接明確的關(guān)系。
(3)構(gòu)建本體函數(shù):便于本體的推理,需要構(gòu)建相應(yīng)的函數(shù)。
(4)建立公理:因?yàn)楸倔w是一個(gè)可以實(shí)時(shí)更新的主體,因此需要給本體建立公理作為其更新和修正時(shí)的準(zhǔn)則。
(5)建立實(shí)例:即建立某一特殊領(lǐng)域內(nèi)的特定對(duì)象。
4 基本操作流程
由于現(xiàn)在網(wǎng)絡(luò)上存在有大量結(jié)構(gòu)良好的詞表,因此沒(méi)有必要花費(fèi)大量的人力物力來(lái)重新規(guī)范標(biāo)簽的詞語(yǔ)和關(guān)系??梢砸袁F(xiàn)存的網(wǎng)絡(luò)詞表為中間媒介來(lái)實(shí)現(xiàn)利用標(biāo)簽來(lái)構(gòu)建個(gè)人本體的目的。
本文在將用戶標(biāo)簽轉(zhuǎn)化成個(gè)人本體的過(guò)程中,引入輔助單元——WordNet作為轉(zhuǎn)換的參照依據(jù)。選擇WordNet是因?yàn)樗鼘?duì)于概念與概念之間的關(guān)系都有著比較清楚的定義。在目前通用本體匱乏的情況下,很多研究者也常將WordNet作為一種輕量本體來(lái)使用[24]。
圖1 操作流程示意圖
在構(gòu)建個(gè)人本體工作之前,需要對(duì)用戶標(biāo)簽進(jìn)行收集,并將它們放在統(tǒng)一的個(gè)人標(biāo)簽庫(kù)中。個(gè)人標(biāo)簽庫(kù)的功能有以下幾點(diǎn):
(1)定時(shí)收集用戶在各個(gè)平臺(tái)上所使用的標(biāo)簽。
(2)記錄下用戶對(duì)每個(gè)標(biāo)簽的使用次數(shù)。這個(gè)次數(shù)值是一個(gè)只增不減的數(shù)值。
(3)記錄哪些標(biāo)簽詞已經(jīng)被收錄入個(gè)人本體,哪些還沒(méi)有。
然后利用WordNet作為構(gòu)建的輔助主體,對(duì)標(biāo)簽詞進(jìn)行詞匯處理、詞間關(guān)系處理等,并撰寫(xiě)本體中的公理、函數(shù)等等。最終可以得到用戶個(gè)人本體,與用戶主體相關(guān)聯(lián)。在構(gòu)建的過(guò)程中,對(duì)于一些機(jī)器難以準(zhǔn)確處理的問(wèn)題,還需要用戶的參與。
5 詞匯處理
5.1 詞匯語(yǔ)法處理
在構(gòu)建本體的時(shí)候,要將標(biāo)簽中不規(guī)范的詞匯變成本體中規(guī)范化的概念。因此要對(duì)個(gè)人標(biāo)簽庫(kù)中的標(biāo)簽做如下的處理:
5.1.1 詞頻統(tǒng)計(jì)
在用戶標(biāo)簽中,很多詞用戶使用的頻率非常低,應(yīng)該對(duì)這些低頻詞進(jìn)行剔除處理。雖然根據(jù)齊普夫定律[25],高頻詞也應(yīng)該被剔除。但是在用戶標(biāo)簽中,詞的頻率越高越能夠代表用戶的興趣程度。因此在操作的過(guò)程中保留高頻詞。
設(shè)定閥值a,對(duì)所有的標(biāo)簽詞進(jìn)行詞頻統(tǒng)計(jì),凡是詞頻低于a的標(biāo)簽詞匯給予剔除處理。
5.1.2 詞性處理
個(gè)人本體中的概念詞匯應(yīng)該都是名詞,因此刪除類似于“happy”這樣的形容詞和動(dòng)詞,僅保留名詞和名詞性詞語(yǔ)。
在詞性處理的過(guò)程中,對(duì)于單個(gè)詞匯可以利用標(biāo)注軟件對(duì)各個(gè)詞匯的詞性進(jìn)行標(biāo)注。例如哈工大的LTP自然語(yǔ)言處理軟件[26]。在詞性標(biāo)注完成之后,剔除標(biāo)注詞性不是“/n”的詞匯。但是對(duì)于詞組,首先采用保留的態(tài)度,在下續(xù)工作中進(jìn)行進(jìn)一步處理。
5.1.3 詞性規(guī)范
用戶在標(biāo)引的時(shí)候可能會(huì)存在一些語(yǔ)法不規(guī)范的現(xiàn)象??赡艽嬖诘恼Z(yǔ)法不規(guī)范現(xiàn)象有:?jiǎn)螐?fù)數(shù)不統(tǒng)一,例如bacterium與bacteria。時(shí)態(tài)不統(tǒng)一,例如takes與taking。還有一些詞匯是使用縮寫(xiě)形式,例如go to do寫(xiě)作gtd。為了方便后續(xù)處理,應(yīng)該將這些語(yǔ)法不規(guī)范的現(xiàn)象進(jìn)行清除和統(tǒng)一。
統(tǒng)一單復(fù)數(shù)與時(shí)態(tài)問(wèn)題,可是使用詞根抽取算法,將詞根作為單詞的標(biāo)準(zhǔn)型。而對(duì)于縮寫(xiě)形式,可以采用詞典匹配的方法,還原縮寫(xiě)詞的標(biāo)準(zhǔn)型。
5.2 詞匯句法分析
在詞匯處理的時(shí)候,雖然剔除了非名詞性單詞,但是沒(méi)有對(duì)詞組做任何處理。句法分析要重點(diǎn)對(duì)用戶標(biāo)引詞中的詞組進(jìn)行處理。對(duì)詞組的處理形式只有兩種:保留原有詞組形式和將詞組拆分。在具體過(guò)程中遵循以下步驟:
(1)訪問(wèn)WordNet,如果是WordNet中出現(xiàn)的詞組,說(shuō)明該詞組是常用詞組,保留原詞組形式。否則進(jìn)行第(2)步
(2)給定相關(guān)閥值b,如果詞組的頻率高于閥值b,說(shuō)明該詞組是用戶的慣用詞,保留原詞組形式。否則進(jìn)行第(3)步
(3)詞組成分相似相判斷。設(shè)定相似相閥值s,利用Jacaard公式進(jìn)行相似性判斷:
S=A∩BA+B-A∩B(1)
其中S表示相似度,X表示集合X中的元素的個(gè)數(shù)。
如果是形容詞+名詞短語(yǔ),考察該詞組的共現(xiàn)詞匯集與該名詞單獨(dú)出現(xiàn)的共現(xiàn)詞匯集的相似性。如果相似性高于s則進(jìn)行詞組拆分,否則不拆。
如果是名詞+名詞詞語(yǔ),分別考查兩個(gè)名詞的共現(xiàn)詞集合和詞組共現(xiàn)詞集合和相似性。如果相似性均低于s,則保留原有詞組。否則保留相似程度高的那個(gè)名詞作為標(biāo)簽詞。
(4)如果是介詞和連詞詞語(yǔ),進(jìn)行拆分處理。
(5)不屬于以上任何一種情況,在用戶界面上向用戶進(jìn)行詢問(wèn),由用戶來(lái)選擇拆詞還是保留原有詞組。
5.3 詞匯語(yǔ)義分析
詞匯語(yǔ)義分析主要是來(lái)解決同義詞和一詞多義的問(wèn)題。
由于每個(gè)用戶都有其自身的用詞習(xí)慣,很少用戶會(huì)習(xí)慣在多個(gè)同義詞之間換來(lái)?yè)Q去地使用。而且同義詞已經(jīng)在WordNet中有良好的定義,可以直接利用WordNet中的同義詞關(guān)系來(lái)解決用戶標(biāo)簽的同義詞問(wèn)題。因此同義詞在個(gè)人本體中的影響不大。
一詞多義會(huì)對(duì)個(gè)人本體有著極大的影響。比如“Apple”一詞,IT工作人員會(huì)理解為計(jì)算機(jī),而務(wù)農(nóng)人員會(huì)理解為一種水果。在解決這個(gè)問(wèn)題時(shí),本文提出一個(gè)假設(shè),即一個(gè)用戶對(duì)于某個(gè)詞的某個(gè)意義的偏好程度在一定的時(shí)間范圍內(nèi)是相對(duì)穩(wěn)定的。基于這個(gè)假設(shè),本文提出了如下解決一詞多義的方法:
(1)在WordNet中對(duì)用戶的每一條標(biāo)簽進(jìn)行搜索,找到該詞的所有意思鏈接。
(2)對(duì)每一種意思的解釋文本進(jìn)行分詞處理,提取實(shí)義詞,以向量的形式存儲(chǔ)。記為:
Ts{S1,S2,……Sn}(2)
其中S璶表示的是詞T璼的第n個(gè)意思的向量表示形式。
(3)將標(biāo)簽詞的共現(xiàn)相關(guān)詞用向量的形式存儲(chǔ)。記為To。
(4)利用空間向量的方法將S璶與T璷進(jìn)行相關(guān)度匹配,并記錄下相關(guān)度。
(5)存儲(chǔ)下每個(gè)用戶標(biāo)簽在該詞每個(gè)意思上的相關(guān)度,用作為用戶在該標(biāo)簽詞上對(duì)該意思的權(quán)重。
Tc{C1,C2,……Cn,(Cn+1)}(3)
其中C璶的數(shù)據(jù)結(jié)構(gòu)如下
Cn{Sn,相似度權(quán)重}(4)
(6)由于WordNet的更新也存在滯后性,因此有的詞在WordNet中匹配不到正確的意思,例如“geilivable”這樣最新在互聯(lián)網(wǎng)上出現(xiàn)的詞。因此在操作的過(guò)程中,要為每個(gè)權(quán)重賦予一個(gè)閥值c,當(dāng)一個(gè)標(biāo)簽詞在WordNet中與每個(gè)意思匹配的相似度均小于c時(shí)。默認(rèn)其是一個(gè)新的意思,并在T璫中擴(kuò)展一個(gè)存儲(chǔ)空間,用以存儲(chǔ)C璶+1
Cn+1[Sn+1共現(xiàn)相關(guān)詞向量],1-Σ(Cn的相似度權(quán)重)(5)
這樣就可以分析出一個(gè)用戶對(duì)于每個(gè)詞的各種意思的偏好程度。在為用戶提供個(gè)性化服務(wù)的時(shí)候可以根據(jù)用戶對(duì)每個(gè)意思的偏好程度服務(wù)。例如在個(gè)性化檢索時(shí),用戶輸入“Doctor”,而根據(jù)用戶的個(gè)人本體發(fā)現(xiàn),用戶在“Doctor”這個(gè)意思上更偏重于“PHD”領(lǐng)域的意思,因此可以推薦其有關(guān)于PHD的信息。
5.4 詞匯存儲(chǔ)
在個(gè)人本體中,每一個(gè)詞的存儲(chǔ)形式如下:
T{詞號(hào),詞語(yǔ)標(biāo)準(zhǔn)形,用戶使用形,用戶使用次數(shù),Tc}(6)
這些形式規(guī)范化的標(biāo)簽詞作為本體的類目。
6 詞間關(guān)系處理
標(biāo)簽最大的問(wèn)題就是沒(méi)有嚴(yán)格的詞間關(guān)系。在構(gòu)建個(gè)人本體的時(shí)候最大的障礙就是確定標(biāo)簽詞間的關(guān)系。而WordNet已經(jīng)提供了非常嚴(yán)格和良好的詞語(yǔ)的關(guān)系構(gòu)架,因此,可以借助于WordNet來(lái)進(jìn)行標(biāo)簽詞間關(guān)系的構(gòu)建。
對(duì)于關(guān)系的處理分為以下兩種情況:
6.1 基于共現(xiàn)方法的關(guān)系確認(rèn)
將每?jī)蓚€(gè)共現(xiàn)過(guò)的詞對(duì)在WordNet中尋找關(guān)系。如果是WordNet中存在的關(guān)系,則使用WordNet關(guān)系。否則返回用戶,由用戶確定關(guān)系。而詞間的關(guān)系權(quán)重通過(guò)詞對(duì)的共現(xiàn)次數(shù)來(lái)確定。
6.2 基于聚類方法的關(guān)系確認(rèn)
根據(jù)標(biāo)簽詞之間的共現(xiàn)關(guān)系,構(gòu)建共現(xiàn)矩陣,并對(duì)矩陣進(jìn)行聚類分析。經(jīng)過(guò)聚類分析之后,就可以得到許多的詞簇。分析詞簇中沒(méi)有共現(xiàn)關(guān)系的詞,并將它們兩兩構(gòu)成詞對(duì)。放入WordNet中尋找關(guān)系。如果WordNet中存在關(guān)系,使用WordNet關(guān)系。否則返回用戶,由用戶確定關(guān)系。
如果詞A與詞B共現(xiàn)了n次,而詞B與詞C共現(xiàn)了m次,選取d=min{m,n}作為詞A與C的關(guān)系權(quán)重確定的標(biāo)準(zhǔn)。
詞間關(guān)系的存儲(chǔ):
R{詞號(hào),相關(guān)詞詞號(hào),關(guān)系權(quán)重}(7)
7 函數(shù)的撰寫(xiě)
在個(gè)人本體中需要撰寫(xiě)函數(shù)以支持本體的推理。具體函數(shù)的撰寫(xiě)應(yīng)該根據(jù)具體的需要而設(shè)定。本文提供一些基本函數(shù)一共參考。FunzTY(T):該函數(shù)用于返回與標(biāo)簽T有等同意義的詞。
FunzSUN(T):該函數(shù)用于返回標(biāo)簽T的下位詞。
FUNzFAT(T):該函數(shù)用于返回標(biāo)簽T的上位詞。FUNzLEV(T):該函數(shù)用以返回用戶在標(biāo)簽T各個(gè)意思上的理解程度,即返回T璫。
網(wǎng)絡(luò)信息服務(wù)提供商應(yīng)該根據(jù)自身服務(wù)提供的特點(diǎn)來(lái)撰寫(xiě)相關(guān)的函數(shù),以便為用戶提供更為有效的服務(wù)。
8 公理和實(shí)例的構(gòu)建
公理是本體領(lǐng)域的一些常識(shí)性的描述,用以約束本體中的概念、關(guān)系和屬性。在上述的詞語(yǔ)處理,關(guān)系處理的過(guò)程中的各種約束都因該在公理中闡述。由于前面已經(jīng)詳細(xì)介紹過(guò),這里便不再贅述,僅舉兩個(gè)例子闡明公理的形式:
取詞公理:標(biāo)簽的使用次數(shù)必須超過(guò)閥值a。
選詞公理:個(gè)人本體中的詞必須都是名詞。
實(shí)例是本體中低層的對(duì)象。可以借鑒于Wiki以及WordNet對(duì)概念的解釋文本來(lái)構(gòu)建類的實(shí)例。
9 本體的更新和維護(hù)
由于用戶的個(gè)性特征是個(gè)動(dòng)態(tài)變化的過(guò)程,而用戶的標(biāo)引行為也是一個(gè)不斷發(fā)展和變化的過(guò)程。因此用戶的個(gè)人本體應(yīng)該進(jìn)行不斷的更新和維護(hù),適應(yīng)用戶的個(gè)性特征變化。本文采用如下的方法對(duì)本體進(jìn)行更新和維護(hù):
(1)收集用戶自前一次本體更新以來(lái)所有的標(biāo)引標(biāo)簽,并對(duì)標(biāo)簽進(jìn)行詞匯處理和關(guān)系處理。
(2)在原有的T璫的基礎(chǔ)上重新計(jì)算用戶對(duì)每個(gè)標(biāo)簽詞每個(gè)意思的偏好權(quán)重。
(3)對(duì)于原來(lái)本體中不存在的詞匯和關(guān)系,采用添加方式處理。
(4)對(duì)于本體中存在的關(guān)系,采用獎(jiǎng)勵(lì)算法,即加重關(guān)系權(quán)值。
(5)對(duì)于這次更新中沒(méi)有出現(xiàn)的關(guān)系,采用懲罰算法,即以一定的比例降低關(guān)系權(quán)值。
10 小 結(jié)
本文根據(jù)現(xiàn)階段網(wǎng)絡(luò)服務(wù)對(duì)于個(gè)性化的需求,結(jié)合現(xiàn)階段對(duì)于個(gè)性化服務(wù)研究的不足之處,綜合考慮用戶標(biāo)簽在構(gòu)建受控詞表和提供個(gè)性化服務(wù)方面的優(yōu)勢(shì),提出了一種基于用戶標(biāo)簽的個(gè)人本體構(gòu)建的流程。在模型中,針對(duì)用戶標(biāo)簽在詞匯、詞間關(guān)系中可能存在的問(wèn)題進(jìn)行了規(guī)范化處理,使其可以符合本體標(biāo)準(zhǔn),能夠應(yīng)用于實(shí)際操作。
但是仍有許多工作需要本體進(jìn)一步研究,例如如何跨平臺(tái)收集標(biāo)簽,用戶隱私的保護(hù)問(wèn)題以及中文數(shù)據(jù)處理問(wèn)題等等。也歡迎感興趣的各位專家參與到相關(guān)研究中來(lái)。
參考文獻(xiàn)
[1]張立彬,趙麟,吳一平,等.基于Tag的個(gè)性化服務(wù)新方式[J].情報(bào)科學(xué),2008,10(26):1494-1501.
[2]Del.icio.us[EB/OL].http:∥del.icio.us,2011-01-05.
[3]Flickr[EB/OL].http:∥www.flickr.com,2011-01-05.
[4]Scott Golder,Bermardo Huberman.The Structure of Collaborative Tagging Systems[J].Journal of Information Science,2006,32:198-208.
[5]George Macgregor,Emma McCulloch.Collaborative tagging as a knowledge organization and resource discovery tool[J].Library Review,2006,55(5):291-300.
[6]C Cattuto,V Loreto,L Pietronero.Collaborative Tagging and Semiotic Dynamics[DB/OL].arxiv.http:∥arxiv.org/abs/cs/0605015,2010-12-20.
[7]MEI Kipp.Exploring the context of user,creator and intermediary tagging[A].Proceedings of the 7th Information Architecture Summit[C].Vancouver,Canada,2006.
[8]Paul Heymann,Hector Garcia-Molina.Collaborative Creation of Communal Hierachical Taxonomies in Social Tagging System[DB/OL].Stanford InfoLab Publication Server.http:∥ilpubs.stanford.edu:8090/775,2011-01-05.
[9]Patrick Schmitz.Inducing Ontology form Flickr Tags[A].Proceeding of Collaborative Web Tagging Workshop.The 15th International World Wide Web Conference(www 2006)[C].Edinburgh UK,2006.
[10]Lei Zhang,Xian Wu,Yong Yu.Emergent Semantics from Folksonomies:A Quantitiative Study[J].Journal on Data Semantics,2006,4090(6):168-186.
[11]WordNet[EB/OL].Princeton University.http:∥wordnet.princeton.edu,2011-01-05.
[12]Wikipedia[EB/OL].http:∥en.wikipedia.org/wiki/Wiki,2011-01-05.
[13]Swoogle[EB/OL].UMBC.http:∥swoogle.umbc.edu,2011-01-05.
[14]陳琛.基于社會(huì)化標(biāo)簽的個(gè)性化搜索研究[D].江蘇:揚(yáng)州大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),2008.
[15]張有志.協(xié)同標(biāo)簽系統(tǒng)推薦機(jī)制研究[D].北京:北京大學(xué)信息管理系,2009.
[16]馮興杰.基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化網(wǎng)站設(shè)計(jì)與實(shí)現(xiàn)[D].天津:中國(guó)民航大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)專業(yè),2007.
[17]丁超.個(gè)性推薦系統(tǒng)中協(xié)同過(guò)濾技術(shù)的優(yōu)化及應(yīng)用[J].科技信息,2010,(4):217-218.
[18]盧林蘭,李明.用戶Ontology的構(gòu)建及其在個(gè)性化檢索中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2006,26(11):2635-2638.
[19]林潔.基于本體的個(gè)性化檢索技術(shù)研究[J].貴州科學(xué),2009,27(4):50-52.
[20]熊回香,王學(xué)東.面向Web3.0的分眾分類研究[J].圖書(shū)情報(bào)工作.2010,54(3):104-107.
[21]王一丁.社會(huì)協(xié)同標(biāo)簽系統(tǒng)研究[D].北京:北京大學(xué)信息管理系,2008.
[22]本體.維基百科[EB/OL].http:∥zh.wikipedia.org/zh/%E6%9C%AC%E4%BD%93z(%E4%BF%A1%E6%81%AF%E7%A7%91%E5%AD%A6)#znote-0,2011-01-05.
[23]翁暢平,沈娟.基于Ontology的個(gè)性化語(yǔ)義檢索系統(tǒng)研究[J].圖書(shū)館理論與實(shí)踐,2009,(10):77-80.
[24]羅志成,馬費(fèi)城,吳曉東,等.從維基分類系統(tǒng)構(gòu)建中文語(yǔ)義詞典研究[J].信息系統(tǒng)學(xué)報(bào),2008,2(2):68-77.
[25]齊普夫定律.百度百科[EB/OL].http:∥baike.baidu.com/view/40606.htm,2011-01-05.
[26]哈爾濱工業(yè)大學(xué)信息檢索研究中心.語(yǔ)言技術(shù)平臺(tái)LTP[EB/OL].http:∥ir.hit.edu.cn/demo/ltp,2011-01-05.
注:“本文中所涉及到的圖表、公式、注解等請(qǐng)以PDF格式閱讀”