吳 芬
〔摘 要〕為解決folksonomies的問題,提出給標簽、標注行為增加語義的標簽本體,并利用語義網(wǎng)本體建模標注行為和folksonomies。標簽本體的發(fā)展從關(guān)注標注活動發(fā)展到關(guān)注folksonomy(協(xié)同標注活動),并從標簽含義的角度,創(chuàng)建MOAT跨越標注行為與語義檢索的鴻溝。標簽本體正走向統(tǒng)一、共享的新階段。
〔關(guān)鍵詞〕標簽本體;folksonomy;語義網(wǎng)
〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)11-0016-05
Research Progress of Tag Ontology AbroadWu Fen
(Library,Hunan University of Commerce,Wuhan 430079,China)
〔Abstract〕In order to solve the problems of folksonomies,researchers proposes tag ontology adding semantics to tag and tagging,and models tagging and folksonomies with ontology.The development of tag ontology was from focusing on tagging activity to folksonomy(collaborative tagging),and created MOAT bridging the gap between free-tagging and semantic retrieval.Tag ontology is towards uniform and sharing.
〔Keywords〕tag ontology;tagging;folksonomy;semantic web
隨著web2.0的發(fā)展,標簽(tag)以其自由、方便廣泛流行,標簽數(shù)據(jù)迅速增長,但其檢索效率則迅速下降。這是由于標簽的自由、簡單易用導(dǎo)致以下檢索問題[1]:(1)本地差異:標簽沒有語義,無法分辨同義詞和一詞多義;并且對于名詞單復(fù)數(shù)、動詞時態(tài)和替換拼法等不同詞匯形式以及人為的拼寫錯誤無能為力;(2)分布差異:不同的folksonomies系統(tǒng)有各自運作的具體方式,無法從不同應(yīng)用程序或服務(wù)中找出標簽數(shù)據(jù)的含義和關(guān)系。而這些局限是由于在folksonomies系統(tǒng)中缺乏統(tǒng)一的結(jié)構(gòu)和語義表示,不同folksonomies系統(tǒng)沒有共享、交流、復(fù)用標注數(shù)據(jù)的統(tǒng)一方式。
為在folksonomies系統(tǒng)中增加更多的結(jié)構(gòu)和語義,國外研究者已進行了相當?shù)难芯?。但這些研究主要集中于標簽使用范式的統(tǒng)計分析基于標簽數(shù)據(jù)的社會網(wǎng)絡(luò)分析和聚類等[1],即主要是研究標簽。Golder和Huberman收集delicious中的數(shù)據(jù)并分析標簽系統(tǒng)的結(jié)構(gòu)和使用范式,指出標簽比例的穩(wěn)定性[2];Adam Mahtes提出標簽的負冪分布規(guī)律:少量的標簽被大量的人使用,大量的標簽只有少數(shù)人使用[3]。Cattuto、Loreto和Pietronero表示,標簽之間共現(xiàn)關(guān)系的非平凡性可以描述成語義學(xué),通過標簽之間的共現(xiàn)分析可以揭示協(xié)同標記中的語義關(guān)系,如標簽之間的同義詞、等級關(guān)系等[4]。Begelman提出對標簽共現(xiàn)的次數(shù)進行處理尋找截止點,重新組織的新標簽空間表示成無向圖,形成相關(guān)標簽群,并用聚類算法精煉它們;Wu等提出一個概率模型,以基于標簽、資源和用戶的共現(xiàn)產(chǎn)生語義相關(guān)的標簽群;還有一些folksonomies系統(tǒng)提供“相關(guān)標簽”、“流行標簽”,也顯示了相關(guān)標簽群[5]。這些依賴標簽共現(xiàn)的策略,能夠找出潛在相關(guān)標簽群,但由于沒有揭示標簽間的實際關(guān)系,表示的語義也就相當有限。
隨著語義網(wǎng)技術(shù)本體的發(fā)展,研究者考慮利用本體解決folksonomy系統(tǒng)的局限,提出標簽本體(tag ontology)。本體是共享概念模型的明確形式化規(guī)范說明,系統(tǒng)地表示概念之間的內(nèi)在的語義聯(lián)系,能為folksonomies系統(tǒng)提供統(tǒng)一的結(jié)構(gòu)(共享的概念模型)和語義表示(明確的形式化規(guī)范說明)。標簽本體是關(guān)于標注活動(tagging)的明確和形式化的規(guī)范說明,有完善知識表示、促進知識共享、機器可處理的作用[1]。這樣研究重心就開始從標簽轉(zhuǎn)到標注活動。
1 標簽本體(tag ontology)
在folksonomy系統(tǒng)中,標注活動就是用戶給資源添加標簽的過程,即Tagging:(U,T,R),是folksonomy系統(tǒng)的經(jīng)典三元模型。其中U是參與標注活動的用戶集,T表示用戶分配的標簽,R表示被用戶標注的資源,它們是標簽本體的核心概念。目前,國外一些研究者根據(jù)folksonomy系統(tǒng)的三元模型進行深入研究,提出多個標簽本體。以下分類介紹當前國外標簽本體的研究情況。
1.1 基于標注活動的標簽本體
標簽本體的發(fā)展早期,試圖對標注活動進行明確和形式化的規(guī)范說明,關(guān)注于在語義層面表示標注活動:Newman的關(guān)于標簽和標注行為的本體[7],描述用戶、資源和標簽間的關(guān)系,是完整的標注活動模型,為其他標簽本體廣泛復(fù)用;Gruber的概念模型[6]和Knerr的標注本體[8]還考慮不同系統(tǒng)的協(xié)同標注活動。
1.1.1 Gruber的概念模型
Gruber于2005年就提出標注活動模型,是概念化標注活動的早期嘗試。其目的是在多個應(yīng)用程序或服務(wù)間實現(xiàn)協(xié)同標注,并基于標注活動進行協(xié)同過濾。Gruber的概念模型為:Tagging:(object,tag,tagger,source,polarity)
其中object、tag、tagger分別表示資源、標簽、用戶,同前面的三元模型一致,source表示應(yīng)用程序或服務(wù)的來源,即delicious、Flickr等folksonomy系統(tǒng),支持跨系統(tǒng)的協(xié)同標注活動;polarity表示基于標注活動的協(xié)同過濾,用“+”和“-”表示,如果缺省就表明選擇“+”。在概念模型中,Gruber還提出標簽的識別,即一個標簽可以有多個字符串(label)表示,如不同的語言或拼寫方法表示,但每個標簽只有一個字符串是它的規(guī)范名,用來識別標簽的不同,并在不同系統(tǒng)中交流共享。
Gruber的概念模型雖然只是概念地界定,并不是實際的本體,但是它清楚地揭示了標注活動的一般概念,并首次考慮協(xié)同標注活動,方便標簽在不同系統(tǒng)間的交流共享。
1.1.2 Newman的標簽本體
根據(jù)前面的三元模型,Newman等創(chuàng)建了關(guān)于標簽和標注行為的本體,以描述用戶、資源和標簽間的關(guān)系,如圖1。此本體中的核心概念是用戶(Tagger)、標注行為(Tagging)和標簽(Tag),其基本設(shè)計為:用戶是FOAF(Friend of A Friend)中的Agent概念;標注行為是具體化用戶、標簽、資源和時間之間的關(guān)系;標簽(指核心概念中的Tag)是具體標簽(tags)的集合。
此本體不僅對標注行為的關(guān)系建模,還利用URIs對標簽建模:每個標簽被分配一個URI,這樣由URIs識別的標簽?zāi)鼙贿B到一起,可從語義層面表示標簽間的聯(lián)系和相似[10]。同時此本體還引入相關(guān)屬性(tags:related)來表示標簽間的關(guān)系,但并沒有定義標簽間關(guān)系的本質(zhì)。
此本體重復(fù)利用已有的語義web詞匯:利用SKOS屬性為標簽(tags)和標簽類(Tag)之間的關(guān)系建立模型,而且標簽類本身就來自SKOS中的概念(skos:concept);利用DC來表示標注活動的時間,即dc:date;利用FOAF確定標注活動的用戶(tagger),即foaf:Agents。
與Gruber的模型相比,此本體沒有標明系統(tǒng)的信息(即source),但它考慮標注活動的時間,描述完整的標注活動,并利用OWL已在網(wǎng)絡(luò)上實現(xiàn)并普遍應(yīng)用,被其它標簽本體廣泛利用。
1.1.3 Knerr的標注本體
為實現(xiàn)跨系統(tǒng)的語義互操作,Knerr在2007年提出新的系統(tǒng)構(gòu)架:利用語義網(wǎng)技術(shù)FOAF來表示用戶的概況(user profile),并將用戶的標注數(shù)據(jù)存儲在獨立于folksonomy系統(tǒng)的地方。在設(shè)想的系統(tǒng)架構(gòu)下,標注模型為:Tagging:(time,user,domain,visibility,tag,resource,type)
在此本體中,考慮到標注行為的隱私性,Knerr設(shè)置可見度(Visibility)概念來明確標注行為的可見性:公共標注是每個人都可見,私人標注只有標注者本人可見,被保護標注則是只對一部分人(如朋友)可見。同時他還設(shè)置類型(Type)概念來表明被標注資源的類型(如圖片、視頻、網(wǎng)站等),利用DC的DCMIType表達。
此本體的服務(wù)范圍概念(ServiceDomain)與Gruber模型中的source類似,都表示應(yīng)用程序或服務(wù)的信息,支持跨系統(tǒng)的協(xié)同標注;且認同Gruber的一個標簽可以有多個字符串(labels)思想,默認的字符串(prefTagLabel)與Gruber的標簽規(guī)范名對應(yīng)。而且Knerr的標注本體復(fù)用Newman利用SKOS表示標簽類的方法;利用FOAF表示標注者;利用DC的DCMIType表示被標注資源的類型等。
1.2 基于folksonomy的標簽本體
前面基于標注活動的標簽?zāi)P投及褬俗⑿袨?tagging)看成一個活動:用戶給資源分配標簽的活動,提供描述標注活動過程的方法。雖然Gruber的概念模型和Knerr的標注本體還考慮不同系統(tǒng)的協(xié)同標注活動,但它們并沒有真正支持協(xié)同標注活動。而folksonomy是由參與協(xié)同標注活動的用戶共同創(chuàng)建,標簽本體作為標注活動(tagging)的明確和形式化的規(guī)范說明,除描述標注活動外還應(yīng)該考慮標注活動所涉及的協(xié)同關(guān)系。這樣研究者的關(guān)注焦點開始從標簽、標注行為轉(zhuǎn)移到folksonomy:Echarte的folksonomies本體[9]是第一個基于folksonomy的標簽本體,更多表示folksonomy的特征;SCOT[10]主要目的是表示協(xié)同標注活動,但它也適合表示folksonomy的特色。
1.2.1 Echarte的folksonomies本體
Echarte在2007年提出利用本體建模folksonomies的方法,即創(chuàng)建一個可以表示任何folksonomy的普遍本體結(jié)構(gòu),其目的是自動存儲用戶標注資源的信息到本體,并解決folksonomies的兩個典型問題:標簽變異(如blog、blogs、blogging)問題;表示用戶標注目的而非內(nèi)容的標簽(如toread)問題。
Echarte認為為實現(xiàn)利用ontologies建模folksonomies的建模方法,有必要利用知識表示語言如OWL,以更嚴格的方式來明確闡述folksonomies的特征,其folksonomies本體為:Folksonomy:(Source,Resource,User,Tag,Annotation,AnnotationTag,Polarity)
其中Source、Resource、User、Tag、Polarity與Gruber的模型基本一致。其中標簽類有兩個子類:個人標簽TagPersonal和普通標簽TagCommon,個人標簽是指關(guān)于個人任務(wù)的計劃或自我參考的標簽,余下的則是普通標簽,通過這個分類來解決用戶標注目的的標簽問題。同時標簽類還利用標簽的替換名(hasAltLabel)和隱藏名(hasHiddenLabel)屬性表示標簽規(guī)范名(hasPrefLabel)的變異,包括名詞單復(fù)數(shù)、動詞時態(tài)、同義詞、錯誤拼寫等。
相比Gruber的模型,此folksonomies本體還增加了2個概念:標注(Annotation)和標注標簽(AnnotationTag)。其中標注概念表示用戶給資源分配標簽的行為,類似于Gruber的tagging。但是Gruber的標注是基于資源和標簽的關(guān)系,而這里的標注則更側(cè)重表示用戶的習(xí)慣行為。標注標簽概念表示每個標注與所分配的標簽的關(guān)系。
1.2.2 SCOT(Social Semantic Cloud of Tags)
SCOT的目的是描述標注數(shù)據(jù)的結(jié)構(gòu)和語義,并提供社會互操作,實現(xiàn)在不同系統(tǒng)的用戶中共享、復(fù)用數(shù)據(jù)和表示社會關(guān)系。
SCOT有3個核心概念:標簽云TagCloud、標簽Tag、共現(xiàn)Cooccurrence。其中標簽云TagCloud是確定一個標簽云本身及其與其他概念和屬性相關(guān)的關(guān)系;標簽是所有個人標注的標簽的集合,是Newman本體中標簽的子類。標簽Tag通過拼寫變異(spellingzvariant)、同義字(synonym)等屬性從語言學(xué)角度來解決標簽之間關(guān)系含義的不明確;還有描述標簽出現(xiàn)頻率(frequency)的屬性從統(tǒng)計數(shù)值角度來反映每個tag的流行度。共現(xiàn)Cooccurrence確定共同出現(xiàn)的標簽以及標簽之間的共現(xiàn)頻率。因為標簽共現(xiàn)是由于它們語義相關(guān),考慮標簽共現(xiàn)以及共現(xiàn)頻率能更好地反映標簽的語義,還能更好表示folksonomy的協(xié)同特色。
SCOT沒有提供描述標注活動的概念,而是復(fù)用Newman的標注行為(tagging)概念,并通過標注行為(taggingActivity)屬性描述標簽云TagCloud與標注行為Tagging的關(guān)系。其模型圖如圖2。
由于SCOT復(fù)用Newman本體中相關(guān)概念和屬性,因此SCOT也會復(fù)用與Newman本體相關(guān)的語義web詞匯,如SKOS、DC、FOAF等;同時SCOT還利用SIOC(提供描述語義網(wǎng)在線社區(qū)的信息的主要概念和屬性)的Usergroup表示用戶集合等。SCOT提供跨不同用戶、應(yīng)用軟件或資源無縫標簽共享的標注行為的社會結(jié)構(gòu),得到廣泛應(yīng)用。
1.3 標簽語義本體
基于標注活動的標簽本體和基于folksonomy的標簽本體并沒有系統(tǒng)地實現(xiàn)內(nèi)容的語義標注,MOAT(Meaning of A Tag)[11]通過提供標簽的語義來實現(xiàn)內(nèi)容的語義標注。MOAT目的是提供以機器可讀方式界定標簽含義的語義網(wǎng)模型。為達此目的,MOAT擴展了Newman模型的相關(guān)概念,并定義了標簽的全面含義(global meanings)和本地含義(local meanings),全面含義就是指在完整的folksonomy空間一個標簽所有含義的清單,本地含義是指在某一個標注行為中標簽所特定的含義。通過給每個標注行為添加標簽的本地含義,MOAT擴展標注行為的三元模型為四元模型:Tagging:(User,Resource,Tag,Meaning)。在folksonomy空間,標簽全面含義是所有本地含義的集合,考慮到定義標簽本地含義的用戶,標簽全面含義為:Meanings(Tag)={(Meaning,{User})}。MOAT模型如圖3。
MOAT通過含義(hasMeaning)關(guān)系和含義(Meaning)類,將標簽與它所有的含義相連。每個含義通過meaningURI與所給含義的URI相連;同時與至少一個用戶相連,標明定義標簽這個含義的用戶。為表示在特定標簽行為中標簽的含義,MOAT依據(jù)Newman模型中的相關(guān)標注(RestrictedTagging)類,利用標簽含義(tagMeaning)屬性將相關(guān)標注行為中的標簽連到符合特定語境含義的URI。
MOAT旨在提供跨越自由標注和語義檢索之間鴻溝的簡單方法,而用戶仍可自由標注,并結(jié)合URI提供解決標注的語義模糊(一詞多義、同義詞)的方法。
1.4 其他相關(guān)本體
NAO(NEPOMUK Annotation Ontology)[12]來自NEPOMUK項目,是為標注社會語義桌面的資源而提出。NAO分為一般標注詞表和圖表標注詞表,認為圖表元數(shù)據(jù)也是標注的一種形式。雖然NAO不是完全為標注實踐服務(wù)的,但它證明在社會系統(tǒng)中標注表示的日益重要性,還專門強調(diào)如何利用NAO來實現(xiàn)語義標注。
Kim等提出整合多個標簽本體以產(chǎn)生一個完整、通用的標簽本體?,F(xiàn)有的本體各有其設(shè)計目的和側(cè)重方面,對于支持協(xié)同標注所有方面的標注過程和查詢,單個標簽本體是不能滿足的。因此他們比較現(xiàn)有標簽本體概念模型間的映射可能性,提出整合現(xiàn)有本體以在folksonomies系統(tǒng)中創(chuàng)建一個統(tǒng)一的結(jié)構(gòu)和語義表示。而從標簽本體的發(fā)展可知,標簽本體經(jīng)常借鑒和復(fù)用已有的技術(shù)和方法,以實現(xiàn)最大限度的共享,這既符合事物發(fā)展的規(guī)律,又給整合已有標簽本體提供了非常有利的基礎(chǔ)。在整合過程中,他們分析如何整合SCOT、MOAT和SIOC,為整合的每一階段界定用戶案例,并在實踐提出的模型[13]。
2 結(jié) 論
為解決folksonomies的問題,提出給標簽、標注行為增加語義,并利用語義網(wǎng)技術(shù)建模標注行為和folksonomies的方法。自2005年Gruber提出標簽本體以來,許多研究者都投身其中,標簽本體的發(fā)展也從關(guān)注標注活動發(fā)展到關(guān)注folksonomy(協(xié)同標注活動),從考慮標注活動要素發(fā)展到考慮標注目的、標簽共現(xiàn)頻率、標簽詞形變異等協(xié)同標注方面;還從標簽含義的角度,創(chuàng)建MOAT跨越標注行為與語義檢索的鴻溝。而且Kim等提出整合多個標簽本體,更是標志標簽本體的發(fā)展進入統(tǒng)一、共享的新階段,一個完整、通用的標簽本體將出現(xiàn)。而這給發(fā)揮folksonomies最大效能、支持語義檢索作出重大貢獻,也給進一步推動語義網(wǎng)的發(fā)展作出貢獻。
參考文獻
[1]Kim,Hai-Lae.et al.The state of the art in tag ontologies:A semantic model for tagging and folksonomies[EB].http:∥edoc.hu-berlin.de/conferences/dc-2008/proc/dc-2008.pdf#page=138,2009-02-27.
[2]Golder,Scott A.,Huberman,Bernardo A.The structure of collaborative tagging systems[EB].http:∥www.hpl.hp.com/research/idl/papers/tags/tags.pdf,2009-02-27.
[3]Adam Mathes.Folksonomies:cooperative classification and communication through shared metadata[EB].http:∥www.adammathes.com/academic/computer-mediated-communication/folksonomies.html,2009-03-07.
[4]王翠英.標簽的聚類分析研究[J].現(xiàn)代圖書情報技術(shù),2008,(5):67-71.
[5]Lucia Specia,Enrico Motta.Integrating folksonomy with semantic web[EB].http:∥www.eswc2007.org/pdf/eswc07-specia.pdf,2009-03-07.
[6]Gruber,Thomas.Ontology of folksonomy:A mash-up of apples and oranges[EB].http:∥tomgruber.org/writing/ontology-of-folksonomy.htm,2009-03-07.
[7]Newman,Richard.Tag ontology design[EB].http:∥www.holygoat.co.uk/projects/tags,2009-03-07.
[8]Knerr,Torben.Tagging ontology——Towards a common ontology for folksonomies[EB].http:∥tagont.googlecode.com/files/TagOntPaper.pdf,2009-03-15.
[9]Echarte,Francisco.et al.Ontology of foksonomy:A new modeling method[EB].http:∥www.gsd.unavarra.es/gsd/files/condep/EcAsCoVisaakm07f.pdf,2009-03-15.
[10]SCOT ontology specification[EB].http:∥scot-project.org/scot/index.html,2009-03-20.
[11]MOAT ontology[EB].http:∥moat-project.org/ontology,2009-03-20.
[12]NEPOMUK Annotation Ontology Specification[EB].http:∥www.semanticdesktop.org/ontologies/2007/08/15/nao,2009-03-20.
[13]Kim,Hai-Lae.et al.Review andalignment of tag ontologies for semantically-linked data in collaborative tagging spaces[EB].http:∥scot-project.org/pubs/kimzReviewAlignmentTag.pdf,2009-03-20.