国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Folksonomy的網絡性質分析

2009-10-13 03:29
現代情報 2009年7期
關鍵詞:復雜網絡標簽

李 靜

〔摘 要〕Folksonomy是Web2.0環(huán)境下一種有效的網絡信息組織方式。本文分析了Folksonomy的網絡性質,基于社會化書簽系統delicious數據集,發(fā)現了標簽網絡具有的兩個基本性質:(1)網絡的平均最短路徑為3.16,聚集系數0.63,遠大于相同參數下的隨機網絡,這揭示了標簽網絡的小世界效應;(2)網絡中標簽的度大體上呈冪律分布,表明標簽網絡具有無標度特性。

〔關鍵詞〕Folksonomy;標簽;復雜網絡;小世界;無標度

〔中圖分類號〕G255.51 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)07-0061-03

Analysis of Network Properties of FolksonomyLi Jing

(Library,Henan Normal University,Xinxiang 453007,China)

〔Abstract〕Folksonomy is a new kind of information organization methods emerging in Web2.0 environment.This paper analyzed network properties of folksonomy.Based on the dataset of social bookmarking site delicious,two fundamental characteristics were discovered.(1)Average node degree was 3.16 and clustering coefficient was 0.63,which exhibited a typical small world effect.(2)The degree distribution of tag network followed a power law distribution,i.e.,the scale free property.

〔Key words〕Folksonomy;tag;complex network;small-world;scale-free

社會化書簽(Social Bookmarking)服務(如Del.icio.us、CiteULike、Flickr等)是Web2.0的標志性應用之一。Folksonomy(分眾分類法)是基于社會化書簽系統的一種新型信息組織方法,它帶來了全新的信息交流與資源分享方式。作為一種自由而有效的網絡信息組織方法,Folksonomy為傳統的網絡信息分類和傳播方法帶來了新的理念,體現了互聯網所推崇的共享與協作精神,開創(chuàng)了互聯網信息傳播的新階段。對Folksonomy的研究也在計算機科學、情報學等多種學科中迅速展開。

在社會化標簽系統中,用戶通過標簽對資源進行標注的行為,使標簽,資源和用戶之間產生了一定的聯系,在拓撲上形成網絡結構。本文旨在對基于Folksonomy的標簽網絡進行研究,從復雜網絡研究的角度分析標簽網絡具有的特性。

1 Folksonomy概述

1.1 Folksonomy的概念

社會化書簽系統是Folksonomy的運行環(huán)境。社會化書簽系統為用戶提供了基于標簽(Tag)技術的信息組織和管理方式,幫助用戶存儲和管理個人信息資源,并提供分享和交流的平臺。在社會化書簽系統中,用戶根據個人的需要自由選擇詞匯對資源進行標注,每添加1個詞匯被稱為對資源添加1個“標簽(Tag)”。用戶、資源和標簽組成了社會化書簽系統的3個基本元素。

在社會化書簽系統中,用戶使用標簽對資源進行標注,每個標簽相當于用戶對資源的一個分類,資源根據不同的標簽被組織到不同的分類之下;所有用戶的資源存在于一個共享的平臺上,相同的標簽還能夠聚合不同用戶相同分類下的資源。這種信息組織方式具有2個明顯的特征:一是在對資源添加標簽的過程中,用戶不需要遵循任何事先制定的分類法或者詞表;二是每個用戶的活動空間不是孤立、封閉的,而是開放、共享的,因此也是互相影響的。信息構建專家Thomas Vander Wal將這種在基于互聯網的社會環(huán)境中、由大眾用戶產生的信息分類組織方式命名為“Folksonomy”[1](中文名稱被譯為“分眾分類法”、“自由分類法”、“大眾分類法”、“通俗分類法”或“社會分類法”等)。從語源學上講,Folksonomy是由“Folk”和“Taxonomy”2個單詞組成的,表示由“群眾”制定的分類法。它是用戶自發(fā)的用標簽對資源進行標注和分類,并與他人共享標簽的過程和結果。用戶添加標簽的行為是“在一個社會化的環(huán)境中進行,即這個環(huán)境是開放和共享的”[2]。標簽是Folksonomy形成和使用的基礎,也是Folksonomy詞匯體系的基本構成單元。

1.2 Folksonomy的內涵與功能

Folksonomy的內涵與功能主要包括3個方面:

(1)普通用戶參與和主導信息的組織,用戶間通過協作完成對信息的分類組織;用戶能夠對資源的意義進行標注,以便于再次查找和使用,同時使個人的資源能夠被其他用戶發(fā)現和分享。從結構上來講,Folksonomy是一種平面的結構,沒有等級體系。

(2)Folksonomy具有社群聚合的功能,并且能夠反映不同社群對相同事物的不同認識,從而建立不同知識體系間的聯系,具有強大的知識聚合及共享功能。

(3)Folksonomy賦予了用戶基于標簽的檢索、瀏覽和定制功能。Folksonomy能夠通過特定的標簽聚合整個信息空間中的相似內容,在資源極其豐富的背景下,Folksonomy能夠幫助用戶發(fā)現感興趣的內容。

1.3 Folksonomy與相關概念

1.3.1 Folksonomy與傳統文獻分類法

傳統的文獻分類法以學科聚類,類目的等級結構是文獻分類法的重要特征。等級列舉式分類法和分面組配式分類法是文獻分類法的兩種基本形式。前者具有固定的類目等級結構,僅支持單一的檢索途徑,不能進行多角度的檢索,難以增加新的類目;而后者可以調整分面的組配次序,支持多途徑多角度的檢索,也容易通過分面組配表達新產生的概念。根據以上特征,文獻分類法的結構可以被比喻成一棵樹,擁有枝干和樹葉,等級列舉式分類法具有穩(wěn)定的分枝,分面組配式分類法的每條枝干則能夠動態(tài)地移植、嫁接;與之相對的Folksonomy中的標簽離散地分布在一個平面中,則可以被視為一堆樹葉。

此外,文獻分類法在標引資源時采用特定的符號系統,而Folksonomy卻是直接使用詞匯,因此Folksonomy也可以被看作一個詞匯的集合。

1.3.2 Folksonomy與元數據

元數據和Folksonomy都是為了高效地組織信息以方便用戶的使用而發(fā)展起來的,前者的實施主體是相關專業(yè)人士,而后者則依靠的是廣大網民。元數據經過10余年的發(fā)展,標準越來越復雜,在語義網的導向下更是從“大眾的元數據”變成了“機器程序的元數據”,操作和維護成本相當高,在應用中幾乎停滯不前。

Folksonomy是普通用戶對資源描述的結果,這些用戶可能是資源的作者也可能是使用者,因此自由分類法在某種意義上可以被視為一種用戶產生的元數據。這種用戶產生的元數據提供了資源的描述、定位、權限管理等多種功能,同時結構非常簡單,完全采用自然語言,既沒有區(qū)分主題、作者或來源等元素,也沒有受控詞表的限定。與傳統元數據相比,依賴于大眾參與的Folksonomy難以形成某種通用或供推薦的標準,它需要在特定的環(huán)境中運行和發(fā)揮作用。它的價值在于由廣大的用戶以協作的方式對分布式、迅速增長的網絡信息資源進行描述和標引,為這些資源提供新的檢索途徑,而不是僅僅依賴于互聯網服務的提供者或搜索引擎。

2 Folksonomy的復雜網絡性質

自然界中存在的大量復雜系統都可以通過網絡進行抽象和描述。原則上講,任何包含大量組成單元的復雜系統,當把構成單元抽象成節(jié)點、單元之間的相互關系抽象為邊時,都可以當作復雜網絡來研究[3]。復雜網絡突出強調了系統結構的拓撲特征,通過對網絡結構特征的分析和網絡模型的構建,可以理解網絡結構與網絡行為之間的關系,進而調整和改善網絡行為。小世界現象和無標度特性是目前兩類最典型的復雜網絡特征。

在社會化標簽系統結構圖中,可以看到,用戶通過標簽對資源進行標注的行為,使標簽、資源和用戶之間產生了一定的聯系,在拓撲上形成網絡結構。其中標簽之間可以通過對資源的標注形成標簽-標簽網絡等。若標簽t1和t2標注了同一個資源,稱t1和t2同現(co-occurrence)。若兩個標簽經常用于標注相同的資源,則它們在一定程度上具有相似的語義。標簽之間的同現關系形成網絡結構,可以通過圖來表示。通過同現分析和網絡分析,從標簽關聯角度發(fā)掘網絡的性質,將有助于對Folksonomy性質的深入分析,深層次的挖掘用戶、標簽和資源間的關系。

2.1 小世界現象

小世界現象揭示了客觀世界許多復雜網絡運動中最為有效的信息傳遞方式之一,即一個高度聚集的包含了“局部連接”節(jié)點的子網,連同一些有助于產生短路徑的長距離隨機連接。小世界現象目前還沒有精確的定義,一般認為,如果網絡具有小的平均路徑長度和大的聚集系數,則稱該網絡具有小世界現象。平均路徑長度和聚類系數是考察網絡小世界現象的兩個重要指標[4]。

平均最短路徑長度是網絡中兩節(jié)點之間的平均距離。具有小世界性質的網絡的平均最短路徑會很短,遠小于網絡規(guī)模(這也是“小世界”命名的原因)。一個節(jié)點的聚集系數反映了其相鄰節(jié)點所構成集合的聚集程度。整個網絡的聚合系數C是每個節(jié)點i的聚合系數Ci的平均值(0≤C≤1)。

2.2 無標度特性

對復雜網絡進行考量的另一個重要方面是節(jié)點的度分布。節(jié)點的度是指與節(jié)點i直接相連的邊的數目ki,平均節(jié)點度是網絡中所有節(jié)點度的平均值。度值的分布特征是網絡的重要幾何性質。網絡中節(jié)點的度分布用分布函數p(k)來表示,其含義為一個隨機選定的節(jié)點恰好有k條邊的概率。

網絡的無標度特性指網絡缺乏一個特征度值,或平均度值,即節(jié)點度值的波動范圍相當大。節(jié)點度滿足冪律分布的網絡具有無標度特性,相應網絡稱為無標度網絡[5]。節(jié)點度服從冪律分布,指具有某個特定度的節(jié)點數目與這個特定的度之間的關系可以用一個冪函數近似地表示,即p(k)∝k-λ,其中λ是冪律指數。與常見的鐘型分布(如正態(tài)分布、Poisson分布)不同,冪律分布有一條長尾,是一種重尾分布,其隨機量有明顯的兩極分化傾向。把冪函數的兩邊取對數得到logp∝-λlogk,即在雙對數坐標下,變量關系是一條直線。在網絡中冪律分布表示大多數節(jié)點僅有少量連接,而少數節(jié)點擁有大量連接。

成長性和優(yōu)先連接性是無標度網絡度分布呈現冪律的兩個最根本的原因。成長性是指網絡節(jié)點數的增加,即網絡規(guī)模不斷擴大同時其自身在不斷演化;優(yōu)先連接性是指新加入的節(jié)點總是優(yōu)先選擇與度值較高的節(jié)點相連,表現出“馬太效應”。這兩個性質導致了復雜網絡中節(jié)點的度分布服從冪律分布,存在少量度相對很高的節(jié)點,但絕大多數節(jié)點的度相對很低(即存在所謂的“長尾”)。

3 實驗與分析

筆者使用使用Java Html Parser[6],于2008.11.25-27日抓取了delicious.com頁面數據,經過數據清理和處理,得到數據集如下所示:

3.1 標簽網絡的小世界現象

網絡平均節(jié)點度為16.5,聚集系數為0.63,平均路徑長度為3.16。可以發(fā)現,標簽網絡具有小的平均路徑長度和較大的聚集系數,呈現典型的“小世界網絡”特征。

標簽網絡具有比較小的平均路徑長度,說明任意兩個標簽都可以通過網絡比較方便地連接,某個標簽的使用行為可以通過網絡輕易地傳遞,影響其他標簽的使用。同時它又具有比較大的聚集系數,說明標簽的“相鄰標簽”的簇內部的網絡連接完備程度比較高。在Folksonomy中可以隨意選用標簽,并可以只用很短的路徑就能從一個標簽到達另一個標簽。這樣,Folksonomy網絡一方面能夠從規(guī)模上保證標簽用詞的豐富性,另一方面很好地保證了標簽的選用效率。

3.2 標簽網絡的無標度特性

標簽網絡中的某個標簽的節(jié)點度即為與該標簽同現的標簽數目,在雙對數坐標下度分布如圖1所示??梢园l(fā)現各個數據點散落在雙對數平面上的一條直線附近,可以用一條冪率函數擬合(y=2.5x-1.19,R2=0.812),即標簽網絡的度分布遵循冪律分布,呈現無標度特性。標簽網絡的無標度特性表明了該網絡的的規(guī)模是不斷增長的,有大量的新標簽加入到網絡,而且新增加的標簽傾向于選擇具有高連接度的節(jié)點,即用戶在標注特定的資源時,傾向于選擇已用于標注該資源的高頻標簽。

4 結束語

本文研究了基于Folksonomy的標簽網絡的小世界現象和無標度特性。對Folksonomy的網絡特性的分析,將幫助我們對Folksonomy有更深入的理解,也從一個側面印證了復雜網絡的普適性。在此基礎上,后續(xù)研究將進一步探索網絡中標簽的語義關聯和社群結構,充分發(fā)掘Folksonomy在信息資源組織和知識管理等領域的潛在價值。

參考文獻

[1]Adam Mathes.Folksonomies-Cooperative Classification and Communication throughShared Metadata[EB/OL].http:∥www.adammathes.com/academic/computer-mediated-communication/folksonomies.html.

[2]Gene Smith.Folksonomy:social classification[EB/OL].http:∥atomiq.org/archives/2004/08/folksonomyzsocialzclassification.html.

[3]Newman M E J.The structure and function of complex networks[J].SIAM Review,2003,45(2):167-256.

[4]Watts D J,Strogatz S H.Collective dynamics of‘small-worldnetworks[J].Nature,1998,393:440-442.

[5]Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272:173-187.

[6]Java Html Parser[EB/OL].http:∥htmlparser.sourceforge.net/.

猜你喜歡
復雜網絡標簽
拒標簽
無懼標簽 Alfa Romeo Giulia 200HP
不害怕撕掉標簽的人,都活出了真正的漂亮
基于復雜網絡節(jié)點重要性的鏈路預測算法
基于復雜網絡理論的通用機場保障網絡研究
標簽化傷害了誰
基于多進制查詢樹的多標簽識別方法
合江县| 深泽县| 崇文区| 洛阳市| 攀枝花市| 彭州市| 西丰县| 紫金县| 佛学| 开鲁县| 云霄县| 本溪市| 墨脱县| 翁牛特旗| 衡山县| 临澧县| 攀枝花市| 唐山市| 新晃| 江永县| 昭平县| 那曲县| 盐亭县| 盐边县| 郓城县| 南靖县| 阿克苏市| 海口市| 江阴市| 射洪县| 山东| 新建县| 乐山市| 深州市| 祁阳县| 九龙县| 石林| 玛沁县| 冕宁县| 盐源县| 建瓯市|