李翔
摘要:
從20世紀后期了開始,萬維網(wǎng)開始了泡沫性的增長,人們越來越多的依賴網(wǎng)絡(luò)所帶來的便利,網(wǎng)絡(luò)代替了傳統(tǒng)的文字資料。經(jīng)過多年的積累,網(wǎng)絡(luò)成為了一個巨大的數(shù)據(jù)庫,而網(wǎng)上過大的數(shù)據(jù)信息量已經(jīng)超出了人們的信息處理能力范圍。在當(dāng)前的社會背景之下,社會化標簽系統(tǒng)營運而生,標簽系統(tǒng)能夠為人們提供有效的與資源聚合的標簽,用戶通過自定義的詞匯對資源進行標注,使資源以一種簡短的詞匯進行展示,提高人們對資源的閱讀速度。
關(guān)鍵詞:
社會化標簽系統(tǒng);聚合連接;資源內(nèi)容
中圖分類號:
F49
文獻標識碼:A
文章編號:1672-3198(2014)18-0175-02
1 國內(nèi)外社會化標簽現(xiàn)狀
在快速的網(wǎng)絡(luò)社會中,社交網(wǎng)站吸引了很多人利用社會網(wǎng)絡(luò)參與、關(guān)注和建立屬于自己的關(guān)系網(wǎng),據(jù)統(tǒng)計,在Facebook社交網(wǎng)站用戶中85%的用戶每周登陸一次,每月至少登錄一次Facebook有4億的人,平均每個注冊用戶平均每天會花費3個小時在Facebook上。隨著開心網(wǎng)、微博、51job等各類新型的網(wǎng)站那的興起,帶動了社交功能型網(wǎng)站的傳播,而社會化標簽的推薦服務(wù)也在這些網(wǎng)站中暫露頭角,體現(xiàn)了巨大的商業(yè)價值。例如一些招聘網(wǎng)站會根據(jù)企業(yè)發(fā)出的招聘信息標簽與招聘人員的招聘信息標簽進行符合度匹配。
標簽數(shù)據(jù)的三個主要因素區(qū)別于普通的結(jié)構(gòu)圖,會呈現(xiàn)出一種獨特的超圖結(jié)構(gòu),社會化標簽系統(tǒng)中,利用PageRank算法或FolkRank算法能夠為用戶提供高效的標簽推薦,為用戶提供更加快速的訪問體驗。在用戶偏好的數(shù)據(jù)的獲取和計算上,通過在數(shù)據(jù)模型中利用更高維度的張量分解技術(shù)減低噪聲對數(shù)據(jù)采集的影響,提高標簽計算分析的準確率。
隨著社會上對社會化標簽系統(tǒng)的重視和研究,國外的很多比較成熟的研究成果可以借鑒,對研究社會化標簽系統(tǒng)的個性化標簽推薦有著重要意義,例如超圖能夠更加直觀的刻畫社會化標簽系統(tǒng)中的三種因素之間的結(jié)構(gòu)關(guān)系;基于標簽的聚類算法可以對標簽系統(tǒng)周圍的噪音進行過濾,減少一些不準確的標注對資源標簽標注所帶來的影響;推薦節(jié)點能夠為用戶提供多種類別的節(jié)點,打破了只推薦一中類別的傳統(tǒng)思想;社會網(wǎng)絡(luò)分析方法能夠借助社會信息的,較為社會化標簽系統(tǒng)提供更加全面更快速的資訊,與推薦算法結(jié)合已達到擴大影響的目的;多層網(wǎng)絡(luò)有很好的耦合性,有助于對資源進行標簽分析。
2 社會化標簽
標簽可以被理解為給用戶特定資源的主題等資源的特點進行描述。社會化標簽是用戶對資源的一種概括,能夠復(fù)合人們對資源的直觀理解。元數(shù)據(jù)標簽是由用戶生成的,它不同于由專家或作者的網(wǎng)站自動生成一種標簽數(shù)據(jù),它能夠更加簡短、明確、清晰的反應(yīng)出資源的特征。
人們對網(wǎng)絡(luò)的認識從簡單到復(fù)雜,復(fù)雜的網(wǎng)絡(luò)理論能夠清楚的分析一些復(fù)雜的動態(tài)系統(tǒng),它能夠幫助人們理解和解釋系統(tǒng)的結(jié)構(gòu)、相互作用的關(guān)系。在復(fù)雜網(wǎng)絡(luò)中,每一個節(jié)點都代表為一個單獨的個體,在本文中研究中被代表為用戶,兩個節(jié)點之間的連接線表示了用戶與用戶之間的相互聯(lián)系。
圖1為第一部分,圖中所有的節(jié)點相互連接,而且所有的節(jié)點全部相同,這是一種典型的基本網(wǎng)路。圖2所示是“用戶-對象”,用戶和對象被分成兩個部分,一邊的節(jié)點與另一邊的節(jié)點進行相連,相同類型間的節(jié)點不相連,例如購物網(wǎng)站。社會化標簽系統(tǒng)還存在另一種關(guān)系,如圖3所示。圖3中不僅包括可用戶、對象還包括了標簽,構(gòu)成了獨特的三元結(jié)構(gòu)圖,是“用戶-對象”結(jié)構(gòu)的延伸,不同的節(jié)點之間可以相連,相同的節(jié)點之間同樣不可以相連。超圖理論打破了原有的顯性連接的束縛,允許一條邊連接多個節(jié)點。
超圖理論在標簽算法當(dāng)中具有一般性,因此在各個學(xué)術(shù)領(lǐng)域都得到了認可和廣泛的應(yīng)用,是現(xiàn)今研究社會化標簽系統(tǒng)中的熱點。
3 標簽推薦圖模型算法
在Folksonomies中會在系統(tǒng)的導(dǎo)航中為用戶推薦幾種標簽,更甚至通過用戶的偏好進行分析,推薦用戶更加關(guān)心的資源。
pageRank算法又被稱為網(wǎng)頁排名,它能夠通過用戶在某一頁面入鏈數(shù)量對該網(wǎng)頁的重要性進行分析。pageRank算法入鏈方法假設(shè)頁面入鏈的次數(shù)越多,那么這個頁面就越重要,而鏈接到它的上級頁面也是重要的。pageRank不但考慮到入鏈數(shù)量也考慮到了入鏈質(zhì)量,同理,入鏈質(zhì)量越高該頁面越重要。在本文中pageRank值以下被稱為PR值,每個網(wǎng)頁都有一個PR值,而每個頁面的PR值都是由鏈接頁面的PR值迭代而成。PR值的計算公式如下:
PR(A)=(1-d)+d(PR(T1)C(T1)+
PR(T2)C(T2)+…+PR(Ti)C(Ti))
公式中PR(A)是頁面A的PR值;用PR(Ti)表示入鏈到網(wǎng)頁A的頁面的值,也就是頁面Ti的PR值,網(wǎng)頁Ti是到達網(wǎng)頁A的最后鏈接頁;C(Ti)是入鏈到頁面Ti時所有的總跳轉(zhuǎn)數(shù)。d的數(shù)值為0到1。
我們可以將標簽的Folksonomy四元素F=(U,T,I,Y)形成一個三部圖GF(V,E)。三部圖中一條邊權(quán)重的值為GF,w(u,t)=|{r∈R(u,r,t)∈Y}|中w是節(jié)點出現(xiàn)的數(shù)量。設(shè)w(vi,vj)為GF中邊的權(quán)值,w(vi)為vi頂點的值。公式如下:
4 總結(jié)
社會化標簽系統(tǒng)由于更加準確和簡短的描述非常受廣大網(wǎng)名的歡迎,用戶可以對任何資源進行標簽自定義設(shè)置。但是,社會標簽系統(tǒng)并不是完美的,數(shù)據(jù)的損失、冗余、噪音的產(chǎn)生都會影響到系統(tǒng)對資源標簽的處理。標簽算法的融合和革新將是今后研究的重點方向。
參考文獻
[1]孔祥迎.基于社會化標簽的個性化推薦技術(shù)研究[D].成都:電子科技大學(xué),2013.
[2]陳麗霞.基于社會化標簽的P2P語義推薦研究[D].西安:西安電子科技大學(xué),2012.
[3]馬翩翩.D~2核K-means算法在標簽系統(tǒng)中的應(yīng)用研究[D].南寧:廣西大學(xué),2012.
[4]王曉帥.社會化標簽推薦算法的研究[D].南寧:廣西大學(xué),2012.
[5]范能能.圖像社會化標簽預(yù)處理與聚類方法研究[D].武漢:華中科技大學(xué),2012.
[6]傅麗君.社會化標簽與分類集成的信息導(dǎo)航結(jié)構(gòu)及其應(yīng)用研究[D].杭州:浙江理工大學(xué),2013.