閆婧
摘要:[目的]捕捉用戶興趣的動(dòng)態(tài)性變化,優(yōu)化個(gè)性化信息推薦效果。[應(yīng)用背景]高效的個(gè)性化信息推薦方法可以根據(jù)用戶行為特征主動(dòng)為用戶提供合適的信息資源,使信息的獲取和利用更加快捷、準(zhǔn)確。[方法]以“新浪微博”為例,通過(guò)挖掘用戶及其關(guān)注者的微博數(shù)據(jù),提取標(biāo)簽,計(jì)算二者興趣相似度及親密度,確定用戶興趣標(biāo)簽并優(yōu)化標(biāo)簽描述,從而構(gòu)建用戶個(gè)性化“輕量級(jí)”本體,使得語(yǔ)義網(wǎng)資源能夠準(zhǔn)確地投放到用戶界面。[結(jié)果]有效緩解了信息爆炸式增長(zhǎng)所造成的“信息迷航”現(xiàn)象。[局限]微博數(shù)據(jù)中的雜音(廣告轉(zhuǎn)發(fā)、多語(yǔ)言描述)、數(shù)據(jù)不充分等,可能影響標(biāo)簽提取的準(zhǔn)確性。關(guān)鍵詞:標(biāo)簽本體;個(gè)性化推薦;社交網(wǎng)絡(luò)
1 引言
隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)從信息傳播的媒介逐漸轉(zhuǎn)變?yōu)樾畔①Y源共享和社會(huì)交流的平臺(tái)。用戶既是信息的使用者,也是信息的創(chuàng)造者。用戶和信息的爆炸式增長(zhǎng),為人們帶來(lái)豐富信息資源的同時(shí),也造成用戶難以準(zhǔn)確找到感興趣的資源。高效的個(gè)性化信息推薦方法可以根據(jù)用戶行為特征主動(dòng)為用戶提供合適信息,使信息的獲取和利用更加快捷、準(zhǔn)確。
社會(huì)化標(biāo)簽方法是一種更強(qiáng)調(diào)“感知性”的信息組織方法,它由用戶自發(fā)對(duì)資源進(jìn)行標(biāo)注所產(chǎn)生的標(biāo)簽組成,為發(fā)現(xiàn)用戶關(guān)注點(diǎn)、進(jìn)行個(gè)性化信息推薦提供了重要的數(shù)據(jù)基礎(chǔ)。與此同時(shí),標(biāo)簽本身所暴露出的描述不規(guī)范、無(wú)序化、多樣性、缺乏語(yǔ)義關(guān)系等,很大程度上制約了其在提取個(gè)性化信息方面所發(fā)揮的作用。而本體是共享概念模型的明確形式化規(guī)范說(shuō)明,能系統(tǒng)地表示概念間的內(nèi)在語(yǔ)義關(guān)系,是語(yǔ)義構(gòu)建的重要手段,可以有效地彌補(bǔ)上述缺陷。目前,在個(gè)性化信息推薦方面有關(guān)應(yīng)用標(biāo)簽和本體的研究相互間比較孤立,缺少將兩者結(jié)合起來(lái)建立模型的思想。本文以主流社交網(wǎng)絡(luò)“新浪微博”為例,提供了一種在社會(huì)化標(biāo)簽系統(tǒng)中基于本體的個(gè)性化信息推薦方法,用以捕捉用戶興趣的動(dòng)態(tài)性變化,優(yōu)化個(gè)性化信息推薦效果。
2 相關(guān)研究
標(biāo)簽是用戶主觀地對(duì)感興趣的資源進(jìn)行發(fā)布時(shí)所使用的關(guān)鍵詞,它在體現(xiàn)用戶興趣取向的同時(shí),也反映了資源本身的特征屬性。標(biāo)簽在由用戶、標(biāo)簽、資源三者組成的社會(huì)化標(biāo)簽系統(tǒng)中扮演著核心角色,是用戶與資源之間的橋梁。規(guī)范標(biāo)簽的使用、實(shí)現(xiàn)標(biāo)簽語(yǔ)義的明確化表述,是降低標(biāo)簽濫用率、提高檢索效率的有效手段。
近年來(lái),針對(duì)個(gè)性化推薦方法的研究不勝枚舉。根據(jù)推薦算法的不同,YooDonghee等提出了UCTag新型標(biāo)注方法,設(shè)計(jì)了基于Web的文件管理系統(tǒng)原型,用戶提交某一標(biāo)簽后,根據(jù)相應(yīng)的規(guī)則得到的標(biāo)簽本體,系統(tǒng)會(huì)自動(dòng)推薦一系列符合用戶興趣的標(biāo)簽。Kawakubo等提出一種基于Folksonomy的圖片本體的自動(dòng)構(gòu)建模型,并利用Flickr網(wǎng)站的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)舊。張?jiān)浦刑岢鲆环N基于FCA的半自動(dòng)構(gòu)建本體方法,使用造格算法將形式背景轉(zhuǎn)化成相應(yīng)概念格,再由知識(shí)工程師對(duì)概念格進(jìn)行分析,將結(jié)果上傳到社區(qū),經(jīng)由社區(qū)成員對(duì)本體校正或補(bǔ)充得出改進(jìn)后的本體模型,重新應(yīng)用到社區(qū)中。
目前大多數(shù)應(yīng)用標(biāo)簽系統(tǒng)進(jìn)行個(gè)性化信息推薦的研究集中在推薦算法的設(shè)計(jì)優(yōu)化上,沒(méi)有考慮標(biāo)簽本身的局限性,降低了個(gè)性化信息推薦的準(zhǔn)確性。本文將本體與標(biāo)簽相結(jié)合,用以提高社會(huì)化標(biāo)注系統(tǒng)的推薦效果。
3 研究方法
本文將用戶Ul及其關(guān)注用戶V發(fā)布的微博數(shù)據(jù)作為研究樣本,分別對(duì)樣本進(jìn)行預(yù)處理、提取標(biāo)簽。計(jì)算用戶Ul的標(biāo)簽集IU1中的每一個(gè)興趣i與用戶V標(biāo)簽IV1、IV2……IVn間的相似度及親密度來(lái)判斷二者間的社會(huì)相關(guān)度,從而得到可以代表用戶Ul興趣的標(biāo)簽集。該標(biāo)簽集是從用戶及其關(guān)注者發(fā)布微博的內(nèi)容角度入手,得到的結(jié)果集是無(wú)層次結(jié)構(gòu);而本體是一類規(guī)范的集合,具有層次結(jié)構(gòu)和語(yǔ)義性。因而,將標(biāo)簽與本體相結(jié)合,對(duì)用戶興趣標(biāo)簽集進(jìn)行規(guī)范化、層次化處理、通過(guò)分析標(biāo)簽之間的語(yǔ)義關(guān)系,建立能夠反映用戶興趣的標(biāo)簽概念空間模型,構(gòu)建用戶自身的“輕量級(jí)本體”,映射已標(biāo)記語(yǔ)義網(wǎng)資源的標(biāo)簽集,系統(tǒng)自動(dòng)將匹配Top-k標(biāo)簽的資源信息反饋給用戶。
4 基于本體的個(gè)性化信息推薦模型
4.1 構(gòu)建模型
本文將標(biāo)簽系統(tǒng)與本體二者相結(jié)合,構(gòu)建了一種適用于社交網(wǎng)絡(luò)的個(gè)性化信息推薦模型,如圖1所示。該模型對(duì)社會(huì)化標(biāo)簽的含義做了進(jìn)一步擴(kuò)展,使標(biāo)簽不再是用戶以標(biāo)注某個(gè)資源為目的去標(biāo)注的,而是用戶在進(jìn)行正常的網(wǎng)絡(luò)社交活動(dòng)中,系統(tǒng)自動(dòng)根據(jù)用戶的活動(dòng)數(shù)據(jù)信息進(jìn)行提取的,這種方式在很大程度上提高了標(biāo)簽的容錯(cuò)性和準(zhǔn)確性,能夠?qū)崟r(shí)、準(zhǔn)確地監(jiān)測(cè)用戶興趣變化,更加高效地向用戶提供所需資源,優(yōu)化了社交網(wǎng)絡(luò)中個(gè)性化信息推薦服務(wù)的效果。
4.2 標(biāo)簽提取模塊
如圖1所示,根據(jù)用戶微博內(nèi)容,提取關(guān)鍵詞作為該用戶的標(biāo)簽。本文采用哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)開(kāi)發(fā)平臺(tái)LTP對(duì)原始微博數(shù)據(jù)進(jìn)行句法分析,具體分為:(1)提取微博語(yǔ)句中的無(wú)動(dòng)賓結(jié)構(gòu)時(shí)語(yǔ)句的核心謂語(yǔ)以及動(dòng)賓結(jié)構(gòu)下的核心謂語(yǔ)和賓語(yǔ)的中心詞。例如,“我下午去打球”提取“打球”和“他昨天下午去打羽毛球了”中的“打羽毛球”。(2)構(gòu)建趨向動(dòng)詞表對(duì)核心謂語(yǔ)和賓語(yǔ)中心詞進(jìn)行修正,該表包含“上”“下”“來(lái)”“去”等趨向動(dòng)詞。例如上例中的“去”這個(gè)干擾動(dòng)詞。(3)提取修正有無(wú)動(dòng)賓結(jié)構(gòu)時(shí)的核心謂語(yǔ)。(4)將全部提取的核心謂語(yǔ)和賓語(yǔ)構(gòu)建成動(dòng)名詞關(guān)鍵詞表,即該用戶的初始興趣標(biāo)簽集。
4.3 用戶興趣發(fā)現(xiàn)模塊
評(píng)論一個(gè)字詞在文檔中的重要程度,多采用TF-IDF統(tǒng)計(jì)方法。其公式為:
tf-idf=tf x logN/n
其中tf表示詞語(yǔ)t在文檔d中出現(xiàn)的次數(shù),idf=logN/n表示逆文檔頻率,是一個(gè)詞語(yǔ)普遍重要性的度量;N表示總文檔數(shù);n表示包含詞語(yǔ)t的文檔數(shù)。
從中不難看出,詞語(yǔ)t的重要程度與它出現(xiàn)在當(dāng)前文檔中的頻率成正比,與文檔集合中出現(xiàn)的頻率成反比。這對(duì)于微博社交網(wǎng)絡(luò)而言,可能因?yàn)橛脩舭l(fā)表的微博數(shù)量不足,而導(dǎo)致興趣誤判。針對(duì)這個(gè)問(wèn)題,本文為tf設(shè)定一個(gè)閾值m,當(dāng)tf>m時(shí)保留tf,否則tf取“0”,具體流程如圖2所示。最后取新標(biāo)簽集中的Top-k為用戶U1的標(biāo)簽庫(kù)Du1,利用同種方式求出用戶關(guān)注用戶的Du2……Dun。
利用標(biāo)簽庫(kù)信息,求出用戶U1的關(guān)注用戶V與U1標(biāo)簽庫(kù)中標(biāo)簽的親密度及相似度,發(fā)現(xiàn)用戶U1的興趣集。
4.4 用戶興趣本體構(gòu)建模塊
用戶興趣本體是提供個(gè)性化信息服務(wù)的基礎(chǔ),其質(zhì)量直接決定推薦內(nèi)容的準(zhǔn)確性。用戶興趣本體的建立是依托于語(yǔ)義網(wǎng)中的領(lǐng)域本體,在描述概念間關(guān)系的同時(shí),也為術(shù)語(yǔ)賦予了相應(yīng)的語(yǔ)義網(wǎng)背景知識(shí),因?yàn)橛欣谥R(shí)的復(fù)用與共享,改善傳統(tǒng)用戶模型標(biāo)簽描述隨意性的缺陷。構(gòu)建用戶個(gè)體的輕量級(jí)興趣本體主要通過(guò)對(duì)標(biāo)簽進(jìn)行聚類分析,構(gòu)造自頂向下的概念樹模型。表示用戶興趣的大類表現(xiàn)在高層節(jié)點(diǎn),興趣的顆粒度劃分表現(xiàn)在底層節(jié)點(diǎn),原始提取的用戶標(biāo)簽表現(xiàn)在最底層節(jié)點(diǎn)。在構(gòu)建用戶興趣本體時(shí),系統(tǒng)根據(jù)用戶不同時(shí)期發(fā)布文章的標(biāo)簽提取出不同的興趣標(biāo)簽集,這種方法可以及時(shí)有效地捕捉用戶興趣的動(dòng)態(tài)性變化,保證興趣本體的準(zhǔn)確性。
4.5 用戶社群構(gòu)建模塊
具有相同或相似興趣的用戶聚集而成的群體稱為用戶社群。利用本文描述的用戶興趣本體,結(jié)合社會(huì)復(fù)雜網(wǎng)絡(luò)技術(shù)、聚類組合等方式可以構(gòu)建用戶間的社群網(wǎng)絡(luò)。反過(guò)來(lái),通過(guò)社群網(wǎng)絡(luò),系統(tǒng)會(huì)根據(jù)用戶興趣向用戶推薦同類興趣的社群,供用戶可以快速地找到并加入適合自己的群體。
4.6 個(gè)性化推薦模塊
該模塊主要向用戶推送相關(guān)個(gè)性化信息資源。系統(tǒng)根據(jù)資源庫(kù)所提供的資源與標(biāo)簽的對(duì)應(yīng)關(guān)系,將用戶興趣集中的個(gè)性化標(biāo)簽與語(yǔ)義網(wǎng)中的資源進(jìn)行語(yǔ)義匹配,得到符合用戶興趣的資源集合,最后將推薦結(jié)果在用戶主頁(yè)推薦模塊中進(jìn)行展示,提供給用戶。個(gè)人應(yīng)用最廣泛的有:好友推薦、興趣社區(qū)推薦、文章推薦等。商業(yè)方面,可以進(jìn)行準(zhǔn)確的廣告投放,在同等的成本消耗下,使廣告的回報(bào)率達(dá)到最大值。
5 結(jié)語(yǔ)
社交網(wǎng)絡(luò)中的個(gè)性化推薦是學(xué)界的一個(gè)研究熱點(diǎn),但很少有學(xué)者將個(gè)性化推薦與社會(huì)化標(biāo)簽和本體聯(lián)系起來(lái)。文章從用戶的直觀表述出發(fā),提取文章關(guān)鍵詞作為用戶興趣的標(biāo)簽的同時(shí),參考用戶關(guān)注者的興趣標(biāo)簽,將二者綜合,高效地獲取反應(yīng)用戶興趣的標(biāo)簽,并生成獨(dú)特的能夠反映用戶興趣的輕量級(jí)本體。建立了基于本體的個(gè)性化信息推薦模型。但是,文章只是對(duì)該模型進(jìn)行了理論上的探討,并沒(méi)有在實(shí)踐中建模驗(yàn)證它的推薦準(zhǔn)確度。在接下來(lái)的實(shí)踐過(guò)程中,對(duì)于微博數(shù)據(jù)的提取、語(yǔ)義網(wǎng)中資源的標(biāo)注等問(wèn)題,都是值得進(jìn)一步去關(guān)注和解決的。