王慧瑤
2010年國內微博發(fā)展趨勢迅猛,四大門戶網(wǎng)站均開設微博。微博是一個基于用戶關系信息分享、傳播以及獲取的平臺,微博客更能表達出每時每刻的思想和最新動態(tài)。并且,我國旅游業(yè)總體保持平穩(wěn)較快發(fā)展。國內旅游市場繼續(xù)較快發(fā)展,入境旅游市場基本持平,出境旅游市場繼續(xù)快速增長。那么面向微博的社會化推薦就應運而生,可以通過用戶在微博的動態(tài),經(jīng)過智能化分析,為他們提供相應的旅游資訊。
【關鍵詞】微博用戶 分類 旅游推薦
為微博用戶提供高質服務,提高用戶滿意度已經(jīng)成為微博企業(yè)重要工作,由于用戶需求的不同,使得人們興趣愛好也就不同,這就需要發(fā)現(xiàn)用戶興趣內容,做好分類,向用戶推薦更有興趣的微博信息。同時改變目前旅游信息行業(yè)的現(xiàn)狀迫在眉睫,鑒于微博作為一個能表達出用戶的真實思想和最新動態(tài)的平臺,完全可以作為提取每個人的興趣愛好,旅游意向的數(shù)據(jù)來源。面向微博的旅游推薦的主要思想是搭建一個可針對不同用戶的具體特征,給出相應智能化推薦的一個旅游信息智能推薦平臺.而此類智能推薦系統(tǒng)與普通系統(tǒng)中的旅游景點推薦服務最大的差別在于“推薦”的方法.區(qū)別于普通推薦系統(tǒng)的簡單匹配,智能推薦的最大變化是:可以因人而異的進行智能推薦。為實現(xiàn)這一目標,可以將數(shù)據(jù)挖掘技術應用其中,以此為基礎做好微博用戶分類。
1 微博用戶特點
微博中含有大量的信息,不僅有用戶發(fā)表微博的數(shù)量統(tǒng)計,用戶關注人員以及粉絲數(shù)量,還有很多與用戶個人相關的信息,如性別、微博等級、相冊等內容。對于微博用戶來說,主要有三種,分別為一般用戶、領袖用戶以及功能用戶。其中,一般用戶多指年齡在18-30周歲之間群體,這些用戶人群學歷相對較高,不僅有學生,還有普通工作人員,此類用戶比較喜歡接受新事物,自身表達能力與參與社會活動的意識也很強。而領袖用戶相對較少,多以著名商人、作家等為主,他們所發(fā)表的內容多為自己從事領域的內容,所以,他們的興趣基本固定。功能微博就是以某一平臺或商家的名義所發(fā)布的微博,此類微博的興趣較為廣泛,涉面也很廣,但數(shù)量并不多,但卻不缺乏影響力,它的粉絲也很多。
2 微博用戶興趣分類與景點推薦
通過研究微博用戶關注的內容,就可以了解到用戶興趣取向,如對于領袖用戶來說,他們多關注與自身研究領域相關的內容,這樣微博在為其推薦相關景點時也會根據(jù)興趣愛好標簽確定,以保證為用戶推出的出游景點內容都是用戶感興趣的部分,如針對南派三叔這類的文學名人,所推出的景點信息多以有人文特點的景點,如三味書屋或國家臺灣文學館等為主。同樣對于功能微博用戶,也會根據(jù)其類型推薦相關微博,如針對萬達影訊這種大V所提供的微博,主要以時尚生活的景點和資訊為主,這些都是根據(jù)微博用戶特點確定的相應的景點分類。面向微博的旅游推薦的主要思路具體如下:
2.1 數(shù)據(jù)的收集
2.1.1 語料收集
語料來源于NLPIR微博內容語料庫由北京理工大學網(wǎng)絡搜索挖掘與安全實驗室張華平博士,通過公開采集與抽取從新浪微博、騰訊微博中獲得。本次實驗取該語料庫中得20000條。
2.1.2 景點信息設置
人工在數(shù)據(jù)庫中進行景點信息錄入。
2.2 聚類分析數(shù)據(jù)樣本
首先,明確用戶興趣集合H,以便概括出具有相同興趣的微博用戶。如在吃貨中,主要是推薦一些有地方特色小吃或有名美食的景點,同時也包括一些特色飯店等內容。盡管這種分類不一定是用戶興趣愛好,但也可以使用戶把握相關行業(yè)動態(tài)信息。因此,將其作為聚類分析數(shù)據(jù)樣本也有一定作用。其次,利用景點信息集合T,找出每一個景點所具有的特點,構成景點特征集合L。最后,根據(jù)事先確定好的用戶興趣愛好,為之推薦符合其興趣特征的景點。具體實現(xiàn)思路如下:
(1)以覆蓋人數(shù)為標準,選出7個特征詞確定微博用戶喜好類別。要了解用戶的微博信息的特點,可以利用以下方法確定用戶的興趣。先設定興趣集合H,在H下設有多個相同的興趣名稱,即(h1,h2,h3……h(huán)n)(n∈N+),這里的微博用戶分類體系將用戶分為七個大類:吃貨、購物、攝影、體育、教育、情侶、藝術。
(2)以這7個特征詞為標準對微博進行人工標注,并對無效微博進行過濾。即進行語料加工,從語料中選取了具有鮮明特征的語料,對其進行分類標注并去除無效信息,標注句子。
(3)景點類別的確定。同時設置旅游景點集合T,在T下設有多個景點,即(t1,t2,t3……tn)(n∈N+)因不是任何景點都能滿足用戶興趣,所以還需要具有代表性的且能夠被用戶興趣標示的景點類別集合L,即(l1,l2,l3……ln)(n∈N+),這樣就可以便于找到具有相同風格的景點。這里的旅游景點對應上述微博用戶興趣的七大類:飲食、購物、自然、運動、游學、度假、人文。
2.3 景點與微博用戶進行對應特征匹配
根據(jù)收集的微博用戶數(shù)據(jù),確定用戶的可能感興趣的景點集合。即找出指定用戶的興趣愛好集合(h1,h2,h3……h(huán)n),從L(l1,l2,l3……ln)中,分別針對用戶所擁有的興趣特征找出與之到對應的景點類別的映射(l1,l2,l3…lk)→h。此時通過微博用戶特征到景點特征的匹配,微博用戶可能感興趣的景點的集合就確定出來了,在數(shù)據(jù)庫中可以查詢到其中任何一個人所屬的興趣特征。
2.4 興趣特征加權
上述數(shù)據(jù)庫中微博用戶的特征向量其實為布爾邏輯型,即只能確定用戶是否屬于某一興趣特征類別,而無法確定用戶對其偏好程度,為了能夠更加定量精準的表達用戶屬于某個興趣特征的程度,在此引入興趣偏好程度進行所屬特征的加權計算式,即利用該興趣特征在該用戶所有興趣中所占的權重得出:W(hk)=Count(hk)/Sum(h)。W(hk)∈[0,1],其值越大則代表用戶該興趣特征表現(xiàn)越明顯,0代表用戶無此興趣特征。
3 結論
通過以上分析得知,微博用戶在逐漸增多,用戶出行的需求也逐漸增加。為給用戶滿意的推薦,就需要發(fā)現(xiàn)與了解用戶特點,根據(jù)用戶特點對景點進行分類。而做好數(shù)據(jù)分類,這就需要應用到數(shù)據(jù)挖掘技術根據(jù)用戶特點為其推薦相關景點信息,以便達到猜用戶所想景點推薦。
參考文獻
[1]宋雙永,李秋丹,路冬媛.面向微博客的熱點事件情感分析方法[J].計算機科學,2012,S1:226-228+260.
[2]王連喜,蔣盛益,龐觀松,吳美玲.微博用戶關系挖掘研究綜述[J].情報雜志,2012,12:91-97+57.
作者單位
山西大學計算機與信息技術學院 山西省太原市 030006