国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于提及關(guān)系的微博用戶知識發(fā)現(xiàn)初探*

2015-11-21 01:55吳愷王瑩
圖書與情報 2015年2期
關(guān)鍵詞:主題詞聚類算法

吳愷 王瑩

(1.南京大學信息管理學院 江蘇 南京 210046)

(2.江蘇省數(shù)據(jù)工程與知識服務重點實驗室(南京大學) 江蘇 南京 210046)

(3.南京大學圖書館 江蘇 南京 210046)

基于提及關(guān)系的微博用戶知識發(fā)現(xiàn)初探*

吳愷王瑩

(1.南京大學信息管理學院 江蘇 南京 210046)

(2.江蘇省數(shù)據(jù)工程與知識服務重點實驗室(南京大學) 江蘇 南京 210046)

(3.南京大學圖書館 江蘇 南京 210046)

發(fā)現(xiàn)具有重要影響力的微博用戶及其主題信息對于甄別高質(zhì)量信息來源,充分發(fā)揮微博的媒體溝通作用,提高公民信息素養(yǎng)具有重要的意義。文章提出了基于提及關(guān)系的微博用戶知識發(fā)現(xiàn)模型,分析了被提及用戶與微博文本之間的聯(lián)系,并利用LDA主題模型對微博用戶進行聚類分析和主題詞抽取,實驗證明基于提及關(guān)系的主題聚類可以發(fā)現(xiàn)高影響力微博用戶及其主題詞。

微博用戶;提及關(guān)系;主題詞;LDA模型

1 引言

隨著Web2.0和移動互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,微博已經(jīng)成為人們創(chuàng)作、傳播和發(fā)現(xiàn)信息的一種重要平臺。一般認為,微博不僅僅是一類博客網(wǎng)站,而是兼具社交網(wǎng)絡和新媒體的功能,類似于哈貝馬斯所指的公共領(lǐng)域。不僅知名人士和社會大眾通過微博參與新聞傳播和公共討論,許多官方部門以及企事業(yè)單位也紛紛開通微博,作為官方溝通平臺或營銷渠道,微博用戶逐漸成為機構(gòu)或個人在公共話題平臺中的代稱。在使用微博的同時,用戶之間的大量行為聯(lián)系也被記錄下來,如果能夠挖掘這些行為數(shù)據(jù),發(fā)現(xiàn)和利用隱含在用戶行為中的知識聯(lián)系,發(fā)現(xiàn)微博用戶間的聯(lián)系和主題詞,構(gòu)建微博用戶知識地圖,對于提高微博信息利用效率,進而及時處理輿情和突發(fā)事件,提供決策支持等具有重要的意義。

2 相關(guān)工作

基于用戶行為信息分析用戶之間的聯(lián)系是知識發(fā)現(xiàn)和知識組織的一種方法,筆者曾提出了一個較為通用的用戶行為知識模型,通過預先定義的模式進行信息析取、數(shù)據(jù)挖掘,可以發(fā)現(xiàn)用戶之間以及用戶與主題詞的聯(lián)系,用于知識組織和知識服務。目前基于微博用戶關(guān)系挖掘的研究主要有微博用戶社群分析、關(guān)鍵用戶識別、個性化推薦等,但現(xiàn)有的微博用戶行為研究主要集中于微博用戶的關(guān)注、轉(zhuǎn)發(fā)和評論等行為,這類分析只能發(fā)現(xiàn)主動參與微博互動的用戶信息,無法發(fā)現(xiàn)未參與的微博用戶與相關(guān)事件之間的潛在聯(lián)系,而這類聯(lián)系也具有一定的情報價值,例如在突發(fā)事件中,盡快發(fā)現(xiàn)與事件相關(guān)的微博用戶,可以有助于分析事件相關(guān)責任方,加強公共溝通,提供權(quán)威消息來源,避免網(wǎng)絡謠言的傳播。

微博字數(shù)不超過140個,微博信息中具有較為明顯的主題,許多學者針對微博文本進行主題挖掘研究,張晨逸等提出了MB-LDA模型用于微博文本分析,經(jīng)過在Twitter數(shù)據(jù)集上的實驗,模型聚類結(jié)果的復雜度優(yōu)于傳統(tǒng)的LDA模型,得到的主題和關(guān)鍵詞與LDA模型相當。唐曉波等利用LDA的擴展模型UserLDA對新浪微博用戶進行興趣主題建模,以進行TopN二級好友推薦,實驗表明該推薦算法有較好的準確性和多樣性。

知識地圖是知識管理的一種重要方式,其概念最早由情報學家布魯克斯提出,布魯克斯提出的“知識地圖”主要是指人類的客觀知識,他認為人類的知識結(jié)構(gòu)可以繪制成以各個知識單元概念為節(jié)點的學科認識地圖。李亮認為知識地圖“指向知識而不包含知識本身,它是一個向?qū)Ф皇且粋€知識的集合。知識地圖不僅可以指向人,也可以指向文獻和其他的資源”。近幾年隱性知識地圖逐漸成為學者研究的熱點,隱性知識地圖除了從合著關(guān)系、引用關(guān)系等聯(lián)系中發(fā)現(xiàn)知識外,還可以從人們?nèi)粘P袨榈纳鐣髷?shù)據(jù)中挖掘。本文主要研究基于提及關(guān)系的微博用戶知識發(fā)現(xiàn),嘗試構(gòu)建微博用戶的知識地圖。

3 用戶提及行為分析

微博中的提及行為也稱為“@”行為,即在發(fā)布的微博中加上“@用戶昵稱”,表示對特定用戶發(fā)送信息。在此基礎(chǔ)上,Twitter等微博應用逐步完善“@”功能,并將用戶在微博中“@”某人這一行為正式稱為提及(Mention)行為。以新浪微博為例,其所提供的“@”功能在微博中實現(xiàn)了以下幾個效果:①當發(fā)布“@昵稱”的信息時,其意思是“向某某人說”,對方能看到你說的話,并能夠回復,實現(xiàn)一對一的溝通;②通過發(fā)布的信息中“@昵稱”這個鏈接,可以直接點擊到這個人的頁面,方便大家認識更多朋友;③所有@你的信息有一個匯總,可以在我的首頁右側(cè)中“提到我的微博”中查看。

根據(jù)提及用戶的原因和動機不同,筆者將提及行為歸納為四種類型,①引用提及:當用戶引用某人的新聞或話語時,通常會在引用的話之后@原作者。②對話提及:當微博話題中提到某個用戶時,會在用戶名前加上@符號。③信息推送:用戶認為某條信息對所@的用戶(通常是互相關(guān)注的好友)有價值時,推薦其關(guān)注閱讀。④征求關(guān)注,用戶當發(fā)布某條信息時,希望@的用戶(通常是有影響力的用戶)關(guān)注以及轉(zhuǎn)發(fā),擴大影響。

比較提及關(guān)系與轉(zhuǎn)發(fā)、評論關(guān)系,其知識聯(lián)系的來源基礎(chǔ)是不同的,轉(zhuǎn)發(fā)評論行為反映的是自我的認識,如“我”認為轉(zhuǎn)發(fā)評論的微博對“我”有價值或關(guān)聯(lián),而提及行為反映的是他我的認識,即“他人”認為提及“我”的微博對“我”有價值或關(guān)聯(lián)。比較提及關(guān)系和關(guān)注關(guān)系,雖然都體現(xiàn)了他人對被關(guān)注/提及用戶的認可,但是提及關(guān)系的優(yōu)勢在于其是動態(tài)的,可累積的,即能更好地反映在某個時段用戶的影響力以及與某些主題的聯(lián)系。因此,分析用戶被提及的次數(shù)和關(guān)聯(lián)文本,可以有助于發(fā)現(xiàn)高影響力的微博用戶及其主題詞。

4 基于提及關(guān)系的微博用戶知識發(fā)現(xiàn)模型

本文基于微博用戶的提及關(guān)系和主題聚類模型,提出了基于提及關(guān)系的微博用戶知識發(fā)現(xiàn)模型(見圖1),該模型包括三個模塊:數(shù)據(jù)預處理、知識發(fā)現(xiàn)和知識組織。數(shù)據(jù)預處理模塊的數(shù)據(jù)來源是微博API采集的原創(chuàng)微博、轉(zhuǎn)發(fā)微博和評論微博,主要完成3步工作:①抓取微博信息中的被提及用戶,微博與用戶之間是多對多的關(guān)系;②根據(jù)提及用戶的格式分析提及關(guān)系類型,去除引用型提及和對話型提及;③對微博文本進行清洗和補充,如去除網(wǎng)址(形如Http://)、圖片、提及(形如@XX)和以往轉(zhuǎn)發(fā)(形如//@XX:)等無效信息,在轉(zhuǎn)發(fā)和評論微博中加上原創(chuàng)微博信息。經(jīng)過以上工作,最終得到被提及用戶和微博文本對應關(guān)系的數(shù)據(jù)庫〈u,t〉。

知識發(fā)現(xiàn)模塊的主要內(nèi)容是使用LDA聚類算法發(fā)現(xiàn)用戶關(guān)系和用戶主題詞。由于被提及用戶對應多條微博文本,因此需要按用戶對微博匯總,本文首先對微博t進行分詞和敘詞選擇,得到一個微博敘詞向量,同一條微博中的敘詞權(quán)重設為1,然后將同一個用戶的微博敘詞向量匯合,敘詞權(quán)重設為含有該敘詞的微博個數(shù),以期較為準確地反映詞匯權(quán)重。最終形成微博用戶—詞匯矩陣〈u,d〉。

LDA主題模型是一種基于雙層貝葉斯概率的主題模型,該模型基于“詞袋”(bags of word)的思想,認為每個文檔按照一定的概率包括若干個主題,每個主題又按照一定的概率包括若干個詞語,文本生成可以看做是按照一定的概率從“詞袋”中選擇詞匯的過程。首先按照某個概率θ選擇一個主題Z,然后在這個主題中按照概率ψ再選擇一次詞匯w。每一次概率選擇的過程服從多項式分布,θ和ψ的先驗分布概率服從參數(shù)為α和β的Dirichlet分布。直接求解聯(lián)合概率分布是比較困難的,必須借助一定的統(tǒng)計推斷方法。在LDA模型中,常用的統(tǒng)計推斷方法有EM(expectation-maximization)和GibbsSampling方法。其中Gibbs Sampling是一種馬爾科夫鏈蒙特卡洛方法,通過不斷的改變條件概率的取值對聯(lián)合分布進行采樣,最終推斷出希望求解的聯(lián)合分布。

圖1 基于提及關(guān)系的知識發(fā)現(xiàn)和知識組織模型

知識組織模塊用于組織和表示主題聚類所發(fā)現(xiàn)的知識關(guān)聯(lián),知識關(guān)聯(lián)包括兩種類型,其一是用戶之間的關(guān)聯(lián),例如微博用戶A和用戶B同屬于一個主題聚類,則可以認為這兩個用戶具有相似性。其二是微博用戶與主題詞之間的關(guān)聯(lián),LDA聚類結(jié)果中給出了主題詞在各個聚類中出現(xiàn)的概率,概率越大,則越能表示該聚類的主題。在判斷某個用戶的主題詞權(quán)重時,本文提出微博用戶的LDA主題詞算法公式如下:

其中N(w)為〈u,d〉中用戶詞匯的頻數(shù)權(quán)重,P(w)為LDA聚類所得到的主題詞概率,依據(jù)主題詞算法得分選擇微博用戶的主題詞。

5 實驗過程

筆者選擇了2014年的6個突發(fā)性公共事件,以時間為序,分別為馬航MH370事件,西安幼兒園病毒靈事件、上海福喜食品事件、湖南湘潭校車事件、昆山工廠爆炸事件和H7N9病毒流行事件。采集了以這些事件為關(guān)鍵詞的6000條原創(chuàng)微博及其轉(zhuǎn)發(fā)和評論數(shù)據(jù),并標記了微博的事件類別。在總計200803條微博信息中,含有提及用戶信息的有16987條,所占比例為8.46%,其中24.06%的提及行為最終得到了用戶的回應。以上數(shù)據(jù)表明提及行為在微博日常使用中占有相當?shù)谋壤?,其分析的結(jié)果具有一定的代表性。

由于新浪微博是中文微博,需要對微博進行中文分詞。本文采取的分詞軟件基于“ICTCLAS”算法,所采用的詞典為“Sogou標準詞庫”和網(wǎng)絡用語詞庫,ICTCLAS算法在分詞時能夠給出詞性。分詞后,按照以下原則選擇詞匯:①去除停用詞;②保留字數(shù)大于2個字的詞;③去除詞性為形容詞、數(shù)量詞、介詞、副詞等詞匯;④合并了部分同義詞匯,例如“H7N9禽流感”和“H7N9”、“江蘇”和“江蘇省”等。被提及用戶的分布具有明顯的長尾特征,為了使微博用戶信息較有代表性,筆者選取了被提及次數(shù)較高的前200位認證用戶進行研究,這些用戶粉絲數(shù)最少的為5101,最多的達7000多萬,其中151名用戶的粉絲數(shù)超過50萬,平均發(fā)布的微博數(shù)為25883條。

本文實驗采用R語言的“topicmodels”軟件包,在進行微博LDA主題聚類時,需要設定聚類數(shù)和參數(shù),根據(jù)經(jīng)驗數(shù)值,取α=50/K,β=0.01,聚類數(shù)K依據(jù)統(tǒng)計語言模型中常用的評價標準——困惑度(Perplexity)來進行選取,經(jīng)過對不同聚類數(shù)的實驗,本文最終選擇聚類數(shù)為70。通過聚類分析可以發(fā)現(xiàn)微博用戶與主題、主題詞之間的聯(lián)系(見表1)。

為了比較算法抽取主題詞的準確率,需要設計一種實驗,本文為每個用戶人工標注了5個主題詞,標引方法是將政府微博、企業(yè)微博和專業(yè)人士微博用戶及其相關(guān)的微博文本(已分詞)提供給若干個閱讀者,每人負責一部分微博用戶,閱讀者根據(jù)微博文本內(nèi)容選擇與微博用戶及突發(fā)事件相關(guān)性最高的5個主題詞,選擇詞匯的原則是以表現(xiàn)事件和用戶的語義特征為主,偏重于標題或話題的詞匯。

表1 部分微博用戶的所屬聚類和主題詞

對一個主題詞抽取算法效果的評價應當包括兩個方面:①能準確抽取出反映主題的詞匯;②抽取出的詞匯中不能反映微博用戶特征的詞匯,即無效詞匯越少越好。因此,本文實驗采用在信息檢索領(lǐng)域常用的F-measure指標來比較本文的主題詞方法和傳統(tǒng)的TFIDF方法效果,F(xiàn)-measure是一種綜合了精度(precision)和召回率(recall)的聚類評價指標。

本文在實驗中使用算法分別為每個微博用戶抽取了n=5,6,7,8,9,10個詞匯作為候選主題詞,與人工標引詞匯比較,分別計算每個微博算法下的精度、召回率和F指數(shù),對于每個n值,計算全部微博用戶指標的平均值作為總體的F-measure值,實驗得到的平均指標,說明在發(fā)現(xiàn)和抽取表示主題語義的詞匯時,LDA主題詞算法的表現(xiàn)要略優(yōu)于TFIDF算法(見圖2)。

6 分析與討論

本文的分析和實驗基于被提及的微博用戶與相關(guān)微博文本之間的聯(lián)系,在實驗中按照被提及的次數(shù)選取了前200位微博用戶,按用戶類型筆者將這些用戶分為新聞媒體、政府微博、企業(yè)微博、明星名人、專業(yè)人士五類,經(jīng)過主題聚類和主題詞抽取,可以得到以下一些結(jié)論:

(1)提及關(guān)系分析可以發(fā)現(xiàn)特有微博用戶聯(lián)系。在其他微博研究中,不參與發(fā)布、轉(zhuǎn)發(fā)和評論的微博用戶通常被忽略,被認為與事件無關(guān)。本文研究的200位微博用戶中有82位用戶并未參與發(fā)布、評論和轉(zhuǎn)發(fā)微博,占全部用戶的41%,通過提及關(guān)系分析,發(fā)現(xiàn)了這些用戶與相關(guān)事件之間的潛在聯(lián)系。

圖2 主題詞抽取算法F-measure值比較

(2)被提及的新聞媒體、明星名人類微博用戶與多個主題相關(guān)。新聞媒體和明星名人類微博可以看做是“影響力型”微博,他們是公共話題的傳播者和積極參與者,往往出現(xiàn)在多個主題事件中,大眾提及這些用戶的動機是為了征求關(guān)注,擴大傳播。與這些用戶相關(guān)的事件主題只是說明較受大眾關(guān)注,與“影響力型”微博用戶間沒有特定的知識聯(lián)系。

(3)被提及的政府微博和企業(yè)微博與相關(guān)事件存在潛在關(guān)聯(lián)。政府微博、企業(yè)微博和專業(yè)人士微博可以看做是“專業(yè)型”微博,通過提及行為分析,可以分析這些微博與事件的隱性知識聯(lián)系。以MH370事件為例,公眾認為與事件相關(guān),應及時發(fā)布準確信息的用戶有“@飛常準”、“@馬來西亞航空”、“@北京邊檢”等。在上海福喜事件中,被提及的微博用戶包括“@上海食藥監(jiān)”和涉嫌使用上海福喜公司產(chǎn)品的洋快餐企業(yè),雖然最初發(fā)現(xiàn)食品問題的是麥當勞,但肯德基、德克士等快餐企業(yè)也從福喜公司采購食品原料,因此食品主管部門應該及時檢查這些企業(yè)并向公眾說明。通過分析這些機構(gòu)微博與事件的關(guān)聯(lián),有助于發(fā)現(xiàn)突發(fā)事件相關(guān)主體、及時發(fā)布最新消息并與公眾溝通,減少損失。

(4)本文的主題詞算法能夠發(fā)現(xiàn)專業(yè)型微博用戶的專業(yè)領(lǐng)域。例如在昆山爆炸事件中,被提及的用戶“@赴湯蹈火的老兵”為“北京市公安消防總隊原副總隊長”,發(fā)現(xiàn)的相關(guān)主題詞為“事故;粉塵;明火”?!癅燒傷超人阿寶”為北京積水潭醫(yī)院燒傷科主治醫(yī)師,發(fā)現(xiàn)的相關(guān)主題詞為“燒傷;病情;事故”。根據(jù)本文實驗中專業(yè)人士微博的主題詞知識圖譜可以發(fā)現(xiàn)相關(guān)領(lǐng)域的權(quán)威專家,例如與孩子相關(guān)的有“@崔玉濤”和“@張思萊醫(yī)師”等,這些都是知名的兒科專家(見圖3)。

圖3 突發(fā)事件中專業(yè)人士微博的主題詞知識圖譜

7 結(jié)語

本文探索了基于微博中的用戶提及關(guān)系挖掘微博用戶的知識聯(lián)系,提出了一個微博用戶知識發(fā)現(xiàn)模型,分析了不同類型微博用戶與主題和特征詞間的知識聯(lián)系。實驗證明通過LDA聚類的方法,可以有效地發(fā)現(xiàn)與專業(yè)型微博用戶相關(guān)的主題和主題詞,LDA主題模型是一種生成模型,具有扎實的概率理論基礎(chǔ),能夠較好發(fā)現(xiàn)用戶與詞匯間的語義關(guān)系,本文下一步的研究方向是進行微博用戶的主題演化研究。

[1]Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[A].Proceedings of the 19th international conference on World wide web[C].ACM,2010:591-600.

[2]蘇新寧.面向知識服務的知識組織理論與方法[M].北京:科學出版社,2014:37-38.

[3]吳愷,蘇新寧,鄭昌興.基于用戶行為信息的知識組織模型構(gòu)建研究[J].情報資料工作,2015,202(1):14-19.

[4]王連喜,蔣盛益,龐觀松,等.微博用戶關(guān)系挖掘研究綜述[J].情報雜志,2012,31(12):91-97.

[5]張培晶,宋蕾.基于LDA的微博文本主題建模方法研究述評[J].圖書情報工作,2012,56(24):120-126.

[6]張晨逸,孫建伶,丁軼群.基于MB-LDA模型的微博主題挖掘[J].計算機研究與發(fā)展,2011,48(10):1795-1802.

[7]唐曉波,祝黎,謝力.基于主題的微博二級好友推薦模型研究[J].圖書情報工作,2014,58(9):105-113.

[8]李亮.知識地圖——知識管理的有效工具[J].情報理論與實踐,2005,28(3):233-237.

[9]新浪微博.@功能上線,微博上交流更方便[EB/OL].[2015-03-20].http://blog.sina.com.cn/s/blog_61ecce970 100fhky.html.

[10]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.

[11]Thomas L G,Mark S.Finding scientific topics[J].Proc Natl Acad Sci U S A.,2004,101(Suppl 1):5228-5235.

[12]唐曉波,王洪艷.基于潛在狄利克雷分配模型的微博主題演化分析[J].情報學報,2013,32(3):281-287.

The Initial Exploration on Microblogger Knowledge Discovery with User Mention Relations

Finding high influence microblogger could help to identify high quality information source,develop the ability to communication of public,and therefore increase information literacy.This article proposes a microblogger knowledge model from user mention relations and analysis the relation of mentioned microblogger and microblogging contexts based on LDA model.Experiment shows the cluster model can find theme related high influence microblogger and feature words.

microblogger;mention relation;feature words;LDA model

G252.0

A

10.11968/tsygb.1003-6938.2015050

吳愷(1979—)男,南京大學信息管理學院博士研究生;王瑩(1980-)女,南京大學圖書館館員。

*本文系國家社會科學基金重大項目“面向突發(fā)事件應急決策的快速響應情報體系研究”(編號:13&ZD174)研究成果之一。

2015-04-13;責任編輯:魏志鵬

猜你喜歡
主題詞聚類算法
基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應用
基于模糊聚類和支持向量回歸的成績預測
Travellng thg World Full—time for Rree
學習算法的“三種境界”
算法框圖的補全
算法初步知識盤點
基于密度的自適應搜索增量聚類法
取消公文主題詞的真正原因是什么?
公文主題詞消失的原因淺析
對公文中主題詞標引的思考