国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于社區(qū)時空主題模型的微博社區(qū)發(fā)現(xiàn)方法

2014-02-10 05:46:20朱欣焰
電子科技大學(xué)學(xué)報 2014年3期
關(guān)鍵詞:時空詞匯社區(qū)

段 煉,朱欣焰

(1. 廣西師范學(xué)院北部灣環(huán)境演變與資源利用教育部重點實驗室 南寧 530001; 2. 廣西師范學(xué)院資源環(huán)境科學(xué)學(xué)院 南寧 530001;3. 武漢大學(xué)測繪遙感信息工程國家重點實驗室 武漢 430079; 4. 武漢大學(xué)空天信息安全與可信計算教育部重點實驗室 武漢 430079)

微博作為目前最具代表性的社交網(wǎng)絡(luò)服務(wù),逐漸成為一種重要的溝通工具和平臺。由于其實時性高、流量大、內(nèi)容覆蓋面廣,近年來,微博已經(jīng)成為社會輿論、商業(yè)營銷和城市功能的“傳感器”。所謂社區(qū),是指用戶根據(jù)小世界特性聚集形成若干群體。發(fā)現(xiàn)微博中的社區(qū),能更好地理解信息傳播模式和用戶交互模式群體演化規(guī)律,具有重大的學(xué)術(shù)和應(yīng)用價值。微博社區(qū)主題表現(xiàn)為:屬于該社區(qū)的用戶所發(fā)表和轉(zhuǎn)發(fā)微博的內(nèi)容趨向于某(幾)個特定的主題,如“體育”“科技”等。多個用戶對某一主題的頻繁討論形成了針對該主題的用戶社區(qū)。然而,大部分算法基于用戶社會關(guān)系(如關(guān)注對象、好友)和微博消息轉(zhuǎn)接應(yīng)答(轉(zhuǎn)帖,跟帖、評論)的疏密程度來發(fā)現(xiàn)社區(qū),或基于聚類等模型進行網(wǎng)絡(luò)分割以獲取社區(qū),忽略了社區(qū)的潛在主題特征。社區(qū)潛在主題表現(xiàn)為:屬于該社區(qū)的用戶所發(fā)表和轉(zhuǎn)發(fā)微博的內(nèi)容趨向于若干個特定的信息類別,如“體育”“科技”等,反映了用戶在若干方面的興趣傾向。而多個用戶對某一主題的頻繁討論形成了針對該主題的用戶社區(qū)??梢?,社區(qū)主題與社區(qū)結(jié)構(gòu)相互影響,特定主題的形成反映了某個社區(qū)的出現(xiàn),而社區(qū)的出現(xiàn)促使了某些主題更加突出。在引入微博主題進行社區(qū)發(fā)現(xiàn)的研究中,文獻[1]利用LDA[2]分析Tw itter中的用戶同質(zhì)性,挖掘活躍的微博用戶群組,文獻[3]基于用戶間的互訪類型和微博主題相似性進行社區(qū)發(fā)現(xiàn),文獻[4]利用主題模型獲取社區(qū)主題,計算出用戶隸屬于某個社區(qū)的概率,文獻[5]通過伯努利分布表達用戶主題在時間上的分布。

此外,用戶發(fā)送的微博主題與周邊地理環(huán)境特征緊密相連[6]。如在東湖周邊人們發(fā)的微博以“游覽”主題為主,在武漢廣場發(fā)的微博則以“購物”主題為主??梢?,局部地理區(qū)域具有特定的經(jīng)濟文化,環(huán)境對微博主題具有較大影響。近年來,微博對地理位置標(biāo)識的功能為研究時空環(huán)境與微博內(nèi)容之間的關(guān)系提供了支撐。一般來說,兩個用戶訪問相同地理區(qū)域的次數(shù)越多,這些局部地理區(qū)域社會環(huán)境對他們的吸引程度就越相似,表明他們社會生活模式或興趣偏好越相似,則這兩個用戶越有可能屬于同一社區(qū);另一方面,屬于同一社區(qū)的用戶,由于他們具有相似的生活模式或興趣偏好,則他們越傾向于訪問相同的地理區(qū)域。此外,由于社會生活的作息規(guī)律、社會習(xí)俗等原因,不同時間段內(nèi)用戶關(guān)注的對象是不同的,造成微博在不同時間下表達不同的主題,因此發(fā)現(xiàn)微博主題隨時間變化的特點,同樣能提高對社區(qū)的識別能力。

由于主題模型對文本的強大建模能力和靈活的擴展機制,本文將擴展主題模型引入時空要素提高微博主題識別能力。在時空相關(guān)的主題模型中,已有研究將全局空間區(qū)域劃分為若干地理區(qū)域,再依據(jù)落在地理區(qū)域內(nèi)的微博獲取該區(qū)域的主題。地理區(qū)域的劃分方式主要有如下4種:規(guī)則格網(wǎng)[7]、轄區(qū)(如省界、區(qū)界等)[8-9]、不規(guī)則格網(wǎng)(如泰森多邊形網(wǎng))和自適應(yīng)區(qū)域劃分[6]。前3種方法固化了區(qū)域邊界,不利于描述相似微博主題在空間上的轉(zhuǎn)移;最后一種方式依據(jù)微博主題相似性和空間鄰近性,利用二維高斯分布較好的表達了相似主題微博的空間覆蓋范圍。然而,已有自適應(yīng)區(qū)域劃分方法沒有給出潛在地理區(qū)域空間范圍的限制條件,易造成某些潛在地理區(qū)域覆蓋的空間范圍過大。如文獻[7]采用二維高斯模型表達相似博客主題的潛在地理區(qū)域中,一些潛在地理區(qū)域跨越大半個美國,部分潛在地理區(qū)域間還相互重疊。這種情況造成區(qū)域內(nèi)主題分布趨于背景主題分布,無法突出區(qū)域“特色”主題分布,失去在主題模型中引入空間要素的意義。同時,已有方法還需預(yù)先設(shè)定潛在地理區(qū)域數(shù)量,無法利用數(shù)據(jù)自身的特征自適應(yīng)調(diào)整潛在地理區(qū)域范圍和數(shù)量。此外,已有方法沒有顧及用戶對地理區(qū)域的選擇偏好。

為克服以上問題,本文構(gòu)建社區(qū)時空主題模型(community spatio-temporal topic model, CS-TM),在主題模型中引入狄利克雷過程混合模型(dirichlet process m ixture model)[11],以自動生成不同覆蓋范圍地理區(qū)域和微博地理位置,并通過地理區(qū)域和社區(qū)兩者微博主題的相互影響,提高微博社區(qū)的發(fā)現(xiàn)能力。

1 微博社區(qū)挖掘

1.1 微博要素構(gòu)成

每條微博d表示為6個要素:d=(W,t,l,r,u,c)。其中,W表示該微博“詞袋”模型;t表示微博發(fā)布時間;l表示微博發(fā)布的地理位置;r表示微博潛在地理區(qū)域;u表示微博用戶;c代表用戶所在社區(qū)。

1.2 空間和用戶對微博主題的制約

微博中常常體現(xiàn)如“娛樂”“交通”“飲食”等話題,這些話題表達了大眾用戶的一種基本社會見識,稱為背景主題,其多項式分布參數(shù)用0q表示。將全局空間劃分為多個潛在地理區(qū)域。由聚集在潛在地理區(qū)域的微博主題共同產(chǎn)生區(qū)域-主題分布參數(shù)為rq。

1.3 社區(qū)和時間對微博主題的制約

1.4 空間、社區(qū)對微博詞匯的制約

相同主題下用戶在不同位置會使用不同的詞匯。如同樣是“交通”主題,在飛機場發(fā)出的詞匯和在火車站發(fā)出的詞匯就不同。因此,微博詞匯受背景環(huán)境、潛在地理區(qū)域和社區(qū)影響,共同控制主題z下的詞匯生成概率,基于稀疏增量式生成模型可得詞匯w的多項式分布:

1.5 時空主題模型

圖1 社區(qū)時空主題模型

1.6 時空主題模型參數(shù)計算

基于EM方法和Gibbs采樣[10]估計時空主題模型的參數(shù)。

1) E步驟,對潛在變量采樣。這里的潛在變量分別是微博d所在的潛在地理區(qū)域r、社區(qū)c和主題z:

通過狄利克雷過程表示微博d位于某個已存在潛在地理區(qū)域rj或新潛在地理區(qū)域r¢的概率。因此,修改式(9),采用“Chinese restaurant”[11]的方式進行rd采樣:

2) M步驟,固定各潛在因素,對模型的后驗似然值最大化,獲取模型參數(shù)。

更新代表潛在地理區(qū)域r的二維高斯分布參數(shù):

式中,#(r,d)表示r中微博總數(shù);ld為微博地理坐標(biāo)。

以下采用梯度下降法進行其他參數(shù)的迭代推理。

下式用于計算潛在地理區(qū)域分布參數(shù)的梯度值。其中,du,r表示用戶u在區(qū)域r中所發(fā)微博數(shù)量;du表示用戶u所發(fā)微博總數(shù):

綜上所述,在E步驟中,結(jié)合狄利克雷過程和模型中各參數(shù),計算出微博主題、潛在地理區(qū)域和社區(qū)潛在因子;在M步驟中,通過梯度下降方法,得到模型中各個參數(shù)更新值。如此反復(fù),直到模型各參數(shù)收斂。

最終按照用戶u屬于各社區(qū)的概率ug值的高低,即可將用戶劃分到不同社區(qū)中。社區(qū)間可相互重疊,即一個用戶可屬于多個社區(qū),因此,取ug的top-k(一般k=3)個概率最大gu,c所對應(yīng)的社區(qū)c作為候選集合,假設(shè)共有個社區(qū),設(shè)定閾值將的社區(qū)c作為用戶u隸屬的社區(qū)。

2 實 驗

2.1 數(shù)據(jù)預(yù)處理和模型參數(shù)設(shè)置

實驗使用的服務(wù)器配置為Intel(四核,3.1G)酷睿i53450,8 GB內(nèi)存,裝載Windows Server 2008操作系統(tǒng)。利用新浪微博API,基于用戶好友和關(guān)注對象爬取微博后,經(jīng)過去噪處理得到80 492條微博和9 264個用戶。主題模型的超參數(shù)a0、ac、ar統(tǒng)一設(shè)為50/Z,0b、cb、rb統(tǒng)一設(shè)為0.005,Ou、ur均設(shè)定為0.5。

2.2 社區(qū)主題

設(shè)微博數(shù)據(jù)集的主題數(shù)量|Z|為60,社區(qū)數(shù)量|C|為20,基于同一社區(qū)內(nèi)各用戶主題和詞匯獲得社區(qū)的主題-詞匯分布。選擇其中5個社區(qū)及與其相關(guān)度最高的前10個詞匯,每個社區(qū)下詞匯出現(xiàn)的概率列在該詞匯右邊,如表1所示,表中可明顯發(fā)現(xiàn),同一社區(qū)的詞匯具有顯著的語義相似性,不同社區(qū)的詞匯含義相差顯著,如社區(qū)1的詞匯主要表達科技和體育主題,社區(qū)2主要表達社會和工作主題,社區(qū)3主要表達購物、飲食主題,社區(qū)4主要表達生活、娛樂等主題,社區(qū)5主要表達工作、學(xué)習(xí)等。

表1 5個社區(qū)及與其相關(guān)度最高的10個詞匯

2.3 實驗結(jié)果和分析

本文提出的時空主題模型(CS-TM)與DCTM[1]和LDA[2]進行比較,其中,DCTM與CS-TM的社區(qū)確定方式相同;基于LDA的社區(qū)發(fā)現(xiàn)是通過主題分布進行k-means聚類。每個聚類簇即為社區(qū)。

本文利用社區(qū)內(nèi)外鏈接比[5]反映社區(qū)-內(nèi)用戶交互程度,采用社區(qū)內(nèi)用戶間主題分布的KL距離(kullback-leibler)來衡量社區(qū)用戶主題的相似性。社區(qū)內(nèi)外鏈接比為:

式中,Ic為社區(qū)c內(nèi)用戶間的鏈接數(shù)量,鏈接數(shù)量通過用戶的好友、關(guān)注和跟帖數(shù)量獲??;Oc為社區(qū)c內(nèi)用戶與社區(qū)c外用戶的鏈接數(shù)量。f(c)越大,表明社區(qū)內(nèi)用戶較社區(qū)外用戶的聯(lián)系越密切;反之,表明社區(qū)內(nèi)用戶的聯(lián)系并不緊密。圖2顯示了3種方法在不同社區(qū)數(shù)量情況下的平均社區(qū)內(nèi)外鏈接比。隨著社區(qū)數(shù)量的增加,各模型獲取的平均社區(qū)內(nèi)外鏈接比上升,社區(qū)涉及的微博內(nèi)容范圍逐漸縮小,用戶間的聯(lián)系頻率提高。

圖2 3種方法的社區(qū)內(nèi)外鏈接比

然而,在社區(qū)數(shù)量為5~35時,3種方法的平均社區(qū)內(nèi)外鏈接比類似,但DCTM稍低;在社區(qū)數(shù)量超過35后,CS-TM的平均社區(qū)鏈接度較LDA和DCTM都要低。這表明本文方法獲取的社區(qū)內(nèi)用戶的聯(lián)系程度不如LDA方法和DCTM方法所獲取的緊密。分析發(fā)現(xiàn),CS-TM所獲取的社區(qū)中包含的主題分布聚焦性強,即社區(qū)中的用戶所發(fā)微博大都集中在若干特定主題,相對而言,LDA和DCTM劃分出的社區(qū),微博涉及的主題類型比較分散。這反映了主題聚焦的用戶間,總體上相互交流較少;反之,一個人所發(fā)微博的主題類型越多,其對外交流越頻繁。在社區(qū)數(shù)量超過40后,各方法得到的平均社區(qū)內(nèi)外鏈接比趨于穩(wěn)定。以上實驗體現(xiàn)了微博中專業(yè)人員(或興趣極少的用戶)之間的交流不夠緊密,而具有大眾性和社會性主題的微博在用戶間傳播廣泛。本文方法能發(fā)現(xiàn)那些興趣類型少但興趣類似的用戶,如果應(yīng)用于“用戶推薦”,則能精準(zhǔn)提高這一類用戶之間的交流程度。

KL距離用以衡量相同事件空間里的兩個概率分布的差異情況。KL距離越小,表明社區(qū)內(nèi)用戶主題相似度越高,反之,社區(qū)內(nèi)用戶的興趣差異越大,則社區(qū)形成的可能性越低。由于,KL距離不具有對稱性,因此基于KL距離的對稱平滑版本——Jensen-Shannon(JS)距離表達社區(qū)c內(nèi)用戶間的平均KL距離:

式中,u為用戶,每個用戶的主題由其所發(fā)微博主題表示;|c|表示社區(qū)c內(nèi)的用戶數(shù)量。3種方法得到的平均社區(qū)KL距離如圖3所示。隨著社區(qū)數(shù)量的增加,社區(qū)內(nèi)用戶興趣相似性逐漸增強,3種方法的社區(qū)平均KL距離逐漸降低,但同樣由于CS-TM引入的時空信息增強了微博主題獲取的正確性,提高了社區(qū)內(nèi)主題相似程度。LDA中,每個用戶僅屬于同一個社區(qū),但由于LDA對微博主題獲取準(zhǔn)確率較低,類似語義的詞匯被劃分到不同主題中,造成處于同一社區(qū)的主題較為分散,同一社區(qū)內(nèi)的用戶主題差異性較大。DCTM對微博主題的識別能力較LDA要高。因此,其構(gòu)建的社區(qū)中,用戶間的主題較LDA更為相似。隨著社區(qū)數(shù)量的增加,3種方法得到的社區(qū)平均KL距離的區(qū)域平穩(wěn)。

圖3 3種方法的社區(qū)內(nèi)平均KL距離

可見,由CS-TM模型生成的社區(qū),其內(nèi)部用戶主題相似性高,社區(qū)間區(qū)分度良好。

3 結(jié) 語

本文將地理區(qū)域、社區(qū)和連續(xù)時態(tài)要素引入主題模型,綜合考慮了用戶對社區(qū)及潛在地理區(qū)域的偏好,利用Dirichlet process mixture model自適應(yīng)劃分潛在地理區(qū)域,彌補了以往方法中單個潛在地理區(qū)域范圍過大和主題分散的不足;同時,揭示了社區(qū)與具有特定社會功能地理區(qū)域間的互動關(guān)系。最終通過實驗驗證了該方法對社區(qū)發(fā)現(xiàn)的有效性。今后將引入用戶間的鏈接信息,進一步提高微博主題提取和微博社區(qū)發(fā)現(xiàn)的性能。

[1] WENG Jian-shu, LIM E P, JIANG Jing, et al. Tw itter rank:finding topic-sensitive in fluential tw itterers[C]//Proc of the 3rd ACM International Conference on Web Search and Data M ining. New York: ACM, 2010.

[2] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003,3(1): 993-1022.

[3] 閆光輝, 舒昕, 馬志程, 等. 基于主題和鏈接分析的微博社區(qū)發(fā)現(xiàn)算法[J]. 計算機應(yīng)用研究, 2013, 30(7): 1953-1957.

YAN Guang-hui, SHU Xin, MA Zhi-cheng, et al.Community discovery for microblog based on topic and link analysis[J]. Application Research of Computers, 2013, 30(7):1953-1957.

[4] YIN Zhi-jun, CAO Liang-liang, GU Quan-quan, et al.Latent community topic analysis: integration of community discovery w ith topic modeling[J]. ACM Transactions on Intelligent Systems and Technology, 2012, 3(4): 63-84.

[5] LI Dai-feng, DING Ying, SHUAI Xin, et al. Adding community and dynamic to topic models[J]. Journal of Informetrics, 2012, 6(2): 237-253.

[6] YIN Zhi-jun, CAO Liang-liang, HAN Jia-wei, et al.Geographical topic discovery and comparison[C]//The 20th international conference on World Wide Web(WWW). New York, USA: [s.n.], 2011.

[7] EISENSTEIN J, O’Connor B, SM ITH N A, et al. A latent variable model for geographic lexical variation[C]//The 20th Conference on Empirical Methods in Natural Language Processing. M IT, Massachusetts, USA: Association for Computational Linguistics, 2010.

[8] SIZOV S. GeoFolk. Latent spatial semantics in web 2.0 social media[C]//The 3rd International Conference on Web Search and Data M ining(WSDM). New York, USA: ACM,2010.

[9] MEI Qiao-zhu, Liu Chao, SU Hang. A probabilistic approach to spatiotemporal theme pattern m ining on weblogs[C]//The 15th international conference on World Wide Web(WWW). Edinburgh, Scotland: ACM, 2006.

[10] GRIFFITHS T L, STEYVERS M. Finding scientific topics[C]//Proceedings of the National Academy of Sciences (NAS), USA: [s.n.], 2004.

[11] BLEI D M, GRIFFITHS T L, JORDAN M I. The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies[J]. Journal of the ACM, 2010,57(2): 111-142.

[12] EISENSTEIN J, AHMED A, XING E P. Sparse additive generative models of text[C]//The 28th International Conference on Machine Learning(ICML). New York, USA:ACM, 2011.

編 輯 葉 芳

猜你喜歡
時空詞匯社區(qū)
跨越時空的相遇
社區(qū)大作戰(zhàn)
幼兒園(2021年6期)2021-07-28 07:42:08
本刊可直接用縮寫的常用詞匯
鏡中的時空穿梭
一些常用詞匯可直接用縮寫
3D打印社區(qū)
在社區(qū)推行“互助式”治理
本刊可直接用縮寫的常用詞匯
玩一次時空大“穿越”
時空之門
昌宁县| 津市市| 崇阳县| 雷山县| 紫金县| 社会| 双辽市| 板桥市| 调兵山市| 固安县| 巴青县| 交口县| 汕头市| 靖西县| 墨竹工卡县| 辽宁省| 曲沃县| 行唐县| 黄大仙区| 商南县| 昭通市| 商城县| 南城县| 涡阳县| 满洲里市| 西吉县| 绵阳市| 沛县| 江永县| 蓝田县| 南和县| 太和县| 永城市| 犍为县| 泽普县| 禄劝| 利辛县| 凤城市| 渭源县| 高雄县| 桂林市|