萬紅新
摘 ?要:基于中文文本的復(fù)雜語境結(jié)構(gòu),同時考慮話題的動態(tài)變化性,利用語義線索和時空主題模型來提取話題的關(guān)鍵詞語鏈。結(jié)合語義知識和時間約束的主題模型可以有效對社交媒體文本大數(shù)據(jù)進(jìn)行分析和處理,以獲取潛在的話題知識。
關(guān)鍵詞:語義線索;主題模型;社交媒體;動態(tài)話題
中圖分類號:TP391.1 ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)05-0027-03
Abstract:Based on the complex contextual structure of Chinese text,and considering the dynamic change of topic,we use semantic clues and spatiotemporal topic model to extract keyword chains of topic. Theme model combined with semantic knowledge and time constraints can effectively analyze and process big data of social media texts to acquire potential topic knowledge.
Keywords:semantic cues;topic model;social media;dynamic topics
0 ?引 ?言
隨著網(wǎng)絡(luò)社交媒體的迅速發(fā)展,在網(wǎng)絡(luò)上產(chǎn)生了大量的評論數(shù)據(jù),如何有效發(fā)現(xiàn)其中蘊(yùn)含的話題信息,是實(shí)現(xiàn)輿情分析的重要挑戰(zhàn)。人工方式及一些常規(guī)方法已不能滿足對大數(shù)據(jù)社交媒體文本進(jìn)行分析和處理的要求,對話題熱點(diǎn)的挖掘需要利用具有大規(guī)模數(shù)據(jù)處理能力的自動化技術(shù)來實(shí)現(xiàn)。有效地從不斷涌現(xiàn)的海量非結(jié)構(gòu)化文本數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)話題,可以追蹤和預(yù)測熱點(diǎn)話題的變化。本文將基于社交媒體文本大數(shù)據(jù),利用語義線索化時空主題模型來提取話題的關(guān)鍵詞語鏈,進(jìn)而捕獲話題的動態(tài)變化過程和演化趨勢。
1 ?主要問題
要實(shí)現(xiàn)大數(shù)據(jù)背景下社交媒體的話題詞鏈挖掘,重點(diǎn)在于構(gòu)建符合話題詞動態(tài)分布特征的主題模型,實(shí)現(xiàn)話題詞的提取及主題詞鏈的聚類。主要解決的關(guān)鍵問題包括:
(1)社交媒體文本語義關(guān)系的獲取。如何提取詞語間的語義關(guān)系,以語義線索形式嵌入到LDA,提高LDA模型提取話題詞語的準(zhǔn)確率和召回率。
(2)時間約束LDA分布機(jī)制設(shè)計。標(biāo)準(zhǔn)LDA是空間內(nèi)容模型,沒有引入時間變化對分布的影響,生成的主題信息不能反映話題的動態(tài)變化特點(diǎn)。設(shè)計時間介入的LDA模型,緊密聯(lián)系輿情文本的時間分布特點(diǎn),增加時間層,提高動態(tài)話題提取效率。
(3)構(gòu)造語義和時間約束的STC-LDA(semantic and time constrained LDA)模型。考慮到詞語之間復(fù)雜的語義關(guān)系會對話題的提取產(chǎn)生影響,將語義關(guān)系作為先驗(yàn)知識加入到LDA,同時引入時間約束因子,實(shí)現(xiàn)層級之間分配符合輿情文本的語義結(jié)構(gòu)和時間分布特點(diǎn)。
2 ?相關(guān)研究
李鳳嶺等(2014)[1]提出了基于圖方法的話題提取方法,首先利用主題模型生成潛在話題,通過詞共現(xiàn)將各個話題關(guān)聯(lián)到一個加權(quán)圖,再使用話題排序算法進(jìn)行熱點(diǎn)話題的分析和排名;邱明濤等(2017)[2]利用詞語的重要程度和詞頻等進(jìn)行話題詞語選擇,詞語的重要性可以通過主題模型進(jìn)行分析,通過迭代方法產(chǎn)生詞語集合,在此基礎(chǔ)上進(jìn)行話題的篩選;曹麗娜等(2014)[3]提出的動態(tài)主題模型基于話題熱度和話題內(nèi)容,通過主題模型提取變化的詞語組合,利用熱點(diǎn)算法進(jìn)行詞語集合的話題分析和熱度計算;王菲菲等(2016)[4]采用LDA主題模型進(jìn)行文本建模,得到所有用戶內(nèi)容在各個不同主題上的分布,這種分布詞語的集合可以進(jìn)行篩選并產(chǎn)生共同特征話題集合;陳曉美等(2015)[5]首先分析了大數(shù)據(jù)背景下輿情文本話題分布的特點(diǎn),闡述了主題模型對于海量文本數(shù)據(jù)處理的可取之處,并提出了基于主題模型的熱點(diǎn)話題挖掘路徑和方法;郭藍(lán)天等(2016)[6]分析了社交媒體中文本數(shù)據(jù)的特點(diǎn),指出高維度和多主題是影響主題模型深入挖掘話題的阻礙,提出了一種連續(xù)性詞袋主題模型,首先對文本進(jìn)行詞語聚類,在降低維度的基礎(chǔ)上進(jìn)行熱點(diǎn)話題的提取;仇麗青等(2016)[7]將網(wǎng)絡(luò)信息結(jié)構(gòu)融入到主題模型,提出了重要性LDA主題模型,重要結(jié)構(gòu)節(jié)點(diǎn)知識的引入可以使主題模型發(fā)現(xiàn)更多潛在結(jié)構(gòu)信息,挖掘出更多的隱藏在節(jié)點(diǎn)結(jié)構(gòu)中的潛在話題;李湘東等(2014)[8]設(shè)計了權(quán)重型主題模型,在主題模型提取主題詞的過程中,將詞語共現(xiàn)及熱度等因素作為加權(quán)因子來考察詞語的重要程度,可以發(fā)現(xiàn)更多符合話題語義要求的主題詞,提高了話題提取的準(zhǔn)確率。
3 ?模型設(shè)計
3.1 ?詞語語義關(guān)系獲取
LDA是概率模型,傾向于提取高頻詞語和高頻共現(xiàn)關(guān)系,會造成一些低頻的評論詞語的提取率不高,難以發(fā)現(xiàn)一些低頻共現(xiàn)關(guān)系。相對于高頻話題詞,低頻話題詞語容易被主題模型忽略,同時也造成了其關(guān)聯(lián)詞語的提取率偏低,但這些話題往往隱含了豐富的話題知識。LDA主題模型往往難以發(fā)現(xiàn)這類頻率較低且隱藏在句式結(jié)構(gòu)中的次級評價目標(biāo)。
這些低頻詞語一般隱藏在單句結(jié)構(gòu)中,所以在提取這些詞語的時候,不要從篇章級粒度入手,而要從句式結(jié)構(gòu)中進(jìn)行評價目標(biāo)和詞的分析和提取。通過逐點(diǎn)互信息算法,結(jié)合句式共現(xiàn)關(guān)系,計算詞語之間的語義關(guān)聯(lián)性,并利用這種語義關(guān)聯(lián)性來影響主題模型的詞語分配,可以發(fā)現(xiàn)更多的低頻評價目標(biāo)、評價詞以及它們之間的語義關(guān)聯(lián)關(guān)系。
3.2 ?語義線索嵌入LDA
將評論對象和評論詞的關(guān)聯(lián)關(guān)系作為語義線索加入到主題模型,在詞語的概率分配中產(chǎn)生的約束過程為:在主題-詞語層,對詞語進(jìn)行主題分配時,首先在單句中查找相鄰的關(guān)鍵主題詞語,并將它們和已存在的語義關(guān)聯(lián)集合進(jìn)行匹配,如果匹配成功,則說明這是一對符合語義關(guān)系的詞語對,在詞語的概率分配中要引入關(guān)聯(lián)度來影響其分配到相應(yīng)主題的概率值,即語義關(guān)聯(lián)度高的詞語分配到同一主題的概率值要高于關(guān)聯(lián)度低的詞語。
3.3 ?時間層加入LDA
3.3.1 ?文檔-時間約束
(1)時間戳的設(shè)置。時間戳的設(shè)置不采用固定時間長度方式,而是根據(jù)社交媒體文本的熱度來設(shè)置,使時間的分布符合話題熱度的變化特征,更多地提取滿足時間動態(tài)變化的話題詞語。具體設(shè)置時,具體話題的評論數(shù)可以作為熱度程度的主要考量參數(shù),同時要考慮話題之間的時間關(guān)聯(lián)性,有些時候一個話題的出現(xiàn)會影響其他話題的評論數(shù),即一個話題可以引發(fā)其它話題,熱度是可以傳遞的。時間戳的設(shè)置規(guī)則如式(1),其中,ti是具體時間戳,是時間戳ti的評論數(shù),ζ是評論數(shù)閾值,S(ti)值為1時,ti選擇為時間戳。
(2)文檔-時間分配。主題模型增加了時間層后,需要進(jìn)行文檔-時間的層級分配設(shè)計。在文檔對時間的概率分布進(jìn)行計算的過程中,通過文檔的發(fā)布時間來進(jìn)行文檔屬于某時間戳的分配計算,采用發(fā)布時間距離時間戳的時長作為主要分配因子,計算如式(2),其中,ti是文檔dj的發(fā)表時間,介于時間點(diǎn)ti和ti+1之間。
3.3.2 ?時間-主題分配
時間-主題的分配要反映主題屬于某時間戳的概率,實(shí)現(xiàn)主題的動態(tài)變化,同時提取主題對應(yīng)的動態(tài)話題。由于主題提取是潛在的,沒有時間概率,所以時間-主題的分配關(guān)系獲取可以通過文檔-時間和文檔-主題分布來實(shí)現(xiàn),分配設(shè)計如式(3),其中,DTT是文檔-時間分配關(guān)系DT的轉(zhuǎn)置矩陣,DK是文檔-主題分配。
3.3.3 ?引入時間先驗(yàn)因子的主題-詞語分配
同一時間發(fā)布的文檔,應(yīng)盡量分配到同一時間戳對應(yīng)的主題,可以增加時間因子影響因素,提高詞語分配的時間關(guān)聯(lián)性,形成主題詞語的時間動態(tài)變化。時間先驗(yàn)因子的權(quán)重計算如式(4),其中,dt是文檔d的時間點(diǎn),kt是主題k的時間點(diǎn),λ是權(quán)重調(diào)節(jié)參數(shù)。
3.4 ?STC-LDA模型
標(biāo)準(zhǔn)LDA模型只有三層結(jié)構(gòu),STC-LDA模型增加了語義和時間因子層,所以STC-LDA模型具有四層分配結(jié)構(gòu),包括:文檔層、時間層、主題層和詞語層,通過引入語義和時間因子,主題模型可以提取更多的低頻詞語,同時主題詞提取的話題詞語鏈具有時間關(guān)聯(lián)性。STC-LDA模型如圖1所示。
4 ?實(shí)驗(yàn)分析
實(shí)驗(yàn)原始數(shù)據(jù)來源于微博、博客等社交媒體,經(jīng)過分詞、去停用詞等,保留名詞、形容詞、動名詞等詞語作為數(shù)據(jù)源。對3個模型的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析比對,LDA、DTM和STC-LDA模型的熱點(diǎn)話題詞語提取的準(zhǔn)確率如圖2所示,其中縱坐標(biāo)代表準(zhǔn)確率,橫坐標(biāo)代表主題個數(shù)。
從圖2可以看出,STC-LDA具有較高的準(zhǔn)確率,而且與其它2個模型相比具有較大的優(yōu)勢,尤其是主題個數(shù)為60的時候,表明標(biāo)準(zhǔn)LDA主題模型加入時間和語義關(guān)聯(lián)后,詞語分布更加符合文本語義特征,同時契合了話題的時間變化特點(diǎn),使得STC-LDA對于動態(tài)話題詞語識別的準(zhǔn)確率很高。沒有加入時間和語義因素的標(biāo)準(zhǔn)LDA對話題詞識別率最低,DTM模型話題詞提取的準(zhǔn)確率高于LDA,說明時間的加入改善了模型對動態(tài)話題詞的提取率。隨著主題數(shù)量的增加,3個模型話題詞提取的準(zhǔn)確率都有下降的趨勢,但STC-LDA相對于其它2個模型依然保持著明顯的優(yōu)勢。STC-LDA由于語義關(guān)聯(lián)和時間約束的介入,對文檔-主題、主題-詞語的動態(tài)分配產(chǎn)生了影響,無論是在主題數(shù)多還是主題數(shù)少的時候,STC-LDA的動態(tài)分配優(yōu)勢都很明顯,話題發(fā)現(xiàn)的準(zhǔn)確率自然也就提高了。
5 ?結(jié) ?論
在社交媒體日益大數(shù)據(jù)化的今天,文本數(shù)據(jù)的降維和潛在話題發(fā)現(xiàn)顯得尤其重要。本文提出了一種基于LDA主題模型的無監(jiān)督話題發(fā)現(xiàn)模型,不需要進(jìn)行大量數(shù)據(jù)的人工標(biāo)注,同時可以從大規(guī)模數(shù)據(jù)中提取主題關(guān)鍵詞,而且由于時間的引入,可以進(jìn)行動態(tài)話題發(fā)現(xiàn)??紤]到社交媒體的語義復(fù)雜性,引入了語義線索知識作為先驗(yàn)嵌入到LDA,語義線索知識主要考慮詞語之間的低頻語義關(guān)聯(lián)性。語義和時間的介入提升了主題模型的詞語發(fā)現(xiàn)效率,可以從大量的社交媒體文本中發(fā)現(xiàn)更多的熱點(diǎn)話題。
參考文獻(xiàn):
[1] 李鳳嶺,朱保平.基于LDA模型的微博話題發(fā)現(xiàn)技術(shù)研究 [J].計算機(jī)應(yīng)用與軟件,2014,31(10):24-26+66.
[2] 邱明濤,馬靜,張磊,等.基于可擴(kuò)展LDA模型的微博話題特征抽取研究 [J].情報科學(xué),2017,35(4):22-26+31.
[3] 曹麗娜,唐錫晉.基于主題模型的BBS話題演化趨勢分析 [J].管理科學(xué)學(xué)報,2014,17(11):109-121.
[4] 王菲菲,楊揚(yáng),蔣飛,等.面向用戶話題相似性特征的鏈路預(yù)測方法 [J].西安交通大學(xué)學(xué)報,2016,50(8):103-109.
[5] 陳曉美,高鋮,關(guān)心惠.網(wǎng)絡(luò)輿情觀點(diǎn)提取的LDA主題模型方法 [J].圖書情報工作,2015,59(21):21-26.
[6] 郭藍(lán)天,李揚(yáng),慕德俊,等.一種基于LDA主題模型的話題發(fā)現(xiàn)方法 [J].西北工業(yè)大學(xué)學(xué)報,2016,34(4):698-702.
[7] 仇麗青,陳卓艷,丁長青,等.基于改進(jìn)LDA主題模型的社會網(wǎng)絡(luò)話題發(fā)現(xiàn)算法iMLDA [J].情報科學(xué),2016,34(9):115-118+133.
[8] 李湘東,巴志超,黃莉.基于加權(quán)隱含狄利克雷分配模型的新聞話題挖掘方法 [J].計算機(jī)應(yīng)用,2014,34(5):1354-1359.
作者簡介:萬紅新(1970.06-),女,漢族,江西南昌人,教授,碩士,研究方向:數(shù)據(jù)挖掘、軟件工程、自然語言處理。