郭 楠
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201800)
文本挖掘中主客觀因素影響性的眼追蹤研究
郭 楠
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201800)
基于文本主題模型與眼動(dòng)儀技術(shù),從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內(nèi)容提取技術(shù)。傳統(tǒng)文本挖掘多基于文本本身內(nèi)容等客觀因素,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用。文章利用眼部追蹤技術(shù),先將眼動(dòng)數(shù)據(jù)轉(zhuǎn)換為閱讀興趣等主觀結(jié)果形式,并利用LDA(Latent Dirichlet Allocation)模型對(duì)文本進(jìn)行客觀主題提取,繼而對(duì)眼部數(shù)據(jù)與主題建模結(jié)果進(jìn)行比較,提取分析主客觀因素對(duì)文本挖掘的影響。新聞數(shù)據(jù)集的眼部追蹤實(shí)驗(yàn)與主題提取實(shí)驗(yàn)顯示了主客觀因素對(duì)結(jié)果影響的具體差異性與相似性,未來(lái)兩者結(jié)合并調(diào)控比率可作為對(duì)文本挖掘效果提升的基本方向。
文本主題建模;眼部追蹤技術(shù);文本挖掘;主題模型
文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來(lái)文本挖掘領(lǐng)域的一個(gè)熱門(mén)研究方向。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語(yǔ)義,也可以作為其他文本挖掘方法的輸入,完成文本分類、話題檢測(cè)等多方面的文本挖掘任務(wù)。然而近年來(lái),主題建模模型的代表LDA模型的改進(jìn)與擴(kuò)展研究正面臨方法上的瓶頸,層出不窮的模型改進(jìn)算法多使用參數(shù)上調(diào)整、建模層數(shù)優(yōu)化等基本方法[2],這些改進(jìn)對(duì)于主題模型的效率、效果提高程度有限;另一方面,主題挖掘研究集中于研究文本本身內(nèi)容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發(fā)揮重要作用,事實(shí)上,閱讀興趣等主觀因素對(duì)于文本挖掘有非常重要的參考價(jià)值,對(duì)主題模型本身也有極大的意義[3]。
因此針對(duì)文本挖掘、主題建模領(lǐng)域的相關(guān)研究,希望解決的相關(guān)問(wèn)題就是,如何能夠在現(xiàn)有的主題建模模型基礎(chǔ)上,不僅對(duì)于不同內(nèi)容領(lǐng)域的文本本身的客觀因素能夠統(tǒng)一進(jìn)行分析挖掘,并且同時(shí)考慮人主觀閱讀規(guī)律、興趣取向因素的影響性,使得文本中所抽取的信息與知識(shí)更有價(jià)值、更有意義。
眼動(dòng)儀技術(shù)可以獲得視覺(jué)信息提取過(guò)程中的生理和行為表現(xiàn),它與人的心理活動(dòng)有著直接或間接的關(guān)系,能夠?yàn)橹黝}提取與文本挖掘提供人主觀興趣取向信息[4]。本文通過(guò)對(duì)眼動(dòng)儀捕獲的用戶文本閱讀數(shù)據(jù)的分析和對(duì)主題提取模型LDA的研究,比較分析主觀眼動(dòng)數(shù)據(jù)結(jié)果與主題模型的挖掘結(jié)果,從主觀規(guī)律和客觀模式兩方面對(duì)文本挖掘效果進(jìn)行結(jié)果分析,對(duì)于推動(dòng)未來(lái)文本挖掘領(lǐng)域建模與應(yīng)用方法的進(jìn)步,提高文本挖掘模型效果,具有一定的參考意義和應(yīng)用價(jià)值。
1.1 LDA模型
LDA模型以一種“詞袋”假設(shè),把每個(gè)文檔當(dāng)作組成文檔的詞匯分布的向量,這樣,文檔由多個(gè)主題的概率分布所代表,而主題則由單詞的概率分布所刻畫(huà)。
它對(duì)于每個(gè)文檔的主題生成過(guò)程如下:如圖1所示的概率模型,矩形代表重復(fù)的過(guò)程,外部矩形代表一個(gè)文檔,內(nèi)部矩形則代表對(duì)于每個(gè)詞語(yǔ)選擇主題的重復(fù)過(guò)程,重復(fù)次數(shù)為文檔內(nèi)詞語(yǔ)的個(gè)數(shù)。α和β代表語(yǔ)料庫(kù)級(jí)的參數(shù),每進(jìn)行一次語(yǔ)料庫(kù)的生成都要進(jìn)行采樣化。θ則是文檔級(jí)參數(shù),每取一個(gè)文檔則進(jìn)行一次采樣化,z和w則為詞語(yǔ)級(jí)參數(shù),對(duì)每一個(gè)文檔的每一個(gè)詞都進(jìn)行一次采樣化。
圖1 LDA模型圖
1.2 文本主題提取過(guò)程
每一個(gè)文件集合M在T主題上服從多項(xiàng)式分布,系數(shù)為θ。如果每個(gè)主題對(duì)于組成的詞語(yǔ)而言都服從多項(xiàng)式分布,參數(shù)記為φ。θ和φ服從Dirichlet分布,超參分別為α與β,每一個(gè)文檔d中的詞語(yǔ),話題z是以多項(xiàng)分布θ為參數(shù)從文檔中進(jìn)行采樣的,詞語(yǔ)w則是以多項(xiàng)分布φ為參數(shù)從話題z中進(jìn)行采樣。這個(gè)生成過(guò)程重復(fù)次數(shù)為N,是文檔d中詞語(yǔ)的總個(gè)數(shù),形成文件D。
因此,利用該模型,有兩個(gè)參數(shù)需要從數(shù)據(jù)中推斷,即文檔的主題分布θ和主題的詞語(yǔ)分布φ,推斷的方式是采用Gibbs抽樣的方式來(lái)進(jìn)行模型的參數(shù)估計(jì)。θ與φ參數(shù)則可分別代表用戶文章中主題的分布情況,以及能夠刻畫(huà)該主題的詞語(yǔ)的分布情況。
通過(guò)LDA模型的應(yīng)用,輸入的文檔級(jí)數(shù)據(jù)可以轉(zhuǎn)化為主題分布的形式,主題數(shù)目由事先設(shè)定好的參數(shù)N來(lái)確定,最終以用戶感興趣的程度(主題分布中所占比率大小)取前N個(gè)主題輸出,以主題級(jí)數(shù)據(jù)刻畫(huà)文檔。而每個(gè)主題由組成的詞語(yǔ)的分布表示,詞語(yǔ)同樣也對(duì)應(yīng)于分布中所占比率的參數(shù)。因此,可以通過(guò)LDA獲得用戶文檔中所描述的多個(gè)主題內(nèi)容,并且抽取出描述該主題的詞語(yǔ)。
通過(guò)眼動(dòng)儀捕獲的實(shí)驗(yàn)對(duì)象閱讀文本的視覺(jué)追蹤數(shù)據(jù),其結(jié)果形式體現(xiàn)在用戶閱讀文本的軌跡和看每個(gè)詞語(yǔ)的集中時(shí)間長(zhǎng)度,圖像化結(jié)果如圖2所示,其中圓圈直徑代表對(duì)該詞語(yǔ)(位置)眼球集中時(shí)間長(zhǎng)短,時(shí)間越長(zhǎng),直徑越大;直線代表眼球運(yùn)動(dòng)軌跡。
圖2 眼部追蹤數(shù)據(jù)圖像化形式
而眼動(dòng)儀的非直觀性數(shù)據(jù)形式,則以觀察文本時(shí)間內(nèi)每個(gè)捕獲視覺(jué)點(diǎn)的坐標(biāo)和對(duì)應(yīng)時(shí)間點(diǎn)的形式給出。如:(x,y),t: 0908。因此對(duì)這類數(shù)據(jù)進(jìn)行形式轉(zhuǎn)換處理,最終轉(zhuǎn)換結(jié)果應(yīng)為詞語(yǔ)及對(duì)應(yīng)集中時(shí)間。
2.1 詞語(yǔ)區(qū)域統(tǒng)計(jì)
眼動(dòng)儀實(shí)驗(yàn)使用統(tǒng)一的圖片形式,即txt格式文本轉(zhuǎn)化為包括首行縮進(jìn)、行距等文本分布形式均相同的圖片格式。根據(jù)一致的分布形式,統(tǒng)計(jì)每篇文章每個(gè)詞語(yǔ)所占區(qū)域的坐標(biāo)范圍(x0x1y0y1)。如式(1)~(4)所示。
(1)
(2)
(3)
(4)
其中,d0、D0為每行和每列第一個(gè)字符的初始x、y坐標(biāo)值;wi、Wi分別為水平與垂直方向的第i個(gè)詞的詞長(zhǎng)和詞與詞間距長(zhǎng)的和;K0、Q0分別為水平和垂直方向詞與詞間距長(zhǎng)。
2.2 詞語(yǔ)集中時(shí)間計(jì)數(shù)
根據(jù)每個(gè)詞語(yǔ)的坐標(biāo)區(qū)域劃分情況,對(duì)眼動(dòng)數(shù)據(jù)結(jié)果文件中的坐標(biāo)與對(duì)應(yīng)時(shí)間點(diǎn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),落在某個(gè)詞語(yǔ)坐標(biāo)區(qū)域內(nèi)的坐標(biāo)對(duì)應(yīng)的該詞語(yǔ)的集中時(shí)間計(jì)數(shù)加一。全部觀察時(shí)間范圍內(nèi)所有坐標(biāo)與時(shí)間點(diǎn)均可通過(guò)轉(zhuǎn)換關(guān)系,轉(zhuǎn)為詞語(yǔ)和詞語(yǔ)集中時(shí)間的結(jié)果形式,即實(shí)驗(yàn)對(duì)象閱讀文本通過(guò)眼動(dòng)儀所捕獲到的集中度和興趣規(guī)律。
通過(guò)對(duì)每個(gè)詞語(yǔ)集中時(shí)間的計(jì)數(shù),可以得到實(shí)驗(yàn)對(duì)象對(duì)該文本中所有觀察詞語(yǔ)的集中時(shí)間排序結(jié)果。
數(shù)據(jù)集采用BBCnews的20篇文章,實(shí)驗(yàn)對(duì)象為20名,每名實(shí)驗(yàn)對(duì)象分別閱讀20篇新聞文章,并通過(guò)SMI眼動(dòng)儀進(jìn)行眼部數(shù)據(jù)跟蹤并捕獲。文本主題建模算法應(yīng)用于同樣數(shù)據(jù)集中。如圖3所示為眼動(dòng)數(shù)據(jù)實(shí)驗(yàn)詞語(yǔ)的計(jì)數(shù)分布結(jié)果(橫軸代表各個(gè)詞語(yǔ),具體內(nèi)容略);圖4所示為對(duì)于每個(gè)詞語(yǔ),所有實(shí)驗(yàn)對(duì)象的均值與方差變化圖,可見(jiàn)方差基本穩(wěn)定在0.1左右。
圖3 單人單文本詞語(yǔ)計(jì)數(shù)分布
圖4 某篇文章每個(gè)詞語(yǔ)20個(gè)人的均值與方差(歸一化后)
對(duì)LDA模型主題提取結(jié)果排序后與眼動(dòng)數(shù)據(jù)結(jié)果排序后進(jìn)行比較分析,每篇文章中同一詞語(yǔ)的計(jì)數(shù)值比較如圖5。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性。均值的重合度以排序前30個(gè)詞語(yǔ)為例,基本維持在0.6左右。分析比較結(jié)果,此例中,LDA模型對(duì)文本內(nèi)容的客觀性提取有0.6的比率與人主觀興趣取向一致,而0.4比率是基于詞語(yǔ)頻率等內(nèi)容因素的偏向客觀性的主題內(nèi)容。
根據(jù)實(shí)驗(yàn)數(shù)據(jù)結(jié)果可以看出,文本主題模型對(duì)于文本的提取結(jié)果與人的興趣行為取向存在一致性和差異性,而
圖5 單人同詞LDA與眼動(dòng)分布數(shù)據(jù)對(duì)比
圖6 20人眼動(dòng)數(shù)據(jù)均值與LDA詞語(yǔ)結(jié)果重合度(取排序前幾十)
通過(guò)調(diào)控主題提取結(jié)果所取的詞語(yǔ)比率,結(jié)合眼動(dòng)數(shù)據(jù)結(jié)果中興趣部分的詞語(yǔ)比率,二者結(jié)合可同時(shí)反映主題內(nèi)容和閱讀興趣這兩種文本挖掘因素,對(duì)于實(shí)際文本分類、文檔摘要等文本挖掘應(yīng)用效果會(huì)有很大提升。
本文通過(guò)LDA模型進(jìn)行文檔的客觀性主題抽象,利用眼動(dòng)儀提取主觀興趣取向因素結(jié)果。在News數(shù)據(jù)集上的比較分析實(shí)驗(yàn)顯示了主觀因素和客觀結(jié)果對(duì)文本挖掘的具體不同影響,可以為未來(lái)主客觀因素相結(jié)合的文本挖掘算法提供一定參考與應(yīng)用價(jià)值。
[1] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.
[2] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.
[3] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.
[4] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. Springer-Verlag:2003.
An eye-tracking study on the influence of subjective and objective factors in text mining
Guo Nan
(School of Electronics and Information Engineering, Tongji University, Shanghai 201800, China)
Based on the text topic model and eye-tracking technology, this paper studies text mining from the objective topic extraction and the subjective tendency of reading interest. Traditional text mining is based on the objective factors such as the content of text itself, but the important factors of subjective orientation rarely play an important role in text mining. In this paper, eye tracking technology is used to convert eye movements into subjective data such as reading interest. LDA (Latent Dirichlet Allocation) model is used to extract information from the subjective text, and then the eye data and modeling results are evaluated by extraction, comparison and analysis of the subjective and objective factors on the impact of text mining. The eye-tracking experiment and topic modeling experiment of the BBC news dataset show the specific differences and similarities of the subjective and objective factors, and the future combination and regulation can be done as the basic direction of enhancing the effect of text mining.
text topic modeling; eye tracking technology; text mining; topic model
TP391
A
10.19358/j.issn.1674- 7720.2017.03.023
郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機(jī)與應(yīng)用,2017,36(3):79-81.
2016-10-02)
郭楠(1992-),女,碩士,主要研究方向:文本挖掘、數(shù)據(jù)挖掘。