花樹雯,張云華
(浙江理工大學 信息學院,杭州 245000)
2016年,Li等人根據(jù)評論語料中的時間、發(fā)布人等信息,為短文本分配不同的權(quán)重,將分配權(quán)重后的短文本合并為偽長文本,將LDA模型中的單詞w替換成權(quán)重微博鏈組成的三元組形式
綜合目前的研究,現(xiàn)有的短文本主題分類有以下兩點不足:
(1)傳統(tǒng)通過利用外部語料擴充詞義或者合并短文本的方法提高語料的語義信息,但是主題模型對訓練語料中的詞義信息提取不充分.
(2)主題模型中詞嵌入空間的詞向量的能力有限,詞嵌入模型運行在吉布斯采樣的內(nèi)層時,模型的運行效率十分緩慢.
上述存在的問題,則是本文開展研究的出發(fā)點.
LDA主題模型是Blei等人在03年提出的,模型為文檔集中的每個文檔以概率分布的形式分配多個主題,每個單詞都由一個主題生成[4],LDA的模型如圖1所示.
圖1 LDA 模型結(jié)構(gòu)圖
圖1中,α和β表示先驗參數(shù),θ表示從先驗參數(shù)α中提取的主題分布,z表示從θ主題分布中提取的主題,Φ表示從先驗參數(shù)β中提取的主題z對應的詞語分布,w為最后生成的詞[5].
LDA模型中,詞w采樣是根據(jù)主題z和模型的先驗參數(shù)β,主題z是從先驗參數(shù)α中提取,所以他們的聯(lián)合概率分布如式(1)所示.
在模型中先驗參數(shù)β服從關(guān)于參數(shù)Φ獨立的多項分布,使用參數(shù)Φ將式(1)更新如下:
因為詞服從于主題即參數(shù)為w的多項分布,所以將上式展開化解如下:
詞嵌入模型認為可以將語料中的每個單詞分配給高維向量空間的實際向量,通常這個向量空間可以包含50到600個維度.提出了Word2Vec模型,在訓練過程中,滑動窗口將覆蓋文本和神經(jīng)網(wǎng)絡中的每一個單詞的權(quán)重以學習預測周圍的單詞,通過PCA降維,投射出詞嵌入模型和LDA模型的兩個維度的單詞嵌入空間,通過可視化方法使得詞的距離更容易理解.兩點之間的距離越短,表示詞義越相近,PCA的降維結(jié)果如圖2所示.
圖2 詞向量 PCA 圖
選取LDA模型中前10個單詞,在圖2中用實心點表示,空心點表示詞向量模型訓練出的詞向量,由圖可以得出,實心點在距離上更近,而空心點之間的距離比實心點較遠,說明詞向量訓練出的詞在詞義上更近.Batmanghelich等人在NSTM模型中提出詞義的相似性可以通過詞向量(x1,x2,x3,…,xn)的余弦距離cos來衡量,余弦的計算如式(4)所示.
Batmanghelich等人的實驗證明這種衡量方式,比通過嵌入模型中的歐幾里得距離衡量要準確[6].
詞語的關(guān)系有相似性和相關(guān)性,語義的相似性關(guān)系例如詞語‘醫(yī)生’和‘大夫’,相關(guān)性例如詞語‘醫(yī)生’和‘護士’.基于詞嵌入的模型關(guān)注于語義的相似性,而基于文檔的主題模型則擅長捕捉語義的相關(guān)性.考慮到實驗的數(shù)據(jù)量并不十分巨大,因此使用的Skip-Gram模型進行模型的構(gòu)建.
(1)語料庫通過Skip-Gram模型進行詞向量訓練,Skip-Gram模型能很好的表示相似的詞匯,使用余弦距離的值計算表示詞義的相似性.
表1表示實驗中在Skip-Gram模型下輸入語料庫后抓取的‘復查’詞義相近的詞匯.
(2)模型中,替換單詞w的具體做法是,從Skip-Gram模型空間中抽取一個與w`相近的詞向量w*,w*是詞嵌入空間中產(chǎn)生的余弦距離上最近的單詞,最后,替換單詞w`.例如,對上文中的‘復查’來說,替換詞新詞是‘復診’.
(3)借鑒LFTM模型的方法,替換詞向量模型時引入了伯努利參數(shù)s~ber(λ),詞的采樣可以以一定概率從從詞嵌入空間v或者從主題分布的詞語分布Φ中進行采樣[7].
表1 ‘復查’的相近詞向量余弦距離示例
在WLDA模型中,首先將預處理文本輸入到替換詞向量模型層v,得到訓練好的詞嵌入空間.其次,在模型中加入替換詞向量模型層,最后,將詞w`輸入替換詞向量模型層,模型的結(jié)構(gòu)圖如圖3所示.
圖3 WLDA 模型結(jié)構(gòu)圖
WLDA模型生成過程如下:
(1)選擇文檔集合中的主題k=1,…,k;
(2)選擇單詞分布Φk~Dir(β);
(3)對每篇文檔d=1,…,M:
1)生成文檔主題分布θd~Dir(α);
2)對文檔中的每個詞i=1,…,Nd;
① 生成詞的主題zdi~Mult(θd);
其次,這支40mm F1.4 DG HSM |Art鏡頭是適馬第一支為了達到電影鏡頭所追求的視角和性能標準而開發(fā)的Art系列鏡頭。這支鏡頭使用三枚FLD螢級低色散鏡片和三枚SLD特殊低色散鏡片,最大限度地校正了軸向色差和倍率色差。大光圈下即可在焦平面上呈現(xiàn)清晰的成像效果,與柔和的焦外虛化部分相比,可以更好地突出主體?;儽豢刂圃?%或以下,彗形像差也得到了良好的校正。
② 選擇w~Mult(Φzdi),Ψd,i~Ber (λ),如果Ψd,i=1,替換新單詞w*.
替換詞w為在上述替換詞向量模型中抓取相似的單詞w*,用表示wi被分配給話題j的次數(shù),根據(jù)步驟 a 中得到的公式,以及貝葉斯法則和 Diri 先驗,將公式推導如下.
更新吉布斯采樣器如式(7)所示.
其中,基于伯努利分布,從替換詞向量模型層v中采樣詞w*,交換當前單詞w`的新主題的分布,由于詞向量訓練并不運行在吉布斯采樣的內(nèi)層,而是在詞向量模型訓練好之后,主題模型在詞采樣階段從詞嵌入空間中以一定概率提取詞義相近的詞進行替換.
由此在理論上來說,詞的替換使該模型的主題的困惑度下降,而在外部訓練好詞嵌入空間,使WLDA模型的運行效率更高.
實驗硬件環(huán)境為酷睿i7處理器,運行內(nèi)存為16 GB,操作系統(tǒng)為 Win10,實驗的軟件是 Eclipse,采用的語言是Python.
實驗數(shù)據(jù)處理分為以下兩步:
(a)在掛號網(wǎng)上爬取出評論數(shù)據(jù),去除標點符號.
(b)使用結(jié)巴分詞,進行停用詞處理和將語料庫進行分詞.
分詞得到的txt局部文本如圖4所示.
實驗分為2個部分.
(a)配置λ參數(shù),找出合適的重采樣概率λ.
(b)基于WLDA的進行情感詞抽取并和其他模型進行實驗對比.
實驗中我們采用Perplexity(困惑度)值作為評判標準,式(8)為Perplexity的計算公式[7].
其中,M代表測試預料集的文本數(shù)量,Nd代表第d篇文本的大小(即單詞的個數(shù)),p(wd)代表的是文本的概率[8].如果重采樣的參數(shù)等于1,則實驗中使用的為標準的LDA,當重采樣次數(shù)等于0時,文檔中所有的詞全部是從詞嵌入的空間中抽取.Perplexity對比的數(shù)據(jù)如圖5所示.
圖4 分詞得到的 txt文本局部圖
圖5 Perplexity 值對比
圖5中的λ為重采樣次數(shù),橫坐標為模型的迭代次數(shù),縱坐標為困惑度,實驗得出當收斂次數(shù)需要小于1000次,重新采樣次數(shù)為0.5時,模型的困惑度較小.
DMM模型通過假設每個短文本只包含一個主題[8],15年,das等人首次提出了高斯LDA模型,使用詞向量代替離散的值[9],這兩個模型都在一定程度上,解決了短文本的上下文依賴性差的問題.實驗選擇DMM模型,高斯LDA模型和重采樣概率為0.5的WLDA模型進行對比.
針對測試的評論數(shù)據(jù),使用PMI來量化這三個主題模型中的主題質(zhì)量.PMI(主題一致性標準)常常被用來量化主題模型中的主題的質(zhì)量,PMI的定義如式(9)所示[9].
圖6 模型的 PMI對比
實驗結(jié)果表明,WLDA模型的表現(xiàn)要優(yōu)于高斯LDA模型模型,困惑度最小,這一點得益于WLDA在吉布斯采樣階段,選擇詞嵌入空間的詞向量w*,對單詞w`選擇性替換,而替換的詞向量提高了模型訓練中詞向量的相似性,補充了上下文的語義,當模型中的主題數(shù)為120時,模型的PMI值變低,是由于替換的詞向量的質(zhì)量不高,對短文本的主題學習造成了影響.
運行時間如表2所示.
表2 運行時間表(單位:min)
DMM模型的運行時間最短,但是由于DMM模型假設每個短文本只包含一個主題,這個假設十分不嚴謹,因此,DMM的PMI值遠遠小于WLDA模型.
本文提出了一種基于主題模型的短文本評論情感分析模型,通過在某醫(yī)院的評論數(shù)據(jù)上實驗,證明了該模型對主題詞的分類更加的突出,并且有較高的主題一致性.
在下一步工作中,將進一步研究降低模型的時間復雜度,提高模型的運行效率.