莊建昌,武 嬌,顧興全,洪彩鳳
(1.中國計(jì)量大學(xué) 理學(xué)院,浙江 杭州 310018;2.中國計(jì)量大學(xué) 標(biāo)準(zhǔn)化學(xué)院,浙江 杭州 310018)
一個(gè)充分發(fā)展的領(lǐng)域必然充斥著大量的文本數(shù)據(jù),對于關(guān)注領(lǐng)域現(xiàn)狀和未來發(fā)展的人們,需要對領(lǐng)域內(nèi)海量文本數(shù)據(jù)進(jìn)行分析。然而,領(lǐng)域內(nèi)的信息往往具有冗余性,并且具有各個(gè)子領(lǐng)域分布不平衡的特點(diǎn)。因此,復(fù)雜領(lǐng)域內(nèi)的關(guān)鍵詞提取并不容易[1]。
領(lǐng)域關(guān)鍵詞的研究大致可分為領(lǐng)域關(guān)鍵詞提取技術(shù)以及領(lǐng)域關(guān)鍵詞的應(yīng)用。領(lǐng)域關(guān)鍵詞的應(yīng)用研究廣泛,存在于領(lǐng)域主題提取[2-3]、醫(yī)學(xué)腫瘤領(lǐng)域[4-5]、納米技術(shù)領(lǐng)域[6]、情報(bào)學(xué)領(lǐng)域[7]以及交叉學(xué)科領(lǐng)域[8-9]。這反映出研究領(lǐng)域關(guān)鍵詞提取技術(shù)的重要意義。高繼平等人[10]提出使用多詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞,并用關(guān)鍵詞的共現(xiàn)技術(shù)刻畫領(lǐng)域的研究熱點(diǎn)。潘瑋等人[11]提出一種數(shù)據(jù)清洗方法,結(jié)合詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞。詞共現(xiàn)技術(shù)提取領(lǐng)域關(guān)鍵詞能夠反映出關(guān)鍵詞的耦合性,但是其多以詞頻為特征,在多文本中提取關(guān)鍵詞的效果并不好。Luo[12]等人提出了一種基于詞頻逆文檔頻率的多文本域關(guān)鍵字提取方法TDDF,該方法比以詞頻逆文檔頻率作為特征項(xiàng)的關(guān)鍵詞提取方法更有效。
然而,上述方法還存在以下問題:1)提取的關(guān)鍵詞不含有語義信息,這不利于進(jìn)一步分析領(lǐng)域特征。為此,文獻(xiàn)[13]和文獻(xiàn)[14]提出了基于word2vec模型[15]的領(lǐng)域關(guān)鍵詞提取方法。由于word2vec模型能夠表征語義信息,因此這些方法提取的領(lǐng)域關(guān)鍵詞的可解釋性得到了提高。2)沒有考慮領(lǐng)域語料分布的不平衡造成的影響。語料分布不平衡可能導(dǎo)致關(guān)鍵詞分布不平衡,進(jìn)而影響關(guān)鍵詞對領(lǐng)域的代表性。3)這些方法大多用于對標(biāo)注有“關(guān)鍵詞”的學(xué)術(shù)類文本語料的領(lǐng)域關(guān)鍵詞提取,而通常文本是不標(biāo)注“關(guān)鍵詞”的,這影響了方法的推廣應(yīng)用。由此,文獻(xiàn)[16]提出了一種基于Wikipedia的提取領(lǐng)域關(guān)鍵詞的方法進(jìn)行文本過濾,雖然該方法不依賴于帶有“關(guān)鍵詞”標(biāo)簽的文本,但仍依賴于外部的文本資源。綜上所述,研究能夠在未標(biāo)注“關(guān)鍵詞”的文本中提取具有語義信息的領(lǐng)域關(guān)鍵詞,并能克服語料分布不平衡帶來的負(fù)面影響的領(lǐng)域關(guān)鍵詞提取方法具有重要的應(yīng)用價(jià)值。
為了解決上述問題,本文提出一種基于局部熱詞模型(Local buzzword model, LBM)的領(lǐng)域特征挖掘方法。該方法由多種機(jī)器學(xué)習(xí)技術(shù)集成。首先,本文提出二次關(guān)鍵詞提取策略(Two-step keyword extraction strategy, TKES)提取領(lǐng)域關(guān)鍵詞。其次,結(jié)合word2vec模型獲得領(lǐng)域的熱詞;最后,基于熱詞的語義進(jìn)行聚類得到LBM。利用LBM,能夠挖掘領(lǐng)域特征并且實(shí)現(xiàn)領(lǐng)域特征可視化。在實(shí)驗(yàn)部分,本文將該方法應(yīng)用于旅游評論語料的特征挖掘和可視化,以驗(yàn)證方法的有效性。
LBM構(gòu)建流程如圖1。從圖1可得,LBM的構(gòu)建比較復(fù)雜,我們將之分為4個(gè)步驟進(jìn)行說明:1)獲取領(lǐng)域語料庫;2)訓(xùn)練word2vec模型;3)基于TKES和word2vec模型提取領(lǐng)域的熱詞;4)熱詞聚類獲得LBM。
圖1 LBM構(gòu)建流程Figure 1 Constructing process of LBM
1.1.1 獲取領(lǐng)域語料庫
領(lǐng)域語料庫是指在某一領(lǐng)域內(nèi),包含著眾多子領(lǐng)域的語料庫,而各個(gè)子領(lǐng)域包含著數(shù)量不均的語料。針對不同的研究對象,人們需要從不同的途徑去獲取相應(yīng)的領(lǐng)域語料。領(lǐng)域語料的結(jié)構(gòu)如圖2所示。其中Θ={A,B,C}表示某個(gè)研究領(lǐng)域,A、B、C分別代表Θ的三個(gè)子領(lǐng)域,Ai、Bi、Ci(i=1,2,…)為各子領(lǐng)域的語料。設(shè)|A|為領(lǐng)域A的語料個(gè)數(shù),則圖2中,|A|>|B|且|C|>|B|,這表明領(lǐng)域語料分布是不均衡的。
圖2 領(lǐng)域語料結(jié)構(gòu)Figure 2 Corpus structure of the research field
1.1.2 訓(xùn)練word2vec模型
Word2vec模型,是一種基于Bayes假設(shè),通過w相鄰詞的集合C(w)的信息預(yù)測w的信息,或者通過w的信息預(yù)測w相鄰詞的集合C(w)的信息的模型。其通過某種訓(xùn)練將語料中的每一個(gè)詞映射成一個(gè)固定長度的向量,所有的詞向量組成一個(gè)向量空間,這樣就可以把詞向量對應(yīng)成空間中的一個(gè)點(diǎn)。
一般的,根據(jù)不同的目的,word2vec優(yōu)化目標(biāo)為(1)或(2):
(1)
(2)
其中,C(w)={vi(w)∈Rm|i=-c,-c-1,…,-1,1,2,…,c},vi(w)是離w距離為i的詞的初始向量,且i為正數(shù)是w右側(cè)第i個(gè)詞;反之,i為負(fù)數(shù)是w左側(cè)第i個(gè)詞,D是語料字典,由領(lǐng)域語料Θ通過預(yù)處理得到,m是用于訓(xùn)練的詞向量vi的維度。
求解(1)、(2)的兩種常用的網(wǎng)絡(luò)結(jié)構(gòu)分別為CBOW模型和Skip-gram模型,更具體的求解可參考文獻(xiàn)[15]。本文中使用gensim[17]包所提供的方法訓(xùn)練word2vec模型。
1.1.3 提取領(lǐng)域熱詞
關(guān)鍵詞提取方法有許多種,大多是對特征進(jìn)行基于規(guī)則的排序,本文將詞頻-逆文檔詞頻[18](Term frequency inverse document frequency,TFIDF)作為權(quán)值,通過對權(quán)值的排序提取關(guān)鍵詞。其數(shù)學(xué)表示如公式(3):
δ(wij)=δTFIDF(wij)=TF(wij)×IDF(wij),
(3)
其中wij表示第i個(gè)文檔的第j個(gè)詞,δ(wij)是wij的權(quán)重函數(shù),δTFIDF(wij)表示使用TFIDF計(jì)算wij的權(quán)重,TF(wij)表示wij的詞頻,n(wij)表示wij的頻數(shù),IDF(wij)表示wij的逆文檔數(shù);di表示第i篇文檔,M表示Θ中的文檔個(gè)數(shù)。
需要注意的是,無論選擇哪一種關(guān)鍵詞提取方法,都不能直接作用在語料上。上文已經(jīng)提到,領(lǐng)域語料分布是不平衡的,如果對領(lǐng)域語料直接提取關(guān)鍵詞,會導(dǎo)致在較大的子領(lǐng)中獲取的關(guān)鍵詞的權(quán)值較大,而較小的子領(lǐng)域中獲取的關(guān)鍵詞的權(quán)值較小,而最終導(dǎo)致較大的子領(lǐng)域中提取的關(guān)鍵詞占比大,如圖3。
圖3 直接提取關(guān)鍵詞Figure 3 Direct extraction of keywords
這種大的子領(lǐng)域關(guān)鍵詞“吃掉”小的子領(lǐng)域的關(guān)鍵詞的問題如何解決呢?本文提出二次關(guān)鍵詞提取策略(Two-step keyword extraction strategy,TKES)來解決此問題,其提取步驟如圖4所示。圖4中A,B,C,表示原始領(lǐng)域Θ的三個(gè)子領(lǐng)域,其各個(gè)子領(lǐng)域元素大小的排名是|A|>|B|>|C|,如圖4(a)。
TKES經(jīng)過以下三個(gè)步驟實(shí)現(xiàn)對領(lǐng)域關(guān)鍵詞的提取。
1)如圖4(b)所示,使用(3)式計(jì)算子領(lǐng)域H(H∈Θ)中的詞的權(quán)重并進(jìn)行排序,
δ(wH1)≥δ(wH2)≥…≥δ(wH|H|)。
(4)
得到按(4)式,排序的詞集KH,
KH={wHj|j=1,2,…,|H|}。
(5)
其中wHj表示子領(lǐng)域H中的第j個(gè)詞。
圖4 二次關(guān)鍵詞提取策略Figure 4 Two-step keyword extraction strategy
(6)
其中wHj表示子領(lǐng)域H的第j個(gè)關(guān)鍵詞,N滿足N≤minH∈Θ|H|。
(7)
(8)
G={aj={n(wj),v(wj)}|j=1,2,…,T}。
(9)
其中n(wj)表示熱詞aj的頻數(shù),v(wj)是aj對應(yīng)的詞向量。
一般情況下,在模型G中熱詞數(shù)量T較大,人們難以直接對領(lǐng)域的特征進(jìn)行分析。因此,下面對熱詞向量進(jìn)行聚類,進(jìn)一步構(gòu)造能夠刻畫領(lǐng)域局部特征的局部熱詞模型。
1.1.4 熱詞聚類獲得LBM
通過上面的方法對熱詞向量進(jìn)行聚類,就得到LBM,其數(shù)學(xué)模型如下:
GL={aij={n(wij),v(wij)}|i=1,2,…,l;
j=1,2,…,|Li|}。
(10)
其中,aij是第i個(gè)簇的第j個(gè)熱詞,n(wij)表示aij的頻數(shù),v(aij)是aij對應(yīng)的詞向量。
通過上述方法構(gòu)建的LBM,模型中的每一個(gè)簇的熱詞在體現(xiàn)領(lǐng)域的整體特征的同時(shí),具有表征領(lǐng)域局部特征的能力。
在獲得局部熱詞模型之后,我們可以將其應(yīng)用于領(lǐng)域特征的進(jìn)一步分析與挖掘。本文主要考慮以下兩種應(yīng)用:
1.2.1 基于熱詞頻率劃分的領(lǐng)域特征挖掘
通過GL中aij的頻數(shù)n(wij),可以計(jì)算aij在每個(gè)簇Li中的熱詞頻率pi(wij)。
(11)
pi(wij)越大,表示aij出現(xiàn)在簇Li的頻數(shù)越大。于是可以規(guī)定滿足t1≤pi(wij)≤1的詞aij為Li的高頻詞,滿足t2≤pi(wij) 高頻詞與中頻詞更能夠反映Li的整體特征,而低頻詞可能反映了Li較新的或部分的特征[19]。因此通過對熱詞頻率的劃分,可以更加清楚地了解每個(gè)簇中熱詞的分布,進(jìn)而推斷熱詞在領(lǐng)域中的作用。 1.2.2 領(lǐng)域特征可視化 使用主成分分析(Principal component analysis,PCA)[20]對GL中的詞向量進(jìn)行降維,以實(shí)現(xiàn)領(lǐng)域特征可視化。 對GL所有元素的詞向量vij(i=1,2,…,l;j=1,2,…,|Li|)計(jì)算均值和協(xié)方差矩陣。 (12) (13) (14) 其中,zij∈Rn是降維后的向量。 取n=2,由公式(14),可以將原m維的詞向量降至2維,繪制熱詞在二維空間中的分布圖,實(shí)現(xiàn)領(lǐng)域特征可視化,從而更加清楚地表現(xiàn)領(lǐng)域內(nèi)各個(gè)特征之間的聯(lián)系。 本文使用了旅游評論數(shù)據(jù)作為領(lǐng)域語料進(jìn)行LBM的實(shí)驗(yàn)。旅游語料是基于爬蟲技術(shù)從“貓途鷹”旅游網(wǎng)站爬取,語料數(shù)據(jù)統(tǒng)計(jì)量見表1。從表1中可以發(fā)現(xiàn),最大評論數(shù)的景區(qū)與最小評論數(shù)的景區(qū)評論數(shù)量差距很大,而語料的標(biāo)準(zhǔn)差達(dá)到了859.74,這說明語料中各景區(qū)評論數(shù)量的分布非常不均衡。 表1 景區(qū)數(shù)據(jù)統(tǒng)計(jì) 實(shí)驗(yàn)運(yùn)行在CPU型號為Intel(R)Core(TM)i7-7500U,內(nèi)存為8 GB,操作系統(tǒng)為Windows 10企業(yè)版的筆記本電腦上。 實(shí)驗(yàn)涉及的所有程序代碼均采用Python 3.6.5進(jìn)行實(shí)現(xiàn),并在Spyder 3下進(jìn)行編譯與運(yùn)行。程序中主要使用的軟件包以及相應(yīng)的版本如下:機(jī)器學(xué)習(xí)包scikit-learn[21](0.19.1),數(shù)值運(yùn)算包numpy(1.14.3),數(shù)據(jù)處理包pandas(0.23.0),斯坦福自然語言處理工具包stanfordcorenlp(3.9.1.1)。 本文根據(jù)圖1所示的流程構(gòu)建旅游語料的局部熱詞模型,其中所用的停用詞(該停用詞表已經(jīng)上傳到了網(wǎng)上,網(wǎng)址:https://pan.baidu.com/s/1l61_rAh1XLxB4WfnKdyK2g。)是由多個(gè)停用詞詞集結(jié)合而得。 得到熱詞之后,為了解領(lǐng)域的局部特征,接下來對熱詞進(jìn)行聚類,構(gòu)造局部熱詞模型。 本文使用幾種基于不同距離測度的聚類算法進(jìn)行實(shí)驗(yàn),包括Kmeans算法[22](歐式距離)、超球Kmeans算法[23](余弦距離)、Agglomerative算法[24](各種鏈接模式和距離測度),通過比較聚類Calinski-Harabaz Index(CHI)[25]得分,最終確定使用K-means算法對名詞詞向量進(jìn)行簇為3的聚類,對動詞詞向量進(jìn)行簇為2的聚類。聚類結(jié)果見表5和表6。 2.4.1 熱詞詞頻分布 本文取t1=70%,t2=30%,對于每個(gè)簇i,i=1,2,…,l,滿足pi(wij)≥70%的熱詞aij為該簇的高頻詞,滿足70%>pi(wij)≥30%的熱詞aij為該簇的中頻詞,滿足pi(wij)<30%的熱詞aij為該簇的低頻詞。由于本文的目標(biāo)是挖掘領(lǐng)域特征,因此本文主要考慮中頻詞和高頻詞,同時(shí)為了保證熱詞在整個(gè)領(lǐng)域中具有代表性,本文還要求aij滿足n(wij)≥0.3×max{n(wij)|aij∈GL}。所提取的旅游熱詞的詞頻分布見表4。 表2 旅游領(lǐng)域名詞 注:由于數(shù)據(jù)過多,表格只展示部分結(jié)果。 表3 旅游領(lǐng)域動詞 注:由于數(shù)據(jù)過多,表格只展示部分結(jié)果。 表4 熱詞分布 2.4.2 熱詞聚類結(jié)果分析 對于熱詞的聚類結(jié)果,我們選擇部分高頻詞和中頻詞進(jìn)行分析,見表5和表6。 2.4.3 領(lǐng)域特征可視化 本文構(gòu)建LBM模型后,對GL中高頻詞和中頻詞的詞向量vij使用PCA降維到2維,并在二維空間中繪制vij的分布圖,見圖5。 表5 旅游領(lǐng)域名詞-熱詞聚類分析 續(xù)表5 注:表5和表6中,括號內(nèi)的數(shù)表示該詞出現(xiàn)在子領(lǐng)域中的次數(shù),其中加粗的詞表示該簇的高頻熱詞。 圖中不同顏色的圓點(diǎn)表示不同的簇,小圓點(diǎn)表示中頻詞,大圓點(diǎn)表示高頻詞。通過圖5可以得到: 1)圖5(a)中名詞的三個(gè)簇被明顯的區(qū)分開。從整體上看,第一簇位于圖的左上角(黑色圓點(diǎn)),主要是描述游覽要素的名詞;第二簇位于圖右側(cè)(紅色圓點(diǎn)),主要是描述景區(qū)景色的名詞;第三簇位于左下角(藍(lán)色圓點(diǎn)),主要是描述自然和人文景觀的名詞。說明游客的關(guān)注點(diǎn)主要集中在這三個(gè)方面。由此,旅游管理者不僅可以通過游客評論對旅游景區(qū)總體服務(wù)水平進(jìn)行評價(jià),而且可對旅游景區(qū)的游覽要素,景區(qū)景色,旅游景觀屬性三個(gè)方面的服務(wù)水平進(jìn)行評價(jià)。這將為提高管理者監(jiān)測和改進(jìn)旅游景區(qū)服務(wù)水平的針對性提供了一種有效途徑。 圖5 旅游熱詞聚類分布Figure 5 Cluster distribution of buzzwords 2)圖5(b)中第一簇?zé)嵩~(紅色圓點(diǎn))描述的主要是游客行為,而第二簇?zé)嵩~(藍(lán)色圓點(diǎn))描述的主要是游客體驗(yàn)。景區(qū)服務(wù)人員借助于此可有重點(diǎn)地改善景區(qū)服務(wù)過程質(zhì)量,提高游客對景區(qū)的滿意度。 3)如果圖中的兩個(gè)圓點(diǎn)距離相近,那么它們對應(yīng)的語義相近。例如,圖5(a)的“景色”和“風(fēng)景”,圖5(b)中的“優(yōu)美”和“美”。這說明LBM繼承了詞向量模型能夠刻畫詞的語義信息的能力。 4)通過周邊詞的分布縮小關(guān)注范圍。通過圖5(a),可以看到“門票”一詞周邊緊密分布著“景點(diǎn)”“景區(qū)”,再遠(yuǎn)一點(diǎn)是“游客”“導(dǎo)游”“路”“小時(shí)”“時(shí)間”這說明“門票”與這些因素有較強(qiáng)的關(guān)聯(lián)性。通過圖5(b),發(fā)現(xiàn)“喜歡”周圍分布著“舒服”“漂亮”“壯觀”“美”“優(yōu)美”。這反映出景區(qū)可以通過建設(shè)更加舒適的基礎(chǔ)設(shè)施和更加優(yōu)美的景區(qū)環(huán)境來提高游客對景區(qū)的喜歡程度。 本文提出二次關(guān)鍵詞提取策略(TKES)來提取熱詞。TKES可降低由領(lǐng)域語料分布不平衡帶來的負(fù)面影響,只要保證最小子領(lǐng)域語料的數(shù)量足夠大,就能使提取出來的熱詞對整個(gè)領(lǐng)域具有代表性。 局部熱詞模型LBM是依據(jù)TKES結(jié)合word2vec模型和文本聚類技術(shù)得到。將其應(yīng)用于:1)基于熱詞頻率劃分的領(lǐng)域挖掘特征,2)領(lǐng)域特征可視化。通過對旅游評論語料挖掘的應(yīng)用,驗(yàn)證了LBM在1),2)兩種場景下的有效性,以及使用TKES所提取的熱詞在體現(xiàn)領(lǐng)域共性特征的同時(shí),具有表征領(lǐng)域局部特征的能力。 提出的LBM也可作為其它文本挖掘工作的基礎(chǔ),比如自動文本摘要、文本分類。LBM與其它文本挖掘技術(shù)相結(jié)合,處理更加復(fù)雜的文本挖掘任務(wù),是進(jìn)一步的研究工作。2 基于LBM的旅游評論挖掘
2.1 語料概況
2.2 實(shí)驗(yàn)環(huán)境及工具
2.3 熱詞提取和聚類
2.4 領(lǐng)域特征挖掘
3 結(jié) 論