国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于交叉熵與困惑度的LDA-SVM主題研究

2019-09-12 10:41:42薛佳奇楊凡
關(guān)鍵詞:降維分類器交叉

薛佳奇 楊凡

摘 要:目前對于中文影視劇本的分類主要借助人工經(jīng)驗(yàn),具有成本高、效率低等特點(diǎn)。當(dāng)前沒有針對中文影視劇本主題自動(dòng)分類的相關(guān)研究,本文將對主題提取進(jìn)行研究,傳統(tǒng)主題生成模型借助于文檔和段落、段落和語句、語句和詞的相似性,而忽略了文本語句與語句之間的相似性。首先,采用ISOMAP方法降低樣本集的向量空間維度;其次,提出交叉熵結(jié)合困惑度的算法模型,進(jìn)而確定LDA需要提取的最優(yōu)主題數(shù)目;最后,通過劇本-主題的方式,利用LDA算法挖掘劇本的隱含主題詞,同時(shí)利用SVM對主題詞做出進(jìn)一步的分類。

關(guān)鍵詞:中文影視劇本;ISOMAP降維;LDA;交叉熵;困惑度;SVM文章編號(hào):2095-2163(2019)04-0045-06 中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A

0 引 言

互聯(lián)網(wǎng)上文本類型數(shù)據(jù)數(shù)量呈現(xiàn)指數(shù)式的激增,則使得當(dāng)今社會(huì)各個(gè)方面對互聯(lián)網(wǎng)數(shù)據(jù)挖掘方法的需求也越來越大[1-2]。與此同時(shí),人們正更加傾向于隨時(shí)隨地瀏覽信息和觀看影視作品,文學(xué)劇本的數(shù)量也開始急劇上升,也就必然給影視審核人員帶來巨大的挑戰(zhàn),即劇審人員需要快速熟知海量劇本的主題。目前,自動(dòng)化的劇本主題分析鮮有學(xué)者進(jìn)行相關(guān)研究,本文即擬對影視劇本的主題詞發(fā)現(xiàn)展開探討與論述。

研究可知,劇本與文本同時(shí)存在維數(shù)過高的問題,因此需要采取降維方法。常見的降維方法有PCA降維和ISOMAP降維,其中PCA降維存在信息丟失問題,故而本文選用了ISOMAP降維方法。而研究中,將通過LDA來選取主題詞,但考慮到LDA的參數(shù)K多會(huì)通過困惑度進(jìn)行計(jì)算,本文則有針對性地提出了困惑度與交叉熵結(jié)合度的方法。文中對此可做研究分析如下。

1 主題提取相關(guān)研究

選擇劇本主題特征詞時(shí),應(yīng)選擇能代表劇本類別的詞作為特征,而在通過向量來表示劇本時(shí),向量空間稀疏和高特征維數(shù)問題就是劇本提取特征詞的研究熱點(diǎn)。針對這一狀況,通常需要進(jìn)行特征降維,降維不僅能夠縮減劇本的特征維數(shù),減小模型訓(xùn)練時(shí)的迭代次數(shù),也可以消除相似語義的特征,進(jìn)而提高劇本主題分類的準(zhǔn)確率、召回率和效率。相較于英文劇本,中文劇本有著更多的字詞組合、更大的編碼空間、更稀疏的原始特征空間,更高的矩陣維度等特點(diǎn),為了獲取高效的劇本特征降維方法,不影響劇本主題的分類性能,就需要選取適合于中文影視劇本的降維方法。這里可得研究內(nèi)容分述如下。

1.1 PCA與ISOMAP降維

1.1.1 PCA降維

PCA[3]降維算法是為了去除劇本向量空間中相似的元素,消除維度災(zāi)難,從而得到有效的特征空間。PCA的計(jì)算過程詳見如下。

在此基礎(chǔ)上,計(jì)算協(xié)方差矩陣。協(xié)方差矩陣的第h行第g列的維度值的運(yùn)算將用到如下計(jì)算公式:

將特征值按照從大到小排序,選出前K大個(gè)特征值。通常情況下,前K大特征值之和占總特征值之和的80%,即用前K個(gè)特征值來取代矩陣中的m個(gè)特征。第j個(gè)POI的Rank值公式具體如下:

1.1.2 ISOMAP降維

ISOMAP算法可以進(jìn)行非線性降維,將高維空間中數(shù)據(jù)信息映射到低維空間,再通過特征提取方法獲得提取后特征,該算法依據(jù)多維尺度變換(MDS),將數(shù)據(jù)點(diǎn)之間原來使用的歐幾里得距離替換為測地線距離,保證降維后的數(shù)據(jù)信息損失最小,同時(shí)將高維空間有效映射到低維空間里,在減小計(jì)算量的基礎(chǔ)上,提高運(yùn)算速率。

ISOMAP算法引進(jìn)了鄰域圖,距離很近的點(diǎn)可以用歐氏距離來代替,較遠(yuǎn)的點(diǎn)可通過最短路徑算出距離,在此基礎(chǔ)上進(jìn)行降維保距。鄰域圖中相鄰且靠近的點(diǎn)之間存在連接,而與之相反的便不存在連接,因此計(jì)算2個(gè)點(diǎn)之間的距離問題就是測地線距離計(jì)算問題,也即演變成了鄰域圖中2點(diǎn)之間的最短路徑計(jì)算問題,最短路徑的計(jì)算常采用經(jīng)典Floyd算法或Dijkstra算法。

1.2 交叉熵與困惑度

1.2.1 交叉熵

在統(tǒng)計(jì)學(xué)中,利用困惑度評價(jià)模型的性能優(yōu)劣,能夠給測試數(shù)據(jù)得出更高概率值的算法顯然更好[4],即困惑值越小,模型對實(shí)驗(yàn)的文本數(shù)據(jù)有更好的預(yù)測能力,因此困惑值與劇本潛在主題數(shù)量呈反比。在LDA主題模型中,困惑度計(jì)算公式可表示如下:

1.2.2 交叉熵結(jié)合困惑度方法

在計(jì)算主題相似度時(shí),目前常用的方法有:Kullback-Leibler散度(KL散度)[5]、Jensen-Shanon散度(JS散度)[6]、交叉熵(Cross Entropy,CE)。其中,KL散度不滿足對稱性和三角不等式,JS散度也不能很好地衡量每個(gè)真實(shí)主題和預(yù)測的主題之間的相似性,因此本文選取交叉熵作為衡量劇本各個(gè)主題間相似度的標(biāo)準(zhǔn)。在交叉熵的基礎(chǔ)上,將隨機(jī)變量方差的概念引入到潛在主題空間中,即可衡量主題空間的整體差異性[7]。主題方差Var(T)是各個(gè)主題分別與其均值之間的距離平方和的平均數(shù)。主題方差的計(jì)算方法詳述如下。

先計(jì)算求出主題-詞概率分布均值-;再利用未曾應(yīng)用于劇本主題的交叉熵來得到各個(gè)主題間的方差,數(shù)學(xué)公式可寫作如下形式:

Var(T)可以計(jì)算得到隱藏主題之間的穩(wěn)固性,Var(T)越大,穩(wěn)固性越好,主題易于分類。困惑度可以用來作為模型預(yù)測能力評價(jià)指標(biāo),過分追求指標(biāo)值會(huì)導(dǎo)致主題數(shù)偏大,因此可將二者相結(jié)合。由此提出如下的Perplexity-Var指標(biāo)的公式:

Perplexity-Var指標(biāo)含義是:從以上關(guān)系式分析得出,Perplexity-Var值最小時(shí),則尋求的LDA主題模型為最優(yōu)。

1.3 LDA主題模型

LDA模型可以提取出研究篇章中的隱含主題,通過主題、詞頻生成文檔,因此屬于生成模型。針對劇本,使用LDA模型可以生成主題,提取劇本的隱含語義并對劇本進(jìn)行形式化的表示。假設(shè)劇本集D包含M篇?jiǎng)”荆科獎(jiǎng)”镜拈L度是Ni,在LDA模型中,LDA概率圖模型如圖1所示。完整的文檔生成步驟參見如下。

圖1中,M表示劇本數(shù)量,N表示單篇?jiǎng)”局性~的數(shù)量,K表示主題數(shù)量,W表示劇本集中的所有詞,Z表示所有主題;參數(shù)θ表示文檔-主題分布,由Dirichlet先驗(yàn)知識(shí)α控制產(chǎn)生;ψ表示主題-詞分布,由Dirichlet先驗(yàn)知識(shí)β控制產(chǎn)生;矩形表示連續(xù)重復(fù)過程,外層矩形表示從Dirichlet分布中為劇本集D中的每篇?jiǎng)”痉磸?fù)抽取主題分布,內(nèi)層矩形表示從主題分布中反復(fù)抽樣產(chǎn)生劇本d的詞。

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)數(shù)據(jù)與處理

本文的數(shù)據(jù)來源于互聯(lián)網(wǎng)資源,共計(jì)317篇外國劇本。該數(shù)據(jù)集是PDF格式,利用程序?qū)DF格式劇本文件轉(zhuǎn)化為實(shí)驗(yàn)所需要的txt劇本格式,通過人工標(biāo)注將317篇?jiǎng)”痉譃?0種類別,分別是愛情、傳記、動(dòng)作、犯罪、歌舞、記錄、家庭、驚悚、劇情、科幻等。

首先,分詞;然后,通過停用詞表過濾掉劇本中的一些無關(guān)詞,將劇本文字形式轉(zhuǎn)化為TD-IDF的向量形式,使用TF-IDF算法;最后,將TF-IDF向量矩陣進(jìn)行降維,降維后的TF-IDF作為LDA的輸入?yún)?shù)。

2.2 基于ISOMAP的TF-IDF降維實(shí)驗(yàn)

SVM模型中的輸入是數(shù)據(jù),因此本文可任選向量空間模型,權(quán)重采用TF-IDF權(quán)重值,但由于劇本轉(zhuǎn)化為TF-IDF時(shí)維數(shù)達(dá)到了50萬,超出了普通計(jì)算機(jī)的運(yùn)算能力,故而仍需繼續(xù)降維。而降維時(shí),在保證信息損失最少的同時(shí),同時(shí)還要保證可靠的計(jì)算效率。通過實(shí)驗(yàn)對比來觀測PCA降維與ISOMAP降維的處理時(shí)間的對比,將高維數(shù)據(jù)降到2維,再聚類為10類,最終可得各種降維算法處理時(shí)間的結(jié)果對比如圖2所示。

由圖2可以看出,ISOMAP算法的處理時(shí)間要好于PCA算法,但是聚類效果明顯優(yōu)于PCA,如此就降低了信息的丟失率。故而,對于劇本特征降維,本文選擇了ISOMAP算法。

通過實(shí)驗(yàn)得到4組數(shù)據(jù),將得到的稀疏矩陣維數(shù)降為1 000維、3 000維、5 000維、10 000維。對這4組數(shù)據(jù)使用帶有高斯核函數(shù)的SVM訓(xùn)練模型,并以訓(xùn)練語料測試分類準(zhǔn)確率,研究得到的結(jié)果見表1。

PCA與ISOMAP降維對比結(jié)果曲線如圖3所示。根據(jù)表1與圖3的結(jié)果,當(dāng)PCA與ISOMAP降到3 000維的時(shí)候,分類的準(zhǔn)確率最高,同時(shí)可以證明,在劇本分類中,使用ISOMAP在特征降維方面要優(yōu)于PCA降維,因此本實(shí)驗(yàn)中選取降維后的維數(shù)為3 000維。在圖3中,PCA降維至5 000維之后,基本呈一條直線,考慮到PCA降維時(shí)可能造成大量信息損失,會(huì)使得分類準(zhǔn)確率大致呈現(xiàn)線性下降趨勢。

2.3 基于交叉熵與困惑度的最優(yōu)主題數(shù)實(shí)驗(yàn)

研究中,根據(jù)困惑度、以及困惑度與交叉熵相結(jié)合的算法,并結(jié)合各種分類器進(jìn)行對比實(shí)驗(yàn),通過仿真來驗(yàn)證該算法的優(yōu)越性。在進(jìn)行對比實(shí)驗(yàn)時(shí),將降維算法加以統(tǒng)一,LDA主題個(gè)數(shù)尋優(yōu)實(shí)驗(yàn)選擇PCA降維,同樣,選擇TF-IDF特征向量加權(quán)算法;SVM的核函數(shù),選擇高斯核函數(shù)。定義困惑度計(jì)算得到的主題數(shù)為Perp_K,定義困惑度和交叉熵相結(jié)合的主題數(shù)量為PerpSimla_K,通過本文提出的交叉熵與困惑度計(jì)算公式分別得到最優(yōu)主題個(gè)數(shù),Perp_K=200,PerpSimla_K=230。不同主題數(shù)的分類器的準(zhǔn)確率見表2。

由表2得到的結(jié)果數(shù)據(jù)顯示,利用交叉熵與困惑度結(jié)合的方法,使得各個(gè)分類器的分類準(zhǔn)確率明顯高于單獨(dú)使用困惑度方法,困惑度計(jì)算可以為主題數(shù)量的確定提供有效參考,但并未能夠保障構(gòu)造得到最優(yōu)分類器。因此需要進(jìn)一步的仿真研究驗(yàn)證最優(yōu)主題數(shù)是否準(zhǔn)確且有效,需要將LDA的主題個(gè)數(shù)K值范圍設(shè)置在經(jīng)驗(yàn)數(shù)值50~450之間。交叉熵和困惑度結(jié)合下的不同主題數(shù)的對比結(jié)果值如圖4所示。

由圖4與表2可以得知,基于困惑度與交叉熵結(jié)合的方法,得到的最優(yōu)主題數(shù)明顯優(yōu)于單純基于困惑度計(jì)算劇本最優(yōu)主題數(shù)。在接下來的部分實(shí)驗(yàn)中將會(huì)采用此方法,進(jìn)行LDA主題提取。

2.4 LDA隱含主題特征詞提取

一個(gè)主題下有大量相近的詞,一個(gè)詞也會(huì)依附于不同的主題,這些詞語和該主題有很強(qiáng)的相關(guān)性,也正是這些詞語共同定義了這一主題。對于一篇?jiǎng)”緛碚f,通常是由若干個(gè)主題生成。綜上分析可知,LDA主題模型,能夠發(fā)現(xiàn)隱含的主題。對降維過后的數(shù)據(jù),進(jìn)行LDA主題提取,以確保更低的維數(shù),進(jìn)而提取更準(zhǔn)確的特征,后續(xù)即以LDA提取的特征作為SVM的輸入。

由于劇本數(shù)量多,因此采用了stem圖(火彩梗圖)。此處,顯示了前3篇?jiǎng)”镜目赡艿闹黝}詞的概率大小。運(yùn)行結(jié)果如圖5所示。

2.5 實(shí)驗(yàn)結(jié)果分析

由前文的實(shí)驗(yàn)部分確定了LDA的K值,緊接著將提取的特征向量,輸入到各類分類器中,用來驗(yàn)證融合核函數(shù)對于劇本主題分類的優(yōu)越性。

本節(jié)將從KNN、貝葉斯以及向量機(jī)分類器進(jìn)行對比實(shí)驗(yàn)。在python環(huán)境里,SVM的模型參數(shù)可以選擇自定義的核函數(shù)。各類分類器對比實(shí)驗(yàn)結(jié)果見表3。

由表3可以看出,線性核的準(zhǔn)確率逼近融合核,驗(yàn)證了從低維映射到高維線性可分的理論,而且由于使用了ISOMAP降維方法以及LDA,使得特征空間基本處于線性可分的狀態(tài)。同時(shí)表3給出的實(shí)驗(yàn)結(jié)果還驗(yàn)證了,相比其它核函數(shù)和分類器而言,SVM核函數(shù)對劇本及其它文本分類能夠獲得更好的研究效果。

3 結(jié)束語

本文首先將劇本集向量化,得到向量空間;傳統(tǒng)的文本向量空間,通常是利用詞頻作為分析的依據(jù)。而劇本向量空間,采用TF-IDF算法得到詞語加權(quán)向量空間。對比了PCA與ISOMAP降維效果,通過實(shí)驗(yàn)發(fā)現(xiàn)PCA與ISOMAP相比有著更快的執(zhí)行速率,而ISOMAP有著更好的降維效果,因此在更大程度上有效提升了劇本主題的分類準(zhǔn)確率。提出交叉熵結(jié)合困惑度的方法,通過實(shí)驗(yàn)表明,提出的交叉熵結(jié)合困惑度的方法,可以顯著改善劇本主題詞的個(gè)數(shù)不準(zhǔn)確問題,進(jìn)而提高劇本主題分類準(zhǔn)確率。本文不足之處在于,沒有對SVM核函數(shù)做進(jìn)一步的實(shí)驗(yàn)研究,未來工作將是利用核函數(shù)融合進(jìn)行深入的探討與分析。

參考文獻(xiàn)

[1] WU Xindong, ZHU Xingquan, WU Gongqing, et al. Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering,2014,26(1):97-107.

[2]LAZER D,KENNEDY R, KING G, et al. The parable of Google Flu:Traps in big data analysis[J]. Science,2014,343(6176):1203-1205.

[3]劉海旭. 基于PCA和LDA的文本分類系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 北京:北京郵電大學(xué),2013.

[4]裘友榮. 相對熵在圖像去噪中的應(yīng)用[J]. 遙感信息, 2018, 33(3):124-129.

[5]孔銳, 施澤生, 郭立, 等. 利用組合核函數(shù)提高核主分量分析的性能[J]. 中國圖象圖形學(xué)報(bào), 2004, 9(1):40-45.

[6]牟華英. 腦電信號(hào)特征提取的算法研究[D]. 廣州:華南理工大學(xué), 2010.

[7]李強(qiáng). 基于主題模型的中文情感分類方法研究[D]. 杭州:杭州電子科技大學(xué),2016.

[8]田象明. 基于視頻流的車牌識(shí)別系統(tǒng)設(shè)計(jì)[D]. 西安:西安電子科技大學(xué), 2017.

猜你喜歡
降維分類器交叉
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
“六法”巧解分式方程
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
連一連
基于Fast-ICA的Wigner-Ville分布交叉項(xiàng)消除方法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
拋物化Navier-Stokes方程的降維仿真模型
盘山县| 宽城| 阳朔县| 秀山| 蓝田县| 万源市| 永泰县| 航空| 龙里县| 婺源县| 南郑县| 浦江县| 洪湖市| 房山区| 阳谷县| 金阳县| 滦平县| 洛川县| 娱乐| 东光县| 和龙市| 瓮安县| 彝良县| 隆安县| 成武县| 湘潭县| 济阳县| 姜堰市| 德惠市| 子洲县| 罗田县| 微博| 桑植县| 龙井市| 长宁县| 宝清县| 永川市| 台北县| 黔东| 黄骅市| 兰西县|