李楚
(東北大學(xué)秦皇島分校,河北 秦皇島 066099)
作者識(shí)別問題于1887年首次由Mendenhall 提出,它的主要目標(biāo)就是根據(jù)匿名文本的內(nèi)容識(shí)別出匿名文本最可能的作者。作者識(shí)別任務(wù)可以被看作是多類別單標(biāo)簽的分類問題,每個(gè)可能的作者身份代表一個(gè)標(biāo)簽,最終目標(biāo)是為每一個(gè)匿名文本匹配到最可能的作者標(biāo)簽[1]。因此,許多文本分類技術(shù)已經(jīng)被運(yùn)用到作者識(shí)別任務(wù)中。
文本以一種非結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存在,它沒有確定的形式,機(jī)器也無法直接理解其語義。為了將數(shù)據(jù)挖掘技術(shù)用于探索獲取文本信息,通常需要對(duì)文本進(jìn)行預(yù)處理,再以統(tǒng)計(jì)的方法將其轉(zhuǎn)變?yōu)闄C(jī)器可以識(shí)別處理的數(shù)值型結(jié)構(gòu)。
根據(jù)經(jīng)典的詞袋模型(Bag-of-words)理念,文本可以看作是由若干個(gè)詞匯構(gòu)成的集合。一個(gè)作者的寫作風(fēng)格可以由該作者經(jīng)常使用的文體特征表達(dá),如詞頻、單詞長(zhǎng)度、一個(gè)句子中動(dòng)詞出現(xiàn)的頻率等等[2]。其中,詞頻用于表達(dá)文本內(nèi)容十分常見。在一個(gè)文本中,有一部分詞匯攜帶了大量信息,能很好地表達(dá)文本的內(nèi)容,同樣還有一部分詞匯,如沒有實(shí)際語義的停用詞和攜帶信息量極少的詞匯,不僅無法表達(dá)文本的內(nèi)容,還會(huì)增加文本分類或作者識(shí)別過程的時(shí)間成本,并對(duì)最終的分類或識(shí)別結(jié)果造成不利影響,因此識(shí)別文中真正重要的詞匯十分重要[3]。
在作者識(shí)別任務(wù)中,文本預(yù)處理方法分為基于文本和基于實(shí)例兩種類型[4]。在基于文本的方法中需要將同一個(gè)作者的所有文本進(jìn)行合并,而在基于實(shí)例的方法中每一個(gè)文本都是一個(gè)獨(dú)立的對(duì)象并對(duì)應(yīng)一個(gè)作者標(biāo)簽。在大部分研究中,采用相似度或距離度量識(shí)別匿名文本的作者時(shí),一般以基于文本的方法預(yù)處理文本,而采用機(jī)器學(xué)習(xí)分類器識(shí)別作者時(shí),則一般以基于實(shí)例的方法預(yù)處理文本。識(shí)別文本作者通常分為基于分類的方法和基于相似性的方法[5]?;诜诸惖淖髡咦R(shí)別方法主要利用文本訓(xùn)練集的樣本實(shí)例訓(xùn)練機(jī)器學(xué)習(xí)分類器,然后將訓(xùn)練好的分類器用于預(yù)測(cè)匿名文本的作者標(biāo)簽,而基于相似性的作者識(shí)別方法則是通過計(jì)算匿名文本和所有已知作者文本的相似度來判定匿名文本最可能的作者[6]。
文章基于詞頻-逆文檔頻率(TF-IDF)算法提出了一個(gè)新的文本量化方法用于將文本轉(zhuǎn)變?yōu)橄蛄?,還提出了一種混合距離度量用于識(shí)別匿名文本的作者身份。提出的方法的性能評(píng)估在英文、中文兩種不同類型的文本數(shù)據(jù)集上進(jìn)行,分別使用TF-IDF 算法和提出的文本量化方法量化文本,然后運(yùn)用提出的混合距離度量和七種常見的分類算法包括五種經(jīng)典的機(jī)器學(xué)習(xí)分類器、閔可夫斯基距離度量和余弦相似度識(shí)別匿名文本的作者。
文章結(jié)構(gòu)為:第一部分是對(duì)相關(guān)研究的綜述;第二部分介紹了一些文本處理的相關(guān)概念并提出了新的文本向量化方法和混合距離度量;第三部分引入了大量實(shí)驗(yàn)對(duì)提出的算法進(jìn)行評(píng)估;最后是文章的總結(jié)及未來研究工作的展望。
目前針對(duì)作者識(shí)別任務(wù)的解決方法主要是在選擇文本特征并量化文本后,將其用于訓(xùn)練機(jī)器學(xué)習(xí)分類器和計(jì)算文本之間的相似度、距離度量或關(guān)聯(lián)程度。因此,文本特征的選擇和量化受到了廣泛關(guān)注。許多學(xué)者旨在通過提取文本最重要的特征來提高分類算法的準(zhǔn)確性并減少識(shí)別過程耗費(fèi)的時(shí)間成本。比如BinSaeedan 和Alramlawi 基于二進(jìn)制粒子群優(yōu)化算法(BPSO)和卡方優(yōu)化算法提出了CSBPSO 特征選擇算法用于提高識(shí)別阿拉伯語言電子郵件的作者的準(zhǔn)確性,在實(shí)驗(yàn)中分別考慮了動(dòng)態(tài)和靜態(tài)特征,結(jié)果表明利用CS-BPSO 算法提取動(dòng)態(tài)特征較好的提高了各個(gè)分類器的識(shí)別準(zhǔn)確性[7]。Ramezani 提出了一種語言獨(dú)立的作者識(shí)別方法,該方法不需要任何的自然語言處理技術(shù),基于改進(jìn)的特征權(quán)值算法來計(jì)算匿名文本與已知作者文本的相似度并將與匿名文本相似度最高的已知文本的作者判定為匿名文本最可能的作者[6]。Bhatti 等人提出了一種專門針對(duì)烏爾都語的文本分類和文本相似度衡量的方法,該方法利用TFIDF 算法提取文本特征、利用chi-2 進(jìn)一步選擇特征,然后利用線性判別分析(LDA)將文本向量映射到二維空間以達(dá)到較好的特征降維效果[8]??紤]到Word2vec 模型無法確定特征在文本中的重要性程度,Wang 和Zhu 將TF-IDF 算法與Word2vec 模型結(jié)合形成了加權(quán)的Word2vec 分類模型。在預(yù)處理過程中,他們還引入了一個(gè)新的特征提取算法來對(duì)StringToWordVector 算法進(jìn)行改進(jìn)并將其用于降低文本特征維度[9]等等,這些研究都取得了大量成果。
雖然目前存在許多的特征選擇與文本量化算法,且其中大部分都考慮了特征在目標(biāo)文本中出現(xiàn)的頻率以及在其他文本中的普遍性兩個(gè)因素。然而文本集中特征分布的密集度這個(gè)因素卻被忽略了,考慮到這個(gè)因素,文章基于TF-IDF 算法提出了一個(gè)新的文本量化方法。另外,為了評(píng)估 閔可夫斯基距離度量和余弦相似度在作者識(shí)別任務(wù)中識(shí)別匿名文本作者的共同作用,還提出了一個(gè)混合距離度量用于計(jì)算兩個(gè)文本之間的距離并將與匿名文本距離最近的已知文本的作者判定為匿名文本最可能的作者。
向量空間模型在文本處理、自動(dòng)索引、信息檢索等領(lǐng)域中被廣泛使用。它旨在將文本由文字形式轉(zhuǎn)變?yōu)橄蛄靠臻g中的數(shù)值向量形式,一般采用向量之間的余弦夾角衡量文本之間的相似度。在向量空間模型中,一個(gè)文本被看作是由若干個(gè)不同的術(shù)語構(gòu)成的集合,每個(gè)術(shù)語都代表文本的一個(gè)維度且可以根據(jù)其在文本中的重要性大小進(jìn)行權(quán)值化。假設(shè)文本Dj由n 個(gè)不同的術(shù)語構(gòu)成,則文本Dj可以表示成一個(gè)n 維向量,即Dj=(wj1,wj2,…,wjn),其中wji代表第i 個(gè)術(shù)語在文本Dj中的權(quán)值[10,11]。
TF-IDF 算法是一種用于文本特征數(shù)值化的統(tǒng)計(jì)計(jì)算方法,用于評(píng)估特征對(duì)于文本的重要性程度。根據(jù)TF-IDF 算法,一個(gè)在目標(biāo)文本中頻繁出現(xiàn)但在所有文本中普遍性很小的特征對(duì)目標(biāo)文本是十分重要的。如式(1)所示,特征i 在文本j 中的TF-IDF 權(quán)值表示為[12,13]:
其中T 表示總文本數(shù)量,tfij表示特征i 在文本j 中出現(xiàn)的頻率,dfi表示含有特征i 的文本數(shù)量。TF-IDFij的值越大,則表明特征i 在文本j 中越重要。
余弦相似度用于描述兩個(gè)文本向量之間的相似程度大小,如式(2)所示,任意兩個(gè)文本向量Dj=(wj1,wj2,…,wjn)和Dd=(wd1,wd2,…,wdn)的余弦相似度表示為[14,15]:
Sim(Dj,Dd)的值越大,則表明文本向量Dj和Dd越相似。
閔可夫斯基距離度量是計(jì)算兩個(gè)文本向量之間距離大小的一種度量,如式(3)所示,任意兩個(gè)文本向量Dj=(wj1,wj2,…,wjn)和Dd=(wd1,wd2,…,wdn)的閔可夫斯基距離表示為[16]:
p 為可變的正整數(shù):
p=1 時(shí),Dis(Dj,Dd)稱為曼哈頓距離;
p=2 時(shí),Dis(Dj,Dd)稱為歐氏距離;
p →∞時(shí),Dis(Dj,Dd)稱為切比雪夫距離。
Dis(Dj,Dd)越小,則表明文本向量Dj和Dd越相似。
2.5.1 新TF-IDF 算法
為了更好地量化文本特征,在TF-IDF 算法的基礎(chǔ)上進(jìn)行調(diào)整得到了一個(gè)新的TF-IDF 量化方法,如式(4)所示:
其中tfij表示特征i 在文本j 中出現(xiàn)的頻率,dfi表示含有特征i 的文本數(shù)量,表示特征i 在除文本j 以外的其他文本中出現(xiàn)的頻率之和。
新TF-IDF 量化算法在原始TF-IDF 量化算法的基礎(chǔ)上增加了幾點(diǎn)考慮,可根據(jù)如下案例表達(dá):
(1)對(duì)于文本j 的兩個(gè)特征a 和b,若a 和b 在文本j 中出現(xiàn)的頻率相等,即tfaj=tfbj,且在所有文本中含有a 和b 的文本數(shù)量也相等,即dfa=dfb。那么根據(jù)原始TF-IDF 算法可得到a 和b 在文本j 中的權(quán)重值相等,即tf-idfaj=tf-idfbj。若繼續(xù)考慮a 和b 在其他文本中出現(xiàn)的頻率大小,當(dāng)a 在其他文本中出現(xiàn)的總頻率大于b 在其他文本中出現(xiàn)的總頻率時(shí),即客觀看來相比于a,b 對(duì)文本j 更加重要,因此在文本j 中賦予b 更大的權(quán)重值較為合理,根據(jù)新的TFIDF 算法可得到這個(gè)結(jié)果,即tf-idfaj≤tf-idfbj。
(2)對(duì)于文本j 的兩個(gè)特征a 和b,若a 和b 在文本j中出現(xiàn)的頻率相等,即tfaj=tfbj,a 和b 在其他文本中出現(xiàn)的總頻率也相等,即,而所有文本中包含a 的文本數(shù)量大于包含b 的文本數(shù)量,即dfa>dfb。根據(jù)原始TFIDF 算法可得到a 和b 在文本j 中的權(quán)重大小關(guān)系有tf-idfaj<tf-idfbj。而新的TF-IDF 算法則考慮特征在文本集中分布的密集度因素,一個(gè)在目標(biāo)文本以及許多其他文本中分布密集的特征對(duì)任意一個(gè)文本的表達(dá)能力都很弱。由于包含a 的文本子集(不含文本j)中a 分布的平均密度小于包含b 的文本子集(不含文本j)中b 的平均密度,因此可以認(rèn)為在文本j 中a 更重要,根據(jù)新的TF-IDF 算法可以得到這個(gè)結(jié)果,即tf-idfaj>tf-idfbj。
相比于原始TF-IDF 量化算法,新算法考慮的因素更加全面,如特征在其他文本中的頻率和在文本集中分布的密集度,其旨在通過更好的量化特征以達(dá)到提高分類準(zhǔn)確率的目標(biāo)。
2.5.2 混合距離度量
若Dj=(wj1,wj2,…,wjn)和Dd=(wd1,wd2,…,wdn)為兩個(gè)文本向量,如式(5)所示,文本j 和文本d 的混合距離定義為Dis(Dj, Dd):
其中n 為特征個(gè)數(shù),p 為可變的正整數(shù),Sim(Dj,Dd)為文本向量Dj和Dd之間的余弦相似度。
提出的混合距離度量是閔可夫斯基距離度量和余弦相似度的結(jié)合體,它用于評(píng)估閔可夫斯基距離度量和余弦相似度在作者識(shí)別任務(wù)中的共同作用。Dis(Dj,Dd)的值越小,則表明文本向量Dj和Dd越相似。
實(shí)驗(yàn)部分使用了英文和中文兩種類型的文本數(shù)據(jù)集。兩個(gè)數(shù)據(jù)集均包含10部由不同著名文學(xué)作家撰寫的長(zhǎng)篇小說,每部小說中均抽取了25個(gè)部分,其中80%的部分(20個(gè)部分)作為訓(xùn)練集樣本,20%的部分(5 個(gè)部分)作為測(cè)試集樣本。
實(shí)驗(yàn)運(yùn)用提出的文本量化算法和原始TF-IDF 算法量化文本,運(yùn)用提出的混合距離度量、余弦相似度、閔可夫斯基距離度量和五種機(jī)器學(xué)習(xí)分類器包括支持向量機(jī)(SVM)、隨機(jī)森林(RF)、樸素貝葉斯(NB)、K 近鄰(KNN)、神經(jīng)網(wǎng)絡(luò)(NN)共八種分類算法識(shí)別文本的作者,最后根據(jù)測(cè)試集樣本的作者識(shí)別準(zhǔn)確率評(píng)估所提出的算法的性能。如圖1 所示,在運(yùn)用五種機(jī)器學(xué)習(xí)分類器的過程中需要根據(jù)文本量化算法將數(shù)據(jù)集樣本轉(zhuǎn)變?yōu)橄蛄啃问?,每一個(gè)文本向量有對(duì)應(yīng)的作者標(biāo)簽,然后訓(xùn)練集的實(shí)例會(huì)用于機(jī)器學(xué)習(xí)模型的訓(xùn)練,最終在測(cè)試集上計(jì)算每個(gè)模型的作者識(shí)別準(zhǔn)確率。如圖2 所示,在運(yùn)用提出的混合距離度量、余弦相似度以及閔可夫斯基距離度量時(shí),需要將訓(xùn)練集中來自同一本書的所有部分融合成一個(gè)文本,每個(gè)文本對(duì)應(yīng)一個(gè)作者標(biāo)簽,而測(cè)試集中每個(gè)部分對(duì)應(yīng)一個(gè)作者標(biāo)簽,數(shù)據(jù)集的所有文本需根據(jù)量化算法轉(zhuǎn)變?yōu)橄蛄啃问?,然后通過計(jì)算各測(cè)試集文本向量與所有訓(xùn)練集文本向量的距離或相似度大小來預(yù)測(cè)測(cè)試集文本的作者,最終可得到測(cè)試集文本作者的識(shí)別準(zhǔn)確率。
圖1 機(jī)器學(xué)習(xí)分類器識(shí)別文本作者的過程
圖2 相似度及距離度量識(shí)別文本作者的過程
文本在量化之前還需要進(jìn)行預(yù)處理。英文中單詞與單詞之間存在空格,且大部分英語單詞都有實(shí)際含義。中文以字為基本單位,由若干個(gè)字構(gòu)成有意義的漢字字串,且字與字或者詞與詞之間沒有分隔,只有句子與句子之間存在標(biāo)點(diǎn)符號(hào)。中英文文本的預(yù)處理過程包括以下四個(gè)步驟:
(1)文本標(biāo)記的處理。最初的文本通常含有表情符、鏈接等噪音字符,它們通常無法對(duì)后續(xù)的作者識(shí)別提供直接有用的幫助還可能對(duì)識(shí)別結(jié)果造成不利影響,因此需要剔除這些標(biāo)記。
(2)文本分詞的處理。英文文本根據(jù)單詞與單詞之間的空格進(jìn)行劃分。中文文本則基于字符串匹配的方法進(jìn)行劃分,該方法依賴于字典工具,根據(jù)字典中已經(jīng)記錄的術(shù)語來判斷文本內(nèi)相鄰的字是否構(gòu)成一個(gè)詞語。
(3)去除停用詞。經(jīng)過分詞后,文本中還存在一些沒有具體含義的停用詞,比如:而且、在、的,等等。停用詞普遍出現(xiàn)在各類文本中,它們無法提供有用的信息,還會(huì)增加文本量化的工作量,因此需要剔除文本中的停用詞。
(4)特征提取。剔除停用詞后,文本特征維度仍然很大,為了減少文本量化和文本作者識(shí)別的時(shí)間成本,需要進(jìn)一步降低文本維度。實(shí)驗(yàn)根據(jù)詞頻來提取文本特征,獨(dú)立的每個(gè)部分選擇詞頻最大的50 個(gè)特征,而經(jīng)過合并形成的文本選擇詞頻最大的200 個(gè)特征。
3.3.1 分類算法
(1)支持向量機(jī)(SVM)。支持向量機(jī)是一種建立在特征空間上的使得類和類之間間隔最大的超平面,實(shí)驗(yàn)運(yùn)用引入核函數(shù)的支持向量機(jī)對(duì)非線性的文本進(jìn)行識(shí)別[17],使用線性核函數(shù)進(jìn)行非線性判別。
(2)隨機(jī)森林(RF)。隨機(jī)森林模型由多個(gè)決策樹模型構(gòu)建而成,基于所有決策樹的分類結(jié)果,根據(jù)多數(shù)表決準(zhǔn)則得到隨機(jī)森林模型最終的分類結(jié)果[18]。實(shí)驗(yàn)使用100 棵樹的隨機(jī)森林模型,采用Gini 系數(shù)作為樹的分裂標(biāo)準(zhǔn)。
(3)樸素貝葉斯(NB)。樸素貝葉斯是一種基于貝葉斯定理和特征條件獨(dú)立性假設(shè)的分類算法[19]。實(shí)驗(yàn)使用高斯貝葉斯分類器識(shí)別文本作者。
(4)K 近鄰(KNN)。K 近鄰是一種經(jīng)典的分類算法,根據(jù)與目標(biāo)對(duì)象最相近的K 個(gè)樣本的類別標(biāo)簽來標(biāo)記目標(biāo)對(duì)象[20]。實(shí)驗(yàn)指定K=5 以及閔可夫斯基距離作為度量。
(5)神經(jīng)網(wǎng)絡(luò)(NN)。神經(jīng)網(wǎng)絡(luò)是模擬生物神經(jīng)網(wǎng)絡(luò)進(jìn)行信息處理的一種數(shù)學(xué)模型,它由一個(gè)輸入、一個(gè)輸出和若干個(gè)隱藏層組成[21]。實(shí)驗(yàn)訓(xùn)練一個(gè)隱藏層數(shù)為100 的神經(jīng)網(wǎng)絡(luò)模型,使用relu 激活函數(shù),并設(shè)置最大迭代次數(shù)為1 000。
除了運(yùn)用以上機(jī)器學(xué)習(xí)分類器識(shí)別文本的作者,實(shí)驗(yàn)還使用提出的混合距離度量、余弦相似度以及閔可夫斯基距離度量識(shí)別文本的作者,與測(cè)試文本相似度最大或距離最小的訓(xùn)練文本的作者被判定為該測(cè)試文本的作者。
3.3.2 性能評(píng)估方法
實(shí)驗(yàn)根據(jù)分類結(jié)果的準(zhǔn)確率(Accuracy)來評(píng)估提出的方法的性能,準(zhǔn)確率指所有文本中被正確預(yù)測(cè)標(biāo)簽的文本的占比,如式(6)和表1 所示,準(zhǔn)確率表示為:
表1 式(6)中各指標(biāo)含義
如表2 所列,在5 個(gè)和10 個(gè)作者標(biāo)簽的數(shù)據(jù)集上,與原始TF-IDF 算法相比,采用提出的量化方法量化文本使測(cè)試集中文本作者識(shí)別的平均準(zhǔn)確率分別提高了10.7%和8.2%。其中支持向量機(jī)、K 近鄰、閔可夫斯基距離度量(p=1和p=2)和混合距離度量(p=1 和p=2)的準(zhǔn)確率明顯提高,支持向量機(jī)模型的準(zhǔn)確率分別提高了4%和22%,K 近鄰模型的準(zhǔn)確率分別提高了36%和18%,閔可夫斯基距離(p=1)的準(zhǔn)確率分別提高了24%和32%,閔可夫斯基距離度量(p=2)的準(zhǔn)確率分別提高了32%和30%,混合距離度量(p=1)的準(zhǔn)確率分別提高了20%和12%,混合距離度量(p=2)的準(zhǔn)確率分別提高了16%和8%。根據(jù)準(zhǔn)確率的方差可以發(fā)現(xiàn),使用提出的量化算法使得分類算法的準(zhǔn)確性能更加穩(wěn)定,各分類算法的準(zhǔn)確率波動(dòng)范圍相對(duì)更小。
表2 英文數(shù)據(jù)集上作者識(shí)別的準(zhǔn)確率
此外,與閔可夫斯基距離度量相比,混合距離度量的準(zhǔn)確性能也更好。根據(jù)原始TF-IDF 算法量化文本時(shí),在p=1 的情況下準(zhǔn)確率分別高出12%和22%,在p=2 的情況下分別高出16%和22%,在p →∞的情況下分別高出12%和24%。根據(jù)提出的量化算法量化文本時(shí),在p=1 的情況下準(zhǔn)確率分別高出8%和2%,在p →∞的情況下分別高出8%和32%。
通過實(shí)驗(yàn)還可以發(fā)現(xiàn),在采用樸素貝葉斯和余弦相似度算法識(shí)別文本作者時(shí),采用原始TF-IDF 算法量化文本會(huì)有更好的識(shí)別效果。
如表3 所列,在5 個(gè)和10 個(gè)作者標(biāo)簽的數(shù)據(jù)集上,與原始TF-IDF 算法相比,采用提出的量化方法量化文本使測(cè)試集中文本作者識(shí)別的平均準(zhǔn)確率分別提高了7.7%和2.5%。其中支持向量機(jī)、K 近鄰和閔可夫斯基距離度量(p=1 和p=2)的準(zhǔn)確率明顯提高,支持向量機(jī)模型的準(zhǔn)確率分別提高了24%和52%,K 近鄰模型的準(zhǔn)確率分別提高了24%和16%,閔可夫斯基距離(p=1)的準(zhǔn)確率分別提高了44%和22%,閔可夫斯基距離度量(p=2)的準(zhǔn)確率分別提高了16%和8%。與英文數(shù)據(jù)集相似,根據(jù)準(zhǔn)確率的方差可以發(fā)現(xiàn),使用提出的量化算法使得分類算法的準(zhǔn)確性能更加穩(wěn)定,各分類算法的準(zhǔn)確率波動(dòng)范圍相對(duì)更小,說明提出的量化方法普遍適用性更好。
表3 中文數(shù)據(jù)集上作者識(shí)別的準(zhǔn)確率
續(xù)表
此外,與閔可夫斯基距離度量相比,混合距離度量的準(zhǔn)確性能也更好。根據(jù)原始TF-IDF 算法量化文本時(shí),在p=1的情況下準(zhǔn)確率分別高出44%和34%,在p=2 的情況下分別高出20%和20%,在p →∞的情況下分別高出8%和12%。根據(jù)提出的量化算法量化文本時(shí),在p=1 的情況下準(zhǔn)確率分別高出8%和10%,在p=2 的情況下分別高出8%和4%,在p →∞的情況下分別高出20%和22%。
通過實(shí)驗(yàn)還可以發(fā)現(xiàn),在采用余弦相似度、閔可夫斯基距離度量(p→∞)和混合距離度量(p→∞)識(shí)別文本作者時(shí),采用原始TF-IDF 算法量化文本會(huì)有更好的識(shí)別效果。
在作者識(shí)別任務(wù)中,文本內(nèi)容的量化十分關(guān)鍵,它會(huì)直接影響作者識(shí)別的準(zhǔn)確率。為了更好的量化文本特征,提出了基于改進(jìn)TF-IDF 算法的文本量化方法,還提出了混合距離度量用于評(píng)估閔可夫斯基距離度量和余弦相似度識(shí)別文本作者的共同作用。
相比于原始TF-IDF 算法,提出的量化方法還考慮了特征在其他文本中的頻率和在文本集中分布的密集度兩個(gè)因素。運(yùn)用提出的量化算法量化文本明顯提高了支持向量機(jī)、K 近鄰、閔可夫斯基距離度量(p=1 和p=2)和混合距離度量(p=1 和p=2)在英文數(shù)據(jù)集上的作者識(shí)別準(zhǔn)確率。對(duì)于中文數(shù)據(jù)集,運(yùn)用提出的量化算法量化文本明顯提高了支持向量機(jī)、K 近鄰和閔可夫斯基距離度量(p=1和p=2)的作者識(shí)別準(zhǔn)確率。此外,在中英文兩種數(shù)據(jù)集上,相比于閔可夫斯基距離度量,混合距離度量的準(zhǔn)確性能也更好。
在實(shí)驗(yàn)過程中,根據(jù)提出的量化算法量化文本所耗的時(shí)間成本更高,主要是因?yàn)樘岢龅牧炕惴紤]的因素更多,形式更加復(fù)雜。另外,預(yù)處理之后的文本特征維度仍然很大,直接影響了作者識(shí)別過程的效率。因此未來工作將著重研究特征降維的相關(guān)技術(shù),如何提高大規(guī)模作者標(biāo)簽的作者識(shí)別準(zhǔn)確率也值得進(jìn)一步關(guān)注。