孫德華 孫晨
摘? 要:結(jié)合財(cái)務(wù)文本特征,對(duì)TF-IDF方法在應(yīng)用到財(cái)務(wù)文本分類(lèi)時(shí)的不足進(jìn)行了分析,提出了一種新的特征詞權(quán)重計(jì)算方法(SNGTI-LFDF)。該算法以TF-IDF方法為基礎(chǔ),引入停用詞失效的N-Gram方法和特征詞位置詞頻因子,保留特征詞位置信息并改善了特征詞的權(quán)重分配。采用樸素貝葉斯方法對(duì)分類(lèi)性能進(jìn)行了驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,相對(duì)于TF-IDF和同類(lèi)改進(jìn)算法TF-IDF-DL,SNGTI-LFDF方法取得了更高的準(zhǔn)確率、召回率和F1值。因此該算法在能較好地提高財(cái)務(wù)文本分類(lèi)性能。
關(guān)鍵詞:TF-IDF;N-Gram;位置因子;SNGTI-LFDF;財(cái)務(wù)文本分類(lèi)
中圖分類(lèi)號(hào):TP301.6? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)18-0107-05
Abstract:Combining with the characteristics of financial texts,the TF-IDF algorithm was investigated for its shortcomings when applied to financial text classification,and a new algorithm for calculating the weight of feature words (SNGTI-LFDF) was proposed. This algorithm is based on TF-IDF method,and introduces the N-Gram method of invalid stop words and term frequency location factor,which retains the location information of the feature word and improves the weight distribution of the feature word. The Naive Bayes method is used to verify the classification performance. The experimental results show that compared with TF-IDF and the similar algorithm TF-IDF-DL,the SNGTI-LFDF method achieves higher accuracy,recall and F1 value. Therefore,the algorithm is better improving the performance of financial text classification.
Keywords:TF-IDF;N-Gram;location factor;SNGTI-LFDF;financial text classification
0? 引? 言
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)文本充斥著人們生活的方方面面,財(cái)務(wù)文本是網(wǎng)絡(luò)文本中的一大分支,在財(cái)務(wù)危機(jī)預(yù)測(cè)[1]、資本市場(chǎng)調(diào)研、企業(yè)管理等方面都有重要的指示作用。就財(cái)務(wù)文本的性質(zhì)和作用可以將其劃分為政策類(lèi)財(cái)務(wù)文本、規(guī)章制度類(lèi)財(cái)務(wù)文本、統(tǒng)計(jì)數(shù)據(jù)類(lèi)財(cái)務(wù)文本。其中政策類(lèi)財(cái)務(wù)文本是國(guó)家各行政部門(mén)、企業(yè)財(cái)務(wù)部門(mén)等針對(duì)財(cái)務(wù)狀況出臺(tái)的一系列財(cái)務(wù)管理的方針、政策,這類(lèi)文本為個(gè)人和企業(yè)提供政策指引,做出更好的財(cái)務(wù)決策;規(guī)章制度類(lèi)財(cái)務(wù)文本是各企業(yè)制定的符合企業(yè)發(fā)展的章程,對(duì)企業(yè)和財(cái)務(wù)工作者制定符合其發(fā)展的規(guī)章制度有很高的參考價(jià)值;統(tǒng)計(jì)數(shù)據(jù)類(lèi)財(cái)務(wù)文本是符合客觀財(cái)務(wù)信息并能反映一段時(shí)間內(nèi)企業(yè)財(cái)務(wù)狀況的文本,統(tǒng)計(jì)類(lèi)財(cái)務(wù)文本可以幫助規(guī)避投資風(fēng)險(xiǎn)、預(yù)防財(cái)務(wù)詐騙等。然而在這個(gè)大數(shù)據(jù)時(shí)代下,各類(lèi)財(cái)務(wù)錯(cuò)綜復(fù)雜,使得我們很難快速準(zhǔn)確地找到所需類(lèi)別的財(cái)務(wù)文本,由于缺乏信息資料進(jìn)而造成損失。作者結(jié)合實(shí)習(xí)項(xiàng)目“財(cái)務(wù)機(jī)器人”的開(kāi)發(fā),對(duì)智能財(cái)務(wù)機(jī)器人的實(shí)現(xiàn)進(jìn)行了深入調(diào)研,智能財(cái)務(wù)機(jī)器人的實(shí)現(xiàn)要依據(jù)大量的已知類(lèi)別的財(cái)務(wù)文本,通過(guò)學(xué)習(xí)每種類(lèi)別的文本的特征,總結(jié)經(jīng)驗(yàn),實(shí)現(xiàn)智能化。因此如何快速準(zhǔn)確地對(duì)財(cái)務(wù)文本進(jìn)行分類(lèi)就成了一個(gè)待解決的課題,傳統(tǒng)的基于人工進(jìn)行財(cái)務(wù)文本分類(lèi)同時(shí)存在效率低下和人為失誤不可避免等問(wèn)題。機(jī)器學(xué)習(xí)和人工智能技術(shù)的發(fā)展使得自動(dòng)高效地進(jìn)行財(cái)務(wù)文本分類(lèi)[2]變成了可能,有效地改善了人工分類(lèi)時(shí)所帶來(lái)的問(wèn)題,它通過(guò)學(xué)習(xí)已標(biāo)記類(lèi)別的文本集,建立文本特征詞與文本類(lèi)別之間的關(guān)系模型,進(jìn)而通過(guò)該模型對(duì)新的文本進(jìn)行類(lèi)別判定。
對(duì)文本進(jìn)行分類(lèi)要遵循文本所具有的特征。本文擬根據(jù)財(cái)務(wù)文本特征定向的改進(jìn)文本分類(lèi)中常用的方法——TF-IDF算法[3],以較好地提升財(cái)務(wù)文本分類(lèi)的性能。因此本文收集調(diào)研了大量的財(cái)務(wù)文本并對(duì)財(cái)務(wù)文本的特征總結(jié)為:
(1)財(cái)務(wù)特征詞的不可分割性:財(cái)務(wù)特征詞又可叫作財(cái)務(wù)術(shù)語(yǔ),不可分割性是指一旦分割就會(huì)偏離原詞所表達(dá)的含義。如“固定資產(chǎn)”雖然可以被拆分為“固定”和“資產(chǎn)”兩個(gè)有實(shí)際意義的詞,但是其已經(jīng)偏離了原特征詞所表示的含義;
(2)財(cái)務(wù)文本結(jié)構(gòu)的嚴(yán)謹(jǐn)性:結(jié)構(gòu)的嚴(yán)謹(jǐn)性是指大多數(shù)財(cái)務(wù)文本都符合類(lèi)似“總分總”這樣的文本特征,在文本始末都會(huì)出現(xiàn)對(duì)文本進(jìn)行總結(jié)的內(nèi)容。
TF-IDF算法是一種基于詞頻統(tǒng)計(jì)的特征權(quán)重計(jì)算方法,通過(guò)計(jì)算詞頻和逆文檔頻率來(lái)計(jì)算特征詞的權(quán)重,在應(yīng)用到文本分類(lèi)時(shí)取得了良好的效果,但是傳統(tǒng)的TF-IDF方法還存在有明顯的缺陷,第一,依賴(lài)于特征詞提取的效果,在特征詞提取準(zhǔn)確率不高的情況下,分類(lèi)性能較低;第二,未考慮特征詞出現(xiàn)的位置信息,默認(rèn)賦予所有特征詞同樣的權(quán)重?;诖?,結(jié)合財(cái)務(wù)文本的特性,本文的主要工作為:
(1)引入了基于去停用詞的N-Gram方法,在豐富特征詞的同時(shí)清除了無(wú)效特征詞帶來(lái)的影響;
(2)引入特征詞位置因子,加重符合文本主題的特征詞的權(quán)重;
(3)提出了基于N-Gram特征詞失效和位置因子和詞頻統(tǒng)計(jì)的TF-IDF方法(SNGTI-LFDF)并在財(cái)務(wù)數(shù)據(jù)集上取得了良好的效果。
1? 相關(guān)工作
為了考慮一個(gè)詞語(yǔ)對(duì)其上若干個(gè)詞語(yǔ)的依賴(lài)關(guān)系,Jestes[4]等人在2013年便提出了N-Gram的概念,N-Gram在保留詞匯的特征信息的同時(shí)也保留了特征詞的位置信息;文獻(xiàn)[5]將N-Gram方法用到計(jì)算機(jī)病毒特征碼的提取中,取得了較好的結(jié)果;文獻(xiàn)[6]在SQL注入檢測(cè)中結(jié)合N-Gram中提取SQL語(yǔ)句固定維數(shù)的特征向量,提高了檢測(cè)率降低了誤報(bào)率;文獻(xiàn)[7]將N-Gram模型結(jié)合卷積神經(jīng)網(wǎng)絡(luò),從而提升了短文本分類(lèi)的分類(lèi)性能。文獻(xiàn)[5-7]的結(jié)果表明,N-Gram方法與特定領(lǐng)域結(jié)合使用時(shí),可以在一定程度上取得較好的效果。
對(duì)于TF-IDF算法來(lái)說(shuō),其核心就是特征詞的權(quán)重計(jì)算,計(jì)算方式為:
其中,wi,k為文本i中的第k個(gè)特征詞的權(quán)重。針對(duì)傳統(tǒng)的TF-IDF算法存在的不足,眾多學(xué)者都其進(jìn)行了研究改進(jìn)。文獻(xiàn)[8]通過(guò)改進(jìn)特征詞權(quán)重計(jì)算,提出詞頻-逆重力矩計(jì)算方法,提升分類(lèi)效果;文獻(xiàn)[9]引入去中心化詞頻因子和特征詞位置因子,加強(qiáng)特征權(quán)重的準(zhǔn)確性;文獻(xiàn)[10]將新詞納入TF-IDF的權(quán)重計(jì)算中,達(dá)到了特征降維的目的,提升了文本分類(lèi)的效果;文獻(xiàn)[11-12]均引入權(quán)重影響因子,對(duì)TF-IDF算法的權(quán)重進(jìn)行優(yōu)化,這些改進(jìn)算法雖然提升了文本分類(lèi)的準(zhǔn)確率,但其在應(yīng)用到財(cái)務(wù)文本分類(lèi)時(shí),由于未結(jié)合財(cái)務(wù)文本特征,還存在著一定的局限性。
2? 改進(jìn)的TF-IDF權(quán)重計(jì)算方法
2.1? 基于停用詞失效的N-Gram方法
N-Gram方法是從一個(gè)句子中提取連續(xù)的N個(gè)字的字符串集合,可以獲取到字的前后信息的同時(shí)還可以提高特征詞提取的豐富程度。例如“資產(chǎn)轉(zhuǎn)移手段”,如果按照傳統(tǒng)的TF-IDF涉及的關(guān)鍵詞計(jì)算過(guò)程,其關(guān)鍵詞信息只有“資產(chǎn)、轉(zhuǎn)移、手段”,但結(jié)合N-Gram方法進(jìn)行詞匯特征的選取,以2-Gram為例,程序和執(zhí)行結(jié)果如下所示:
In[1]: content = “資產(chǎn)轉(zhuǎn)移的手段”
...: ls_word = list(content)
...: bigram = []
...: for i in range(len(ls_word)-1):
...:? ? word = “”
...:? ? ?for j in range(i,i+2):
...:? ? ? ? ?word+=ls_word[j]
...:? ? ?bigram.append(word)
...: print(bigram)
[“資產(chǎn)”,“產(chǎn)轉(zhuǎn)”,“轉(zhuǎn)移”,“移的”,“的手”,“手段”]
由以上結(jié)果可以看出,原來(lái)僅有的3個(gè)特征詞,經(jīng)過(guò)2-Gram的處理變長(zhǎng)到了6個(gè),特征詞的豐富程度得到了極大的提升,但這種方式也帶來(lái)了無(wú)效特征詞的干擾,如上述結(jié)果中的“產(chǎn)轉(zhuǎn)、移的、的手”,這類(lèi)特征詞不僅不具備特定的意義而且還會(huì)對(duì)文本處理的結(jié)果產(chǎn)生干擾,影響文本分類(lèi)的性能。其中部分的無(wú)效特征詞可以通過(guò)一定的手段將其識(shí)別并從特征詞分詞表中刪除,如“移的、的手”兩詞都包含有字符“的”,而“的”通常是描述定語(yǔ)和形容詞之間的修飾關(guān)系,與其組成的詞在語(yǔ)義上無(wú)任何意義,相同的一類(lèi)詞在文本中經(jīng)常出現(xiàn)的還有“是、為、也、了、個(gè)”等,與這些詞組成的特征詞在語(yǔ)義上無(wú)任何意義,因而又被稱(chēng)為停用詞。停用詞失效是指一個(gè)特征詞如果包含有停用詞,那么這個(gè)特征詞是無(wú)意義的,對(duì)文本分類(lèi)結(jié)果產(chǎn)生負(fù)面影響。
基于停用詞失效的N-Gram方法就是在使用N-Gram方法進(jìn)行特征詞劃分選取時(shí),對(duì)特征詞是否包含停用詞進(jìn)行判別,判別公式如式(2)所示:
其中,termi,k指文本i中的第k個(gè)特征詞,validi,k第k個(gè)特征詞的有效性,stw指停用詞。
其具體步驟為:
(1)使用N-Gram方法對(duì)文本處理得到一個(gè)特征詞集合TC;
(2)使用式(2)對(duì)TC中的第k個(gè)特征詞進(jìn)行有效性判定,結(jié)果為T(mén)rue則轉(zhuǎn)到步驟(3);若結(jié)果為False,轉(zhuǎn)到(4);
(3)從TC移除當(dāng)前的第k個(gè)特征詞,TC長(zhǎng)度減1;
(4)k加1,轉(zhuǎn)到(2),直到k值等于TC的長(zhǎng)度,結(jié)束處理過(guò)程。
2.2? 特征詞位置詞頻影響因子
在財(cái)務(wù)文檔中,大多數(shù)文檔都符合中文文本“總分總”的結(jié)構(gòu),即在文本的開(kāi)始和末尾都會(huì)包含符合文本主題的特征詞信息,這類(lèi)特征詞對(duì)文本較為重要,應(yīng)該賦予更高的權(quán)重,所以本文將特征詞的位置信息作為特征詞權(quán)重調(diào)節(jié)的重要影響因子。以1為度量單位,將所有的特征詞以第一次出現(xiàn)的位置排列成一個(gè)序列,取文本序列最中間的位置為原點(diǎn),建立二維直角坐標(biāo)系,x軸存儲(chǔ)特征詞的相對(duì)位置信息,y軸存儲(chǔ)特征詞的詞頻(Term Frequency,TF)信息,以原點(diǎn)為基礎(chǔ),計(jì)算其他特征詞與原點(diǎn)的距離(x軸絕對(duì)距離),距離越大,說(shuō)明其越是位于文本的開(kāi)始或者末尾,應(yīng)該賦予更高的權(quán)重。在一份文檔中,文本的開(kāi)始和末尾包含有若干特征詞,特征詞的TF值可以客觀地反映特征詞對(duì)文本的重要程度,將特征詞位置因子和詞頻因子結(jié)合,距離越遠(yuǎn)、頻次越高的特征詞對(duì)文本更重要,應(yīng)賦予更高的權(quán)重。但在實(shí)際處理過(guò)程中,會(huì)出現(xiàn)某個(gè)特征詞在長(zhǎng)文本中出現(xiàn)的頻次比短文本中出現(xiàn)頻次高,產(chǎn)生偏袒長(zhǎng)文本的現(xiàn)象,因此需要對(duì)TF值進(jìn)行規(guī)范化處理,通過(guò)取特征詞的詞頻和文本中特征詞的總數(shù)的比值定義規(guī)范化公式如式(3)所示:
其中,RTFi,x為規(guī)范化處理后的詞頻值,結(jié)果取兩位小數(shù)點(diǎn),Mi為文本i包含的特征詞的總數(shù),TFi,x為文檔i中位置x的特征詞的詞頻。
將位置因子和詞頻因子結(jié)合,定義位置詞頻(Location Factor Term Frequency,LFDF)影響因子,要增加的文本i中x位置的權(quán)重LFDF值計(jì)算如式(4)所示:
其中,ε為權(quán)重值倍數(shù),范圍在(1,+)之間,η的范圍在(0,D/2)之間,D為序列總長(zhǎng)度。
2.3? SNGTI-LFDF算法
將基于停用詞失效的N-Gram方法與特征詞位置詞頻影響因子相結(jié)合,定義基于停用詞失效和改進(jìn)TF-IDF算法的特征詞權(quán)重計(jì)算算法(SNGTI-LFDF),算法步驟為:
(1)引入N-Gram模型,使用2.1章節(jié)的方法對(duì)特征詞集處理,得到一個(gè)有效特征詞集合;
(2)引入特征詞位置詞頻影響因子,使用式(4)計(jì)算特征詞的LFDF值;
(3)將特征詞的位置詞頻影響因子納入TF-IDF權(quán)重計(jì)算公式中,最終得到SNGTI-LFDF公式,由式(1)和式(4)得:
其中,weighti,k為由SNGTI-LFDF算法計(jì)算的文本i中第k個(gè)特征詞的權(quán)重值。
3? 實(shí)驗(yàn)與結(jié)果分析
3.1? 實(shí)驗(yàn)數(shù)據(jù)
目前公開(kāi)的數(shù)據(jù)集中少有中文財(cái)務(wù)文本檔,本文從國(guó)內(nèi)一些財(cái)經(jīng)網(wǎng)站和相關(guān)金融媒體微博、公眾號(hào)等搜集整理了一個(gè)包含3 720條數(shù)據(jù)的財(cái)務(wù)文本集,其數(shù)據(jù)遵循的格式為:
為了保證出差人員工作和生活的需要,合理使用差旅費(fèi)用,提高出差效率,特制定差旅費(fèi)用報(bào)銷(xiāo)管理制度。
交通工具按標(biāo)準(zhǔn)乘坐,采用實(shí)報(bào)實(shí)銷(xiāo)制……
……
差旅費(fèi)用報(bào)銷(xiāo)制度即日起施行
同時(shí),對(duì)獲取的文檔進(jìn)行分類(lèi)處理,將其劃分為政策類(lèi)、統(tǒng)計(jì)類(lèi)、制度類(lèi)三種類(lèi)型的文本,各類(lèi)文本的測(cè)試集和訓(xùn)練集數(shù)量的劃分如表1所示。
3.2? 實(shí)驗(yàn)步驟
本文采用傳統(tǒng)的TF-IDF算法、文獻(xiàn)[8]中的TF-IDF-DL算法和SNGTI-LFDF算法進(jìn)行特征詞權(quán)重計(jì)算。并使用樸素貝葉斯方法實(shí)現(xiàn)對(duì)文本的分類(lèi),結(jié)合實(shí)驗(yàn)結(jié)果進(jìn)行分析,具體實(shí)驗(yàn)步驟為:
(1)提取特征詞并將生成的特征詞轉(zhuǎn)化詞頻向量;
(2)分別采用傳統(tǒng)TF-IDF、TF-IDF-DL和SNGTI-LFDF算法對(duì)特征詞的權(quán)重進(jìn)行計(jì)算,選取權(quán)重最高的M個(gè)特征詞;
(3)將訓(xùn)練集文本的特征詞送入到樸素貝葉斯分類(lèi)器,訓(xùn)練分類(lèi)器模型;
(4)對(duì)測(cè)試文本按照樸素貝葉斯理論[13]進(jìn)行相似度的計(jì)算,對(duì)最后相似度的大小排序,選擇相似度最大的作為待分類(lèi)文本的類(lèi)別;
(5)對(duì)比分析實(shí)驗(yàn)結(jié)果。使用準(zhǔn)確率、召回率、和F1值作為分類(lèi)器性能的評(píng)估指標(biāo)。其中準(zhǔn)確率指分類(lèi)結(jié)果中正確分類(lèi)為A類(lèi)別的樣本數(shù)占所有分類(lèi)為A類(lèi)別的樣本數(shù)的比例;召回率指分類(lèi)結(jié)果中正確分類(lèi)為A類(lèi)別的樣本數(shù)占實(shí)際為A類(lèi)別的樣本數(shù)的比例;F1值為準(zhǔn)確率和召回率的調(diào)和平均值。
3.3? 實(shí)驗(yàn)對(duì)比
采用SNGTI-LFDF算法進(jìn)行特征詞權(quán)重計(jì)算時(shí),首先需要計(jì)算出需要選取的N-Gram方法中的N值來(lái)完成特征詞的劃分。由于N-Gram方法也適用于所有的權(quán)重計(jì)算方法,本文采用TF-IDF方法對(duì)不同的N值設(shè)定的情況下,財(cái)務(wù)文本集分類(lèi)的準(zhǔn)確率結(jié)果進(jìn)行了計(jì)算驗(yàn)證,結(jié)果如表2所示。由表2可知,分類(lèi)的準(zhǔn)確率、召回率和F1值隨著N值的增加均有上升的趨勢(shì),在N=4時(shí),分類(lèi)的準(zhǔn)確率、召回率和F1值均達(dá)到最高,而后隨著N值的增加分類(lèi)的性能不斷降低,因此可以斷定4為分類(lèi)的一個(gè)峰值,應(yīng)采用4-Gram作為本文的特征詞劃分方法。
3.3.1? 參數(shù)選擇
在文本分類(lèi)中,特征詞的選取直接關(guān)系到文本分類(lèi)的結(jié)果。少量的特征詞不能準(zhǔn)確的表達(dá)文本的主題,造成文本分類(lèi)效果較差,但特征詞數(shù)量過(guò)大,也會(huì)對(duì)實(shí)驗(yàn)產(chǎn)生一定的消極影響。因此在分類(lèi)前,首先要計(jì)算出需要送入樸素貝葉斯分類(lèi)器中的權(quán)重值最高的M個(gè)特征詞數(shù)量M。由于特征詞數(shù)量的選取適用于所有的權(quán)重值計(jì)算方法,因此本文采用傳統(tǒng)的TF-IDF方法在財(cái)務(wù)數(shù)據(jù)集上的文本分類(lèi)的準(zhǔn)確率和時(shí)間兩個(gè)方面綜合考慮M值的選取,圖1為特征詞數(shù)量對(duì)分類(lèi)的準(zhǔn)確率的影響。
假設(shè)文本i中的特征詞的總數(shù)量為D,由圖1可知,當(dāng)選取的特征詞數(shù)量M占總量D的40%左右時(shí)分類(lèi)的準(zhǔn)確率增長(zhǎng)速度開(kāi)始變慢,由圖2可知,當(dāng)M占總量D的50%時(shí),分類(lèi)需要的時(shí)間開(kāi)始急劇增加。因此,為了兼顧文本分類(lèi)的準(zhǔn)確率和時(shí)間性能,本實(shí)驗(yàn)選取中間值45%作為每個(gè)文本作為分類(lèi)的特征詞數(shù)量比例,即M=0.45×D。
此外還需要計(jì)算出特征詞位置信息的影響因子ε和η的值。η值反應(yīng)特征詞的位置信息,ε為加權(quán)因子。本文等比例地從三個(gè)種類(lèi)的財(cái)務(wù)文本集中抽取200個(gè)文本,其中政策類(lèi)財(cái)務(wù)文本70個(gè)、統(tǒng)計(jì)類(lèi)財(cái)務(wù)文本82個(gè),制度類(lèi)財(cái)務(wù)文本48個(gè),對(duì)每個(gè)文本經(jīng)過(guò)4-Gram方法進(jìn)行分詞后,分別計(jì)算每個(gè)財(cái)務(wù)文本的始末特征詞數(shù)量與文本特征詞總數(shù)量的商,得到一個(gè)文本比例數(shù)據(jù)集,經(jīng)過(guò)對(duì)數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)其符合均值μ為0.12,方差σ為0.03的正態(tài)分布,其分布如圖2所示,因此可以假設(shè)所有的財(cái)務(wù)文本的始末特征詞數(shù)量與特征詞總數(shù)量的商也都符合這一分布,即需要根據(jù)位置信息對(duì)特征詞進(jìn)行加權(quán)操作的特征詞數(shù)量占總特征詞數(shù)量的12%,此外,對(duì)這200個(gè)文本進(jìn)行平均特征詞權(quán)重?cái)?shù)量的計(jì)算,得到每個(gè)文本平均特征詞數(shù)量為545,由于這200個(gè)文本是隨機(jī)選取的,可以認(rèn)為整財(cái)務(wù)文本數(shù)據(jù)集中的平均特征詞數(shù)量為545,因此η的最優(yōu)值計(jì)算為545×(1-0.12)/2,即η=240。
在η值確定后,把ε作為變量,對(duì)財(cái)務(wù)文本分類(lèi)的準(zhǔn)確率進(jìn)行了驗(yàn)證,結(jié)果如圖3所示。
由圖3可知,隨著加權(quán)因子ε的增加,文本分類(lèi)的準(zhǔn)確率也會(huì)有一定的提升,但在ε值達(dá)到1.4時(shí),分類(lèi)的準(zhǔn)確率達(dá)到峰值,此后ε值再增加,分類(lèi)的準(zhǔn)確率反而會(huì)降低,因此本文選取ε=1.4作為特征詞權(quán)重的調(diào)節(jié)值。
3.3.2? 結(jié)果分析
完成了對(duì)各個(gè)實(shí)驗(yàn)參數(shù)的求解,分別使用TF-IDF、TF-IDF-DL和SNGTI-LFDF算法對(duì)財(cái)務(wù)數(shù)據(jù)文本進(jìn)行特征詞權(quán)重的計(jì)算,并將訓(xùn)練集文本的特征詞經(jīng)由貝葉斯方法訓(xùn)練得到樸素貝葉斯分類(lèi)器,對(duì)測(cè)試集文本進(jìn)行驗(yàn)證,記錄每個(gè)方法計(jì)算得到的準(zhǔn)確率、召回率和F1值,結(jié)果如圖4所示。
通過(guò)實(shí)驗(yàn)對(duì)比,由圖4可知,SNGTI-LFDF算法在財(cái)務(wù)文本分類(lèi)的準(zhǔn)確率、召回率以及F1值的性能表現(xiàn)方面都較TF-IDF和TF-IDF-DL算法有了較明顯的提升。其中SNGTI-LFDF的準(zhǔn)確率、召回率以及F1值較TF-IDF方法分別提升了20.3%、23.0%和21.7%,較TF-IDF-DL算法分別提升了5.3%、5.0%和5.2%。說(shuō)明SNGTI-LFDF在財(cái)務(wù)文本分類(lèi)中,能適應(yīng)財(cái)務(wù)文本的特征,分類(lèi)效果更好,是一種良好的特征詞權(quán)重計(jì)算方法。
4? 結(jié)? 論
通過(guò)調(diào)研財(cái)務(wù)文本的特征,總結(jié)TF-IDF方法在應(yīng)用到財(cái)務(wù)文本分類(lèi)中存在的不足,引入N-Gram方法進(jìn)行財(cái)務(wù)文本特征詞提取的同時(shí)引入特征詞位置因子對(duì)TF-IDF方法進(jìn)行改進(jìn),提出SNGTI-LFDF算法并結(jié)合樸素貝葉斯方法對(duì)算法的性能進(jìn)行驗(yàn)證。實(shí)驗(yàn)采用自整理的財(cái)務(wù)文本數(shù)據(jù)集,結(jié)果表明該算法在財(cái)務(wù)文本分類(lèi)中取得了較高的準(zhǔn)確率、召回率和F1值,較好地提升了財(cái)務(wù)文本分類(lèi)的效果。
參考文獻(xiàn):
[1] 劉佳明.引入財(cái)務(wù)狀態(tài)分析的上市公司財(cái)務(wù)危機(jī)預(yù)測(cè)方法研究 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.
[2] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展 [J].軟件學(xué)報(bào),2006(9):1848-1859.
[3] QU Z,SONG X,ZHENG S,et al. Improved Bayes Method Based on TF-IDF Feature and Grade Factor Feature for Chinese Information Classification [C]// 2018 IEEE International Conference on Big Data and Smart Computing (BigComp),2018:677-680.
[4] KIM Y,PARK H,SHIM K,et al. Efficient processing of substring match queries with inverted variable-length gram indexes [J]. Information Sciences,2013,244:119-141.
[5] YANG Y,JIANG G P.Improved Method of Computer Virus Signature Automatic Extraction Basedon N-Gram [J]. Computer Science,2017,44(S2):338-341(in Chinese).
[6] 萬(wàn)卓昊,徐冬冬,梁生,等.基于N-Gram的SQL注入檢測(cè)研究 [J].計(jì)算機(jī)科學(xué),2019,46(7):108-113.
[7] WANG H T,HE J,ZHANG X H,et al. A Short Text Classification Method Based on N-Gram and CNN [J]. Chinese Journal of Electronics,2020,29(2):248-254.
[8] CHEN K W,ZHANG Z P,LONG J,et al. Turning from TF-IDF to TF-IGM for term weighting in text classification [J]. Expert Systems With Applications,2016,66:245-260.
[9] 許甜華,吳明禮.一種基于TF-IDF的樸素貝葉斯算法改進(jìn) [J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(2):75-79.
[10] 葉雪梅,毛雪岷,夏錦春,等.文本分類(lèi)TF-IDF算法的改進(jìn)研究 [J].計(jì)算機(jī)工程與應(yīng)用,2019,55(2):104-109+161.
[11] 董蕊芳,柳長(zhǎng)安,楊國(guó)田.一種基于改進(jìn)TF-IDF的SLAM回環(huán)檢測(cè)算法 [J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,49(2):251-258.
[12] 但唐朋,許天成,張姝涵.基于改進(jìn)TF-IDF特征的中文文本分類(lèi)系統(tǒng) [J].計(jì)算機(jī)與數(shù)字工程,2020,48(3):556-560.
[13] LIU P,ZHAO H H,TENG J Y,et al. Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark [J].Journal of Central South University,2019,26(1):1-12.
作者簡(jiǎn)介:孫德華(1994—),男,漢族,河南周口人,碩士研究生在讀,研究方向:自然語(yǔ)言處理。