于游,付鈺,吳曉平
中文文本分類方法綜述
于游,付鈺,吳曉平
(海軍工程大學信息安全系,湖北 武漢 430033)
如何高效地文本分類是當前研究的一個熱點。首先對文本分類概念及流程中的分詞、特征提取和文本分類方法等相關(guān)技術(shù)及研究現(xiàn)狀進行了介紹和闡述,然后分析了現(xiàn)有文本分類相關(guān)技術(shù)面臨的挑戰(zhàn),最后對文本分類的發(fā)展趨勢進行了總結(jié)。
文本分類;分詞;特征選擇
隨著大數(shù)據(jù)、云計算等現(xiàn)代信息技術(shù)的發(fā)展,傳統(tǒng)的紙質(zhì)文檔快速向電子化、數(shù)字化轉(zhuǎn)變。面對大量的數(shù)據(jù)和信息,人們越來越傾向于利用計算機對數(shù)據(jù)和信息進行處理,不但可以提高相關(guān)操作的效率,還可以在一定程度上提高相關(guān)操作的準確度。信息挖掘和檢索、自然語言處理是目前數(shù)據(jù)管理的關(guān)鍵技術(shù),而文本分類則是這些技術(shù)進行操作的重要基礎(chǔ),是目前研究的一個熱點,也是一個難點。傳統(tǒng)的文本分類主要依靠人工完成,費時費力,為提高文本分類的效率、降低成本,文本自動分類技術(shù)已成為當前研究的一個熱點。
文本分類是指按照一定的分類體系或規(guī)則對文本實現(xiàn)自動劃歸類別的過程,在信息索引、數(shù)字圖書管理、情報過濾等領(lǐng)域有廣泛的應(yīng)用[1]。文本分類一般包括文本預(yù)處理、分詞、模型構(gòu)建和分類幾個過程。隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,文本和詞匯呈現(xiàn)出多元化、更新快的特點,這給文本分類帶來了巨大的挑戰(zhàn)。為更加清晰地了解文本分類算法的發(fā)展,本文針對文本分類過程中的相關(guān)技術(shù)和分類方法進行詳細的梳理和分析。
文本分類的一般流程可分為5步,如圖1所示。
圖1 文本分類的一般流程
Step1 對文本進行預(yù)處理,去掉文本中多余的部分,如標點、介詞等。
Step2 對文本進行分詞操作,對預(yù)處理后的文本進行詞切分操作,并識別其中的未登錄詞。
Step3 特征提取和特征選擇,得到文本分詞結(jié)果后,選擇文本特征提取方法,并對特征進行選擇,約簡特征,盡量降低維度,減少后續(xù)計算量。
Step4 文本表示,選擇合適的方法表示選擇的特征,作為分類的依據(jù)。
Step5 文本分類,選擇合理的分類方法對文本進行分類,得到文本類別。其中,分詞方法、特征選擇以及分類算法的選擇是關(guān)鍵。結(jié)合當前文本分類研究現(xiàn)狀,本文主要對分詞方法、特征提取與特征選擇、文本分類方法進行綜述。
分詞是中文文本處理的第一步,指通過一定的規(guī)則和方法將文本中的語句分割成詞。相比于英文,中文詞與詞之間沒有嚴格的分界符,增加了中文分詞的難度。
目前,中文分詞方法主要分為:基于字符串匹配的、基于理解的和基于統(tǒng)計的分詞方法。
(1)基于字符串匹配的分詞方法
基于字符串匹配[2]的分詞方法是指在已有字典的基礎(chǔ)上,按照指定的規(guī)則進行匹配,直到完成規(guī)則中的“最大”匹配,則識別出一個詞。按照匹配的方向不同,基于字符串匹配方式的不同又可以分為:正向最大匹配、逆向最大匹配、雙向最大匹配。
(2)基于理解的分詞方法
基于理解的分詞方法是指利用計算機模擬人對文本的理解,結(jié)合語義、句法等因素處理文本,從而實現(xiàn)分詞。基于理解的分詞方法需要大量的語言知識,由于中文文本自身的復(fù)雜性,該方法目前還難以實施。
(3)基于統(tǒng)計的分詞方法
基于統(tǒng)計的分詞方法[3]是指計算機通過計算字符串在語料庫的出現(xiàn)頻率對其是否構(gòu)成詞進行判斷。隨著大量語料庫的出現(xiàn)及機器學習的不斷發(fā)展,基于統(tǒng)計的分詞方法是目前使用最廣泛的一種分詞方法。
中文文本不同于英文文本,詞與詞之間沒有明顯的區(qū)分,增加了中文分詞的困難。在文本進行分詞處理時,常用的手段主要是:利用分詞工具直接對文本進行分詞操作、利用現(xiàn)有詞典進行分詞操作和通過算法建立分詞模型進而進行分詞操作。常用的分詞工具有:張華平等開發(fā)的ICTCIAS分詞系統(tǒng)[4],其主要思想是通過隱馬爾可夫模型進行分詞,實現(xiàn)已有詞識別、簡單未登錄詞識別、詞性標注等功能,提高了分詞的準確性和效率,NLPIR分詞工具也是以此為基礎(chǔ)開發(fā)的,缺點是標準版本需要付費,提供的接口難以適用于JAVA;Jieba分詞工具是基于Trie樹結(jié)構(gòu)采用動態(tài)規(guī)劃查找最大概率路徑的方法得到分詞結(jié)果,并采用基于隱馬爾可夫模型和Viterbi算法進行未登錄詞識別,是國內(nèi)使用最多的中文分詞工具,缺點是在未登錄詞識別上存在缺陷,大部分需要用戶手動加入詞典;THULAC分詞工具[5]是由清華大學自然語言處理與社會人文計算實驗室研發(fā),具備分詞和詞性標注等功能,計算能力強、速度快、準確率高,缺點是只支持UTF8編碼的中文文本。目前,常用的分詞詞典主要有《同義詞詞林(擴展版)》[6]《現(xiàn)代漢語語義詞典》《現(xiàn)代漢語語義詞典》《知網(wǎng)》[7]和《人民日報語料庫》等。
許多學者針對分詞工具存在的不足展開探索和研究,不斷完善中文文本分詞方法。針對未登錄詞識別問題,文獻[8]提出網(wǎng)絡(luò)輿情中的新詞識別方法,利用網(wǎng)絡(luò)輿情中未被詞典收錄的主題詞的局部高頻這一特性,通過計算異常分詞與周圍分詞之間的粘結(jié)度,識別出未被詞典收錄的主題詞,但該方法僅僅通過單個字分詞對異常分詞進行判斷和召回。文獻[9]針對短文本的特點,通過對條件隨機場中的標記選擇和特征做出了優(yōu)化,提出一種基于條件隨機場的中文文本分詞方法,該算法可有效解決傳統(tǒng)CRF算法標記冗余的問題,并有良好的未登錄詞識別效果,但由于標記選擇的原因,其在不同長度詞的識別上有一定的局限。文獻[10]對未登錄詞識別方法做了進一步改進,利用互信息改進算法,提出一種非監(jiān)督的詞識別方法,結(jié)合規(guī)則,可以在大規(guī)模語料中識別出指定長度的新詞。文獻[11]和文獻[12]都通過LSTM記憶單元和神經(jīng)網(wǎng)絡(luò)模型,對分詞方法進行了改進,改進后的方法有效利用序列長距離信息和上下文信息,但算法復(fù)雜且神經(jīng)網(wǎng)絡(luò)具有黑箱特性,不易于理解。
為提高中文文本分詞的速度,文獻[13]為提高中文分詞的速度,結(jié)合分組散列和正則表達式進行字符截取技術(shù),提出基于分組Hash與變長匹配的中文分詞技術(shù),大幅度降低了算法的時間復(fù)雜度。文獻[14]利用對抗訓練的思想,通過多目標集成學習的方法來學習多個異構(gòu)標準的分詞語料集,利用不同標準的語料來提升分詞的效果,突破傳統(tǒng)側(cè)重于改進使用單個標準的語料下的分詞性能的方法,并通過實驗證明,相比單標準學習方法,模型在每個語料集上的性能都獲得了顯著改進。隨著深度學習技術(shù)不斷發(fā)展,越來越多的學習方法被應(yīng)用到文本分類中。文獻[15]提出了一種CNN雙向GRU-CRF神經(jīng)網(wǎng)絡(luò)模型,突破了傳統(tǒng)方法窗口的限制,有效地利用上下文信息,并通過偏差變量權(quán)重貪婪策略解決了在神經(jīng)網(wǎng)絡(luò)學習中偏量的影響,縮短了中文分詞中模型的訓練時間,但易出現(xiàn)特征稀疏導致的過擬合現(xiàn)象。
近年來,許多學者在基于傳統(tǒng)分詞的基礎(chǔ)上,通過對算法改進和整合,提出多種分詞新方法。但目前實際應(yīng)用中,廣泛使用的分詞手段還是已有的分詞工具進行初步分詞,再結(jié)合未登錄詞識別算法進一步進行操作。
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)用語日新月異,海量新詞匯出現(xiàn),給未登錄詞識別技術(shù)帶來了巨大的挑戰(zhàn),且未登錄詞識別沒有一套標準的規(guī)范,增加了未登錄詞的識別難度。消除歧義詞往往需要利用上下文、語義等信息,而傳統(tǒng)的分詞方法往往忽略了文中的關(guān)聯(lián)信息,給歧義詞消除帶來了困難。分析可得出,中文分詞面臨的困難主要有3點:未登錄詞識別、歧義消除、效能提升。處理中文文本時,分詞往往是處理的第一步,如何快速實現(xiàn)對文本的精準分詞、提高效率,也是當前研究的一個熱點。
特征提取和特征選擇作為特征工程的兩部分,是文本分類算法中的重要一步。特征提取主要是通過屬性間的關(guān)系,改變原特征空間,如組合不同屬性得到新的屬性;特征選擇則是對原特征空間中的特征進行篩選,沒有改變其原屬性。但兩者的核心目的都是為降低特征向量維度,目前常用的特征提取方法有PCA、LDA、SVD;常用的特征選擇方法主要有Filter、Wrapper、Embedded;本文對特征選擇方法做詳細介紹。
(1) Filter法
Filter法[16]的主要思想是通過對每個特征賦予權(quán)重,根據(jù)其重要程度對特征進行選擇。目前常用的Filter法主要有:基于文檔頻率的方法、2統(tǒng)計量法、互信息方法和信息增益方法。
(2) Wrapper法
Wrapper法[17]的實質(zhì)是將特征選擇問題作為尋優(yōu)的問題,通過對不同組合進行評價和比較,選擇出最優(yōu)的特征集合。目前常用的Wrapper方法主要有遺傳算法(GA)、粒子群優(yōu)化(PSO)、優(yōu)化蟻群算法(ACO)。
(3) Embedded法
Embedded法[18]是通過在建立模型的過程中,篩選出對提高模型準確度最有用的特征。
針對傳統(tǒng)特征提取方法存在的不足,眾多學者展開了相關(guān)研究。針對傳統(tǒng)Filter算法存在的不足,文獻[19]提出一種基于特征重要度的文本特征加權(quán)方法,結(jié)合實數(shù)粗糙集理論定義特征重要度,在特征權(quán)重中引入特征對分類的決策信息。文獻[20]和文獻[21]分別采用基于類別分布信息和改進期望交差熵的方法,對特征提取算法進行了改進,可以提取出有較強區(qū)分能力的特征,有效地提高系統(tǒng)的分類效能。文獻[22]針對網(wǎng)頁內(nèi)容,提出一種基于正則表達式的特征選取方法,能夠有效提取其中的強特征。
針對傳統(tǒng)Wrapper方法在特征選擇時存在的不足,對傳統(tǒng)算法進行了改進,取得了顯著效果。文獻[23]為解決高維數(shù)據(jù)處理困難,結(jié)合機器學習方法,提出一種多重遺傳算法的特征選擇方法,可以從大量冗余數(shù)據(jù)中提取出有用的特征信息,但文中的實驗數(shù)據(jù)是通過模擬產(chǎn)生的,在實際數(shù)據(jù)中使用的實驗效果有待進一步驗證。文獻[24]和文獻[25]對粒子群算法進行了優(yōu)化,分別通過社團劃分和開方檢驗的方法對文本特征進行初步篩選,進而通過粒子群方法得到有效特征,提高了算法的準確率,對特征進行降維處理。基于傳統(tǒng)蟻群算法存在的不足,文獻[26]和文獻[27]對蟻群算法做了改進,分別結(jié)合SVM評價方法和線性遞減的方法動態(tài)調(diào)整觀察半徑,制定蟻群算法策略,提高了蟻群算法的效能,避免了傳統(tǒng)算法依賴最大迭代次數(shù)而消耗時間和運算空間的問題。
隨著機器學習和深度學習的不斷發(fā)展,越來越多學者傾向于采用學習的方法對文本特征進行篩選。文獻[28]提出卷積神經(jīng)網(wǎng)絡(luò)增強特征選擇模型,將傳統(tǒng)特征評價方法對特征重要性的理解結(jié)合到神經(jīng)網(wǎng)絡(luò)的學習過程中,能有效地對特征進行選擇。文獻[29]針對如何結(jié)合上下文信息挖掘信息重點,提出了一個序列匹配網(wǎng)。該網(wǎng)絡(luò)通過二維卷積神經(jīng)網(wǎng)和循環(huán)神經(jīng)網(wǎng)的耦合可以很好地對上下文建模并且抓住上下文中的關(guān)鍵點,可以過濾很多冗余信息。文獻[30] 將N-gram信息引入多種主流的詞向量模型中,不僅可以學習到更好的詞向量,同時還能得到高質(zhì)量的N-gram向量,通過構(gòu)建共現(xiàn)矩陣的方法降低N-gram的訓練復(fù)雜性,這些預(yù)訓練的向量對于后續(xù)NLP任務(wù)都是非常有用的資源。為解決文本特征稀疏的問題,學者開始將文本主題引入特征中。文獻[31]在LDA主題模型中引入了詞與詞的關(guān)系,提出了一種基于Topical N-Gram Model的特征提取方法,可通過對分詞粒度的調(diào)整,更加精確地對文本特征進行選擇,大大提升了短文本分類的效果,但該算法仍是以LDA算法為基礎(chǔ)進行詞和主題向量的嵌入,無法避免LDA算法的缺陷,不能有效解決原始文本特征稀疏的問題。文獻[32]提出基于Biterm Topic Model的文本主題表示方法,使用結(jié)構(gòu)化的事件來表示主題,有效地解決了事件稀疏性問題。
面對大量文本樣本時,對其進行處理后得到的特征往往多而雜,這些特征中的大部分是一些無關(guān)特征,如何將其中的有效特征篩選出來,在高維特征中合理地選出高效特征,實現(xiàn)特征降維,從而提高后續(xù)操作的能效,是文本特征選擇面臨的一大挑戰(zhàn)。并且,隨著機器學習和深度學習的不斷發(fā)展,越來越多的方法和手段被應(yīng)用于特征選擇算法中,但其融合的算法往往結(jié)構(gòu)復(fù)雜、計算量大,如何有效降低算法的復(fù)雜度成了特征降維中的又一問題。
文本分類是指利用計算機按照一定的分類標準或體系自動將文本分門別類[33],它不僅是自然語言處理問題,也是一個模式識別問題。所以,研究文本分類問題不僅可以推動自然語言研究的發(fā)展,對人工智能技術(shù)的研究也有重大意義。
文本分類一般分為兩種:基于知識工程(KE,knowledge engineering)的分類方法和基于機器學習(ML,machine learning)的分類方法?;谥R工程的分類方法是指通過專家經(jīng)驗,依靠人工提取規(guī)則進行的分類;基于機器學習的分類方法是指通過計算機自主學習、提取規(guī)則進行的分類。應(yīng)用最早的機器學習方法是樸素貝葉斯[34],隨后,幾乎所有重要的機器學習算法在文本分類領(lǐng)域得到了應(yīng)用,如支持向量機(SVM)[35]、神經(jīng)網(wǎng)絡(luò)[36]和決策樹[37]等。
針對傳統(tǒng)文本分類方法存在的不足,眾多學者對文本分類方法展開研究,對其進行修正和改進?;谏窠?jīng)網(wǎng)絡(luò)算法在自然語言領(lǐng)域處理的優(yōu)越性,文獻[38]分別使用神經(jīng)網(wǎng)絡(luò)算法、KNN算法及SVM算法對Web文本進行分類,結(jié)果顯示神經(jīng)網(wǎng)絡(luò)算法的準確度優(yōu)于其他算法。相比于傳統(tǒng)的分類主要采用有監(jiān)督的方法,依賴于現(xiàn)有的自然語言處理工具容易導致處理過程中的誤差累積問題,文獻[39]提出了基于卷積深層神經(jīng)網(wǎng)絡(luò)的文本語義特征學習方法,利用卷積深層神經(jīng)網(wǎng)絡(luò),自動學習表征實體語義關(guān)系的詞匯特征、上下文特征以及實體所在的句子文本特征等,該方法不需要利用NLP處理工具抽取特征,極大地改善了特征抽取過程中多個處理環(huán)節(jié)所帶來的誤差累積問題,提高了文本分類的準確性。文獻[40]提出了一種基于表觀語義和ASLA的中文文本分類方法。利用百度百科對中文文本的表觀語義進行提取,進而采用pLSA挖掘潛在語義,并計算根據(jù)表觀語義和潛在語義與文檔對類別的相關(guān)程度,該方法能夠很好地處理中文網(wǎng)絡(luò)短文本等不規(guī)則文本的分類。為直接表達文本,文獻[41]提出了一種基于密集網(wǎng)的短文本分類模型,采用one-hot編碼,通過合并和隨機選擇的方法擴大文本特征選擇,解決了特征稀疏、維文本數(shù)據(jù)和特征表示等方面問題。文獻[42]和文獻[43]分別采用改進TF-IDF修改詞向量權(quán)重和人工建立詞典的方法,對文本分類算法進行優(yōu)化,最終利用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器,提高了文本分類的精度,但其對高階特征未進行合理的處置,導致學習的時間復(fù)雜度遠高于傳統(tǒng)的機器學習方法,還有待進一步改善。文獻[44]提出了一種基于深度學習的特征融合模型的文本分類方法,使用卷積神經(jīng)網(wǎng)絡(luò)和雙向門控循環(huán)單元提取s間的語義特征信息,降低文本表示對分類結(jié)果的影響。
表1 各分類算法的優(yōu)缺點
各分類算法的優(yōu)缺點如表1所示。
現(xiàn)有的常用分類方法雖然在某些方面性能上能達到對文本分類的目標要求,但依舊存在算法效率不高、領(lǐng)域針對性差、學習過程易出現(xiàn)過擬合等問題,如何降低學習的時間、提高分類的效率、將不同分類方法的優(yōu)點進行有機結(jié)合、實現(xiàn)高效準確的文本分類已是自然語言處理領(lǐng)域研究的熱點問題。
本文介紹了文本分類概念、流程、關(guān)鍵技術(shù)和分類方法,綜述了現(xiàn)有的研究和解決方法,結(jié)合目前文本分類過程中面臨的挑戰(zhàn),總結(jié)了文本分類相關(guān)技術(shù)發(fā)展趨勢,如下。
1) 對文本特征的表示從離散、高維到連續(xù)、低維發(fā)展。傳統(tǒng)文本分類方法對文本進行描述時,一般通過詞的方式對其進行表示,隨著自然語言處理方法的不斷發(fā)展,文本表示越來越傾向于以短語、句子為中心的主題表示方法,該類方法可有效解決詞表示過程中的稀疏性問題。
2) 對文本的學習由淺層向深層發(fā)展。隨著機器學習和深度學習的不斷發(fā)展,文本處理方法開始由傳統(tǒng)的步驟式向整體學習轉(zhuǎn)變,對文本的理解由淺層分析到深度理解發(fā)展,大量機器學習和深度學習的方法被應(yīng)用到文本分類過程中,如模糊神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)[45]、循環(huán)神經(jīng)網(wǎng)絡(luò)[46]等在文本分類中的應(yīng)用越來越廣泛。
3) 文本分類方法由單一向集成發(fā)展。隨著文本分類技術(shù)的日益成熟,各種文本分類方法的優(yōu)點和不足顯露出來,通過合理地融合不同分類方法,如boosting改進算法等,可以進一步優(yōu)化文本分類方法。
[1] 鄭捷.NLP漢語自然語言處理原理與實踐[M]. 北京: 電子工業(yè)出版社,2017.
ZHENG J. NLP chinese natural language processing principle and practice [M]. Beijing: Publishing House of Electronics Industry, 2017.
[2] 常建秋, 沈煒. 基于字符串匹配的中文分詞算法的研究[J]. 工業(yè)控制計算機, 2016, 29(2): 115-116+119.
CHANG J Q, SHEN W. Research on chinese word segmentation algorithm based on string matching[J]. Industrial control computer, 2016, 29(2): 115-116+119.
[3] 鄒佳倫, 文漢云, 王同喜. 基于統(tǒng)計的中文分詞算法研究[J]. 電腦知識與技術(shù), 2019, 15(4): 149-150+153.
ZOU J L, WEN H Y, WANG T X. Research on chinese word segmentation algorithm based on statistics[J]. Computer Knowledge and Technology, 2019, 15(4): 149-150+153.
[4] 劉群, 張華平, 俞鴻魁, 等. 基于層疊隱馬模型的漢語詞法分析[J]. 計算機研究與發(fā)展, 2004(8): 1421-1429.
LIU Q, ZHANG H P, YU H K, et al. Chinese lexical analysis model using cascading hidden horse model[J]. Journal of Computer Research and Development, 2004(8): 1421-1429.
[5] 孫茂松, 陳新雄, 張開旭, 等. THULAC: 一個高效的中文詞法分析工具包[R]. 2016.
SUN M S, CHEN X X, ZHANG K X et al. THULAC: an efficient Chinese lexical analysis toolkit[R]. 2016.
[6] 熊回香, 葉佳鑫. 基于同義詞詞林的社會化標簽等級結(jié)構(gòu)構(gòu)建研究[J]. 情報雜志, 2018, 37(1): 126-131.
XIONG H X, YE J X. Research onStructure construction of social tags TongYiCi CiLin[J].Journal of Information,2018, 37(1) : 126-131.
[7] XIE R, YUAN X, LIU Z, et al. Lexical sememe prediction via word embeddings and Matrix factorization[C]//The 26th International Joint Conference on Artificial Intelligence. 2017: 4200-4206.
[8] 唐籍濤, 李飛, 郭昌松. 網(wǎng)絡(luò)輿情監(jiān)控中新詞識別問題的研究[J]. 計算機技術(shù)與發(fā)展, 2012, 22(1): 119-121+125.
TANG J T, LI F, GUO C S. Research on new word pattern recognition in network monitoring public opinion[J].Computer Technology and Development, 2012, 22(01): 119-121+125.
[9] 劉澤文, 丁冬, 李春文. 基于條件隨機場的中文短文本分詞方法[J]. 清華大學學報(自然科學版), 2015, 55(08): 906-910+915.
LIU Z W, DING D, LI C W. A chinese short text word segmentation method based on conditional random fields[J]. Journal of Tsinghua University(Science and Technology), 2015, 55(8): 906- 910+915.
[10] 杜麗萍, 李曉戈, 于根, 等. 基于互信息改進算法的新詞發(fā)現(xiàn)對中文分詞系統(tǒng)改進[J]. 北京大學學報(自然科學版), 2016, 52(01): 35-40.
DU L P, LI X G, YU G, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system[J]. Journal of Peking University(Natural Science), 2016, 52(01): 35-40.
[11] 胡婕, 張俊馳. 雙向循環(huán)網(wǎng)絡(luò)中文分詞模型[J]. 小型微型計算機系統(tǒng), 2017, 38(3): 522-526.
HU J, ZHANG J C. Bidirectional recurrent network for chinese word segmentation[J]. Journal of Chinese Computer Systems, 2017, 38(3): 522-526.
[12] ZHANG Y N, XU J N, MIAO G Y, et al. Improving neural chinese word segmentation using unlabeled data[J]. IOP Conference Series: Materials Science and Engineering, 2018, 435(1).
[13] 楊光豹, 楊豐赫, 毛貴軍. 基于分組hash與變長匹配的中文分詞技術(shù)[J]. 計算機時代, 2019(4): 52-55.
YANG G B, YANG F H, MAO G J. Chinese word segmentation technology based on group hash and variable length matching[J]. Computer Age, 2019(4): 52-55.
[14] CHEN X C, SHI Z, QIU X P, et al. Adversarial multi-criteria learning for chinese word segmentation[C]//ACL2017:Computation and Language. 2017.
[15] YU C H, WANG S P, GUO J J. Learning chinese word segmentation based on bidirectional GRU-CRF and CNN network model[J]. International Journal of Technology and Human Interaction (IJTHI), 2019, 15(3).
[16] DARSHAN S L, JAIDHAR C D. Performance evaluation of filter-based feature selection techniques in classifying portable executable files[J]. Procedia Computer Science, 2018, 125: 346-356.
[17] HANCER E. Differential evolution for feature selection: a fuzzy wrapper–filter approach[J]. Soft Computing,2019,23(13): 5233-5248.
[18] MALDONADO S, LóPEZ J. Dealing with high-dimensional class-imbalanced datasets: embedded feature selection for SVM classification[J]. Applied Soft Computing, 2018(67): 228-246.
[19] 劉赫, 劉大有, 裴志利, 等.一種基于特征重要度的文本分類特征加權(quán)方法[J]. 計算機研究與發(fā)展, 2009, 46(10): 1693-1703.
LIU H, LIU D Y, YAN Z L, et al. A Feature weighting scheme for text categorization based on feature importance[J]. Journal of Computer Research and Development, 2009, 46(10): 1693-1703.
[20] 靖紅芳, 王斌, 楊雅輝, 等. 基于類別分布的特征選擇框架[J].計算機研究與發(fā)展, 2009, 46(9): 1586-1593.
JING H F, WANG B, YANG Y H, et al. Category distribution-based feature selection framework [J]. Journal of Computer Research and Development, 2009, 46(9): 1586-1593.
[21] 單麗莉, 劉秉權(quán), 孫承杰. 文本分類中特征選擇方法的比較與改進[J]. 哈爾濱工業(yè)大學學報, 2011, 43(S1): 319-324.
SHAN L L, LIU B Q, SUN C J. Comparison and improvement of feature selection methods in text categorization[J].Journal of Harbin Institute of Technology,2011,43(S1):319-324.
[22] 王正琦, 馮曉兵, 張馳. 基于兩層分類器的惡意網(wǎng)頁快速檢測系統(tǒng)研究[J]. 網(wǎng)絡(luò)與信息安全學報, 2017, 3(8): 48-64.
WANG Z Q, FENG X B, ZHANG C. Study of high-speed malicious web pages detection system based on two-type classifier[J].Journal of Network and Information Security,2017,3(8):48-64.
[23] 蔣勝利. 高維數(shù)據(jù)的特征選擇與特征提取研究[D]. 西安: 西安電子科技大學,2011.
JIANG S L. Research on feature selection and feature extraction of high dimensional data[D]. Xi’an: Xidian University, 2011.
[24] 李煒, 巢秀琴. 改進的粒子群算法優(yōu)化的特征選擇方法[J]. 計算機科學與探索, 2019, (6): 990-1004.
LI W, CAI X Q. Improved particle swarm optimization method for feature[J]. Journal of Frontiers of Computer Science and Technology, 2019, (6): 990-1004.
[25] 路永和, 曹利朝. 基于粒子群優(yōu)化的文本特征選擇方法[J]. 現(xiàn)代圖書情報技術(shù), 2011, (Z1): 76-81.
LU Y H, CAO L C. Text feature selection method based on particle swarm optimization[J]. New Technology of Library and Information Service, 2011, (Z1): 76-81.
[26] 張杰慧, 何中市, 王健, 等. 基于自適應(yīng)蟻群算法的組合式特征選擇算法[J]. 系統(tǒng)仿真學報, 2009, 21(6): 1605-1608+1614.
ZHANG J H, HE Z S, WANG J, et al. Hybrid feature selection algorithm based on adaptive ant colony algorithm[J]. Journal of System Simulation, 2009, 21(6): 1605-1608+1614.
[27] 張海濤. 基于文本降維和蟻群算法的文本聚類研究[D]. 合肥: 安徽大學, 2016.
ZHANG H T. Research on text clustering based on text dimension reduction and ant colony algorithm [D]. Hefei: Anhui University, 2016.
[28] 盧泓宇, 張敏, 劉奕群, 等. 卷積神經(jīng)網(wǎng)絡(luò)特征重要性分析及增強特征選擇模型[J]. 軟件學報, 2017, 28(11): 2879-2890.
LU Y Y, ZHANG M, LIU Y Q, et al. Convolutional neural networks importance analysis and feature selection enhanced model [J]. Journal of Software, 2017, 28(11): 2879-2890.
[29] WU Y, WU W, XING C, et al. Sequential matching network: a new architecture for multi-turn response selection in retrieval-based chatbots[C]//ACL 2017: Computation and Language. 2017.
[30] ZHAO Z,LIU T, LI S, et al. Ngram2vec: learning improved word representations from ngram co-occurrence statistics[C]//Conference on Empirical Methods in Natural Language Processing. 2017: 244-253.
[31] 趙芃. 基于主題模型與深度學習的短文本特征擴展與分類研究[D]. 天津: 天津工業(yè)大學, 2018.
ZHAO P. Research on short text feature expansion and classification based on topic model and deep learning [D]. Tianjin: Tianjin Polytechnic University, 2018.
[32] 孫銳, 郭晟, 姬東鴻. 融入事件知識的主題表示方法[J].計算機學報,2017,40(4):791-804.
SUN R, GUO W, JI D H. Topic representation integrated method of integrating with event knowledge[J].Chinese Journal of Computers, 2017, 40(4): 791-804.
[33] 李森, 馬軍, 趙嫣, 等. 對數(shù)字化科技論文的自動分類研究[J].山東大學學報(理學版), 2006(3): 81-84.
LI S, MA J, ZHAO Y, et al. Automatic classification of digital science and technology papers[J]. Journal of Shandong University(Science Edition), 2006(3): 81-84.
[34] CUI W. A chinese text classification system based on naive bayes algorithm[C]//MATEC Web of Conferences. 2016: 1015.
[35] ZHANG M Y, AI X B, HU Y Z. Chinese text classification system on regulatory information based on SVM[C]//IOP Conference Series: Earth and Environmental Science. 2019: 252.
[36] SAHA D. Web text classification using a neural network[C]//2011 Second International Conference on,2011.
[37] 雷飛. 基于神經(jīng)網(wǎng)絡(luò)和決策樹的文本分類及其應(yīng)用研究[D]. 成都: 電子科技大學, 2018.
LEI F. Text research on text classification based on neural network and decision tree and its application [D]. Chengdu: University of Electronic Science and Technology of China, 2018.
[38] 周樸雄.基于神經(jīng)網(wǎng)絡(luò)集成的Web文檔分類研究[J]. 圖書情報工作, 2008, (7): 110-112.
ZHOU P X. Study on Web document classification based on neural network integration[J]. Library and Information Service, 2008, (7): 110-112.
[39] ZENG D J, LIU K, LAI S W, et.cl. relation classification via convolutional deep neural network[C]//The 25th international Computational Linguistics: 2014: 2335-2344.
[40] CHEN Y W, WANG J L, CAI Y Q , et al. A method for chinese text classification based on apparent semantics and latent aspects[J]. Journal of Ambient Intelligence and Humanized Computing, 2015, 6(4): 473-480.
[41] LI H M, HUANG H N, CAO X, et al. Falcon: a novel chinese short text classification method[J]. Journal of Computer and Communications, 2018, 6: 216-226.
[42] 王根生, 黃學堅. 基于Word2vec和改進型TF-IDF的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型[J]. 小型微型計算機系統(tǒng), 2019, 40(5): 1120-1126.
WANG G S, HUANG X J. Convolutional neural network text classification model based on Word2vec and improved TF-IDF[J]. Journal of Chinese Computer Systems, 2019, 40(5): 1120-1126.
[43] 王磊. 基于混合神經(jīng)網(wǎng)絡(luò)的中文短文本分類方法研究[D]. 杭州: 浙江理工大學, 2019.
WANG L. Research on chinese short text classification based on hybrid neural network[D]. Hangzhou: Zhejiang University of Science and Technology, 2019.
[44] JIN W Z, ZHU H, YANG G C. An efficient character-level and word-level feature fusion method for chinese text classification[C]// Journal of Physics: Conference Series. 2019: 12057.
[45] WANG P, XU B, XU J M, et al. Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J]. Neurocomputing, 2016, 174: 806-814.
[46] 龔千健. 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的文本分類[D]. 武漢: 華中科技大學, 2016.
GONG Q J. Text Classification based on recurrent neural network model[D]. Wuhan: Huazhong University of Science and Technology, 2016.
Summary of text classification methods
YU You, FU Yu, WU Xiaoping
Department of Information Security, Naval University of Engineering, Wuhan 430033, China
How to effectively classify text has become a hot topic. Firstly, the concept of text classification, word segmentation, feature extraction and text classification methods were introduced, and the research actuality was summarized. And then the challenges of text classification related technologies were analyzed. Finally, the development trend of text classification was summarized.
text classification, word segmentation, feature selection
于游(1995? ),女,山東威海人,海軍工程大學碩士生,主要研究方向為信息安全。
付鈺(1982? ),女,湖北武漢人,博士,海軍工程大學副教授,主要研究方向為信息安全風險評估。
吳曉平(1961? ),男,山西新絳人,博士,海軍工程大學教授、博士生導師,主要研究方向為系統(tǒng)分析與決策。
TP391
A
10.11959/j.issn.2096?109x.2019045
2019?05?25;
2019?08?09
于游,874354471@qq.com
國家自然科學基金資助項目(No.61672531)
The National Natural Science Foundation of China (No.61672531)
于游, 付鈺, 吳曉平. 中文文本分類方法綜述[J]. 網(wǎng)絡(luò)與信息安全學報, 2019, 5(5): 1-8.
YU Y, FU Y, WU X P. Summary of text classification methods[J]. Chinese Journal of Network and Information Security, 2019, 5(5): 1-8.