国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本分類及算法綜述

2012-01-01 00:00:00張征杰王自強
電腦知識與技術(shù) 2012年4期


  摘要:為了能在海量的文本中及時準確地獲得有效的信息,文本分類技術(shù)受到了廣泛的關(guān)注。該文概括地介紹了文本分類的一般分類過程,詳細闡述文本表示、特征選取和權(quán)重的計算,并對幾種典型文本分類算法的基本思想、優(yōu)缺點等進行了討論。
  關(guān)鍵詞:文本分類;文本表示;向量空間模型;特征選擇;權(quán)重;分類算法
  中圖分類號:TP301文獻標識碼:A文章編號:1009-3044(2012) 04-0825-04
  在當今的信息社會,各種形式的信息都得到了極大的豐富了我們的生活,尤其隨著Internet的大規(guī)模普及,網(wǎng)絡(luò)上的信息量在飛速增長當中,如各種電子文檔、電子郵件和網(wǎng)頁充滿網(wǎng)絡(luò)上,從而造成信息雜亂。為了快速、準確、全面地找到我們所需要的信息,文本分類成為了有效組織和管理文本數(shù)據(jù)重要方式,越來越受到廣泛的關(guān)注。文本分類在信息檢索、信息過濾、搜索引擎、文本數(shù)據(jù)庫、數(shù)字化圖書館等領(lǐng)域得到廣泛的應(yīng)用。
  1文本分類的一般過程
  文本分類是一個有指導的學習過程,它根據(jù)一個已經(jīng)被標注的訓練文本集合,找到文本屬性(特征)和文本類別之間的關(guān)系模型(分類器),然后利用這種學習得到的關(guān)系模型對新的文本進行類別判[1]。文本分類的過程總體可劃分為訓練和分類兩部分。訓練的目的是通過新本和類別之間的聯(lián)系構(gòu)造分類模型,使其用于分類。分類過程是跟據(jù)訓練結(jié)果對未知文本進行分類,給定類別標識的過程。具體流程圖如圖1:
  2文本預(yù)處理
  文本預(yù)處理是從文本中提取關(guān)鍵詞來表示文本的處理過程,它的主要任務(wù)是進行中文分詞和去停用詞。不同于英文中詞與詞之間是靠空格隔開,中文文本的自然語言中詞與詞間沒有明顯的切分標志,所以首先要對文本進行分詞處理。中文分詞方法主要有基于字符串匹配的方法、基于理解的方法和基于統(tǒng)計的方法[2]。
  基于字符串匹配的分詞方法是按照一定的策略將待分析的字符串與一個機器詞典中的詞條進行匹配,若從詞典中找到某個字符串,則匹配成功。依據(jù)不同的掃描方向,可分為正向匹配和逆向匹配;依據(jù)不同長度優(yōu)先匹配的情況,可分為最大匹配和最小匹配。
  基于理解的分詞方法是通過讓計算機仿照人對句子的理解方式,從而達到識別詞的效果。其基本思想就是在分詞的同時進行句法和語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。
  基于統(tǒng)計的分詞方法是測試字與字相鄰共現(xiàn)的頻率,并把它作為成詞的可信度評價標準。具體做法是先統(tǒng)計語料庫中相鄰共現(xiàn)的各個字的組合頻度,計算它們的互信息。因為互信息體現(xiàn)了漢字之間結(jié)合關(guān)系的關(guān)聯(lián)程度,當關(guān)聯(lián)程度高于某一個閾值時,便認為這些字組可能構(gòu)了一個詞。
  目前歧義詞和新詞是中文分詞面臨的最大困難所在。前者要解決自然語言理解的問題,根據(jù)上下文環(huán)境,在不同切分結(jié)果中選擇最優(yōu)解:后者要解決詞典中未收錄詞(如人名、地名、機構(gòu)名等)的識別[2]。
  停用詞通常指在各類文本中都頻繁出現(xiàn),因而被認為帶有很少的有助于分類任何信息的代詞、介詞、連詞等高頻詞。通過構(gòu)造一個停用表,在特征提取過程中刪除停用表中出現(xiàn)的特征詞。
  3文本的表示
  4特征項的選擇和特征權(quán)重
  通常原始特征空間維數(shù)非常高,且存在大量冗余的特征,因此需要進行特征降維。特征選擇是特征降維中的其中一類,它的基本思路:根據(jù)某種評價函數(shù)獨立地對每個原始特征項進行評分,然后按分值的高低排序,從中選取若干個分值最高的特征項,或者預(yù)先設(shè)定一個閾值,把度量值小于閾值特征過濾掉,剩下的候選特征作為結(jié)果的特征子集。
  文本分類中常用的特征選擇方法有:文檔頻次、互信息量、信息增益、χ2統(tǒng)計量(CHI)等方法[6]。
  4.1文檔頻率(DF:Document Frequency)
  文檔頻率指訓練集中包含該特征的文本總數(shù)。所謂包含特征的文本是指這個特征在該文本中是否出現(xiàn),而忽略其出現(xiàn)次數(shù)。采用文檔頻率基于如下假設(shè):文檔頻率值低于某個閾值的詞條是低頻詞,可認為它們不包含有類別信息(不具有分類的能力),將這樣的詞條從原始特征空間中除去,能夠降低特征空間的維數(shù)從而提高分類精度。
  文檔頻率是最簡單的特征選擇技術(shù),由于其具有相對于訓練語集規(guī)模的線性計算復(fù)雜度,它能夠容易地被用于大規(guī)模語料統(tǒng)計。但是在信息抽取研究中卻通常認為DF值低的詞條相對于DF值高的詞條具有較多的信息量,將這些詞條從特征空間中移除會降低分類器的準確率[5]。
  4.2信息增益(IG:Information Gain)
  信息增益在機器學習領(lǐng)域被廣泛使用,它通過特征詞在文本中出現(xiàn)和不出現(xiàn)前后的信息量之差來推斷該特征詞所帶的信息量。采用如下公式:
  距離越小,兩篇文本的相關(guān)程度就越高,反之,相關(guān)程度越低。
  在Rocchio算法中,訓練過程是為了生成所有類別的中心向量,而分類階段中,系統(tǒng)采用最近距離判別法把文本分配到與其最相似的類別中從而判別文本的類別。所以,如果類間距離比較大而類內(nèi)距離比較小的類別分布情況,此方法能達到較好的分類效果,反之,類中心最小距離算法效果比較差。但由于其計算簡單、迅速、容易實現(xiàn),所以它通常用來實現(xiàn)衡量分類系統(tǒng)性能的基準系統(tǒng),而很少采用這種算法解決具體的分類問題。
   5.4決策樹
  決策樹(Decision Tree)基本思路是建立一個樹形結(jié)構(gòu),其中每個節(jié)點表示特征,從節(jié)點引出的每個分支為在該特征上的測試輸出,而每個葉節(jié)點表示類別[8]。大致需要下面幾個步驟:
  1)根據(jù)信息增益法在特征集中選取信息增益最高特征項作為當前節(jié)點的測試屬性;
  3)按測試屬性(特征權(quán)重)不同取值建立分支;
  3)對各子集遞歸進行以上兩步操作建立決策樹節(jié)點的分支,直到所有子集僅包含同一類別的數(shù)據(jù)為止;
  4)對決策樹進行剪枝,生成更緊湊的決策樹。
  決策樹算法的核心問題是選取測試屬性和決策樹的剪枝。除了常用的信息增益法,選擇測試屬性的依據(jù)還有熵、距離度量、G統(tǒng)計、卡方統(tǒng)計和相關(guān)度等度量方法。從決策樹的根節(jié)點到每個葉節(jié)點的每一條路徑形成類別歸屬初步規(guī)則,但其中一些規(guī)則準確率較低,需要對此決策樹進行剪枝。
  決策樹實際上是一種基于規(guī)則的分類器,其含義明確、容易理解,因此它適合采用二值形式的文本描述方法。但當文本集較大時,規(guī)則庫會變得非常大和數(shù)據(jù)敏感性增強會容易造成過分適應(yīng)問題。另外,在文本分類中,與其它方法相比基于規(guī)則的分類器性能相對較弱。
  5.5人工神經(jīng)網(wǎng)絡(luò)
  人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)是一種按照人腦的組織和活動原理而構(gòu)造的一種數(shù)據(jù)驅(qū)動型非線性模型。它由神經(jīng)元結(jié)構(gòu)模型、網(wǎng)絡(luò)連接模型、網(wǎng)絡(luò)學習算法等幾個要素組成,是具有某些智能功能的系統(tǒng)。在文本分類中,神經(jīng)網(wǎng)絡(luò)是一組連接的輸入輸出神經(jīng)元,輸入神經(jīng)元代表詞條,輸出神經(jīng)元表示文本的類別,神經(jīng)元之間的連接都有相應(yīng)的權(quán)值。訓練階段,通過某種算法,如正向傳播算法和反向修正算法,調(diào)整權(quán)值,使得測試文本能夠根據(jù)調(diào)整后的權(quán)值正確地學習。從而得到多個不同的神經(jīng)網(wǎng)絡(luò)模型,然后令一篇未知類別的文本依次經(jīng)過這些神經(jīng)網(wǎng)絡(luò)模型,得到不同的輸出值,通過比較這些輸出值,最終確定文本的類別。
  6分類性能評估
  分類器性能評估通常采用評估指標來衡量,評估指標是在測試過程中所使用的一些用來評價分類準確度的量化指標,文本分類中常用的性能評估指標有查全率又稱召回率(Recall)、查準率又稱準確率(Precision)和F1標準。
  查全率是衡量所有實際屬于某個類別的文本被分類器劃分到該類別中

隆安县| 青岛市| 晋江市| 恩施市| 永定县| 清水河县| 繁昌县| 香河县| 龙陵县| 鄂托克前旗| 通辽市| 福泉市| 渭源县| 枣庄市| 永寿县| 伊宁市| 张家港市| 博白县| 洪湖市| 宁津县| 社旗县| 平和县| 涞源县| 海丰县| 木兰县| 靖州| 马关县| 保康县| 交城县| 泾源县| 浦县| 唐山市| 息烽县| 南靖县| 万州区| 乌鲁木齐县| 离岛区| 磐石市| 古丈县| 乡城县| 周至县|