国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

論文本分類中特征選擇方法

2009-07-15 09:54:02張小艷宋麗平
現(xiàn)代情報 2009年3期
關(guān)鍵詞:文本分類語義特征特征選擇

張小艷 宋麗平

〔摘 要〕文本分類技術(shù)在信息過濾和信息檢索中有著重要應(yīng)用。文本表示技術(shù)是文本分類中的首要任務(wù),特征選擇技術(shù)又是文本表示中的核心技術(shù),對分類效果起著至關(guān)重要的作用。本文介紹了文本表示和特征選擇技術(shù)的發(fā)展,并在詳細分析目前各種文本表示和特征選擇的方法和技術(shù)特點基礎(chǔ)上,比較了各種方法的適用性和優(yōu)缺點,最后總結(jié)出了文本表示和特征選擇技術(shù)研究的方向和目標(biāo)。

〔關(guān)鍵詞〕文本分類;文本表示;特征選擇;語義特征

〔中圖分類號〕G20 〔文獻標(biāo)識碼〕B 〔文章編號〕1008-0821(2009)03-0131-03

文本分類,是將自然文本文件根據(jù)內(nèi)容自動分為預(yù)先定義的一個或者幾個類別的過程。它是一種有指導(dǎo)的學(xué)習(xí),根據(jù)一個已經(jīng)被標(biāo)注的訓(xùn)練文檔集合,找到文檔特征和文檔類別之間的關(guān)系模型,然后利用這種學(xué)習(xí)到的關(guān)系模型對未被標(biāo)注的文檔進行類別判斷。文本分類作為信息過濾、信息檢索、文本數(shù)據(jù)庫、數(shù)字化圖書館和郵件分類等領(lǐng)域的技術(shù)基礎(chǔ),有著廣泛的應(yīng)用前景[1-2]。

在文本分類中,一般來說,把文本表示為向量形式,其訓(xùn)練文本集中的特征項可能多達數(shù)萬個,這些特征中的任何一個都對實現(xiàn)正確的分類有著它的貢獻。但是,在這些大量的特征中肯定還包含著許多彼此相關(guān)的特征,這些相關(guān)的特征是冗余的,是可以去除的。過大的特征空間會導(dǎo)致樣本統(tǒng)計特性的評估變得更加困難,從而降低分類器的泛化能力,出現(xiàn)“過學(xué)習(xí)”的現(xiàn)象。而且這種高維向量的處理具有極高的計算復(fù)雜度,尤其是會產(chǎn)生所謂的“維數(shù)災(zāi)難”問題。因此,如何保留對分類器有重要貢獻的特征,去除冗余的特征,以減少特征總數(shù),即如何進行維數(shù)約簡,已成為一個日益重要的研究領(lǐng)域。

1 文本表示

1.1 文本表示技術(shù)

文本表示是指用簡單而準(zhǔn)確的方法將文檔表示成計算機能夠處理的形式,中文文本信息多數(shù)是無結(jié)構(gòu)化的,并且使用自然語言,很難被計算機處理。因此,如何準(zhǔn)確地表示中文文本是影響分類性能的主要因素。現(xiàn)有的用于文本分類的文本表示模型主要包括:布爾模型、概率模型、向量空間模型[3]。

1.1.1 布爾模型

布爾模型是基于特征項的嚴(yán)格匹配模型。首先,建立一個二值變量的集合,這些變量對應(yīng)于文本的特征項。文本用這些特征變量來表示,如果出現(xiàn)相應(yīng)的特征項,特征變量取“True”,否則取“False”,文本的匹配規(guī)則遵循布爾運算的法則。

該模型的主要優(yōu)點是:速度快;易于表達一定程度的結(jié)構(gòu)化信息,如同義關(guān)系或詞組。其缺點是:把布爾模型作為文本的表示很不精確,不能反映特征項對于文本的重要性,缺乏定量的分析;過于嚴(yán)格,缺乏靈活性,更談不上模糊匹配,這樣對于特征不明顯的文本就無法處理。

1.1.2 概率模型

文本分類的概率模型是基于概率排序原則,對于給定類別特征,對所有文本計算概率,并從大到小進行排序,概率公式為P(R|D,Q)。其中,R表示文本D與類別特征Q相關(guān)。另外,用R′表示文本D與類別特征Q不相關(guān)。在該模型中,文本向量只采用簡單的二值形式,沒有利用文本中的更多信息,比如特征在文本中出現(xiàn)的頻率。在該模型的基礎(chǔ)上,擴展出許多模型,如Fuhr模型和Croft模型。Fuhr提出了概率索引模型,沒有更多的參數(shù)估計問題,對文本的表示也更加詳細。Croft模型體現(xiàn)了面向描述的這種索引思想。

概率相關(guān)模型的優(yōu)點在于體現(xiàn)了文本信息相關(guān)性判斷的不確定性和信息表示的模糊性,但這種模型對所處理的文本集依賴過強,而且處理問題過于簡單。

1.1.3 向量空間模型(VSM)

VSM是近年來應(yīng)用最多且效果較好的文本表示方法之一,向量空間模型把文本表示成n維歐式空間的向量,把文本中的特征詞看作空間中一個向量,每一向量的坐標(biāo)分量是此特征詞在對應(yīng)類別中的權(quán)重。

向量空間模型的優(yōu)點在于:只需要通過簡單的頻數(shù)統(tǒng)計就可以在一定程度上表示出文本中蘊涵的語義信息。但是在該模型中,文本向量空間被看作是由一組正交詞條向量所組成的向量空間,而這種方法的假設(shè)前提是:詞與詞之間沒有語義聯(lián)系。但現(xiàn)實文本中的用詞往往是有關(guān)聯(lián)的,比如同義詞、上下位關(guān)系等,即存在“斜交”現(xiàn)象,很難滿足假設(shè)前提,因此對計算結(jié)果的可靠性造成一定的影響。使用該模型處理海量文本信息必將帶來兩個問題:一是表示文本的特征向量維數(shù)過高;二是各個特征所包含的語義信息過于具體,特征之間的語義關(guān)聯(lián)被忽略。

1.2 語義表示模型

由于以上模型先天的缺陷,缺少對文檔主題思想和語義的分析,目前,已出現(xiàn)了將語義信息應(yīng)用到文本分類方面的方法。如:Koller和Sahami[4]提出了利用層次化主題結(jié)構(gòu)將分類的任務(wù)分解成若干個子任務(wù),再完成各個子任務(wù),達到分類的目的,因為子任務(wù)的訓(xùn)練文本集合一般較小,這樣自然就避免了文檔特征向量高維度問題的出現(xiàn)。文本的幾種基于語義的表示方法有:

1.2.1 基于邏輯的語義表示方法

基于邏輯的語義表示方法是把一句話中的多個詞義組合起來,采用一種與一階謂詞演算相似的語言來表示句子意義。項用于表示世界中的個體或?qū)嶓w,而命題用于對世界上的實體做出斷言。項主要有兩類,即常量和函數(shù)。常量大多數(shù)情況下接近于自然語言中的專有名詞,函數(shù)對應(yīng)于表示實體的特征或者對應(yīng)于表示實體間關(guān)系的名詞短語。

該方法引入了廣義量詞來解決單句的歧義問題,但是其動詞都映射到對應(yīng)的意義中,這些意義在邏輯形式中充當(dāng)謂詞,雖然該方法能處理各種不同的形式,卻失去了普遍性,還有一些性質(zhì)很難處理。

1.2.2 格角色表示法

格角色通過增加更多和事件有關(guān)的謂詞把新的修飾語不斷加入到基本表達式中,這樣只定義動詞的一種意義就可以處理幾種情況。動詞及其參數(shù)之間存在一組抽象的語義關(guān)系,即格角色。

格角色表示法將諸如主語、賓語等語法關(guān)系表層結(jié)構(gòu)上的概念,發(fā)展到用施事、受事、工具、受益等概念所表示的句法語義關(guān)系,也就是語言的底層。但由于格角色是圍繞動詞展開的,漢語的一些無動句、流水句、連動句、緊縮、動補、省略等結(jié)構(gòu),無法用統(tǒng)率一個句子的模式來描述,其中連動句和兼語句尤為突出。

1.2.3 語義網(wǎng)絡(luò)表示法

語義網(wǎng)絡(luò)是由帶標(biāo)記的鏈和帶標(biāo)記的結(jié)點組成的圖。結(jié)點表示詞義或抽象意義類型,鏈表示意義間的語義關(guān)系。在語義網(wǎng)絡(luò)中所有的動作都可以有一個由有生命的對象充當(dāng)?shù)氖┦赂?,并引入一個新的結(jié)點類型,即存在結(jié)點,用框表示,代表一個特定的值。

語義網(wǎng)絡(luò)表示法表示語義信息成網(wǎng)絡(luò)化的一面,而且它能夠使聯(lián)想式推理在其上得到很好的發(fā)揮,為進行復(fù)雜推理打下了堅實的基礎(chǔ)。它很接近人類思維,但是不能正確表示類屬關(guān)系。

1.2.4 框架表示法

框架就是描述一些典型的對象或情境的一組事實或?qū)ο螅约皩η榫尺M行推理的特定的推理策略。這里表示的情境包括可見的場景、復(fù)雜物理對象的結(jié)構(gòu)以及可執(zhí)行某一特定行為的典型方法,其關(guān)鍵的理念是通過信息的聚類來刻畫常見的對象和情境的屬性。

框架表示法最突出的特點是善于表達結(jié)構(gòu)性的知識,體現(xiàn)了人們在觀察事物時的思維活動,并通過使槽值為另一個框架的名字實現(xiàn)框架間的聯(lián)系,建立起表示復(fù)雜知識的框架網(wǎng)絡(luò),這樣不僅減少了知識的冗余,而且較好地保證了知識的一致性。主要不足之處是不善于表達過程性的知識。

2 特征提取技術(shù)

隨著文本分類研究的深入,特征選擇方法也有了較大發(fā)展,現(xiàn)有的一些主要的特征選擇算法有:基于評估函數(shù)的特征提取方法、考慮相關(guān)性的特征提取方法、語義特征提取的方法[5]。

2.1 基于評估函數(shù)的特征提取方法

這類算法是在特征獨立的假設(shè)基礎(chǔ)上,通過構(gòu)造評估函數(shù),對特征集合中的每個特征進行獨立評估,并對每個特征打分。然后將所有特征按分值大小排序,提取預(yù)定數(shù)目的最優(yōu)特征作為提取結(jié)果的特征子集。顯然,對于這類型算法,決定特征提取效果的主要因素是評估函數(shù)的質(zhì)量。

2.2 考慮相關(guān)性的特征提取方法

基于評估函數(shù)的特征提取方法是建立在特征獨立的假設(shè)基礎(chǔ)上,但在實際中這個假設(shè)是很難成立的,因此需要考慮特征相關(guān)條件下的文本特征提取方法。

2.2.1 基于馬可夫條件集的特征空間后向搜索

J.Pearl提出馬可夫條件集的概念,對特征空間進行后向搜索,刪除那些當(dāng)已知其他特征時,其所含類信息最少的無關(guān)特征。但困難的是馬可夫條件集的尋找和建立。

2.2.2 基于SVM的特征提取

Joachims等人將SVM應(yīng)用于特征提取研究中,SVM對于特征相關(guān)性和稀疏性不敏感,并且處理高維問題具有其他機器學(xué)習(xí)方法不可比擬的優(yōu)勢,不必利用評估函數(shù)進行特征選擇,線性支持向量機就可以達到很好的分類效果?;谥С窒蛄康奈谋咎卣魈崛》椒軌蜃R別每個類別的重要特征和噪音特征。一個文本特征是不是噪音特征,可以由該特征在支持向量中的權(quán)值以及支持向量的性質(zhì)決定,利用支持向量對文本特征的重要性進行評估。

2.3 語義特征提取的方法

2.3.1 基于語境框架的文本特征提取方法

基于語境框架的文本特征提取方法[6]是一種新的處理Web文本的語義形式化模型。語境框架是一個三維的語義描述,把文本內(nèi)容抽象為領(lǐng)域(靜態(tài)范疇)、情景(動態(tài)描述)、背景(褒貶、參照等)3個框架。在語境框架的基礎(chǔ)上,從語義分析入手,實現(xiàn)了4元組表示的領(lǐng)域提取算法、以領(lǐng)域句類為核心的情景提取算法和以對象語義立場網(wǎng)絡(luò)圖為基礎(chǔ)的褒貶判斷。該方法可以有效地處理語言中的褒貶傾向、同義、多義等現(xiàn)象,表現(xiàn)出較好的特征提取能力。

2.3.2 基于本體論的文本提取方法

基于本體論的文本提取方法[7]應(yīng)用本體論模型可以有效地解決特定領(lǐng)域知識的描述問題。算法充分考慮特征詞的位置以及相互之間關(guān)系的分析,利用特征詞統(tǒng)領(lǐng)長度的概念和計算方法,能夠更準(zhǔn)確地進行特征詞權(quán)值的計算和文本特征的提取。

2.3.3 基于知網(wǎng)的概念特征提取方法

基于知網(wǎng)的概念特征提取方法[8]是對于Web文本的處理,尤其是中文文本處理,字、詞、短語等特征項是處理的主要對象。該方法是在VSM的基礎(chǔ)上,對文本進行部分語義分析,利用知網(wǎng)獲取詞匯的語義信息,將語義相同的詞匯映射到同一概念,進行概念聚類,并將概念相同的詞合并成同一詞。用聚類得到的詞作為文檔向量的特征項,能夠比普通詞匯更加準(zhǔn)確地表達文檔內(nèi)容,減少特征之間的相關(guān)性和同義現(xiàn)象。這樣可以有效降低文檔向量的維數(shù),減少文檔處理計算量,提高特征提取的精度和效率。

2.4 特征提取方法性能比較

基于統(tǒng)計的特征提取方法,具有算法簡單、易于實現(xiàn)、過濾速度快、不依賴具體領(lǐng)域和語言等優(yōu)點。傳統(tǒng)評估函數(shù)的特征提取方法獨立地對每個特征評估打分,雖然可以選出各個類中的重要特征,但是卻不能判斷噪音特征和刪除無效特征。向量空間模型最基本的假設(shè)是各個分量間正交,但作為分量的詞匯間存在很大的相關(guān)性,無法滿足模型的假設(shè)。作為上述方法處理的特征項字、詞更多體現(xiàn)的是文檔的詞匯信息,而不是它的語義信息,因而無法準(zhǔn)確表達文檔的內(nèi)容;大多數(shù)關(guān)于文本特征提取的研究方法只偏重考慮特征發(fā)生的概率和所處的位置,而缺乏語義方面的分析,不能深層次地理解文本所表達的主題思想,因而很難取得較好的選擇效果和系統(tǒng)性能。

基于語義特征提取方法都處在理論研究和試驗階段,未能真正實現(xiàn)對文檔語法語義和主題思想和分析,沒有從根本上提高分類的精度和效率。如何選擇基于文本語義的特征項研究還沒有深入的開展,另外,在特征項抽取算法方面也缺少系統(tǒng)而深入的研究成果。目前嘗試借鑒語言學(xué)技術(shù)進行的研究,有從手工輸入的特征中學(xué)習(xí)特征信息及基于WordNet的特征提取等方法,但方法所產(chǎn)生的效果都不理想。未來的研究應(yīng)更多地運用自然語言理解、人工智能,以及語言學(xué)等方面的知識和技術(shù),更深入地分析文檔語法語義和主題思想,充分考慮語言中大量存在的同義和多義現(xiàn)象,以及褒貶傾向等在特征提取中起關(guān)鍵作用的因素,提高特征提取和文本過濾的精度。

3 結(jié)束語

文本分類將來的研究主要集中在對語義特征的表示和選擇上,需要深入分析文檔語義和主題思想,探索文本語義的表示模型,研究基于語義的特征選擇算法,使分類充分反映樣本相似性的本質(zhì),提高文本分類的準(zhǔn)確性。到目前為止,文本分類技術(shù)的發(fā)展還有賴于基于語義文本表示和特征選擇技術(shù)更進一步的發(fā)展。

參考文獻

[1]Y.Yang,and Pedersen,J.Q.A comparative Study on Feature Selection in Text Categorization[C].In Proceeding of the 14th International Conference on Machine Learning(ICML),1997:412-420.

[2]孫春明.高性能特征選擇及文本分類算法研究[D].華北電力大學(xué),2007.

[3]張劍.基于概念的文本表示模型的研究[D].清華大學(xué),2006.

[4]Koller D and Sahami M.Hierarchically classifying documents using very few words[C].In Proceedings of The Fourteenth International Conference on Machine Learning(ICML97),1997:170-178.

[5]陳濤,謝向陽.文本分類中的特征降維方法綜述[J].情報學(xué)報,2005,12(24),690-695.

[6]晉耀紅,苗傳江.一個基于語境框架的文本特征提取算法[J].計算機研究與發(fā)展,2004,41(4):582-586.

[7]唐曉文.基于本體論的文本特征提取[J].電腦與信息技術(shù),2005,13(1):36-38.

[8]趙林,等.基于知網(wǎng)的概念特征抽取方法[J].通信學(xué)報,2004,25(7):46-53.

猜你喜歡
文本分類語義特征特征選擇
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
網(wǎng)絡(luò)流行語“也是醉了”中“也”字初探
淺談現(xiàn)代漢語中名詞作謂語現(xiàn)象
淺析網(wǎng)絡(luò)用語中的新興結(jié)構(gòu)“第二最NP”
動態(tài)助詞“了”、“過”的對比分析與對外漢語教學(xué)
基于蟻群智能算法的研究文本分類
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
聯(lián)合互信息水下目標(biāo)特征選擇算法
松潘县| 思南县| 泽库县| 华坪县| 九江县| 河津市| 隆昌县| 长春市| 泸州市| 乌海市| 宁明县| 汤原县| 黄石市| 乌恰县| 郯城县| 古浪县| 黄骅市| 平和县| 伊春市| 利津县| 兴山县| 惠安县| 芷江| 江安县| 柘城县| 开鲁县| 万盛区| 长兴县| 大厂| 肥东县| 达尔| 平邑县| 陇川县| 长岛县| 都兰县| 铅山县| 高要市| 会理县| 双桥区| 南宁市| 苍梧县|