国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于粗糙集理論的文本分類研究現(xiàn)狀綜述

2018-11-20 12:27:54郭艷芬
教育教學論壇 2018年46期
關(guān)鍵詞:文本分類粗糙集

郭艷芬

摘要:文本分類是信息處理的重要研究方向之一。本文對粗糙集和文本分類的發(fā)展現(xiàn)狀及存在的問題進行了系統(tǒng)性闡述。

關(guān)鍵詞:文本分類;粗糙集;屬性約簡

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2018)46-0241-02

一、引言

伴隨互聯(lián)網(wǎng)與信息技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的信息與資源也迅猛地增長,在人們?nèi)粘K佑|到的海量信息中,大部分都是以電子文檔的形式表現(xiàn)的文本信息。高速有效地管理信息并準確的提取用戶信息,是當前信息科學技術(shù)領(lǐng)域面臨的一項艱巨的任務(wù)和問題[1]。數(shù)據(jù)挖掘技術(shù)成為計算機信息處理領(lǐng)域的研究熱點和前沿技術(shù)。文本分類是數(shù)據(jù)挖掘中一項非常重要的任務(wù),并作為處理海量文本信息的一項關(guān)鍵技術(shù),可以在相當大的程度上解決信息雜亂無章的問題,從而方便用戶精準地定位所需要的信息和信息分流[2-3]。因此,文本自動分類技術(shù)已作為具有實用價值的重要關(guān)鍵技術(shù)之一,是當前信息檢索和自然語言處理領(lǐng)域最活躍的研究主題之一,得到了廣泛的關(guān)注。

理論上,模式識別和機器學習是文本分類的一個重要應(yīng)用方向。由于其特點,它涉及到的學科很多,主要包括語言學類、認知信息科學類、人工智能類、統(tǒng)計學、概率論、計算機等[4]。在社會領(lǐng)域文本分類同樣也可以應(yīng)用到,例如網(wǎng)頁分類、科技文獻分類、電子圖書館、專利分類、商標分類、電子郵件過濾等。因此,對文本分類進行研究具有重要的理論意義和實用價值。

在文本分類中,向量空間模型是描述文本最經(jīng)常用到的。自然語言十分復(fù)雜的特性導致其所涵蓋的特征詞的數(shù)量增多,這就使得文本特征空間的維數(shù)過高,高維的特征空間可能會使一些算法的運算效率過低。因此,某些系統(tǒng)為了降低維數(shù)會使用詞頻統(tǒng)計,利用閾值過濾掉一些特征。但是,這樣做也有一些弊端??赡軙е乱恍┲匾畔⒌膩G失,例如某些專有名詞,雖然使用頻率過低但是其作用是不可忽視的。

坡那克教授在1982年提出了粗糙集理論。它可以有效分析和處理各種不完備信息,并且可以從中發(fā)現(xiàn)其隱藏的規(guī)律和信息。粗糙集理論可以盡可能的解決在處理不完備信息方面存在的問題,因此該理論在數(shù)據(jù)挖掘抽取中得到了廣泛的應(yīng)用??臻g維數(shù)過高是文本分類中存在的主要問題,降低文本分類向量維數(shù),減少特征數(shù),提高分類速度是粗糙集理論的屬性約簡特征。為了可以更好地構(gòu)成分類器,粗糙集的這一優(yōu)勢可以與其他分類算法相融合,如與K-緊鄰,神經(jīng)網(wǎng)絡(luò)及模糊集等的結(jié)合。

總之,能夠分析隱藏在數(shù)據(jù)中的事實而無需提供除問題之外的任何附加信息和先驗信息,是粗糙集理論最顯著的優(yōu)點。對于發(fā)現(xiàn)各數(shù)據(jù)間的關(guān)系并提取有用信息,粗糙集理論具有無可比擬的優(yōu)越性。粗糙集的屬性約簡和規(guī)則冗余值約簡是重中之重,通過對維數(shù)進行約減和降低,從而總結(jié)出一些知識規(guī)則來用于決策支持。

二、研究現(xiàn)狀

美國IBM公司對文本分類進行了開創(chuàng)性的研究,正在被人們廣泛的應(yīng)用和實踐。后來Marone發(fā)表了一篇論文,其內(nèi)容是關(guān)于自動文本分類的,其觀點是用概率模型來進行的。Salton等人后來提出了向量空間模型(VSM),該模型是文本分類處理的一種經(jīng)典模型,該模型是在統(tǒng)計學的基礎(chǔ)上進行了論述,對文本特性尤其是在抽象描述方面有了很好的詮釋。而后,諸多學者在這一領(lǐng)域進行了諸多開創(chuàng)性的研究。

截至上世紀80年代末,在眾多文本分類方法中,基于知識工程的方法即系統(tǒng)利用專家規(guī)則進行分類,一直起著主導地位。到了90年代,模式識別、統(tǒng)計、數(shù)據(jù)挖掘等理論逐漸開展開來,機器學習的方法逐漸被人們所使用,進而慢慢取代了知識工程的方法。近年來,研究人員將人工智能和機器學習技術(shù)相結(jié)合并應(yīng)用到文本分類研究中,并且提出了各種分類模型與算法,如決策樹、K-緊鄰(KNN)、樸素貝葉斯、支持向量機、遺傳算法(Genetic Algorithms)等??蒲腥藛T對這些分類方法進行對比分析,得出粗糙集是最有發(fā)展前途的、知識獲取研究中的最有力工具之一的結(jié)論。英國愛丁堡大學的教授在粗糙集理論的基礎(chǔ)上對文本分類問題進行了詳細的研究和探討,已知給定文件全體和一個已分類的文件集合,能夠較好地區(qū)別文件類型的最小并列關(guān)鍵詞集合,并達到大大降低了關(guān)鍵詞空間的維數(shù)的效果。

我國在中文文本分類的研究方面比國外研究相對較晚。在1981年侯漢清教授對于計算機在文本分類中做了開創(chuàng)性的研究和探討。同時國內(nèi)許多研究機構(gòu)也對文本分類工作進行了研究和開展,其中有代表性的有:中科院的史忠植、李曉黎把網(wǎng)絡(luò)概念推理植入到文本分類中。上海交通大學王永成將神經(jīng)網(wǎng)絡(luò)模型運用到了中文自動分類系統(tǒng),以及中文自動分類系統(tǒng)的開發(fā)者清華大學吳軍、東北大學圖書館分類專家系統(tǒng)、開發(fā)金融自動分類系統(tǒng)的山西大學劉開瑛等。南京大學計算機系的劉靜等對文本分類進行了研究,主要是將分類規(guī)則和貝葉斯方法相結(jié)合,該方法放寬了貝葉斯對強獨立性假設(shè)條件的要求。復(fù)旦大學李榮陸開發(fā)了文本分類系統(tǒng),是將K近鄰方法和支持向量機的方法相結(jié)合。在粗糙集方法上,主要有下面幾個成果:李鈍等提出了一種新的分類方法,將文本聚類和粗糙集理論的屬性約簡相結(jié)合的方式提高了文本分類的效率;張著英將KNN算法的應(yīng)用范圍得到了擴大,解決了KNN算法的缺點,從而使KNN算法得到了廣泛的應(yīng)用。王效岳等提出了一種混合算法是將屬性約簡的粗糙集理論和分類機理相結(jié)合,提高了分類速度并較好地體現(xiàn)了其穩(wěn)定性及容錯性。

對于Pawlak粗糙集理論的分類具有嚴格的要求,不容有一點錯誤。按照等價類分類方式進行分類,也就是“包含”或“不包含”的關(guān)系。文本分類依賴的關(guān)鍵詞,其分布有很大的隨機性,采用Pawlak粗糙集模型進行文本分類也會存在一些問題。有諸多不確定的信息需要處理及分析,在多數(shù)包含關(guān)系的基礎(chǔ)上,Ziarko提出了可變精度粗糙集模型(VPRS),通過設(shè)定近似包含閾值,放松了經(jīng)典粗糙集嚴格的邊界定義,它對于抗噪聲能力有一定的作用,同時也可以處理一定程度上的包含關(guān)系。

三、研究方法

應(yīng)用粗糙集理論對文本分類中所涉及的關(guān)鍵技術(shù)和問題進行研究和探討時,包括文本向量化、基于可變精度的粗糙集理論的文本特征加權(quán)研究、基于可變精度粗糙集理論的知識約簡、針對各規(guī)則分類結(jié)果不相同時的沖突消解等內(nèi)容。研究目標是利用該方法實現(xiàn)一個分類準確度高的文本分類系統(tǒng)。主要分解為以下幾個方面:(1)文本向量化預(yù)處理研究。主要是分詞處理和文本特征提取。針對中文的最小組成單位是漢字,最小的語義單位是詞或者短語,并且以不間斷的字符串形式呈現(xiàn),詞與詞之間沒有歧義詞或者自然分隔的問題,展開以概率統(tǒng)計為基礎(chǔ)的分詞方法的中文分詞研究并去停用詞;文本匹配到向量匹配的轉(zhuǎn)化研究。(2)特征加權(quán)研究。在文本大小不一致情況下,分析絕對詞頻作為度量某詞重要程度標準的不合理性,分析逆文本頻率加權(quán)算法(TFIDF)存在的問題,進行相對詞頻計算方法的研究和粗糙集加權(quán)算法研究;針對文本特征提取中高維到低維變換可能喪失數(shù)據(jù)原來所蘊含的信息問題,進行基于TFIDF和VPRS模型的降維處理研究。(3)基于粗糙集理論的知識約簡研究。針對VPRS在知識約簡中的NP問題,從分類質(zhì)量、相對正域和決策類三個層面分析約簡的核心問題,基于屬性核思想展開研究。從兩個角度研究:基于分類率不變與正域不變條件下的VPRS屬性約簡;下屬性不變條件下的VPRS屬性約簡。從而得到最小規(guī)則集來降低知識約簡計算的復(fù)雜度。(4)沖突消解策略研究。針對實際處理過程中,由于現(xiàn)實世界的數(shù)據(jù)協(xié)調(diào)性和正確性難以保證,從而導致知識庫會存在一定程度的不協(xié)調(diào)性問題,將產(chǎn)生不同的規(guī)則對同一文本可能會做出不同的分類現(xiàn)象,進行沖突消解的研究。

結(jié)語:中文分詞對于文本分類有著至關(guān)重要的影響,隨著新詞匯的不斷出現(xiàn),對分詞工作提出了更新的要求;其次,值得人們探討和研究的是在使用分類算法時,如何選擇最優(yōu)的特征選擇方法。目前,雖存在多種分類算法,但是大部分分類系統(tǒng)都是針對應(yīng)用某一種分類算法,如何尋找最優(yōu)的通用的文本分類算法是科研者們面前的一項課題。

參考文獻:

[1]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學學報,2004,32(2):246-252.

[2]鄭麗英,王海涌,劉麗艷.基于粗糙集和模糊聚類理論的文本分類系統(tǒng)的研究與實現(xiàn)[J].鐵道學報,2007,29(1):45-49.

[3]王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001:12-14.

[4]蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術(shù)研究進展[J].軟件學報,2006,17(9):48-55.

猜你喜歡
文本分類粗糙集
基于Pawlak粗糙集模型的集合運算關(guān)系
基于二進制鏈表的粗糙集屬性約簡
優(yōu)勢直覺模糊粗糙集決策方法及其應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
多?;植诩再|(zhì)的幾個充分條件
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
平潭县| 炉霍县| 轮台县| 商都县| 鄂尔多斯市| 客服| 曲阜市| 吕梁市| 曲沃县| 福贡县| 鱼台县| 深水埗区| 安图县| 天峨县| 原平市| 弥勒县| 府谷县| 宁城县| 商河县| 顺昌县| 泉州市| 韶关市| 类乌齐县| 徐水县| 青龙| 林芝县| 团风县| 宜春市| 金山区| 都江堰市| 定安县| 方正县| 乐山市| 新郑市| 前郭尔| 石首市| 普格县| 施秉县| 香格里拉县| 河北省| 沽源县|