熊 健, 鮑 玉, 徐 芃
(廣州大學(xué) 經(jīng)濟(jì)與統(tǒng)計(jì)學(xué)院, 廣東 廣州 510006)
隨著互聯(lián)網(wǎng)的發(fā)展,可獲取的數(shù)據(jù)呈爆炸式增長(zhǎng),迫使人們需要在大量雜亂無(wú)章的數(shù)據(jù)中采集和提煉信息,從而找出研究對(duì)象的內(nèi)在規(guī)律,使得人們可以精確地從海量數(shù)據(jù)中篩選出真正需要的信息.閱讀新聞是人們?nèi)粘+@取信息、了解社會(huì)動(dòng)態(tài)的重要途經(jīng),如何使讀者快速獲取有效信息、提升用戶體驗(yàn),尋找一種對(duì)新聞文本進(jìn)行分類的高效、準(zhǔn)確及便捷的方法,是一項(xiàng)在研究和應(yīng)用方面都具有積極意義的工作.
傳統(tǒng)的文本分類方法大多數(shù)都是基于詞語(yǔ)本身,但是中文詞語(yǔ)數(shù)量龐大,并且還在不斷增長(zhǎng),直接用詞語(yǔ)作為研究對(duì)象,會(huì)導(dǎo)致維數(shù)過(guò)高、難以計(jì)算和實(shí)際處理過(guò)程中耗時(shí)長(zhǎng).但是詞性的種類是固定不變的.Jozef等[1]利用詞性特征差異對(duì)新聞數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)動(dòng)詞和名詞在真新聞和假新聞上有顯著性差異,并發(fā)現(xiàn)不同詞性是分類變量的重要信息.隨著中文分詞和詞性標(biāo)注的快速發(fā)展,使得用詞性特征代替詞語(yǔ)本身進(jìn)行文本分類成為可能,詞性的特征可以概括為兩個(gè)方面:一是文本中詞性含量,二是文本中詞性位置.不同類型的文本用到詞性比例不同,就新聞來(lái)說(shuō),財(cái)經(jīng)類新聞的數(shù)詞、量詞會(huì)明顯較多,而社會(huì)類新聞中名詞、動(dòng)詞會(huì)較多,娛樂(lè)類新聞的形容詞會(huì)較多.
在工業(yè)生產(chǎn)中,統(tǒng)計(jì)過(guò)程控制(SPC)是產(chǎn)品質(zhì)量控制與設(shè)計(jì)中的重要研究?jī)?nèi)容,它包含直方圖、莖葉圖、檢查表、因果圖和控制圖等,其中質(zhì)量控制圖是SPC技術(shù)的核心工具,它可以通過(guò)帶有控制限圖形的方式區(qū)分出數(shù)據(jù)波動(dòng)是由于偶然性因素還是系統(tǒng)性因素,當(dāng)某一點(diǎn)超出了控制限,則認(rèn)為它受到系統(tǒng)性因素的影響處于失控狀態(tài).許姣姣[2]利用質(zhì)量控制圖對(duì)化妝品成分含量進(jìn)行監(jiān)控,仲開心[3]利用質(zhì)量控制圖對(duì)白葡萄酒生產(chǎn)過(guò)程的指標(biāo)進(jìn)行監(jiān)控,如果圖形產(chǎn)生異常波動(dòng)說(shuō)明該樣本不符合質(zhì)量要求.詞性占比和工業(yè)中的成分含量占比具有相似性,可以將這種找出異常波動(dòng)樣本的思想,應(yīng)用到文本分類上,找出不屬于該種文本類別的樣本.
本文的研究目的就是利用統(tǒng)計(jì)質(zhì)量控制圖可以精準(zhǔn)識(shí)別生產(chǎn)過(guò)程中的異常情況的原理,把質(zhì)量控制圖引入文本分析,僅將句子中的各詞性出現(xiàn)次數(shù)做為文本分類研究的特征值,提出基于非參控制圖的文本分類方法,文本中如果詞性的分布不一致,就會(huì)引起控制圖的報(bào)警,說(shuō)明是不同類文本.該方法在不損失正確率的情況下大大簡(jiǎn)化了傳統(tǒng)文本分類中用每一個(gè)詞語(yǔ)作為變量的計(jì)算量.用詞性來(lái)代替詞語(yǔ),把原來(lái)由詞語(yǔ)組成的句子替換為詞性序列,在保留文本特征的基礎(chǔ)上,可以達(dá)到降維的目的.并且思想原理簡(jiǎn)單,容易實(shí)現(xiàn),訓(xùn)練后處理速度快,通過(guò)實(shí)驗(yàn)證實(shí)可以很好地區(qū)分文本類別.
目前文本分類大多是基于語(yǔ)義分析的,如TF-TDF方法,通過(guò)統(tǒng)計(jì)某個(gè)詞在一篇文檔中出現(xiàn)的頻次,以及出現(xiàn)該詞的總文檔數(shù),計(jì)算出該詞的權(quán)重作為特征,進(jìn)行文本分類;信息增益法是通過(guò)統(tǒng)計(jì)某個(gè)詞條在一篇文本中出現(xiàn)或不出現(xiàn)的次數(shù)來(lái)進(jìn)行分類的,除此之外,還有互信息法、CHI統(tǒng)計(jì)法和布爾檢索模型.
詞語(yǔ)是文本分析的基本單位,通常在研究文本問(wèn)題時(shí),把文本切分成一個(gè)一個(gè)詞語(yǔ)組成的序列,把研究對(duì)象從長(zhǎng)句變成了短詞.在以往基于詞語(yǔ)的研究中,編輯距離、最長(zhǎng)公共子序列、漢明距離和N元模型等都是常用的方法[4].分詞是中文自然語(yǔ)言處理技術(shù)不可或缺的一部分,并且中文與英文不同,詞與詞之間沒(méi)有明顯的界限區(qū)分,加大了中文分詞的難度.一開始梁南元[5]和揭春雨等[6]提出逐詞遍歷法、逆向最大匹配法等,這些方法被統(tǒng)稱為詞典匹配法.但是運(yùn)用這些方法的前提是詞典足夠大,現(xiàn)實(shí)情況下這個(gè)假設(shè)很難滿足,所以汪華峰等[7]針對(duì)詞表中沒(méi)有出現(xiàn)的新詞,建立一個(gè)輔助詞典作為原詞典的補(bǔ)充,并賦予原詞典較高的權(quán)重.由于同一個(gè)字在不同的語(yǔ)境下可能語(yǔ)義不同,所以提出詞典匹配與歧義矯正聯(lián)合,提高了切分的精度.中文分詞的科研工作相應(yīng)受到了專家學(xué)者的廣泛關(guān)注,研發(fā)出了各種各樣有效的分詞系統(tǒng),同時(shí)這些模型的分詞性能和效率也逐步得到改進(jìn)和提高.
隨著機(jī)器學(xué)習(xí)的發(fā)展,機(jī)器自動(dòng)化操作逐漸代替了繁雜的人工操作.機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),文本分類是一種有監(jiān)督的學(xué)習(xí),是根據(jù)大量已有分類標(biāo)簽的數(shù)據(jù),經(jīng)過(guò)訓(xùn)練得到規(guī)律,并根據(jù)該規(guī)律預(yù)測(cè)新數(shù)據(jù)分類的過(guò)程.文本分類的經(jīng)典算法有樸素貝葉斯分類算法、支持向量機(jī)分類算法、K近鄰分類算法和決策樹算法等,但這些方法的泛化能力較差,并且難以適用于海量數(shù)據(jù)的智能分類.Milkolov等[8-9]提出word2vec模型,利用特征詞及其上下文之間的關(guān)系,得到詞向量,可以很好地表達(dá)語(yǔ)義信息,提高了文本分析的準(zhǔn)確度.
成分?jǐn)?shù)據(jù)是生活中常見的數(shù)據(jù)類型,比如工業(yè)產(chǎn)品中各種成分的含量占比,或者地質(zhì)檢測(cè)中各種元素的含量占比等,這類數(shù)據(jù)的最大特點(diǎn)是“定和限制”,即各成分的累加和是一個(gè)定值,并且成分?jǐn)?shù)據(jù)的協(xié)方差矩陣具有負(fù)偏性,若不對(duì)這個(gè)限制條件加以處理,可能會(huì)造成統(tǒng)計(jì)分析結(jié)果失效,與真實(shí)結(jié)果相差甚遠(yuǎn).Atichison[18]先后提出了非對(duì)稱對(duì)數(shù)比變換(alr)、中心對(duì)稱對(duì)數(shù)比變換(clr)和等距對(duì)數(shù)比變換(ilr)等針對(duì)成分?jǐn)?shù)據(jù)處理的方法,使得處理后的數(shù)據(jù)不受“定和限制”的影響,并且常常服從正態(tài)分布.
對(duì)于含有D個(gè)成分的成分?jǐn)?shù)據(jù),其對(duì)應(yīng)的單形空間為SD,定義為
(1)
其中,每一個(gè)成分?jǐn)?shù)據(jù)都要求大于0,并且滿足累加和為定值的限制,為了便于計(jì)算,通常C取1.
非對(duì)稱對(duì)數(shù)比變換:
(2)
經(jīng)過(guò)alr變換將成分?jǐn)?shù)據(jù)從單形空間SD映射到歐氏空間RD-1,使得數(shù)據(jù)不受定和限制,但是變換后的結(jié)果不唯一.
中心對(duì)稱對(duì)數(shù)比變換:
(3)
經(jīng)過(guò)clr變換,解決了alr變換結(jié)果不唯一的問(wèn)題,同時(shí)保持了分量的維度,使得結(jié)果更具有解釋性,但是變換后的數(shù)據(jù)具有共線性.
等距對(duì)數(shù)比變換:
(4)
(5)
ilr變換保持了協(xié)方差矩陣的對(duì)稱性和滿秩要求,解決了clr變換產(chǎn)生的共線性問(wèn)題,是一種較好的處理成分?jǐn)?shù)據(jù)的方法.本文處理的新聞文本數(shù)據(jù),使用重點(diǎn)詞性在句子中的占比作為分析依據(jù),所以也是存在定和限制的成分?jǐn)?shù)據(jù),在應(yīng)用質(zhì)量控制圖前要先對(duì)數(shù)據(jù)進(jìn)行等距對(duì)數(shù)比變換.
在數(shù)據(jù)不滿足多元正態(tài)性的情況下,傳統(tǒng)的控制圖效果不佳,因此,應(yīng)使用多元非參控制圖,經(jīng)過(guò)對(duì)比,本文最終選擇多元符號(hào)指數(shù)加權(quán)移動(dòng)平均(MSEWMA)質(zhì)量控制圖.
假設(shè)訓(xùn)練數(shù)據(jù)集中包含獨(dú)立同分布m0個(gè)觀測(cè)值,X1,…Xm∈RP,p≥1且為整數(shù),其中p是X的維數(shù),Xi獨(dú)立來(lái)自于如下的模型:
(6)
其中,F(xiàn)(·)為一個(gè)未知的連續(xù)分布,μ0表示過(guò)程可控時(shí)的位置參數(shù),μ1表示過(guò)程失控時(shí)的位置參數(shù),τ是一個(gè)未知變點(diǎn),即在τ時(shí)刻后,觀測(cè)值來(lái)自于另一個(gè)分布.
Zou等[19]提出了使用空間符號(hào)和空間秩的多元EWMA控制圖(MSEWMA).首先給出空間符號(hào)的定義:
(7)
其中,║X║=(XTX)1/2是向量X的歐式長(zhǎng)度.U(Xi)是p維單位球面上的一個(gè)點(diǎn),表示一個(gè)方向.但是在非參的情況下,不能直接使用上述的空間符號(hào),需要使用一個(gè)散度矩陣來(lái)標(biāo)準(zhǔn)化Xi,Hettmansperger[20]提出一個(gè)仿射不變的多元中心θ0和變換矩陣A0,根據(jù)式(8)可以標(biāo)準(zhǔn)化Xi得到Vi.
(8)
其中,多元中心θ和變換矩陣A需要滿足式(9)和式(10):
(9)
(10)
在利用MSEWMA質(zhì)量控制圖訓(xùn)練數(shù)據(jù)時(shí),第一步是從m0個(gè)訓(xùn)練數(shù)據(jù)中提取信息,確定可控中心θ0和變換矩陣A0.把訓(xùn)練集數(shù)據(jù)代入式(11)和式(12):
(11)
(12)
在求解上述方程組時(shí)需要用到迭代的方法,迭代過(guò)程如下:
(13)
其中,arg min是指使得式(13)達(dá)到最小值時(shí)θ的值.
(14)
求解A0時(shí)需要內(nèi)嵌一個(gè)小迭代:
(a)以初始值Ω=IP為開始,其中,IP是指P×P維的單位矩陣.
(b)令Ωx=[p/trace(Ω)]Ω,其中,trace是指矩陣的跡,也就是主對(duì)角線元素之和.
(c)選擇AΩ使得A′ΩAΩ=Ωx-1,其中,A為上三角矩陣.為了保證解唯一,通常提取出一個(gè)常數(shù)使得左上角元素為1.
(d)利用式(15)一次迭代,更新Ω.
(15)
(e)重復(fù)(b)~(d)直至Ω收斂.
Σ‖yi-θ‖最小化的θ值為θy,令
(16)
④重復(fù)②~③直至滿足下列條件:
(17)
第L次迭代的(0,0)作為(θ0,A0)的最后估計(jì).
迭代流程圖見圖1.
圖1 流程圖
在訓(xùn)練集數(shù)據(jù)找到(θ0,A0)之后,可以構(gòu)建基于符號(hào)檢驗(yàn)統(tǒng)計(jì)量的多元EWMA控制圖.首先將剩余的樣本根據(jù)式(18)標(biāo)準(zhǔn)化得到Vi.
(18)
然后根據(jù)式(19)及式(20)獲得多元EWMA向量序列和檢驗(yàn)統(tǒng)計(jì)量,其中W0=0,當(dāng)檢驗(yàn)統(tǒng)計(jì)量Qi超出控制限時(shí),控制圖報(bào)警.
Wi=(1-λ)Wi-1+λVi
(19)
(20)
本文數(shù)據(jù)來(lái)源于THUCNnews數(shù)據(jù)集,選取了財(cái)經(jīng)、科技、社會(huì)、時(shí)政、教育和娛樂(lè)等6大類,總計(jì)4 736條數(shù)據(jù).首先使用中科天璣自動(dòng)中文分詞系統(tǒng)中的計(jì)算所一級(jí)標(biāo)注,對(duì)句子進(jìn)行詞語(yǔ)切分以及詞性標(biāo)注,表1為計(jì)算機(jī)所一級(jí)詞性對(duì)照表.在數(shù)據(jù)處理前為了后文統(tǒng)計(jì)詞性頻次不受原來(lái)文本中小寫字母的干擾,首先把文本中原有的小寫字母轉(zhuǎn)換為大寫字母,然后計(jì)算出每一詞性在整個(gè)數(shù)據(jù)集中出現(xiàn)的詞頻,最后對(duì)詞頻進(jìn)行排序,結(jié)果如圖2所示.出現(xiàn)次數(shù)多的詞性表示在文章中必不可少,需要進(jìn)行分析,因此,本文根據(jù)詞性排序,選取詞性出現(xiàn)最多的5項(xiàng)作為分析對(duì)象,由于標(biāo)點(diǎn)符號(hào)w、副詞d、助詞u和介詞p等虛詞對(duì)文本分類沒(méi)有太大的貢獻(xiàn),所以依次順推,最終選取名詞n、動(dòng)詞v、數(shù)詞m、形容詞a和代詞r作為待處理對(duì)象.經(jīng)過(guò)處理,所有語(yǔ)句中僅保留這5個(gè)詞性,圖3展示了處理后的詞性序列.
圖2 詞性排序
圖3 語(yǔ)句示例
表1 詞性對(duì)照表
比如隨機(jī)抽取一條財(cái)經(jīng)新聞.“十二五期間鋼鐵業(yè)重組將縱深推進(jìn)…”分詞后結(jié)果為“十二五/m 期間/f 鋼鐵/n 業(yè)/k 重組/v 將/p 縱深/n 推進(jìn)/v…”篩選詞性后變?yōu)椤笆?m 鋼鐵/n 重組/v 縱深/n 推進(jìn)/v…”,可以看出句子的主干被保留,修飾成分被剔除,句子的整體意義并沒(méi)有改變,所以這樣處理是合理的.
圖4中類1表示財(cái)經(jīng)類新聞,類2表示科技類新聞,類3表示社會(huì)類新聞,類4表示時(shí)政類新聞,類5表示教育類新聞,類6表示娛樂(lè)類新聞.結(jié)合圖4組間差異以及圖5組內(nèi)差異,可以看出各個(gè)類別的詞性含量的差異較明顯.
圖4 組間差異
圖5 組內(nèi)差異
財(cái)經(jīng)類新聞的代詞與其它類相比較少而數(shù)詞在所有類別中最多,同類之間比較看出數(shù)詞、形容詞及代詞之間呈現(xiàn)遞減的趨勢(shì);科技類新聞與其它類相比形容詞、代詞明顯多而動(dòng)詞含量在所有類別中最少,同類之間比較發(fā)現(xiàn)數(shù)詞、形容詞和代詞分布較均衡;社會(huì)類新聞與其他類別相比代詞、動(dòng)詞明顯多而名詞和形容詞明顯少,同類之間比較發(fā)現(xiàn)形容詞含量最少;時(shí)政類新聞與其他類相比名詞在所有類別中最多而代詞在所有類別中最少,與同類相比形容詞含量較多;教育類新聞與其他類相比詞性含量處于所有類的中間水平,與同類相比詞性含量差異也不明顯;娛樂(lè)類新聞與其他類相比動(dòng)詞、形容詞和代詞在所有類別中最多而名詞、數(shù)詞的含量在所有類別中最少,與同類相比代詞較多、數(shù)詞較少.分析發(fā)現(xiàn),不同類別的新聞在詞性含量方面的確有較大差別,因此,可以用詞性差異作為新聞文本的分類依據(jù).
對(duì)篩選詞性后的數(shù)據(jù),劃分為訓(xùn)練集和測(cè)試集,由于該方法暫時(shí)只能識(shí)別二分類的數(shù)據(jù),也就是說(shuō)僅能識(shí)別測(cè)試集的數(shù)據(jù)樣本與訓(xùn)練集相比是同一類別還是不同類別的,所以對(duì)6個(gè)大類的樣本,分別進(jìn)行訓(xùn)練.每個(gè)類別選取500個(gè)樣本作為訓(xùn)練集,并把所有數(shù)據(jù)作為測(cè)試集.分別計(jì)算每一個(gè)樣本中的各個(gè)詞性出現(xiàn)的頻次,以及每一個(gè)樣本的句長(zhǎng),兩者相除,分別得到5個(gè)詞性在該樣本中的占比,如圖6所示.由于詞性占比屬于成分?jǐn)?shù)據(jù),可以看出,5個(gè)成分累積和為1,有定和限制并且有協(xié)方差矩陣的負(fù)偏性,所以對(duì)詞性占比數(shù)據(jù)進(jìn)行等距對(duì)數(shù)比變換.最終處理好的數(shù)據(jù)集如圖7.
圖6 詞性占比
圖7 ilr變換
訓(xùn)練過(guò)程如下:
把處理好的數(shù)據(jù)放入基于空間符號(hào)和空間秩的多元EWMA控制圖(MSEWMA)中判別類型,首先以財(cái)經(jīng)類的500條數(shù)據(jù)為訓(xùn)練集,選取迭代初始點(diǎn),求出使得arg min∑‖Xi-θ‖取得最優(yōu)解的θ,這里用每一列的平均值作為搜尋最優(yōu)解的初始起點(diǎn),以得到的θ作為仿射不變的多元中心θ0迭代的初始點(diǎn),以P維單位矩陣Ω0為迭代的初始矩陣,使得滿足
(21)
(22)
最小化的θ值,得到新的θ0,重復(fù)前面的步驟,直到原來(lái)的θ0和迭代后新的θ0相差小于10e-5停止迭代,把終止迭代時(shí)的(θ0,A0)作為測(cè)試時(shí)MSEWMA控制圖的仿射不變的多元中心θ0和變換矩陣A0.然后同樣根據(jù)(θ0,A0)求出控制限,首先用式(18)標(biāo)準(zhǔn)化Xi得到Vi,再代入式(19)、式(20)求得Wi和檢驗(yàn)統(tǒng)計(jì)量Qi.訓(xùn)練集理論上檢驗(yàn)統(tǒng)計(jì)量應(yīng)該大部分都處于控制限以下,所以取控制限滿足訓(xùn)練集上95%的檢驗(yàn)統(tǒng)計(jì)量都小于該值.至此,(θ0,A0)和控制限都已求出.對(duì)于MSEWMA控制圖來(lái)說(shuō)光滑參數(shù)λ的選擇同樣重要,當(dāng)λ的取值較小時(shí)對(duì)小漂移更有效,而且控制圖較穩(wěn)健.所以本文經(jīng)過(guò)重復(fù)對(duì)比實(shí)驗(yàn),最終給每一類樣本都選取了較小的λ,得到表2.
表2 θ0,A0, λ和控制限
(續(xù)上表)
測(cè)試過(guò)程如下:
根據(jù)式(18)~式(20)求得訓(xùn)練集上的檢驗(yàn)統(tǒng)計(jì)量Qi,當(dāng)檢驗(yàn)統(tǒng)計(jì)量Qi超出控制限時(shí),控制圖報(bào)警,表示該樣本和訓(xùn)練集不屬于同一類,反之,屬于同一類.這樣就可以根據(jù)樣本是否受控來(lái)判斷是否屬于和訓(xùn)練集同類的樣本.圖8和圖9分別為財(cái)經(jīng)和社會(huì)類的分類結(jié)果,圖8中的左邊部分,小于控制限表示屬于財(cái)經(jīng)類新聞,右邊部分大于控制限表示不屬于財(cái)經(jīng)類新聞.圖9中兩邊部分大于控制限表示不屬于社會(huì)類新聞.其他類別也類似,從圖中看出該方法可以明顯區(qū)分出是否屬于同一類樣本,具有很好的分類效果.
圖8 財(cái)經(jīng)新聞分類結(jié)果
圖9 社會(huì)新聞分類結(jié)果
利用分類算法得到分類結(jié)果后,需要對(duì)結(jié)果進(jìn)行評(píng)估,評(píng)價(jià)文本分析效果的指標(biāo)主要有:準(zhǔn)確率(Precision)、召回率(Recall)、F測(cè)度(F-measure,簡(jiǎn)寫為F)以及分類準(zhǔn)確率(Accuracy),各指標(biāo)的計(jì)算公式如下:
(23)
(24)
(25)
其中TP表示實(shí)際為A也被分類為A的數(shù)量,F(xiàn)N為實(shí)際為A但被分類為-A的數(shù)量,F(xiàn)P表示實(shí)際為-A但被分類為A的數(shù)量,TN表示實(shí)際為-A也被分類為-A的數(shù)量. 準(zhǔn)確率P表示實(shí)際為A也被分類為A的數(shù)量除以被分類為A的數(shù)量,召回率R表示實(shí)際為A也被分類為A的數(shù)量/實(shí)際為A的數(shù)量,F(xiàn)測(cè)度表示準(zhǔn)確率P和召回率R的調(diào)和平均數(shù),F(xiàn)測(cè)度是綜合衡量準(zhǔn)確率和召回率的,是評(píng)價(jià)文本分類效果的重要指標(biāo),見表3.
表3 參數(shù)含義
最終的運(yùn)行結(jié)果見表4.
表4 實(shí)驗(yàn)結(jié)果與評(píng)價(jià)
與傳統(tǒng)word2vec、TF-IDF和CNN文本分類模型進(jìn)行對(duì)比,MSEWMA在準(zhǔn)確率P、召回率R和F測(cè)度三個(gè)指標(biāo)都有不同程度的提高.
由表4可以看出引入控制圖來(lái)進(jìn)行文本分類的效果很好,并且該方法原理簡(jiǎn)單且容易實(shí)現(xiàn),在訓(xùn)練過(guò)程中,保存仿射不變的多元中心θ0和變換矩陣A0以及控制限這三個(gè)訓(xùn)練結(jié)果,后續(xù)在測(cè)試時(shí)不需要重復(fù)計(jì)算,僅使用測(cè)試數(shù)據(jù)集的句子中的5個(gè)重要詞性的占比,代入簡(jiǎn)單的公式就可以得到該樣本是否和訓(xùn)練集屬于同一類,相比于傳統(tǒng)文本分類方法,大大簡(jiǎn)化了繁瑣的計(jì)算步驟,避免了維度災(zāi)難(圖10).
圖10 不同分類模型的結(jié)果
質(zhì)量控制圖在工業(yè)生產(chǎn)中應(yīng)用已經(jīng)相當(dāng)廣泛,本文提出引入非參數(shù)MSEWMA質(zhì)量控制圖應(yīng)用在新聞文本的分類上,僅需關(guān)注詞性含量即可得到正確的分類結(jié)果,該方法原理簡(jiǎn)單應(yīng)用便捷計(jì)算速度快,避免了使用詞語(yǔ)為分析對(duì)象造成的維度災(zāi)難.從測(cè)試結(jié)果可以看出,該方法能夠有效利用詞性含量信息,綜合了質(zhì)量控制圖的高效以及僅關(guān)注詞性含量的計(jì)算便捷等優(yōu)點(diǎn),能較好地解決新聞文本分類的問(wèn)題,簡(jiǎn)化了運(yùn)算過(guò)程.但該方法仍存在不足之處,一方面當(dāng)前方法僅用于二分類,無(wú)法一次性識(shí)別多種類別,需要重復(fù)操作;另一方面僅關(guān)注含量,忽視了上下文的信息.在下一步的工作中,將考慮如何有效地一次性識(shí)別多種分類效果,以及加入上下文信息,以進(jìn)一步改進(jìn)控制圖在文本分類上的方法,更為全面地應(yīng)用全文信息,提高分類的準(zhǔn)確性.