譚敏 范強
湖南警察學(xué)院計算機系 湖南 410138
在傳統(tǒng)的公安情報工作中,公安業(yè)務(wù)人員每天都要面臨著大量的情報文本,它們來自不同的渠道,例如:110接處警信息,公安偵查人員搜集的信息,公安內(nèi)網(wǎng)發(fā)布的信息,互聯(lián)網(wǎng)的公開信息等等。據(jù)統(tǒng)計一個普通市級的公安部門每天就會接到幾千條,上萬條的情報信息。對于這些情報,公安機關(guān)需要安排專門的人員進(jìn)行整理,以便及時分析研判情報,發(fā)布有價值的情報給上級部門和下屬的單位。這不僅耗費了大量的警力資源,同時由于工作的繁重和工作人員自身認(rèn)知的差異也會造成情報整理分析的延誤和疏漏,造成不同程度上的損失。
針對傳統(tǒng)的公安情報工作的不足,研究文本自動分類技術(shù),設(shè)計公安情報自動分類模型,實現(xiàn)公安情報文本的快速自動分類,即將偵查部門采集到的情報文本按照一定的策略自動歸類到已經(jīng)設(shè)定的類別之中??梢允勾罅康木瘑T擺脫繁重的手工識別情報工作,降低分類成本、改善分類性能(如提高分類精度和推廣性),并提高情報文本分類的效率,為進(jìn)一步的情報加工處理提供支持。為在新形勢下,建立和完善信息化、自動化的情報體系,推動“情息主導(dǎo)警務(wù)”戰(zhàn)略的落實具有重要的現(xiàn)實意義。
Agent技術(shù)是人工智能領(lǐng)域中的一個重要分支,以其所具有的智能性、自主性、交互性和可移動性等優(yōu)點在許多研究領(lǐng)域中受到了重視。軟件Agent 是能夠與環(huán)境交互的自主軟件實體,較之軟件對象概念具有更多的知識,具有更強的問題求解和自治能力。它可以分為單 Agent 系統(tǒng)和多Agent(Multi-Agent)系統(tǒng)。多Agent系統(tǒng)是由一組獨立但又協(xié)同工作的Agent構(gòu)成。各Agent 相互協(xié)商和協(xié)作,以完成某一共同任務(wù)。
一般來講,文本分類過程需要解決以下幾個問題:
(1) 文本預(yù)處理
由于文檔都是非結(jié)構(gòu)化的, 而且文檔的內(nèi)容是人類所使用的自然語言, 計算機很難處理其語義, 因此要進(jìn)行必要的文本預(yù)處理。文本預(yù)處理是指把文本轉(zhuǎn)化為原始特征空間中元素的序列。對于不同語言書寫的文本,預(yù)處理過程和復(fù)雜程度不同。比如對于英語,預(yù)處理主要是去掉停用詞,還原詞形為詞干,得到“干凈”的文本。而對于中文,由于中文詞語是連續(xù)書寫,采用詞語作為特征項需要先從連續(xù)的文本中分離出一個個的詞語來,所以預(yù)處理階段的主要工作是分詞和去停用詞。
(2) 特征選擇
目前,在信息處理方向上,文本的表示主要采用向量空間模型(VSM)。構(gòu)成文本的詞匯,數(shù)量通常相當(dāng)大,因此,表示文本的向量空間的維數(shù)也相當(dāng)大,可以達(dá)到幾萬維,所以有必要對于所獲取的特征進(jìn)行篩選和優(yōu)化,從特征的全集中提取一個最優(yōu)的特征子集。特征提取的目的就是盡量地保留有用特征,剔除無用特征,它通常會采用某種標(biāo)準(zhǔn)對特征的重要性進(jìn)行評價,之后只要保留重要程度較高的特征即可,特征提取的好處為提高分類效率和提高分類精度。文本的特征提取一般是構(gòu)造一個評價函數(shù), 對特征集中的每個特征進(jìn)行獨立的評估, 提取的方法有多種, 可以使用不同的評價函數(shù), 如: 詞頻DF( document frequency threshold) 、信息增益 IG ( information gain) 、互信息 M I ( mutual information) 、期望交叉熵( expected cross entropy) 、文本證據(jù)權(quán)( the weight of evidence for text) 等, 其中詞頻和互信息應(yīng)用較廣。
(3) 文本向量表示
文本的特征表示是指用文本的特征信息集合來代表原來的文本。文本的特征信息是關(guān)于文本的元數(shù)據(jù), 可以分為外部特征和內(nèi)容特征兩種類型。其中外部特征包括文本的名稱、日期、大小、類型、文本的作者、標(biāo)題、機構(gòu)等信息,文本的內(nèi)容特征包括主題、分類、摘要等特征。目前,文本的向量表示主要采用向量空間模型(vector Space Model,VSM),在該模型中,每一對象模型轉(zhuǎn)化為空間中的點,兩對象間的差異由多維空間中兩點間的距離表示。它的基本思想是以向量來表示文本。目前存在多種VSM權(quán)重計算公式,其中被廣泛采用的是TF一IDF公式。
(4) 選擇分類方法
選擇分類方法實際上就是要使用某種方法,建立從文本特征(或?qū)傩?到文本類別的映射關(guān)系,是文本分類的核心問題?,F(xiàn)有的分類方法主要來自兩個方面:統(tǒng)計和機器學(xué)習(xí),比較著名的文本分類方法有KNN, NaiveBayes,SVM等等。
(5) 性能評測
文本分類系統(tǒng)的建立,需要對系統(tǒng)使用的分類方法或選用不同參數(shù)下的分類器的性能進(jìn)行評價,性能評價對改進(jìn)和完善分類系統(tǒng)也具有指導(dǎo)意義。對文本進(jìn)行分類可以看作是一種機器學(xué)習(xí)的過程, 機器學(xué)習(xí)中常用的評估標(biāo)準(zhǔn)有分類正確率(classification accuracy),查準(zhǔn)率( precision)與查全率(recall),查準(zhǔn)率與查全率的幾何平均數(shù),信息估值(information score),興趣性( interestingness)等。
基于支持向量機的公安情報自動分類分為情報預(yù)處理、特征提取、核函數(shù)選擇、支持向量機構(gòu)造、公安情報分類、質(zhì)量評估等步驟。
在分析公安情報分類主要過程的基礎(chǔ)上,可以結(jié)合當(dāng)前比較先進(jìn)的多Agent 的思想,來構(gòu)建公安情報分類系統(tǒng)。即建立多個具有較高智能和自治能力的 Agent,每一個 Agent都能獨立完成公安情報自動分類系統(tǒng)中的某項功能,而 Agent之間則通過共享資源、相互協(xié)作、相互服務(wù),共同完成整個任務(wù),使得整個系統(tǒng)能夠具有自主性、主動性、反映性、可動性、協(xié)同性和智能性,從而取得最佳的效果(圖1)。
圖1 公安情報自動分類系統(tǒng)模型
情報預(yù)處理Agent的主要任務(wù)是將公安信息語料按照一定比例分為訓(xùn)練文本和測試文本兩類。再分別對訓(xùn)練文本和測試分類文本進(jìn)行分詞、去停用詞和詞性標(biāo)注等預(yù)處理工作,此時得到的語料信息作為文本特征全集構(gòu)成原始的特征空間。
將中文文本進(jìn)行分詞后,通常每篇文本都對應(yīng)著數(shù)量龐大的詞條,若直接用這些詞條組成向量,不僅維數(shù)太高,而且其中也包含了過多的干擾信息和冗余詞條,一方面影響算法的分類準(zhǔn)確率,另一方面也增加了計算量,降低了算法的分類效率。為此,在不影響文本分類準(zhǔn)確率的前提下,對分詞后的詞語進(jìn)行選擇,只保留那些在文檔中表現(xiàn)能力強、與文本主題密切相關(guān)的對分類有貢獻(xiàn)的詞條。
特征提取Agent 的主要任務(wù)是,在進(jìn)行分類處理之前,對情報文本中出現(xiàn)的詞條及其權(quán)值進(jìn)行選取,以便將非結(jié)構(gòu)化的文本表示成計算機學(xué)習(xí)和分類算法可以識別的形式。
在文本分類中,用于特征選擇的統(tǒng)計量主要包括特征頻度、文檔頻度、特征熵、互信息、信息增益、X2 統(tǒng)計量、期望交叉熵、文本證據(jù)權(quán)等。這些方法的基本思想是給每一個特征詞統(tǒng)計一定規(guī)則下的度量值,并根據(jù)實際情況設(shè)定某一閥值,然后去掉那些度量值小于閥值的詞條,保留度量值大于閥值的詞條作為特征詞。對于不同的分類算法, 各種特征提取方法的效率都不盡相同。根據(jù)研究,對支持向量機分類方法來說,信息增益和X2統(tǒng)計量的方法要優(yōu)于其他幾種。
要構(gòu)造出一個具有良好性能的 SVM,核函數(shù)的選擇是關(guān)鍵。采用適當(dāng)?shù)暮撕瘮?shù)可以在不增加計算復(fù)雜度的情況下實現(xiàn)某一非線性變換后的線性分類,核函數(shù)的這一特點提供了解決“維數(shù)災(zāi)難”的方法。核函數(shù)的選擇包括兩部分:一是核函數(shù)類型的選擇;二是確定核函數(shù)類型后相關(guān)參數(shù)的選擇。
核函數(shù)選擇 Agent 的主要任務(wù)是選擇適當(dāng)?shù)暮撕瘮?shù)作為構(gòu)造支持向量機的基礎(chǔ)。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和 Sigmoid 核函數(shù)等,它們各有不同的優(yōu)點和適用場合。徑向基核函數(shù)具有良好的性能,在缺乏問題先驗知識時其適應(yīng)性是最好的,它能夠處理非線性的情況,而在參數(shù)取某些特定值時,又和線性核函數(shù)或Sigmoid 核函數(shù)的性能相似。徑向基核函數(shù)的另一個優(yōu)點是它只有一個核參數(shù),比多項式核函數(shù)和 Sigmoid 核函數(shù)的參數(shù)少,在選擇參數(shù)時比較方便。
支持向量機的目標(biāo)是找到一個超平面,使得它能夠盡可能多的將兩類數(shù)據(jù)點正確分開,同時使分開的兩類數(shù)據(jù)點距離分類面最遠(yuǎn)。支持向量機構(gòu)造Agent 的主要任務(wù)是在經(jīng)過核函數(shù)映射的高維空間內(nèi),按照模式識別、統(tǒng)計學(xué)習(xí)和最優(yōu)化理論闡述的有關(guān)方法,針對訓(xùn)練樣本集構(gòu)造最優(yōu)分類超平面,從而求解出符合結(jié)構(gòu)風(fēng)險最小化原則的最佳分類函數(shù),構(gòu)造支持向量機分類器。支持向量機的主要優(yōu)點是將降維和分類兩個問題集中處理。研究表明,支持向量機的分類性能超過其它分類算法,而且訓(xùn)練速度與 Rocchio 算法相當(dāng)。
公安情報分類 Agent 的主要任務(wù)是通過由訓(xùn)練樣本構(gòu)造出來的支持向量機來對情報文本進(jìn)行分類。標(biāo)準(zhǔn) SVM 最基本的理論是針對二分類問題,然而,在實際應(yīng)用中有許多分類問題,要解決多分類問題必須輔以一定的策略,常用的方法有:標(biāo)準(zhǔn)算法、一對一方法、k 類 SVM 方法、決策導(dǎo)向循環(huán)圖方法。
質(zhì)量評估Agent的主要任務(wù)是對通過情報分類得到的分類結(jié)果和分類模式進(jìn)行評價解釋。查準(zhǔn)率和查全率是最為傳統(tǒng)、也是應(yīng)用最多的兩個評價指標(biāo)。查準(zhǔn)率體現(xiàn)了系統(tǒng)分類的準(zhǔn)確程度,查全率體現(xiàn)了系統(tǒng)分類的完備性。查準(zhǔn)率和查全率兩個評價標(biāo)準(zhǔn)通常情況下是互補的,單純提高其中一個指標(biāo)會導(dǎo)致另一個指標(biāo)的下降。理論上講,一個優(yōu)良的分類系統(tǒng)應(yīng)該同時具備較高的查準(zhǔn)率和查全率。但實際上,大多數(shù)系統(tǒng)需要在二者之間做出一些折衷,以免某個指標(biāo)過高或過低。
本文在深入研究文本自動分類技術(shù)和多Agent技術(shù)的基礎(chǔ)上, 結(jié)合公安情報的分類需求, 基于支持向量機(SVM)設(shè)計了公安情報自動分類系統(tǒng)模型。多Agent文本分類是對以往多種文本分類方法賦予其智能性的系統(tǒng)集成,盡管研究工作離實用尚有一段距離,但不失為文本分類的一條新的研究途徑。
[1]趙天昀.多分類SVM在企業(yè)競爭情報自動分類中的應(yīng)用[J].現(xiàn)代情報.2008.
[2]吳紹忠.WEB信息挖掘與公安情報收集[J].中國人民公安大學(xué)學(xué)報.2006.
[3]閆超.基于 SVM 的中文文本自動分類系統(tǒng)的研究與實現(xiàn)
[D].太原:太原理工大學(xué)碩士學(xué)位論文.2010.
[4] 牛琳.基于 SVM 的公安情報自動分類系統(tǒng)的設(shè)計與實現(xiàn)[D].解放軍信息工程大學(xué)碩士學(xué)位論文.2007.
[5]熊浩勇.基于 SVM 的中文文本分類算法研究與實現(xiàn)[D].武漢理工大學(xué)碩士學(xué)位論文.2008.
[6]王賢川.基于知網(wǎng)的文本分類算法研究及應(yīng)用[D].南京:江蘇大學(xué)碩士學(xué)位論文.2009.
[7]岑杰.面向情報領(lǐng)域的文本自動分類系統(tǒng)的設(shè)計于實現(xiàn)[D].西安:西安電子科技大學(xué)碩士學(xué)位論文.2008.