基于SVM的公安情報自動分類系統(tǒng)模型設(shè)計

2012-09-17 09:43:46譚敏范強

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2012年7期

譚敏范強

湖南警察學(xué)院計算機系湖南 410138

0 前言

在傳統(tǒng)的公安情報工作中，公安業(yè)務(wù)人員每天都要面臨著大量的情報文本，它們來自不同的渠道，例如：110接處警信息，公安偵查人員搜集的信息，公安內(nèi)網(wǎng)發(fā)布的信息，互聯(lián)網(wǎng)的公開信息等等。據(jù)統(tǒng)計一個普通市級的公安部門每天就會接到幾千條，上萬條的情報信息。對于這些情報，公安機關(guān)需要安排專門的人員進(jìn)行整理，以便及時分析研判情報，發(fā)布有價值的情報給上級部門和下屬的單位。這不僅耗費了大量的警力資源，同時由于工作的繁重和工作人員自身認(rèn)知的差異也會造成情報整理分析的延誤和疏漏，造成不同程度上的損失。

針對傳統(tǒng)的公安情報工作的不足，研究文本自動分類技術(shù)，設(shè)計公安情報自動分類模型，實現(xiàn)公安情報文本的快速自動分類，即將偵查部門采集到的情報文本按照一定的策略自動歸類到已經(jīng)設(shè)定的類別之中?？梢允勾罅康木瘑T擺脫繁重的手工識別情報工作，降低分類成本、改善分類性能(如提高分類精度和推廣性)，并提高情報文本分類的效率，為進(jìn)一步的情報加工處理提供支持。為在新形勢下，建立和完善信息化、自動化的情報體系，推動“情息主導(dǎo)警務(wù)”戰(zhàn)略的落實具有重要的現(xiàn)實意義。

1 相關(guān)技術(shù)

1.1 Agent 技術(shù)

Agent技術(shù)是人工智能領(lǐng)域中的一個重要分支，以其所具有的智能性、自主性、交互性和可移動性等優(yōu)點在許多研究領(lǐng)域中受到了重視。軟件Agent 是能夠與環(huán)境交互的自主軟件實體，較之軟件對象概念具有更多的知識，具有更強的問題求解和自治能力。它可以分為單 Agent 系統(tǒng)和多Agent(Multi-Agent)系統(tǒng)。多Agent系統(tǒng)是由一組獨立但又協(xié)同工作的Agent構(gòu)成。各Agent 相互協(xié)商和協(xié)作，以完成某一共同任務(wù)。

1.2 文本分類過程

一般來講，文本分類過程需要解決以下幾個問題：

(1) 文本預(yù)處理

由于文檔都是非結(jié)構(gòu)化的，而且文檔的內(nèi)容是人類所使用的自然語言，計算機很難處理其語義，因此要進(jìn)行必要的文本預(yù)處理。文本預(yù)處理是指把文本轉(zhuǎn)化為原始特征空間中元素的序列。對于不同語言書寫的文本，預(yù)處理過程和復(fù)雜程度不同。比如對于英語，預(yù)處理主要是去掉停用詞，還原詞形為詞干，得到“干凈”的文本。而對于中文，由于中文詞語是連續(xù)書寫，采用詞語作為特征項需要先從連續(xù)的文本中分離出一個個的詞語來，所以預(yù)處理階段的主要工作是分詞和去停用詞。

(2) 特征選擇

目前，在信息處理方向上，文本的表示主要采用向量空間模型(VSM)。構(gòu)成文本的詞匯，數(shù)量通常相當(dāng)大，因此，表示文本的向量空間的維數(shù)也相當(dāng)大，可以達(dá)到幾萬維，所以有必要對于所獲取的特征進(jìn)行篩選和優(yōu)化，從特征的全集中提取一個最優(yōu)的特征子集。特征提取的目的就是盡量地保留有用特征，剔除無用特征，它通常會采用某種標(biāo)準(zhǔn)對特征的重要性進(jìn)行評價，之后只要保留重要程度較高的特征即可，特征提取的好處為提高分類效率和提高分類精度。文本的特征提取一般是構(gòu)造一個評價函數(shù)，對特征集中的每個特征進(jìn)行獨立的評估，提取的方法有多種，可以使用不同的評價函數(shù)，如：詞頻DF( document frequency threshold) 、信息增益 IG ( information gain) 、互信息 M I ( mutual information) 、期望交叉熵( expected cross entropy) 、文本證據(jù)權(quán)( the weight of evidence for text) 等，其中詞頻和互信息應(yīng)用較廣。

(3) 文本向量表示

文本的特征表示是指用文本的特征信息集合來代表原來的文本。文本的特征信息是關(guān)于文本的元數(shù)據(jù)，可以分為外部特征和內(nèi)容特征兩種類型。其中外部特征包括文本的名稱、日期、大小、類型、文本的作者、標(biāo)題、機構(gòu)等信息，文本的內(nèi)容特征包括主題、分類、摘要等特征。目前，文本的向量表示主要采用向量空間模型(vector Space Model，VSM)，在該模型中，每一對象模型轉(zhuǎn)化為空間中的點，兩對象間的差異由多維空間中兩點間的距離表示。它的基本思想是以向量來表示文本。目前存在多種VSM權(quán)重計算公式，其中被廣泛采用的是TF一IDF公式。

(4) 選擇分類方法

選擇分類方法實際上就是要使用某種方法，建立從文本特征(或?qū)傩?到文本類別的映射關(guān)系，是文本分類的核心問題?，F(xiàn)有的分類方法主要來自兩個方面：統(tǒng)計和機器學(xué)習(xí)，比較著名的文本分類方法有KNN， NaiveBayes，SVM等等。

(5) 性能評測

文本分類系統(tǒng)的建立，需要對系統(tǒng)使用的分類方法或選用不同參數(shù)下的分類器的性能進(jìn)行評價，性能評價對改進(jìn)和完善分類系統(tǒng)也具有指導(dǎo)意義。對文本進(jìn)行分類可以看作是一種機器學(xué)習(xí)的過程，機器學(xué)習(xí)中常用的評估標(biāo)準(zhǔn)有分類正確率(classification accuracy)，查準(zhǔn)率( precision)與查全率(recall)，查準(zhǔn)率與查全率的幾何平均數(shù)，信息估值(information score)，興趣性( interestingness)等。

2 公安情報自動分類系統(tǒng)模型

基于支持向量機的公安情報自動分類分為情報預(yù)處理、特征提取、核函數(shù)選擇、支持向量機構(gòu)造、公安情報分類、質(zhì)量評估等步驟。

在分析公安情報分類主要過程的基礎(chǔ)上，可以結(jié)合當(dāng)前比較先進(jìn)的多Agent 的思想，來構(gòu)建公安情報分類系統(tǒng)。即建立多個具有較高智能和自治能力的 Agent，每一個 Agent都能獨立完成公安情報自動分類系統(tǒng)中的某項功能，而 Agent之間則通過共享資源、相互協(xié)作、相互服務(wù)，共同完成整個任務(wù)，使得整個系統(tǒng)能夠具有自主性、主動性、反映性、可動性、協(xié)同性和智能性，從而取得最佳的效果(圖1)。

圖1 公安情報自動分類系統(tǒng)模型

2.1 情報預(yù)處理Agent

情報預(yù)處理Agent的主要任務(wù)是將公安信息語料按照一定比例分為訓(xùn)練文本和測試文本兩類。再分別對訓(xùn)練文本和測試分類文本進(jìn)行分詞、去停用詞和詞性標(biāo)注等預(yù)處理工作，此時得到的語料信息作為文本特征全集構(gòu)成原始的特征空間。

2.2 特征提取Agent

將中文文本進(jìn)行分詞后，通常每篇文本都對應(yīng)著數(shù)量龐大的詞條，若直接用這些詞條組成向量，不僅維數(shù)太高，而且其中也包含了過多的干擾信息和冗余詞條，一方面影響算法的分類準(zhǔn)確率，另一方面也增加了計算量，降低了算法的分類效率。為此，在不影響文本分類準(zhǔn)確率的前提下，對分詞后的詞語進(jìn)行選擇，只保留那些在文檔中表現(xiàn)能力強、與文本主題密切相關(guān)的對分類有貢獻(xiàn)的詞條。

特征提取Agent 的主要任務(wù)是，在進(jìn)行分類處理之前，對情報文本中出現(xiàn)的詞條及其權(quán)值進(jìn)行選取，以便將非結(jié)構(gòu)化的文本表示成計算機學(xué)習(xí)和分類算法可以識別的形式。

在文本分類中，用于特征選擇的統(tǒng)計量主要包括特征頻度、文檔頻度、特征熵、互信息、信息增益、X2 統(tǒng)計量、期望交叉熵、文本證據(jù)權(quán)等。這些方法的基本思想是給每一個特征詞統(tǒng)計一定規(guī)則下的度量值，并根據(jù)實際情況設(shè)定某一閥值，然后去掉那些度量值小于閥值的詞條，保留度量值大于閥值的詞條作為特征詞。對于不同的分類算法，各種特征提取方法的效率都不盡相同。根據(jù)研究，對支持向量機分類方法來說，信息增益和X2統(tǒng)計量的方法要優(yōu)于其他幾種。

2.3 核函數(shù)選擇Agent

要構(gòu)造出一個具有良好性能的 SVM，核函數(shù)的選擇是關(guān)鍵。采用適當(dāng)?shù)暮撕瘮?shù)可以在不增加計算復(fù)雜度的情況下實現(xiàn)某一非線性變換后的線性分類，核函數(shù)的這一特點提供了解決“維數(shù)災(zāi)難”的方法。核函數(shù)的選擇包括兩部分：一是核函數(shù)類型的選擇；二是確定核函數(shù)類型后相關(guān)參數(shù)的選擇。

核函數(shù)選擇 Agent 的主要任務(wù)是選擇適當(dāng)?shù)暮撕瘮?shù)作為構(gòu)造支持向量機的基礎(chǔ)。常用的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、徑向基核函數(shù)和 Sigmoid 核函數(shù)等，它們各有不同的優(yōu)點和適用場合。徑向基核函數(shù)具有良好的性能，在缺乏問題先驗知識時其適應(yīng)性是最好的，它能夠處理非線性的情況，而在參數(shù)取某些特定值時，又和線性核函數(shù)或Sigmoid 核函數(shù)的性能相似。徑向基核函數(shù)的另一個優(yōu)點是它只有一個核參數(shù)，比多項式核函數(shù)和 Sigmoid 核函數(shù)的參數(shù)少，在選擇參數(shù)時比較方便。

2.4 支持向量機構(gòu)造Agent

支持向量機的目標(biāo)是找到一個超平面，使得它能夠盡可能多的將兩類數(shù)據(jù)點正確分開，同時使分開的兩類數(shù)據(jù)點距離分類面最遠(yuǎn)。支持向量機構(gòu)造Agent 的主要任務(wù)是在經(jīng)過核函數(shù)映射的高維空間內(nèi)，按照模式識別、統(tǒng)計學(xué)習(xí)和最優(yōu)化理論闡述的有關(guān)方法，針對訓(xùn)練樣本集構(gòu)造最優(yōu)分類超平面，從而求解出符合結(jié)構(gòu)風(fēng)險最小化原則的最佳分類函數(shù)，構(gòu)造支持向量機分類器。支持向量機的主要優(yōu)點是將降維和分類兩個問題集中處理。研究表明，支持向量機的分類性能超過其它分類算法，而且訓(xùn)練速度與 Rocchio 算法相當(dāng)。

2.5 分類Agent

公安情報分類 Agent 的主要任務(wù)是通過由訓(xùn)練樣本構(gòu)造出來的支持向量機來對情報文本進(jìn)行分類。標(biāo)準(zhǔn) SVM 最基本的理論是針對二分類問題，然而，在實際應(yīng)用中有許多分類問題，要解決多分類問題必須輔以一定的策略，常用的方法有：標(biāo)準(zhǔn)算法、一對一方法、k 類 SVM 方法、決策導(dǎo)向循環(huán)圖方法。

2.6 性能評測Agent

質(zhì)量評估Agent的主要任務(wù)是對通過情報分類得到的分類結(jié)果和分類模式進(jìn)行評價解釋。查準(zhǔn)率和查全率是最為傳統(tǒng)、也是應(yīng)用最多的兩個評價指標(biāo)。查準(zhǔn)率體現(xiàn)了系統(tǒng)分類的準(zhǔn)確程度，查全率體現(xiàn)了系統(tǒng)分類的完備性。查準(zhǔn)率和查全率兩個評價標(biāo)準(zhǔn)通常情況下是互補的，單純提高其中一個指標(biāo)會導(dǎo)致另一個指標(biāo)的下降。理論上講，一個優(yōu)良的分類系統(tǒng)應(yīng)該同時具備較高的查準(zhǔn)率和查全率。但實際上，大多數(shù)系統(tǒng)需要在二者之間做出一些折衷，以免某個指標(biāo)過高或過低。

3 總結(jié)

本文在深入研究文本自動分類技術(shù)和多Agent技術(shù)的基礎(chǔ)上，結(jié)合公安情報的分類需求，基于支持向量機(SVM)設(shè)計了公安情報自動分類系統(tǒng)模型。多Agent文本分類是對以往多種文本分類方法賦予其智能性的系統(tǒng)集成，盡管研究工作離實用尚有一段距離，但不失為文本分類的一條新的研究途徑。

[1]趙天昀.多分類SVM在企業(yè)競爭情報自動分類中的應(yīng)用[J].現(xiàn)代情報.2008.

[2]吳紹忠.WEB信息挖掘與公安情報收集[J].中國人民公安大學(xué)學(xué)報.2006.

[3]閆超.基于 SVM 的中文文本自動分類系統(tǒng)的研究與實現(xiàn)

[D].太原:太原理工大學(xué)碩士學(xué)位論文.2010.

[4] 牛琳.基于 SVM 的公安情報自動分類系統(tǒng)的設(shè)計與實現(xiàn)[D].解放軍信息工程大學(xué)碩士學(xué)位論文.2007.

[5]熊浩勇.基于 SVM 的中文文本分類算法研究與實現(xiàn)[D].武漢理工大學(xué)碩士學(xué)位論文.2008.

[6]王賢川.基于知網(wǎng)的文本分類算法研究及應(yīng)用[D].南京:江蘇大學(xué)碩士學(xué)位論文.2009.

[7]岑杰.面向情報領(lǐng)域的文本自動分類系統(tǒng)的設(shè)計于實現(xiàn)[D].西安:西安電子科技大學(xué)碩士學(xué)位論文.2008.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡