于新雨 毛立凱 陳橋
(北京中防昊通科技中心,北京 100013)
基于移動互聯(lián)網(wǎng)的質(zhì)檢信息采集與聚類分析技術(shù)淺析
于新雨 毛立凱 陳橋
(北京中防昊通科技中心,北京 100013)
在移動互聯(lián)網(wǎng)環(huán)境下,利用文本挖掘和搜索引擎技術(shù),通過前端內(nèi)容的自動采集處理、對敏感詞進(jìn)行過濾,并且進(jìn)行智能聚類分類、主題檢測、專題聚焦、統(tǒng)計分析,實現(xiàn)質(zhì)檢執(zhí)法各部門對各自相關(guān)網(wǎng)絡(luò)輿情關(guān)注的需要,支持形成質(zhì)檢信息分析報告,從而為決策層全面掌握信息動態(tài)、做出正確輿論引導(dǎo)提供分析依據(jù)。
移動互聯(lián)網(wǎng) 質(zhì)檢執(zhí)法 輿情信息 聚類分析
隨著當(dāng)今信息化技術(shù)的不斷發(fā)展,移動互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I畹谋夭豢缮俚慕M成部分。依托十多年數(shù)字化進(jìn)程中積蓄的能量,大量網(wǎng)絡(luò)化信息從PC互聯(lián)網(wǎng)向移動互聯(lián)網(wǎng)快速遷移,與移動智能終端同步滲透到國民經(jīng)濟各個領(lǐng)域和日常生活之中。在龐大的互聯(lián)網(wǎng)體系之中,網(wǎng)絡(luò)輿情是人們關(guān)于社會中各種現(xiàn)象、問題所表達(dá)的信念、態(tài)度、意見和情緒等表現(xiàn)的總和,特別是關(guān)系到城市安全、供熱鍋爐和壓力管線等特種設(shè)備的質(zhì)檢信息采集和聚類分析技術(shù)。如何正確采集供熱鍋爐和壓力管線等特種設(shè)備的運行數(shù)據(jù)和情景現(xiàn)實,及時通知質(zhì)檢等相關(guān)部門,早發(fā)現(xiàn)、早治理,對維護城市安全具有重大意義。因此,亟待利用移動互聯(lián)網(wǎng)技術(shù),構(gòu)建基于移動互聯(lián)網(wǎng)的質(zhì)檢信息采集與聚類分析技術(shù)平臺,為我國城市安全管理、質(zhì)檢領(lǐng)域熱力鍋爐和其它特種設(shè)備管理提供智能高效的信息化支撐服務(wù)。
2.1 移動互聯(lián)網(wǎng)的質(zhì)檢信息來源
移動互聯(lián)網(wǎng)的質(zhì)檢信息來源的選擇對于以后的質(zhì)檢信息挖掘研究至關(guān)重要,只有準(zhǔn)確地把握質(zhì)檢信息的最初來源,才可能獲得更為全面的質(zhì)檢信息。目前,質(zhì)檢信息主要的來源有政府網(wǎng)站,如新華網(wǎng)、人民網(wǎng)等;新聞及網(wǎng)絡(luò)媒體站點,如光明日報、新浪等;微博、微信、論壇、博客、百度貼吧,如強國論壇、天涯、新浪博客、中國博客網(wǎng)、高校貼吧等。
2.2 移動互聯(lián)網(wǎng)的質(zhì)檢信息采集
移動互聯(lián)網(wǎng)的質(zhì)檢信息采集主要是運營方搜索引擎Web信息采集,通過Web頁面之間的鏈接關(guān)系,利用網(wǎng)絡(luò)爬蟲從Web頁面上自動獲取質(zhì)檢信息相關(guān)信息,并且隨著鏈接不斷向整個Web頁面擴展的過程。
圖1 廣度優(yōu)先搜索流程圖
圖2 web文本類別識別步驟
2.3 移動互聯(lián)網(wǎng)的質(zhì)檢信息預(yù)處理
移動互聯(lián)網(wǎng)的質(zhì)檢信息預(yù)處理主要是對采集到的質(zhì)檢信息網(wǎng)頁進(jìn)行初步的加工和處理,為后繼的質(zhì)檢信息分析奠定基礎(chǔ)。主要涉及信息過濾、關(guān)鍵信息抽取、自動摘要等核心技術(shù)。
2.4 移動互聯(lián)網(wǎng)的質(zhì)檢信息分析
移動互聯(lián)網(wǎng)的質(zhì)檢信息分析是指對從移動互聯(lián)網(wǎng)中所采集到的反映質(zhì)檢信息的新聞、評論等信息素材進(jìn)行分類、聚類、傾向性分析等,根據(jù)質(zhì)檢信息分析評價指標(biāo)的結(jié)果,確認(rèn)其可信度和有效性,然后對質(zhì)檢信息主題重新組織信息,經(jīng)過分類和處理后生成有針對性的質(zhì)檢信息。
2.5 移動互聯(lián)網(wǎng)的質(zhì)檢信息處理
移動互聯(lián)網(wǎng)的質(zhì)檢信息處理包括質(zhì)檢信息預(yù)警、質(zhì)檢信息報告和質(zhì)檢信息引導(dǎo)。首先根據(jù)分析統(tǒng)計得到的相關(guān)質(zhì)檢信息,根據(jù)相關(guān)質(zhì)檢信息預(yù)警指標(biāo),實施報警和預(yù)測,然后向質(zhì)檢部門匯報總結(jié)后的質(zhì)檢信息,從而為質(zhì)檢信息工作者的決策提供服務(wù)。
3.1 爬蟲技術(shù)
利用現(xiàn)有的網(wǎng)絡(luò)爬蟲(crawl)技術(shù)來完成網(wǎng)絡(luò)質(zhì)檢信息的獲取是個不錯的選擇,網(wǎng)絡(luò)爬蟲技術(shù)大部分是基于表單填寫,按表單填寫方法可分為基于領(lǐng)域知識的表單填寫和基于網(wǎng)頁結(jié)構(gòu)分析的表單填寫的爬蟲技術(shù)。
(1)廣度優(yōu)先搜索。在互聯(lián)網(wǎng)中,網(wǎng)頁之間的關(guān)系錯綜復(fù)雜,可以借助圖的結(jié)構(gòu)來表示出它們之間的關(guān)系。遍歷圖的深度優(yōu)先遍歷或者廣度優(yōu)先遍歷方法同樣也可以適用于對網(wǎng)頁進(jìn)行遍歷,規(guī)定抓取網(wǎng)頁的順序。實質(zhì)上講,應(yīng)用于樹中的遍歷算法與廣度優(yōu)先遍歷算法相同,要先對處于同一層次的節(jié)點,進(jìn)行訪問,才可再往下訪問。廣度優(yōu)先遍歷:遍歷是從某個頂點V出發(fā),在對頂點V訪問后,再對還沒有被訪問過的V的鄰接點W進(jìn)行訪問,然后分別從鄰接點W出發(fā)來訪問它們的鄰接點,遵循“先被訪問頂點的鄰接點”早于“后被訪問頂點的鄰接點”被訪問的原則,直到訪問到圖中的所有頂點的鄰接點。
在廣度優(yōu)先遍歷算法中,越離根節(jié)點近的越優(yōu)先被訪問,同樣,若要使某些訪問量高的網(wǎng)頁被優(yōu)先抓取,就應(yīng)該越靠近種子站點。爬蟲從種子站點開始抓取工作,依據(jù)寬度優(yōu)先遍歷的算法,距離種子站點越近的網(wǎng)頁,則可以優(yōu)先于在底層,距離種子站點遠(yuǎn)的網(wǎng)頁被抓取。廣度優(yōu)先遍歷具算法流程圖,如圖1所示。
將頂點V放入隊列中,若隊列為非空的時候就繼續(xù)執(zhí)行流程,否則程序結(jié)束。出隊列時將取出隊頭的頂點V,并訪問頂點V且標(biāo)記為己訪問。找出V的第一個鄰接頂點W。如果頂點V的鄰接頂點W沒有被訪問過的,則將頂點W放入隊列中。繼續(xù)查找,檢查頂點V是否還存在另一個新的鄰接頂點W,直至處理完V的所有未被訪問過的鄰接點。
(2)深度優(yōu)先搜索。該方法采取的搜索策略具體為:深度優(yōu)先搜索過程中,保持對圖的搜索盡可能的“深”,針對最新頂點,若其以頂點作為起點,同時探測過程也是不存在邊的情況下,進(jìn)一步的探索則可沿此邊完成。探索完結(jié)點V全部邊后,搜索則會回到始結(jié)點。該過程的終點為完成源結(jié)點能夠到的全部結(jié)點。若仍然有未被發(fā)現(xiàn)結(jié)點的情況,那么要以源結(jié)點為起點對上述過程重復(fù)進(jìn)行,終點為節(jié)點全部被發(fā)現(xiàn)。對于多數(shù)的情況,深度優(yōu)先使爬蟲會出現(xiàn)陷入trapped的問題,因此,其不具有完備性以及最優(yōu)化。
3.2 文本分類
網(wǎng)絡(luò)上和質(zhì)檢領(lǐng)域相關(guān)的Web文本數(shù)據(jù)量越來越大,如何對這些包含不同信息的文本進(jìn)行準(zhǔn)確高效的分析整理,提升其潛在價值,成為一個待解決的重要問題。文本自動分類技術(shù)是解決該類問題的關(guān)鍵技術(shù)之一。文本分類的根本任務(wù)是根據(jù)Web文本內(nèi)容識別出Web文本所屬類別,大致包括以下幾個步驟。
第一,獲取文本數(shù)據(jù)集。在實際的文本分類系統(tǒng)中會建立標(biāo)準(zhǔn)的文本語料庫,并且標(biāo)注出樣本集中每篇文本所屬的類別。
第二,將文本表示成能夠被計算機或者分類系統(tǒng)識別并且能順利進(jìn)行分類的形式,這也是分類中最重要的一步,比如可以用數(shù)字或者向量來呈現(xiàn)出文本內(nèi)容的特征。而此步中最為重要的是消減特征和計算權(quán)重,它主要解決的是怎樣又從獲取的這些原始信息中提取出能代表其特征的測量值。
第三,構(gòu)建出合適的分類器或分類算法。按照己經(jīng)構(gòu)建的分類器將訓(xùn)練集文本映射到定義好的類別集合中,分類算法有很多,但是使用頻率較高的幾個有:Rocchio算法、支持向量機算法、k最近鄰(k-NN)算法、樸素貝葉斯算法、最大嫡模型等。
第四,評估分類器的相關(guān)性能。針對不同的分類問題,應(yīng)該選擇不同的參數(shù)作為評估標(biāo)準(zhǔn),以獲得需要的結(jié)果,目前大多采用查準(zhǔn)率、查全率、宏平均以及微平均等作為評估分類器性能的指標(biāo)。
依照以上四步,可以將一般文本分類的大致流程表示如圖2所示。圖中實線表示分類器的訓(xùn)練過程,而虛線則表示測試過程。
3.3 Web文本預(yù)處理
(1)頁面去噪。按照各質(zhì)檢信息源表現(xiàn)出的網(wǎng)頁呈現(xiàn)形式采集信息,網(wǎng)頁上包含大量的廣告、圖片、鏈接,這些不是輿情關(guān)注的價值信息,還給系統(tǒng)的高效運行、檢索增加負(fù)擔(dān)。同時數(shù)據(jù)呈現(xiàn)按照各自信息源排列規(guī)則出現(xiàn),利用HTML解析器語法和正則表達(dá)式去識別標(biāo)題、來源、作者、發(fā)布時間、正文等,對信息預(yù)處理形成統(tǒng)一格式供后續(xù)的決策分析。
(2)分詞。中文分詞研究已較為成熟,根據(jù)是否使用切分詞典,可分為有詞典切分和無詞典切分。根據(jù)切分的具體方法,可分為基于規(guī)則的方法和基于統(tǒng)計的方法。本模型采用中國科學(xué)院汁算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS,ICTCLAS采用了層疊隱馬爾可夫模型,主要功能包括中文分詞、詞性標(biāo)注、命名實體識別、新詞識別;同時支持用戶詞典,分詞效果良好。
(3)過濾。利用停用詞表和過濾規(guī)則對分詞結(jié)果進(jìn)行過濾,停用詞表中包括助詞、介詞、連詞等虛詞以及詞語長度為1的無實際含義的詞。設(shè)計相應(yīng)的規(guī)則進(jìn)行過濾。
質(zhì)檢檢測現(xiàn)實情境與投訴舉報信息智能分析模型的主要功能是實現(xiàn)供熱鍋爐和壓力管線等特種設(shè)備的碎片信息的自動分類和推送。
通過對質(zhì)檢部門需求和投訴舉報數(shù)據(jù)領(lǐng)域內(nèi)特征的調(diào)查和分析,發(fā)現(xiàn)投訴信息自動分類的核心需求是建立對質(zhì)檢部門需求的目標(biāo)投訴舉報數(shù)據(jù)辨識度高的分類模型。因而通過理順分類模型的建立過程,質(zhì)檢職能部門與分類類別的對應(yīng)關(guān)系等過程,設(shè)計出能夠由質(zhì)檢部門自由標(biāo)記樣本文件、靈活選擇目標(biāo)字段、按具體情況選擇算法和設(shè)置分類參數(shù)的投訴舉報信息自動分類與推送系統(tǒng)的機制和方案,構(gòu)建由質(zhì)檢部門依據(jù)自己的專業(yè)知識支撐分類模型建立和判定分類結(jié)果滿意度的服務(wù)平臺,從而提高自動分類的準(zhǔn)確度和適應(yīng)性。
模型通過質(zhì)檢用戶標(biāo)識目標(biāo)樣本并確定挖掘字段,來劃定當(dāng)前用戶關(guān)注的當(dāng)前類別的學(xué)習(xí)樣本;通過學(xué)習(xí)、去噪、抽取類特征詞集和開放類特征詞集,用戶修改接口來創(chuàng)建和調(diào)整分類空間;為用戶提供多種分類算法的選擇權(quán)限以及提供參數(shù)修改權(quán)限來實現(xiàn)計算和優(yōu)化分類結(jié)果的目的;通過記錄用戶行為,主要是記錄哪位用戶(或哪個用戶部門)標(biāo)記了哪些樣本,來確定這批樣本代表的投訴舉報類別與用戶(或用戶部門)之間的映射關(guān)系,從而建立自動推送模型,以實現(xiàn)分類結(jié)果訂閱和自動推送的功能。
模型通過建立分類空間,并結(jié)合不同的分類算法和參數(shù)值建立分類模型,分類模型的建立具有依賴部門或質(zhì)檢用戶專業(yè)知識的特點,因而可以貼合質(zhì)檢用戶真正的需求。分類模型是指導(dǎo)自動分類的標(biāo)準(zhǔn),由于投訴舉報信息自動分類數(shù)據(jù)源和目標(biāo)結(jié)果的強專業(yè)性和精細(xì)的領(lǐng)域性,因此分類模型也必須具有隨時根據(jù)用戶需求的演變而靈活調(diào)整的性質(zhì)。
質(zhì)檢用戶根據(jù)自身需求標(biāo)記樣本,對樣本經(jīng)過分詞處理、去噪和預(yù)處理后,確定分類空間,形成分類模型和推送模型,在兩模型的指導(dǎo)下對從投訴舉報信息收集平臺輸入的投訴數(shù)據(jù)完成自動分類和推送的全過程,使部門和用戶可以節(jié)約大量時間并,及時獲得最新的隸屬于當(dāng)前質(zhì)檢用戶關(guān)注類別的投訴舉報信息。最后正確分類的投訴舉報信息就可以在閉環(huán)系統(tǒng)中流動起來,在不同部門之間傳遞并最終解決。
移動互聯(lián)網(wǎng)的質(zhì)檢投訴舉報信息智能分析模型可按照其具體邏輯功能,分為六大核心部門。
投訴舉報信息收集平臺:提供與投訴信息閉環(huán)管控系統(tǒng)的數(shù)據(jù)交互接口,不同來源的投訴信息在這部分進(jìn)行匯集和整合,是投訴信息自動分類與推送系統(tǒng)的數(shù)據(jù)總源。
存儲單元:投訴舉報信息收集平臺獲得的信息來源廣、內(nèi)容復(fù)雜,經(jīng)過去噪將用戶真正關(guān)心的內(nèi)容篩選出來并經(jīng)過分詞和構(gòu)建索引后存儲在系統(tǒng)內(nèi)部,經(jīng)預(yù)處理將數(shù)據(jù)轉(zhuǎn)化為方便讀取和計算的形式。存儲采用增量存儲的方式,允許數(shù)據(jù)不斷累加,這同時也是對投訴信息收集平臺的數(shù)據(jù)提供災(zāi)備支撐。
類別計算中心:這部分是整個系統(tǒng)的核心部分,指導(dǎo)數(shù)據(jù)分類過程,具有反饋調(diào)整的特性。
信息推送中心:這部分記錄類別與質(zhì)檢用戶或質(zhì)檢部門的映射關(guān)系,當(dāng)類別計算中心完成自動分類運算后,信息推送中心執(zhí)行信息從系統(tǒng)內(nèi)部到用戶或用戶部門的傳輸,支撐運算結(jié)果的發(fā)送功能。
服務(wù)接口層:是人機接口和核心計算平臺傳遞數(shù)據(jù)的通道,執(zhí)行用戶端和服務(wù)器端的數(shù)據(jù)交互功能。
人機接口:是用戶使用系統(tǒng)、參與操作、查詢數(shù)據(jù)和接收結(jié)果的接口,具有載入數(shù)據(jù)、標(biāo)注樣本、算法選擇、選擇目標(biāo)字段、參數(shù)設(shè)置、調(diào)整類別特征詞集、推送結(jié)果展示共7個部分。
基于移動互聯(lián)網(wǎng)的質(zhì)檢信息采集與聚類分析技術(shù)對網(wǎng)絡(luò)質(zhì)檢信息的解讀、剖析、統(tǒng)計、處理等,對我國城市安全管理、供熱鍋爐和壓力管線等特種設(shè)備的安全性、穩(wěn)定性、具有重大的現(xiàn)實意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵。在此體系的指導(dǎo)下,將對互聯(lián)網(wǎng)中存在的海量質(zhì)檢信息自動實時的監(jiān)控分析產(chǎn)生極大的推動作用,同時這些技術(shù)也可以被廣泛應(yīng)用于企業(yè)競爭情報系統(tǒng)、個人及企業(yè)知識門戶等領(lǐng)域。
[1]田鶴楠,杜軍平.產(chǎn)品質(zhì)量食品安全互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)設(shè)計[C].中國電子學(xué)會第十七屆信息論學(xué)術(shù)年會論文集,2010,76-80.
[2]田鶴楠.質(zhì)檢總局輿情監(jiān)控系統(tǒng)中信息抽取的研究[D].北京:北京郵電大學(xué),2011.
[3]張紅云.基于頁面分析的主題網(wǎng)絡(luò)爬蟲的研究[D].武漢:武漢理工大學(xué),2010.
[4]曾偉輝,李淼.深層網(wǎng)絡(luò)爬蟲研究綜述[J].計算機系統(tǒng)應(yīng)用,2008,(5):122-126.
[5]周德懋,李舟軍.高性能網(wǎng)絡(luò)爬蟲:研究綜述[J].計算機科學(xué),2009,36(8):26-29.
本文受質(zhì)檢公益性行業(yè)科研專項課題(201310118-03)資金支持。作者,于新雨,北京中防昊通科技中心,從事移動計算,云服務(wù),數(shù)據(jù)安全等專業(yè)領(lǐng)域研究工作。