国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于日志挖掘的打印管理系統(tǒng)的分析與設(shè)計(jì)

2012-07-04 03:26唐維燕
電子工業(yè)專用設(shè)備 2012年5期
關(guān)鍵詞:數(shù)據(jù)源日志數(shù)據(jù)挖掘

唐維燕

(中國(guó)電子科技集團(tuán)公司第四十五研究所北京100176)

1 原型系統(tǒng)的總體結(jié)構(gòu)

本系統(tǒng)采用了WMI 和數(shù)據(jù)挖掘技術(shù),對(duì)打印服務(wù)器的系統(tǒng)日志進(jìn)行分析,用以進(jìn)行打印任務(wù)查詢、打印成本分?jǐn)?、設(shè)備使用情況分析等打印管理工作。打印管理系統(tǒng)主要由前端、后端的打印管理控制臺(tái)和打印日志數(shù)據(jù)庫(kù)及打印服務(wù)器組成。前端主要包括收集查詢條件、統(tǒng)計(jì)打印信息和打印分析展現(xiàn)等3 個(gè)部分。后端主要由日志數(shù)據(jù)庫(kù)管理、日志查詢統(tǒng)計(jì)分析處理、日志記入數(shù)據(jù)庫(kù)、日志文件保存與備份、日志挖掘與分析等5 個(gè)部分組成。原型系統(tǒng)總體結(jié)構(gòu)如圖1 所示。

圖1 系統(tǒng)總體結(jié)構(gòu)圖

本文討論的重點(diǎn)在于數(shù)據(jù)挖掘過程中打印日志數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、挖掘和分析部分,著重探討如何進(jìn)行打印日志的數(shù)據(jù)準(zhǔn)備、挖掘和分析。其中涉及的功能模塊包括:

●打印管理前端:一個(gè)人機(jī)對(duì)話的窗口,提供可視化的界面。

●數(shù)據(jù)庫(kù)管理模塊:提供數(shù)據(jù)的可維護(hù)功能。

●數(shù)據(jù)預(yù)處理模塊:根據(jù)對(duì)打印管理信息的需要,利用WMI 對(duì)打印服務(wù)器的系統(tǒng)日志記錄中關(guān)于打印數(shù)據(jù)信息進(jìn)行提取和預(yù)處理,包括數(shù)據(jù)的清洗、歸約、交換、集成等功能。

●數(shù)據(jù)挖掘模塊:對(duì)日志數(shù)據(jù)源進(jìn)行關(guān)聯(lián)挖掘分析,以得到有用的信息。

●日志查詢統(tǒng)計(jì)模塊:對(duì)經(jīng)過數(shù)據(jù)挖掘和分析的日志記錄依據(jù)查詢條件計(jì)算、分析、匯總。

2 WMI

本系統(tǒng)的打印日志數(shù)據(jù)準(zhǔn)備借助WMI 技術(shù)實(shí)現(xiàn)。WMI (windows management instrumentation,Windows 管理規(guī)范) 是內(nèi)置在Windows 2000、Windows XP 和Windows Server 2003 系列操作系統(tǒng)中核心的管理支持技術(shù),它基于Distributed Management Task Force (DMTF) 所監(jiān)督的業(yè)界標(biāo)準(zhǔn),WMI 是一種規(guī)范和基礎(chǔ)結(jié)構(gòu),通過它可以訪問、配置、管理和監(jiān)視幾乎所有的Windows 資源,如計(jì)算機(jī)系統(tǒng)、磁盤、外圍設(shè)備、事件日志、文件、文件夾、文件系統(tǒng)、網(wǎng)絡(luò)組件、操作系統(tǒng)子系統(tǒng)、性能計(jì)數(shù)器、打印機(jī)、進(jìn)程、注冊(cè)表設(shè)置、安全性、服務(wù)、共享、SAM 用戶和組、Active Directory、Windows 安裝程序、Windows 驅(qū)動(dòng)程序模式(WDM) 設(shè)備驅(qū)動(dòng)程序,以及SNMP 管理信息基(MIB) 數(shù)據(jù)等。WMI 體系結(jié)構(gòu)由3 個(gè)主層組成,如圖2 所示。

下面重點(diǎn)闡述一下WMI 體系結(jié)構(gòu)中最重要的中間層——WMI 基礎(chǔ)結(jié)構(gòu)。WMI 基礎(chǔ)結(jié)構(gòu)由3個(gè)主要組件構(gòu)成:公共信息模型對(duì)象管理器(Common Information Model Object Manager,CIMOM)、公共信息模型(Common Information Model,CIM)儲(chǔ)存庫(kù)、提供程序,以及WMI 腳本庫(kù)。前3 個(gè)WMI 組件共同提供通過其定義、公開、訪問和檢索配置和管理數(shù)據(jù)的基礎(chǔ)結(jié)構(gòu),第4個(gè)組件WMI 腳本庫(kù)是編寫腳本絕對(duì)不可或缺的部分。

圖2 WMI 體系結(jié)構(gòu)

2.1 WMI 提供程序

WMI 提供程序在WMI 和托管資源之間扮演著中間方的角色。WMI 提供程序使用托管資源本機(jī)API 與其相應(yīng)的托管資源通訊,使用WMI 編程接口與CIMOM 通訊。例如,內(nèi)置的事件日志提供程序調(diào)用Win32 事件日志API 來訪問事件日志。

提供程序通常作為駐留在%SystemRoot%system32wbem 目錄中的動(dòng)態(tài)鏈接庫(kù) (DLL) 實(shí)現(xiàn)。WMI 包括很多針對(duì)Windows 2000、Windows XP以及Windows Server 2003 系列操作系統(tǒng)的內(nèi)置提供程序。內(nèi)置提供程序(也被稱為標(biāo)準(zhǔn)提供程序),從已知的操作系統(tǒng)源(如Win32 子系統(tǒng)、事件日志、性能計(jì)數(shù)器、注冊(cè)表等)提供數(shù)據(jù)和管理函數(shù)。

2.2 CIMOM

CIMOM(讀作see-mom)處理使用者和提供程序之間的交互。所有的WMI 請(qǐng)求和數(shù)據(jù)都經(jīng)過CIMOM。Windows Management Instrumentation 服務(wù) (winmgmt.exe),在Windows XP 和Windows Server 系列操作系統(tǒng)上提供了CIMOM 角色,在通用服務(wù)主機(jī)進(jìn)程 (svchost.exe) 的控制下運(yùn)行。管理應(yīng)用程序、管理工具和腳本調(diào)入CIMOM 以挖掘數(shù)據(jù)、訂閱事件或執(zhí)行一些其他的與管理相關(guān)的任務(wù)。

2.3 CIM 儲(chǔ)存庫(kù)

WMI 的基本思想是——可以用一個(gè)架構(gòu)統(tǒng)一表示來自不同源的配置和管理信息。CIM 就是這個(gè)架構(gòu),還調(diào)用了模型化托管環(huán)境和定義每個(gè)由WMI 公開的數(shù)據(jù)塊的對(duì)象儲(chǔ)存庫(kù)或類存儲(chǔ)。該架構(gòu)基于DMTF 公共信息模型標(biāo)準(zhǔn)4。與建立在類概念基礎(chǔ)上的Active Directory 的架構(gòu)非常相似,CIM 由類組成。然而,不同于Active Directory類表示創(chuàng)建并存儲(chǔ)在目錄中的對(duì)象,CIM 類通常表示動(dòng)態(tài)資源。就是說,資源的實(shí)例并不存儲(chǔ)在CIM 中,而是通過基于使用者請(qǐng)求的提供程序動(dòng)態(tài)檢索。這是由于大多數(shù)WMI 托管資源的操作狀態(tài)更改很頻繁,因而必須按需讀取以確保檢索的是最新的信息。

與Active Directory 類相似之處還有就是,CIM 類是分級(jí)組織的,每一級(jí)的子類從父類繼承。DMTF 維護(hù)一組核心和公共基類,系統(tǒng)和應(yīng)用程序軟件開發(fā)人員(如Microsoft 的那些)從這些類派生和創(chuàng)建系統(tǒng)(或應(yīng)用程序)特定的擴(kuò)展類。

2.4 WMI 腳本庫(kù)

WMI 腳本庫(kù)提供自動(dòng)化對(duì)象集,腳本語言(如VBScript、Jscript 及ActiveState 的ActivePerl)利用它訪問WMI 基礎(chǔ)結(jié)構(gòu)。

WMI 腳本庫(kù)在一個(gè)名為wbemdisp.dll 的單個(gè)DLL 中實(shí)現(xiàn),該DLL 物理駐留于%SystemRoot%system32wbem 目錄中。WMI 腳本庫(kù)還包括一個(gè)名為wbemdisp.tlb 的類型庫(kù)??梢允褂肳MI 腳本類型庫(kù)來從基于XML 的Windows 腳本文件(擴(kuò)展名為.wsf 的WSH 腳本)引用WMI 常數(shù)。

本系統(tǒng)就是利用VBScript 語言訪問WMI 基礎(chǔ)結(jié)構(gòu),從打印服務(wù)器的Windows Server 2003 操作系統(tǒng)的系統(tǒng)日志中提取打印相關(guān)數(shù)據(jù)信息。核 心代碼如下:

3 數(shù)據(jù)預(yù)處理模塊設(shè)計(jì)

數(shù)據(jù)源準(zhǔn)備部分是整個(gè)日志分析的基礎(chǔ),它為后續(xù)的分析模塊提供真實(shí)可靠、適宜的挖掘數(shù)據(jù)源。數(shù)據(jù)挖掘中的預(yù)處理階段主要是接收并理解用戶的知識(shí)發(fā)現(xiàn)需求,確定發(fā)現(xiàn)任務(wù),抽取并處理與任務(wù)有關(guān)的數(shù)據(jù)源,根據(jù)背景知識(shí)中的約束性規(guī)則對(duì)數(shù)據(jù)進(jìn)行合法性檢查,通過清洗、歸約、集成等操作,生成供數(shù)據(jù)挖掘核心算法使用的目標(biāo)數(shù)據(jù),即知識(shí)基。知識(shí)基是原始數(shù)據(jù)庫(kù)經(jīng)數(shù)據(jù)匯集處理后得到的二維表,縱向?yàn)閷傩?,橫向?yàn)橛涗洝K鼌R集了原始數(shù)據(jù)庫(kù)中與發(fā)現(xiàn)任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是知識(shí)發(fā)現(xiàn)狀態(tài)空間的基底,也可以認(rèn)為是最初的知識(shí)模板。

3.1 數(shù)據(jù)預(yù)處理方法

一般系統(tǒng)的日志信息量非常龐大,并且存在雜亂性、重復(fù)性和不完整性的問題。由于系統(tǒng)日志中記載的原始數(shù)據(jù)來源不一,有關(guān)于硬件、軟件和系統(tǒng)問題的日志,以及反應(yīng)系統(tǒng)中發(fā)生的事件等等,這些信息源的配置并不完全相同,所產(chǎn)生的日志信息存在一定的差異,因此有些數(shù)據(jù)顯得雜亂無章,這是日志雜亂性問題所在。重復(fù)性是指對(duì)于同一個(gè)客觀事物在系統(tǒng)中存在兩個(gè)或兩個(gè)以上完全相同的物理描述,這樣就帶來了數(shù)據(jù)的重復(fù)和冗余問題。不完整性是由于實(shí)際系統(tǒng)存在的缺陷以及一些人為因素造成的數(shù)據(jù)記錄的缺失,或者數(shù)據(jù)記錄中出現(xiàn)數(shù)據(jù)屬性值的丟失或不確定的情況。為此,我們需要對(duì)這些原始的數(shù)據(jù)源進(jìn)行數(shù)據(jù)預(yù)處理,通過數(shù)據(jù)清理、數(shù)據(jù)歸約、數(shù)據(jù)變換、數(shù)據(jù)集成等方法,對(duì)系統(tǒng)的打印日志信息進(jìn)行預(yù)處理,產(chǎn)生可供挖掘和進(jìn)一步處理的數(shù)據(jù)源。

●數(shù)據(jù)清理的任務(wù)是要去除源數(shù)據(jù)即打印日志信息數(shù)據(jù)中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù)和在知識(shí)背景上的白噪聲,考慮打印日志信息的時(shí)間變化和它們的數(shù)據(jù)變化,主要是對(duì)重復(fù)數(shù)據(jù)和缺值數(shù)據(jù)進(jìn)行處理,去除重復(fù)數(shù)據(jù)記錄,填補(bǔ)缺省數(shù)據(jù)。

●系統(tǒng)日志中有些數(shù)據(jù)屬性對(duì)打印分析沒有什么作用,但會(huì)大大影響數(shù)據(jù)挖掘效率,甚至可能導(dǎo)致數(shù)據(jù)挖掘結(jié)果的偏差,產(chǎn)生誤導(dǎo)作用,因此,有效地對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)化是很有必要的。數(shù)據(jù)歸約簡(jiǎn)化是在對(duì)發(fā)現(xiàn)任務(wù)和數(shù)據(jù)本身內(nèi)容理解的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)集。分別對(duì)系統(tǒng)打印日志信息中的屬性和記錄進(jìn)行簡(jiǎn)化,對(duì)數(shù)據(jù)的屬性進(jìn)行剪枝、并值等相關(guān)操作。剪枝就是去除對(duì)提取打印相關(guān)信息沒有貢獻(xiàn),或者貢獻(xiàn)率很低的屬性值。并值就是把相近的屬性進(jìn)行綜合歸并處理。

●在系統(tǒng)日志信息中,有些屬性域需要做一定的變換處理,使得挖掘的結(jié)果能夠合乎我們的習(xí)慣邏輯和表達(dá),如在系統(tǒng)日志記錄中,時(shí)間維的屬性值總是表示為一個(gè)精確到秒級(jí)的數(shù)值,但是在某些情況下,我們不需要知道如此精確的時(shí)間,而只需要知道大致的時(shí)間范圍段,比如以一天這樣的時(shí)間段劃分,所以我們要根據(jù)需求,做一定的數(shù)據(jù)變換工作。數(shù)據(jù)變換也屬于概念分層的范圍,即通過收集并用較高層的概念替換較低層的概念來定義數(shù)值屬性的一個(gè)離散化。概念分層可以用來歸約數(shù)據(jù),通過這種概化,盡管細(xì)節(jié)丟失了,但概化后的數(shù)據(jù)更有意義,更容易理解,并且所需的空間比原數(shù)據(jù)少。

●數(shù)據(jù)集成主要是將多個(gè)文件中的異構(gòu)數(shù)據(jù)源進(jìn)行合并處理,解決語義的模糊性。該部分主要涉及數(shù)據(jù)的選擇,數(shù)據(jù)的沖突性以及數(shù)據(jù)的不一致性問題處理。

在實(shí)際的數(shù)據(jù)挖掘應(yīng)用中,數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)歸約不一定都用到,需要根據(jù)實(shí)際情況和需求,合理地對(duì)源數(shù)據(jù)進(jìn)行預(yù)處理。

3.2日志記錄預(yù)處理和特征提取

在系統(tǒng)日志中,每一條記錄都包含一些主要的屬性信息和一些次要的信息,如來自系統(tǒng)打印日志的一條記錄可能包含:事件類別、計(jì)算機(jī)名、日志事件代碼、日志信息、日志記錄編號(hào)、日志來源、時(shí)間、請(qǐng)求類型、用戶名等信息。但是在打印管理分析中,有些信息不是非常重要的,比如事件類別和日志事件代碼等;有些信息則可以通過預(yù)處理中的概化方法,比如對(duì)時(shí)間信息,我們可以進(jìn)行概化處理,方便挖掘;而計(jì)算機(jī)名、用戶名、日志來源等則是一些關(guān)鍵信息,必須保留原始樣式。同時(shí)對(duì)于日志信息,這些內(nèi)容格式不固定的記錄需要進(jìn)行日志記錄的規(guī)范化預(yù)處理(如圖3 所示)。

圖3日志規(guī)范化處理流程模塊圖

規(guī)范化格式處理的目的是為了達(dá)到以下幾個(gè)目標(biāo):完整性、可擴(kuò)展性、簡(jiǎn)單性。完整性要求規(guī)范化處理后的打印日志包含所有的需要信息,否則這個(gè)日志在打印分析中就不可用??蓴U(kuò)展性是要求這種方法必須能容納不同的日志內(nèi)容使日志在類型上不受限制。簡(jiǎn)單性是要求規(guī)范化格式處理后的日志,要容易被后面的挖掘算法處理分析,同時(shí)也方便打印日志數(shù)據(jù)庫(kù)的設(shè)計(jì)實(shí)現(xiàn)。在具體系統(tǒng)實(shí)現(xiàn)時(shí),可以作為用戶自定義在對(duì)原始日志進(jìn)行規(guī)范化格式處理的同時(shí),得到所需的信息。

4 挖掘與分析平臺(tái)設(shè)計(jì)

完成數(shù)據(jù)源的準(zhǔn)備工作后,采用關(guān)聯(lián)分析方法從這些數(shù)據(jù)中找出各個(gè)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)規(guī)則,從而獲得打印數(shù)據(jù)之間存在的關(guān)聯(lián)信息;然后采用分類算法對(duì)所有數(shù)據(jù)進(jìn)行分類分析,建立分類模型,對(duì)打印日志數(shù)據(jù)做進(jìn)一步分類。其實(shí)應(yīng)用于打印分析的數(shù)據(jù)挖掘方法并不局限于這幾種,其他如聚類、估計(jì)、預(yù)測(cè)方法等挖掘算法,也將隨著打印分析研究的深入和挖掘算法的進(jìn)一步完善,會(huì)得到更好的應(yīng)用。

因此在設(shè)計(jì)挖掘與分析模塊的時(shí)候,充分考慮到將來的發(fā)展趨勢(shì),著眼于系統(tǒng)的伸縮性和可擴(kuò)展性,采用分層結(jié)構(gòu)的框架來設(shè)計(jì)挖掘和分析平臺(tái),將挖掘分析應(yīng)用部分分為四個(gè)層次:數(shù)據(jù)層、挖掘算法層、挖掘任務(wù)層、模式表示層??蚣芙Y(jié)構(gòu)如圖4 所示。

●數(shù)據(jù)層:經(jīng)過規(guī)范化預(yù)處理的日志數(shù)據(jù),為挖掘數(shù)據(jù)源部分。

●挖掘算法層:提供關(guān)聯(lián)規(guī)則、分類算法、聚類算法等挖掘算法的具體實(shí)現(xiàn),以接口的形式提供給挖掘目標(biāo)層的任務(wù)挖掘。

●挖掘任務(wù)層:根據(jù)具體的挖掘任務(wù),利用挖掘算法層提供的算法,對(duì)挖掘數(shù)據(jù)源進(jìn)行日志屬性的內(nèi)部關(guān)聯(lián)挖掘、時(shí)間序列挖掘、異常檢測(cè)、日志分類或聚類分析、統(tǒng)計(jì)計(jì)算等.

●模式表示層:把挖掘得到的結(jié)果以易于用戶理解的直觀方式呈現(xiàn)給用戶,便于用戶對(duì)模式進(jìn)行評(píng)估和分析。

以分層結(jié)構(gòu)來設(shè)計(jì)挖掘分析平臺(tái),結(jié)合了打印管理分析工作的特點(diǎn)和數(shù)據(jù)挖掘技術(shù)快速發(fā)展的現(xiàn)況,既滿足了現(xiàn)階段數(shù)據(jù)挖掘在打印管理領(lǐng)域的應(yīng)用,也增加了整個(gè)系統(tǒng)方案的靈活性和可擴(kuò)展性。

圖4 挖掘?qū)哟畏治鼋Y(jié)構(gòu)框架圖

5 小 結(jié)

本文以打印管理的實(shí)際功能需求,討論了基于日志的打印管理原型系統(tǒng)設(shè)計(jì)中應(yīng)該考慮和需要解決的幾個(gè)問題,以數(shù)據(jù)挖掘的技術(shù)要點(diǎn)和過程為出發(fā),從利用WMI 對(duì)數(shù)據(jù)源的提取準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘分析方法的實(shí)現(xiàn)這三部分來分析和設(shè)計(jì)基于網(wǎng)絡(luò)共享的打印管理原型系統(tǒng),著重討論了各個(gè)功能模塊的設(shè)計(jì)思想和使用的技術(shù)。利用WMI 獲取系統(tǒng)日志只是WMI 應(yīng)用中很小的一塊,通過它可以訪問、配置、管理和監(jiān)視幾乎所有的Windows 資源,本文作者在此借助這個(gè)打印管理系統(tǒng)拋磚引玉,希望大家利用WMI“深度挖掘”Windows 系統(tǒng)的各項(xiàng)“潛能”,實(shí)現(xiàn)更便捷的管理。

[1] 林曉東,劉心松.文件系統(tǒng)中日志技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用,1998,118(1):28-30.

[2] 張施展,高景昌. 基于WMI 技術(shù)的計(jì)算機(jī)自動(dòng)化管理[J];吉林大學(xué)學(xué)報(bào)(信息科學(xué)版);2006,24(4):451-456.

[3] Han Jiawei,Kamber M 數(shù)據(jù)挖掘概念與技術(shù)[M].范明,盂小峰譯,北京:機(jī)械工業(yè)出版社,2001

[4] 屈定春,林原. 一種新型的數(shù)據(jù)庫(kù)應(yīng)用——數(shù)據(jù)采掘.計(jì)算機(jī)應(yīng)用研究,1996(6):8-11.

猜你喜歡
數(shù)據(jù)源日志數(shù)據(jù)挖掘
一名老黨員的工作日志
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
扶貧日志
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
游學(xué)日志
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
一種基于粗集和SVM的Web日志挖掘模型
临洮县| 玉山县| 比如县| 峨山| 贵阳市| 邵阳县| 天长市| 观塘区| 临泉县| 江达县| 宁晋县| 银川市| 康平县| 丹棱县| 祁连县| 铁岭县| 江西省| 莲花县| 辽阳县| 阿图什市| 海门市| 五常市| 怀安县| 子洲县| 和田市| 黎川县| 克东县| 玛曲县| 高密市| 卓资县| 陕西省| 望城县| 石河子市| 石台县| 紫金县| 牟定县| 清水河县| 蚌埠市| 佛山市| 简阳市| 自贡市|