黃衛(wèi)
摘 要:數(shù)據(jù)采集是信息系統(tǒng)的重要組成部分,隨著信息技術(shù)工具在各部門的廣泛普及,數(shù)據(jù)采集方式發(fā)生轉(zhuǎn)變。文章提出了基于Web服務(wù)建立可互操作分布式應(yīng)用程序的平臺,其具有獨立性、自發(fā)性、智能性,能很好地解決應(yīng)用系統(tǒng)集成和跨平臺問題,簡化了持續(xù)的數(shù)據(jù)采集工作,以較低成本采集不同部門的異構(gòu)數(shù)據(jù),為數(shù)據(jù)分析和決策創(chuàng)造條件。
關(guān)鍵詞:Web服務(wù);XML;數(shù)據(jù)采集;信息系統(tǒng)
隨著信息技術(shù)的廣泛應(yīng)用,各部門積累了豐富的數(shù)據(jù),以提供相關(guān)信息,供決策過程所使用。這些數(shù)據(jù)存放于多個異構(gòu)的、自治、分布的信息系統(tǒng)中,各部門數(shù)據(jù)無法實現(xiàn)共享和轉(zhuǎn)換,面臨著信息孤島問題。數(shù)據(jù)研究機構(gòu)為方便同平臺的數(shù)據(jù)采集,往往不愿付出高成本重組現(xiàn)有系統(tǒng)。于是,采集、組織和分析來自不同部門系統(tǒng)的數(shù)據(jù)是成為管理信息系統(tǒng)(Management Information System,MIS)的設(shè)計和開發(fā)目的之一。在數(shù)據(jù)采集過程中,一是要關(guān)注數(shù)據(jù)的質(zhì)量、準(zhǔn)確性和異構(gòu)性,將采集后的數(shù)據(jù)存儲在一致的數(shù)據(jù)倉庫中,為數(shù)據(jù)挖掘創(chuàng)造條件;二是采取有效的措施,解決異種數(shù)據(jù)的操作和共享難題?;谝陨弦螅闹姓撌隽藨?yīng)用Web服務(wù)、管理代理(Agent)等技術(shù),以較低成本采集不同部門的異構(gòu)數(shù)據(jù),為數(shù)據(jù)分析和決策創(chuàng)造條件。
1 相關(guān)技術(shù)
1.1 XML規(guī)范
可擴展標(biāo)記語言(eXtensible Markup Language,XML)被設(shè)計用來傳輸和存儲數(shù)據(jù),是一種數(shù)據(jù)交換的格式,是W3C制定的文本標(biāo)記語言規(guī)范,它利用標(biāo)準(zhǔn)的網(wǎng)絡(luò)協(xié)議進行傳輸。XML是Web服務(wù)的基礎(chǔ),基于Web服務(wù)的協(xié)議規(guī)范都是XML來描述與表達的。其主要的優(yōu)點在于它既是平臺無關(guān)的,又是廠商無關(guān)的[1]。
1.2 Web服務(wù)
Web服務(wù)是一種松耦合的跨編程語言和跨操作系統(tǒng)平臺的遠程調(diào)用技術(shù)。表面上看,Web服務(wù)是一個應(yīng)用程序可對外調(diào)用的應(yīng)用程序編程接口(Application Programming Interface,API)。把調(diào)用這個Web服務(wù)的應(yīng)用程序稱為客戶端,而把提供這個Web服務(wù)的應(yīng)用程序稱為服務(wù)端。從更深層看,Web服務(wù)建立了可互操作分布式應(yīng)用程序的平臺。只要可以通過Web服務(wù)標(biāo)準(zhǔn)對這些服務(wù)進行查詢和訪問,獨立于不同的語言和平臺,能很好地解決應(yīng)用系統(tǒng)集成和跨平臺問題[2-3]。
1.3 SOAP協(xié)議
簡單對象訪問協(xié)議(Simple Object Access Protocol,SOAP)是指定如何通過HTTP交換XML文檔的協(xié)議規(guī)范,即SOAP協(xié)議= HTTP協(xié)議+ XML數(shù)據(jù)格式。它通過SOAP編碼規(guī)則可以與現(xiàn)有通信技術(shù)最大限度地兼容[2]。
1.4 UDDI與Agent
通用描述、發(fā)現(xiàn)與集成服務(wù)(Universal Description Discovery and Integration,UDDI)是分布式Web服務(wù)的信息注冊規(guī)范,用于通過使用Internet來描述服務(wù),企業(yè)可以使用它對Web服務(wù)進行注冊和搜索。UDDI系統(tǒng)引入Agent后,Web服務(wù)查詢變得更智能化,減輕了管理信息系統(tǒng)的負擔(dān),提高了運行效率。當(dāng)搜索服務(wù)時,Agent以SOAP消息格式向UDDI系統(tǒng)提出查詢請求,并生成一個查詢的Agent,以此來接收Web服務(wù)需求的SOAP消息。
2 數(shù)據(jù)采集系統(tǒng)的實現(xiàn)
2.1 數(shù)據(jù)采集系統(tǒng)工作機制
為解決異構(gòu)數(shù)據(jù)源的數(shù)據(jù)采集,提出以Web服務(wù)作為基礎(chǔ)架構(gòu)的數(shù)據(jù)采集系統(tǒng)。教育系統(tǒng)內(nèi)數(shù)據(jù)采集器如圖1所示,其中包括Web服務(wù)、代理(Agent)系統(tǒng)、UDDI系統(tǒng)及實現(xiàn)異構(gòu)的、分布式教育管理信息系統(tǒng)[4]。Web服務(wù)屏蔽異構(gòu)系統(tǒng)的差別,外部通過服務(wù)接口響應(yīng)的來自Agent的采集請求。UDDI是一種目錄服務(wù),企業(yè)可以使用它對Web服務(wù)進行注冊和搜索。采集器的功能是各教育信息系統(tǒng)傳遞有用的采集數(shù)據(jù),期間通過SOAP/HTTP來進行Web服務(wù)調(diào)用,最后采集至主管部門信息系統(tǒng)[5]。
2.2 Web服務(wù)的數(shù)據(jù)采集接口
該系統(tǒng)使用Web服務(wù)作為編程接口(見圖2)來從異構(gòu)環(huán)境中采集數(shù)據(jù)。它提供了一個平臺,無論編程語言和操作系統(tǒng)如何,其中一個應(yīng)用程序可以與另一個應(yīng)用程序交換信息,支持不同網(wǎng)絡(luò)文件的互操作性,即松耦合。各層級不需重組現(xiàn)有系統(tǒng),以XML文件進行通信,定時的數(shù)據(jù)采集工作可以在任何級別上進行。register()方法用于登記不同層級部門網(wǎng)址;send()方法用于發(fā)送XML文件注冊賬戶;get()方法用于獲取數(shù)據(jù)。
2.3 數(shù)據(jù)采集系統(tǒng)的優(yōu)越性
一般來說,由于聯(lián)機輸入數(shù)據(jù)量大、易出錯,增加了聯(lián)機通信的成本。即使引入傳統(tǒng)計算機數(shù)據(jù)的采集方法,也是一個耗時的過程。此外,異構(gòu)系統(tǒng)也不利于實時數(shù)據(jù)傳輸?;赪eb服務(wù)交換異構(gòu)平臺數(shù)據(jù)速度快,成本低,不論平臺和編程語言是什么,不用重新配置操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)和應(yīng)用軟件,允許訪問不同私有網(wǎng)絡(luò)中的文件,自由地用HTTP協(xié)議進行通信。
3 數(shù)據(jù)采集方法
Web服務(wù)的工作模式是各層信息系統(tǒng)從DUUI系統(tǒng)查詢Web服務(wù)接口,然后按要求格式向Web服務(wù)發(fā)送請求,以傳遞相關(guān)數(shù)據(jù)[6]。以教育系統(tǒng)內(nèi)部數(shù)據(jù)采集為例,采集器運行大致經(jīng)過以下幾個過程(見圖3)。
教育主管部門首先數(shù)據(jù)采集格式設(shè)計,將采集請求以XML格式向?qū)W校的Web服務(wù)提出服務(wù)請求。各層級參照執(zhí)行該步驟,依次為:主管部門→大學(xué)→院系→班級。各校通過Web服務(wù)接口響應(yīng)采集請求,并傳回所采集的數(shù)據(jù)。比如:各大學(xué)提前手動采集大量數(shù)據(jù),然后記錄在學(xué)校的管理信息系統(tǒng)(異構(gòu)系統(tǒng))的數(shù)據(jù)庫中。期間,Web服務(wù)主要負責(zé)將XML格式不同語義的數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)格式。當(dāng)然,校區(qū)分散或具備軟硬件的學(xué)校,也可建立類似的采集器,更高效、低成本地采集不同部門的異構(gòu)數(shù)據(jù)。
數(shù)據(jù)采集過程中無法避免在同一地方可能采集大量表格,存在錯誤的條目和費時的糾錯過程等問題。所以要對采集的數(shù)據(jù)進行必要的整理,清除無用數(shù)據(jù)。事實上,任何層級都可完成數(shù)據(jù)采集工作,并把這些數(shù)據(jù)作為原始數(shù)據(jù)進行進一步的分析,為政策制定者所用。
4 結(jié)語
一個合格的學(xué)校管理信息采集平臺應(yīng)該具有通用性、可靠性、實時性、共享性、能為政策制定者所用,實踐表明該平臺具備這些特點。Web服務(wù)使用的標(biāo)準(zhǔn),如XML,SOAP,WSDL,為普遍所接受的,應(yīng)用Web服務(wù)組件無需重新設(shè)計當(dāng)前的學(xué)校系統(tǒng),不受特定的物理位置、編程語言、平臺、數(shù)據(jù)編碼方式的限制,數(shù)據(jù)可在不同部門、不同平臺之間共享,實現(xiàn)了低成本、開放性與智能性的結(jié)合。
[參考文獻]
[1]SCOTT S. SOAP:XML 跨平臺Web Service開發(fā)技術(shù)[M].北京:機械工業(yè)出版社,2002.
[2]鄭子彬,呂榮聰.Web服務(wù)質(zhì)量管理[M].杭州:浙江大學(xué)出版社,2013.
[3]BOOTH D,HAAS H. Web Services Architecture,W3C Working Group[J].Concurrency & Computation Practice & Experience,2004(5):72-81.
[4]JACKLE A, ROBERTS C, LYNN P. Assessing the effect of data collection mode on measurement[J].International Statistical Review,2010(1):3-20.
[5]王瑄,李燕.應(yīng)用Web Services構(gòu)建多層架構(gòu)的高效.NET應(yīng)用[M].北京:科學(xué)出版社,2005.
[6]馬曉軒.Web服務(wù)與數(shù)據(jù)交換關(guān)鍵技術(shù)研究[M].北京:中國環(huán)境出版社,2017.endprint