(中國(guó)電子科技集團(tuán)公司第二十八研究所 南京 210007)
軍事信息化在未來(lái)網(wǎng)絡(luò)化和服務(wù)化體系結(jié)構(gòu)下,數(shù)據(jù)集成將面臨分布式異構(gòu)、海量數(shù)據(jù)資源共享等諸多挑戰(zhàn)。數(shù)據(jù)的網(wǎng)絡(luò)化部署,不斷擴(kuò)展和變化,一般通過服務(wù)發(fā)布和共享;隨著網(wǎng)絡(luò)的建設(shè)和數(shù)字化發(fā)展,數(shù)據(jù)的規(guī)模越來(lái)越龐大;數(shù)據(jù)類型更為廣泛,包括半結(jié)構(gòu)/非結(jié)構(gòu)化文檔、流媒體、各類專用格式報(bào)文等。傳統(tǒng)的數(shù)據(jù)集中(實(shí)體化方法)或邏輯(虛擬化方法)上集中存儲(chǔ)的方法不再可行,而如何利用各類新技術(shù)如大規(guī)模分布是數(shù)據(jù)挖掘、流式數(shù)據(jù)處理等,來(lái)解決網(wǎng)絡(luò)化的異構(gòu)數(shù)據(jù)庫(kù)的數(shù)據(jù)、網(wǎng)絡(luò)化的非結(jié)構(gòu)化數(shù)據(jù)信息集成問題,為網(wǎng)絡(luò)化服務(wù)化的各類信息系統(tǒng)提供數(shù)據(jù)和信息支撐。
為實(shí)現(xiàn)網(wǎng)絡(luò)化數(shù)據(jù)的集成,從數(shù)據(jù)和網(wǎng)絡(luò)化技術(shù)兩個(gè)層面相關(guān)技術(shù)來(lái)實(shí)現(xiàn)。在數(shù)據(jù)層面主要通過元數(shù)據(jù)技術(shù)提高信息的可見性;應(yīng)用層面主要通過信息目錄技術(shù)對(duì)各類資源進(jìn)行整合、通過信息搜索技術(shù)進(jìn)行搜索和發(fā)現(xiàn)、通過信息聚合及挖掘技術(shù)實(shí)現(xiàn)信息的二次開發(fā)和利用。
基于相關(guān)技術(shù)和原理提出網(wǎng)絡(luò)化基于發(fā)現(xiàn)元數(shù)據(jù)的數(shù)據(jù)集成框架,見圖1。主要分為兩層:數(shù)據(jù)及模型支撐層,數(shù)據(jù)集成服務(wù)支撐層。
在數(shù)據(jù)及模型支撐層,最底層為將進(jìn)行網(wǎng)絡(luò)化共享的原始數(shù)據(jù),包括各類多媒體數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)等;在其之上,存儲(chǔ)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行描述的結(jié)構(gòu)元數(shù)據(jù),對(duì)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)、流媒體等多媒體數(shù)據(jù)等進(jìn)行統(tǒng)一的描述發(fā)現(xiàn)元數(shù)據(jù);以及支撐數(shù)據(jù)集成服務(wù)的各類數(shù)據(jù),包括支持信息目錄的目錄庫(kù),支持信息搜素的索引文件和詞庫(kù),支持信息聚合的聚合庫(kù)和挖掘庫(kù);在模型方面主要是基于Lucene的搜索引擎模型和Weka模型庫(kù)。
圖1 基于發(fā)現(xiàn)元數(shù)據(jù)的數(shù)據(jù)集成框架圖
數(shù)據(jù)集成服務(wù)支撐層主要建立在Web服務(wù)體制上,統(tǒng)一通過信息門戶作為用戶操作的入口;應(yīng)用軟件主要分為面向直接使用的用戶的應(yīng)用和面向信息管理的應(yīng)用;面向信息管理的應(yīng)用主要包括信息目錄的目錄整編和目錄發(fā)布,對(duì)元數(shù)據(jù)的管理,對(duì)各類結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的信息搜索及索引/詞庫(kù)的管理,對(duì)信息聚合的需求采集、信息整編及數(shù)據(jù)挖掘的確定等。
信息發(fā)現(xiàn)元數(shù)據(jù)和領(lǐng)域結(jié)構(gòu)元數(shù)據(jù)是元數(shù)據(jù)的主要組成,其中信息發(fā)現(xiàn)元數(shù)據(jù)著眼于資源基本屬性的描述,其目的是提高資源的可見性,增強(qiáng)信息的能力,而具體領(lǐng)域內(nèi)的結(jié)構(gòu)元數(shù)據(jù)是針對(duì)不同業(yè)務(wù)的數(shù)據(jù)命名、數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)間基本關(guān)系的規(guī)范性描述,為數(shù)據(jù)的重用提供結(jié)構(gòu)信息的參考[1]。
發(fā)現(xiàn)元數(shù)據(jù)是目前網(wǎng)絡(luò)上廣泛采用的用于描述信息的技術(shù)方法,提高信息資源網(wǎng)絡(luò)發(fā)現(xiàn)能力和可見性,相關(guān)領(lǐng)域的標(biāo)準(zhǔn)較多,較為著名的包括用于網(wǎng)絡(luò)化圖書資源的都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)和美國(guó)國(guó)防部的發(fā)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)DDMS(Dod Discovery Metadata Standard)等。
都柏林核心元數(shù)據(jù)(Dublin Core Metadata)(簡(jiǎn)寫DC),1995年3月,由OCLC與國(guó)家超級(jí)計(jì)算應(yīng)用照哦功能性(NCSA)聯(lián)合發(fā)起,52位來(lái)自圖書館界、電腦網(wǎng)絡(luò)界專家公同研究產(chǎn)生。目的是希望建立一套描述網(wǎng)絡(luò)電子文獻(xiàn)的方法,以便網(wǎng)上信息檢索。DC的15項(xiàng)著錄項(xiàng)目[2]包括:Title(題名)、Creator(創(chuàng)建者)、Subject(主題)、Description(說(shuō)明)、Publisher(出版者)、Contributor(其他責(zé)任者)、Date(制作日期)、Type(類型)、Format(格式)、Identifier(標(biāo)識(shí)符)、Source(來(lái)源)、Language(語(yǔ)種)、Relation(關(guān)聯(lián))、Coverage(覆蓋范圍)、Rights(權(quán)限)。
元數(shù)據(jù)在軍事領(lǐng)域也得到了應(yīng)用,是軍事信息共享和發(fā)現(xiàn)的基礎(chǔ),其中發(fā)現(xiàn)元數(shù)據(jù)成為元數(shù)據(jù)建設(shè)的重要內(nèi)容,美軍的國(guó)防部發(fā)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)DDMS(Dod Discovery Metadata Standard)就是旨在提高數(shù)據(jù)的可見性,使得用戶能夠更方便的獲得所需的信息,有效的實(shí)現(xiàn)數(shù)據(jù)的共享。美軍2011年DDMS(《Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1》)[3]主要定義了核心層和擴(kuò)展層,如圖2所示。
圖2 DDMS的邏輯模型
建設(shè)信息發(fā)現(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn)將為軍事信息的一體化奠定基礎(chǔ),對(duì)提高信息共享水平和信息發(fā)現(xiàn)能力具有重要的意義。
信息目錄是網(wǎng)絡(luò)化信息登記、造冊(cè)、發(fā)布、發(fā)現(xiàn)、定位、實(shí)現(xiàn)交換的關(guān)鍵組成[4]。發(fā)現(xiàn)元數(shù)據(jù)用于一般性資源描述,特別是互聯(lián)網(wǎng)語(yǔ)義信息的描述。通過信息目錄可進(jìn)一步對(duì)信息進(jìn)行整理,提高信息的可用性和友好性。
其實(shí)現(xiàn)步驟包括兩步:元數(shù)據(jù)目錄部分負(fù)責(zé)將訪問數(shù)據(jù)的請(qǐng)求映射為訪問數(shù)據(jù)載體的請(qǐng)求,實(shí)現(xiàn)第一次映射的功能;資源信息目錄負(fù)責(zé)將訪問數(shù)據(jù)載體的請(qǐng)求映射到具體的數(shù)據(jù)載體上,實(shí)現(xiàn)第二次映射的功能。
在技術(shù)實(shí)現(xiàn)方案,主要包括信息目錄的集中存儲(chǔ)或分布存儲(chǔ);分布存儲(chǔ)涉及信息目錄信息的同步策略及相關(guān)技術(shù);存儲(chǔ)方式包括數(shù)據(jù)庫(kù)存儲(chǔ)或基于LDAP的技術(shù)實(shí)現(xiàn)。
通常,信息檢索需要具備建立索引和提供查詢的基本功能[5],此外還需提供用戶接口、面向互聯(lián)網(wǎng)的開發(fā)接口、二次應(yīng)用開發(fā)接口等。因此,信息檢索系統(tǒng)應(yīng)包括索引引擎、查詢引擎、文本分析引擎、對(duì)外接口以及各種外圍應(yīng)用系統(tǒng)。圖3展示了信息檢索系統(tǒng)的基本功能結(jié)構(gòu)[6]。
圖3 信息檢索系統(tǒng)基本功能結(jié)構(gòu)圖
信息檢索系統(tǒng)比較常用的檢索引擎是基于Lucene的搜索引擎模型。它能夠?yàn)槿魏慰梢赞D(zhuǎn)換成文本格式的數(shù)據(jù)進(jìn)行索引和搜索,具有訪問索引時(shí)間快,多用戶訪問,跨平臺(tái)使用的特點(diǎn)[5]。
對(duì)于中文系統(tǒng)來(lái)說(shuō),文本分析引擎最關(guān)鍵的技術(shù)之一是中文分詞法。中文分詞算法可分為三類:基于字符串匹配的分詞法、基于理解的分詞法和基于統(tǒng)計(jì)的分詞法。目前,基于字符串匹配的正向最大匹配算法是最常使用的中文分詞方法,它由詞典和切分規(guī)則構(gòu)成,遵循“長(zhǎng)詞優(yōu)先”的原則,即從左向右與詞典匹配,要求每一句分詞結(jié)果中詞匯量最少。比如,“中”是一個(gè)詞,其還可以構(gòu)成“中國(guó)”、“中國(guó)人”等一系列詞,當(dāng)需要分詞的語(yǔ)句中出現(xiàn)“中國(guó)人”時(shí),正向最大匹配的分詞結(jié)果為“中國(guó)人”,而不是“中國(guó)”和“人”等其它結(jié)果。
信息聚合,指將來(lái)自于多個(gè)分布的、異構(gòu)的信息資源中的內(nèi)容整合在一起。信息聚合技術(shù)有面向萬(wàn)維網(wǎng),有面向語(yǔ)義網(wǎng)(基于關(guān)聯(lián)數(shù)據(jù)Mashup)[7]。
面向萬(wàn)維網(wǎng)的信息聚合就是通過客戶端軟件或網(wǎng)絡(luò)應(yīng)用程序?qū)⒅T如新聞?lì)^條、博客、播客等網(wǎng)絡(luò)信息聚合到單一地點(diǎn)以方便用戶瀏覽[8]。目前基于RSS的信息聚合服務(wù),發(fā)展為社會(huì)化聚合服務(wù),如Twitter Feed,F(xiàn)acebook等。其有效解決了網(wǎng)絡(luò)信息資源的有序組織、有效傳播,是用戶、技術(shù)和服務(wù)三者間互動(dòng)模型的建立與變化過程。
面向語(yǔ)義網(wǎng)的關(guān)聯(lián)數(shù)據(jù)技術(shù),是一種用來(lái)發(fā)布和聯(lián)接各類數(shù)據(jù)、信息和知識(shí)的標(biāo)準(zhǔn),采用RDF(資源描述框架)數(shù)據(jù)模型,利用URI命名數(shù)據(jù)實(shí)體,并在網(wǎng)上發(fā)布,或形成數(shù)據(jù)網(wǎng)絡(luò)。
完整的數(shù)據(jù)挖掘過程,是一個(gè)不斷調(diào)整、修改與循環(huán)的過程,包括三大步驟:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘以及評(píng)估與表示,如圖4所示。數(shù)據(jù)預(yù)處理步驟,依次包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)選擇和數(shù)據(jù)變換四個(gè)過程。數(shù)據(jù)挖掘步驟,主要是通過一系列的數(shù)據(jù)挖掘算法,對(duì)經(jīng)過處理的數(shù)據(jù)進(jìn)行知識(shí)發(fā)現(xiàn)的過程。評(píng)估與表示步驟主要包括模式評(píng)估階段和知識(shí)表示階段,模式評(píng)估是指根據(jù)某種興趣度量來(lái)識(shí)別表示知識(shí)的真正有趣的模式;知識(shí)表示是指使用可視化和知識(shí)表示技術(shù),向用戶展現(xiàn)挖掘的知識(shí)。三大步驟之間反復(fù)循環(huán)、調(diào)整,直到得到滿意結(jié)果為止。
圖4 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘方法可以分為六大類別[9]:
·廣義知識(shí)挖掘:被挖掘出的廣義知識(shí)可以結(jié)合可視化技術(shù)以直觀的圖表形式展示給用戶。
·關(guān)聯(lián)知識(shí)挖掘:找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)信息,最著名的是Agrawal提出的Apriori及其改進(jìn)算法。
·類知識(shí)挖掘:主要包括分類和聚類兩類。分類常用的方法有決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、遺傳算法與進(jìn)化理論、支持向量機(jī)、關(guān)聯(lián)分類、類比學(xué)習(xí)(近鄰學(xué)習(xí))、粗糙集、模糊集等。聚類算法主要分為基于劃分、層次、密度、網(wǎng)格及模型的聚類方法五大類別。
·預(yù)測(cè)型知識(shí)挖掘:主要的方法有經(jīng)典的統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等技術(shù)。
·特異型知識(shí)挖掘:揭示了事物偏離常規(guī)的異常規(guī)律。主要分為孤立點(diǎn)分析、序列異常分析和特異規(guī)則發(fā)現(xiàn)三類。
·自定義數(shù)據(jù)挖掘:用戶可以通過此接口將自己編寫的算法保存在平臺(tái)上,供日后使用或出售等。此接口使得平臺(tái)具有更強(qiáng)的開放性和擴(kuò)展性。
其中,關(guān)聯(lián)知識(shí)挖掘和類知識(shí)挖掘是較為廣泛應(yīng)用的方法。關(guān)聯(lián)規(guī)則是數(shù)據(jù)中蘊(yùn)含的一類重要規(guī)律,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本任務(wù),甚至可以說(shuō)是數(shù)據(jù)庫(kù)和數(shù)據(jù)挖掘領(lǐng)域中所發(fā)明并被廣泛研究的最為重要的模型。簡(jiǎn)言之,關(guān)聯(lián)規(guī)則挖掘是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的關(guān)系或相關(guān)聯(lián)系[10]。聚類分析就是按照某種相似性度量,具有相似特征的樣本歸為一類,使得類內(nèi)差異相似度較小,而類間差異較大[11]。迄今為止。聚類還沒有一個(gè)學(xué)術(shù)界公認(rèn)的定義,其主要方法包括:基于劃分的聚類方法、基于層次的聚類方法、基于網(wǎng)格的聚類方法、基于密度的聚類方法、基于模型的聚類方法等。
數(shù)據(jù)挖掘常用方法的開源產(chǎn)品較多,Weka是其中較為優(yōu)秀的產(chǎn)品。它是由新西蘭懷卡托大學(xué)開發(fā)的開源項(xiàng)目,具有以下特點(diǎn):跨平臺(tái)、支持結(jié)構(gòu)化文本、支持?jǐn)?shù)據(jù)挖掘格式的文件、提供數(shù)據(jù)庫(kù)接口;能完成預(yù)處理、分類、聚類、關(guān)聯(lián)、可視化等任務(wù);提供算法組合、用戶算法嵌入、算法參數(shù)設(shè)置;能生成基本報(bào)告,實(shí)現(xiàn)模型解釋;實(shí)現(xiàn)數(shù)據(jù)、挖掘過程、挖掘結(jié)果的可視化[12]。
傳統(tǒng)的基于實(shí)體化(數(shù)據(jù)倉(cāng)庫(kù)等)和虛擬化(全局視圖等)的數(shù)據(jù)集成方法越來(lái)越不能滿足未來(lái)網(wǎng)絡(luò)化的海量異構(gòu),特別是用戶對(duì)大量非結(jié)構(gòu)化、流媒體數(shù)據(jù)的需求,本文結(jié)合各類服務(wù)化新技術(shù),提出網(wǎng)絡(luò)化數(shù)據(jù)集成框架和相關(guān)關(guān)鍵技術(shù),對(duì)適應(yīng)未來(lái)不斷發(fā)展的服務(wù)化架構(gòu)網(wǎng)絡(luò)化的大數(shù)據(jù)支持進(jìn)行有意的探討。
[1]伯瓊,趙小燕,等.自動(dòng)抓取元數(shù)據(jù)標(biāo)簽中DC元數(shù)據(jù)的模塊設(shè)計(jì)[J].重慶教育學(xué)院學(xué)報(bào),2010,23(3):9-13.
[2]徐險(xiǎn)峰.網(wǎng)絡(luò)信息資源的Dublin Core元數(shù)據(jù)編目[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2009,21(2):52-54.
[3][美]Defense Information Systems Agency.Department of Defense Discovery Metadata Specification(DDMS)Version 4.0.1[M].2011,11:18-21.
[4]陳明文,朱勤東,等.省級(jí)政府信息目錄編制實(shí)踐與探索[J].電子政務(wù),2010(1):104-110.
[5]劉靜.淺析Lucene的查詢技術(shù)[J].電腦知識(shí)與技術(shù),2012,11(8):24-25.
[6]葛振國(guó).基于Lucene的數(shù)據(jù)庫(kù)全文檢索研究與應(yīng)用[D].成都:西南石油大學(xué)碩士學(xué)位論文,2010:4-8.
[7]丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報(bào),2011(6):50-53.
[8]鄧勝利.信息聚合服務(wù)的發(fā)展和演變研究[J].情報(bào)資料工作,2012(1):79-83.
[9]黃章樹,劉晴晴.基于云計(jì)算服務(wù)模式的數(shù)據(jù)挖掘應(yīng)用平臺(tái)的構(gòu)建[J].電信科學(xué),2012:53-57.
[10]歐陽(yáng)林,譚駿珊,等.經(jīng)典關(guān)聯(lián)算法分析和Weka數(shù)據(jù)挖掘應(yīng)用[J].探索與觀察,2012(5):8-10.
[11]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(12):100-111.
[12]鄭世明,苗壯,等.Weka環(huán)境下基于模糊理論的聚類算法[J].解放軍理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2012(1):22-26.