国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

情報分析構(gòu)件化研究*

2022-04-12 03:55:28汪雅君劉亦卓臧建國
情報雜志 2022年3期
關(guān)鍵詞:情報學(xué)原始數(shù)據(jù)情報

汪雅君 劉亦卓 臧建國 石 進

(1.南京大學(xué)信息管理學(xué)院 南京 210023; 2.南京森林警察學(xué)院偵查學(xué)院 南京 210023)

隨著信息技術(shù)的發(fā)展,信息數(shù)據(jù)規(guī)模呈幾何式增長,數(shù)據(jù)結(jié)構(gòu)越來越呈現(xiàn)出復(fù)雜多源、異構(gòu)化的趨勢,面向大數(shù)據(jù)進行數(shù)據(jù)挖掘、知識獲取和有效利用成為了眾多學(xué)科研究領(lǐng)域關(guān)注的焦點。情報作為被傳遞和使用的知識,是從數(shù)據(jù)和大量一次信息中通過情報分析方法獲取的有價值的、簡明扼要的二次或三次信息。在情報學(xué)領(lǐng)域,情報分析是挖掘情報和實現(xiàn)情報價值的重要手段。隨著情報3.0時代的到來,情報的主要獲取途徑由紙本文獻變?yōu)榫W(wǎng)絡(luò)空間中存在的非結(jié)構(gòu)化數(shù)據(jù),這就要求情報分析的方式也做出相應(yīng)的改進。在大情報觀的指引下,情報分析不僅服務(wù)于科技與安全領(lǐng)域,還廣泛應(yīng)用于社會、經(jīng)濟、文化等領(lǐng)域,越來越多的非情報學(xué)領(lǐng)域?qū)<腋鶕?jù)在原本專業(yè)領(lǐng)域積累的知識儲備,為情報分析工作提供一定的理論支撐。一般來講,情報分析工作的完成需要專業(yè)的情報分析人員采用特定的情報分析技術(shù)和方法,對相關(guān)信息進行采集、處理、分析等一系列的加工過程后,才能產(chǎn)生最終的情報分析產(chǎn)品,整個過程需要耗費較長的時間。對于不具備情報學(xué)相關(guān)知識背景和未掌握情報分析方法技能的人來說,在進行情報分析任務(wù)時會遇到極大的門檻,需要專業(yè)情報分析人員的輔助。

情報學(xué)的研究重點之一是在復(fù)雜的數(shù)據(jù)中進行情報知識的挖掘。隨著信息技術(shù)的迅速發(fā)展及大數(shù)據(jù)技術(shù)在情報學(xué)領(lǐng)域的廣泛應(yīng)用,情報學(xué)研究涉及到的數(shù)據(jù)形式、來源、處理方式以及應(yīng)用場景都發(fā)生了改變,應(yīng)用大數(shù)據(jù)和人工智能技術(shù)的信息分析、處理與利用成為情報學(xué)體系的重要部分。然而,各領(lǐng)域?qū)η閳蠓治龅男枨笕找嫱?,但是對于情報分析工作所需的專業(yè)知識與技能普遍缺乏,這樣的矛盾導(dǎo)致情報源與情報用戶間的阻隔越來越大,情報分析人員在其中起到了橋梁的作用。在這個新興技術(shù)飛速發(fā)展的時代,我們應(yīng)當(dāng)充分發(fā)揮技術(shù)的作用,減輕情報分析人員的負擔(dān)。

一般來說,情報分析研究的方法可以分為邏輯方法、數(shù)學(xué)方法和具有情報學(xué)特點的分析方法三大類[1]。前兩種研究方法大多取材于自然科學(xué)和社會科學(xué)的研究方法,是一般的科學(xué)方法。第三種方法具有創(chuàng)新性,具有情報學(xué)的特點,能極大地推動情報分析領(lǐng)域的發(fā)展,尤其值得我們研究。本研究將軟件構(gòu)件技術(shù)引入情報分析領(lǐng)域,提出了情報分析構(gòu)件化的思想,詳細闡述了情報分析構(gòu)件化的應(yīng)用及優(yōu)勢,說明了情報分析構(gòu)件化的重要性和必要性,討論其應(yīng)用于情報分析研究領(lǐng)域的可能途徑,為情報分析提供一條新的思路。

1 研究背景

1.1情報學(xué)發(fā)展方向大數(shù)據(jù)時代新興信息技術(shù)的迅猛發(fā)展為情報學(xué)的發(fā)展提供了新的養(yǎng)料,情報學(xué)與時俱進才能迸發(fā)出新的活力。經(jīng)筆者總結(jié),情報學(xué)的發(fā)展有三個重要方向:情報理論革新化、情報工作主動化、學(xué)科體系擴大化。

情報理論革新化:許多傳統(tǒng)的情報學(xué)基礎(chǔ)理論需要進一步深化發(fā)展。例如情報學(xué)文獻計量領(lǐng)域中的幾個經(jīng)典的基本定律——齊夫定律、文獻增長定律、布拉德福定律和文獻老化定律應(yīng)當(dāng)在新環(huán)境下得到創(chuàng)新和發(fā)展。全新的數(shù)據(jù)和技術(shù)環(huán)境為新情報理論的誕生提供了沃土,作為交叉學(xué)科的情報學(xué),其基礎(chǔ)理論的發(fā)展也離不開對相關(guān)學(xué)科理論的吸納和借鑒。

情報工作主動化:情報分析人員應(yīng)當(dāng)主動開展情報工作,適用結(jié)合大數(shù)據(jù)技術(shù)的情報分析手段,主動搜集開源或非開源的相關(guān)信息,挖掘有價值的情報,提交給相關(guān)部門,從而主動引領(lǐng)決策。新時期用戶的情報需求可能會相對模糊,海量的數(shù)據(jù)為滿足多樣化的情報需求提供了有利的數(shù)據(jù)條件。情報分析人員可以圍繞情報主題,借助新興技術(shù)和多種數(shù)據(jù)源,廣泛搜集相關(guān)數(shù)據(jù),經(jīng)過進一步的處理和分析,發(fā)現(xiàn)有價值的情報后,提供給用戶進而輔助決策。

學(xué)科體系擴大化:各領(lǐng)域?qū)<铱梢怨餐⑾嚓P(guān)學(xué)科的基礎(chǔ)理論注入情報學(xué)領(lǐng)域,重新構(gòu)建學(xué)科體系,以情報學(xué)基礎(chǔ)理論為根基,形成如情報經(jīng)濟學(xué)、情報管理學(xué)等交叉學(xué)科。情報工作的各個流程將引入更多的智能技術(shù),因此將更加注重與計算機科學(xué)、電子科學(xué)等工科學(xué)科的交叉融合。情報經(jīng)濟人才、情報管理人才等多種復(fù)合式情報人才的培養(yǎng)將成為未來情報學(xué)領(lǐng)域主流的人才培養(yǎng)模式,對智能技術(shù)的使用也將成為新時期情報分析人員的必備技能。

現(xiàn)有研究對情報學(xué)的發(fā)展方向做了很多相關(guān)的有益探討,岳增慧等[2]從學(xué)科交叉領(lǐng)域的方面出發(fā),認為情報學(xué)未來的發(fā)展與計算機科學(xué)的交叉將越來越緊密,需要增大學(xué)科輻射能力,借鑒計算機學(xué)科領(lǐng)域中的研究工具和方法,引入較為先進的理論與模型;馬費成等[3]認為大數(shù)據(jù)環(huán)境下,隨著數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)獲取方式的變化,情報學(xué)需要主動抓住機遇,應(yīng)充分利用一些較為先進的數(shù)據(jù)挖掘、數(shù)據(jù)處理及可視化等技術(shù),注重多學(xué)科復(fù)合,加強情報分析手段,提高情報分析的效率;甘翼等[4]結(jié)合大數(shù)據(jù)及人工智能技術(shù)的發(fā)展,提出了一種結(jié)合這兩類新技術(shù)的情報分析技術(shù)體系架構(gòu),以應(yīng)對當(dāng)前情報分析領(lǐng)域存在的認識誤區(qū)及情報學(xué)面臨的挑戰(zhàn);曾建勛[5]通過研究大數(shù)據(jù)技術(shù)在知識領(lǐng)域的發(fā)展現(xiàn)狀,認為情報學(xué)面臨著更加復(fù)雜的數(shù)據(jù)網(wǎng)絡(luò)、更先進的數(shù)據(jù)分析方法及日益精準的用戶需求,進而從四個方面分析了情報學(xué)新的核心內(nèi)涵,分析了情報學(xué)變革的體系框架;王知津等[6]認為在大數(shù)據(jù)時代,情報學(xué)需要改變的內(nèi)容有研究內(nèi)容、方法、技術(shù)及模式,引入管理學(xué)、軍事學(xué)的理論與方法,不需改變的內(nèi)容有根本任務(wù)、研究對象、學(xué)科及工作邊界。

情報學(xué)研究已經(jīng)進入3.0時代。張慶普等[7]通過分析當(dāng)前共生網(wǎng)絡(luò)、智慧網(wǎng)絡(luò)等特征,探討了情報學(xué)存在的九大問題,詮釋了情報學(xué)創(chuàng)新的內(nèi)涵;時艷琴等[8]通過對情報學(xué)三個時代的情報載體、情報任務(wù)等方面的比較分析,認為在情報3.0時代的挑戰(zhàn)主要在于需對海量供情報分析的原始數(shù)據(jù)進行信息研判,需要使用智能化情報分析工具輔助專家進行分析。在情報進入3.0時代之后,數(shù)據(jù)量產(chǎn)生了爆炸式增長,情報分析手段由以人工為主變?yōu)橐杂嬎銠C為主、情報專家為輔,情報機構(gòu)需要針對不同領(lǐng)域的場景采用先進的情報分析手段和工具。

1.2知識距離知識距離(Knowledge Distance)是在研究知識的交換、轉(zhuǎn)移、共享等問題時經(jīng)常被提到的概念,張莉等[9]指出知識距離是指知識轉(zhuǎn)移的雙方在知識基礎(chǔ)上的差距或雙方所掌握知識的相異程度。知識距離客觀存在于知識源和知識受體之間,這在一定程度上由不同領(lǐng)域差異程度,即社會分工的高度專業(yè)化決定;同時相同領(lǐng)域內(nèi)的知識距離也不可忽略,同種領(lǐng)域內(nèi)知識水平差距較高時,知識轉(zhuǎn)移的難度也隨之加大。在知識轉(zhuǎn)移的過程中,知識距離具有重要的作用。知識距離越小,知識轉(zhuǎn)移成功率和效率就會越高,反之亦然;而且,在其他條件確定的情況下減小知識距離有利于組織成功且高效率地從數(shù)據(jù)中獲取有效的信息和知識[9]。

知識距離是科學(xué)技術(shù)知識的獲取可行性和連續(xù)性的決定性因素。Liyanage與Barnard[10]認為先驗知識有助于企業(yè)吸收新知識,并以知識距離的相對值來量化企業(yè)先驗知識的價值,發(fā)現(xiàn)當(dāng)知識距離最小化且知識轉(zhuǎn)移過程具有高吸收能力值時,核心先驗知識在知識體系間的轉(zhuǎn)移有較高的可行性。Qian等[11]假設(shè)知識距離滿足所有知識結(jié)構(gòu)上距離空間的三個屬性,使用知識距離計算同個知識庫內(nèi)不同知識結(jié)構(gòu)的差異性,以此方式來從知識庫中發(fā)現(xiàn)新知識與建立顆粒性計算框架。Capald等[12]通過引入權(quán)變理論的觀點,討論創(chuàng)新的科學(xué)價值隨知識成熟度的變化,進一步提出地理距離較遠的知識融合能夠增強知識成熟度的價值貢獻,而技術(shù)距離較遠的知識則會減輕這種價值。

知識距離具有兩個維度屬性:Turner等[13]認為知識有兩個特性,即知識深度與知識寬度(廣度)。知識深度指某一專業(yè)領(lǐng)域中的知識含量,反映了不同知識主體在專業(yè)領(lǐng)域內(nèi)知識水平的差異程度,即專業(yè)化程度的差距。知識寬度指的是知識的多樣性,面向?qū)ο鬄椴煌I(lǐng)域的主體;通常是知識結(jié)構(gòu)上的差異,這種差異由知識主體的知識多樣性決定,知識種類或領(lǐng)域差別越大,則知識寬度距離越大。

文中提及的知識距離同時包括知識寬度距離與深度距離,在情報分析的過程中可具體細分為可供分析的各種原始數(shù)據(jù)之間的距離(Data to Data,D2D)、各種構(gòu)件中間結(jié)果之間的距離(Component to Component,C2C)、數(shù)據(jù)到各領(lǐng)域分析人員的距離(Data to Analyser,D2A)以及不同領(lǐng)域分析人員需要的知識之間的距離(Analyser to Analyser,A2A)。在本文中,認為知識轉(zhuǎn)移過程中的原始發(fā)送方為原始數(shù)據(jù),包括互聯(lián)網(wǎng)信息、原始文獻等,知識最終接收方為專業(yè)情報分析人員;在這個過程中,不同功能的構(gòu)件之間同樣存在知識距離,只有當(dāng)知識距離足夠小時,構(gòu)件與構(gòu)件之間、構(gòu)件與人之間才可以進行交互與轉(zhuǎn)化。此時可以認為知識發(fā)送方的某類知識要素水平大于知識接收方,即原始數(shù)據(jù)包含的知識要素與情報分析人員的知識水平和知識獲取方式之間存在較大的知識距離,要提高知識轉(zhuǎn)移的效率就需要減小此段知識距離。通過縮短知識距離,并進行知識整合、知識再創(chuàng)造與情報抽取,提高知識網(wǎng)絡(luò)中知識轉(zhuǎn)移的效率。

1.3構(gòu)件技術(shù)構(gòu)件概念最早起源于建筑工程領(lǐng)域,是指組成建筑結(jié)構(gòu)的各個單元體,在實際的建筑工程中,施工人員不必了解各構(gòu)件的組成結(jié)構(gòu)和生產(chǎn)方式,只需掌握各構(gòu)件的性能和使用方法,即可完成建筑物的建造。計算機領(lǐng)域中的構(gòu)件是指具有一定功能并且能夠獨立工作或能同其他構(gòu)件裝配起來協(xié)調(diào)工作的程序體[14],通過對已有的構(gòu)件進行組合實現(xiàn)某種功能,能夠開發(fā)新的服務(wù)或軟件。從廣義上來說,構(gòu)件有如下幾個基本屬性[15]:

a.構(gòu)件是可獨立配置的具有獨立功能和接口的單元,必須自包容;

b.強調(diào)與環(huán)境和其他構(gòu)件的分離,因而構(gòu)件是嚴格封裝的,內(nèi)部細節(jié)不對外顯示;

c.構(gòu)件可以被復(fù)合使用,需要提供清晰的接口規(guī)范,可與環(huán)境交互;

d.構(gòu)件不應(yīng)當(dāng)是持續(xù)的,即構(gòu)件沒有個體特有的屬性。

從以上屬性可看出,構(gòu)件繼承了對象的封裝特性,但又并非局限于對象,其內(nèi)部可以封裝一個或多個類、原型對象甚至過程,其結(jié)構(gòu)是靈活的。鐘林輝等[16]以構(gòu)件作為軟件演化度量的基本單位,提出了一組適用于構(gòu)件以及軟件系統(tǒng)演化度量的公式;孫亞男[17]等使用構(gòu)件化系統(tǒng)開發(fā)思想,在項目管理體系研究中將項目開發(fā)分解為多個構(gòu)件:流程、活動、角色、工件等;鐘林輝[18]以本體概念表示構(gòu)件化軟件演化信息的策略,使用Jena推理機實現(xiàn)構(gòu)件化軟件演化信息的獲??;周錦程[19]等對MIS管理信息系統(tǒng)領(lǐng)域?qū)ο筇卣鬟M行分析,基于領(lǐng)域模型進行了體系結(jié)構(gòu)設(shè)計,基于構(gòu)件技術(shù)的分層體系結(jié)構(gòu)能夠有利于系統(tǒng)開發(fā)的細?;?。

總體來看,無論是建筑工程領(lǐng)域的建筑構(gòu)件還是計算機領(lǐng)域的軟件構(gòu)件,它們的產(chǎn)生背景都是基本相似的,都是由于市場對相關(guān)產(chǎn)品(建筑物和軟件)的需求量急劇增加而導(dǎo)致相應(yīng)的構(gòu)件誕生。情報分析工作目前面臨的情況也是如此,隨著社會的發(fā)展,情報學(xué)的研究領(lǐng)域逐漸擴大,用戶的情報分析需求復(fù)雜多樣,傳統(tǒng)的由情報分析人員主導(dǎo)的情報分析流程難以適應(yīng)巨大的用戶需求量,并且其情報分析結(jié)果專業(yè)性較強,對于非情報學(xué)領(lǐng)域的用戶來說理解難度較大。因此,在建筑構(gòu)件和軟件構(gòu)件的啟發(fā)下,本文提出了情報分析構(gòu)件化概念,目的在于使各領(lǐng)域的情報分析人員無需接觸到對數(shù)據(jù)的一些基礎(chǔ)處理,通過調(diào)用情報分析構(gòu)件,將原始數(shù)據(jù)處理轉(zhuǎn)化為領(lǐng)域內(nèi)專家或情報分析人員能夠直接處理或便于利用的知識形式,從而縮小數(shù)據(jù)與專家之間的知識距離,提高知識轉(zhuǎn)移與知識發(fā)現(xiàn)的效率。

情報分析構(gòu)件化是指為解決特定領(lǐng)域的情報問題,以情報知識和領(lǐng)域知識為指導(dǎo),按照用戶的情報分析需求,采用一定的信息組織、分析和可視化等技術(shù)方法對情報問題相關(guān)原始數(shù)據(jù)進行分析并開發(fā)相應(yīng)構(gòu)件,將情報分析結(jié)果最終以易于理解的方式呈現(xiàn)給該領(lǐng)域?qū)<遥M而在此基礎(chǔ)上更好地輔助他們進行情報分析。在本文中,構(gòu)件不只是簡單的功能模塊,而是面向情報分析的情報構(gòu)件(Intelligent Ware, Iware),其與傳統(tǒng)意義上構(gòu)件的區(qū)別在于,在宏觀層面Iware不僅包括軟件構(gòu)件,還包括人的操作,即在情報分析構(gòu)件化的過程中,需要人的配合;而且Iware并非是從功能出發(fā),而是從情報知識出發(fā),每一層次的問題都由合適的人或機器進行解決。

2 情報分析構(gòu)件化

2.1情報分析構(gòu)件化模型Iware分為通用構(gòu)件和領(lǐng)域構(gòu)件,構(gòu)件化整體模型如圖1所示。通用構(gòu)件中包括信息采集構(gòu)件、信息處理構(gòu)件和簡單的信息分析構(gòu)件,適用于所有領(lǐng)域。領(lǐng)域構(gòu)件中包括各領(lǐng)域的專用分析構(gòu)件,適用于不同領(lǐng)域?qū)<业姆治鲂枨蟆?/p>

圖1 情報分析構(gòu)件化模型

通用構(gòu)件的目的為對網(wǎng)絡(luò)上或文獻中的原始數(shù)據(jù)進行獲取,包括但不限于完成信息采集、處理和初步分析的任務(wù)。原始數(shù)據(jù)中包含的知識源到領(lǐng)域知識的距離按層級縮小,構(gòu)件開發(fā)專家為每一層級構(gòu)件的開發(fā)、選取、整合制定相應(yīng)的指導(dǎo)性規(guī)則,這也體現(xiàn)了人在構(gòu)件化情報分析過程中的作用。使用主題抽取、文本分類、實體及關(guān)系識別等自然語言處理技術(shù)抽取出原始數(shù)據(jù)中存在的知識,并以結(jié)構(gòu)化或半結(jié)構(gòu)化的形式存儲此類經(jīng)過初步處理的信息。此部分工作將傳統(tǒng)數(shù)據(jù)挖掘技術(shù)進行封裝實現(xiàn)Iware,以方便調(diào)用。在通用構(gòu)件對數(shù)據(jù)進行初步加工后,針對不同的領(lǐng)域,例如歷史學(xué)、法學(xué)等研究領(lǐng)域的特點,進行單獨的構(gòu)件設(shè)計和實現(xiàn)。通用構(gòu)件信息處理的過程對領(lǐng)域?qū)<也豢梢?,對領(lǐng)域?qū)<叶裕渲苯荧@取到的知識數(shù)據(jù)為處理后的領(lǐng)域知識,可以使用領(lǐng)域情報構(gòu)件對該知識進行進一步加工處理。領(lǐng)域構(gòu)件的功能為針對每個領(lǐng)域的知識特征,將半結(jié)構(gòu)化的信息轉(zhuǎn)變?yōu)榭晒┣閳蠓治鋈藛T或?qū)<抑苯臃治龅闹R。模型主要有以下特點:

a.系統(tǒng)內(nèi)部兩級分工:系統(tǒng)由應(yīng)用和平臺組成;

b.各類信息系統(tǒng)構(gòu)件化裝配:任何機構(gòu)或個人可以將自己的開發(fā)的應(yīng)用或系統(tǒng)轉(zhuǎn)變?yōu)橄到y(tǒng)構(gòu)件;

c.面向數(shù)據(jù)的整合方式:依托標準化的元數(shù)據(jù)規(guī)范來定義系統(tǒng)數(shù)據(jù);

d.應(yīng)用的靈活性:后續(xù)領(lǐng)域應(yīng)用開發(fā)簡單高效,且各構(gòu)件之間具有層次性,即具有包含關(guān)系。

從流程的角度來看,情報分析構(gòu)件化是指情報分析中各處理過程的構(gòu)件化。從原始數(shù)據(jù)中通過計算機直接進行信息抽取的方式并不能直接抽取出知識。不同領(lǐng)域不同專家進行情報分析時所使用的知識可能存在差異,而構(gòu)件化的最終目的是更好地服務(wù)于情報分析工作,因此對于擁有不同分析需求的情報分析人員,為其提供的Iware也會有所不同。情報分析人員并不需要關(guān)心基于構(gòu)件組成的情報系統(tǒng)細節(jié),只需提出需求,關(guān)心其需要的數(shù)據(jù)最終應(yīng)匯集成為怎樣的結(jié)果,以怎樣的形式接收,這也大大減小了傳統(tǒng)情報系統(tǒng)設(shè)計及后期優(yōu)化的時間開銷。

從實際運用的角度來看,情報分析構(gòu)件化需要設(shè)計能夠?qū)崿F(xiàn)某些通用功能及具有領(lǐng)域特征的情報分析的中間件,希望實現(xiàn)采集分析處理呈現(xiàn)的全程自動化或半自動化,因此實際上并不會直接由原始數(shù)據(jù)得到情報分析的結(jié)果,而是有一個中間件,Iware的情報分析功能并不能夠全部由計算機完成,最終還是需要各領(lǐng)域的學(xué)者專家進行知識的整合,即構(gòu)件的作用在于縮短知識距離而非代替人的決策工作。通過基于規(guī)則、統(tǒng)計或機器學(xué)習(xí)構(gòu)件的情報分析模型能夠?qū)哟屋^低的數(shù)據(jù)或知識信息進行處理形成同級或較高級的信息,以及從較大規(guī)模的原始數(shù)據(jù)中抽取出供情報分析的知識元以及實現(xiàn)知識的標準化。但基于計算機的情報分析終究有其局限性,難以做到知識的整合和分析,因此人工工作在情報分析構(gòu)件化架構(gòu)中的作用是不可替代的,包括通用構(gòu)件中數(shù)據(jù)標注、模型搭建以及領(lǐng)域構(gòu)件中的領(lǐng)域化知識分析等都需要依靠人力,各個Iware輸出的結(jié)果也需要人工來實現(xiàn)整合與統(tǒng)計。

2.2Iware組合原則通用構(gòu)件主要包括信息采集構(gòu)件、信息處理構(gòu)件和簡單的信息分析構(gòu)件,適用于所有領(lǐng)域,構(gòu)件之間通過接口進行構(gòu)件關(guān)聯(lián)與數(shù)據(jù)傳輸。其中信息采集構(gòu)件由人工采集、半自動采集、自動采集子模塊構(gòu)成,信息處理構(gòu)件由信息標引、信息摘要、異構(gòu)信息處理、信息分類、信息排重等子模塊構(gòu)成,信息分析構(gòu)件由數(shù)據(jù)挖掘、聯(lián)機分析和模型分析等子構(gòu)件組成。通用構(gòu)件傳遞的數(shù)據(jù)需要具有以下幾個特點:包含整個情報分析過程所需的原始信息,數(shù)據(jù)及數(shù)據(jù)處理的結(jié)果能夠被各個通用構(gòu)件或領(lǐng)域構(gòu)件讀??;而領(lǐng)域構(gòu)件中的數(shù)據(jù)需具有以下特點:知識融合程度高,冗余度小,對知識距離的縮小有明顯的作用。針對不同類型的數(shù)據(jù),在設(shè)計Iware的同時應(yīng)該制定相應(yīng)的數(shù)據(jù)傳輸協(xié)議。

構(gòu)件化是將多種情報分析的Iware進行定義、封裝及標準化,形成能夠直接融合應(yīng)用到各領(lǐng)域中的構(gòu)件,并通過標準化的協(xié)議進行規(guī)范。Iware的組合參考了服務(wù)組合的思想,根據(jù)構(gòu)件的層次性以及構(gòu)件設(shè)計原則中的單一職責(zé)原則,層次較低的Iware能夠?qū)崿F(xiàn)盡量少的功能,整體的情報分析系統(tǒng)是由較多的不同層次的構(gòu)件組合,根據(jù)邏輯流程和構(gòu)件功能的互補完善而成。

構(gòu)件組合的主要目的在于縮短原始數(shù)據(jù)到研究人員的知識距離,因此需要保證:

a.使用簡單:當(dāng)不同情報分析人員需要使用多個構(gòu)件提供的復(fù)合服務(wù)時,向所有消費者公開所有使用的構(gòu)件及其協(xié)調(diào)規(guī)則的知識,會使情報分析系統(tǒng)的實現(xiàn)變得更加復(fù)雜。而創(chuàng)建組合服務(wù),將參與功能實現(xiàn)的構(gòu)件進行封裝、提供接口,在調(diào)用的時候強制按照標準進行,則會大大簡化其設(shè)計及使用。

b.更高的可重用性:系統(tǒng)投入使用后遇到的計劃外的需求通??梢酝ㄟ^復(fù)用已有構(gòu)件實現(xiàn)。即便有一組構(gòu)件是為了構(gòu)造一組特定的解決方案而設(shè)計的,也可以將現(xiàn)有的業(yè)務(wù)服務(wù)與其以其他方式組合以實現(xiàn)之前未曾想到的解決方案。此外,通??梢酝ㄟ^開發(fā)或增強少量的構(gòu)件及其部分功能來廉價、快速地創(chuàng)建新的解決方案。

c.情報分析方案的分區(qū)、可見性、控制和變更管理:組合的構(gòu)件可以作為整體解決方案的分區(qū)機制;引入組合構(gòu)件,僅將某些接口暴露給外部用戶可以控制對消費者可見的內(nèi)容;這支持基礎(chǔ)軟件體系結(jié)構(gòu)(由復(fù)合構(gòu)件實現(xiàn))通過更改其下級服務(wù)的實現(xiàn)以及下級服務(wù)之間的關(guān)聯(lián),從而快速響應(yīng)不斷變化的需求。

Iware的組合有兩個方面:組合設(shè)計——綜合協(xié)調(diào)組件服務(wù)以滿足客戶請求的規(guī)范;組合實現(xiàn)——通過執(zhí)行組合設(shè)計產(chǎn)生的規(guī)范,進而實際實現(xiàn)構(gòu)件服務(wù)組合之間的協(xié)調(diào)工作。本文中定義的Iware組合作為一種控制系統(tǒng)復(fù)雜性的手段,通過多個不同功能的小粒度構(gòu)件組合成大粒度的、具有實用價值和業(yè)務(wù)含義的情報服務(wù)甚至復(fù)合情報系統(tǒng),可以使不同領(lǐng)域的情報分析人員僅關(guān)心復(fù)合情報分析系統(tǒng)中各構(gòu)件的接口和功能而不需知道系統(tǒng)結(jié)構(gòu),并且能夠有效降低系統(tǒng)復(fù)雜性,提高系統(tǒng)可擴展性以及情報分析人員的工作效率。Iware的組合原則主要有以下幾點:

a.由于Iware設(shè)計的初衷是為縮短知識距離以及支持不斷變化的需求處理過程導(dǎo)致的系統(tǒng)功能的變化,且構(gòu)件設(shè)計時遵循功能單一原則,因此Iware組合也需遵循簡潔的原則,即以最大簡化程度的形式進行組合。

b.接口的設(shè)計和工作流的管理是一項復(fù)雜的工作,為更方便的使Iware之間進行數(shù)據(jù)交換及增加新的服務(wù),需按照標準的接口進行構(gòu)件組合,并形成清晰的層次結(jié)構(gòu)。

c.由于Iware的層次性即包含性,當(dāng)數(shù)據(jù)在不同層級的Iware之間傳輸時可能會產(chǎn)生沖突,且高層次的Iware可能包含多個低層模塊,因此設(shè)計情報構(gòu)件模型時應(yīng)規(guī)定高層級構(gòu)件中的數(shù)據(jù)結(jié)構(gòu)應(yīng)當(dāng)兼容低層級。

d.由各種Iware實現(xiàn)的功能集合實際上類似于一個獨立的情報分析系統(tǒng),需要設(shè)計簡潔、清晰的傳輸協(xié)議,各構(gòu)件之間通過一定的規(guī)則(協(xié)議)相互協(xié)作。

e.傳統(tǒng)意義上的復(fù)雜情報系統(tǒng)雖然可能支持較為豐富的功能,但可擴展性差,系統(tǒng)臃腫,為自身的發(fā)展更新造成阻礙。如果系統(tǒng)通過標準的情報構(gòu)件組合實現(xiàn)業(yè)務(wù)服務(wù)功能,說明系統(tǒng)已經(jīng)實現(xiàn)構(gòu)件化和標準化,進而使系統(tǒng)具有重用性和業(yè)務(wù)功能的互操作性。

2.3構(gòu)件原子化原則原子(atom)是構(gòu)成一般物質(zhì)的最小單位,是化學(xué)反應(yīng)不可再分割的基本微粒。如果按照自頂向下設(shè)計、自底向上組裝的思想,我們可以將構(gòu)件分為系統(tǒng)構(gòu)件、組織構(gòu)件、分子構(gòu)件和原子構(gòu)件[20]。分子構(gòu)件和原子構(gòu)件是構(gòu)成系統(tǒng)構(gòu)件、組織構(gòu)件的子構(gòu)件。其中,分子構(gòu)件又可復(fù)用原子構(gòu)件,通過原子構(gòu)件組裝而成。原子構(gòu)件是最小粒度的構(gòu)件[21],它不能通過復(fù)用方式構(gòu)造,一般包括一些最基本的數(shù)據(jù)結(jié)構(gòu)以及與相關(guān)算法封裝在一起的基本類。系統(tǒng)構(gòu)件和組織構(gòu)件可復(fù)用分子構(gòu)件、原子構(gòu)件構(gòu)造,而分子構(gòu)件和原子構(gòu)件只能參與系統(tǒng)構(gòu)件、組織構(gòu)件的組裝,但不參與最后新的應(yīng)用系統(tǒng)的組裝。

構(gòu)件原子化是指要在將情報分析工作最大程度地細化分解的基礎(chǔ)上,開發(fā)能夠?qū)崿F(xiàn)相應(yīng)功能的原子構(gòu)件。比如,情報分析工作中的信息分析任務(wù)是由信息分析構(gòu)件實現(xiàn)的。信息分析構(gòu)件是指能夠?qū)崿F(xiàn)不同情報分析方法的構(gòu)件,這些方法構(gòu)件需要通過原子構(gòu)件組裝生成,在開發(fā)過程中需要按照特定方法的原理對其實現(xiàn)過程進行更深層次的分解,從而減小構(gòu)件開發(fā)的難度。同時,構(gòu)件原子化可以提高構(gòu)件的可復(fù)用性,原子構(gòu)件作為最小粒度的構(gòu)件,是進行構(gòu)件組裝時最基本的部分,其使用率代表了該構(gòu)件的復(fù)用程度的高低。情報分析工作中的不同任務(wù)被原子化分解后可能包含相同的部分,無需重復(fù)開發(fā)相同的原子構(gòu)件,即已開發(fā)的構(gòu)件能夠重復(fù)使用,節(jié)約時間和資金。

構(gòu)件原子化原則貫穿在情報分析工作分解過程和構(gòu)件開發(fā)過程中,也保證了構(gòu)件功能的具體化,使得原子構(gòu)件能完成具體細致的一部分任務(wù),為與其他構(gòu)件的進一步協(xié)作做準備。原子構(gòu)件的功能也具有“不可分割”的性質(zhì),容易被理解和使用,能完整地完成某一部分任務(wù)。在單個原子構(gòu)件內(nèi)部,就其所實現(xiàn)的功能來說,構(gòu)件所封裝的內(nèi)容應(yīng)該盡可能地完善此構(gòu)件的專項功能,保證構(gòu)件正確精準地工作;就不同的原子構(gòu)件來說,它們實現(xiàn)的功能應(yīng)當(dāng)具有區(qū)分度減少重復(fù)性,各自實現(xiàn)不同的功能,這意味著構(gòu)件進行組裝后能夠很好地實現(xiàn)功能的集成,解決更為復(fù)雜的問題。

2.4多種情報來源與情報評價對于有著成熟完善情報分析經(jīng)驗的分析人員,在進行情報分析工作時往往不會只使用單一來源的數(shù)據(jù)信息,而是多維度、多來源、多數(shù)據(jù)結(jié)構(gòu)的各種數(shù)據(jù)信息。實際的情報事務(wù)通常也需要對多種來源、多維度的各種數(shù)據(jù)進行分析處理。多維度數(shù)據(jù)是指數(shù)據(jù)需求的多個業(yè)務(wù)角度,在不同場景中,數(shù)據(jù)會存在不同的維度。例如以“多個石油公司1月份在某地區(qū)的銷售額”這一事件為例,除地區(qū)固定外,還存在三個維度:時間、公司和產(chǎn)品。使用Iware組成的情報系統(tǒng)能夠讀取原始數(shù)據(jù),從不同的維度分別分析數(shù)據(jù),并根據(jù)分析人員的需要實現(xiàn)數(shù)據(jù)可視化,構(gòu)建數(shù)據(jù)立方體即多維向量空間。隨著信息技術(shù)的發(fā)展,情報分析領(lǐng)域最大的數(shù)據(jù)集已經(jīng)成為互聯(lián)網(wǎng),公開源情報的分析價值越來越高。針對不同情報需求,可通過構(gòu)件化情報分析工具實現(xiàn)相應(yīng)爬蟲及其他信息資源獲取功能,定向抓取符合分析人員情報需求的數(shù)據(jù)信息,避免分析人員重復(fù)學(xué)習(xí)相關(guān)技術(shù),節(jié)約時間成本。對于部分通過秘密手段獲取到的非公開情報數(shù)據(jù),則使用經(jīng)過預(yù)先訓(xùn)練的Iware進行數(shù)據(jù)清洗,包括關(guān)鍵詞脫敏、去除無效數(shù)據(jù)、數(shù)據(jù)替換,同樣節(jié)約人工處理敏感數(shù)據(jù)的時間成本。

無論是公開源情報數(shù)據(jù)還是非公開數(shù)據(jù),都存在多種數(shù)據(jù)結(jié)構(gòu),包括可直接處理的文字數(shù)據(jù),不可直接處理的視頻數(shù)據(jù)、圖片數(shù)據(jù)等其他數(shù)據(jù)結(jié)構(gòu)。對于計算機不可直接處理的數(shù)據(jù),需要引入人工進行標注,例如標注視頻標題、圖片標簽。情報分析構(gòu)件化支持對情報進行關(guān)聯(lián)推理、評價,呈現(xiàn)給上層分析人員。情報評價的目的在于判斷情報的質(zhì)量、分析情報的應(yīng)用范圍、估價應(yīng)用后可能產(chǎn)生的效益,從而決定進一步以何種方式和手段對其進行處理。鑒別情報可靠性的主要標準應(yīng)為其內(nèi)容的真實程度,但對情報內(nèi)容真實程度的直接鑒別往往受到許多客觀條件的限制,在多數(shù)情況下直接鑒別是不易實現(xiàn)的。在實踐中,對情報內(nèi)容真實程度的判斷,大都通過對情報來源和載體的某些外部特征的分析來實現(xiàn),例如作者的聲譽、出版社的級別、文獻的種類和密級、情報發(fā)布者或傳播者的權(quán)威性、實物情報的完整程度、口頭情報的轉(zhuǎn)引次數(shù)等等。

由于基于構(gòu)件的情報分析本質(zhì)上是分析流程的構(gòu)件化,多個Iware相互組合實現(xiàn)分析人員的需求,使用者僅接觸到構(gòu)件系統(tǒng)最終輸出的結(jié)果,各個Iware之間的通信被封裝在內(nèi)部,不能人工校驗,因此在實現(xiàn)Iware的時候就需要進行可信度校驗。例如信息抽取構(gòu)件的F1置信度測試、分詞構(gòu)件的準確率評估等,保證各個環(huán)節(jié)數(shù)據(jù)分析的可信度。例如對于法學(xué)家感興趣的訴訟場景:此種場景要求情報具有高證明力,即在可視化平臺中輸入檢索詞,系統(tǒng)經(jīng)分析處理,從知識圖譜中檢索返回一個完整的、嚴謹?shù)那閳笞C據(jù)鏈條,為辯護提供具有較高證明力的證據(jù)。當(dāng)歷史領(lǐng)域的分析人員使用本研究中的構(gòu)件化證據(jù)鏈進行檢索時,可以看到對該節(jié)點的導(dǎo)讀性描述,包括資料作者、發(fā)表時間、資料主題、資料來源;此外,還有對當(dāng)前資料相關(guān)資料的描述,包括各種相關(guān)證據(jù)數(shù)量、類別的描述。

2.5小結(jié)情報分析是一門嚴謹?shù)膶W(xué)科,要求有可靠的數(shù)據(jù)或依據(jù),使用合適的情報分析方法,才能保證情報分析結(jié)果的可靠性。為縮短情報源與情報分析人員間的知識距離,以及充分發(fā)揮技術(shù)的輔助作用與人的判斷能力,情報分析可以朝構(gòu)件化方向發(fā)展。

情報分析構(gòu)件化相對于傳統(tǒng)情報分析系統(tǒng)的優(yōu)勢在于縮短了數(shù)據(jù)與情報分析人員之間的知識距離,這種知識距離是由于情報分析人員的分析能力所能獲取到的情報價值與原始數(shù)據(jù)所蘊含的全部潛在價值之間存在較大差距導(dǎo)致的。傳統(tǒng)的情報分析系統(tǒng)設(shè)計者有時并非其使用者,做出的系統(tǒng)結(jié)果往往容易偏離情報分析人員的實際需求,且系統(tǒng)針對新增需求和業(yè)務(wù)的適應(yīng)性、可調(diào)整性較差,導(dǎo)致縮短知識距離的能力有限,而基于Iware的系統(tǒng)擴展靈活,具有較好的增加新功能的能力,從而減少人力投入和時間成本,使得情報分析人員能夠有更多的精力投入到智慧性思考和決策中。

圖2 案例一流程圖

從知識深度的角度來看,前文所提及的構(gòu)件原子化使得構(gòu)件易于理解和重用,構(gòu)件組合使得各個Iware按照信息采集、信息處理、信息分析的層級集成,各個Iware能夠輸出具有一定參考意義的結(jié)果,情報分析人員既可以選擇對情報構(gòu)件進行整合后獲得總體分析結(jié)果,也可以選擇能夠?qū)崿F(xiàn)特定功能的構(gòu)件直接獲取相應(yīng)結(jié)果輔助分析,這就更加靈活地縮短了情報分析人員與數(shù)據(jù)之間的知識距離。從知識寬度的角度來看,相比于單一來源數(shù)據(jù)進行分析,對多源數(shù)據(jù)進行分析的結(jié)果更加豐富;同時,復(fù)雜情報分析問題可能會涉及到不同的領(lǐng)域,不同領(lǐng)域的專業(yè)知識結(jié)構(gòu)差別較大,通過領(lǐng)域構(gòu)件便于進行多領(lǐng)域綜合情報分析,從而得到比單一領(lǐng)域情報分析更全面、參考價值更高的結(jié)果。

3 情報分析構(gòu)件化的模式與案例

情報分析構(gòu)件化能夠支持自頂向下的分析模式與自底向上的分析模式。自頂向下的情報分析模式指情報分析人員事先了解要分析的問題,根據(jù)一定的手段或工具,將情報問題劃分為多個子問題,即每個問題由多個構(gòu)件組成,使用構(gòu)件化情報分析工具對子問題進行情報分析,在原始數(shù)據(jù)中自頂向下地尋找分析人員需要的情報數(shù)據(jù)。在自頂向下的分析模式中,以構(gòu)件化的情報分析工具為情報分析主體,在組建好分析系統(tǒng)后,分析人員可從原始數(shù)據(jù)中直接獲取需要的知識,中途需要的人工參與較少。自底向上的情報分析模式指領(lǐng)域內(nèi)的專家對目的問題了解不多甚至并沒有明確的問題需求,而是在一定的較為模糊的目標指導(dǎo)下,制定相應(yīng)的規(guī)則,從原始數(shù)據(jù)中抽取數(shù)據(jù),進行無監(jiān)督的機器學(xué)習(xí)訓(xùn)練,之后從抽取出的實體集、關(guān)系集或主題集中人工尋找與實現(xiàn)情報分析目標相關(guān)的問題。

圖3 案例二流程圖

案例一:以外交爭端中的“XX島爭端”事件為例,要證明島嶼所屬國家這一結(jié)論,上層情報分析人員及外交人員與法律工作者首先需要將此知識分為多個爭點,針對這多個爭點在海量數(shù)據(jù)中尋找相應(yīng)證據(jù)。針對分析人員與原始數(shù)據(jù)之間知識距離過遠的問題,分析人員可調(diào)用Iware來搭建情報系統(tǒng),首先對包括視頻標簽、動態(tài)網(wǎng)頁文本、報紙雜志、期刊文獻的大量原始數(shù)據(jù)進行數(shù)據(jù)清洗,對結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)分別進行知識抽??;之后通過實體消歧與共指消解等,完成多維數(shù)據(jù)的知識融合;最終進行知識驗證與知識推理,通過證據(jù)鏈構(gòu)件形成相關(guān)證據(jù)鏈,并支持將證據(jù)情報與證據(jù)鏈存儲到知識圖譜中,以便后續(xù)檢索使用。構(gòu)建證據(jù)鏈并獲取到所需證據(jù)后,通過人工校驗與整合,完成供分析人員舉證、質(zhì)證的高層次情報知識。在此部分的整個流程中,情報分析人員使用通用Iware搭建數(shù)據(jù)知識化系統(tǒng),將距離分析人員較遠的原始數(shù)據(jù)轉(zhuǎn)變?yōu)榉治稣吣軌蜷喿x的高層次信息,Iware承擔(dān)了從數(shù)據(jù)到人之間橋梁的作用;而人工負責(zé)將待證明的問題轉(zhuǎn)換為爭點,部分數(shù)據(jù)的預(yù)標注,以及對證據(jù)情報的分析與整合。情報分析構(gòu)件化能夠使分析人員較為方便地搭建數(shù)據(jù)抽取與分析系統(tǒng),避免了情報分析人員到原始數(shù)據(jù)集中尋找證據(jù)的過程,能極大地減小人力開銷與時間開銷。

案例二:以輿情分析為例,若某分析人員需要了解某段時期在線論壇輿論熱點,則屬于沒有確切的待證明問題,即自底向上的情報分析需求。首先使用封裝好的信息抓取工具獲取在線論壇的原始數(shù)據(jù),完成數(shù)據(jù)清洗后進行中文分詞,由于是沒有問題約束的情報分析方法,所以不需要進行人工標注。之后利用Iware進行文本聚類或主題抽取,可通過社會網(wǎng)絡(luò)分析方法,使用Iware方法實現(xiàn)知識網(wǎng)絡(luò),進而進行情報分析,例如關(guān)聯(lián)用戶聚類或發(fā)現(xiàn)意見領(lǐng)袖。在這種自底向上的情報分析中,與自頂向下模式的一個區(qū)別在于,此種方法中人工參與的流程較多,在從原始數(shù)據(jù)到高級知識的輸出過程中需要情報分析人員的參與,以確定下一步需要的流程與Iware,直到獲取最終結(jié)論。

4 結(jié) 語

情報分析構(gòu)件化實際上是對情報分析的對象、手段、分析結(jié)果進行的構(gòu)件化處理,能夠輔助情報分析人員和不涉及系統(tǒng)細節(jié)的領(lǐng)域情報專家進行智能情報分析,較為靈活、簡便地實現(xiàn)邏輯流程完整的情報分析系統(tǒng),減小人力開銷與時間成本,縮短了從數(shù)據(jù)到情報分析人員以及不同專家之間的知識距離,有利于加速情報知識轉(zhuǎn)移,提高由原始數(shù)據(jù)轉(zhuǎn)變?yōu)榭晒┓治龅闹R的過程效率。本文針對當(dāng)前情報學(xué)領(lǐng)域發(fā)展現(xiàn)狀及面臨的挑戰(zhàn),通過可行性分析,提出了情報分析構(gòu)件化這一概念;同時給出情報分析構(gòu)件化的基本組件與模型,詳細描述了情報構(gòu)件的標準化,包括構(gòu)件設(shè)計原則、構(gòu)件間數(shù)據(jù)傳輸及構(gòu)件組合。在今后的工作中,將進一步完善情報分析構(gòu)件化體系,對構(gòu)件模型的層次結(jié)構(gòu)、邏輯接口和數(shù)據(jù)傳輸規(guī)則進行系統(tǒng)化完善,推動情報分析構(gòu)件化的實際應(yīng)用。

猜你喜歡
情報學(xué)原始數(shù)據(jù)情報
開放與融合:公安情報學(xué)進入情報學(xué)方式研究*
情報雜志(2022年10期)2022-10-20 03:25:42
情報
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
情報
情報
受特定變化趨勢限制的傳感器數(shù)據(jù)處理方法研究
構(gòu)建中國特色的情報學(xué)
全新Mentor DRS360 平臺借助集中式原始數(shù)據(jù)融合及直接實時傳感技術(shù)實現(xiàn)5 級自動駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
交接情報
數(shù)據(jù)挖掘技術(shù)在情報學(xué)領(lǐng)域的應(yīng)用
河南科技(2014年11期)2014-02-27 14:16:48
双峰县| 泸水县| 绥江县| 石河子市| 绵竹市| 积石山| 镇巴县| 同江市| 邯郸市| 永安市| 延长县| 公安县| 民权县| 伊通| 苏尼特左旗| 元朗区| 招远市| 濮阳县| 金山区| 镇江市| 阜平县| 高邮市| 囊谦县| 奉节县| 平邑县| 井陉县| 富川| 青阳县| 博湖县| 谷城县| 容城县| 垫江县| 武安市| 沁阳市| 余庆县| 开原市| 册亨县| 郴州市| 永州市| 阳春市| 平南县|