彭 穎
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,四川 成都610041)
隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,人類邁入了大數(shù)據(jù)時(shí)代.大數(shù)據(jù)已滲透到各行各業(yè),正深刻地改變著人們的思維、生產(chǎn)和生活方式,也給企業(yè)的經(jīng)營(yíng)帶來了前所未有的機(jī)遇和挑戰(zhàn).在大數(shù)據(jù)時(shí)代的背景下,企業(yè)獲取、存儲(chǔ)、處理、分析數(shù)據(jù)變得越來越快捷,但如何從海量的數(shù)據(jù)中找到有價(jià)值的情報(bào)依然是關(guān)鍵.
2007年1月11日在美國(guó)國(guó)家研究理事會(huì)計(jì)算機(jī)科學(xué)與通信分會(huì)上吉姆·格雷明確地闡述了科學(xué)研究第四范式,認(rèn)為依靠對(duì)數(shù)據(jù)分析挖掘也能發(fā)現(xiàn)新的知識(shí),這一認(rèn)識(shí)吹響了大數(shù)據(jù)前進(jìn)的號(hào)角[1].從2007年開始,IBM、EMC等大型企業(yè)并購(gòu)多家擅長(zhǎng)數(shù)據(jù)分析和處理公司,以切入大數(shù)據(jù)這一主題;2012年3月29日,奧巴馬政府公布《大數(shù)據(jù)研究與開發(fā)倡議》從國(guó)家層面正式推動(dòng)大數(shù)據(jù)的研發(fā)與應(yīng)用[2].
大數(shù)據(jù)有5V特點(diǎn),即Volume(數(shù)據(jù)量巨大),Variety(數(shù)據(jù)類型多樣),Value(價(jià)值),Velocity(高速處理)和Veracity(真實(shí)性)[3].大數(shù)據(jù)時(shí)代數(shù)據(jù)類型繁雜,多樣化的數(shù)據(jù)結(jié)構(gòu)增加了數(shù)據(jù)收集、處理的難度.
競(jìng)爭(zhēng)情報(bào)系統(tǒng)隨著經(jīng)濟(jì)全球化的發(fā)展,市場(chǎng)競(jìng)爭(zhēng)日趨激烈,競(jìng)爭(zhēng)情報(bào)已成為繼人才、資金、技術(shù)之后,企業(yè)發(fā)展的第四要素[4].企業(yè)通過競(jìng)爭(zhēng)情報(bào)系統(tǒng)不僅要對(duì)企業(yè)內(nèi)部的各項(xiàng)數(shù)據(jù)進(jìn)行存儲(chǔ)、處理,也需要對(duì)外部環(huán)境中報(bào)刊雜志、電子媒介、網(wǎng)絡(luò)媒介、展示媒介和其他媒介如政府、行業(yè)協(xié)會(huì)等信息源進(jìn)行全面整合和利用,以了解外部環(huán)境、監(jiān)控競(jìng)爭(zhēng)對(duì)手使企業(yè)獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì).
大數(shù)據(jù)時(shí)代的到來為情報(bào)的搜集提供了沃土,但也帶來了前所未有的挑戰(zhàn).企業(yè)每天從外部獲取的信息是海量的,對(duì)于任何一個(gè)企業(yè)自身來說也隨時(shí)都在產(chǎn)生大量的數(shù)據(jù),每天的交易額、業(yè)務(wù)往來、電子郵件等.面對(duì)如此浩瀚的信息,質(zhì)量層次不齊、價(jià)值含量差異巨大,企業(yè)將如何從分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)發(fā)現(xiàn)潛在的價(jià)值和情報(bào)至關(guān)重要.大數(shù)據(jù)環(huán)境下企業(yè)競(jìng)爭(zhēng)情報(bào)主要呈現(xiàn)以下特點(diǎn):
進(jìn)行競(jìng)爭(zhēng)情報(bào)分析時(shí),有關(guān)政治、經(jīng)濟(jì)、社會(huì)、技術(shù)、市場(chǎng)環(huán)境等競(jìng)爭(zhēng)環(huán)境信息,以及公司規(guī)模、產(chǎn)品信息、財(cái)務(wù)信用、物資設(shè)備、專利技術(shù)、營(yíng)銷策略、人力資源等競(jìng)爭(zhēng)對(duì)手的信息都是競(jìng)爭(zhēng)情報(bào)工作的重點(diǎn).相關(guān)信息可以通過現(xiàn)場(chǎng)調(diào)查、反求工程、人際情報(bào)、委托咨詢等方式獲取.不同的獲取方式造成獲取的數(shù)據(jù)復(fù)雜、類型繁多.
大數(shù)據(jù)時(shí)代是信息時(shí)代新的起點(diǎn),而在2015年,英特爾就提出要以數(shù)據(jù)為中心進(jìn)行業(yè)務(wù)拓展,因?yàn)閿?shù)據(jù)的量和質(zhì)都發(fā)生了很大的變化.進(jìn)入數(shù)據(jù)時(shí)代,企業(yè)經(jīng)營(yíng)模式發(fā)生了徹底的改變,很多企業(yè)都想打破傳統(tǒng)的運(yùn)營(yíng)模式,在移動(dòng)互聯(lián)網(wǎng)時(shí)代做到精細(xì)化的運(yùn)營(yíng).精細(xì)化運(yùn)營(yíng)一定離不開大數(shù)據(jù)的幫助,企業(yè)需要對(duì)市場(chǎng)進(jìn)行精細(xì)化的劃分和監(jiān)控、對(duì)用戶進(jìn)行細(xì)致的分析,期望給用戶提供有針對(duì)性的一對(duì)一個(gè)性化服務(wù).因此當(dāng)今企業(yè)的經(jīng)營(yíng)已經(jīng)走向了數(shù)據(jù)化運(yùn)營(yíng)[5].
企業(yè)發(fā)展涉及到的領(lǐng)域,數(shù)據(jù)內(nèi)容呈現(xiàn)出動(dòng)態(tài)性的發(fā)展特點(diǎn),在動(dòng)態(tài)化的環(huán)境中,數(shù)據(jù)的變化性大、實(shí)時(shí)性增強(qiáng)了.因此需要對(duì)實(shí)時(shí)性數(shù)據(jù)進(jìn)行系統(tǒng)、及時(shí)的處理和記錄.例如移動(dòng)設(shè)備實(shí)時(shí)記錄著個(gè)人的數(shù)據(jù),可穿戴設(shè)備則收集人類的各種行為數(shù)據(jù),以及智能家居設(shè)備所記錄的數(shù)據(jù),既有硬件傳感器的數(shù)據(jù)、也有硬件本身的數(shù)據(jù)運(yùn)行狀態(tài)、還有用戶和硬件交互的數(shù)據(jù).物聯(lián)網(wǎng)和智能家居是大數(shù)據(jù)未來的重要來源,因此如何做好大量實(shí)時(shí)數(shù)據(jù)的監(jiān)管也是情報(bào)工作中的重中之重.
隨著移動(dòng)互聯(lián)的發(fā)展,巨量的互聯(lián)網(wǎng)數(shù)據(jù),增加了企業(yè)競(jìng)爭(zhēng)情報(bào)搜集、處理的難度.據(jù)統(tǒng)計(jì)2019年全球每天收發(fā)2936億封電子郵件,2020年天貓雙11訂單創(chuàng)建峰值達(dá)58.3萬(wàn)筆/秒.互聯(lián)網(wǎng)時(shí)代數(shù)據(jù)呈現(xiàn)出爆炸式的指數(shù)增長(zhǎng),這也給企業(yè)競(jìng)爭(zhēng)情報(bào)工作帶來了前所未有的挑戰(zhàn).
大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)管理標(biāo)記語(yǔ)言EIMML(Competitive Intelligence Management Markup Language)是一種準(zhǔn)結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),它對(duì)XML中的標(biāo)簽進(jìn)行擴(kuò)展和自定義,從而實(shí)現(xiàn)了對(duì)海量、異構(gòu)、實(shí)時(shí)數(shù)據(jù)的結(jié)構(gòu)化封裝和統(tǒng)一了數(shù)據(jù)組織和管理格式,其應(yīng)用框架如圖1所示.
圖1 EIMML應(yīng)用框架圖Fig.1 EIMML application framework diagram
EIMML作為大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型的核心,直接作用于數(shù)據(jù)的采集、存儲(chǔ)、調(diào)用、管理等環(huán)節(jié).當(dāng)數(shù)據(jù)進(jìn)入系統(tǒng)時(shí),都通過自動(dòng)或手動(dòng)注冊(cè)方式以EIMML進(jìn)行封裝并入庫(kù),經(jīng)過注冊(cè)的數(shù)據(jù)就成為大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)中的數(shù)據(jù)資源,通過基于EIMML數(shù)據(jù)標(biāo)識(shí)機(jī)制的數(shù)據(jù)注冊(cè)中心進(jìn)行查詢、更新和刪除等管理,據(jù)此形成大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)管理的數(shù)據(jù)共享交換規(guī)范.
元數(shù)據(jù)通過EIMML對(duì)各類數(shù)據(jù)進(jìn)行標(biāo)識(shí)和注冊(cè).數(shù)據(jù)注冊(cè)中心是一種管理環(huán)境,用于統(tǒng)一管理數(shù)據(jù)的定義與命名規(guī)范.通過對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一管理,為用戶提供數(shù)據(jù)查詢和定位服務(wù)[6].數(shù)據(jù)注冊(cè)中心使用EIMML管理元數(shù)據(jù),主要由數(shù)據(jù)權(quán)限管理,元數(shù)據(jù)的注冊(cè)、入庫(kù)、提取和發(fā)布,數(shù)據(jù)信息定位、檢索等模塊組成,如圖2所示.
圖2 大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型的注冊(cè)中心機(jī)制圖Fig.2 Registrar mechanism diagram of enterprise competitive intelligence system model of big data
基于EIMML數(shù)據(jù)標(biāo)識(shí)的數(shù)據(jù)共享交換規(guī)范制定和數(shù)據(jù)注冊(cè)中心的管理步驟如下:
(1)對(duì)企業(yè)大數(shù)據(jù)的類型、內(nèi)容、大小、存放路徑等關(guān)鍵元數(shù)據(jù)信息進(jìn)行研究,建立元數(shù)據(jù)自動(dòng)和手動(dòng)注冊(cè)方法;
(2)設(shè)計(jì)面向大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)的數(shù)據(jù)共享規(guī)范,為各種元數(shù)據(jù)建立標(biāo)簽結(jié)構(gòu),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的結(jié)構(gòu)化封裝;
(3)設(shè)計(jì)EIMML元數(shù)據(jù)庫(kù)構(gòu)建方法,利用關(guān)系數(shù)據(jù)庫(kù)和NoSQL技術(shù)對(duì)EIMML進(jìn)行管理,實(shí)現(xiàn)大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)交換平臺(tái)的搭建;
(4)在Hadoop提供的數(shù)據(jù)冗余副本機(jī)制、負(fù)載均衡策略等的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)注冊(cè)中心的管理.
EIMML遵循和沿用XML的標(biāo)準(zhǔn),通過標(biāo)記定義語(yǔ)法結(jié)構(gòu).EIMML中的標(biāo)記是經(jīng)過實(shí)體化封裝后的元素.通過多級(jí)標(biāo)記的有序組合,實(shí)現(xiàn)對(duì)復(fù)雜信息及其邏輯關(guān)系的描述.服務(wù)的定義描述主要對(duì)象是服務(wù)的各個(gè)元素、父子孫元素關(guān)系和元素屬性,如表1所示.
表1 服務(wù)的定義描述標(biāo)簽列表(部分)Table 1 List of service definition description labels(part)
針對(duì)大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)中涉及的數(shù)據(jù)來源和用途廣泛、數(shù)據(jù)的組織結(jié)構(gòu)復(fù)雜多樣、時(shí)效性強(qiáng)等特點(diǎn),大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型(如圖3所示)通過對(duì)海量、異構(gòu)、實(shí)時(shí)的企業(yè)競(jìng)爭(zhēng)情報(bào)進(jìn)行有效分類,建立應(yīng)用服務(wù)層面的數(shù)據(jù)標(biāo)識(shí)機(jī)制,最后生成適用于大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)的數(shù)據(jù)共享交換規(guī)范和形成應(yīng)用服務(wù)層面的一體化大數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)情報(bào)交換體系,從而達(dá)到有效地組織和管理大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)的目的.
圖3 大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型架構(gòu)圖Fig.3 Big data enterprise competitive intelligence system model architecture diagram
隨著對(duì)大數(shù)據(jù)的進(jìn)一步研究,國(guó)家層面已經(jīng)意識(shí)到數(shù)字資源對(duì)國(guó)家的重要性.與此同時(shí)大數(shù)據(jù)也成為產(chǎn)業(yè)競(jìng)爭(zhēng)力和商業(yè)模式創(chuàng)新的源泉,成為企業(yè)爭(zhēng)奪的焦點(diǎn),因此如何提升企業(yè)數(shù)據(jù)收集、分析、挖掘的能力,已成為增強(qiáng)其核心競(jìng)爭(zhēng)力的關(guān)鍵.因此,本文從數(shù)據(jù)的視角研究了大數(shù)據(jù)下的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型,形成了一套大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)管理的數(shù)據(jù)共享交換規(guī)范,在此基礎(chǔ)之上定義了大數(shù)據(jù)企業(yè)競(jìng)爭(zhēng)情報(bào)管理標(biāo)記語(yǔ)言EIMML并設(shè)計(jì)和實(shí)現(xiàn)了基于大數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)注冊(cè)中心,后續(xù)研究中,我們將模型投入到試點(diǎn)中運(yùn)行,在實(shí)踐中不斷檢驗(yàn)、驗(yàn)證和修正模型,并在此基礎(chǔ)之上開展大數(shù)據(jù)環(huán)境下企業(yè)競(jìng)爭(zhēng)情報(bào)的智能分析處理技術(shù)的研究,為預(yù)測(cè)和決策提供有力的依據(jù).