(河北大學(xué)管理學(xué)院 河北 保定 071000)
決策制定是一個(gè)復(fù)雜的過(guò)程。在決策過(guò)程中,數(shù)據(jù)扮演了重要的角色,需要根據(jù)不同的數(shù)據(jù)集,結(jié)合實(shí)際經(jīng)驗(yàn),制定整體的決策方案。但是在許多領(lǐng)域,雖然積累了許多本領(lǐng)域的數(shù)據(jù)集,但是,由于缺乏足夠的背景知識(shí)的支持,在利用數(shù)據(jù)開展決策的時(shí)候,不能有效的發(fā)揮出數(shù)據(jù)的價(jià)值。關(guān)聯(lián)數(shù)據(jù)中蘊(yùn)含了語(yǔ)義信息,如果在決策過(guò)程中,將本領(lǐng)域的數(shù)據(jù)集與相關(guān)的關(guān)聯(lián)數(shù)據(jù)集有效結(jié)合,對(duì)于指導(dǎo)實(shí)際決策具有重要的應(yīng)用價(jià)值。
對(duì)于基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)的過(guò)程和層次,不同學(xué)者給出了不同的解讀。趙衛(wèi)軍①提出由服務(wù)、組件和對(duì)象3功能實(shí)體組成的基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識(shí)服務(wù)架構(gòu)模型,分成數(shù)據(jù)層、聚合層、組件服務(wù)層、應(yīng)用層。李楠和張學(xué)福②認(rèn)為基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)過(guò)程包括了關(guān)聯(lián)數(shù)據(jù)發(fā)布、相關(guān)源選擇、關(guān)聯(lián)數(shù)據(jù)整合、關(guān)聯(lián)數(shù)據(jù)挖掘4個(gè)基本階段。他們將基于知識(shí)發(fā)現(xiàn)的應(yīng)用特殊性與知識(shí)發(fā)現(xiàn)活動(dòng)一般規(guī)律相結(jié)合,構(gòu)建了包括資源層、知識(shí)發(fā)現(xiàn)處理層、應(yīng)用層的3層基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型。李俊和黃春毅③通過(guò)修改了傳統(tǒng)知識(shí)發(fā)現(xiàn)模型提出了在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)的模型,將整個(gè)過(guò)程概括為:通過(guò)SPARQL獲取信息、數(shù)據(jù)預(yù)處理、轉(zhuǎn)換數(shù)據(jù)格式、關(guān)聯(lián)數(shù)據(jù)挖掘算法運(yùn)算、結(jié)果的可視化和模式評(píng)估6大步驟。上述研究是分別從理論和實(shí)踐的角度加以闡述,由此產(chǎn)生了關(guān)聯(lián)數(shù)據(jù)知識(shí)發(fā)現(xiàn)過(guò)程的描述差異。而事實(shí)上它們?nèi)匀环蟼鹘y(tǒng)知識(shí)發(fā)現(xiàn)的數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式解釋和評(píng)價(jià)這一一般過(guò)程。
知識(shí)發(fā)現(xiàn)(Knowledge Discovery)是從大量數(shù)據(jù)集中發(fā)現(xiàn)隱藏于數(shù)據(jù)其中的、創(chuàng)新的、潛在有用的模式的過(guò)程④。目前國(guó)內(nèi)外在知識(shí)發(fā)現(xiàn)的研究主要是以知識(shí)發(fā)現(xiàn)的概念、知識(shí)發(fā)現(xiàn)的任務(wù)、知識(shí)發(fā)現(xiàn)的評(píng)價(jià)以及知識(shí)發(fā)現(xiàn)算法等為主線,并且已經(jīng)取得了一定的研究成果⑤。針對(duì)知識(shí)發(fā)現(xiàn)的一般過(guò)程,研究人員從不同的角度有不同的理解。一般研究人員熟知的數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD)的一般過(guò)程即為普遍認(rèn)可的,是Fayyad在1996年提出的知識(shí)發(fā)現(xiàn)處理過(guò)程模型⑥。其主要是從數(shù)據(jù)源出發(fā),經(jīng)過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果的表達(dá)和解釋三個(gè)核心步驟最終獲取知識(shí)的過(guò)程。KDD給基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)提供了一定的參考和借鑒,KDD是數(shù)據(jù)網(wǎng)絡(luò)中知識(shí)發(fā)現(xiàn)的基礎(chǔ),因此基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)以KDD研究作為基礎(chǔ),本文也遵循知識(shí)發(fā)現(xiàn)的一般過(guò)程。
發(fā)現(xiàn)新穎、有效、可理解的游泳知識(shí)是知識(shí)發(fā)現(xiàn)的最終目標(biāo)。因此,在關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的資源基礎(chǔ)上,發(fā)揮關(guān)聯(lián)數(shù)據(jù)的優(yōu)勢(shì)、利用關(guān)聯(lián)的資源去發(fā)現(xiàn)“關(guān)聯(lián)的知識(shí)”是實(shí)現(xiàn)與關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)目標(biāo)的頂層功能和核心保證。在海量的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)環(huán)境中,結(jié)合相關(guān)數(shù)據(jù)資源查詢、獲取、處理和挖掘,還需要通過(guò)特定的關(guān)聯(lián)知識(shí)發(fā)現(xiàn),制定需要生成的知識(shí)模式,從而按照這一模式的結(jié)構(gòu)去抽取與知識(shí)發(fā)現(xiàn)需求最為相關(guān)的信息,并且以用戶需要和理解的方式重新組織和架構(gòu)相關(guān)信息,生成新的知識(shí)⑦。
利用關(guān)聯(lián)數(shù)據(jù)作為背景知識(shí),能否發(fā)現(xiàn)新的知識(shí)、模式,能否通過(guò)關(guān)聯(lián)數(shù)據(jù)集減少挖掘過(guò)程中耗費(fèi)的成本。目的是驗(yàn)證關(guān)聯(lián)數(shù)據(jù)集和待挖掘數(shù)據(jù)能否產(chǎn)生新的知識(shí),從而為決策提供現(xiàn)實(shí)依據(jù)。
本實(shí)驗(yàn)要驗(yàn)證將關(guān)聯(lián)數(shù)據(jù)集作為領(lǐng)域背景知識(shí),將關(guān)聯(lián)數(shù)據(jù)背景知識(shí)應(yīng)用到現(xiàn)有待挖掘數(shù)據(jù)中。關(guān)聯(lián)數(shù)據(jù)背景知識(shí)選擇歐洲統(tǒng)計(jì)局發(fā)布的關(guān)聯(lián)數(shù)據(jù)集,歐洲統(tǒng)計(jì)局的關(guān)聯(lián)數(shù)據(jù)集中包含了大量關(guān)于歐洲的各項(xiàng)統(tǒng)計(jì)數(shù)據(jù),成員國(guó)機(jī)構(gòu)負(fù)責(zé)收集本國(guó)統(tǒng)計(jì)數(shù)據(jù)并進(jìn)行編輯,歐洲統(tǒng)計(jì)局的作用則是與各成員國(guó)統(tǒng)計(jì)機(jī)構(gòu)緊密合作,協(xié)調(diào)、整合統(tǒng)計(jì)資源,按照歐盟的需要匯總分析成員國(guó)提供的統(tǒng)計(jì)數(shù)據(jù)。統(tǒng)計(jì)范圍涵蓋歐盟經(jīng)濟(jì)社會(huì)活動(dòng)的主要方面,包括經(jīng)濟(jì)、就業(yè)、研發(fā)創(chuàng)新、環(huán)境、公共健康、國(guó)際賬戶收支、對(duì)外貿(mào)易、消費(fèi)價(jià)格、農(nóng)漁業(yè)、交通、能源、科技等。這些數(shù)據(jù)最終都發(fā)布為關(guān)聯(lián)數(shù)據(jù),用戶可以在其網(wǎng)站通過(guò)Sparql查詢的方式獲數(shù)據(jù)⑧。
現(xiàn)有待挖掘數(shù)據(jù)選擇OECD(經(jīng)濟(jì)合作與發(fā)展組織)網(wǎng)站給出的各個(gè)成員國(guó)成人的飲酒量數(shù)據(jù)⑨。OECD的數(shù)據(jù)門戶提供了多樣化的數(shù)據(jù)格式,如csv、excel格式等,本案中我們下載excel原始文件,然后導(dǎo)出為csv格式。
關(guān)聯(lián)數(shù)據(jù)的獲取通過(guò)Jena獲取,Jena提供了更加靈活的方式通過(guò)Sqarql查詢提取關(guān)聯(lián)數(shù)據(jù)中信息,本案中,將Jena集成到Eclipse開發(fā)環(huán)境中,通過(guò)程序獲取數(shù)據(jù)。獲取歐洲統(tǒng)計(jì)局各國(guó)家經(jīng)濟(jì)數(shù)據(jù)的Sparql語(yǔ)句如下:
SELECT(sum(?value)as ?ss)?geo
FROM
FROM
WHERE{
?s qb:dataSet
?s dcterms:date ?time.
?s eus:geo ?g.
?g rdfs:label ?geo.
?s sdmx-measure:obsValue ?value.
FILTER(lang(?geo)='en')
}
GROUP BY?geo
基于Eclipse集成開發(fā)工具,在Jena環(huán)境中運(yùn)行以上語(yǔ)句得到歐洲統(tǒng)計(jì)局關(guān)于各個(gè)國(guó)家經(jīng)濟(jì)運(yùn)行情況的數(shù)據(jù),格式如圖下所示。
1378^^http://www.w3.org/2001/XMLSchema#decimal|Finland@en
1235^^http://www.w3.org/2001/XMLSchema#decimal|Italy@en
OECD的數(shù)據(jù)直接從網(wǎng)站下載,數(shù)據(jù)文件為excel格式,后續(xù)分析階段直接另存為csv格式,包含了國(guó)家信息及其酒精消費(fèi)情況,其格式如表1所示。
表1 CEDC各成員國(guó)年度酒精消費(fèi)情況
通過(guò)Google refine數(shù)據(jù)清洗工具對(duì)Sparql查詢的數(shù)據(jù)進(jìn)行清洗,去除無(wú)用標(biāo)簽和符號(hào),Google refine是一款免費(fèi)開源數(shù)據(jù)清洗工具,能夠幫助用戶轉(zhuǎn)換數(shù)據(jù)集的工具,優(yōu)化數(shù)據(jù)的質(zhì)量以便于在真實(shí)場(chǎng)景中使用。
數(shù)據(jù)的分析通過(guò)Rapidminer,其提供圖形化界面,通過(guò)Rapidminer數(shù)據(jù)挖掘軟件將關(guān)聯(lián)數(shù)據(jù)和待挖掘數(shù)據(jù)導(dǎo)入,對(duì)相關(guān)變量做相關(guān)性分析,本案中主要分析經(jīng)濟(jì)因素GDP與酒精的二元關(guān)系,首先將關(guān)聯(lián)數(shù)據(jù)集和待挖掘的數(shù)據(jù)集進(jìn)行合并處理,通過(guò)Rapidminer的算子模塊Join進(jìn)行數(shù)據(jù)合并,數(shù)據(jù)的工作流程圖如下圖1所示:
圖1 數(shù)據(jù)處理流程圖
執(zhí)行以上流程得到變量相關(guān)性結(jié)果如下:
表2 GDP與酒精消費(fèi)的相關(guān)系數(shù)
通過(guò)以上分析,本實(shí)驗(yàn)建立在經(jīng)典的知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘的基礎(chǔ)之上,并結(jié)合關(guān)聯(lián)數(shù)據(jù)的應(yīng)用場(chǎng)景,設(shè)計(jì)了此挖掘步驟,通在工具的選擇上,都是選用開源免費(fèi)的軟件和類庫(kù),這樣為擴(kuò)展帶來(lái)了極大的靈活性,這樣當(dāng)面對(duì)多個(gè)關(guān)聯(lián)數(shù)據(jù)集的時(shí)候,只需要調(diào)整數(shù)據(jù)整合的順序,就能實(shí)現(xiàn)多數(shù)據(jù)集的關(guān)聯(lián)挖掘。
通過(guò)計(jì)算的數(shù)據(jù)可以看出,應(yīng)用關(guān)聯(lián)數(shù)據(jù)作為領(lǐng)域背景知識(shí)能夠?yàn)橹R(shí)發(fā)現(xiàn)提供新的切入點(diǎn),兩個(gè)變量之間存在著相關(guān)性,這也拓寬了消費(fèi)關(guān)聯(lián)數(shù)據(jù)的范圍,在大數(shù)據(jù)環(huán)境下,我們面對(duì)的是海量的異構(gòu)數(shù)據(jù),關(guān)聯(lián)數(shù)據(jù)的出現(xiàn)能夠?yàn)檫@些數(shù)據(jù)的挖掘提供背景知識(shí),也能使數(shù)據(jù)挖掘的過(guò)程更加可操作化和簡(jiǎn)明化。
在關(guān)聯(lián)數(shù)據(jù)日益成熟、關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)資源環(huán)境已經(jīng)呈現(xiàn)的背景下,針對(duì)其特定知識(shí)發(fā)現(xiàn)規(guī)律的研究在理論和實(shí)踐上都具有一定的意義。知識(shí)發(fā)現(xiàn)也能夠作為基本方法論對(duì)關(guān)聯(lián)數(shù)據(jù)的發(fā)展和完善起到促進(jìn)的作用。本文在相關(guān)研究的基礎(chǔ)上,分析和構(gòu)建基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用體系,這一體系可以作為整合資源和成果的統(tǒng)一框架,也可以作為研究的基礎(chǔ)和導(dǎo)向。關(guān)聯(lián)數(shù)據(jù)研究得到了國(guó)內(nèi)外廣泛的關(guān)注,從關(guān)聯(lián)數(shù)據(jù)的研究趨勢(shì)和發(fā)展需求來(lái)看,基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)應(yīng)用應(yīng)當(dāng)?shù)玫礁嗟闹匾?。目前這方面的工作已經(jīng)多方面展開,但主題相對(duì)分散,目標(biāo)也不夠明確。筆者希望本文所提出的應(yīng)用體系可以作為關(guān)聯(lián)數(shù)據(jù)研究的框架和基礎(chǔ),輔助相關(guān)工作的全面和深入的展開。下一步將研究將關(guān)聯(lián)數(shù)據(jù)應(yīng)用于人工智能領(lǐng)域,結(jié)合機(jī)器學(xué)習(xí)框架keras,探索關(guān)聯(lián)數(shù)據(jù)更廣闊的應(yīng)用。
【注釋】
①趙衛(wèi)軍.基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識(shí)服務(wù)架構(gòu)[J].圖書館學(xué)刊,2013(6):103-105.
②李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型研究[J].圖書館學(xué)研究,2013(1):73-77,67.
③李俊,黃春毅.關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究[J].情報(bào)科學(xué),2013.31(3):76-81.
④Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.
⑤陳曉美,畢強(qiáng),滕廣青,等.語(yǔ)義網(wǎng)環(huán)境下數(shù)字圖書館知識(shí)發(fā)現(xiàn)的維度框架研究[J].情報(bào)學(xué)報(bào),2014,33(2):148-157.
⑥Usama F,Paul S.Data mining and KDD:Promise and challenges[J].Future Generation Computer Systems,1997,(13):99-115.
⑦李楠.基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究:[D].北京中國(guó)農(nóng)業(yè)科學(xué)院,2012.
⑧Eurostat-Linked Data.[EB/OL].http://eurostat.linked-statistics.org,2017-03-30.
⑨OECD.[EB/OL].http://www.oecd-ilibrary.org,2017-03-30.
【參考文獻(xiàn)】
[1]趙衛(wèi)軍.基于SOA的關(guān)聯(lián)數(shù)據(jù)的高校圖書館知識(shí)服務(wù)架構(gòu)[J].圖書館學(xué)刊,2013(6):103-105.
[2]李楠,張學(xué)福.基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)模型研究[J].圖書館學(xué)研究,2013(1):73-77,67.
[3]李俊,黃春毅.關(guān)聯(lián)數(shù)據(jù)的知識(shí)發(fā)現(xiàn)研究[J].情報(bào)科學(xué),2013.31(3):76-81.
[4]Soren A,Jens L.Creating knowledge out of interlinked data[J].Semantic Web,2010,(1):97-104.