国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)在決策支持系統(tǒng)中的應(yīng)用

2019-03-21 03:11:32
關(guān)鍵詞:決策支持系統(tǒng)項(xiàng)集數(shù)據(jù)倉(cāng)庫(kù)

(天津市機(jī)電工藝學(xué)院,天津 300350)

當(dāng)今時(shí)代,科學(xué)技術(shù)日新月異,技術(shù)飛速發(fā)展的背后是大量科研成果的推出。為了以一個(gè)有效的方式管理已有的科研成果,為科研管理者提供快速高效的科研信息獲取方式,科研成果管理系統(tǒng)應(yīng)運(yùn)而生。傳統(tǒng)的科研成果管理多利用數(shù)據(jù)庫(kù)將成果數(shù)據(jù)存儲(chǔ)起來(lái)。但成果數(shù)據(jù)與科研項(xiàng)目之間往往存在有價(jià)值的關(guān)系,這些關(guān)系在傳統(tǒng)的科研成果管理系統(tǒng)中很容易被忽略。這些蘊(yùn)含在成果中的關(guān)系,對(duì)管理人員做出科學(xué)的決策有很大的幫助。數(shù)據(jù)載體廣、類型多、存儲(chǔ)方式不一等為現(xiàn)階段研究成果特征,顯然,這樣不統(tǒng)一的數(shù)據(jù)類型結(jié)構(gòu)對(duì)決策分析和數(shù)據(jù)應(yīng)用造成很大阻礙,同時(shí)也不利數(shù)據(jù)的高效使用。而數(shù)據(jù)倉(cāng)庫(kù)可以集成異構(gòu)的成果數(shù)據(jù)庫(kù),提供面向成果中不同主題的數(shù)據(jù)。傳統(tǒng)的科研成果系統(tǒng)只能單一提取成果信息,而聯(lián)機(jī)分析處理可通過(guò)建立多維數(shù)據(jù)集,對(duì)成果信息提供多角度分析。此外,數(shù)據(jù)挖掘Apriori算法可以對(duì)成果數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析發(fā)現(xiàn)成果之間的關(guān)系,為決策分析提供支持。

一、數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘應(yīng)用現(xiàn)狀

(一)數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用

數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)了多種資源的物化視圖,目的是給聯(lián)機(jī)分析處理和決策支持提供數(shù)據(jù)基礎(chǔ)。在面向應(yīng)用的操作環(huán)境中提取到的數(shù)據(jù)存入數(shù)據(jù)倉(cāng)庫(kù)之前,最重要的就是對(duì)數(shù)據(jù)的矛盾信息以及冗余信息進(jìn)行處理,再進(jìn)行數(shù)據(jù)集成。數(shù)據(jù)倉(cāng)庫(kù)對(duì)數(shù)據(jù)的高品質(zhì)和高效的管理都有深遠(yuǎn)的影響,這也是數(shù)據(jù)倉(cāng)庫(kù)被廣泛研究和應(yīng)用的原因。

目前國(guó)內(nèi)對(duì)數(shù)據(jù)倉(cāng)庫(kù)的研究多應(yīng)用國(guó)外開發(fā)的優(yōu)秀的數(shù)據(jù)倉(cāng)庫(kù)建立自己的數(shù)據(jù)倉(cāng)庫(kù),已經(jīng)廣泛的應(yīng)用在了銀行,金融,保險(xiǎn),市場(chǎng)零售業(yè)中進(jìn)行風(fēng)險(xiǎn)管理,電子商務(wù)和商業(yè)智能平臺(tái)的建造。在電信企業(yè)經(jīng)營(yíng)分析系統(tǒng)中運(yùn)用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),建立統(tǒng)一電信數(shù)據(jù)資源,更好的應(yīng)對(duì)了市場(chǎng)激烈競(jìng)爭(zhēng)的要求,廣東省已經(jīng)率先建立起完善的基于數(shù)據(jù)倉(cāng)庫(kù)的電信管理系統(tǒng)。數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用在醫(yī)院管理系統(tǒng)上也是研究的熱點(diǎn),醫(yī)院的信息數(shù)據(jù)倉(cāng)庫(kù)將分散在多個(gè)部門中的數(shù)據(jù),不同管理平臺(tái)上的報(bào)表系統(tǒng)進(jìn)行集中,建立具有數(shù)據(jù)整合功能的數(shù)據(jù)倉(cāng)庫(kù),使得醫(yī)院的管理系統(tǒng)更加智能?,F(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在醫(yī)院管理系統(tǒng)已經(jīng)有了較為完善的應(yīng)用。隨著移動(dòng)互聯(lián)網(wǎng)的興起,數(shù)據(jù)倉(cāng)庫(kù)也在逐步與其融合,越來(lái)越多的移動(dòng)供應(yīng)商開始研究數(shù)據(jù)倉(cāng)庫(kù)技術(shù),幫助開發(fā)者對(duì)用戶的移動(dòng)端進(jìn)行分析,并且在移動(dòng)互聯(lián)網(wǎng)APP開發(fā)中數(shù)據(jù)倉(cāng)庫(kù)也起到了重要的作用。

(二)數(shù)據(jù)挖掘的應(yīng)用

1.數(shù)據(jù)挖掘的定義

最初開始從事數(shù)據(jù)挖掘的只有50人,而現(xiàn)在數(shù)據(jù)挖掘正在吸引越來(lái)越多的商業(yè)、科學(xué)團(tuán)體進(jìn)行研究。數(shù)據(jù)挖掘系統(tǒng)發(fā)展分為4代,如表1數(shù)據(jù)挖掘系統(tǒng)四代劃分表所示。數(shù)據(jù)挖掘的出現(xiàn),解決了對(duì)大數(shù)據(jù)的有效利用,使得各行各業(yè)的海量數(shù)據(jù)得到了很好的利用。國(guó)內(nèi)外對(duì)數(shù)據(jù)挖掘的研究也越來(lái)越寬泛,涉及的領(lǐng)域也越來(lái)越廣泛。

數(shù)據(jù)挖掘也被稱為知識(shí)發(fā)現(xiàn)(KDD),定義為一種抽取數(shù)據(jù)庫(kù)中隱含的,潛在有用的數(shù)據(jù)如知識(shí)規(guī)則,約束條件等。最初的知識(shí)發(fā)現(xiàn)僅在少數(shù)實(shí)際數(shù)據(jù)中展開,一個(gè)經(jīng)典的案例就是Buchanan發(fā)現(xiàn)的大量光譜規(guī)則,還有Michalski在大豆疾病中發(fā)現(xiàn)的新的診斷規(guī)則。現(xiàn)在對(duì)于數(shù)據(jù)挖掘的研究已經(jīng)延伸到了智能文本、教育、氣象等領(lǐng)域。智能文本數(shù)據(jù)挖掘系統(tǒng)可以從文本中提取相關(guān)碎片讓使用者來(lái)查詢,自動(dòng)的生成一系列新的查詢算法來(lái)重組新的文本,輸出的結(jié)果可以為使用者提供選擇主題的新內(nèi)容,這種工具的規(guī)則是基于復(fù)雜的啟發(fā)式教學(xué)的。高巨山等提出了挖掘教育數(shù)據(jù)中其中最重要的被忽視一種模式是基于教育信息化中數(shù)據(jù)挖掘的研究,在教學(xué)和科研工作過(guò)程中融入數(shù)據(jù)挖掘技術(shù)來(lái)為教育信息化發(fā)展做貢獻(xiàn)。彭昱忠等提出了數(shù)據(jù)挖掘技術(shù)在氣象預(yù)報(bào)中的應(yīng)用,解決傳統(tǒng)氣象預(yù)報(bào)中遇到的困難,提高氣象預(yù)報(bào)的準(zhǔn)確度。

表1 數(shù)據(jù)挖掘系統(tǒng)四代劃分表

2.數(shù)據(jù)挖掘的過(guò)程

問題定義:首先要求技術(shù)人員明確數(shù)據(jù)挖掘任務(wù)中的具體要求,了解應(yīng)用領(lǐng)域相關(guān)的內(nèi)容和用戶需求,準(zhǔn)確定位數(shù)據(jù)探索和挖掘?qū)ο?,確認(rèn)數(shù)據(jù)內(nèi)容,按照挖掘數(shù)據(jù)對(duì)象定位算法。

數(shù)據(jù)準(zhǔn)備:這一部分內(nèi)容包含數(shù)據(jù)的抽取數(shù)據(jù)抽取、預(yù)處理、轉(zhuǎn)換等環(huán)節(jié)。數(shù)據(jù)抽取就是準(zhǔn)備你將要挖掘的數(shù)據(jù),因?yàn)橐M(jìn)行挖掘的數(shù)據(jù)不一定集合在一起,也許你要從公共數(shù)據(jù)庫(kù)中獲得數(shù)據(jù)。數(shù)據(jù)預(yù)處理就是對(duì)抽取到的數(shù)據(jù)進(jìn)行再處理,檢查數(shù)據(jù)是不是有完整的結(jié)構(gòu)和數(shù)據(jù)的結(jié)構(gòu)是不是符合統(tǒng)一的標(biāo)準(zhǔn),使數(shù)據(jù)滿足進(jìn)行挖掘的要求,確保數(shù)據(jù)的一致性和正確性,還要保證所有的數(shù)據(jù)都經(jīng)過(guò)同樣的方式處理。數(shù)據(jù)轉(zhuǎn)換就是要除去數(shù)據(jù)中的噪聲,對(duì)數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)換。

數(shù)據(jù)挖掘的實(shí)施:這一階段就是對(duì)數(shù)據(jù)進(jìn)行挖掘。這是數(shù)據(jù)挖掘中重要的一步,你要選擇一種算法,你所選中的數(shù)據(jù)挖掘算法將影響你的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)挖掘結(jié)果。利用歸納技術(shù)如神經(jīng)網(wǎng)絡(luò)算法來(lái)建立預(yù)測(cè)模型,用統(tǒng)計(jì)分析聚類技術(shù)將數(shù)據(jù)分區(qū)存入集群中,識(shí)別數(shù)據(jù)中有用的關(guān)聯(lián)分析,最后檢測(cè)數(shù)據(jù)是否能夠進(jìn)行特殊分區(qū)中。

結(jié)果解釋與評(píng)估:根據(jù)數(shù)據(jù)挖掘的任務(wù)和決策的目的,數(shù)據(jù)挖掘所獲得的數(shù)據(jù)必須進(jìn)行結(jié)果檢驗(yàn)與解釋意義。無(wú)論多么完美的數(shù)據(jù)挖掘算法都經(jīng)過(guò)外部數(shù)據(jù)的檢驗(yàn),才能說(shuō)明他反應(yīng)了真實(shí)的信息。數(shù)據(jù)挖掘的時(shí)候會(huì)產(chǎn)生各種干擾因素,一次挖掘的結(jié)果用戶可能不滿意,也可能出現(xiàn)多余的數(shù)據(jù)或者與挖掘目的沒有關(guān)系的數(shù)據(jù),因此還要退回上一步,重新開始。為了滿足人機(jī)交互的需要,對(duì)所發(fā)現(xiàn)的規(guī)則進(jìn)行可視化,將挖掘結(jié)果轉(zhuǎn)換為簡(jiǎn)潔明了的表示方法,讓用戶能夠理解,增強(qiáng)用戶體驗(yàn)。

3.數(shù)據(jù)挖掘的工具

目前中國(guó)業(yè)內(nèi)被廣泛使用有三種數(shù)據(jù)挖掘工具,簡(jiǎn)單介紹如下:

SAS公司的Enterprise Miner。1997年,SAS發(fā)布了Enterprise Miner,為用戶提供一個(gè)圖形化流程化處理環(huán)境,這個(gè)環(huán)境方便建模,而且包含數(shù)據(jù)挖掘的算法,例如決策樹,神經(jīng)網(wǎng)絡(luò),回歸,關(guān)聯(lián)等。具有完備的數(shù)據(jù)探索功能。

IBM公司的Intelligent Miner。Intelligent Miner是IBM開發(fā)的數(shù)據(jù)挖掘軟件,包含了算法和可視化工具,可以使用預(yù)測(cè)模型標(biāo)識(shí)語(yǔ)言來(lái)導(dǎo)出數(shù)據(jù)挖掘模型和可伸縮的數(shù)據(jù)挖掘算法,并且可以與IBM DB2關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)集成。它包括Intelligent Miner for Data和IBM Intelligent Miner forText等分析軟件工具。

SPSS公司的Clementine。1998年SPSS收購(gòu)ISL公司,獲得了ISL公司的數(shù)據(jù)挖掘包Clementine,它引入流的概念,在相同工作流中允許用戶進(jìn)行數(shù)據(jù)清理操作,可以在同一工作流中進(jìn)行轉(zhuǎn)換數(shù)據(jù),甚至是構(gòu)建數(shù)據(jù)都能在工作流中完成。

二、決策支持系統(tǒng)

(一)決策支持系統(tǒng)結(jié)構(gòu)

決策支持系統(tǒng)包括面向?qū)ο竽P蛶?kù),方法庫(kù),知識(shí)庫(kù),數(shù)據(jù)庫(kù)和管理系統(tǒng),還有聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘單元,問題過(guò)程單元??茖W(xué)的決策離不開充分的人機(jī)交互,只有讓計(jì)算機(jī)理解了人的命令,才能做出符合人需求的響應(yīng),人機(jī)交互接口是保證決策支持系統(tǒng)能夠正常進(jìn)行的必備條件。決策支持系統(tǒng)體系結(jié)構(gòu)圖如1所示。

人機(jī)交互系統(tǒng)的主要功能是負(fù)責(zé)人機(jī)交互以及模型計(jì)算與數(shù)值處理,組織多種模型輔助決策。創(chuàng)造用戶體驗(yàn)環(huán)境,通過(guò)web界面和相應(yīng)的信息處理機(jī)構(gòu)讓用戶和計(jì)算機(jī)進(jìn)行會(huì)話和信息的交互。主要采用的文字和圖形界面。

圖1 決策支持系統(tǒng)體系結(jié)構(gòu)圖

(二)基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)

以完整的數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘開發(fā)為基礎(chǔ)的決策系統(tǒng)主要由三個(gè)主體構(gòu)成。第一個(gè)主體是模型庫(kù)和數(shù)據(jù)庫(kù);第二個(gè)主體是存在于數(shù)據(jù)處理階段的分析主體,按照順序有數(shù)據(jù)挖掘、聯(lián)機(jī)分析處理、數(shù)據(jù)倉(cāng)儲(chǔ)等。主要反映特征數(shù)據(jù)經(jīng)過(guò)數(shù)據(jù)挖掘和相關(guān)算法規(guī)律處理等被置于倉(cāng)儲(chǔ)庫(kù),發(fā)現(xiàn)用戶可能會(huì)有興趣的知識(shí)。第三主體就是用戶。用戶利用數(shù)據(jù)挖掘知識(shí),完成分析決策。三大主體相輔相成,相互協(xié)同發(fā)揮每個(gè)主體的特點(diǎn),實(shí)現(xiàn)決策支持?;跀?shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)體系結(jié)構(gòu)圖2所示。

圖2 基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持系統(tǒng)結(jié)構(gòu)圖

(三)決策支持系統(tǒng)的應(yīng)用

決策支持系統(tǒng)的應(yīng)用領(lǐng)域分布在商務(wù)智能業(yè)務(wù)管理,健康醫(yī)療和軍隊(duì)等等。任何領(lǐng)域的應(yīng)用都要結(jié)合決策實(shí)際。決策支持系統(tǒng)可以解決策略和戰(zhàn)略部署問題,面對(duì)的都是要求低響應(yīng)度和高潛在影響的管理。決策支持最經(jīng)典的例子就是沃爾瑪超市發(fā)現(xiàn)了“啤酒與尿布”之間的關(guān)系,然后將這兩種看似無(wú)關(guān)的貨物擺在一起,大大提高了營(yíng)業(yè)額?,F(xiàn)在越來(lái)越多的商業(yè)開始利用決策支持來(lái)預(yù)測(cè)行情,發(fā)現(xiàn)規(guī)律,幫助管理層做出科學(xué)的決定。在醫(yī)療領(lǐng)域主要是用在臨床專家系統(tǒng)輔助診斷。利用病人和專家系統(tǒng)進(jìn)行信息匹配與對(duì)比分析,以原有的專家醫(yī)院信息系統(tǒng)為依托,這使得現(xiàn)有的醫(yī)療資源得到了最大化利用,而且通過(guò)改善資源利用率也降低了醫(yī)療成本。在軍事領(lǐng)域的決策支持系統(tǒng),通過(guò)存儲(chǔ)了海量的戰(zhàn)場(chǎng)信息資源和指揮信息等數(shù)據(jù),進(jìn)行戰(zhàn)略部署的輔助決策。

三、基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP模型

在當(dāng)前的研究和背景下,聯(lián)機(jī)分析處理技術(shù)充分展現(xiàn)出其在數(shù)據(jù)挖掘和分析方面的強(qiáng)大優(yōu)勢(shì),其往往在高效分析的基礎(chǔ)之上尋找和捕捉事物發(fā)展中的異常情況,開辟了數(shù)據(jù)處理的新的思路和發(fā)展前景。在OLAP數(shù)據(jù)分析的同時(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)由ETL處理后進(jìn)行整理分類歸集,這樣就非常高效的保證了數(shù)據(jù)分析的效率。因此本階段基于此模型下得到的數(shù)據(jù)立方體更加可靠,一方面在響應(yīng)速度方面有所提升,另一方面也大大降低了刷新代價(jià)。

建立數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程中包含著OLAP中所囊括的維和度量。系統(tǒng)選擇了支持OLAP功能的SQL Server 2008Analysis Services (SSAS),還包含安全和管理功能選項(xiàng)。利用SQL Server Business Intelligence Development Studio中的AnalysisServices項(xiàng)目模板,建立多維數(shù)據(jù)集,定義數(shù)據(jù)源以及建立事實(shí)表與維表之間的關(guān)系。

根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的建立,在建立多維數(shù)據(jù)集的時(shí)候考慮到成果的不同主題,建立以下主題:科研成果類型主題、數(shù)量主題、科研成果作者信息主題、科研成果所屬項(xiàng)目主題、科研成果完成時(shí)間主題、科研成果評(píng)估分?jǐn)?shù)主題等等,與數(shù)據(jù)倉(cāng)庫(kù)邏輯模型設(shè)計(jì)的星型模式相匹配。

OLAP模型支持對(duì)數(shù)據(jù)的切片、鉆取、旋轉(zhuǎn),以及對(duì)相關(guān)數(shù)據(jù)的提取可以從多角度進(jìn)行。這樣建立起來(lái)的多維數(shù)據(jù)集可以從不同的角度,選擇不同的側(cè)面為用戶提供考察成果數(shù)據(jù)庫(kù)中的各種與成果有關(guān)的數(shù)據(jù)的操作,獲得綜合的全面的資料。

切片(slice):在多維數(shù)組W(維1,維2,… … ,維X,度量)中選擇一維I,并在維I上選擇維成員VI,得到多維數(shù)組子集WI(維1,維2,…維成員VI … ,維N,度量)成為在維I上的一個(gè)切片。

根據(jù)定義可知,切片的多少由維中成員的多少來(lái)決定。如果將數(shù)據(jù)立方體切片一次,那么立方體的維度就少了1個(gè)單位。切片可以讓用戶更準(zhǔn)確的看到多維數(shù)據(jù)集中的信息細(xì)節(jié),一層一層的剖析,每切一次多維數(shù)據(jù)集就減少一個(gè)維度。選取時(shí)間維下的第一季度成果數(shù)據(jù),就會(huì)在數(shù)據(jù)立方體中篩選出所有第一季度的成果這就是對(duì)該多維數(shù)據(jù)集進(jìn)行的一次切片。

切塊(Dice):切塊指的是在多維數(shù)據(jù)中選擇一個(gè)維上的一特定區(qū)間的維成員的動(dòng)作。例如選取第一季度的論文成果維,就得到的數(shù)據(jù)信息,這就是一個(gè)數(shù)據(jù)切塊。切塊也是在切片操作之上,再次進(jìn)行的切片。

旋轉(zhuǎn)(Pivotor Turning):改變數(shù)據(jù)表中已有維的方向,如將本來(lái)在橫坐標(biāo)上的維轉(zhuǎn)移到縱坐標(biāo)上去或者將縱坐標(biāo)上的維逆時(shí)針轉(zhuǎn)到橫坐標(biāo)上。都是旋轉(zhuǎn)的操作。

鉆取(Drilldown):可以將細(xì)節(jié)都隱藏起來(lái)從而得到綜合數(shù)據(jù)的操作是向下鉆取,可以得到更多的細(xì)節(jié)的操作是向上卷取。

OLAP模型對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)利用MDX(Multidimensional Expression)進(jìn)行多維查找,可以有效的分析多維數(shù)據(jù)集。MDX是OLAP的查詢語(yǔ)句,語(yǔ)法與結(jié)構(gòu)化查詢語(yǔ)言SQL很類似。在成果管理系統(tǒng)中,通過(guò)MDX語(yǔ)言,把科研員和決策者需要的成果數(shù)據(jù)查詢出來(lái),展現(xiàn)在前臺(tái)界面里。

四、基于數(shù)據(jù)倉(cāng)庫(kù)的關(guān)聯(lián)規(guī)則挖掘

(一)關(guān)聯(lián)規(guī)則相關(guān)概念

關(guān)聯(lián)規(guī)則(AssociationRules,簡(jiǎn)稱AR)的概念是由R.Agrawal等在1993年提出的。AR是指客體之間的相互關(guān)系。形如:A1^A2^…^Ai→B1^B2^…^Bj,,表示目標(biāo)數(shù)據(jù)中客體B1,B2,… ,Bj傾向于A1,A2,…Ai一起出現(xiàn)。

項(xiàng)集是一組項(xiàng)。每個(gè)項(xiàng)集有大小利用項(xiàng)數(shù)來(lái)表示。在數(shù)據(jù)集中有些數(shù)據(jù)項(xiàng)集出現(xiàn)的頻率很高,這些高頻項(xiàng)集就是頻繁項(xiàng)集。關(guān)聯(lián)規(guī)則下挖掘出“發(fā)現(xiàn)頻繁項(xiàng)集和生成關(guān)聯(lián)規(guī)則”兩大子問題,前者成為后者挖掘研究的前提和關(guān)鍵。

衡量關(guān)聯(lián)規(guī)則興趣度的兩個(gè)指標(biāo)一個(gè)是支持度(Support),另一個(gè)是信任度(confidece),計(jì)算方式如下公式所示。支持度反映了此關(guān)聯(lián)的有用程度,信任度反映了確信程度。例如一個(gè)形如X→Y的規(guī)則,支持度是指包含X又包含Y的事務(wù)的可能性,信任度是指包含X的事務(wù)中同時(shí)也包含Y事務(wù)的可能性。得到的形式定義:

用戶可以設(shè)置兩個(gè)閾值來(lái)衡量項(xiàng)集出現(xiàn)的次數(shù):最小支持度和最小信任度閾值,如果設(shè)計(jì)出來(lái)的關(guān)聯(lián)規(guī)則,通過(guò)計(jì)算得到的支持度和信任度都小于或等于這兩個(gè)用戶之前設(shè)置的閾值,這個(gè)規(guī)則就是有效關(guān)聯(lián),因?yàn)檫@兩個(gè)閾值可以作為一個(gè)判斷標(biāo)準(zhǔn)。設(shè)計(jì)關(guān)聯(lián)規(guī)則要考慮到以下幾點(diǎn):

1.關(guān)聯(lián)規(guī)則滿足最小支持度要求是被檢測(cè)的數(shù)據(jù)項(xiàng)目集在相應(yīng)的數(shù)據(jù)庫(kù)各事務(wù)中出現(xiàn)的最小次數(shù)與事務(wù)總數(shù)的比值。

2.提供友好的操作界面,使得用戶可以選擇想要進(jìn)行分析的屬性。

3.利用OLAP和Cube來(lái)完成關(guān)聯(lián)規(guī)則的挖掘。

(二)關(guān)聯(lián)規(guī)則的Apriori算法

關(guān)聯(lián)規(guī)則中最經(jīng)典的算法就是Apriori算法,是有Agrawal和Srikant提出的。其中,前者算法的核心概念旨在提升關(guān)聯(lián)規(guī)則背景下的結(jié)果產(chǎn)生效率。Apriori算法用一種逐層搜索的迭代方法:K項(xiàng)集用于搜索(K+1)項(xiàng)集。首先,找到頻繁1-項(xiàng)集的集合,用L1表示,L1用于構(gòu)建候選項(xiàng)集C2,C2挖掘出頻繁2-項(xiàng)集的集合,用L2表示,利用L2構(gòu)建的候選項(xiàng)集C2去挖掘頻繁3-項(xiàng)集L3,按照這個(gè)方式循環(huán)搜索下去,到頻繁K-項(xiàng)集不能被找到為止。

1.Apriori算法描述

輸入:數(shù)據(jù)庫(kù)D,min_sup=80%;

輸出:D中的頻繁項(xiàng)集L;

2.Apriori算法的核心

⑴單趟掃描數(shù)據(jù)庫(kù)D計(jì)算各個(gè)1-項(xiàng)集的支持度,得到頻繁1-項(xiàng)集的集合。

⑵連接步:通過(guò)Lk-1與自身的連接產(chǎn)生的候選K-項(xiàng)集的集合Ck。

設(shè)Lk={L1,L2,L3…Li,Lj…Ln},(1≤i≤n;1≤j≤n)

Li={ Li[1], Li[2], Li[3]…Li[m]…Li[k]}(1≤m≤k) Li[m]是項(xiàng)集Li的第m項(xiàng)。Lk中的兩個(gè)元素是可連接的當(dāng)且僅當(dāng)這兩個(gè)元素但前k-1個(gè)元素相同,Li∞Lj={ Li[1], Li[2], Li[3]…Li[m]…Li[k],Lj[k]}, Li∞Lj∈Ck+1。

IV. 剪枝步:只有當(dāng)子集都是頻繁集的候選集才是頻繁集,Ck是Lk的超集,Ck的成員可以是也可以不是頻繁的,但所有的頻繁K-項(xiàng)集都不包含在Ck中,即若Ck-1?Lk-1則Ck?Lk就要在候選K-項(xiàng)的集合Ck中刪除候選K-項(xiàng)集。

⑶通過(guò)單趟掃描數(shù)據(jù)庫(kù)D,計(jì)算各個(gè)項(xiàng)集的支持度,將不滿足支持度的項(xiàng)集去掉。通過(guò)上述分析可以看到,Apriori算法要多次掃描數(shù)據(jù)庫(kù),會(huì)浪費(fèi)時(shí)間,而且也會(huì)產(chǎn)生大量的候選集,增加了工作量。對(duì)于成果數(shù)據(jù)來(lái)說(shuō),有些數(shù)據(jù)屬性會(huì)出現(xiàn)相同的情況,每一次都掃描數(shù)據(jù)庫(kù),對(duì)于相同的屬性值的重復(fù)掃描就造成了時(shí)間的浪費(fèi),所以可以采用減少候選項(xiàng)集的方式修改算法。將第一次掃描數(shù)據(jù)庫(kù)產(chǎn)生頻繁項(xiàng)集后,通過(guò)頻繁項(xiàng)集與數(shù)據(jù)庫(kù)的對(duì)比,刪除掉無(wú)用的數(shù)據(jù)信息,形成新的候選項(xiàng)集,循環(huán)往復(fù),以此來(lái)判斷候選項(xiàng)集中的項(xiàng)集能否成為新的頻繁項(xiàng)集,以此為基礎(chǔ),計(jì)算支持度,獲得關(guān)聯(lián)規(guī)則。

五、總結(jié)

分析調(diào)研大量成型的科研成果,強(qiáng)調(diào)做出大量需求分析,整理出數(shù)據(jù)倉(cāng)儲(chǔ)的相關(guān)知識(shí),建立相關(guān)知識(shí)儲(chǔ)備庫(kù),為技術(shù)的處理和應(yīng)用創(chuàng)造一個(gè)聯(lián)機(jī)的載體和條件,運(yùn)用數(shù)據(jù)的挖掘和分析處理技術(shù)進(jìn)行算法原理的研究,繼而建立了在數(shù)據(jù)倉(cāng)庫(kù)研究理論基礎(chǔ)上的模型,為創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)奠定基礎(chǔ)。

開發(fā)系統(tǒng)應(yīng)用的主要技術(shù)包括OLAP和Apriori兩種實(shí)用算法,將OLAP和Apriori算法結(jié)合運(yùn)用于實(shí)際的系統(tǒng)開發(fā)中,提升了數(shù)據(jù)運(yùn)算效率,拓寬了數(shù)據(jù)運(yùn)用的范圍,運(yùn)用決策分析智能化的目標(biāo)性,做到了整體化提升科研成果和決策的實(shí)用性。兩種技術(shù)的同時(shí)應(yīng)用到一個(gè)系統(tǒng)中,有一定的理論與實(shí)際創(chuàng)新性。數(shù)據(jù)挖掘技術(shù)需要更加深入的與科研管理進(jìn)行融合,開發(fā)出更加有價(jià)值的,能在更短的時(shí)間內(nèi)挖掘更多數(shù)據(jù)信息的應(yīng)用平臺(tái)。

猜你喜歡
決策支持系統(tǒng)項(xiàng)集數(shù)據(jù)倉(cāng)庫(kù)
護(hù)理臨床決策支持系統(tǒng)的理論基礎(chǔ)
臨床決策支持系統(tǒng)應(yīng)用于呼吸疾病的現(xiàn)狀概述
基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
電務(wù)維修決策支持系統(tǒng)研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
縣級(jí)防汛輔助決策支持系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
水利信息化(2015年5期)2015-12-21 12:54:40
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
一種頻繁核心項(xiàng)集的快速挖掘算法
霍州市| 冷水江市| 通海县| 措美县| 商丘市| 黑河市| 祥云县| 南涧| 项城市| 城口县| 古浪县| 虹口区| 仁化县| 民丰县| 临海市| 江门市| 石屏县| 金昌市| 贞丰县| 桐梓县| 遵义县| 来宾市| 崇义县| 沛县| 澎湖县| 宁陕县| 新津县| 苏尼特右旗| 龙江县| 若羌县| 贵港市| 东辽县| 裕民县| 上饶市| 波密县| 朝阳市| 鄂州市| 香格里拉县| 乌兰浩特市| 旌德县| 南康市|