国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于規(guī)則型挖掘的油料裝備知識發(fā)現(xiàn)研究

2011-10-10 13:13后勤工程學(xué)院重慶401311
物流科技 2011年4期
關(guān)鍵詞:油料項(xiàng)集數(shù)據(jù)挖掘

楊 昆,陳 軍,張 培,梁 峪 (后勤工程學(xué)院,重慶 401311)

·產(chǎn)經(jīng)研究·

基于規(guī)則型挖掘的油料裝備知識發(fā)現(xiàn)研究

楊 昆,陳 軍,張 培,梁 峪 (后勤工程學(xué)院,重慶 401311)

1 知識發(fā)現(xiàn)

1.1 知識發(fā)現(xiàn)的概念。知識發(fā)現(xiàn),又稱數(shù)據(jù)庫知識發(fā)現(xiàn)(KDD),是從大量原始數(shù)據(jù)中挖掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息和知識。Fayyad將數(shù)據(jù)庫知識發(fā)現(xiàn)定義為 “KDD是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程[1]?!?/p>

1.2 知識發(fā)現(xiàn)的過程。本文采用知識發(fā)現(xiàn)的方法對油料裝備知識進(jìn)行繁衍[2],油料裝備的知識發(fā)現(xiàn)過程可粗略的劃分為3個階段:數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和結(jié)果的解釋評估階段,其流程圖如圖1所示:

圖1 KDD過程圖

(1)數(shù)據(jù)準(zhǔn)備階段包括3個方面的內(nèi)容。①數(shù)據(jù)選取,主要是確定目標(biāo)數(shù)據(jù),即根據(jù)用戶需求從原始數(shù)據(jù)庫中抽取一組感興趣的數(shù)據(jù),并將其組織成適合挖掘的數(shù)據(jù)組織形式。②數(shù)據(jù)預(yù)處理,也叫數(shù)據(jù)清洗,主要是消除噪音數(shù)據(jù)。噪音數(shù)據(jù)是指那些明顯不符合邏輯的偏差數(shù)據(jù),如某人300歲,這樣的數(shù)據(jù)往往影響挖掘結(jié)果的正確性。③數(shù)據(jù)變換,主要是指對數(shù)據(jù)進(jìn)行降維處理。

(2)數(shù)據(jù)挖掘階段。數(shù)據(jù)挖掘階段是油料裝備知識發(fā)現(xiàn)的核心,是根據(jù)挖掘的任務(wù)或目的使用具體的挖掘算法對準(zhǔn)備好的數(shù)據(jù)集進(jìn)行知識發(fā)現(xiàn)。這些知識是隱含的、先前未知的、對決策有潛在價值的。提取的油料裝備知識可表示為概念 (Concepts)、規(guī)則 (Rules)、規(guī)律 (Regularities)和模式 (Patterns)等形式。這些形式蘊(yùn)含了數(shù)據(jù)庫中一組對象之間的特定關(guān)系,揭示出一些有用的信息,從而為油料裝備設(shè)計(jì)人員提供決策依據(jù)。

(3)結(jié)果的解釋和評價階段。就是對挖掘出來的知識模式進(jìn)行解釋和評價,即剔除冗余或無關(guān)的知識模式,將最后結(jié)果展現(xiàn)給用戶。

2 規(guī)則型挖掘技術(shù)

現(xiàn)代數(shù)據(jù)挖掘技術(shù)按照其不同的技術(shù)特點(diǎn),可以分為規(guī)則型挖掘技術(shù)、神經(jīng)網(wǎng)絡(luò)型挖掘技術(shù)、遺傳算法型挖掘技術(shù)、粗造集挖掘技術(shù)、決策樹型挖掘技術(shù)。

本文采用規(guī)則型挖掘技術(shù),對從數(shù)據(jù)庫中抽取的一組油料裝備功能性需求數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,并從中發(fā)現(xiàn)新的規(guī)則。對規(guī)則的歸納是數(shù)據(jù)挖掘的一種主要形式,并且是無教師學(xué)習(xí)系統(tǒng)中最普遍的知識發(fā)現(xiàn)形式,它也是與大多數(shù)人想象的數(shù)據(jù)挖掘過程最為相似的一種數(shù)據(jù)挖掘形式,即在數(shù)據(jù)庫中 “淘金”。這里的金子是指人們原先不知道或者不能明確表達(dá)出來的知識。

(1)關(guān)聯(lián)規(guī)則的基本概念。關(guān)聯(lián)規(guī)則也稱為關(guān)聯(lián)模式,是美國BIM Almaden Research Center的R.Agrawal等人于1993年提出的,是數(shù)據(jù)挖掘研究中的一個重要課題。關(guān)聯(lián)規(guī)則是指大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系[3]。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象主要是事務(wù)數(shù)據(jù)庫,例如售貨數(shù)據(jù),也稱為貨籃數(shù)據(jù)。它是描述一個事務(wù)中物品之間同時出現(xiàn)的規(guī)律的知識模式。基于這一概念,本文利用關(guān)聯(lián)規(guī)則來描述油料裝備設(shè)計(jì)過程中不同功能需求同時出現(xiàn)的規(guī)律。

關(guān)聯(lián)規(guī)則本身是 “如果條件怎么樣,那么結(jié)果或情況就如何”的簡單形式,它是一種蘊(yùn)含關(guān)系、對稱關(guān)系,不是因果關(guān)系。關(guān)聯(lián)規(guī)則的表示形式為:A?B,其中左部A稱為前件,右部B稱為后件。前件可以包括一個或多個條件,在某個給定的正確率限制情況下,要使后件為真,前件中的所有條件必須同時為真。后件一般只包含一種情況,而不是多種情況。

例如,購買了計(jì)算機(jī)的用戶有購買財(cái)務(wù)軟件的趨向,用關(guān)聯(lián)規(guī)則表示為:

家庭是構(gòu)成社會的基本元素,家庭的生存狀態(tài)是社會發(fā)展水平的標(biāo)志。以往的城鄉(xiāng)規(guī)劃關(guān)注企業(yè)勝于關(guān)注家庭,關(guān)注勞動力資源勝于關(guān)注勞動者本身。大量農(nóng)民工的出現(xiàn),導(dǎo)致了農(nóng)村家庭的碎片化和離散化、留守人群關(guān)愛的缺失,以及遠(yuǎn)程通勤造成經(jīng)濟(jì)負(fù)擔(dān)和資源的浪費(fèi)等等。城鄉(xiāng)規(guī)劃應(yīng)從家庭的完整性、聚合性和生活質(zhì)量方面,對就業(yè)、居住和公共服務(wù)進(jìn)行規(guī)劃,使城鄉(xiāng)聚落適宜于家庭生活,而非人口和勞動力集聚的空間。

(2)關(guān)聯(lián)規(guī)則的評價標(biāo)準(zhǔn)。①支持度 (Support)是對A?B的重要性 (或適用范圍)的衡量。在事物數(shù)據(jù)庫D中,規(guī)則A?B的支持度定義為物品集A和B同時出現(xiàn)的概率。支持度用公式定義為:

例如,如果某天有500個顧客 (元組數(shù))到商場購買物品,其中有100個顧客同時購買了牛奶和面包,那么牛奶?面包的支持度就是20%。

②可信度 (Confidence)。它是對關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量,事物數(shù)據(jù)庫D中規(guī)則A?B的可信度定義為在物品集A出現(xiàn)的前提下,B出現(xiàn)的概率。可信度用公式定義為:

如上面所舉的牛奶和面包的例子,該關(guān)聯(lián)規(guī)則的可信度就回答了這樣一個問題:如果一個顧客購買了牛奶,那么他同時也購買面包的可能性有多大呢?在上述的例子中,如果在購買牛奶的200名顧客中有100人購買了面包,則該規(guī)則的可信度是50%。

關(guān)聯(lián)規(guī)則的挖掘問題就是在事務(wù)數(shù)據(jù)庫D中找出大于等于用戶給定的最小支持度或者最小可信度的關(guān)聯(lián)規(guī)則。而挖掘關(guān)聯(lián)規(guī)則是指在事務(wù)數(shù)據(jù)庫D中挖掘出具有這種形式的規(guī)則:由于某些事件的發(fā)生而引起另外一些事件的發(fā)生。這些規(guī)則在決策支持系統(tǒng)、專家系統(tǒng)和智能設(shè)計(jì)等各個方面起著重要作用。

(3)關(guān)聯(lián)規(guī)則的算法。Agrawal等人在1993年提出了解決客戶事務(wù)數(shù)據(jù)庫中的項(xiàng)集間關(guān)聯(lián)規(guī)則問題的Apriori算法。該算法的核心是將關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法分解成兩步[4]:①找出所有支持度大于最小支持度的項(xiàng)集,這些項(xiàng)集稱為頻集,包含k個項(xiàng)的頻集稱為k-項(xiàng)集。②使用算法第①步找到的頻集產(chǎn)生所期望的規(guī)則。

Apriori算法的第①步采用遞歸方法,算法表示為:

L1={large 1-itemset s};//產(chǎn)生頻繁1項(xiàng)集L1

For( k=2; Lk-1≠?; k++);//循環(huán)產(chǎn)生頻繁2項(xiàng)集L2直到某個r, 使Lr為空

begin

Ck=apriori-gen( Lk-1 );//產(chǎn)生k-項(xiàng)集的候選集

for all transaction t∈D do

begin

Ct=subset( Ck,t);//事物t中包含的候選集

for all candidates c∈Ctdo

c.count++;

end

Lk={c∈Ck|c.count≥minsup}

end

Answer=UkLk

算法首選產(chǎn)生頻集1項(xiàng)集L1,然后循環(huán)生成頻集2項(xiàng)集L2,直到某個r使Lr為空,算法結(jié)束。在第k次循環(huán)中,首先產(chǎn)生候選k-項(xiàng)集的集合Ck,Ck中的每一項(xiàng)集是對兩個只有一個項(xiàng)不同的屬于Lk-1頻集做k-()2 -項(xiàng)集連接產(chǎn)生的,Ck中的每個項(xiàng)需要在事物數(shù)據(jù)庫中進(jìn)行驗(yàn)證以決定是否加入Lk。

3 Apriori算法的應(yīng)用

在運(yùn)用Apriori算法進(jìn)行數(shù)據(jù)挖掘之前,首先要明確抽取的這組油料裝備功能性需求數(shù)據(jù)包括運(yùn)油、加油、泵油、儲油4項(xiàng)數(shù)據(jù),這4項(xiàng)數(shù)據(jù)是存儲在油料裝備設(shè)計(jì)綜合數(shù)據(jù)庫中的,它們是與油料裝備設(shè)計(jì)問題相關(guān)的初始數(shù)據(jù),表示了油料裝備所具有的復(fù)合功能。其次要明確油料裝備設(shè)計(jì)綜合數(shù)據(jù)庫相當(dāng)于關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的對象事物數(shù)據(jù)庫D,4個復(fù)合功能相當(dāng)于事物中的物品集合,根據(jù)用戶不同的功能需求,這4個復(fù)合功能組成了不同的項(xiàng)集,正是在這些不同的項(xiàng)集間,存在著關(guān)聯(lián)規(guī)則。

設(shè)定數(shù)字 “1,2,3,4”分別代表 “運(yùn)油、加油、泵油、儲油”,事物數(shù)據(jù)庫D為油料裝備設(shè)計(jì)綜合數(shù)據(jù)庫,則Apriori算法在油料裝備功能數(shù)據(jù)挖掘中的應(yīng)用如圖2所示:

圖2 Apriori算法應(yīng)用

本文為了便于計(jì)算和比較各個項(xiàng)集支持度的大小,用項(xiàng)集在數(shù)據(jù)庫中的出現(xiàn)次數(shù)來表示支持度,等到算法結(jié)束挖掘出功能需求間的關(guān)聯(lián)規(guī)則時,再運(yùn)用公式 (2)將支持度換算成百分?jǐn)?shù),并對關(guān)聯(lián)規(guī)則進(jìn)行評判。

在C1的產(chǎn)生過程中,首先掃描數(shù)據(jù)庫,由于項(xiàng)集{1 }在數(shù)據(jù)庫中出現(xiàn)了3次,故其支持度為3,其余以此類推。如果用戶要求最小支持度在1以上,那么在由C1產(chǎn)生L1時,項(xiàng)集4被刪除。

在由L1產(chǎn)生C2的第二次循環(huán)過程中,由于項(xiàng)集{4 }沒有在L1中出現(xiàn),因此在C2中的項(xiàng)集就不會包含有子項(xiàng)集{4 }的項(xiàng)集。獲得C2后,掃描數(shù)據(jù)庫獲得C2中所有項(xiàng)集的支持度,由于項(xiàng)集{1,2 }分別在數(shù)據(jù)庫D中的功能需求標(biāo)識A3、A4中出現(xiàn)了一次,故其支持度為2,其余類推。然后對具有支持度的C2比較支持度,選擇大于支持度為1的項(xiàng)集,最后獲得L2。

在由L2產(chǎn)生C3的第三次循環(huán)過程中,由于只有{1,2,3}的所有子項(xiàng)集{1,2}、 {2,3}和{1,3 }在L2出現(xiàn),因此C3中只有項(xiàng)集{1,2,3}。在掃描數(shù)據(jù)庫后獲得{1,2,3 }的支持度為2,最后獲得L3。此時已經(jīng)無法由L3產(chǎn)生C4,故算法結(jié)束。

由上述算法可得3個頻集:L1、L2、L3。根據(jù)Apriori算法的第②步,可從頻集L2中產(chǎn)生至少3條功能需求關(guān)聯(lián)規(guī)則,并運(yùn)用公式 (1)和公式 (2)分別計(jì)算3條關(guān)聯(lián)規(guī)則的支持度和可信度,如表1所示:

表1 功能需求關(guān)聯(lián)規(guī)則

若用戶規(guī)定關(guān)聯(lián)規(guī)則的最小支持度為25% (與支持度1對應(yīng)),最小可信度為50%,那么表1中的3條關(guān)聯(lián)規(guī)則都是符合用戶要求的,可以作為新知識加入到知識庫中,并可在以后的油料裝備設(shè)計(jì)中進(jìn)行利用。如關(guān)聯(lián)規(guī)則 “加油?泵油”,表示如果設(shè)計(jì)的油料裝備具有加油功能,那么也應(yīng)同時具有泵油功能。

4 結(jié)束語

隨著 “知識經(jīng)濟(jì)”時代的到來,油料裝備設(shè)計(jì)正逐漸向依靠知識驅(qū)動的創(chuàng)新設(shè)計(jì)方向發(fā)展。如何在呈爆炸性增長的數(shù)據(jù)中挖掘出對油料裝備設(shè)計(jì)有用的知識,已成為油料裝備知識發(fā)現(xiàn)研究的重點(diǎn)。本文在油料裝備知識發(fā)現(xiàn)過程中運(yùn)用規(guī)則型挖掘技術(shù),可以從油料裝備設(shè)計(jì)綜合數(shù)據(jù)庫中挖掘出功能需求間的關(guān)聯(lián)規(guī)則,并將其存入知識庫。這不僅實(shí)現(xiàn)了油料裝備知識的自我繁衍,而且提高了油料裝備設(shè)計(jì)的創(chuàng)新性。

[1]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining[M].MIT Press,1996.

[2] 彭穎紅,胡潔.KBE技術(shù)及其在產(chǎn)品設(shè)計(jì)中的應(yīng)用[M].上海:上海交通大學(xué)出版社,2007.

[3] 宋麗,林利.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)庫知識發(fā)現(xiàn)及應(yīng)用[J].商場現(xiàn)代化,2009(2):49-50.

[4] 陳京民.現(xiàn)代數(shù)據(jù)挖掘技術(shù)與發(fā)展[M].北京:電子工業(yè)出版社,2007.

Mining Based on Rule-based Knowledge Discovery Oil Equipment

YANG Kun,CHEN Jun,ZHANG Pei,LIANG Yu (Logistical Engineering University,Chongqing 401311,China)

在基于知識的油料裝備設(shè)計(jì)過程中,利用知識發(fā)現(xiàn)的方法實(shí)現(xiàn)油料裝備知識的自我繁衍,對豐富油料裝備知識庫,提高油料裝備的自動化設(shè)計(jì)水平具有重要意義。運(yùn)用規(guī)則型挖掘技術(shù)中的Apriori算法挖掘出油料裝備功能性需求數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,并將其存入知識庫。這些關(guān)聯(lián)規(guī)則,直接揭示了隱含在油料裝備功能需求數(shù)據(jù)間的規(guī)律,為油料裝備的功能設(shè)計(jì)決策提供了依據(jù)。

油料裝備;知識發(fā)現(xiàn);規(guī)則型挖掘;關(guān)聯(lián)規(guī)則

Knowledge-based oil equipment design process,using knowledge discovery methos to achieve oil self-reproduction equipment knowledge,knowledge of the rih oil equipment,oil equipment to improve the design level of automation is important.In this regard,the use of rule-based mining technology in the Apriori algorithm for mining the oil equipment functional requirements in the data association rules,and store them in knowledge base.These association rules,directly revea the functional requirements implicit in the oil equipment rules among the data,the function of equipment for the oil provided the basis for design decisions.

oil equipment;knowledge discovery;rule-based mining;association rules

F270

A

2011-01-24

楊 昆(1983-),男,四川樂山人,后勤工程學(xué)院碩士研究生,研究方向:油氣儲運(yùn)工程。

1002-3100(2011)04-0142-03

猜你喜歡
油料項(xiàng)集數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
武漢白沙洲糧食和油料批發(fā)均價
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于廣義最大覆蓋模型的油料保障力量動員研究
一種頻繁核心項(xiàng)集的快速挖掘算法
基于GPGPU的離散數(shù)據(jù)挖掘研究
精確化油料保障模式研究
空中進(jìn)攻戰(zhàn)役油料協(xié)同保障淺析
一種新的改進(jìn)Apriori算法*
乐昌市| 蚌埠市| 西藏| 浦城县| 临湘市| 蒙阴县| 建平县| 巴彦淖尔市| 芜湖县| 扎鲁特旗| 策勒县| 文登市| 个旧市| 安丘市| 措勤县| 桂阳县| 临泉县| 崇信县| 长垣县| 万源市| 陕西省| 环江| 新营市| 睢宁县| 奉贤区| 临猗县| 肇州县| 青神县| 榆林市| 岗巴县| 义马市| 凌海市| 大关县| 阳西县| 元氏县| 仲巴县| 乐亭县| 柘城县| 合川市| 剑川县| 盈江县|