国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于變精度粗糙集的數(shù)據(jù)挖掘方法研究

2014-03-29 11:24:31黃朝輝
關(guān)鍵詞:約簡(jiǎn)粗糙集數(shù)據(jù)挖掘

黃朝輝

(莆田學(xué)院 信息工程學(xué)院,福建 莆田 351100)

隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)設(shè)備以及計(jì)算機(jī)的廣泛普及我國(guó)進(jìn)入了4G時(shí)代,信息化時(shí)代的特征也更為突出.人們能夠非常容易地存儲(chǔ)、獲得、管理、分析、輸出數(shù)據(jù),從傳統(tǒng)以獲得數(shù)據(jù)為目的,逐漸轉(zhuǎn)變到如何更好地獲取其中對(duì)自己有價(jià)值的信息.數(shù)據(jù)挖掘的英文拼寫是Data Mining(DM),它強(qiáng)調(diào)分析數(shù)據(jù),從而更好地挖掘出具有潛在有價(jià)值的信息、技術(shù)、知識(shí)以及其他相關(guān)需要.數(shù)據(jù)發(fā)掘也體現(xiàn)為一種決策過程,它建立在數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、信息檢索、統(tǒng)計(jì)學(xué)、可視化、模式識(shí)別、知識(shí)獲取、高性能計(jì)算機(jī)、知識(shí)庫系統(tǒng)、神經(jīng)網(wǎng)絡(luò)、人工智能以及統(tǒng)計(jì)學(xué)等先進(jìn)技術(shù)的基礎(chǔ)上,這些技術(shù)的發(fā)展也會(huì)對(duì)DM技術(shù)的發(fā)展產(chǎn)生直接的影響.

1 數(shù)據(jù)挖掘方法和技術(shù)

從當(dāng)前大部分的數(shù)據(jù)分析方法來看,整體上仍然屬于統(tǒng)計(jì)學(xué)習(xí)方法、仿生物學(xué)方法以及機(jī)器學(xué)習(xí)方法等三大類中的其中一種或者多種方式的綜合.而且這些方法也有著各自的缺點(diǎn)和優(yōu)點(diǎn),因此在處理具體的數(shù)據(jù)挖掘問題時(shí),要挑選最為適合的技術(shù).如果數(shù)據(jù)挖掘系統(tǒng)比較復(fù)雜,通常都會(huì)運(yùn)用多種類型的數(shù)據(jù)挖掘技術(shù).

1.1 統(tǒng)計(jì)學(xué)習(xí)方法

在人類最初開始處理數(shù)據(jù)時(shí),就是運(yùn)用人工方法來開展統(tǒng)計(jì)分析,這種方法在數(shù)據(jù)挖掘范圍內(nèi)有著長(zhǎng)期的應(yīng)用傳統(tǒng).在數(shù)據(jù)分析過程中,可以運(yùn)用統(tǒng)計(jì)來研究事物的外在數(shù)量以及表現(xiàn),從而判斷某事情的潛在規(guī)律.在解決機(jī)器學(xué)習(xí)問題的過程中,傳統(tǒng)的統(tǒng)計(jì)方法依舊起到了至關(guān)重要的作用.重點(diǎn)討論漸近理論,也就是在樣本趨向于無窮多的過程中所具備的統(tǒng)計(jì)性質(zhì).而且它緊緊依靠顯式的基本概率模型,最為常用的分析方式為回歸、主元、聚類、主元以及相關(guān)分析等方式.

1.2 機(jī)器學(xué)習(xí)方法

從目前研究來看,機(jī)器學(xué)習(xí)方法仍然是重中之重,而且獲得了較多的研究成果.從技術(shù)運(yùn)用來看,主要可以分為下面兩類:基于決策樹以及基于決策規(guī)則的技術(shù).

1.3 仿生物技術(shù)

遺傳算法以及神經(jīng)網(wǎng)絡(luò)方法是最為典型的仿生物技術(shù),這些都已經(jīng)變成了相對(duì)獨(dú)立的研究系統(tǒng),極大地促進(jìn)了數(shù)據(jù)挖掘的發(fā)展.從神經(jīng)網(wǎng)絡(luò)來看,它能夠模擬人腦所特有的神經(jīng)元結(jié)構(gòu),在Hebb以及MP學(xué)習(xí)規(guī)則的基礎(chǔ)上形成了前饋式、反饋式以及自組織等網(wǎng)絡(luò).前饋式網(wǎng)絡(luò)被用來模式識(shí)別以及預(yù)測(cè),反饋式網(wǎng)絡(luò)專長(zhǎng)于優(yōu)化計(jì)算以及聯(lián)想記憶,聚類研究中運(yùn)用最多的是自組織網(wǎng)絡(luò).

從遺傳算法來看,它是依據(jù)自然進(jìn)化原理而形成的優(yōu)化措施.在求解時(shí)最好借助彼此組合以及最好解的選擇.遺傳算法在數(shù)據(jù)挖掘過程中可以被用來形成變量之間的依賴關(guān)系的有關(guān)假設(shè).

2 變精度粗糙集(VPRS)理論的研究現(xiàn)狀

隨著信息技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘技術(shù)亦得以出現(xiàn)和發(fā)展,它的數(shù)據(jù)庫規(guī)模比較大、計(jì)算能力較強(qiáng)、計(jì)算方法非??茖W(xué),而且還能夠滿足不斷升級(jí)的商業(yè)需求,這些因素共同催生了信息挖掘技術(shù).這意味著能夠從數(shù)據(jù)庫以及其他信息庫或者數(shù)據(jù)倉庫中,挖掘出對(duì)研究有用的數(shù)據(jù)信息.自從Ziarko提出變精度粗糙集模型,相關(guān)研究者也將變精度粗糙集模型引入到數(shù)據(jù)挖掘領(lǐng)域.粗糙集理論在處理噪聲數(shù)據(jù)方面的能力得到了極大的提升,而且大量的國(guó)內(nèi)外學(xué)者也不斷地開展這方面的理論研究,并且將其運(yùn)用在數(shù)據(jù)挖掘?qū)嵺`中.從這個(gè)方面來看,變精度粗糙集模型很好地發(fā)展了粗糙集理論.此研究領(lǐng)域的重點(diǎn)在于變精度粗糙集模型中的知識(shí)約簡(jiǎn)理論、方法、如何確定精度值、模型應(yīng)用以及推廣等.

2.1 變精度粗糙集模型中的精度值的確定方法研究

從這個(gè)模型來看,精度取值能夠很好地提取近似分類的確定性規(guī)則以及質(zhì)量.Su等在這個(gè)領(lǐng)域中提出一種能夠界定精度值的手段.吉陽生等研究者也研究出一種增量計(jì)算值的方式,這種方式能夠選擇合適的值,而且還呈現(xiàn)出動(dòng)態(tài)增量的特征,極大地降低了計(jì)算開銷.周愛武等學(xué)者則提出了在界定近似分類質(zhì)量情況下的取值范圍的方式,依據(jù)近似分類質(zhì)量,可以運(yùn)用不同方法來有所區(qū)別地查找正確分類率的集合,從而較快地明確查找范圍.

2.2 推廣變精度粗糙集模型

鞏增泰等在研究一般關(guān)系下的多數(shù)包含關(guān)系情況下,還提出了一種類型即一般關(guān)系下的變精度粗糙集模型.Zhao等很好融合了模糊粗糙集模型與變精度粗糙集模型,在此基礎(chǔ)上提出了模糊變精度粗糙集模型.Wang等討論了不完備信息系統(tǒng),重點(diǎn)研究了變精度粗糙集模型中基于非對(duì)稱相似關(guān)系以及容差關(guān)系的性質(zhì).顏錦江等討論了在不完備信息系統(tǒng)中以相似度為基礎(chǔ)的變精度粗糙集模型,而且還提供了求約簡(jiǎn)的有關(guān)算法.

3 數(shù)據(jù)挖掘研究中的技術(shù)難題及趨勢(shì)

從數(shù)據(jù)挖掘方法、任務(wù)等來看,存在著多種選擇,而且還存在著大量頗具挑戰(zhàn)性的研究課題.從數(shù)據(jù)視角來看,噪聲、缺失、冗余、海量和動(dòng)態(tài)等相關(guān)數(shù)據(jù)等,這些問題都有待于進(jìn)一步完善以及解決.從數(shù)據(jù)挖掘手段來看,相關(guān)算法要具備高效性以及可擴(kuò)展性,運(yùn)行時(shí)間必須具備可預(yù)測(cè)性以及可接受性.從數(shù)據(jù)挖掘語言的設(shè)計(jì)來分析,必須要開發(fā)具有效率較高、實(shí)用性強(qiáng)的數(shù)據(jù)挖掘系統(tǒng).

從當(dāng)前數(shù)據(jù)挖掘的研究現(xiàn)狀以及應(yīng)用現(xiàn)況來看,建立以交互、集成為特征的數(shù)據(jù)挖掘環(huán)境,以及如何運(yùn)用數(shù)據(jù)挖掘技術(shù),科學(xué)快速地處理大型的應(yīng)用問題,都是它亟需面對(duì)的挑戰(zhàn).本文從以下角度分析了數(shù)據(jù)挖掘在今后的發(fā)展趨勢(shì),而且還具體地提出了應(yīng)對(duì)問題的相關(guān)策略.

3.1 可伸縮的數(shù)據(jù)挖掘方法.這種方法要具備高效處理海量數(shù)據(jù)的能力,而且人們希望這種技術(shù)具有交互式特征.為了更好地處理劇增的數(shù)據(jù)信息,開發(fā)出針對(duì)單獨(dú)以及集成的具備可伸縮的數(shù)據(jù)挖掘功能的算法就意義重大,其中的一個(gè)關(guān)鍵方向就是建立在約束基礎(chǔ)上的挖掘.它不僅能夠強(qiáng)化用戶交互環(huán)境,而且還能夠科學(xué)地提升數(shù)據(jù)挖掘、處理的整體效果.同時(shí)還為用戶提供了可供選擇的控制方法,允許使用約束以及用戶說明,從而引領(lǐng)數(shù)據(jù)挖掘系統(tǒng)搜索自身所感興趣的相關(guān)模式.

3.2 適應(yīng)多種類型、克服丟失以及噪聲的相關(guān)挖掘方式.在信息化時(shí)代,數(shù)據(jù)挖掘的對(duì)象不僅涵蓋了關(guān)系數(shù)據(jù)庫模型,而且還囊括了分布、異構(gòu)等在內(nèi)的多類型數(shù)據(jù)庫,因此要開發(fā)出能夠適用于多種類型,而且能夠防止數(shù)據(jù)丟失以及噪聲現(xiàn)象的新的挖掘方式.

3.3 重視專業(yè)知識(shí)引導(dǎo)以及專家參與.在數(shù)據(jù)挖掘過程中,知識(shí)校驗(yàn)、限定挖掘范圍、排除冗余、專業(yè)知識(shí)的引領(lǐng)都是不可或缺的.這樣就能夠很好克服基于非常有限的數(shù)據(jù)挖掘工具的人機(jī)交互能力,而且還能夠充分地運(yùn)用專家學(xué)者的專業(yè)背景知識(shí).

3.4 注重保護(hù)數(shù)據(jù)挖掘中的隱私以及信息安全.隨著電信、網(wǎng)絡(luò)數(shù)據(jù)挖掘工具的廣泛普及,數(shù)據(jù)挖掘要注重保護(hù)客戶的隱私,而且要實(shí)現(xiàn)信息安全.這就要開發(fā)出更好的方法,在適宜的信息訪問以及信息挖掘過程保護(hù)客戶的隱私以及信息安全.

4 研究中存在的問題以及應(yīng)對(duì)措施

4.1 針對(duì)海量數(shù)據(jù)的問題,在基于變精度Rough集理論中,可以綜合地分析集合正域的概念和由此定義的屬性等重要概念,構(gòu)建了數(shù)據(jù)表分解的相關(guān)方法.信息理論領(lǐng)域的信息嫡概念可以被用來驗(yàn)證從分解而獲得的樹型結(jié)構(gòu),而且還證明了這種分解方式的科學(xué)性和有效性.它不僅能夠提升計(jì)算速度,而且也不會(huì)損失信息量,對(duì)當(dāng)前所運(yùn)用的各種規(guī)則歸納算法來講,都能夠很好地運(yùn)用在這種樹型結(jié)構(gòu)上.

4.2 多次搜索數(shù)據(jù)表的問題,在關(guān)聯(lián)規(guī)則挖掘中,需要多次搜索數(shù)據(jù)表,文章認(rèn)為可以運(yùn)用變精度Rough分析的等效類概念,從而提出一種基于單維布爾關(guān)聯(lián)規(guī)則的挖掘方式,在整個(gè)數(shù)據(jù)庫中搜索頻繁項(xiàng)集時(shí),只進(jìn)行一次掃描就可以完成目標(biāo),從而科學(xué)地提升算法效率.考慮到存在單一的最小支持度閥值的缺陷,可以針對(duì)不同交易,科學(xué)地設(shè)定有所差異的最低交易頻度.此外,還要根據(jù)各項(xiàng)交易的交易頻度來決定關(guān)聯(lián)規(guī)則的最小支持度閥值,在此基礎(chǔ)上,能夠產(chǎn)生大量的多個(gè)最小支持度閥值,從而使計(jì)算結(jié)果規(guī)則的集合更為科學(xué)、精練,也能夠涵蓋較多的有意義規(guī)則.此外,還可以設(shè)置給出評(píng)價(jià)規(guī)則的興趣模板度量方式,從而找到更能吸引人們的相關(guān)規(guī)則.

4.3 為了彰顯出在規(guī)則挖掘過程中的條件屬性間的相互關(guān)系,可以運(yùn)用因子分析技術(shù)對(duì)條件屬性分組,而且各項(xiàng)屬性類內(nèi)部的條件屬性與有關(guān)的因子線性密切相關(guān),全部因子都是目標(biāo)概念的線性組合.可以依據(jù)屬性或者屬性類來判斷能否和相互對(duì)應(yīng)的目標(biāo)概念或因子呈現(xiàn)強(qiáng)相關(guān),可以引入信息嫡評(píng)價(jià)方式,從而科學(xué)地選擇屬性,選擇那些和目標(biāo)概念有關(guān)的屬性.此外,還要將此種屬性消減方法用在以變精度Rough分析為基礎(chǔ)的分類器設(shè)計(jì)方面,從而可以依據(jù)在分類時(shí)通常會(huì)出現(xiàn)的多(無)規(guī)則匹配問題,分別提出兩種不同的匹配函數(shù),從而科學(xué)地預(yù)測(cè)未知目標(biāo)概念的對(duì)象.4.4 缺失數(shù)據(jù)填補(bǔ)以及和重復(fù)數(shù)據(jù)發(fā)掘,在數(shù)據(jù)預(yù)處理過程中,這兩項(xiàng)問題非常重要,文章提出借助變精度Rough集理論來預(yù)測(cè)己知數(shù)據(jù),從而填補(bǔ)缺失數(shù)據(jù),也能夠在很大程度上提升預(yù)測(cè)精度;而且還可以借助數(shù)據(jù)表分解技術(shù),發(fā)現(xiàn)大型數(shù)據(jù)表中的重復(fù)數(shù)據(jù),減少查找重復(fù)數(shù)據(jù)的時(shí)間和工作量.

5 結(jié)束語

在概述了數(shù)據(jù)挖掘技術(shù)方法、技術(shù)以及研究現(xiàn)狀的基礎(chǔ)上,文章分析了在數(shù)據(jù)挖掘研究中所遇到的技術(shù)難題以及今后的發(fā)展趨勢(shì).同時(shí)提出了在不完備信息系統(tǒng)下變精度的限制容差關(guān)系模型,并通過理論分析和實(shí)例計(jì)算驗(yàn)證其對(duì)不完備信息系統(tǒng)下的等價(jià)類劃分更合理;在完備信息系統(tǒng)的條件下,首先分析了變精度粗糙集下的近似約簡(jiǎn)算法和分布約簡(jiǎn)算法,然后針對(duì)兩種約簡(jiǎn)的優(yōu)缺點(diǎn),提出一種改進(jìn)的近似約簡(jiǎn)算法,并通過理論分析和實(shí)驗(yàn)結(jié)果來驗(yàn)證其在時(shí)間復(fù)雜度和有效性方面的改進(jìn),以期為基于變精度粗糙集的數(shù)據(jù)挖掘方法提供有益的參考.

〔1〕中華,吳成東,趙貞麗,張娜.一種基于變精度粗糙集模型的數(shù)據(jù)挖掘方法[J].科技廣場(chǎng),2007(07).

〔2〕張東星,苗奪謙,李道國(guó),張紅云.基于數(shù)據(jù)庫系統(tǒng)的可變精度粗糙集模型[J].計(jì)算機(jī)科學(xué),2005(12).

〔3〕倪嘯,蔡瑞英.基于變精度粗糙集的信息系統(tǒng)數(shù)據(jù)挖掘應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2009(04).

猜你喜歡
約簡(jiǎn)粗糙集數(shù)據(jù)挖掘
基于Pawlak粗糙集模型的集合運(yùn)算關(guān)系
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于二進(jìn)制鏈表的粗糙集屬性約簡(jiǎn)
實(shí)值多變量維數(shù)約簡(jiǎn):綜述
基于模糊貼近度的屬性約簡(jiǎn)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
多?;植诩再|(zhì)的幾個(gè)充分條件
雙論域粗糙集在故障診斷中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
兩個(gè)域上的覆蓋變精度粗糙集模型
呼图壁县| 陕西省| 定西市| 肥乡县| 汽车| 平谷区| 兴仁县| 常德市| 政和县| 手游| 江安县| 榆树市| 枣阳市| 赤水市| 夏河县| 广平县| 汽车| 左贡县| 枣阳市| 泗洪县| 白城市| 界首市| 河津市| 社会| 宝丰县| 白山市| 阿拉尔市| 星子县| 吴堡县| 南郑县| 安化县| 新乡市| 夏河县| 南木林县| 平湖市| 濮阳县| 兴仁县| 永州市| 佛山市| 靖安县| 闸北区|