国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究

2016-03-14 03:22:41孫興文
網(wǎng)絡安全技術與應用 2016年11期
關鍵詞:特征選擇子集數(shù)據(jù)挖掘

◆孫興文

(永州職業(yè)技術學院 湖南 425100)

基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究

◆孫興文

(永州職業(yè)技術學院 湖南 425100)

數(shù)據(jù)挖掘作為一門迅速發(fā)展的研究領域,面臨著越來越多新的問題和挑戰(zhàn)。數(shù)據(jù)挖掘在科技、航空、軍事等多個領域得到了廣泛應用,甚至直接決定了行業(yè)的發(fā)展速度和先進性,但是在實踐當中,同樣存在許多的問題。本文根據(jù)數(shù)據(jù)挖掘的特性展開分析,以特征加權與特征選擇的方法進行計算。

特征加權;特征選擇;數(shù)據(jù)挖掘;算法

0 前言

特征加權算法也被稱為knn算法,就是在挖掘數(shù)據(jù)的計算當中,集合數(shù)據(jù)樣本權重和特征權重來確定其真實性和準確性。在一定的條件下,能夠極大地提高數(shù)據(jù)分類準確率,但是卻改變不了計算機信息技術中的主頁和惡意軟件問題,也無法進行查驗。

1 數(shù)據(jù)挖掘綜述

數(shù)據(jù)挖掘的應用范圍較廣,不僅是實現(xiàn)數(shù)據(jù)庫知識發(fā)現(xiàn)的重要步驟,還能從眾多的數(shù)據(jù)庫當中快速、自動搜索隱藏在龐大數(shù)據(jù)中非常有價值的規(guī)律信息,數(shù)據(jù)挖掘也是一種對某種決策的支持過程。但隨著科技的發(fā)展,數(shù)據(jù)挖掘面臨著諸多的挑戰(zhàn),首先是數(shù)據(jù)的挖掘規(guī)模越來越大,龐大的數(shù)據(jù)無法采用有效的辦法進行歸納梳理,也不能更好地管理和運用;其次是隨著數(shù)據(jù)特征的維數(shù)不斷增加,呈現(xiàn)出許多的維數(shù)災難問題;最后是數(shù)據(jù)挖掘,特別是計算機信息技術的數(shù)據(jù)挖掘當中,更多的是強調(diào)由學科交叉產(chǎn)生的綜合性,在挖掘過程中不僅要求工程技術人員能夠設計出具有靈活運用統(tǒng)計、計算機、數(shù)學的建模技術,還需要具有生物、醫(yī)學、證劵金融等學科的知識背景。這些交叉性、多樣化的學科數(shù)據(jù)挖掘,不僅需要更為科學有效的管理,還需要對龐大的數(shù)據(jù)流精確的分析方法,尤其是針對高維數(shù)據(jù)的特征加權和特征選擇方法上,同時也要對生物信息學點的交叉性較強的學科的數(shù)據(jù)挖掘方式加以提升,提高其數(shù)據(jù)準確性和科學性,精確數(shù)據(jù)內(nèi)容。

本文中主要利用特征加權軟、硬空間聚類方式進行計算,并將特征選擇應用到實踐當中。尤其是因為數(shù)據(jù)交叉性強,數(shù)量龐大,甚至出現(xiàn)高維數(shù)據(jù)的現(xiàn)象,以此探討特征加權和選擇的問題,以及對多學科交叉進行研究探討。

2 基于數(shù)據(jù)挖掘規(guī)模龐大的軟子空間聚類算法

軟子空間聚類算法主要是將挖掘數(shù)據(jù)的原始特征空間分為不同的子區(qū)域,站在不同的角度考察各個數(shù)據(jù)的分類,在分類的過程中找到相對應的特征子空間。運用軟子空間聚類算法對挖掘數(shù)據(jù)進行計算,實際上就是將傳統(tǒng)的特征選擇技術和聚類算法進行有機結合,讓每個數(shù)據(jù)簇都能得到對應的特征子集或者權重,以下進行具體分析。

2.1 自底向上子空間聚類算法

所謂自底向上子空間聚類算法主要是依照網(wǎng)絡e構建密度設定,利用網(wǎng)絡的自底向上的搜索策略將子空間中的數(shù)據(jù)簇聚攏合算。這種方式能夠將挖掘數(shù)據(jù)最原始的特征空間分成若干個小網(wǎng)格,按照不同的特性將數(shù)據(jù)簇落到相應的網(wǎng)格樣本點,能夠準確落到相應網(wǎng)格中的概率,就表示這個子空間的密度狀況。當某個網(wǎng)格中的密度超過一定閾值后,需要將子空間作為密集單元保留,對不密集的網(wǎng)格空間直接舍棄,在自底向上的子空間聚類算法當中是利用熵理論作為密度度量,再通過靜態(tài)網(wǎng)格進行計算,動態(tài)網(wǎng)格查找策略,這樣才能夠得到更加穩(wěn)定的劃分結果。

2.2 自頂向下子空間聚類算法

自頂向下的聚類算法運用的是數(shù)據(jù)投影技術的迭代搜索策略進行挖掘計算,首先是將整個挖掘數(shù)據(jù)劃分為多個不同的數(shù)據(jù)簇,比如生物學一類、醫(yī)學一類,每個數(shù)據(jù)簇都有相同的權值及不同類型的特征權重。劃分好后就能夠采用迭代策略對這些初步數(shù)據(jù)不斷更新改良,重新定義數(shù)據(jù)簇的權重和聚類。當然龐大數(shù)據(jù)的迭代計算復雜度相當高,所以在計算時通常采用采樣以提高其準確性,比如PROCLUS(普羅克洛斯)、FINDIT等。運用以上計算方式在初始、迭代、改良等階段的計算有所不同。在初始數(shù)據(jù)階段的計算就是隨機抽樣,運用數(shù)據(jù)的探析策略尋找網(wǎng)格潛在中心集合的超集,只要保證挖掘數(shù)據(jù)簇中都有一個超集中心點即可。而在迭代階段則是從超集當中隨機選一個聚類中心,以此替代當前集合中不好的樣本點,以此循環(huán)得到更為優(yōu)質的中心點集,直到每個聚類中心點的集合達到穩(wěn)定后,再以子空間樣本點對聚類中心平均距離做數(shù)據(jù)簇半徑,找到對應特征子集。在改良極端就是將每個數(shù)據(jù)簇聚類中心再次掃描確定特征子集,并計算出樣本點到中心的曼哈頓距離,去除孤立點后重新劃分。

2.3 模糊加權軟子空間聚類算法

上述兩種方式是軟子空間聚類,而模糊加權空間聚類算法屬于硬子空間聚類計算,在計算時具有更好的適應性和靈活性。具體來說就是將挖掘數(shù)據(jù)集,由軟子空間計算出聚類中心V={v1,1≤i≤C},C是獲得的數(shù)據(jù)簇的聚類中心數(shù)量,j則表示樣本x是屬于第j個聚類中心vi的模糊隸屬度,要計算出整個數(shù)據(jù)集的模糊隸屬度矩陣U={uij|l≤i≤C,l≤j≤N|}。當然為了更好地挖掘每個數(shù)據(jù)集子空間結構,聚類計算方法會在聚類當中,都會賦予每簇數(shù)據(jù)特征加權系數(shù)。在計算當中用wik表示與某個特征對應的數(shù)據(jù)簇的重要性,以w來表示數(shù)據(jù)集特征加權系數(shù),將相應的特征加權系數(shù)和模糊加權指數(shù)引入函數(shù)計算公式當中:。在計算的過程中,只要給定m和t相應的數(shù)據(jù),就能計算出初始、迭代、改良等階段的數(shù)據(jù)。比如當m大于1和t大于1時,最小化的FWSC算法的目標函數(shù)計算出的模糊隸屬度。

3 特征選擇算法

特征選擇是數(shù)據(jù)挖掘和機械領域的關鍵,在挖掘數(shù)據(jù)數(shù)量龐大及高維特征時,原有的特征選擇方式不能更精確數(shù)據(jù)。要獲得有效的數(shù)據(jù),就需要在計算的框架內(nèi)有針對性的選擇,這就是特征選擇。特征選擇主要是通過對原始特征空間數(shù)據(jù)簇進行篩選,生成策略,然后形成特征子集,對選擇的數(shù)據(jù)進行評價,停止條件選擇,最后得出結論等幾個步驟。

3.1 過濾型特征選擇方式

過濾型特征選擇最大的優(yōu)勢是不會依靠相應的分類器材,確定時僅靠數(shù)據(jù)本省的特征,在選擇時先假設每個特征都是獨立存在的,采用某種搜索方式選擇出合理的特征子集。在選擇算法當中,過濾型是最為簡單的,常見的計算方式有FOCUS、Relief和分數(shù)方程。在選擇期間,選用一組具有代表的特征作為數(shù)據(jù)的子集,這是有利于提高計算的準確率,具體方式如圖1所示:

猜你喜歡
特征選擇子集數(shù)據(jù)挖掘
由一道有關集合的子集個數(shù)題引發(fā)的思考
拓撲空間中緊致子集的性質研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
關于奇數(shù)階二元子集的分離序列
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
Kmeans 應用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標特征選擇算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
每一次愛情都只是愛情的子集
都市麗人(2015年4期)2015-03-20 13:33:22
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
恭城| 龙川县| 贵定县| 加查县| 纳雍县| 余干县| 安国市| 榕江县| 郑州市| 香港| 佛山市| 海林市| 甘洛县| 卓尼县| 合作市| 和田市| 张掖市| 新营市| 临城县| 白河县| 陵水| 随州市| 崇义县| 高平市| 西乡县| 理塘县| 文登市| 肃北| 澄江县| 颍上县| 海晏县| 新密市| 牟定县| 罗源县| 湾仔区| 滕州市| 翁源县| 云浮市| 贵阳市| 万山特区| 库车县|