基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究

2016-03-14 03:22:41孫興文

網(wǎng)絡安全技術與應用 2016年11期

關鍵詞：特征選擇子集數(shù)據(jù)挖掘

◆孫興文

（永州職業(yè)技術學院湖南 425100）

基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究

◆孫興文

（永州職業(yè)技術學院湖南 425100）

數(shù)據(jù)挖掘作為一門迅速發(fā)展的研究領域，面臨著越來越多新的問題和挑戰(zhàn)。數(shù)據(jù)挖掘在科技、航空、軍事等多個領域得到了廣泛應用，甚至直接決定了行業(yè)的發(fā)展速度和先進性，但是在實踐當中，同樣存在許多的問題。本文根據(jù)數(shù)據(jù)挖掘的特性展開分析，以特征加權與特征選擇的方法進行計算。

特征加權；特征選擇；數(shù)據(jù)挖掘；算法

0 前言

特征加權算法也被稱為knn算法，就是在挖掘數(shù)據(jù)的計算當中，集合數(shù)據(jù)樣本權重和特征權重來確定其真實性和準確性。在一定的條件下，能夠極大地提高數(shù)據(jù)分類準確率，但是卻改變不了計算機信息技術中的主頁和惡意軟件問題，也無法進行查驗。

1 數(shù)據(jù)挖掘綜述

數(shù)據(jù)挖掘的應用范圍較廣，不僅是實現(xiàn)數(shù)據(jù)庫知識發(fā)現(xiàn)的重要步驟，還能從眾多的數(shù)據(jù)庫當中快速、自動搜索隱藏在龐大數(shù)據(jù)中非常有價值的規(guī)律信息，數(shù)據(jù)挖掘也是一種對某種決策的支持過程。但隨著科技的發(fā)展，數(shù)據(jù)挖掘面臨著諸多的挑戰(zhàn)，首先是數(shù)據(jù)的挖掘規(guī)模越來越大，龐大的數(shù)據(jù)無法采用有效的辦法進行歸納梳理，也不能更好地管理和運用；其次是隨著數(shù)據(jù)特征的維數(shù)不斷增加，呈現(xiàn)出許多的維數(shù)災難問題；最后是數(shù)據(jù)挖掘，特別是計算機信息技術的數(shù)據(jù)挖掘當中，更多的是強調(diào)由學科交叉產(chǎn)生的綜合性，在挖掘過程中不僅要求工程技術人員能夠設計出具有靈活運用統(tǒng)計、計算機、數(shù)學的建模技術，還需要具有生物、醫(yī)學、證劵金融等學科的知識背景。這些交叉性、多樣化的學科數(shù)據(jù)挖掘，不僅需要更為科學有效的管理，還需要對龐大的數(shù)據(jù)流精確的分析方法，尤其是針對高維數(shù)據(jù)的特征加權和特征選擇方法上，同時也要對生物信息學點的交叉性較強的學科的數(shù)據(jù)挖掘方式加以提升，提高其數(shù)據(jù)準確性和科學性，精確數(shù)據(jù)內(nèi)容。

本文中主要利用特征加權軟、硬空間聚類方式進行計算，并將特征選擇應用到實踐當中。尤其是因為數(shù)據(jù)交叉性強，數(shù)量龐大，甚至出現(xiàn)高維數(shù)據(jù)的現(xiàn)象，以此探討特征加權和選擇的問題，以及對多學科交叉進行研究探討。

2 基于數(shù)據(jù)挖掘規(guī)模龐大的軟子空間聚類算法

軟子空間聚類算法主要是將挖掘數(shù)據(jù)的原始特征空間分為不同的子區(qū)域，站在不同的角度考察各個數(shù)據(jù)的分類，在分類的過程中找到相對應的特征子空間。運用軟子空間聚類算法對挖掘數(shù)據(jù)進行計算，實際上就是將傳統(tǒng)的特征選擇技術和聚類算法進行有機結合，讓每個數(shù)據(jù)簇都能得到對應的特征子集或者權重，以下進行具體分析。

2.1 自底向上子空間聚類算法

所謂自底向上子空間聚類算法主要是依照網(wǎng)絡e構建密度設定，利用網(wǎng)絡的自底向上的搜索策略將子空間中的數(shù)據(jù)簇聚攏合算。這種方式能夠將挖掘數(shù)據(jù)最原始的特征空間分成若干個小網(wǎng)格，按照不同的特性將數(shù)據(jù)簇落到相應的網(wǎng)格樣本點，能夠準確落到相應網(wǎng)格中的概率，就表示這個子空間的密度狀況。當某個網(wǎng)格中的密度超過一定閾值后，需要將子空間作為密集單元保留，對不密集的網(wǎng)格空間直接舍棄，在自底向上的子空間聚類算法當中是利用熵理論作為密度度量，再通過靜態(tài)網(wǎng)格進行計算，動態(tài)網(wǎng)格查找策略，這樣才能夠得到更加穩(wěn)定的劃分結果。

2.2 自頂向下子空間聚類算法

自頂向下的聚類算法運用的是數(shù)據(jù)投影技術的迭代搜索策略進行挖掘計算，首先是將整個挖掘數(shù)據(jù)劃分為多個不同的數(shù)據(jù)簇，比如生物學一類、醫(yī)學一類，每個數(shù)據(jù)簇都有相同的權值及不同類型的特征權重。劃分好后就能夠采用迭代策略對這些初步數(shù)據(jù)不斷更新改良，重新定義數(shù)據(jù)簇的權重和聚類。當然龐大數(shù)據(jù)的迭代計算復雜度相當高，所以在計算時通常采用采樣以提高其準確性，比如PROCLUS（普羅克洛斯）、FINDIT等。運用以上計算方式在初始、迭代、改良等階段的計算有所不同。在初始數(shù)據(jù)階段的計算就是隨機抽樣，運用數(shù)據(jù)的探析策略尋找網(wǎng)格潛在中心集合的超集，只要保證挖掘數(shù)據(jù)簇中都有一個超集中心點即可。而在迭代階段則是從超集當中隨機選一個聚類中心，以此替代當前集合中不好的樣本點，以此循環(huán)得到更為優(yōu)質的中心點集，直到每個聚類中心點的集合達到穩(wěn)定后，再以子空間樣本點對聚類中心平均距離做數(shù)據(jù)簇半徑，找到對應特征子集。在改良極端就是將每個數(shù)據(jù)簇聚類中心再次掃描確定特征子集，并計算出樣本點到中心的曼哈頓距離，去除孤立點后重新劃分。

2.3 模糊加權軟子空間聚類算法

上述兩種方式是軟子空間聚類，而模糊加權空間聚類算法屬于硬子空間聚類計算，在計算時具有更好的適應性和靈活性。具體來說就是將挖掘數(shù)據(jù)集，由軟子空間計算出聚類中心V={v1，1≤i≤C}，C是獲得的數(shù)據(jù)簇的聚類中心數(shù)量，j則表示樣本x是屬于第j個聚類中心vi的模糊隸屬度，要計算出整個數(shù)據(jù)集的模糊隸屬度矩陣U={uij|l≤i≤C，l≤j≤N|}。當然為了更好地挖掘每個數(shù)據(jù)集子空間結構，聚類計算方法會在聚類當中，都會賦予每簇數(shù)據(jù)特征加權系數(shù)。在計算當中用wik表示與某個特征對應的數(shù)據(jù)簇的重要性，以w來表示數(shù)據(jù)集特征加權系數(shù)，將相應的特征加權系數(shù)和模糊加權指數(shù)引入函數(shù)計算公式當中：。在計算的過程中，只要給定m和t相應的數(shù)據(jù)，就能計算出初始、迭代、改良等階段的數(shù)據(jù)。比如當m大于1和t大于1時，最小化的FWSC算法的目標函數(shù)計算出的模糊隸屬度。

3 特征選擇算法

特征選擇是數(shù)據(jù)挖掘和機械領域的關鍵，在挖掘數(shù)據(jù)數(shù)量龐大及高維特征時，原有的特征選擇方式不能更精確數(shù)據(jù)。要獲得有效的數(shù)據(jù)，就需要在計算的框架內(nèi)有針對性的選擇，這就是特征選擇。特征選擇主要是通過對原始特征空間數(shù)據(jù)簇進行篩選，生成策略，然后形成特征子集，對選擇的數(shù)據(jù)進行評價，停止條件選擇，最后得出結論等幾個步驟。

3.1 過濾型特征選擇方式

過濾型特征選擇最大的優(yōu)勢是不會依靠相應的分類器材，確定時僅靠數(shù)據(jù)本省的特征，在選擇時先假設每個特征都是獨立存在的，采用某種搜索方式選擇出合理的特征子集。在選擇算法當中，過濾型是最為簡單的，常見的計算方式有FOCUS、Relief和分數(shù)方程。在選擇期間，選用一組具有代表的特征作為數(shù)據(jù)的子集，這是有利于提高計算的準確率，具體方式如圖1所示：

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究

0 前言

1 數(shù)據(jù)挖掘綜述

2 基于數(shù)據(jù)挖掘規(guī)模龐大的軟子空間聚類算法

3 特征選擇算法