◆孫興文
(永州職業(yè)技術學院 湖南 425100)
基于特征加權與特征選擇的數(shù)據(jù)挖掘算法研究
◆孫興文
(永州職業(yè)技術學院 湖南 425100)
數(shù)據(jù)挖掘作為一門迅速發(fā)展的研究領域,面臨著越來越多新的問題和挑戰(zhàn)。數(shù)據(jù)挖掘在科技、航空、軍事等多個領域得到了廣泛應用,甚至直接決定了行業(yè)的發(fā)展速度和先進性,但是在實踐當中,同樣存在許多的問題。本文根據(jù)數(shù)據(jù)挖掘的特性展開分析,以特征加權與特征選擇的方法進行計算。
特征加權;特征選擇;數(shù)據(jù)挖掘;算法
特征加權算法也被稱為knn算法,就是在挖掘數(shù)據(jù)的計算當中,集合數(shù)據(jù)樣本權重和特征權重來確定其真實性和準確性。在一定的條件下,能夠極大地提高數(shù)據(jù)分類準確率,但是卻改變不了計算機信息技術中的主頁和惡意軟件問題,也無法進行查驗。
數(shù)據(jù)挖掘的應用范圍較廣,不僅是實現(xiàn)數(shù)據(jù)庫知識發(fā)現(xiàn)的重要步驟,還能從眾多的數(shù)據(jù)庫當中快速、自動搜索隱藏在龐大數(shù)據(jù)中非常有價值的規(guī)律信息,數(shù)據(jù)挖掘也是一種對某種決策的支持過程。但隨著科技的發(fā)展,數(shù)據(jù)挖掘面臨著諸多的挑戰(zhàn),首先是數(shù)據(jù)的挖掘規(guī)模越來越大,龐大的數(shù)據(jù)無法采用有效的辦法進行歸納梳理,也不能更好地管理和運用;其次是隨著數(shù)據(jù)特征的維數(shù)不斷增加,呈現(xiàn)出許多的維數(shù)災難問題;最后是數(shù)據(jù)挖掘,特別是計算機信息技術的數(shù)據(jù)挖掘當中,更多的是強調(diào)由學科交叉產(chǎn)生的綜合性,在挖掘過程中不僅要求工程技術人員能夠設計出具有靈活運用統(tǒng)計、計算機、數(shù)學的建模技術,還需要具有生物、醫(yī)學、證劵金融等學科的知識背景。這些交叉性、多樣化的學科數(shù)據(jù)挖掘,不僅需要更為科學有效的管理,還需要對龐大的數(shù)據(jù)流精確的分析方法,尤其是針對高維數(shù)據(jù)的特征加權和特征選擇方法上,同時也要對生物信息學點的交叉性較強的學科的數(shù)據(jù)挖掘方式加以提升,提高其數(shù)據(jù)準確性和科學性,精確數(shù)據(jù)內(nèi)容。
本文中主要利用特征加權軟、硬空間聚類方式進行計算,并將特征選擇應用到實踐當中。尤其是因為數(shù)據(jù)交叉性強,數(shù)量龐大,甚至出現(xiàn)高維數(shù)據(jù)的現(xiàn)象,以此探討特征加權和選擇的問題,以及對多學科交叉進行研究探討。
軟子空間聚類算法主要是將挖掘數(shù)據(jù)的原始特征空間分為不同的子區(qū)域,站在不同的角度考察各個數(shù)據(jù)的分類,在分類的過程中找到相對應的特征子空間。運用軟子空間聚類算法對挖掘數(shù)據(jù)進行計算,實際上就是將傳統(tǒng)的特征選擇技術和聚類算法進行有機結合,讓每個數(shù)據(jù)簇都能得到對應的特征子集或者權重,以下進行具體分析。
2.1 自底向上子空間聚類算法
所謂自底向上子空間聚類算法主要是依照網(wǎng)絡e構建密度設定,利用網(wǎng)絡的自底向上的搜索策略將子空間中的數(shù)據(jù)簇聚攏合算。這種方式能夠將挖掘數(shù)據(jù)最原始的特征空間分成若干個小網(wǎng)格,按照不同的特性將數(shù)據(jù)簇落到相應的網(wǎng)格樣本點,能夠準確落到相應網(wǎng)格中的概率,就表示這個子空間的密度狀況。當某個網(wǎng)格中的密度超過一定閾值后,需要將子空間作為密集單元保留,對不密集的網(wǎng)格空間直接舍棄,在自底向上的子空間聚類算法當中是利用熵理論作為密度度量,再通過靜態(tài)網(wǎng)格進行計算,動態(tài)網(wǎng)格查找策略,這樣才能夠得到更加穩(wěn)定的劃分結果。
2.2 自頂向下子空間聚類算法
自頂向下的聚類算法運用的是數(shù)據(jù)投影技術的迭代搜索策略進行挖掘計算,首先是將整個挖掘數(shù)據(jù)劃分為多個不同的數(shù)據(jù)簇,比如生物學一類、醫(yī)學一類,每個數(shù)據(jù)簇都有相同的權值及不同類型的特征權重。劃分好后就能夠采用迭代策略對這些初步數(shù)據(jù)不斷更新改良,重新定義數(shù)據(jù)簇的權重和聚類。當然龐大數(shù)據(jù)的迭代計算復雜度相當高,所以在計算時通常采用采樣以提高其準確性,比如PROCLUS(普羅克洛斯)、FINDIT等。運用以上計算方式在初始、迭代、改良等階段的計算有所不同。在初始數(shù)據(jù)階段的計算就是隨機抽樣,運用數(shù)據(jù)的探析策略尋找網(wǎng)格潛在中心集合的超集,只要保證挖掘數(shù)據(jù)簇中都有一個超集中心點即可。而在迭代階段則是從超集當中隨機選一個聚類中心,以此替代當前集合中不好的樣本點,以此循環(huán)得到更為優(yōu)質的中心點集,直到每個聚類中心點的集合達到穩(wěn)定后,再以子空間樣本點對聚類中心平均距離做數(shù)據(jù)簇半徑,找到對應特征子集。在改良極端就是將每個數(shù)據(jù)簇聚類中心再次掃描確定特征子集,并計算出樣本點到中心的曼哈頓距離,去除孤立點后重新劃分。
2.3 模糊加權軟子空間聚類算法
上述兩種方式是軟子空間聚類,而模糊加權空間聚類算法屬于硬子空間聚類計算,在計算時具有更好的適應性和靈活性。具體來說就是將挖掘數(shù)據(jù)集,由軟子空間計算出聚類中心V={v1,1≤i≤C},C是獲得的數(shù)據(jù)簇的聚類中心數(shù)量,j則表示樣本x是屬于第j個聚類中心vi的模糊隸屬度,要計算出整個數(shù)據(jù)集的模糊隸屬度矩陣U={uij|l≤i≤C,l≤j≤N|}。當然為了更好地挖掘每個數(shù)據(jù)集子空間結構,聚類計算方法會在聚類當中,都會賦予每簇數(shù)據(jù)特征加權系數(shù)。在計算當中用wik表示與某個特征對應的數(shù)據(jù)簇的重要性,以w來表示數(shù)據(jù)集特征加權系數(shù),將相應的特征加權系數(shù)和模糊加權指數(shù)引入函數(shù)計算公式當中:。在計算的過程中,只要給定m和t相應的數(shù)據(jù),就能計算出初始、迭代、改良等階段的數(shù)據(jù)。比如當m大于1和t大于1時,最小化的FWSC算法的目標函數(shù)計算出的模糊隸屬度。
特征選擇是數(shù)據(jù)挖掘和機械領域的關鍵,在挖掘數(shù)據(jù)數(shù)量龐大及高維特征時,原有的特征選擇方式不能更精確數(shù)據(jù)。要獲得有效的數(shù)據(jù),就需要在計算的框架內(nèi)有針對性的選擇,這就是特征選擇。特征選擇主要是通過對原始特征空間數(shù)據(jù)簇進行篩選,生成策略,然后形成特征子集,對選擇的數(shù)據(jù)進行評價,停止條件選擇,最后得出結論等幾個步驟。
3.1 過濾型特征選擇方式
過濾型特征選擇最大的優(yōu)勢是不會依靠相應的分類器材,確定時僅靠數(shù)據(jù)本省的特征,在選擇時先假設每個特征都是獨立存在的,采用某種搜索方式選擇出合理的特征子集。在選擇算法當中,過濾型是最為簡單的,常見的計算方式有FOCUS、Relief和分數(shù)方程。在選擇期間,選用一組具有代表的特征作為數(shù)據(jù)的子集,這是有利于提高計算的準確率,具體方式如圖1所示: