多標記學習自編碼網絡無監(jiān)督維數(shù)約簡

2018-09-18 09:49:00楊文元

智能系統(tǒng)學報 2018年5期

楊文元

真實世界中的對象通常具有不止一種語義標記，經常表現(xiàn)為多義性，即一個對象可能與多個類別標記相關聯(lián)。如一幅海邊景色圖片可以同時標注“藍天”“白云”“大?！薄吧碁钡日Z義標記，對于多個標記對象的處理方式是為每個圖像賦予一個標記子集，并進行建模和學習，這就形成多標記學習框架[1]。在多標記學習框架下，每個示例由對應的多個標記構成的特征向量進行描述，學習的目標是將多個適當?shù)臉擞涃x予需要預測的未知示例[2]。

隨著信息化的快速發(fā)展，數(shù)據和資源呈海量特征，數(shù)據的標注結構復雜程度也不斷增加，單標記方法無法滿足分析處理要求[1]，以機器學習技術為基礎的多標記學習技術現(xiàn)已成為一個研究熱點，其研究成果廣泛地應用于各種不同領域，如圖像視頻的語義標注、功能基因組、音樂情感分類以及營銷指導等[3]。

在多標記學習過程中，高維數(shù)據訓練和預測都需要更多的計算時間和空間。降維減少了特征數(shù)卻提高了算法效率和學習性能，可避免過擬合現(xiàn)象和過濾掉冗余特征[4-6]。因此，降低數(shù)據的維度具有重要意義。

高維數(shù)據降維，主要有線性維數(shù)約簡和非線性維數(shù)約簡兩種方法。線性維數(shù)約簡的方法有主成分分析方法(principal component analysis, PCA)、獨立成分分析方法(independent component correlation algorithm, ICA)、線性判別分析法(linear discriminant analysis, LDA)和局部特征分析法(local feature analysis, LFA)等。非線性降維方法有等距特征映射方法(isometric feature mapping, ISOMAP)和局部線性嵌入方法(locally linear embedding,LLE)等[7-8]。多標記學習的有監(jiān)督降維方法有依賴最大化(MDDM)算法[5]，半監(jiān)督方法主要是采用聯(lián)合降維方法[9]和依賴最大化方法[10]。

與一般多標記有監(jiān)督的降維方法不同，提出一種自編碼網絡的無監(jiān)督多標記維數(shù)約簡方法(multi-label unsupervised dimensionality reduction via autoencoder networks, MUAE)，首先構建自編碼神經網絡，僅使用特征數(shù)據作為輸入，進行編碼和解碼輸出以提取特征，在處理過程引入稀疏約束并將輸出數(shù)據與輸入數(shù)據對比，計算總體成本誤差，應用梯度下降法進行迭代更新，通過深度學習訓練獲得自編碼網絡學習模型，提取數(shù)據特征，最后以多標記學習ML-kNN算法作為統(tǒng)一的分類評價基準，并在6個公開數(shù)據集上與其他4種方法對比。實驗結果表明，該方法能夠在無監(jiān)督情況下有效提取特征，降低多標記數(shù)據維度，得到較好的學習效果。

1 多標記學習

多標記的樣本由一個示例和對應的多個標記構成，多標記學習是一種機器學習框架[1-2]。下面的內容，簡要地介紹多標記學習的問題定義和學習算法。

1.1 多標記問題定義

多標記的集合空間如果太大則會造成學習困難，因此需要充分利用標記之間的“相關性”來輔助學習過程的進行?；诳疾鞓擞浿g相關性的不同方式，多標記學習問題求解策略有三類[1,11]。

“一階(first-order)”策略：只考察每一個單個標記，不考慮標記之間的相關性，將多標記學習問題分解為多個獨立的二分類問題。該策略實現(xiàn)簡單，效率較高，但學習的泛化性能不高[11]。

“二階(second-order)”策略：考察兩兩標記之間的相關性和交互關系，該類方法的泛化性能較好，但不能很好處理多標記間的二階以上相關性[11]。

“高階(high-order)”策略：考察任一標記對其它所有標記的影響以及一組隨機標記集合的相關性等。該類策略較好地反映了真實世界的標記相關性，但復雜度一般過高，難以處理大規(guī)模學習問題[11]。

1.2 多標記學習算法

目前已經涌現(xiàn)出了大量的多標記學習算法，可以分為問題轉換和算法適應兩類方法[1]。

問題轉換方法的基本思想是將多標記學習問題轉換為其他已知的學習問題進行求解，代表性學習算法有Binary Relevance、Calibrated Label Ranking和Random k-labelsets。算法適應方法的基本思想是通過對常用監(jiān)督學習算法進行改進，將其直接用于多標記學習，代表性學習算法有ML-kNN, Rank-SVM和LEAD[1]。

ML-kNN算法[12]是對k近鄰(k-nearest neighbors，kNN)算法進行改造以適應多標記數(shù)據分類，算法的基本思想是采用kNN分類準則，統(tǒng)計近鄰樣本的類別標記信息，通過最大化后驗概率的方式推理未知示例的標記集合。

2 自編碼網絡

自編碼網絡包含數(shù)據輸入層、隱藏層、輸出重構層。如圖1所示，自編碼器由編碼器(encoder)和解碼器(decoder)兩部分構成。其作用是將輸入樣本壓縮到隱藏層，然后解壓，在輸出層重建樣本[13-15]。

圖1 自編碼網絡模型Fig. 1 Model of autoencoder networks

自編碼網絡是一種不需要標記的無監(jiān)督學習模型，它試圖學習一個函數(shù),訓練網絡使得輸出逼近輸入，也就是每個樣本的學習目標也是，這樣自編碼器自己生成標簽，而且標簽就是樣本數(shù)據本身，所以也稱為自監(jiān)督學習或自學習。如圖1所示，從輸入通過編碼器到，然后經解碼器到，自編碼器的目的是，讓輸出盡可能復現(xiàn)輸入。系統(tǒng)的輸出能夠復原原始數(shù)據，說明的維度雖然與的維度不同，但承載了原始數(shù)據的所有信息，只是形式不同，是已經變換特征的某種形式。如果對隱含層進行約束使得的維度小于的維度，就可以實現(xiàn)無監(jiān)督數(shù)據降維[16]。

重建誤差可以用許多方法測量，可根據給定輸入的分布假設而制定。一般可以采用樣本的代價函數(shù)，單個樣本的代價函數(shù)為

如果輸入是完全隨機的，每個輸入數(shù)據都獨立于其他特征的高斯分布，則編碼器的壓縮任務將非常困難。但是，如果數(shù)據中存在結構，有些輸入要素是相關或有冗余，則該算法將能夠發(fā)現(xiàn)一些相關性。自動編碼器通常最終會學習與PCA非常相似的低維表示。事實上，如果每兩層之間的變換均為線性且訓練誤差是二次型誤差時，該網絡等價于PCA。而自編碼網絡使用非線降維，更符合數(shù)據的實際情況，這種機制使得其效果比PCA更優(yōu)。

自編碼網絡可以實現(xiàn)無監(jiān)督的自我學習，把這種自我學習擴展到深度學習網絡，即擁有多個隱藏層的神經網絡，以提取多標記的數(shù)據特征，實現(xiàn)多標記學習的無監(jiān)督維數(shù)約簡。

3 多標記維數(shù)約簡的自編碼網絡方法

3.1 多標記維數(shù)約簡

多標記學習與單標記學習一樣面臨“維度災難”的挑戰(zhàn)，所以維數(shù)約簡結果的好壞直接影響著分類器的精度和泛化性能，特別是對于基因序列、圖像處理等高維數(shù)據，影響更加顯著。數(shù)據維度過大，不僅會增加計算時間和空間的復雜度，還會降低多標記學習性能。如果在多標記學習訓練之前，通過一定的特征選擇或提取方法，去掉不相關或冗余屬性，反而可以獲得更令人滿意的知識學習模型[17-18]。降低高維數(shù)據的維度是多標記學習中一個重要的研究課題，很多學者研究多標記數(shù)據的降維方法以提高多標記學習算法的效果[19]。

已有的多標記數(shù)據維數(shù)約簡方法可以分為兩大類：特征選擇(feature selection)和特征提取(feature extraction)。特征選擇是給定一個多標記分類算法和訓練集，通過優(yōu)化某個多標記損失函數(shù)對屬性子集進行評價，選擇使損失達到最小的屬性子集作為最終結果[20]。而特征提取是通過空間變換，將某些原始特征映射到其他低維空間，生成一些新的特性[3，5]，特征提取后的新特征是原來特征的一個變換映射，不是原特征一個子集。

3.2 多標記學習維數(shù)約簡的自編碼網絡方法

基本自編碼網絡可以解決數(shù)量很小的隱藏單元問題，而高維數(shù)據的隱藏單元數(shù)量很大，為此，對隱藏單元進行稀疏約束，使得自編碼器可以從大量的隱藏單元中發(fā)現(xiàn)高維數(shù)據中的相關結構，提取關鍵特征，實現(xiàn)維數(shù)約簡。自編碼網絡，由輸入層、隱含層和輸出層組成，如圖2所示。

圖2 自編碼網絡Fig. 2 Autoencoder network

如果激活函數(shù)采用sigmoid函數(shù)，當神經元的輸出值接近于1，則神經元是“活動的”，如果它的輸出值接近于0，則神經元是“無效的”。

隱藏層中所有神經元的KL散度之和作為優(yōu)化目標的處罰項，以懲罰顯著偏離，即

稀疏約束后，樣本的總體成本為

稀疏約束后訓練目標也是總體成本誤差最小，即

為了求解上述總體成本誤差最小問題，采用反向傳播算法計算成本偏導數(shù)，先求出成本函數(shù)Csparse（W，b）對的偏導數(shù)，得到

采用梯度下降迭代法，按公式(13)、(14)進行迭代：

綜合上述推導過程和結果，設計多標記學習的自編碼網絡無監(jiān)督降維算法MUAE如下。

算法 MUAE

輸出多標記學習分類結果。

2) for epoch =1:k；

5) end for

4 實驗結果與分析

4.1 實驗數(shù)據與對比算法

多標記學習數(shù)據降維實驗采用公開數(shù)據集[21]，各數(shù)據集的訓練和測試樣本數(shù)、標記數(shù)量與數(shù)據特征數(shù)量等基本情況如表1所示，表中6個數(shù)據集 Arts、Business、Computers、Health、Recreation、Reference的名稱前面分別用A、B、C、D、E、F對應標注，以方便后續(xù)表格使用。

表1 數(shù)據集基本描述Table 1 Data description

實驗過程中，將MUAE算法與4種算法進行對比，對比算法分別是線性維數(shù)約簡主成分分析PCA算法[22]、非線性維數(shù)約簡局部保留投影LPP[23]算法和拉普拉斯特征映射LE算法[24]，以及多標記依賴最大化MDDM算法[5]。

在維數(shù)約簡后統(tǒng)一使用ML-kNN算法[12]進行多標記分類，其中，并以ML-kNN算法在原始特征空間的評價性能作為參照基線，記為Baseline。MDDM算法的，LLP算法分類時構造鄰接圖的最近鄰個數(shù)與ML-KNN算法一樣設置。所有維數(shù)約簡方法降維到相同的維度進行對比，所有算法在6個數(shù)據集上的特征降維百分比為10%、20%、30%、40%、50%、60%、70%、80%、90%、100%，共10個百分比的實驗對比。

4.2 多標記學習評價指標

在多標記學習問題中，由于每個對象可能同時具有多個類別標記，因此傳統(tǒng)監(jiān)督學習中常用的單標記評價指標無法直接用于多標記學習系統(tǒng)的性能評價。因此，研究者們相繼提出了一系列多標記評價指標，一般可分為兩種類型，即基于樣本的評價指標(example-based metrics)[25]以及基于類別的評價指標(label-based metrics)[26]。本文主要采用5種指標，即平均精度(average precision)、漢明損失(Hamming loss)、排名損失(ranking loss)、一錯誤(oneerror)和覆蓋(coverage)，具體的計算公式如下。

1) 平均精度

平均精度，是一種最直觀的評價方式，評價樣本的類別標記排序序列中，排在相關標記之前的標記占標記集合的平均比例，這個指標是相關標記預測的概率平均。

2) 漢明損失

漢明損失，是通過計算多標記分類器預測的標記結果與實際的標記差距來度量多標記分類器的性能。

3) 排名損失

排名損失，評價所有樣本的預測標記排名中，不相關標記在相關標記前面的概率平均。

4) 一錯誤

一錯誤，該指標評價每個樣本的預測標記排名中，排在第一位的標記不在該樣本的相關標記集中的概率評價。

5) 覆蓋

覆蓋，該指標評價每個樣本的預測標記排名中需要在標記序列表中最少查找到第幾位才可以找出所有與該樣本相關的標記。

4.3 實驗結果

5種算法和基準算法共6個算法，在6個多標記數(shù)據集上用5個評價指標進行對比實驗，實驗的結果展示在表2～6。

表2 不同降維方法的平均精度Table 2 Average precision of different algorithms

表2是評價平均精度指標的實驗結果，其數(shù)值是越高越好，最好的結果用黑體表示。實驗結果顯示，MUAE 方法在 Business、Computers、Recreation三個數(shù)據集上都取得最好結果，PCA在Health和Reference數(shù)據集上取得最好結果，MDDM方法在Arts數(shù)據集上取得最好結果。能夠在平均精度取得好的實驗結果，這是由于自編碼深度網絡能夠通過自學習有效提取數(shù)據特征，在有監(jiān)督的多標記數(shù)據集上能夠通過無監(jiān)督方法取得好的降維效果。

另外，4個評價指標分別是漢明損失、排名損失、一錯誤和覆蓋，指標數(shù)值越小越好，表3～6分別是這4種評價指標的各算法的實驗結果，最好的結果用黑體表示。MUAE算法取得最好數(shù)據集個數(shù)分別為3、3、2、2，4個表中的實驗結果顯示出MUAE方法總體上比其他4種算法和基準算法好。

表3 不同降維方法的漢明損失Table 3 Hamming loss of different algorithms

表4 不同降維方法的排名損失Table 4 Ranking loss of different algorithms

綜合數(shù)據降維的各方法表現(xiàn)，利用自編碼進行無監(jiān)督特征提取，比無監(jiān)督算法能夠取得更好的效果，這應該得益于自編碼的思想和設計結構，其能更好地表示輸入數(shù)據的特征，所以取得好的實驗結果。

為了進一步分析自編碼在不同降維百分比的性能，以維度數(shù)量的10%開始，步長以10%遞增至100%，共10組，結果以圖的形式展示。圖3是平均精度隨特征降維百分比變化關系，MUAE在6個數(shù)據集上比其他算法能取得更高的精度。圖3還顯示出平均精度在各個百分比的情況下，MUAE算法精度高且很平穩(wěn)，沒有大幅度變化，而LPP和LE這兩個算法隨著降維百分比的增加精度反而逐步下降。

表5 不同降維方法的一錯誤Table 5 One-error of different algorithms

表6 不同降維方法的覆蓋Table 6 Coverage of different algorithms

另外，除數(shù)據集Business外的其他5個數(shù)據集，所有算法在特征降維百分比較小的情況下，平均精度的實驗結果都比Baseline的結果好，這表明大部分數(shù)據集確實存在冗余的特征，各算法提取關鍵特征而去除了冗余特征，因此，多標記數(shù)據降維后，學習精度反而得到不同程序的提高。

其余4個指標，即漢明損失、排名損失、一錯誤和覆蓋，隨特征降維百分比變化關系展示在圖4～7中，這4種指標越小越好。從圖4～7顯示的指標性能，總體上MUAE方法比其他4種方法好，曲線平穩(wěn)，起伏變化較小，顯示出MUAE方法穩(wěn)定性好。

綜合多標記評價5個指標，MUAE方法的結果比其他4種方法和基準算法好，而且在各組提取特征百分比情況下顯示出好的穩(wěn)定性。實驗結果進一步證明，自編碼網絡訓練目標在各降維百分比情況下，能保持甚至提取好的數(shù)據特征。

圖3 平均精度隨特征降維百分比變化關系Fig. 3 Relationship between average precision and percentage of features

圖4 漢明損失隨特征降維百分比變化關系Fig. 4 Relationship between Hamming loss and percentage of features

圖5 排名損失隨特征降維百分比變化關系Fig. 5 Relationship between ranking loss and percentage of features

圖6 一錯誤隨特征降維百分比變化關系Fig. 6 Relationship between one-error and percentage of features

圖7 覆蓋隨特征降維百分比變化關系Fig. 7 Relationship between voverage and percentage of features

5 結束語

針對多標記學習的數(shù)據降維問題提出自編碼網絡維數(shù)約簡方法，用無監(jiān)督方法處理有監(jiān)督的多標記學習降維問題。通過實驗驗證了所構建自編碼深度學習網絡能自學習地提取多標記數(shù)據特征，降低數(shù)據維度，與其他無監(jiān)督特征降維和多標記有監(jiān)督降維方法相比，取得了較好的效果，在各百比降維的情況下，降維性能平穩(wěn)性好。下一步工作，將使用變分自編碼和降噪自編碼網絡對多標記和圖像等數(shù)據進行無監(jiān)督降維進行研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡