基于半監(jiān)督的SVM多標簽圖數(shù)據(jù)分類算法研究

2019-07-08 03:32宋文廣李程文譚建平

無線互聯(lián)科技 2019年8期

宋文廣李程文譚建平

摘 ? 要：傳統(tǒng)的圖數(shù)據(jù)分類研究主要集中在單標簽集，然而在很多應用中，每個圖數(shù)據(jù)都會同時具有多個標簽集。文章研究關于多標簽圖數(shù)據(jù)分類問題，并提出基于半監(jiān)督的SVM多標簽圖數(shù)據(jù)分類算法。算法首先通過一對多二元分解將多標簽圖數(shù)據(jù)分解成多個單標簽圖數(shù)據(jù)。然后對分解后的圖數(shù)據(jù)，運用半監(jiān)督SVM進行分類。通過實驗證明，該方法在已標注圖數(shù)據(jù)較少情況下具有較高的分類精度。

關鍵詞：圖數(shù)據(jù);多標簽;半監(jiān)督;自訓練

單標簽分類（二分類）是傳統(tǒng)分類方法的主要研究方向，它是基于一幅圖只有一個標簽的假設上。在現(xiàn)實場景中，所用到的圖數(shù)據(jù)一般都具有多個標簽集[1-2]。

半監(jiān)督學習即利用大量無標簽數(shù)據(jù)和少量有標簽數(shù)據(jù)共同訓練模型。但半監(jiān)督學習很難與監(jiān)督學習分類性能相比，但從目前算法優(yōu)化發(fā)展來看，半監(jiān)督學習很有可能達到傳統(tǒng)分類方法的性能。

1 ? ?基于半監(jiān)督的SVM分類算法

2 ? ?實驗

2.1 ?數(shù)據(jù)集

用一組化合物抗癌活性性能數(shù)據(jù)集作為實驗用多標簽數(shù)據(jù)集。該組數(shù)據(jù)包含了化合物對于10種癌癥的抗癌活性性能的記錄，將10種癌癥中記錄不完全的數(shù)據(jù)移除，得到812個被分配了10個標簽的圖。

2.2 ?評估方法

多標簽分類比傳統(tǒng)單標簽分類問題需要不同的實驗結果評估標準。在這里采用Ranking Loss和Average Precision評估多標簽[3-4]分類性能。實驗結果評估標準如下：

（1）Ranking Loss：評估分類實際輸出值的性能，它的值由錯誤預測的標簽對的平均值計算得到的。

（2）平均準確率：評估排列順序在特殊標簽y之上的標簽的平均值，把y設置為真實標簽集。

2.3 ?實驗設置

為了體現(xiàn)本文算法的有效性與實用性，采用以下對比方法進行實驗。

（1）單標簽+SVM：這個方法采用單標簽圖數(shù)據(jù)訓練普通的SVM模型。

（2）多標簽+SVM：這個方法采用多標簽圖數(shù)據(jù)訓練自適應SVM模型。

2.4 ?實驗結果

實驗中，將每一個圖數(shù)據(jù)集平均分割成10個小數(shù)據(jù)集。在這些數(shù)據(jù)集中只采用其中的一個作為測試集，其他的9個作為訓練集，每一組實驗重復進行10次。實驗結果如圖1—2所示。圖1表示1-AvgPrec的實驗結果，圖2表示Ranking Loss的實驗結果。

如圖1—2所示，縱坐標則分別表示1-AvgPrec值和Ranking Loss值，橫坐標表示實驗次數(shù)。由圖1—2可知，無論是Ranking Loss還是1-AvgPrec，文章提出的方法（MG+STSVM）輸出效果比（G+SVM）的輸出效果略好。

3 ? ?結語

本文采用半監(jiān)督SVM方法可以利用大量未標注數(shù)據(jù)來幫助分類模型的訓練，從而挖掘出未標注數(shù)據(jù)中可能含有的對分類起重要作用的信息。進而，在已標注多標簽圖數(shù)據(jù)比較少的情況下，得到不錯的分類器。在以后的研究工作中，將會繼續(xù)完善研究方法，并尋找提高目標域子圖數(shù)量的算法。

[參考文獻]

[1]BRAVO MARQUEZ F，F(xiàn)RANK E，MOHAMMAD S M，et al.Determining word-emotion associations from tweets by multi-label classification[C].Nebraska：IEEE/WIC/ACM International Conference on Web Intelligence，2017.

[2]AGGARWAL C C，ZHAI C X.A survey of text classification algorithms[J].Springer US，2012（3）：163-222.

[3]SEBASTINAI F.Machine learning in automated text categorization[J].ACM Computing Surveys，2002（1）：1-47.

[4]YEH C K，WU W C，KO W J，et al.Learning deep latent spaces for multi-label classification[J]. 2017（7）：12-15.

無線互聯(lián)科技2019年8期

無線互聯(lián)科技的其它文章: 嵌入式系統(tǒng)中MODBUS通信的教學研究與實踐; 網絡安全協(xié)議在計算機通信技術中的運用; 計算機通信網絡安全及防護分析; 基于通信網絡的運行管理與維護策略研究; 部隊通信設備及通信系統(tǒng)的維護保養(yǎng); 基于物聯(lián)網的P2P通信技術研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于半監(jiān)督的SVM多標簽圖數(shù)據(jù)分類算法研究