国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無(wú)監(jiān)督表征學(xué)習(xí)的深度聚類研究進(jìn)展

2023-01-30 01:11:32侯海薇丁世飛
模式識(shí)別與人工智能 2022年11期
關(guān)鍵詞:編碼器標(biāo)簽聚類

侯海薇 丁世飛,2 徐 曉,2

一般而言,聚類是指將沒有標(biāo)簽的數(shù)據(jù)集,通過某種相似性度量方法分為若干個(gè)簇的過程,這是一種典型的無(wú)監(jiān)督學(xué)習(xí)方法[1].聚類在機(jī)器學(xué)習(xí)[2]、圖像識(shí)別[3]、計(jì)算機(jī)視覺[4]等領(lǐng)域都具有廣泛應(yīng)用.隨著互聯(lián)網(wǎng)和移動(dòng)設(shè)備的發(fā)展,數(shù)據(jù)維度越來(lái)越高,規(guī)模越來(lái)越大,所以學(xué)者們廣泛開展數(shù)據(jù)降維和特征提取方法的研究[5].目前存在的數(shù)據(jù)降維方法包括主成分分析的線性方法[6]和基于核函數(shù)的非線性方法[7]等.

傳統(tǒng)聚類算法聚焦于給定數(shù)據(jù)表征并在表征空間進(jìn)行聚類,而真實(shí)場(chǎng)景中很多數(shù)據(jù)難以使用簡(jiǎn)單的表征進(jìn)行描述.深度聚類結(jié)合深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì),可有效提取復(fù)雜類型數(shù)據(jù)的非線性表征,并應(yīng)用于較大規(guī)模數(shù)據(jù)集上.深度學(xué)習(xí)[8]概念來(lái)源于人工神經(jīng)網(wǎng)絡(luò)的研究,結(jié)合底層特征,形成更抽象、更高層次的屬性表征,深層次地發(fā)現(xiàn)數(shù)據(jù)的分布特征表示[9].

隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展[10],深度學(xué)習(xí)廣泛應(yīng)用于各領(lǐng)域,如自然語(yǔ)言處理[11]、語(yǔ)音識(shí)別[12]、目標(biāo)檢測(cè)[13]等.由于深度學(xué)習(xí)在特征降維與表征學(xué)習(xí)方面的優(yōu)異表現(xiàn),越來(lái)越多的研究者將重點(diǎn)轉(zhuǎn)移到如何獲取數(shù)據(jù)的有效表征以提高聚類性能,因此將基于深度學(xué)習(xí)的聚類稱為深度聚類[14].在深度聚類中,整個(gè)模型可分為表征學(xué)習(xí)模塊和聚類模塊,表征學(xué)習(xí)模塊將復(fù)雜的數(shù)據(jù)類型轉(zhuǎn)化為傳統(tǒng)聚類容易處理的特征向量形式.

神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性特征提取能力,使深度聚類在大規(guī)模高維數(shù)據(jù)集上具有較好的聚類效果.深度聚類不僅能發(fā)揮原有聚類算法的作用,而且能更好地適應(yīng)當(dāng)今大數(shù)據(jù)時(shí)代的需求,更有效地處理大規(guī)模高維數(shù)據(jù)[15].神經(jīng)網(wǎng)絡(luò)需要進(jìn)行監(jiān)督訓(xùn)練才能服務(wù)具體的任務(wù).某些特定任務(wù)無(wú)法獲得足夠的標(biāo)簽,如罕有疾病圖像數(shù)據(jù)的研究、軍事信息等機(jī)密數(shù)據(jù)的分析等,而深度聚類可為這些任務(wù)提供輔助作用,分配標(biāo)簽,為網(wǎng)絡(luò)訓(xùn)練提供監(jiān)督信號(hào).

由于深度聚類應(yīng)用的廣泛性,近些年吸引大量學(xué)者對(duì)其探索,涌現(xiàn)很多深度聚類算法,卻缺少深度聚類的綜述對(duì)其總結(jié)分析,無(wú)法為初步研究者提供理論基礎(chǔ),也不能為學(xué)者們提供新的思路.

本文是對(duì)深度聚類的系統(tǒng)闡述和總結(jié).首先,總結(jié)深度聚類算法中常用的傳統(tǒng)聚類算法并歸納總結(jié)其優(yōu)缺點(diǎn).再基于深度聚類中表征學(xué)習(xí)方法的不同,對(duì)算法進(jìn)行綜述,包括基于生成式模型的深度聚類、基于判別式模型的深度聚類.然后,通過實(shí)驗(yàn)對(duì)比分析各類算法,總結(jié)算法特點(diǎn).最后,總結(jié)深度聚類的常用損失函數(shù)和評(píng)估標(biāo)準(zhǔn),討論深度聚類的應(yīng)用場(chǎng)景.

1 傳統(tǒng)聚類算法

傳統(tǒng)聚類算法主要包含如下5類:基于劃分的聚類算法、基于層次的聚類算法、基于密度的聚類算法、基于圖的聚類算法、基于模型的聚類算法.各類算法的優(yōu)缺點(diǎn)總結(jié)如表1所示.

表1 傳統(tǒng)聚類算法優(yōu)缺點(diǎn)總結(jié)Table 1 Summary of advantages and disadvantages of traditional clustering algorithms

基于劃分的聚類算法主要思想是預(yù)先指定聚類中心,通過迭代運(yùn)算不斷降低與目標(biāo)函數(shù)的誤差值,當(dāng)目標(biāo)函數(shù)收斂時(shí),獲得最終的聚類結(jié)果.K-means是基于劃分的聚類算法的經(jīng)典算法,也是在深度聚類算法中常用的方法之一.該算法需要事先指定簇的個(gè)數(shù)K,然后隨機(jī)選取數(shù)據(jù)中的K個(gè)點(diǎn)作為聚類中心,在每次迭代中,每個(gè)樣本被分配到距離最近的聚類中心,更新簇,使每個(gè)樣本與其聚類中心的平方距離和最小.

基于層次的聚類算法的主要思想是通過構(gòu)造數(shù)據(jù)之間的樹狀型層次關(guān)系實(shí)現(xiàn)聚類.根據(jù)構(gòu)建層次關(guān)系的方式不同,可將層次聚類分為自底向上的凝聚聚類(Agglomerative Clustering, AC)[16]和自頂向下的分裂聚類[17].用于深度聚類的一般是凝聚聚類.凝聚聚類的特點(diǎn)是剛開始將每個(gè)點(diǎn)作為一個(gè)簇,在每次迭代中,合并原始特征域中最接近的兩個(gè)點(diǎn),并依此更新聚類中心,直至達(dá)到結(jié)束條件.

基于密度的聚類算法的主要思想是根據(jù)數(shù)據(jù)的密度發(fā)現(xiàn)任意形狀的簇,將簇看作是數(shù)據(jù)空間中相對(duì)于其它部分密度更大的區(qū)域.密度峰值聚類算法(Density Peaks Clustering, DPC)[18]是近年來(lái)的通用算法.DPC的聚類過程基于兩個(gè)假設(shè):簇中心為密度峰值;非中心點(diǎn)與其最近的高密度點(diǎn)的簇相同.

基于圖的聚類算法利用圖劃分理論,首先將數(shù)據(jù)表示為圖數(shù)據(jù),再將聚類問題轉(zhuǎn)化為圖劃分問題[19].隨著互聯(lián)網(wǎng)的發(fā)展及人們?nèi)找嬖鲩L(zhǎng)的需求,圖數(shù)據(jù)大量涌現(xiàn),圖聚類可充分利用圖數(shù)據(jù)中的屬性和結(jié)構(gòu)信息,對(duì)圖數(shù)據(jù)進(jìn)行分析及理解,成為近年來(lái)的研究熱點(diǎn).譜聚類(Spectral Clustering, SC)[20]是圖聚類的典型代表,也與深度聚類聯(lián)系緊密.譜聚類是將給定數(shù)據(jù)集的樣本看作空間中的點(diǎn),計(jì)算樣本的相似度矩陣、度矩陣及拉普拉斯矩陣,再進(jìn)行特征分解,得到特征向量,進(jìn)而聚類特征向量,得到最終劃分.

基于模型的聚類算法主要思想是假設(shè)每個(gè)簇是一個(gè)模型,然后尋找與該模型擬合的最好數(shù)據(jù)[21].高斯混合模型(Gaussian Mixture Models, GMM)是經(jīng)典的基于概率生成模型的聚類算法,是多個(gè)高斯分布函數(shù)的線性組合.GMM假設(shè)所有樣本數(shù)據(jù)均服從混合高斯分布,并對(duì)其概率密度函數(shù)進(jìn)行估計(jì),采用期望最大算法(Expectation Maximization, EM)進(jìn)行求解,得到的模型就是高斯模型的線性組合,其中每個(gè)高斯分布表示一個(gè)簇.

2 深度聚類算法

為了解決大規(guī)模、高維數(shù)據(jù)的降維和特征表示問題,在聚類任務(wù)中引入深度學(xué)習(xí),以無(wú)監(jiān)督表征學(xué)習(xí)為研究中心,提高聚類性能.所以本文基于無(wú)監(jiān)督表征學(xué)習(xí)分類深度聚類算法,歸納典型的相關(guān)算法,并簡(jiǎn)要介紹各類算法的優(yōu)缺點(diǎn).

2.1 基于生成模型的深度聚類

基于生成模型的深度聚類通過盡可能生成與輸入相同的樣本或相同的分布以確保獲得有效的表征,再推斷聚類分配.因此往往需在中間層加入聚類層聯(lián)合表征學(xué)習(xí)與聚類或在表征學(xué)習(xí)完成之后進(jìn)行聚類.在深度聚類中,常用的是基于自動(dòng)編碼器的表征學(xué)習(xí)方法和基于生成對(duì)抗網(wǎng)絡(luò)的表征學(xué)習(xí)方法.而自動(dòng)編碼器(Autoencoder, AE)又包含堆疊自動(dòng)編碼器、卷積自動(dòng)編碼器和變分自動(dòng)編碼器.本節(jié)將以上述表征學(xué)習(xí)方式為分類依據(jù),對(duì)經(jīng)典深度聚類算法進(jìn)行總結(jié)分析.

2.1.1 基于自動(dòng)編碼器的深度聚類

自動(dòng)編碼器是一種應(yīng)用于無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),由編碼器和解碼器兩部分組成.輸入數(shù)據(jù)通過編碼器得到潛在空間,解碼器重構(gòu)潛在空間特征向量,得到輸出.自動(dòng)編碼器最小化原始輸入數(shù)據(jù)與重構(gòu)數(shù)據(jù)的誤差,盡可能地保留數(shù)據(jù)有效的表征信息,不需要額外的標(biāo)簽信息進(jìn)行監(jiān)督學(xué)習(xí),這一屬性使其廣泛應(yīng)用于無(wú)監(jiān)督的聚類任務(wù)中.深層次的網(wǎng)絡(luò)結(jié)構(gòu)能提取抽象的數(shù)據(jù)特征,所以深度聚類多采用堆疊自動(dòng)編碼器(Stacked AE, SAE)[22]對(duì)數(shù)據(jù)進(jìn)行降維和特征提取.基于AE的深度聚類結(jié)構(gòu)如圖1所示.

圖1 基于AE的深度聚類結(jié)構(gòu)圖Fig.1 Structure of autoencoder for deep clustering

基于AE,Xie等[23]提出DEC(Deep Embedded Clustering).DEC是具有代表性的深度聚類算法之一,核心思想是輔助目標(biāo)分布P的構(gòu)造,實(shí)現(xiàn)無(wú)監(jiān)督表征學(xué)習(xí)和聚類任務(wù)的同時(shí)進(jìn)行.目標(biāo)分布P的定義遵循如下原則:1)增強(qiáng)預(yù)測(cè);2)更重視分配的高置信度數(shù)據(jù)點(diǎn);3)歸一化每個(gè)聚類中心的損失貢獻(xiàn).DEC首先利用重構(gòu)損失函數(shù)對(duì)堆疊自動(dòng)編碼器進(jìn)行預(yù)訓(xùn)練,初始化網(wǎng)絡(luò)參數(shù),使?jié)撛诳臻g變?yōu)檩斎氲挠行П硎?然后丟棄解碼器部分,加入聚類層,將編碼器編碼后的表征作為聚類輸入,使用K-means初始化聚類中心,采用學(xué)生t分布(Student′st-distribu-tion)作為內(nèi)核,衡量聚類中心和嵌入點(diǎn)的相似度,得到軟標(biāo)簽分布Q,隨后利用KL散度對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào),即最小化目標(biāo)輔助函數(shù)P和軟標(biāo)簽分布Q的KL散度.

DEC突出的貢獻(xiàn)是對(duì)輔助目標(biāo)分布P的定義與引入,使無(wú)監(jiān)督的聚類任務(wù)能在有監(jiān)督的深度學(xué)習(xí)中得到發(fā)展,通過神經(jīng)網(wǎng)絡(luò)獲得數(shù)據(jù)的非線性表征并降維,大幅提高聚類在大規(guī)模高維數(shù)據(jù)上的準(zhǔn)確度.后續(xù)的很多深度聚類算法都是以此為基礎(chǔ)進(jìn)行改進(jìn)或疊加其它思想.Guo等[24]提出IDEC(Impro-ved DEC),在DEC的基礎(chǔ)上,在微調(diào)階段保留解碼器,加入重構(gòu)損失,保護(hù)數(shù)據(jù)的局部結(jié)構(gòu).為了更好地利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)圖像進(jìn)行特征提取,Guo等[25]又提出DCEC(Deep Convolutional Embedded Clustering),利用卷積自動(dòng)編碼器對(duì)圖像數(shù)據(jù)集進(jìn)行特征提取,提高自動(dòng)編碼器對(duì)圖像數(shù)據(jù)的聚類結(jié)果.

K-means常應(yīng)用在嵌入空間,得到相應(yīng)的聚類中心,而這類方法容易形成數(shù)據(jù)崩塌,Opochinsky等[26]提出K-DAE(K-Deep-Autoencoder),每個(gè)簇由每個(gè)自動(dòng)編碼器表示,將數(shù)據(jù)點(diǎn)分配給重構(gòu)誤差最小的編碼器,全局重構(gòu)損失最小的一組即為最優(yōu)聚類.通過此方法,可使每個(gè)簇獲得更豐富的表示,避免造成數(shù)據(jù)崩塌,并且無(wú)需加入正則化,網(wǎng)絡(luò)訓(xùn)練相對(duì)簡(jiǎn)單.

雖然重構(gòu)損失實(shí)現(xiàn)無(wú)監(jiān)督的表征學(xué)習(xí),但是很難學(xué)習(xí)到具有判別性的表征,因此一些樣本在聚類層一直被錯(cuò)誤分類.為了增強(qiáng)表征的判別性,Cai等[27]提出DCCF(Deep Clustering with Contractive Representation Learning and Focal Loss),在嵌入層中加入雅克比矩陣F-范數(shù)約束項(xiàng),增強(qiáng)表征的收縮性,在損失函數(shù)中加入焦點(diǎn)損失,增強(qiáng)表征的判別性,提高聚類分配準(zhǔn)確度.

為了滿足更多的要求及提高聚類性能,研究者們?cè)趯W(xué)習(xí)表征的過程中加入交替更新優(yōu)化的思想.Dijazi等[28]提出DEPICT(Deep Embedded Regula-rized Clustering),作為一個(gè)端到端的聯(lián)合學(xué)習(xí)框架,避免堆疊自動(dòng)編碼器的逐層預(yù)訓(xùn)練.首先使用深度卷積自動(dòng)編碼器將數(shù)據(jù)映射到一個(gè)可判別的子空間.再在KL散度的基礎(chǔ)上加入正則化項(xiàng),平衡樣本分配,避免出現(xiàn)平凡解.最后采用交替學(xué)習(xí)步驟優(yōu)化目標(biāo)函數(shù).在期望步驟中,固定參數(shù),估計(jì)目標(biāo)函數(shù)Q.在最大化步驟中,假設(shè)目標(biāo)函數(shù)Q已知,更新參數(shù).交替更新目標(biāo)函數(shù)的思想同樣用在Yang等[29]提出的DCN(Deep Clustering Network)中.

上述算法利用KL散度聚類損失函數(shù),結(jié)合聚類與神經(jīng)網(wǎng)絡(luò),發(fā)掘神經(jīng)網(wǎng)絡(luò)在聚類任務(wù)的應(yīng)用前景,所以學(xué)者們開始探索如何使神經(jīng)網(wǎng)絡(luò)提取的表征更適合于某個(gè)具體的聚類算法,更好地按需應(yīng)用.DCN以K-means為例,探索如何使表征更有利于K-means,即將樣本均勻分布在聚類中心,采用重構(gòu)損失函數(shù)進(jìn)行約束,增加K-means損失函數(shù),獲得聚類“友好”空間.DCN使用隨機(jī)梯度下降的方法交替更新神經(jīng)網(wǎng)絡(luò)參數(shù)、分配函數(shù)及聚類中心,固定聚類中心和分配函數(shù),更新神經(jīng)網(wǎng)絡(luò)參數(shù).然后固定神經(jīng)網(wǎng)絡(luò)參數(shù),更新聚類中心和分配函數(shù).DCN為聚類和神經(jīng)網(wǎng)絡(luò)結(jié)合時(shí)設(shè)計(jì)優(yōu)化規(guī)則提供了方向.

上述深度聚類算法均采用K-means初始化聚類中心,但存在如下局限:1)在現(xiàn)實(shí)條件下,時(shí)常難以預(yù)知聚類數(shù)目;2)基于劃分的K-means不能發(fā)現(xiàn)球形簇,在不平衡數(shù)據(jù)上性能較差;3)K-means具有隨機(jī)性,會(huì)造成聚類結(jié)果不穩(wěn)定.因此Yang等[30]提出Deep Spectral Clustering Using Dual Autoencoder Net-work,利用雙自編碼器獲得魯棒性特征,即在獲得的表征中加入噪聲后再進(jìn)行重構(gòu),加入互信息獲得更具判別性表征,即最大化輸入與表征分布的互信息,最后同時(shí)進(jìn)行譜聚類與表征學(xué)習(xí).Ren等[31]提出DDC(Two-Stage Deep Density-Based Image Cluste-ring),不同于聯(lián)合進(jìn)行的聚類與表征學(xué)習(xí),DDC采用二階段方法,分開進(jìn)行表征學(xué)習(xí)與聚類.首先采用卷積自動(dòng)編碼器獲取表征,再采用t-SNE(t-Distribu-ted Stochastic Neighbor Embedding)流形方法獲得二維表征以有利于基于密度的聚類方法,最后設(shè)計(jì)基于密度的聚類算法,獲得最終結(jié)果.McConville等[32]提出N2D,也采用二階段方法,先用自動(dòng)編碼器獲取數(shù)據(jù)表征,再用流形學(xué)習(xí)技術(shù)代替聚類網(wǎng)絡(luò),尋找表征中更適合聚類的流形.然后采用傳統(tǒng)聚類算法,獲得聚類結(jié)果.二階段的方法及流形學(xué)習(xí)技術(shù)再次應(yīng)用于DERC(Deep Embedded Dimensionality Reduction Clustering)[33]中,DERC替換自動(dòng)編碼器為卷積神經(jīng)網(wǎng)絡(luò),采用高斯混合模型進(jìn)行聚類.

為了增強(qiáng)表征的魯棒性,Yang等[34]提出Adver-sarial Learning for Robust Deep Clustering,在表征中加入攪動(dòng)特征作為對(duì)抗樣本,提出對(duì)抗攻擊策略,使攪動(dòng)特征生成的樣本與干凈樣本盡可能一致,進(jìn)而提高表征的魯棒性.

2.1.2 基于變分自動(dòng)編碼器和生成對(duì)抗網(wǎng)絡(luò)的深度聚類

變分自動(dòng)編碼器(Variational AE, VAE)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)都是深度生成學(xué)習(xí)模型[35].VAE最大化數(shù)據(jù)對(duì)數(shù)似然的下界,GAN在生成器和判別器對(duì)抗訓(xùn)練中找到平衡.之所以將二者放在一起,是因?yàn)閂AE和GAN不僅可聯(lián)合表征學(xué)習(xí)和聚類,同時(shí)還能生成樣本數(shù)據(jù).

VAE是自動(dòng)編碼器的變體,使AE的潛在特征服從一個(gè)預(yù)先定義的分布.用于聚類的VAE通常采用高斯混合分布模型作為先驗(yàn),因?yàn)樵撃P洼^利于描述聚類結(jié)構(gòu).判斷數(shù)據(jù)點(diǎn)屬于哪一個(gè)簇等同于判斷數(shù)據(jù)點(diǎn)是由哪類潛在模型產(chǎn)生,所以在最大化證據(jù)下界之后,可通過學(xué)習(xí)到的高斯混合模型得到數(shù)據(jù)點(diǎn)的聚類.

GAN的目標(biāo)是學(xué)習(xí)一個(gè)與數(shù)據(jù)真實(shí)分布相似的生成分布.生成網(wǎng)絡(luò)G從噪聲中產(chǎn)生一個(gè)樣本,判別網(wǎng)絡(luò)D會(huì)判斷樣本數(shù)據(jù)是真實(shí)的還是生成的,若判別器判斷正確,對(duì)判別器進(jìn)行獎(jiǎng)勵(lì),否則對(duì)生成器進(jìn)行懲罰,繼續(xù)進(jìn)行下一個(gè)周期,直到判別器無(wú)法判斷真?zhèn)?GAN的結(jié)構(gòu)如圖2所示.

圖2 GAN結(jié)構(gòu)圖Fig.2 Structure of GAN

基于上述神經(jīng)網(wǎng)絡(luò),Jiang等[36]提出VaDE(Varia-tional Deep Embedding),基于VAE和高斯混合模型,使用混合高斯分布先驗(yàn)代替單個(gè)高斯分布先驗(yàn),更有利于聚類任務(wù).VaDE與其它聚類任務(wù)的根本區(qū)別是能生成指定簇中的樣本.VaDE流程如下:1)初始化參數(shù).通過SAE預(yù)訓(xùn)練,得到初始的潛在向量z.再采用GMM擬合z,初始化高斯分布的均值u、方差σ及GMM中簇的先驗(yàn)概率π.2)編碼.原始數(shù)據(jù)X經(jīng)過映射函數(shù)g得到均值、方差,即后驗(yàn)分布,再在后驗(yàn)分布中采樣得到z.3)解碼.經(jīng)過映射函數(shù)f對(duì)z進(jìn)行解碼,重構(gòu)X.4)利用反向傳播更新參數(shù)u、σ、π.

上述生成過程可將聯(lián)合概率p(x,z,c)表示為

p(x,z,c)=p(x|z)p(z|c)p(c),

其中,c為簇,z為潛在向量,x為真實(shí)數(shù)據(jù).由于VaDE中的推斷是采用變分的方法,所以可采用SGVB(Stochastic Gradient Variational Bayes)估計(jì)器和參數(shù)化技巧優(yōu)化ELBO(Evidence Lower Bound).

Xu等[37]將最大化互信息引入變分自動(dòng)編碼器網(wǎng)絡(luò)模型中,提出DC-VAE(Deep Clustering via V-AE),首先將深度聚類問題在VAE框架中定義為軟聚類分配,然后對(duì)可觀測(cè)數(shù)據(jù)和信息表示實(shí)施互信息最大化,防止進(jìn)行軟聚類分配時(shí)扭曲學(xué)習(xí)到的表征,最后推導(dǎo)新的泛化證據(jù)下界對(duì)象.

GAN通過生成對(duì)抗學(xué)習(xí)思想生成樣本或用于分類,但聚類將樣本劃分成簇,卻缺少標(biāo)簽對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,所以信息理論在基于GAN的聚類任務(wù)中得到廣泛應(yīng)用.互信息I(X;Y)表示在已知Y的情況下可得到多少X的信息.如X與Y無(wú)關(guān),則I(X;Y)=0,取得最小值;如已知Y能確定X,則I(X;Y)取得最大值.Springenberg[38]提出CatGAN(Catego-rical GAN),從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)一個(gè)判別分類器D,可看作是GAN的泛化和正則化信息最大化的擴(kuò)展.CatGAN與GAN的不同之處是:1)GAN中的判別器D的判斷結(jié)果只有兩類,即數(shù)據(jù)是真實(shí)樣本還是來(lái)自于生成器G的樣本,而CatGAN中的判別器D是將輸入劃分成預(yù)先已知的k個(gè)類,從而變?yōu)橐粋€(gè)分類器;2)GAN中的生成器G是生成數(shù)據(jù)集中的樣本,而CatGAN的生成器G是生成屬于k類中的樣本.將分類轉(zhuǎn)化為聚類問題,通常使用距離作為度量原則,而本文采用熵H作為度量,對(duì)確定度進(jìn)行衡量,即CatGAN的判別器D使真實(shí)數(shù)據(jù)不僅有較高的確信度劃分為真實(shí)樣本,而且具有較大的確信度劃分到現(xiàn)有的類別中去,但對(duì)于生成器產(chǎn)生的樣本則不確定劃分到現(xiàn)有的哪個(gè)類別,即不確定度較大.數(shù)學(xué)化表示為,最大化H[p(y|x,D)]和H[p(y|D)],而最小化H[p(y|G(z),D)],其中,y為類別標(biāo)簽,x為真實(shí)樣本,z為隨機(jī)噪聲,G(z)為生成器產(chǎn)生的樣本,E為期望.所以判別器和生成器的目標(biāo)函數(shù)分別為:

同樣將信息理論擴(kuò)展到GAN的還有Chen等[39]提出的InfoGAN(Information Maximizing GAN),在無(wú)監(jiān)督的方式下學(xué)習(xí)數(shù)據(jù)的分解表示(Disentangled Representation),將表征學(xué)習(xí)變得更具體,有利于聚類任務(wù).原來(lái)的GAN是對(duì)一段連續(xù)單一的噪聲z進(jìn)行生成,無(wú)法通過控制z的某些維度以生成特定的語(yǔ)義特征.而InfoGAN是把原始的輸入噪聲分成兩部分:一部分為不可再分解的噪聲z,另一部分叫作潛在編碼c,是由若干個(gè)潛在變量組成,這些變量具有先驗(yàn)概率分布,代表不同維度的特征.例如:MNIST數(shù)據(jù)集的手寫數(shù)字特征可分成多個(gè)維度(數(shù)字粗細(xì),傾斜角度等).所以生成器分布變成G(z,c).為了避免出現(xiàn)平凡解,加入信息論的互信息[40]進(jìn)行約束.隱編碼c輸入生成器,使生成器G產(chǎn)生的數(shù)據(jù)具有可解釋性,所以c和G(z,c)的互信息越大,說明保留的c信息越多,所以InfoGAN的目標(biāo)函數(shù)為:

其中,V(D,G)為標(biāo)準(zhǔn)GAN的目標(biāo)函數(shù),I(c;G(z,c))為信息理論的正則化項(xiàng),λ為超參數(shù).在計(jì)算互信息I(c;G(z,c))的過程中,后驗(yàn)分布P(c|x)不易獲得,所以采用變分推斷的思想,定義輔助分布Q(c|x)逼近P(c|x),所以InfoGAN的目標(biāo)函數(shù)為:

生成模型雖然能估計(jì)聚類的潛在分布及生成數(shù)據(jù),但學(xué)習(xí)到的數(shù)據(jù)表征缺乏判別性,不同簇的分布往往具有重疊性.為了解決該問題,Yang等[41]提出IMDGC(Mutual Information Maximization Deep Gene-rative Clustering),與InfoGAN直接生成數(shù)據(jù)不同的是,IMDGC中生成數(shù)據(jù)的過程具有層次性,即先從潛在編碼中學(xué)習(xí)先驗(yàn),后從先驗(yàn)中生成數(shù)據(jù).這種具有層次性的結(jié)構(gòu)和互信息最大化可通過低密度區(qū)域分離不同簇,提高表征的判別性.

為了解決聚類算法中使用淺層模型無(wú)法獲得數(shù)據(jù)有效的非線性表征及深度模型參數(shù)量過多造成過擬合的問題,Dizaji等[42]提出ClusterGAN,與上述引入互信息進(jìn)行無(wú)監(jiān)督學(xué)習(xí)的方法不同,ClusterGAN包括3部分:生成器、聚類器、判別器.生成器從具有類別信息的變量z中生成樣本x′,聚類器對(duì)真實(shí)樣本x提取表征并生成具有類別信息的變量z′,判別器判斷(z,x)是來(lái)自生成器還是聚類器.通過三者之間的對(duì)抗關(guān)系實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí),為了提高聚類器的泛化能力,增加相對(duì)熵?fù)p失和平衡自步學(xué)習(xí)損失.平衡自步學(xué)習(xí)算法是在訓(xùn)練過程中逐漸降低選擇的樣本難度,同時(shí)逐步增加選擇樣本的數(shù)量.

Larsen等[43]提出VAE-GAN,提高生成樣本的質(zhì)量,卻無(wú)法直接應(yīng)用到聚類.VaDE將聚類應(yīng)用于變分自動(dòng)編碼器.因此Yang等[44]提出WGAN-GP

(Clustering Approach Based on Wasserstein GAN with Gradient Penalty),結(jié)合VAE-GAN與VaDE的優(yōu)勢(shì).采用具有梯度懲罰的Wasserstein GAN與具有高斯混合模型的VAE,兩個(gè)模型的結(jié)合提高模型訓(xùn)練的穩(wěn)定性及聚類結(jié)果.具體來(lái)說,Wasserstein GAN的引入緩解GAN訓(xùn)練不穩(wěn)定的問題,GAN通過VaDE中的高斯混合模型先驗(yàn)生成潛在表征,后續(xù)為了增加模型對(duì)離群值的魯棒性,將高斯混合模型替換為SMM(Student′st-mixture Model).

2.2 基于判別模型的深度聚類

判別式模型直接學(xué)習(xí)到具有判別性的表征用于聚類,模型輸出對(duì)聚類結(jié)果的預(yù)測(cè),其中常用的就是卷積神經(jīng)網(wǎng)絡(luò)(CNN)[45].CNN往往與其它網(wǎng)絡(luò)結(jié)合,或特定于某個(gè)聚類算法進(jìn)行設(shè)計(jì)改造,達(dá)到較優(yōu)的聚類結(jié)果.CNN能獲得圖像的多維復(fù)雜特征,有利于圖像的特征提取.近些年來(lái),隨著深度學(xué)習(xí)的不斷發(fā)展,CNN得到廣泛應(yīng)用.但是,由于需要標(biāo)注大量的樣本對(duì)其訓(xùn)練以獲得有效表征,造成昂貴的時(shí)間與人力成本,因此如何將無(wú)標(biāo)簽的聚類任務(wù)與表征學(xué)習(xí)統(tǒng)一,成為研究者們關(guān)注的熱點(diǎn)話題.目前,CNN在聚類任務(wù)中的表征學(xué)習(xí)主要分為基于偽標(biāo)簽信息的深度聚類與基于對(duì)比學(xué)習(xí)的深度聚類兩類.

2.2.1 基于偽標(biāo)簽信息的深度聚類

聚類任務(wù)中偽標(biāo)簽信息的獲取主要可分為:1)通過聚類算法獲得偽標(biāo)簽,引導(dǎo)CNN進(jìn)行訓(xùn)練.2)自定義一種方法,估計(jì)偽標(biāo)簽,監(jiān)督CNN訓(xùn)練.Yang等[46]提出Recurrent Framework for Joint Unsuper-vised Learning of Deep Representations and Image Clusters,利用一個(gè)循環(huán)框架,通過迭代的方式更新優(yōu)化參數(shù).神經(jīng)網(wǎng)絡(luò)提取的表征使聚類算法獲得更優(yōu)的聚類結(jié)果,而聚類算法產(chǎn)生的聚類結(jié)果又能作為監(jiān)督信號(hào)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,所以二者相輔相成.該算法首先通過ImageNet預(yù)訓(xùn)練CNN,并選取k個(gè)樣本作為初始的聚類中心,然后采用小批量K-means,為每個(gè)樣本分配聚類標(biāo)簽.優(yōu)化過程采用迭代方式:在前向過程中,固定神經(jīng)網(wǎng)絡(luò)的參數(shù),利用層次聚類中的凝聚聚類聚類表征,并更新聚類標(biāo)簽;在后向過程中,固定聚類標(biāo)簽,更新神經(jīng)網(wǎng)絡(luò)參數(shù),獲得更優(yōu)的表征.該算法為了解決小批量K-means連續(xù)迭代之間的特征不匹配而引起的漂移誤差問題,約束聚類中心的更新.通過實(shí)驗(yàn)發(fā)現(xiàn),該算法在圖像數(shù)據(jù)集上具有較好的聚類效果,學(xué)習(xí)到的表征表示能遷移到其它圖像數(shù)據(jù)集上,但凝聚聚類采用的相似方法為有向圖,需要構(gòu)建相似矩陣,因此計(jì)算復(fù)雜度較高.

為了模擬CNN在圖像分類上的巨大成功,研究者們嘗試在聚類任務(wù)中加入約束以產(chǎn)生標(biāo)簽信息.Chang等[47]提出DAC(Deep Adaptive Clustering),并提出標(biāo)簽特征理論以獲得偽標(biāo)簽.DAC假設(shè)成對(duì)圖像的關(guān)系是在二進(jìn)制基礎(chǔ)上,即兩幅圖像在一個(gè)簇中或不在一個(gè)簇中,將圖像聚類問題轉(zhuǎn)變成一個(gè)二進(jìn)制成對(duì)分類問題.首先輸入無(wú)標(biāo)記的圖像,通過CNN得到圖像的標(biāo)簽特征,并利用余弦距離得到標(biāo)簽特征的相似度.為了獲得標(biāo)簽特征的one-hot向量,對(duì)標(biāo)簽特征加入約束.為了解決圖像聚類任務(wù)中真實(shí)相似度(Ground-Truth Similarities)未知的問題,DAC提出交替迭代自適應(yīng)算法.在固定神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上選擇成對(duì)的圖像估計(jì)相似度,又通過選定的標(biāo)記樣本訓(xùn)練CNN,最終圖像自動(dòng)通過標(biāo)簽特征進(jìn)行聚類,當(dāng)所有樣本都訓(xùn)練后算法收斂.DAC是將聚類問題巧妙轉(zhuǎn)換為分類問題,Niu等[48]將標(biāo)簽特征理論繼續(xù)深化,提出GATCluster(Self-Super-vised Gaussian Attention Network for Image Cluste-ring),基于標(biāo)簽特征理論,設(shè)計(jì)4個(gè)自監(jiān)督學(xué)習(xí)任務(wù)對(duì)平移不變性、分離最大化、熵分析和注意力映射這4個(gè)方面進(jìn)行約束.平移不變性是最大化樣本和任意平移樣本的相似度,即原圖像與平移旋轉(zhuǎn)后圖像特征盡可能相似.分離最大化任務(wù)對(duì)每對(duì)樣本探索相似性和分離性,引導(dǎo)模型學(xué)習(xí),即相似樣本盡可能聚集,不相似樣本盡可能遠(yuǎn)離.熵分析任務(wù)是為了避免平凡解.基于判別性信息通常在局部區(qū)域假設(shè),提出注意力機(jī)制,捕捉物體的語(yǔ)義信息.

在沒有標(biāo)簽的情況下,只能在現(xiàn)有數(shù)據(jù)中挖掘它們之間更多的相互關(guān)系,并以此提供監(jiān)督信息.Wu等[49]提出DCCM(Deep Comprehensive Correlation Mining),將圖像之間的相互關(guān)系分為4種關(guān)系:樣本之間的關(guān)系、特征之間的聯(lián)系、內(nèi)在關(guān)系及局部魯棒性.樣本之間的關(guān)系通過加入約束,使網(wǎng)絡(luò)預(yù)測(cè)的特征接近one-hot,然后計(jì)算余弦距離構(gòu)造相似圖,在相似圖和預(yù)測(cè)特征的基礎(chǔ)上,設(shè)置一個(gè)閾值,獲得高置信的偽圖和偽標(biāo)簽,用此監(jiān)督網(wǎng)絡(luò)訓(xùn)練.特征之間的聯(lián)系是指最大化深層特征和淺特征的互信息.局部魯棒性是指原輸入圖像的特征和幾何變換后圖像輸入的特征距離應(yīng)盡量相近.內(nèi)在關(guān)系是指組合上述三個(gè)關(guān)系.

在非參數(shù)實(shí)例判別方法[50]中,作者在有監(jiān)督學(xué)習(xí)結(jié)果中觀察發(fā)現(xiàn),判別式學(xué)習(xí)可自動(dòng)發(fā)現(xiàn)語(yǔ)義類別之間的相似性,而不需要人為標(biāo)注.由此想到,如果把每個(gè)實(shí)例當(dāng)作一個(gè)類別,可將有監(jiān)督的分類學(xué)習(xí)轉(zhuǎn)換為無(wú)監(jiān)督的實(shí)例學(xué)習(xí),而通過判別式學(xué)習(xí)就能獲得實(shí)例之間語(yǔ)義的相似性.但這樣需要面臨一個(gè)問題,即類別數(shù)等于實(shí)例數(shù),將softmax的輸出擴(kuò)展到與實(shí)例數(shù)相同是不可行的,所以作者采用NCE(Noise-Contrastive Estimation)逼近softmax的分布.由此Tao等[51]提出Clustering-Friendly Represen-tation Learning Method Using Instance Discrimina-tion and Feature Decorrelation,在實(shí)例判別中加入對(duì)控制分布參數(shù)的討論,提升表征學(xué)習(xí)的效果.特征去關(guān)聯(lián)是指將獲得的特征正交以獲得獨(dú)立的特征,確保冗余信息的減少,最后通過譜聚類獲得聚類結(jié)果.

2.2.2 基于對(duì)比學(xué)習(xí)的深度聚類

基于偽標(biāo)簽信息的深度聚類目標(biāo)是將無(wú)監(jiān)督的深度聚類轉(zhuǎn)化為有監(jiān)督的方式對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,進(jìn)而獲得適合聚類的表征.隨著自監(jiān)督表征學(xué)習(xí)的發(fā)展,對(duì)比學(xué)習(xí)應(yīng)用于聚類任務(wù)中.對(duì)比學(xué)習(xí)的基本思想是將原始數(shù)據(jù)映射到表征空間,其中正樣本對(duì)相似性最大化,負(fù)樣本對(duì)相似性最小化,以此獲得判別性的表征.在早期工作中,正負(fù)樣本是作為已知的先驗(yàn),近期研究表明樣本對(duì)的質(zhì)量對(duì)對(duì)比學(xué)習(xí)結(jié)果至關(guān)重要,而先驗(yàn)存在一定的局限性,因此學(xué)者們開始采用無(wú)監(jiān)督的方式構(gòu)建樣本對(duì).具體地,原樣本的增強(qiáng)樣本作為正樣本,其它樣本作為負(fù)樣本.

Tsai等[52]提出MiCE(Mixture of Contrastive Ex-perts),同時(shí)利用對(duì)比學(xué)習(xí)獲得判別式的表征以及利用潛在混合模型獲得語(yǔ)義結(jié)構(gòu),受MoE(Mixture of Experts)的啟發(fā),引入潛變量,表示圖像的聚類標(biāo)簽,形成混合條件模型.每個(gè)條件模型學(xué)會(huì)區(qū)分實(shí)例的子集,將數(shù)據(jù)集根據(jù)語(yǔ)義信息劃分為子集.

MiCE通過對(duì)比學(xué)習(xí)獲得聚類所需的判別性表征,但只將對(duì)比學(xué)習(xí)應(yīng)用于實(shí)例級(jí)別.因此Li等[53]提出CC(Contrastive Clustering),將對(duì)比學(xué)習(xí)同時(shí)應(yīng)用于實(shí)例級(jí)別和簇級(jí)別.數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)獲得特征矩陣,將矩陣的行看作實(shí)例表征,矩陣的列看作簇表征.圖像經(jīng)過隨機(jī)旋轉(zhuǎn)平移之后經(jīng)過另一個(gè)共享權(quán)重的神經(jīng)網(wǎng)絡(luò),得到增強(qiáng)特征矩陣,將兩個(gè)矩陣的行和列分別最大化相似度.經(jīng)過上述兩個(gè)目標(biāo)函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò)后,取每列特征最大值作為簇標(biāo)簽.

上述基于對(duì)比學(xué)習(xí)的深度聚類均取得優(yōu)異的聚類性能,但都僅應(yīng)用對(duì)比學(xué)習(xí)的基本框架,即假設(shè)樣本和它的增強(qiáng)樣本的特征與分配應(yīng)盡可能相似,卻忽略潛在的類別信息. Zhong等[54]提出GCC(Graph CC),同時(shí)考慮實(shí)例級(jí)別與簇級(jí)別的一致性.但與對(duì)比聚類不同的是,GCC采用圖的方式表示樣本之間及簇間的關(guān)系,而非直接最大化原特征與增強(qiáng)特征的一致性.具體來(lái)說,首先根據(jù)神經(jīng)網(wǎng)絡(luò)獲得的表征構(gòu)造相似圖,對(duì)于實(shí)例級(jí)別,采用基于圖拉普拉斯的對(duì)比損失,對(duì)于簇級(jí)別,又構(gòu)造樣本的K近鄰(K-Nearest Neighbor, KNN)圖,且假設(shè)樣本和它們的鄰居應(yīng)有相同的聚類分配,因此最大化樣本及其鄰居樣本簇分配的相似性.

Zhong等[55]提出DRC(Deep Robust Clustering),提高深度聚類的魯棒性.DRC為了解決目前深度聚類交替更新造成的誤差傳播問題,將深度聚類研究從分配特征與分配概率兩個(gè)角度進(jìn)行,并且挖掘互信息與對(duì)比學(xué)習(xí)的聯(lián)系,將常用的最大化互信息轉(zhuǎn)化為最小化對(duì)比損失,并成功應(yīng)用于分配特征與分配概率.DRC定義分配特征為CNN中全連接網(wǎng)絡(luò)層的輸出,為K(類別數(shù))維向量,分配概率為softmax層的輸出.具體來(lái)說:一是從全局角度最大化原始圖像與增強(qiáng)圖像的分配概率的互信息,增加簇間方差,并獲得高置信度的劃分;二是從局部角度最大化原始圖像與增強(qiáng)圖像的分配特征的互信息,減少類內(nèi)方差,并獲得更具有魯棒性的簇. 最近研究表明,相比互信息,在無(wú)監(jiān)督學(xué)習(xí)訓(xùn)練中對(duì)比學(xué)習(xí)更有效,因此DRC將最大化互信息轉(zhuǎn)換為最小化對(duì)比損失.

2.3 基于圖表征學(xué)習(xí)的深度聚類

嚴(yán)格來(lái)說,基于圖表征學(xué)習(xí)的深度聚類可按照表征學(xué)習(xí)思想的不同劃分到上述的生成式和判別式兩類模型中.但由于圖神經(jīng)網(wǎng)絡(luò)的特殊性,將基于圖表征學(xué)習(xí)的深度聚類單獨(dú)作為一個(gè)章節(jié),方便讀者更好地理解與分析應(yīng)用于深度聚類中的圖神經(jīng)網(wǎng)絡(luò)和圖表征學(xué)習(xí).

由于現(xiàn)實(shí)生活中存在很多圖數(shù)據(jù),如社交網(wǎng)絡(luò)、電子購(gòu)物、交通網(wǎng)絡(luò)等.為了更好地挖掘圖數(shù)據(jù)存在的結(jié)構(gòu)和屬性信息,Gori等[56]提出圖神經(jīng)網(wǎng)絡(luò)的概念.CNN在圖像數(shù)據(jù)中取得不錯(cuò)成績(jī)后,學(xué)者們開始思考如何將卷積操作加入圖神經(jīng)網(wǎng)絡(luò)中,所以Bruna等[57]結(jié)合基于頻域的卷積操作與圖神經(jīng)網(wǎng)絡(luò),將可學(xué)習(xí)的卷積操作用于圖數(shù)據(jù)之上.但基于頻域的卷積操作要求處理整個(gè)圖,并需要進(jìn)行矩陣分解,時(shí)間復(fù)雜度較高,難以應(yīng)用于大規(guī)模的圖數(shù)據(jù). Kipf等[58]簡(jiǎn)化頻域圖卷積,使圖卷積能在空域中進(jìn)行,大幅提升圖卷積模型的計(jì)算效率.常用于深度聚類的圖神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,圖中σ(·)表示激活函數(shù).

圖3 基于圖表征學(xué)習(xí)的深度聚類結(jié)構(gòu)圖Fig.3 Deep clustering structure based on graph representation learning

基于圖神經(jīng)網(wǎng)絡(luò)的圖表征學(xué)習(xí)目的在于獲得節(jié)點(diǎn)在低維空間中向量表示的同時(shí)保存圖結(jié)構(gòu)中節(jié)點(diǎn)之間的結(jié)構(gòu)關(guān)系,正是由于這個(gè)屬性,圖神經(jīng)網(wǎng)絡(luò)可挖掘數(shù)據(jù)之間的結(jié)構(gòu)信息,增加表征中包含的信息.Kipf等[59]提出VGAE(Variational Graph Autoenco-der),對(duì)節(jié)點(diǎn)進(jìn)行低維向量表示,使用圖卷積網(wǎng)絡(luò)作為編碼器,得到所有節(jié)點(diǎn)的潛在表示Z,然后采用隱向量的內(nèi)積作為解碼器輸出重構(gòu)圖.Wang等[60]提出DAEGC(Deep Attentional Embedded Graph Cluste-ring),利用圖神經(jīng)網(wǎng)絡(luò)獲得圖數(shù)據(jù)的結(jié)構(gòu)信息,在輸入中同時(shí)加入節(jié)點(diǎn)的屬性信息,融合節(jié)點(diǎn)信息和結(jié)構(gòu)信息進(jìn)行表征學(xué)習(xí),并引用注意力機(jī)制,更有效地對(duì)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)進(jìn)行聚合,在得到的潛在表示中使用K-means初始化聚類中心.借鑒DEC自監(jiān)督的訓(xùn)練方式,得到重構(gòu)損失和KL散度統(tǒng)一的目標(biāo)函數(shù),對(duì)聚類中心和神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行聯(lián)合優(yōu)化. Bo等[61]提出SDCN(Structural Deep Clustering Network),不僅利用圖神經(jīng)網(wǎng)絡(luò)挖掘數(shù)據(jù)結(jié)構(gòu)信息,并且將輸入數(shù)據(jù)從圖數(shù)據(jù)拓展到規(guī)則化數(shù)據(jù),面對(duì)非圖結(jié)構(gòu)數(shù)據(jù)集時(shí),利用KNN得到無(wú)向K近鄰圖,作為圖卷積網(wǎng)絡(luò)的輸入.SDCN另一方面將原始數(shù)據(jù)作為自動(dòng)編碼器的輸入,并將自動(dòng)編碼器每層學(xué)習(xí)到的表示逐層輸入圖卷積網(wǎng)絡(luò)中,與對(duì)應(yīng)層數(shù)據(jù)的結(jié)構(gòu)信息結(jié)合,經(jīng)過堆疊圖卷積網(wǎng)絡(luò)的編碼,在其最后一層使用softmax激活函數(shù),得到數(shù)據(jù)的分配概率Z,并將Z看作概率分布.在自動(dòng)編碼器得到的潛在表示中,使用K-means初始化聚類中心,使用學(xué)生t分布作為內(nèi)核,衡量聚類中心和嵌入點(diǎn)的相似度,得到Q.利用Q得到目標(biāo)輔助分布P,將P與Q進(jìn)行KL散度處理,得到自動(dòng)編碼的聚類損失函數(shù)Lclus,P與Z進(jìn)行KL散度處理,得到圖卷積網(wǎng)絡(luò)的損失函數(shù)Lgcn,二者加上自編碼器的重構(gòu)損失Lres,得到整個(gè)模型的目標(biāo)函數(shù).

與傳統(tǒng)的自動(dòng)編碼器不同,圖自動(dòng)編碼器是采用內(nèi)積距離重構(gòu)圖,因此學(xué)習(xí)到的表征是在內(nèi)積空間中而不是在歐幾里得空間中,而繼續(xù)采用基于歐幾里得的K-means會(huì)影響聚類結(jié)果,所以,Zhang等[62]提出EGAE(Embedding Graph Autoencoder),采用松弛K-means進(jìn)行聚類.

圖聚類是采用無(wú)監(jiān)督的方法將節(jié)點(diǎn)劃分為若干個(gè)簇.正因如此,圖聚類常常與圖神經(jīng)網(wǎng)絡(luò)結(jié)合,將樣本看作節(jié)點(diǎn),節(jié)點(diǎn)之間的連接權(quán)重看作相似性.圖神經(jīng)網(wǎng)絡(luò)具有推斷樣本和鄰居連接性的強(qiáng)大能力.樣本經(jīng)過圖神經(jīng)網(wǎng)絡(luò)之后,會(huì)獲得節(jié)點(diǎn)之間邊的權(quán)重,再采用圖聚類的方法切割子圖.Qi等[63]提出RGCN(Deep Face Clustering Method Using Residual Graph Convolutional Network),將每張人臉看作節(jié)點(diǎn),采用KNN獲得圖數(shù)據(jù),輸入圖神經(jīng)網(wǎng)絡(luò)后,獲得節(jié)點(diǎn)之間的邊權(quán)重,再采用圖聚類進(jìn)行切圖.為了避免圖神經(jīng)網(wǎng)絡(luò)的過平滑問題,將殘差學(xué)習(xí)思想引入圖神經(jīng)網(wǎng)絡(luò)中,提高聚類結(jié)果.

譜聚類是圖聚類中的經(jīng)典方法,但譜聚類中的拉普拉斯矩陣分解復(fù)雜度較高,且譜聚類未用到節(jié)點(diǎn)特征,因此Bianchi等[64]提出Spectral Clustering with Graph Neural Networks for Graph Pooling,在圖神經(jīng)網(wǎng)絡(luò)中加入池化層,提出mincut,可求導(dǎo)而不需要求解,并學(xué)習(xí)一個(gè)分配矩陣,同時(shí)加入約束,在正交空間中尋找可行解,避免出現(xiàn)平凡解.

圖神經(jīng)網(wǎng)絡(luò)不但在圖聚類中,也在集成聚類中得到發(fā)展.Tao等[65]提出AGAE(Adversarial Graph Auto-Encoders),結(jié)合對(duì)抗性圖自動(dòng)編碼器與集成聚類,具體表現(xiàn)在將一致圖和原始數(shù)據(jù)的特征矩陣作為輸入,解決傳統(tǒng)集成聚類忽略原始數(shù)據(jù)特征重利用的問題.引入對(duì)抗性正則化引導(dǎo)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,圖卷積網(wǎng)絡(luò)作為概率編碼器,對(duì)潛在表示的后驗(yàn)分布建模,矩陣內(nèi)積作為解碼器,多層神經(jīng)網(wǎng)絡(luò)當(dāng)作判別器,通過這種方法將自適應(yīng)劃分先驗(yàn)引入聚類任務(wù)中.杜航原等[66]提出深度自監(jiān)督聚類集成算法,將集成聚類結(jié)果采用加權(quán)連同三元組計(jì)算相似度矩陣,將集成聚類從特征空間的數(shù)據(jù)表示轉(zhuǎn)換為圖數(shù)據(jù)表示,進(jìn)而將集成聚類的一致性問題轉(zhuǎn)換為圖聚類.該算法將相似度矩陣作為輸入,圖卷積網(wǎng)絡(luò)作為編碼器,得到圖的低維嵌入,矩陣內(nèi)積作為解碼器.并依據(jù)低維嵌入似然分布估計(jì)聚類集成的目標(biāo)分布,將二者的KL散度與重構(gòu)損失函數(shù)的和作為目標(biāo)函數(shù),對(duì)圖自編碼器進(jìn)行訓(xùn)練,得到最優(yōu)的集成結(jié)果.

3 實(shí)驗(yàn)及結(jié)果分析

為了進(jìn)一步分析各類算法,本文選擇傳統(tǒng)聚類算法與深度聚類算法中具有代表性的算法進(jìn)行對(duì)比實(shí)驗(yàn).

實(shí)驗(yàn)軟硬件環(huán)境如下:AMD Ryzen 4800H 2.90 GHz,內(nèi)存16 GB,操作系統(tǒng)為Windows 10,編程語(yǔ)言為python.DEC采用tensorflow 1.15框架,VaDE、DAC采用theano 1.0框架,InfoGAN、DAEGC采用torch 1.0框架.

3.1 實(shí)驗(yàn)數(shù)據(jù)集

本文采用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中常用的WDBC數(shù)據(jù)集與深度學(xué)習(xí)中常用的MNIST數(shù)據(jù)集,針對(duì)傳統(tǒng)聚類算法與深度聚類算法進(jìn)行對(duì)比實(shí)驗(yàn);采用Core、Citeseer圖數(shù)據(jù)集,針對(duì)譜聚類與基于圖神經(jīng)網(wǎng)絡(luò)的深度聚類算法進(jìn)行對(duì)比實(shí)驗(yàn).數(shù)據(jù)集具體信息如表2所示.

表2 實(shí)驗(yàn)數(shù)據(jù)集Table 2 Experimental datasets

3.2 深度聚類算法性能對(duì)比

為了對(duì)比傳統(tǒng)聚類算法與深度聚類算法在不同規(guī)模與維度數(shù)據(jù)集上的性能差異,本文選取如下傳統(tǒng)聚類算法:基于劃分的K-means、基于密度的DPC、基于層次的AC、基于圖的SC、基于模型的GMM.深度聚類算法選擇基于生成模型的DEC、VaDE、InfoGAN與基于判別模型的DAC.各算法的聚類準(zhǔn)確率(Accuracy, ACC)對(duì)比如表3所示.

表3 各聚類算法在2個(gè)數(shù)據(jù)集上的聚類準(zhǔn)確率對(duì)比Table 3 Clustering accuracy comparison of different clustering algorithms on 2 datasets %

WDBC數(shù)據(jù)集與MNIST 數(shù)據(jù)集在規(guī)模與維度方面存在顯著差異,由表3可看出,由于DPC與AC空間復(fù)雜度較高,在本實(shí)驗(yàn)環(huán)境下會(huì)超出內(nèi)存,無(wú)法得到實(shí)驗(yàn)結(jié)果.InfoGAN與DAC無(wú)法直接處理WDBC數(shù)據(jù),體現(xiàn)傳統(tǒng)聚類算法在大規(guī)模高維數(shù)據(jù)的局限性及CNN對(duì)非圖像數(shù)據(jù)處理的局限性.傳統(tǒng)聚類算法在WDBC數(shù)據(jù)集上表現(xiàn)較優(yōu),GMM得到最高準(zhǔn)確率,DEC次之,深度聚類算法VaDE準(zhǔn)確率最低.而在MNIST數(shù)據(jù)集上,傳統(tǒng)聚類算法與深度聚類算法具有明顯差距,傳統(tǒng)聚類算法準(zhǔn)確率均低于70%,需要較高的空間內(nèi)存運(yùn)行算法,而深度聚類算法聚類準(zhǔn)確率均高于80%,VaDE和DAC的準(zhǔn)確率甚至超過90%.因此在大數(shù)據(jù)的時(shí)代背景下,深度聚類算法會(huì)發(fā)揮更重要的作用.

由于實(shí)驗(yàn)環(huán)境中內(nèi)存的限制,本文采用MNIST_

test數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),MNIST_test數(shù)據(jù)集除了數(shù)據(jù)樣本數(shù)為10 000之外,其余均與MNIST數(shù)據(jù)集相同.

傳統(tǒng)聚類算法在MNIST_test數(shù)據(jù)集上的聚類性能如表4所示.由表可看出,各算法的準(zhǔn)確率都較低,再次驗(yàn)證傳統(tǒng)聚類算法在大規(guī)模數(shù)據(jù)上的局限性.從聚類時(shí)間可看出:DPC最長(zhǎng),準(zhǔn)確率最低;K-mean效率最快,準(zhǔn)確率差于AC和SC;AC雖然空間復(fù)雜度較高,但性能方面較優(yōu);SC在聚類準(zhǔn)確率與效率之間達(dá)到均衡.

表4 傳統(tǒng)聚類算法在MNIST_test數(shù)據(jù)集上的聚類性能對(duì)比Table 4 Clustering performance comparison of traditional clustering algorithms on MNIST_test dataset

為了驗(yàn)證基于圖神經(jīng)網(wǎng)絡(luò)的深度聚類算法與傳統(tǒng)圖聚類算法的差異,在Core、Citeseer數(shù)據(jù)集上對(duì)比SC和DAEGC,結(jié)果如表5所示.由表可發(fā)現(xiàn),DA-EGC在ACC與標(biāo)準(zhǔn)化互信息(Normalized Mutual Information, NMI)上明顯優(yōu)于SC,尤其在Citeseer數(shù)據(jù)集上,SC的2項(xiàng)指標(biāo)未達(dá)到DAEGC的50%,原因在于Citeseer數(shù)據(jù)集圖像維度達(dá)3 703維.對(duì)于高維數(shù)據(jù),基于圖神經(jīng)網(wǎng)絡(luò)的表征學(xué)習(xí)優(yōu)于傳統(tǒng)聚類算法,因此基于圖神經(jīng)網(wǎng)絡(luò)的深度聚類可更有效處理目前的高維圖數(shù)據(jù).

表5 SC和DAEGC的聚類性能對(duì)比Table 5 Clustering performance comparison of SC and DAEGC

為了對(duì)比深度聚類算法中不同算法的復(fù)雜度,得到各算法的參數(shù)量如下:DEC為12.7 M,VaDE為10.03 M,InfoGAN為50.52 M,DAC為1.71 M,DAEGC為0.95 M.DEC、VaDE中分別包含自動(dòng)編碼器與變分自動(dòng)編碼器,InfoGAN含有 GAN,DAC中含有CNN,DAEGC含有圖神經(jīng)網(wǎng)絡(luò).由參數(shù)量可看出,InfoGAN參數(shù)量最多,DAEGC參數(shù)量最少,DAC參數(shù)量次少,DEC與VaDE參數(shù)量相當(dāng).InfoGAN較復(fù)雜,在MNIST數(shù)據(jù)集上準(zhǔn)確率較低,但能生成指定樣本,適用于數(shù)據(jù)缺失的樣本.DAEGC參數(shù)量較少,這是由于圖神經(jīng)網(wǎng)絡(luò)過深容易產(chǎn)生過平滑問題,因此圖神經(jīng)網(wǎng)絡(luò)一般是2~3層,但是圖神經(jīng)網(wǎng)絡(luò)要求輸入為矩陣,因此構(gòu)建非圖數(shù)據(jù)集時(shí)仍需要較高的空間復(fù)雜度,更適合于圖數(shù)據(jù)集.DAC不但參數(shù)較少,在MNIST數(shù)據(jù)集上性能也較優(yōu),但局限于圖像數(shù)據(jù)集.DEC泛化性最好,在小規(guī)模數(shù)據(jù)集與大規(guī)模數(shù)據(jù)集上的表現(xiàn)都較好,模型參數(shù)量適中.

3.3 總結(jié)與分析

生成式模型中的基于自動(dòng)編碼器的深度聚類最早將無(wú)監(jiān)督表征學(xué)習(xí)與聚類任務(wù)結(jié)合.重構(gòu)損失的存在使模型學(xué)習(xí)的表征魯棒性較好.主要原因是聚類任務(wù)中缺少標(biāo)簽,缺乏確定的先驗(yàn)性信息,重構(gòu)損失能在聚類損失得到充分優(yōu)化的同時(shí)將表征約束在合理范圍之內(nèi),以防只有聚類損失將潛在空間扭曲而失去實(shí)際意義.首先是采用最常用的K-means聚類算法,聯(lián)合表征學(xué)習(xí)與聚類,后來(lái)為了減少預(yù)訓(xùn)練階段及更好地結(jié)合其它聚類算法,在優(yōu)化過程中加入交替更新的思想,并從此出現(xiàn)其它聚類算法損失與表征學(xué)習(xí)結(jié)合的深度聚類.

隨著研究的不斷深入,研究者們發(fā)現(xiàn)將表征學(xué)習(xí)與聚類任務(wù)分開進(jìn)行,也能獲得較好的聚類結(jié)果,并在表征學(xué)習(xí)中加入流形學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、正則化、對(duì)抗學(xué)習(xí)等技術(shù),不斷提高聚類性能.但由于自動(dòng)編碼器具有對(duì)稱的結(jié)構(gòu)特性,會(huì)限制神經(jīng)網(wǎng)絡(luò)的深度,進(jìn)而影響表征學(xué)習(xí)能力.

基于VAE的表征學(xué)習(xí)模型,為了使無(wú)監(jiān)督的訓(xùn)練網(wǎng)絡(luò)模型獲得較好的表征用于聚類,將VAE中的先驗(yàn)由單一分布換成混合高斯分布,并采用SGVB優(yōu)化證據(jù)下界,損失函數(shù)擁有完備的理論保證,提高模型的魯棒性,而GAN的先驗(yàn)分布更靈活,因此在生成數(shù)據(jù)方面,GAN性能較優(yōu).在GAN中加入信息論,最大化互信息,避免平凡解及提高表征的判別性,提高聚類結(jié)果.即便如此,GAN的聚類性能仍較差,原因在于對(duì)抗訓(xùn)練的方式收斂速度較慢.

判別式模型由于沒有生成式模型框架的束縛,如固有的解碼器、判別器等,所以可擴(kuò)展性較強(qiáng).損失函數(shù)一般只包括聚類損失函數(shù).該類算法的目標(biāo)函數(shù)簡(jiǎn)單、易于優(yōu)化,網(wǎng)絡(luò)結(jié)構(gòu)靈活,可使算法應(yīng)用到大型復(fù)雜數(shù)據(jù)集,但由于沒有非聚類損失函數(shù)的限制,可能會(huì)出現(xiàn)特征空間扭曲、坍塌等問題.

在無(wú)監(jiān)督表征學(xué)習(xí)和聚類任務(wù)中,一般有如下思路.

1)聚類標(biāo)簽和網(wǎng)絡(luò)參數(shù)交替更新,將聚類結(jié)果作為監(jiān)督信號(hào)促使學(xué)習(xí)有效的表征,而學(xué)習(xí)的表征又提高聚類結(jié)果.

2)對(duì)輸出預(yù)測(cè)施加一定約束,獲得one-hot標(biāo)簽特征,將聚類任務(wù)轉(zhuǎn)換為分類任務(wù).

3)利用自監(jiān)督學(xué)習(xí)的思想,根據(jù)聚類任務(wù)的屬性挖掘樣本之間的關(guān)系,由此作為目標(biāo)函數(shù)優(yōu)化神經(jīng)網(wǎng)絡(luò),獲得適合于聚類的表征,再進(jìn)行聚類或加入聚類損失函數(shù)聯(lián)合聚類.

4)根據(jù)判別式學(xué)習(xí)能自動(dòng)獲得樣本之間語(yǔ)義相似性,即根據(jù)語(yǔ)義相似性利用聚類算法進(jìn)行劃分.

基于圖神經(jīng)網(wǎng)絡(luò)的圖表征學(xué)習(xí)首先在面向圖數(shù)據(jù)的深度聚類算法中得到應(yīng)用,圖神經(jīng)網(wǎng)絡(luò)對(duì)圖數(shù)據(jù)具有強(qiáng)大的編碼能力,能有效利用數(shù)據(jù)的屬性和結(jié)構(gòu)信息,使學(xué)習(xí)到的特征信息更豐富,進(jìn)而提高聚類效果.但由于圖神經(jīng)網(wǎng)絡(luò)的輸入為圖數(shù)據(jù),對(duì)于其它類型數(shù)據(jù)集首先需要構(gòu)造圖數(shù)據(jù),空間復(fù)雜度會(huì)隨著圖復(fù)雜度急劇增長(zhǎng).利用圖自動(dòng)編碼器無(wú)監(jiān)督訓(xùn)練的屬性,在K-means、圖聚類、集成聚類等方面用于數(shù)據(jù)的表征學(xué)習(xí)、圖劃分,但圖神經(jīng)網(wǎng)絡(luò)大多是半監(jiān)督的訓(xùn)練方式及存在訓(xùn)練不穩(wěn)定、過平滑等問題,所以圖表征學(xué)習(xí)需要更深入研究如何結(jié)合自監(jiān)督訓(xùn)練任務(wù)與聚類、集成聚類.

4 損失函數(shù)與評(píng)估標(biāo)準(zhǔn)

4.1 損失函數(shù)

4.1.1 聚類損失函數(shù)

聚類損失函數(shù)是針對(duì)特定聚類算法及約束神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)適合該聚類算法的特征.聚類損失函數(shù)大致可分為K-means損失函數(shù)、簇分配強(qiáng)化損失函數(shù)(Cluster Assignment Hardening Loss)和平衡分配損失函數(shù)(Balanced Assignment Loss)[67].

為了保證學(xué)習(xí)到的表示有利于K-means聚類算法進(jìn)行聚類,使數(shù)據(jù)均勻分布在聚類中心,K-means損失函數(shù)表示如下:

其中,zi為嵌入到子空間的點(diǎn),uk為聚類中心,sik為布爾變量表示zi是否分配到uk中的點(diǎn).

簇分配強(qiáng)化損失函數(shù)使用軟分配將數(shù)據(jù)分配到簇中.例如,使用t分布作為內(nèi)核衡量聚類中心和數(shù)據(jù)點(diǎn)的相似度,即

其中,uj為聚類中心,zi為嵌入點(diǎn),α為自由度,通常定義為α=1.

數(shù)據(jù)點(diǎn)和聚類中心的歸一化可看成是軟分配,又通過KL散度接近輔助目標(biāo)分布P,使軟分配概率更嚴(yán)格.輔助目標(biāo)分布P的目的是為了提高聚類純度,重點(diǎn)放在高置信度的點(diǎn)上,并且防止大的簇扭曲潛在空間.輔助目標(biāo)分布P和KL散度定義如下:

平衡分配損失函數(shù)的目的是為了使簇分配平衡,定義如下:

Lba=KL(G‖U),

其中,U為均勻分布,G為一個(gè)點(diǎn)分配到每個(gè)簇的概率分布,

通過最小化KL散度使每個(gè)點(diǎn)分配到某些簇的概率相同.

4.1.2 網(wǎng)絡(luò)輔助損失函數(shù)

網(wǎng)絡(luò)輔助損失函數(shù)獨(dú)立于聚類算法,通常是為了對(duì)學(xué)習(xí)模型施加需要的約束,輔助模型訓(xùn)練.通過對(duì)模型的參數(shù)施加約束,可提升表征學(xué)習(xí)的有效性,避免平凡解.典型的非聚類損失函數(shù)有重構(gòu)損失函數(shù)(Reconstruction Loss)[68]和自我加強(qiáng)損失函數(shù)(Self-Augmentation Loss).

重構(gòu)損失函數(shù)最小化輸入xi和解碼器重構(gòu)的f(xi)的距離,保證數(shù)據(jù)有用的特征信息在經(jīng)過編碼器的編碼之后不會(huì)丟失,函數(shù)表示如下:

自我加強(qiáng)損失組合原始樣本和它們的增強(qiáng)樣本,函數(shù)表示如下:

其中,x為原始樣本,T為加強(qiáng)函數(shù),f(x)為通過模型產(chǎn)生的表示,s為相似度度量方法,N為樣本總數(shù).

4.2 性能評(píng)估標(biāo)準(zhǔn)

兩個(gè)無(wú)監(jiān)督的評(píng)估標(biāo)準(zhǔn)已廣泛用于深度聚類,分別為聚類準(zhǔn)確率(ACC)和標(biāo)準(zhǔn)化互信息(NMI)[69].

聚類準(zhǔn)確率(ACC)度量聚類算法分配的正確率:

其中,yi為真實(shí)標(biāo)簽,ci為通過算法產(chǎn)生的聚類分配,m(·)為映射函數(shù),N為樣本總數(shù),將聚類分配與標(biāo)簽一一對(duì)應(yīng).

互信息是指兩個(gè)隨機(jī)變量之間的關(guān)聯(lián)程度,標(biāo)準(zhǔn)化互信息(NMI)是將互信息歸一化為[0,1].數(shù)學(xué)表示如下:

其中,Y為真實(shí)標(biāo)簽,C為聚類標(biāo)簽,I為互信息,H為熵.

調(diào)整蘭德系數(shù)(Adjusted Rand Index, ARI)為衡量聚類標(biāo)簽和真實(shí)標(biāo)簽相似性的度量標(biāo)準(zhǔn),需要數(shù)據(jù)集本身有標(biāo)簽.ARI的取值范圍為[-1,1],值越大表示聚類效果越優(yōu).ARI數(shù)學(xué)表示如下:

其中,I為聚類得到的簇的個(gè)數(shù),J為數(shù)據(jù)集真實(shí)的類別數(shù),ni.為第i個(gè)簇中的樣本數(shù),n.j為標(biāo)簽j中的樣本數(shù),nij為在第i個(gè)簇中包含標(biāo)簽j的樣本總數(shù),n為總的樣本數(shù).

5 算法應(yīng)用

隨著互聯(lián)網(wǎng)的發(fā)展及移動(dòng)通訊工具的普及,面對(duì)海量數(shù)據(jù),如何快速給用戶推薦需要、值得關(guān)注的信息是亟待解決的問題,因此個(gè)性化信息推薦成為計(jì)算機(jī)領(lǐng)域的一個(gè)研究熱點(diǎn).

在新聞推薦領(lǐng)域,首先聚類新聞內(nèi)容,再結(jié)合用戶行為對(duì)用戶進(jìn)行個(gè)性化的信息推薦.新聞推薦大多是對(duì)本文信息進(jìn)行聚類.李悅[70]提出基于CNN的文本聚類方法,能較好地處理目前高維和大規(guī)模的數(shù)據(jù),克服傳統(tǒng)聚類算法需要人為設(shè)定特征提取器等問題.在視頻推薦中,大多是對(duì)圖像進(jìn)行聚類,李文杰等[71]提出融合時(shí)間因素的用戶偏好和聚類加權(quán)的聚類方法,使推薦視頻更符合用戶的需求,提高用戶的滿意度.

隨著深度聚類的發(fā)展,將深度聚類算法應(yīng)用于多維的醫(yī)療數(shù)據(jù),對(duì)疾病進(jìn)行預(yù)測(cè)及防控,已成為研究熱點(diǎn).王振飛等[72]使用自適應(yīng)模塊化神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)心血管疾病,首先使用密度峰值聚類確定數(shù)據(jù)集的聚類中心,確定每個(gè)模塊的訓(xùn)練樣本集,再采用反向傳播(Backpropagation)訓(xùn)練網(wǎng)絡(luò).

周峰[73]提出基于神經(jīng)網(wǎng)絡(luò)的慢性乙肝相關(guān)疾病患者聚類及醫(yī)療費(fèi)用預(yù)測(cè)研究,由于影響醫(yī)療費(fèi)用的因素分布呈現(xiàn)類型復(fù)雜、高維度等特點(diǎn),所以采用基于SOM(Self-Organizing Feature Map)神經(jīng)網(wǎng)絡(luò)對(duì)患者入院時(shí)的檢測(cè)結(jié)果及住院時(shí)的治療方案進(jìn)行聚類分析,可幫助建立有效的住院費(fèi)用預(yù)測(cè)模型,對(duì)今后患者的治療方法和住院費(fèi)用提供有力依據(jù).

隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)和信息安全問題逐漸得到社會(huì)重視.深度聚類能較好地挖掘大數(shù)據(jù)中的有效、異常信息,因此得到廣泛應(yīng)用.在網(wǎng)絡(luò)安全領(lǐng)域,僵尸網(wǎng)絡(luò)變得日益復(fù)雜和危險(xiǎn),為此Chowdhury等[74]提出Botnet Detection Using Graph-Based Feature Clustering,基于圖節(jié)點(diǎn)特征,采用自組織映射聚類對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行聚類,能將僵尸節(jié)點(diǎn)隔離在小的簇中,同時(shí)同一大型簇中包含大多數(shù)正常節(jié)點(diǎn),因此可通過搜索很小數(shù)量的節(jié)點(diǎn)檢測(cè)到僵尸網(wǎng)絡(luò).

在信息領(lǐng)域,人臉識(shí)別系統(tǒng)已應(yīng)用于生活的各方面,如支付寶付款、手機(jī)開鎖等.人臉欺騙檢測(cè)對(duì)于人臉識(shí)別系統(tǒng)的安全性起到關(guān)鍵作用.EL-DIN等[75]提出DCDA(Deep Clustering Guided Unsuper-vised Domain Adaptation).傳統(tǒng)的人臉欺騙檢測(cè)方法假設(shè)攻擊來(lái)自與訓(xùn)練相同的域,而不能較好地應(yīng)用于隱形攻擊場(chǎng)景,為此DCDA提出域自適應(yīng)的端到端訓(xùn)練框架,提高模型的泛化能力.而單獨(dú)在人臉欺騙檢測(cè)中使用域自適應(yīng)方法不能較好地適應(yīng)在不同設(shè)備和攻擊類型下的目標(biāo)域,因此為了保持目標(biāo)域的內(nèi)在屬性,在目標(biāo)樣本中需要進(jìn)行深度聚類.

6 結(jié) 束 語(yǔ)

由于深度聚類在大規(guī)模高維數(shù)據(jù)表現(xiàn)的優(yōu)越性,深度聚類現(xiàn)已成為研究熱點(diǎn).神經(jīng)網(wǎng)絡(luò)強(qiáng)大的表征學(xué)習(xí)能力大幅提高傳統(tǒng)聚類算法性能.面對(duì)目前的海量數(shù)據(jù)與高維數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)聚類算法結(jié)合會(huì)有更廣泛的應(yīng)用前景.

本文系統(tǒng)闡述深度聚類算法,將深度聚類按照表征學(xué)習(xí)方法的不同進(jìn)行分類,綜述各類具有代表性的算法,描述深度聚類的應(yīng)用前景.

基于上述總結(jié)與分析,深度聚類還可在如下方向進(jìn)行深入研究.

1)多樣化的網(wǎng)絡(luò)結(jié)構(gòu).(1)目前深度聚類多集中于對(duì)圖像的聚類研究,對(duì)時(shí)序數(shù)據(jù)的研究較少,如語(yǔ)音、文件等,今后可探索聚類算法與其它類型網(wǎng)絡(luò)結(jié)構(gòu)的結(jié)合.(2)目前表征學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)大多集中于主流架構(gòu),通過施加約束達(dá)到適合聚類表征的目的,如何利用機(jī)器學(xué)習(xí)思想設(shè)計(jì)針對(duì)聚類的網(wǎng)絡(luò)結(jié)構(gòu)也是值得探索的方向之一.

2)深度聚類模型推理性的研究.目前深度聚類用到的深度模型都是連續(xù)的幾何變換,將一個(gè)向量空間映射到另一個(gè),使深度學(xué)習(xí)缺少推理能力,阻礙其向更深層次應(yīng)用方面的發(fā)展.例如:對(duì)于即使有足夠的產(chǎn)品使用說明書的數(shù)據(jù)進(jìn)行訓(xùn)練以聚類,深度生成學(xué)習(xí)模型也無(wú)法生成指定產(chǎn)品的使用說明程序.

3)在線深度聚類算法的研究.目前深度聚類都是以離線形式完成的,導(dǎo)致訓(xùn)練神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到有效的表征需要整個(gè)數(shù)據(jù)集,而無(wú)法處理數(shù)據(jù)流形式的樣本,進(jìn)而限制深度聚類算法在更大規(guī)模在線學(xué)習(xí)場(chǎng)景的應(yīng)用.因此在線計(jì)算的深度聚類算法研究將是一個(gè)重要的研究方向.

4)可解釋深度聚類算法的研究.即使深度聚類能解決高維數(shù)據(jù)線性不可分問題,應(yīng)用廣泛,但面對(duì)目前更復(fù)雜的數(shù)據(jù)和場(chǎng)景,理解模型的決策和機(jī)理顯得更重要.由于神經(jīng)網(wǎng)絡(luò)“黑盒子”的特性,其工作機(jī)制難以理解,需要費(fèi)時(shí)費(fèi)力且無(wú)依據(jù)的調(diào)整超參數(shù)以達(dá)到滿意結(jié)果.相比有監(jiān)督的分類任務(wù),無(wú)監(jiān)督的聚類任務(wù)可解釋性的難度更高,因?yàn)榉诸惤忉尀槭裁礃颖颈环值侥愁?,而聚類需要解釋模型發(fā)現(xiàn)簇的語(yǔ)義信息,即前者是模型的可解釋性,后者是樣本的可解釋性.所以如何設(shè)計(jì)可解釋的深度聚類模型或加強(qiáng)對(duì)深度聚類模型的可解釋性都是值得關(guān)注的研究方向.

猜你喜歡
編碼器標(biāo)簽聚類
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
基于FPGA的同步機(jī)軸角編碼器
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于DBSACN聚類算法的XML文檔聚類
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
標(biāo)簽化傷害了誰(shuí)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
基于改進(jìn)的遺傳算法的模糊聚類算法
基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
大埔县| 阿克苏市| 兰考县| 华宁县| 禹州市| 石狮市| 太原市| 精河县| 武义县| 靖远县| 米易县| 县级市| 杭锦后旗| 翼城县| 防城港市| 金坛市| 富顺县| 荣昌县| 甘谷县| 普洱| 武清区| 阿图什市| 泾川县| 慈利县| 青川县| 宁远县| 文成县| 丹东市| 宁夏| 斗六市| 灵台县| 琼海市| 临江市| 梁平县| 万全县| 郓城县| 安宁市| 乌拉特后旗| 临泽县| 澄江县| 北流市|