国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模糊聚類在深度學(xué)習(xí)自監(jiān)督領(lǐng)域的應(yīng)用

2021-05-11 18:07:52范少帥馬嘯天張澤平
中國(guó)新通信 2021年4期
關(guān)鍵詞:機(jī)器學(xué)習(xí)深度學(xué)習(xí)

范少帥 馬嘯天 張澤平

【摘要】 ? ?近年來(lái)隨著深度學(xué)習(xí)的興起,機(jī)器學(xué)習(xí)的話題再次被拉回到人們的視野中。通過(guò)深度學(xué)習(xí)來(lái)對(duì)圖像進(jìn)行識(shí)別分類是機(jī)器學(xué)習(xí)領(lǐng)域最重要的話題之一。然而,目前識(shí)別方法大多依賴于大規(guī)模標(biāo)注數(shù)據(jù),并且要進(jìn)行充分的網(wǎng)絡(luò)訓(xùn)練,而圖像標(biāo)注是非常費(fèi)時(shí)費(fèi)力的。為了克服這些缺點(diǎn),一些算法提出了將自監(jiān)督框架嵌入到無(wú)監(jiān)督的深度學(xué)習(xí)體系結(jié)構(gòu)中。而為了實(shí)現(xiàn)自監(jiān)督學(xué)習(xí),聚類方法的選用也是決定自監(jiān)督學(xué)習(xí)最終學(xué)習(xí)效果的關(guān)鍵一環(huán),本文將論述模糊聚類在自監(jiān)督學(xué)習(xí)領(lǐng)域的應(yīng)用。

【關(guān)鍵詞】 ? ?深度學(xué)習(xí) ? ?機(jī)器學(xué)習(xí) ? ?自監(jiān)督網(wǎng)絡(luò)

一、項(xiàng)目研究背景

目前,圖像分類技術(shù)吸引了企業(yè)界與學(xué)術(shù)界的深切關(guān)注,已被廣泛應(yīng)用于以下諸多領(lǐng)域:

1.1安防領(lǐng)域的人臉識(shí)別技術(shù)

人臉識(shí)別通過(guò)攝像頭捕捉待識(shí)別人臉并和數(shù)據(jù)庫(kù)中的人臉數(shù)據(jù)進(jìn)行比對(duì)來(lái)判斷其是否為目標(biāo)人員。該技術(shù)目前在安檢、移動(dòng)支付和手機(jī)解鎖等領(lǐng)域的應(yīng)用較多。

1.2交通領(lǐng)域的交通場(chǎng)景識(shí)別技術(shù)

交通場(chǎng)景分析識(shí)別是自動(dòng)駕駛?cè)蝿?wù)中最具挑戰(zhàn)的任務(wù)之一,該過(guò)程需要實(shí)時(shí)并且最夠精確的對(duì)目標(biāo)物體進(jìn)行分類來(lái)判斷其所代表的信息,進(jìn)而指導(dǎo)后續(xù)駕駛過(guò)程。

1.3醫(yī)學(xué)領(lǐng)域的醫(yī)學(xué)影像圖像分類技術(shù)

近年來(lái),隨著醫(yī)療水平的提高,國(guó)家愈加注重寄生蟲等疾病的預(yù)防和治療。但現(xiàn)有的檢測(cè)方法普及開來(lái)花銷是巨大的,不利于全國(guó)進(jìn)行普查。而深度學(xué)習(xí)中目標(biāo)檢測(cè)和圖像分類趨于成熟,則為各種寄生蟲甚至癌細(xì)胞的分類識(shí)別提供了可行性。

1.4國(guó)防領(lǐng)域

在一些危險(xiǎn)情況下,比如發(fā)生地震或?yàn)?zāi)后重建時(shí),可以通過(guò)使用無(wú)人機(jī)進(jìn)行實(shí)時(shí)的監(jiān)控來(lái)避免人員傷亡,而無(wú)人機(jī)偵查和航拍離不開圖像分類與識(shí)別技術(shù)的支持。圖像分類技術(shù)更是應(yīng)用在了多型戰(zhàn)機(jī)精準(zhǔn)打擊目標(biāo),圖像匹配制導(dǎo)和復(fù)雜戰(zhàn)場(chǎng)環(huán)境中的目標(biāo)識(shí)別等任務(wù)中。

綜上,可以看出圖像分類的廣闊應(yīng)用前景和巨大市場(chǎng)需求。但是隨著數(shù)據(jù)集數(shù)量的指數(shù)級(jí)爆炸增長(zhǎng),監(jiān)督學(xué)習(xí)采用的人工標(biāo)注[1]的缺陷也暴露出來(lái)。首先是代價(jià)太高,據(jù)統(tǒng)計(jì),各大搜索引擎如百度、谷歌的圖片庫(kù)圖片數(shù)量均已超過(guò)十億,F(xiàn)acebook網(wǎng)站平均每天上傳圖片量就達(dá)到了850萬(wàn)張,對(duì)如此龐大且實(shí)時(shí)更新的圖像數(shù)據(jù)庫(kù)進(jìn)行人工標(biāo)注,顯然是不可能實(shí)現(xiàn)的。

其次是圖像標(biāo)注不一致問(wèn)題[2],對(duì)于同一張圖像,不同研究方向由于需求的不同,其預(yù)期得到的標(biāo)簽也會(huì)不同。這使得一幅圖像的文本標(biāo)注關(guān)鍵詞可能有差異甚至千差萬(wàn)別,造成了主題缺失、產(chǎn)生歧義,難以形成圖片標(biāo)簽的統(tǒng)一化管理。因此,尋找其它圖像管理方式顯得尤為迫切。

二、當(dāng)前深度學(xué)習(xí)的相關(guān)工作

隨著深度學(xué)習(xí)在圖像分類領(lǐng)域不斷取得突破,為圖片分類問(wèn)題提供了新的思路和方法,其中具有代表性的有以下三種。

2.1監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)通過(guò)輸入帶標(biāo)簽數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò)。由于所輸入的數(shù)據(jù)集帶有標(biāo)簽,因此訓(xùn)練網(wǎng)絡(luò)可以通過(guò)尋找數(shù)據(jù)集的特征和標(biāo)簽之間的關(guān)系,來(lái)使學(xué)習(xí)網(wǎng)絡(luò)獲得較高的學(xué)習(xí)效果。從而對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行分類,獲得其預(yù)測(cè)結(jié)果。但由于數(shù)據(jù)集一般較大,在對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注時(shí),往往耗費(fèi)大量的人力物力。

2.2無(wú)監(jiān)督學(xué)習(xí)[4]

不同于監(jiān)督學(xué)習(xí),無(wú)監(jiān)督學(xué)習(xí)通過(guò)不使用帶標(biāo)簽的數(shù)據(jù)集來(lái)訓(xùn)練網(wǎng)絡(luò)。其通過(guò)對(duì)數(shù)據(jù)集特征進(jìn)行聚類來(lái)獲得數(shù)據(jù)集內(nèi)部各數(shù)據(jù)的特征,相比該類算法耗費(fèi)資源較小。例如:根據(jù)給定基因把人群分類[3]。我們可以通過(guò)測(cè)定DNA中一個(gè)特定基因的表達(dá)來(lái)將一組人分類,該種情境下我們僅需將其分類即可,盡管類別很多,但我們不需要將分好的類進(jìn)行標(biāo)記。

2.3遷移學(xué)習(xí)

遷移學(xué)習(xí)的研究來(lái)源于一個(gè)觀測(cè):人類可以將以前的學(xué)到的知識(shí)應(yīng)用于解決新的問(wèn)題,從而更快地解決問(wèn)題[1]。遷移學(xué)習(xí)被賦予這樣一個(gè)任務(wù):從以前的任務(wù)當(dāng)中學(xué)習(xí)知識(shí)或經(jīng)驗(yàn),并應(yīng)用于新的任務(wù)。

遷移學(xué)習(xí)可以通過(guò)將從一類源域任務(wù)中獲取的經(jīng)驗(yàn)應(yīng)用到另一類目標(biāo)域任務(wù)中去。例如,將貓雞分類的學(xué)習(xí)模型遷移到其它相似的任務(wù)上面,用來(lái)分辨老虎,或者是對(duì)應(yīng)的卡通圖像。但由于遷移方和被遷移方相似性的限制,即必須在足夠相似時(shí)才適用。

雖然監(jiān)督學(xué)習(xí)的效果最好,其在較多領(lǐng)域的識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了百分之九十以上,但由于其需要標(biāo)注大量數(shù)據(jù)集,該缺點(diǎn)很難通過(guò)算法改進(jìn)。而遷移學(xué)習(xí)的算法本質(zhì)也受限于應(yīng)用的場(chǎng)景。因此改進(jìn)無(wú)監(jiān)督學(xué)習(xí)算法,提升學(xué)習(xí)準(zhǔn)確率已經(jīng)成了當(dāng)前深度學(xué)習(xí)領(lǐng)域的重要研究方向之一。而自監(jiān)督學(xué)習(xí)則是無(wú)監(jiān)督學(xué)習(xí)領(lǐng)域?qū)W習(xí)效率最為突出的方法之一。

自監(jiān)督學(xué)習(xí)通過(guò)聚類的方法將無(wú)標(biāo)簽數(shù)據(jù)集進(jìn)行分類,然后從已經(jīng)分類的數(shù)據(jù)集中學(xué)習(xí)新的特征,達(dá)到學(xué)習(xí)遷移的效果。不同于遷移學(xué)習(xí)的是,其遷移是內(nèi)部學(xué)習(xí)經(jīng)驗(yàn)的轉(zhuǎn)化,不受學(xué)習(xí)情景相似性的限制。

三、關(guān)鍵技術(shù)以及相關(guān)工作

將模糊聚類應(yīng)用在自監(jiān)督學(xué)習(xí)領(lǐng)域,可以有效提高自監(jiān)督學(xué)習(xí)的準(zhǔn)確率,該方法主要用到了以下三種關(guān)鍵技術(shù)。

3.1基于深度學(xué)習(xí)的特征提取技術(shù)

隨著深度學(xué)習(xí)的不斷發(fā)展,我們用模型保存已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),利用效果優(yōu)異的CNN網(wǎng)絡(luò)模型,如VGGNet、Resnet網(wǎng)絡(luò)等進(jìn)行特征提取。網(wǎng)絡(luò)的適當(dāng)選取極為重要,比如可以選用resnet-34,resnet-50,resnet-101以及resnet-152網(wǎng)絡(luò)進(jìn)行特征提取,比較其最終效果,綜合考慮來(lái)選取特征提取網(wǎng)絡(luò)。

3.2模糊聚類算法

K均值聚類(K-means)與模糊C均值聚類(FCM)都是經(jīng)典的聚類算法,該算法具有排他性,即在數(shù)據(jù)集中的某個(gè)數(shù)據(jù)點(diǎn)與某個(gè)類別的從屬關(guān)系為百分百或零,不存在其他情況;而FCM算法中某個(gè)數(shù)據(jù)點(diǎn)與某個(gè)類別的從屬關(guān)系為任意百分比(0到1之間)。

因此FCM算法相較于K-means算法在類屬方面具有更好的折中性以及柔韌性,在數(shù)據(jù)集呈正態(tài)分布的情況下,具有更好的應(yīng)用性。

FCM算法作為一種較成熟的聚類算法,是眾多模糊聚類算法中應(yīng)用最廣泛且較成功的算法之一,其通過(guò)優(yōu)化目標(biāo)函數(shù),得到每個(gè)數(shù)據(jù)對(duì)所有類別的隸屬度,從而自動(dòng)地對(duì)樣本數(shù)據(jù)進(jìn)行分類,由于該算法良好的穩(wěn)定性、對(duì)離散型數(shù)據(jù)良好的適應(yīng)性,該算法在數(shù)據(jù)挖掘、圖像識(shí)別、目標(biāo)檢測(cè)等領(lǐng)域有廣泛應(yīng)用。

3.3自監(jiān)督學(xué)習(xí)

提取的特征經(jīng)過(guò)模糊聚類后,可以采用得到的隸屬度作為該數(shù)據(jù)的標(biāo)簽,作為自監(jiān)督學(xué)習(xí)的基礎(chǔ)。自監(jiān)督學(xué)習(xí)模塊的第二部分是自編碼網(wǎng)絡(luò),自編碼網(wǎng)絡(luò)是一種可以自動(dòng)從無(wú)標(biāo)注的數(shù)據(jù)集中學(xué)習(xí)新的特征,并重構(gòu)輸入信息的網(wǎng)絡(luò)。它可以給輸入信息賦予新學(xué)習(xí)的特征描述,從而可以用通過(guò)該網(wǎng)絡(luò)學(xué)習(xí)的特征來(lái)取代或增強(qiáng)原始數(shù)據(jù),以取得更好效果。

除此之外還可以通過(guò)讓提取的特征進(jìn)入自編碼網(wǎng)絡(luò)訓(xùn)練得到重構(gòu)信息,分析和原來(lái)輸入信息的差別距離,不斷拉近預(yù)期標(biāo)簽和模糊聚類標(biāo)簽之間的距離,達(dá)到自監(jiān)督學(xué)習(xí)的目的。

通過(guò)三種方法的結(jié)合,巧妙的利用了模糊聚類輸出結(jié)果的特點(diǎn),實(shí)現(xiàn)了自監(jiān)督學(xué)習(xí),避免了使用大量的標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練。在實(shí)際應(yīng)用中,既可以節(jié)省研發(fā)費(fèi)用,又降低了對(duì)于訓(xùn)練機(jī)器的要求。

四、模糊聚類與自監(jiān)督學(xué)習(xí)結(jié)合的優(yōu)勢(shì)

將模糊聚類方法與自監(jiān)督學(xué)習(xí)結(jié)合主要有以下兩方面的優(yōu)勢(shì):

1.針對(duì)數(shù)據(jù)集標(biāo)注昂貴、不一的問(wèn)題,可以采用自監(jiān)督方法解決,即采用模糊聚類方法為無(wú)標(biāo)記數(shù)據(jù)集打上軟標(biāo)簽。該類方法可充分發(fā)揮計(jì)算機(jī)的計(jì)算效率,無(wú)需人工干預(yù),這也正是未來(lái)深度學(xué)習(xí)和圖像分類問(wèn)題的發(fā)展趨勢(shì)。

2.針對(duì)缺乏身份標(biāo)簽導(dǎo)致的性能較低的問(wèn)題,可以采用多重自監(jiān)督,分層訓(xùn)練的方法,兩個(gè)自監(jiān)督的部分互相監(jiān)督,分層次訓(xùn)練,不斷優(yōu)化參數(shù),最后得的到結(jié)果將優(yōu)異于純粹的自監(jiān)督方法,以此解決由于自監(jiān)督學(xué)習(xí)無(wú)標(biāo)記數(shù)據(jù)導(dǎo)致的分類準(zhǔn)確度較低的問(wèn)題。

五、綜述

由于缺少身份標(biāo)簽的學(xué)習(xí),自監(jiān)督學(xué)習(xí)的性能和準(zhǔn)確度是要比監(jiān)督學(xué)習(xí)差一些,但是通過(guò)采用多重自監(jiān)督的策略,分層次不同時(shí)的訓(xùn)練,理論上就可以大幅度提升自監(jiān)督學(xué)習(xí)的性能。除此之外,在聚類方法的使用上也應(yīng)該加以甄別,在不同情境下,使用不同聚類的方法最終所能體現(xiàn)出的效果也會(huì)有所差異。

例如K-means方法雖然有簡(jiǎn)單、大型數(shù)據(jù)集下具有較高效率的特點(diǎn),但也會(huì)有聚類中心K值難以確定等缺點(diǎn);模糊聚類由于其隸屬度取值較多,對(duì)于滿足正態(tài)分布的數(shù)據(jù)聚類效果更好,但其也有可能陷入局部最優(yōu)解的缺點(diǎn)。因此要根據(jù)不同的情景來(lái)決定使用何種聚類方式進(jìn)行聚類。

通過(guò)將模糊聚類和自監(jiān)督學(xué)習(xí)結(jié)合建立圖像分類器,識(shí)別圖片中物體、場(chǎng)景、行為等信息,返回對(duì)應(yīng)標(biāo)簽信息。該技術(shù)可以應(yīng)用于圖像分類的各種領(lǐng)域,如當(dāng)前智能手機(jī)中圖庫(kù)照片自動(dòng)分類,或者在對(duì)圖像打軟標(biāo)簽之后,根據(jù)用戶瀏覽、拍攝、刪除的圖片類型,學(xué)習(xí)用戶喜好,針對(duì)性的進(jìn)行推薦搜索、推薦閱讀、推薦購(gòu)物等,具有很強(qiáng)的應(yīng)用價(jià)值。

參 ?考 ?文 ?獻(xiàn)

[1] Ozdenizci O , Wang Y , Koike-Akino T , et al. Transfer Learning in Brain-Computer Interfaces with Adversarial Variational Autoencoders[C]// 2019 9th International IEEE/EMBS Conference on Neural Engineering (NER). IEEE, 2019.

[2] David Monllaó Olivé, Huynh D Q , Reynolds M , et al. A supervised learning framework: using assessment to identify students at risk of dropping out of a MOOC[J]. Journal of Computing in Higher Education, 2019(1).

[3] Huang C J . Clustered defect detection of high quality chips using self-supervised multilayer perceptron[J]. Expert Systems with Applications, 2007, 33(4):996-1003.

[4]李亞麗, 王敏, 李靜. 基于半監(jiān)督學(xué)習(xí)的遷移學(xué)習(xí)方法[J]. 河南科技, 2014, 07(4):211-211.

范少帥(2000.12-),男,漢族,祖籍河北石家莊,本科在讀,現(xiàn)就讀于河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,研究方向:深度學(xué)習(xí)、圖像分類;

馬嘯天(2000.11-),男,漢族,祖籍河北邢臺(tái),本科在讀,現(xiàn)就讀于河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,研究方向:行人重識(shí)別;

張澤平(2001.04-),男,祖籍河北保定,本科在讀,現(xiàn)就讀于河北大學(xué)網(wǎng)絡(luò)空間安全與計(jì)算機(jī)學(xué)院,研究方向:目標(biāo)檢測(cè)。

本文是河北大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃資助項(xiàng)目,課題編號(hào):202010075206

猜你喜歡
機(jī)器學(xué)習(xí)深度學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
林西县| 石棉县| 聂荣县| 怀安县| 兴文县| 白沙| 佛山市| 乐清市| 荔波县| 唐海县| 利辛县| 台山市| 平江县| 荆门市| 瑞昌市| 大冶市| 民县| 成武县| 会同县| 永嘉县| 朝阳区| 昭觉县| 江津市| 青州市| 家居| 呈贡县| 东至县| 屯门区| 南溪县| 和顺县| 堆龙德庆县| 田阳县| 龙泉市| 汉阴县| 乌拉特后旗| 醴陵市| 拉孜县| 靖远县| 英吉沙县| 如皋市| 太原市|