国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM 的遷移學(xué)習(xí)方法在互聯(lián)網(wǎng)金融網(wǎng)頁分類中的應(yīng)用*

2023-09-12 09:01謝林燕劉紀偉
通信技術(shù) 2023年7期
關(guān)鍵詞:超平面業(yè)態(tài)網(wǎng)頁

謝林燕,劉紀偉,張 玉,張 峰

(國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心河北分中心,河北 石家莊 050021)

0 引言

互聯(lián)網(wǎng)技術(shù)迅速發(fā)展,互聯(lián)網(wǎng)金融作為一種新生的金融形式逐漸發(fā)展起來。互聯(lián)網(wǎng)金融網(wǎng)頁的業(yè)態(tài)識別是互聯(lián)網(wǎng)金融監(jiān)測預(yù)警與風(fēng)險防范的核心基礎(chǔ)。然而在實際中頻繁出現(xiàn)新興金融業(yè)態(tài),相關(guān)網(wǎng)頁數(shù)量較少,其中只有少量的網(wǎng)頁經(jīng)過人工標注。面對當(dāng)前新興互聯(lián)網(wǎng)金融業(yè)態(tài)網(wǎng)頁訓(xùn)練樣本過少的情況,如何實現(xiàn)對互聯(lián)網(wǎng)金融網(wǎng)頁的高效業(yè)態(tài)判定成為關(guān)注熱點。

網(wǎng)頁分類主要立足于文本分類,機器學(xué)習(xí)是網(wǎng)頁分類的一種常見方法,集中體現(xiàn)在網(wǎng)頁的特征選取、數(shù)據(jù)的特征表達上。文獻[1]提出了一種基于樸素貝葉斯協(xié)調(diào)分類器綜合網(wǎng)頁結(jié)構(gòu)信息及內(nèi)容文本的分類方法,通過組合分類器的方法,使分類性能得到了一定程度的提高。文獻[2]主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進行文本分類,提出用于句子分類的單卷積層的卷積神經(jīng)網(wǎng)絡(luò)(Text CNN),利用多個大小不同的卷積核來并行地提取不同的 n-gram 信息,然后對其進行最大池化(Max Pooling)操作提取重要的特征,從而完成分類。文獻[3]提出了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Network,RCNN)模型,有效解決了固定窗口的卷積操作使得每一個詞向量的上下文受限的問題,實驗證明該模型在文本分類中普遍優(yōu)于單獨的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)或CNN 模型。文獻[4]設(shè)計了基于深度學(xué)習(xí)的高效網(wǎng)頁分類算法框架,利用深度神經(jīng)網(wǎng)絡(luò),搭建了一種多通道輸入、復(fù)合特征抽取結(jié)構(gòu)的分類模型,有效地提高了網(wǎng)頁分類的準確率。

深度學(xué)習(xí)的優(yōu)勢主要依賴于其大數(shù)據(jù)的提取能力,在樣本量足夠的情況下,深度學(xué)習(xí)往往可以取得較好的效果。然而對于互聯(lián)網(wǎng)金融網(wǎng)頁來說,數(shù)據(jù)量不足會導(dǎo)致模型出現(xiàn)過擬合的問題。因此,針對小數(shù)據(jù)集的小樣本學(xué)習(xí)技術(shù)是解決互聯(lián)網(wǎng)金融網(wǎng)頁分類問題的關(guān)鍵。文獻[5]通過對傳統(tǒng)支持向量機(Support Vector Machine,SVM)算法模型進行調(diào)整,引入新的參數(shù)控制模型超平面的位置,以緩解正負樣本不平衡對分類準確率的影響。文獻[6]提出基于主動學(xué)習(xí)的半監(jiān)督支持向量機學(xué)習(xí)算法,以少量的有標記數(shù)據(jù)來訓(xùn)練初始學(xué)習(xí)器,通過主動學(xué)習(xí)策略來選擇最佳訓(xùn)練樣本,并通過刪除非支持向量來降低學(xué)習(xí)代價,獲得較好的學(xué)習(xí)效果。文獻[7]提出了一種基于遷移學(xué)習(xí)與權(quán)重支持向量機的圖像自動標注方法,解決了所選數(shù)據(jù)集規(guī)模較小,無法訓(xùn)練出最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)的問題。文獻[8]基于遷移學(xué)習(xí)算法對SVM 模型進行優(yōu)化(Transferlearning-Support Vector Machine,TLSVM),通過使用目標域少量已標記數(shù)據(jù)和大量相關(guān)領(lǐng)域的舊數(shù)據(jù)來為目標域構(gòu)建一個高質(zhì)量的分類模型。

關(guān)于小樣本學(xué)習(xí),目前常用的有基于數(shù)據(jù)增強和基于遷移學(xué)習(xí)的方法?;跀?shù)據(jù)增強的方法,主要是利用輔助數(shù)據(jù)集或者輔助信息增強目標數(shù)據(jù)集中樣本的特征,或者擴充目標數(shù)據(jù)集,使模型能夠更好地提取特征[9]。基于遷移學(xué)習(xí)的方法,主要是運用已存有的知識對不同但相關(guān)的領(lǐng)域問題進行求解的一種新的機器學(xué)習(xí)方法。它放寬了傳統(tǒng)機器學(xué)習(xí)中的兩個基本假設(shè),目的是遷移已有的知識來解決目標領(lǐng)域中僅有少量有標簽樣本數(shù)據(jù)甚至沒有的學(xué)習(xí)問題[10]。

通過上述分析,為了準確、快速地對互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)進行識別,本文在遷移學(xué)習(xí)和數(shù)據(jù)增強方法的基礎(chǔ)上,通過調(diào)整超平面位置改進SVM算法,實現(xiàn)對小數(shù)據(jù)集的訓(xùn)練與檢測。實驗結(jié)果表明,本文提出的基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法對于互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)識別具有較好的分類效果,能夠有效檢測出已知業(yè)態(tài)的金融網(wǎng)頁,從而加強對各類金融網(wǎng)頁的關(guān)注,強化風(fēng)險防范,促進互聯(lián)網(wǎng)金融發(fā)展。

1 TL-SVM

SVM 是Corinna Cortes 和Vapnik 等 人[11]于1995 年提出的,主要用來解決小樣本、非線性及高維模式的識別。該方法是以統(tǒng)計學(xué)習(xí)理論(Statistical Learning Theory,SLT)[12]的VC 維理論和結(jié)構(gòu)風(fēng)險最小原理為基礎(chǔ)建立起來的,其本身的優(yōu)化目標并非經(jīng)驗風(fēng)險最小,而是結(jié)構(gòu)化風(fēng)險最小,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳的折衷方案,以期獲得最好的推廣泛化能力[13]。

文獻[8]提出的TL-SVM 算法的核心理論是:若兩領(lǐng)域相關(guān),則其各自分類器的ω值應(yīng)相近,因此在SVM 目標式中增加遷移項μ||ωt-ωs||2。

式中:C為懲罰因子,代表算法對于分類錯誤樣本的容忍程度;代表第i個樣本的分類損失。

該算法在目標領(lǐng)域訓(xùn)練分類模型時引入了源領(lǐng)域知識ωs,在目標函數(shù)構(gòu)建的過程中利用源領(lǐng)域和目標領(lǐng)域知識最接近的遷移學(xué)習(xí)項,實現(xiàn)有效遷移學(xué)習(xí)。然而,當(dāng)源領(lǐng)域和目標領(lǐng)域相關(guān)性較小時,則會出現(xiàn)負遷移現(xiàn)象,即遷移過程完成后實現(xiàn)的分類效果差于僅利用目標領(lǐng)域已標記數(shù)據(jù)的監(jiān)督分類效果。

2 基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法

2.1 數(shù)據(jù)增強

數(shù)據(jù)增強[14](Data Augmentation,DA)改善了深度學(xué)習(xí)中數(shù)據(jù)不足的場景,在不實質(zhì)性地增加數(shù)據(jù)的情況下,讓有限的數(shù)據(jù)產(chǎn)生等價于更多數(shù)據(jù)的價值。其原理是,通過對原始數(shù)據(jù)融入先驗知識,加工出更多數(shù)據(jù)的表示,有助于模型判別數(shù)據(jù)中的統(tǒng)計噪聲,減少模型過擬合。其主要的方向是增加訓(xùn)練數(shù)據(jù)的多樣性,從而提高模型泛化能力。小樣本學(xué)習(xí)的主要問題是樣本量過少,從而導(dǎo)致樣本多樣性不足以刻畫完整樣本分布,可以通過樣本增強來提升樣本多樣性?;跀?shù)據(jù)增強的方法是利用輔助數(shù)據(jù)集或者輔助信息對目標數(shù)據(jù)集進行數(shù)據(jù)擴充或特征增強,使模型能更好擬合。數(shù)據(jù)擴充可以是無標簽或者合成帶標簽數(shù)據(jù);特征增強是在原樣本的特征空間中添加便于分類的特征,增加特征多樣性,從而降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。

在樣本少、分布不均衡的情況下,可以通過數(shù)據(jù)增強[15]擴充訓(xùn)練數(shù)據(jù)的量,降低樣本間的不均衡性,提高模型的泛化能力,使模型的魯棒性更高。數(shù)據(jù)增強技術(shù)包括回譯(Back Translation)、隨機詞替換、非核心詞替換、基于上下文信息的數(shù)據(jù)增強和基于語言生成模型的數(shù)據(jù)增強5 種經(jīng)典方案。其中,基于隨機詞替換的數(shù)據(jù)增強方法類似于圖像增強技術(shù)中的隨機裁剪、圖像縮放,通常是隨機地選擇文本中一定比例的詞,對其進行同義詞替換、刪除等簡單操作。本文采用基于隨機詞替換的簡單數(shù)據(jù)增強(Easy Data Augmentation,EDA)[15]文本增強方法實現(xiàn)數(shù)據(jù)增強,主要包含以下4 種操作:

(1)同義詞替換(Synonym Replacement,SR):從句子中隨機選擇非停用詞,用隨機選擇的同義詞替換這些單詞。

(2)隨機插入(Random Insertion,RI):隨機找出句子中某個不屬于停用詞集的詞,并求出其隨機的同義詞,將該同義詞插入句子的一個隨機位置,重復(fù)n次。

(3)隨機交換(Random Swap,RS):隨機選擇句子中兩個單詞并交換它們的位置,重復(fù)n次。

(4)隨機刪除(Random Deletion,RD):以概率p隨機刪除句子中某個單詞。

2.2 基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法

由于標記樣本數(shù)量不足,因此在模型訓(xùn)練過程中可提供的有效信息不均衡,同時,基于SVM 算法的分類,在樣本數(shù)量少、無法準確預(yù)估負類樣本存在空間的情況下,引入?yún)?shù)主動調(diào)整分類超平面的位置,使其靠近正類樣本,為負類樣本預(yù)留較大的存在空間,以此提高分類的準確率。基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法實現(xiàn)了領(lǐng)域間參數(shù)的遷移,原理如圖1 所示,其優(yōu)化目標函數(shù)的表達式為:

圖1 基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法檢測流程

式中:調(diào)整超平面的程度通過參數(shù)λ進行控制,若λ較大,則源領(lǐng)域和目標領(lǐng)域的分類超平面非常接近;若λ較小,則源領(lǐng)域和目標領(lǐng)域的分類超平面相對獨立。

對于優(yōu)化目標函數(shù),列出如下說明:

(1)式(2)中前兩項分別表示目標領(lǐng)域數(shù)據(jù)的結(jié)構(gòu)風(fēng)險項和經(jīng)驗風(fēng)險項。

(2)||ωt-ωs||2表示目標領(lǐng)域與源領(lǐng)域的差異程度,數(shù)值越大表示分類器之間的差異越大,反之表示二者相似,μ為協(xié)調(diào)系數(shù)。

式中:α=(α1,α2,…,αn)T和β=(β1,β2,…,βn)T為拉格朗日系數(shù)。

依據(jù)KKT[16](Karush-Kuhn-Tucker)條件,對ωt,和bt求偏導(dǎo)數(shù),推導(dǎo)如下:

將式(4)、式(5)代入式(3),化簡后可得對偶問題形式如下:

2.3 基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法流程

(2)利用二次規(guī)劃原理求得目標域拉格朗日系數(shù)αt=(α1,α2,…,αn)T;

(3)根據(jù)式(4)求得決策超平面法向量ωt;

(5)構(gòu)建劃分超平面ωtxt+bt=0,輸出分類決策函數(shù)

綜上,基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法檢測流程如圖1 所示。

3 實驗與分析

為評價驗證基于超平面位置調(diào)優(yōu)SVM 的遷移學(xué)習(xí)算法在互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)分類中的效果,實驗采用從互聯(lián)網(wǎng)收集到的金融網(wǎng)頁為評測數(shù)據(jù)集,該數(shù)據(jù)集包含451 個互聯(lián)網(wǎng)金融網(wǎng)頁,涉及4 個金融業(yè)態(tài)下的8 個金融子業(yè)態(tài),表1 為金融業(yè)態(tài)與相關(guān)網(wǎng)頁的數(shù)量。每兩個金融業(yè)態(tài)分別作為正樣本和負樣本,基于子業(yè)態(tài)進行檢測,學(xué)習(xí)任務(wù)的具體情況如表2 所示。在目標領(lǐng)域選取源領(lǐng)域訓(xùn)練集數(shù)量的20%作為目標領(lǐng)域的訓(xùn)練集,構(gòu)成遷移學(xué)習(xí)任務(wù)。實驗主要從非遷移、遷移和基于超平面位置調(diào)優(yōu)SVM 的遷移3 個角度來進行,從而展現(xiàn)所提分類算法的優(yōu)勢。

表1 金融業(yè)態(tài)與相關(guān)網(wǎng)頁數(shù)量

表2 學(xué)習(xí)任務(wù)具體情況

3.1 評價指標

本文采用正確率(Precision)、召回率(Recall)和綜合指標F1-指數(shù)(F1)來評測互聯(lián)網(wǎng)金融網(wǎng)頁檢測的性能。其中,正確率P表示返回結(jié)果中正確的比例,召回率R表示所有正確結(jié)果中返回的比例。在檢測結(jié)果中,如表3 所示,假設(shè)檢測到的互聯(lián)網(wǎng)金融網(wǎng)頁中,相關(guān)網(wǎng)頁的數(shù)量為a,不相關(guān)網(wǎng)頁的數(shù)量為b;在未檢測到的互聯(lián)網(wǎng)金融網(wǎng)頁中,相關(guān)網(wǎng)頁的數(shù)量為c,不相關(guān)網(wǎng)頁的數(shù)量為d。

表3 評價指標

其中,測試數(shù)據(jù)中與金融業(yè)態(tài)相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為a+c,不相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為b+d。檢測結(jié)果中,判定與金融業(yè)態(tài)相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為a+b,不相關(guān)的互聯(lián)網(wǎng)金融網(wǎng)頁數(shù)目為c+d。關(guān)于實驗中的數(shù)據(jù)集,源領(lǐng)域和目標領(lǐng)域的樣本均為已標記信息,但目標領(lǐng)域樣本的標記信息僅用于評價各算法的分類性能。正確率P、召回率R和綜合指標F1 的計算方法如下:

3.2 實驗設(shè)計與結(jié)果分析

本文將各類業(yè)態(tài)互聯(lián)網(wǎng)金融網(wǎng)頁按照test_size=0.5,劃分為訓(xùn)練集和測試集。同時,按照目標域訓(xùn)練樣本總數(shù)20%的比例,選取目標域中的數(shù)據(jù)集作為目標域訓(xùn)練集,剩余為目標領(lǐng)域測試集,實現(xiàn)遷移學(xué)習(xí)。

本文實驗中所有算法的最優(yōu)參數(shù)均通過網(wǎng)格搜索的方式來確定。其中懲罰因子Ct,μ的選取參照文獻[8]的設(shè)定策略,即因目標域參與訓(xùn)練的樣本數(shù)量少,應(yīng)盡量保證分類的正確性,因此Ct在(0.01,0.05,0.1,0.5,1,5,10,20,50)中選最 優(yōu);μ在(0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1)中選最優(yōu)。

通過超平面位置調(diào)整參數(shù)λ,實現(xiàn)對超平面的最優(yōu)位置的選定,從而實現(xiàn)對互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)識別的準確度。實驗采用本文提出的基于超平面位置優(yōu)化SVM 的遷移學(xué)習(xí)算法,通過調(diào)整λ的值,確定超平面位置對互聯(lián)網(wǎng)金融網(wǎng)頁業(yè)態(tài)分類的影響情況。由于本文主要針對小數(shù)據(jù)集的小樣本學(xué)習(xí),考慮到提高數(shù)據(jù)分類的正確率便于后續(xù)分類模型的優(yōu)化,若λ較大,則源領(lǐng)域和目標領(lǐng)域的分類超平面非常接近,出現(xiàn)誤報的概率增大;若λ較小,則源領(lǐng)域和目標領(lǐng)域的分類超平面相對獨立,可有效保證分類的正確率。為保證超平面位置向正類樣本靠近,為負類樣本留出更大的存在可能性空間,λ的取值范圍為(0,1)。

本文實驗采用源領(lǐng)域與目標領(lǐng)域已標記樣本合集作為SVM 的訓(xùn)練集進行訓(xùn)練,標記為SVM-ST,利用此方法與遷移學(xué)習(xí)方法做比較,同時,將本文提出的方法與文獻[8]中提出的TL-SVM 方法做比較,用以說明本文所提方法的優(yōu)越性。3 種方法在6 個學(xué)習(xí)任務(wù)中的分類性能比較如表4 所示。

表4 3 種方法性能比較

根據(jù)實驗結(jié)果,得出以下結(jié)論:

(1)通過對比3 個實驗的結(jié)果發(fā)現(xiàn),遷移學(xué)習(xí)方法的引入對分類效果有明顯提升,對比SVMST 分類方法,正確率提升較為明顯,TL-SVM 算法較SVM-ST 算法的分類正確率提升了3.2%,F(xiàn)1 測試值提升了0.4%;基于超平面位置調(diào)優(yōu)SVM 遷移算法較SVM-ST 算法的分類正確率提升了4.0%,F(xiàn)1 測試值提升了0.9%,說明遷移學(xué)習(xí)方法在相似領(lǐng)域的數(shù)據(jù)分類中,優(yōu)勢更明顯。

(2)通過對比TL-SVM 算法和SVM-ST 算法的實驗結(jié)果,發(fā)現(xiàn)對于源領(lǐng)域與目標領(lǐng)域關(guān)聯(lián)性較低的數(shù)據(jù)集(網(wǎng)絡(luò)借貸vs 網(wǎng)絡(luò)銀行),TL-SVM 的分類正確率反而降低了,說明TL-SVM 在處理數(shù)據(jù)負遷移方面有所欠缺。

(3)通過對比TL-SVM 和基于超平面位置調(diào)優(yōu)SVM 遷移算法的實驗結(jié)果,發(fā)現(xiàn)通過調(diào)整超平面位置,使其向正類樣本靠近,保證了分類的正確率。基于超平面位置調(diào)優(yōu)SVM 遷移算法較TL-SVM算法的分類正確率提升了0.8%,F(xiàn)1 測試值提升了0.5%,說明通過數(shù)據(jù)增強和分類超平面位置調(diào)整,在樣本數(shù)量少、無法準確預(yù)估負類樣本存在空間的情況下,分類超平面主動靠近正類樣本,保證了分類的正確性。

4 結(jié)語

本文提出了基于超平面位置調(diào)優(yōu)的SVM 遷移算法。該方法通過分類調(diào)整超平面位置,使其充分靠近正類樣本,結(jié)合數(shù)據(jù)增強技術(shù),實現(xiàn)對小數(shù)據(jù)集的訓(xùn)練與檢測,對于數(shù)據(jù)量不足的互聯(lián)網(wǎng)金融網(wǎng)頁來說,有效解決了模型出現(xiàn)過擬合的問題。實驗結(jié)果表明,基于超平面位置調(diào)優(yōu)的SVM 遷移算法在小樣本的情況下能夠提高檢測性能指標。

猜你喜歡
超平面業(yè)態(tài)網(wǎng)頁
為新業(yè)態(tài)撐起“社保傘”勢在必行
全純曲線的例外超平面
涉及分擔(dān)超平面的正規(guī)定則
這15種新業(yè)態(tài)、9 個新職業(yè)“拍了拍你聰明的小腦瓜”
以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
播客Podcast業(yè)態(tài)分析
分擔(dān)超平面的截斷型亞純映射退化性定理