劉子昂 蔣 雪 伍冬睿
在機(jī)器學(xué)習(xí)任務(wù)中,往往需要大量的有標(biāo)簽訓(xùn)練數(shù)據(jù)以獲得更好的性能.但是,在許多實(shí)際應(yīng)用場(chǎng)景中,獲取未標(biāo)注的數(shù)據(jù)相對(duì)容易,標(biāo)注過程卻很困難,通常需要投入大量的時(shí)間和經(jīng)濟(jì)成本.例如,在語音信號(hào)的情感估計(jì)問題中,可以很容易地記錄大量語音,但是要對(duì)語音進(jìn)行3 個(gè)維度(愉悅度、喚醒度和優(yōu)勢(shì)度)的評(píng)估[1],評(píng)估者必須反復(fù)傾聽,仔細(xì)檢查.此外,由于情感估計(jì)具有主觀性,而且部分?jǐn)?shù)據(jù)可能只存在細(xì)微差異,通常需要多個(gè)評(píng)估者,例如,素材來自于德國脫口秀節(jié)目Vera am Mittag (VAM)的語料庫[2]用到6~17 個(gè)評(píng)估者,國際情感數(shù)字化聲音 (第2 版)(International affective digitized sounds V2,IADS-2)[3]用到至少110個(gè)評(píng)估者.在石油和天然氣行業(yè)中,研究油井壓裂后180 天的累計(jì)產(chǎn)油量預(yù)測(cè)問題[4]有利于提高采收率,輸入信息(油井的壓裂參數(shù),例如油井位置、射孔長(zhǎng)度、區(qū)域/孔的數(shù)量、注入的泥漿/水/砂的體積等)可以在壓裂操作期間記錄,但要獲得地面產(chǎn)量(壓裂后180 天累計(jì)產(chǎn)油量),至少需要等待180 天.
在很多這樣的問題場(chǎng)景中,如何確定最優(yōu)的未標(biāo)注樣本進(jìn)行標(biāo)注是非常重要的.主動(dòng)學(xué)習(xí)(Active learning,AL)[5]可以用于解決此類問題,它通過選擇較少的有價(jià)值樣本進(jìn)行標(biāo)注,從而獲得性能較好的機(jī)器學(xué)習(xí)模型,減少了數(shù)據(jù)標(biāo)注工作.
主動(dòng)學(xué)習(xí)可用于分類問題和回歸問題.已有許多用于分類的AL 方法[5]相繼提出,但回歸任務(wù)中的AL 方法相對(duì)較少[6-20].這些主動(dòng)學(xué)習(xí)回歸(Active learning for regression,ALR)方法有基于流或基于池[13]的應(yīng)用場(chǎng)景,本文考慮的是后者,即給定一個(gè)未標(biāo)注樣本池,ALR 需要最優(yōu)地選擇一些樣本進(jìn)行標(biāo)注,從中訓(xùn)練出一個(gè)較好的線性回歸模型.
現(xiàn)有的大多數(shù)基于池的ALR 方法[6-12,14-15,19-20]都考慮的是較簡(jiǎn)單的有監(jiān)督場(chǎng)景,即能夠獲得少量帶標(biāo)簽的樣本,建立初始的回歸模型,然后根據(jù)模型選擇后續(xù)的樣本交給專家進(jìn)行標(biāo)注.經(jīng)過調(diào)研,我們只發(fā)現(xiàn)在4 項(xiàng)研究[13,16-18]中明確考慮了完全無監(jiān)督的基于池的ALR 場(chǎng)景(將在下一節(jié)中詳細(xì)介紹),即在沒有任何標(biāo)簽信息的情況下,選擇最有價(jià)值的初始樣本進(jìn)行標(biāo)注,這也是本文的重點(diǎn).
具體地說,本文考慮以下問題:在給定大小為N的未標(biāo)注樣本池中,如何最佳地選擇初始的M個(gè)樣本進(jìn)行標(biāo)注,從而構(gòu)建較好的線性回歸模型?這里的M是通過用戶指定(通常,隨著M變大,ALR 的優(yōu)勢(shì)會(huì)逐漸減弱).在本文中,我們僅關(guān)注線性回歸模型.
針對(duì)上述問題,本文提出了一種基于信息性-代表性-多樣性(Informativeness-representativeness-diversity,IRD)的ALR 方法.通過同時(shí)考慮主動(dòng)學(xué)習(xí)中的3 個(gè)重要標(biāo)準(zhǔn)[17]:信息性、代表性和多樣性,從而確定要查詢的M個(gè)初始樣本.在3 種不同的線性回歸模型和來自不同應(yīng)用領(lǐng)域的12 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,與3 種已提出的ALR 方法相比,本文提出的IRD 方法所選擇的M個(gè)樣本可以實(shí)現(xiàn)更好的性能.
本文的主要貢獻(xiàn)是:
1)提出了一種無監(jiān)督的ALR 方法,同時(shí)考慮要選擇的M個(gè)樣本的信息性、代表性和多樣性(這里M≤d+1,其中d是特征維數(shù)).根據(jù)調(diào)研,目前文獻(xiàn)中ALR 的信息性計(jì)算都必需輸出信息,還沒有無需輸出信息的信息性計(jì)算方法.因此,本文提出的方法是首個(gè)可考慮所選樣本信息性的完全無監(jiān)督ALR 方法,具有重要的理論創(chuàng)新性.
2)提出了一種迭代式的ALR 方法,同時(shí)考慮代表性和多樣性,在M>d+1 時(shí)選擇另外的M-d-1個(gè)樣本.
3)在3 種常見的線性回歸模型和12 個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn),證明了所提出的IRD 方法的優(yōu)越性能.
本文的組織架構(gòu)如下:第1 節(jié)介紹3 種現(xiàn)有的無監(jiān)督ALR 方法,并指出了它們的局限性;第2 節(jié)詳細(xì)介紹本文提出的IRD 算法;第3 節(jié)對(duì)在12 個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)進(jìn)行了討論和分析;最后,第4 節(jié)給出本文的結(jié)論.
Wu[17]提出了以下3 個(gè)基于池的有監(jiān)督ALR方法應(yīng)該考慮的標(biāo)準(zhǔn).這些標(biāo)準(zhǔn)也適用于無監(jiān)督的ALR 問題:
1)信息性.可以通過不確定性(熵、到?jīng)Q策邊界的距離、預(yù)測(cè)的置信度等)、模型改變期望(Expected model change)、誤差縮減期望(Expected error reduction)等來度量.
2)代表性.可以通過與目標(biāo)樣本相似或接近的樣本數(shù)量來度量.跟目標(biāo)樣本相似或接近的樣本越多,那么該目標(biāo)樣本代表性越強(qiáng).此標(biāo)準(zhǔn)優(yōu)先選擇靠近簇中心的樣本,或者分布稠密處的樣本,可防止選擇離群點(diǎn).例如在圖1 中,需要構(gòu)建一個(gè)回歸模型從輸入x1和x2中預(yù)測(cè)輸出.兩個(gè)實(shí)心的點(diǎn)是已經(jīng)選中的待標(biāo)注樣本,現(xiàn)在需要從空心的點(diǎn)中選出第3 個(gè)待標(biāo)注樣本.很顯然,從包含“A”的簇中選出一個(gè)樣本比選擇樣本“B”更好,因?yàn)椤癆”處樣本稠密,代表性強(qiáng),而樣本“B”遠(yuǎn)離其他樣本,很可能是個(gè)離群點(diǎn),選出后對(duì)構(gòu)建回歸模型有害無利,反而不如只用最初選出的兩個(gè)樣本的效果.
圖1 基于池的ALR 中樣本的代表性與多樣性[17]Fig.1 Illustration of representativeness and diversity in pool-based ALR[17]
3)多樣性.所選樣本應(yīng)盡可能分散在整個(gè)輸入空間中,而不是一個(gè)小的局部中,以便學(xué)習(xí)一個(gè)良好的全局模型.例如圖1 中,絕大部分樣本分布在3 個(gè)簇中,那么選擇3 個(gè)樣本時(shí),應(yīng)該從3 個(gè)簇中分別選出一個(gè),讓樣本更加多樣,而不是只從其中一個(gè)或兩個(gè)簇中選.
多樣性和代表性經(jīng)常會(huì)有一定的沖突,所以應(yīng)該折中平衡考慮.一個(gè)常用的方法是先對(duì)所有待選樣本聚類,然后選取不同簇中靠近簇中心的樣本,如下文中的RD 方法.
接下來,我們介紹3 種在文獻(xiàn)中已有的基于池的無監(jiān)督ALR 方法,并對(duì)照以上3 個(gè)標(biāo)準(zhǔn)對(duì)其進(jìn)行檢查.假設(shè)數(shù)據(jù)池由N個(gè)d維未標(biāo)注樣本xn=,n=1,2,···,N組成,用戶將從中選擇M個(gè)進(jìn)行標(biāo)注.
Sugiyama 等[13]提出了一種基于泛化誤差條件期望的重要性加權(quán)最小二乘方法(Pool-based active learning using the importance-weighted leastsquares learning based on conditional expectation of the generalization error,P-ALICE),這是一種無監(jiān)督的ALR 算法,用于選擇要標(biāo)注的初始少量樣本.其主要思想是識(shí)別M個(gè)樣本及其相關(guān)權(quán)重,計(jì)算訓(xùn)練樣本與測(cè)試樣本之間的協(xié)變量偏移,由這M個(gè)樣本構(gòu)建的加權(quán)線性回歸模型可以最小化N個(gè)樣本上的均方損失估計(jì)值.
設(shè)
其中,U-1∈Rd×d是U的逆,表示U-1的第(i,j)個(gè)元素.P-ALICE 首先定義關(guān)于λ的重采樣偏差函數(shù)
其中,λ∈[0,1],對(duì)于每個(gè)不同的λ,從樣本池中選擇M個(gè)未標(biāo)注樣本的概率與bλ(xn)成正比.將所選樣本表示為,那么,在 N 個(gè)樣本上的均方損失可以如下進(jìn)行估計(jì):
綜上所述,對(duì)照ALR 的3 個(gè)標(biāo)準(zhǔn),P-ALICE只考慮了信息性(均方損失估計(jì)值),沒有考慮代表性和多樣性.
Yu 等[16]提出了一種基于貪婪采樣(Greedy sampling,GS)的ALR 算法.在給定一個(gè)初始未標(biāo)注樣本的情況下,GS 不需要任何標(biāo)簽信息就可以選擇其他未標(biāo)注的樣本.但是,GS 初始至少需要一個(gè)確定的未標(biāo)注樣本,文中并沒有對(duì)第1 個(gè)樣本的選取進(jìn)行解釋.因此,Wu 等[18]提出了GSx 方法,將第1 個(gè)樣本指定為最接近N個(gè)未標(biāo)注樣本中心的樣本.接下來對(duì)GSx 算法進(jìn)行介紹.
再選擇具有最大dn的樣本進(jìn)行標(biāo)注.重復(fù)此過程,直到選擇的樣本數(shù)量達(dá)到M.
綜上所述,對(duì)照ALR 的3 個(gè)標(biāo)準(zhǔn),GSx 僅考慮多樣性,沒有考慮信息性和代表性.
Wu[17]提出了一種基于樣本代表性(Representativeness)和多樣性(Diversity)的方法,簡(jiǎn)稱RD.
RD 主要由兩部分組成:一部分是初始化(無監(jiān)督過程),另一部分是后續(xù)迭代(有監(jiān)督過程).RD的無監(jiān)督過程首先對(duì)N個(gè)未標(biāo)注樣本進(jìn)行k-means聚類(k=d+1),然后選擇最接近每個(gè)聚類中心的樣本進(jìn)行標(biāo)注.在文獻(xiàn)[15]中也使用過類似的方法.
顧名思義,RD 在初始化時(shí)僅考慮代表性和多樣性,沒有考慮信息性.
表1 中總結(jié)了P-ALICE、GSx 和RD 考慮的標(biāo)準(zhǔn).可見,這3 種方法都只考慮了ALR 的3 個(gè)基本標(biāo)準(zhǔn)中的1 個(gè)或2 個(gè).因此,仍有改進(jìn)的空間.
表1 基于池的無監(jiān)督ALR 方法中考慮的標(biāo)準(zhǔn)Table 1 Criteria considered in the three existing and the proposed unsupervised pool-based ALR approaches
本節(jié)對(duì)本文提出的基于池的無監(jiān)督ALR 算法--IRD 進(jìn)行介紹.顧名思義,IRD 同時(shí)考慮信息性、代表性和多樣性.
設(shè)M為要選擇的樣本數(shù)量,d為特征維數(shù).接下來分別討論IRD 算法在3 種情形(M=d+1,M <d+1,以及M>d+1)下的實(shí)現(xiàn).
對(duì)于d維特征數(shù)據(jù),通常需要選擇至少d+1 個(gè)樣本來構(gòu)造一個(gè)線性回歸模型f(x)=xTw+b,其中w∈Rd×1為回歸系數(shù),b為偏置.接下來從d=2維的特殊樣本開始,對(duì)IRD 的基本思想解釋說明(圖2).
圖2 當(dāng)d=2 時(shí)IRD 算法圖示Fig.2 Illustration of IRD whend=2
假設(shè)前兩個(gè)未標(biāo)注樣本x1和x2已確定,現(xiàn)在需要選擇第三個(gè)樣本.為了便于說明,記=[xn;yn]∈R(d+1)×1,n=1,···,N.
假設(shè)H′為通過和的d維最佳流形,并且能夠最佳地?cái)M合其余的N-2 個(gè)樣本.在無監(jiān)督問題中,H′是未知的,但如果給定所有,并要求H′必須通過和,那么一定會(huì)存在這樣的H′.
從圖2 中,可以得到:
因此,基于以上推導(dǎo)和可以在基于池的無監(jiān)督ALR 中使用的所有信息,可以近似得到:
式(10)從希望H和H′盡可能接近推導(dǎo)而來,因此這考慮了xn的信息性.此外,|xv-xn|也可以看作從xn到已確定樣本(在這里也就是和)之間的距離.要使θ變小,則需要|xv-xn|盡可能大,即式(10)也保證了所選樣本之間的多樣性.綜上所述,使用式(10)選擇第3 個(gè)樣本時(shí)同時(shí)考慮了信息性和多樣性.
但是,如果僅使用式(10)作為選擇第3 個(gè)樣本的準(zhǔn)則,它將始終選擇距離最遠(yuǎn)的樣本,那很有可能是一個(gè)離群點(diǎn).為了同時(shí)考慮到代表性,可以計(jì)算從xn到N個(gè)樣本的平均距離,結(jié)合到式(10)中,從而選擇最佳的樣本進(jìn)行標(biāo)注2我們還考慮了其他兼顧代表性、信息性和多樣性的方法,例如=,但這種方法會(huì)引入超參數(shù)λ,并且我們的實(shí)驗(yàn)表明,從最佳的λ獲得的性能要比式(11)差.因此,由于其簡(jiǎn)單性和準(zhǔn)確性,我們最終使用式(11)作為選擇準(zhǔn)則.:
當(dāng)d>2時(shí),同理,可以用 (d-1)維流形C來代替,所有已確定的 d個(gè)樣本都位于這個(gè)流形上.那么,可以將式(11)改寫為
其中,dist(xn,C)表示從xn到流形C的距離.
為了計(jì)算 dist(xn,C),首先需要找到一個(gè)垂直于C的向量w∈Rd×1,即滿足
類似于式(12)的方法尚未出現(xiàn)在ALR 中.在用于分類的AL 方法中,有一些用于選擇最接近當(dāng)前分類邊界的樣本(即具有最大不確定性的樣本)進(jìn)行標(biāo)注的方法[21-23],但是它們與式(12)有3 個(gè)顯著區(qū)別:
1)式(12)適用于回歸問題,而目前文獻(xiàn)中的選擇最接近當(dāng)前分類邊界樣本的方法[21-23]都是針對(duì)分類問題的.
2)式(12)是完全無監(jiān)督的,即只需要知道樣本的特征信息而無需知道其輸出.文獻(xiàn)中針對(duì)分類問題的方法[21-23]都是有監(jiān)督的,要求必須提供一些有標(biāo)注的樣本來初始化分類器,從而計(jì)算待選樣本到分類界面的距離.
3)式(12)同時(shí)考慮了待選樣本的信息性和多樣性,而傳統(tǒng)分類問題中的方法[21-23]只考慮信息性.
上述方法是在前d個(gè)樣本確定的情況下,選擇第 (d+1)個(gè)樣本.第 (d+1)個(gè)樣本的最優(yōu)性還取決于前d個(gè)樣本的最優(yōu)性.
因此,本小節(jié)提出一種交替優(yōu)化方法,以迭代方式優(yōu)化第d+1 樣本:首先通過GSx 或RD 算法確定前d個(gè)樣本,再通過式(12)選擇第 (d+1)個(gè)樣本.然后反復(fù)固定d個(gè)樣本,使用式(12)優(yōu)化每個(gè)樣本xt(t=1,···,d+1).重復(fù)此過程,直到選擇的樣本收斂或者達(dá)到最大迭代次數(shù).
在M=d+1 情形下,IRD 的偽代碼如算法1所示.
情形1 中考慮的是M=d+1,即所選樣本數(shù)量剛好等于特征數(shù)加1,這是一種非常特殊的情況.實(shí)際上M可能小于d+1,在這種情況下,式(12)中的d-1 維流形C不能唯一確定,因此不能直接由式(12)得到.
對(duì)于這種情形,本小節(jié)提出一種新的處理方法:首先,對(duì)N個(gè)樣本xn進(jìn)行主成分分析(Principal component analysis,PCA),并確定前M-1 個(gè)主成分,然后將每個(gè)xn替換為其在M-1 個(gè)主成分方向的投影.則式(12)可以在轉(zhuǎn)換后的xn上進(jìn)行計(jì)算.
在M<d+1 情形下,IRD 的偽代碼如算法2所示.
本小節(jié)考慮M>d+1 的情況.
首先,使用算法1 初始化d+1 個(gè)樣本,然后繼續(xù)確定另外的M-d-1 個(gè)樣本:使用k-means 聚類 (k=M-d-1)在剩余的N-d-1 個(gè)樣本中得到M-d-1 個(gè)簇,然后從每個(gè)簇中選擇一個(gè)樣本.這類似于RD 方法,但本文提出一種改進(jìn)方法:不是直接選擇最接近每個(gè)聚類中心的樣本,而是使用迭代的方法來選擇剩余的M-d-1 個(gè)樣本.
不失一般性,假設(shè)前d+1 個(gè)樣本已通過算法1 確定,接下來的M-d-2 個(gè)樣本也暫時(shí)確定(例如最接近其簇中心的樣本),要優(yōu)化將從第(Md-1)個(gè)簇中選擇的第M個(gè)樣本.對(duì)于這個(gè)簇中的每個(gè)xn,將其與這個(gè)簇中其他樣本的平均距離的倒數(shù)作為其代表性.記S為第 (M-d-1)個(gè)簇中樣本的索引.則xn的代表性可以表示為
其中,|S|是S中元素的個(gè)數(shù).
將xn到M-1 個(gè)已選樣本的最小距離作為其多樣性的度量,即
再結(jié)合代表性和多樣性:
選擇樣本
來代替第M個(gè)樣本.對(duì)每一個(gè)重復(fù)此過程,直到不再更新樣本或達(dá)到最大迭代次數(shù).
在M>d+1 情形下,IRD 的偽代碼如算法3所示.
為了驗(yàn)證文中提出的基于池的無監(jiān)督ALR 算法IRD 的有效性,在12 個(gè)數(shù)據(jù)集和3 種線性回歸模型上進(jìn)行了實(shí)驗(yàn).本節(jié)將對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析討論.
本文使用了12 個(gè)來自不同應(yīng)用領(lǐng)域的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其基本情況如表2 所示.
表2 12 個(gè)數(shù)據(jù)集的總結(jié)Table 2 Summary of the 12 regression datasets
其中9 個(gè)數(shù)據(jù)集來自UCI 機(jī)器學(xué)習(xí)數(shù)據(jù)庫3http://archive.ics.uci.edu/ml/index.php,2個(gè)來自CMU StatLib Datasets Archive4http://lib.stat.cmu.edu/datasets/.這些數(shù)據(jù)集在其他的ALR 實(shí)驗(yàn)[7-8,16-18]中也用過.其中兩個(gè)數(shù)據(jù)集(autoMPG 和CPS)同時(shí)包含數(shù)字型和類別型特征,因此首先使用one-hot 編碼進(jìn)行處理,將類別型特征轉(zhuǎn)換為數(shù)字型特征,再進(jìn)行ALR實(shí)驗(yàn).
本文還使用了一個(gè)公開的情感計(jì)算數(shù)據(jù)集:VAM (Vera am Mittag)數(shù)據(jù)庫[2],這個(gè)數(shù)據(jù)庫也得到了廣泛應(yīng)用[20,24-27].它包含來自47 位講話者的947條情感語音樣本,從中提取了46 個(gè)聲學(xué)特征[26-27],其中包括9 個(gè)音高特征、5 個(gè)持續(xù)時(shí)間特征、6 個(gè)能量特征和26 個(gè)MFCC 特征,對(duì)情感的3 個(gè)維度(愉悅度、喚醒度和優(yōu)勢(shì)度)進(jìn)行預(yù)測(cè).在本文實(shí)驗(yàn)中,只將喚醒度作為回歸輸出.
對(duì)于每個(gè)數(shù)據(jù)集,采用z-score 對(duì)輸入的每一維進(jìn)行標(biāo)準(zhǔn)化.
本文將IRD (cmax=5)與以下4 種算法進(jìn)行g(shù)http://archive.ics.uci.edu/ml/datasets/energy+efficiencyhhttps://dblp.uni-trier.de/db/conf/icmcs/icme2008.html
ihttps://archive.ics.uci.edu/ml/datasets/Concrete+Compressive+Strengthjhttps://archive.ics.uci.edu/ml/datasets/Airfoil+Self-Noisekhttps://archive.ics.uci.edu/ml/datasets/Wine+Quality比較:
1)隨機(jī)采樣(Random sampling,RS):隨機(jī)選擇M個(gè)樣本進(jìn)行標(biāo)注.
2)P-ALICE:在第1.1 節(jié)中已經(jīng)介紹.參數(shù)λ從 {0,0.1,0.2,0.3,0.4,0.41,0.42,···,0.59,0.6,0.7,0.8,0.9,1} 中選擇最佳的一個(gè).
3)GSx:在第1.2 節(jié)中已經(jīng)介紹.
4)RD:在第1.3 節(jié)中已經(jīng)介紹.
對(duì)于每個(gè)數(shù)據(jù)集,每一次重復(fù)實(shí)驗(yàn)隨機(jī)選擇50%的樣本作為樣本池,其余50%作為測(cè)試集,每種算法從完全未標(biāo)注的樣本池中選擇M∈[5,15] 個(gè)樣本進(jìn)行標(biāo)注,然后建立線性回歸模型.所有實(shí)驗(yàn)均重復(fù)100 次.
在測(cè)試集上進(jìn)行預(yù)測(cè),使用均方根誤差(Root mean squared error,RMSE)和相關(guān)系數(shù)(Correlation coefficient,CC)作為性能評(píng)價(jià)指標(biāo).
對(duì)于每種方法,訓(xùn)練3 個(gè)不同的線性回歸模型5對(duì)普通最小二乘法(Ordinary least squares,OLS)回歸也進(jìn)行了嘗試,IRD 依然取得了最佳表現(xiàn).但當(dāng)訓(xùn)練樣本較少時(shí),OLS 非常不穩(wěn)定,因此在實(shí)際中不是一個(gè)合理的選擇,本文不討論其結(jié)果.:
1)嶺回歸(Ridge regression,RR),L2 正則化系數(shù)λ=0.5.由于選擇的樣本數(shù)量很少,本文使用較大的λ以減小回歸模型的方差.
2)LASSO,L1 正則化系數(shù)λ=0.5.
3)線性支持向量回歸(Support vector regression,SVR),?=0.1×std(y)(std(y)是M個(gè)選擇樣本真實(shí)標(biāo)簽的標(biāo)準(zhǔn)差),box constraintC=1.SVR 包含L2 正則項(xiàng),其等效正則化系數(shù)為,與RR 和LASSO 中的大小相同.
在后面的小節(jié)中主要給出了RR 模型上的結(jié)果,因?yàn)樗腞MSE 和CC 通常比LASSO 和線性SVR 更穩(wěn)定,尤其對(duì)于RS 方法而言.但是,如第3.5節(jié)所示,當(dāng)使用LASSO 或線性SVR 時(shí),IRD 相對(duì)于其他算法(尤其是RS)的提升效果可能更大.
圖3 中展示了使用RR 作為回歸模型,在12 個(gè)數(shù)據(jù)集上5 種采樣方法的平均RMSE 和CC6由于頁面限制,只展示了RR 的詳細(xì)結(jié)果,因?yàn)樗ǔ1憩F(xiàn)更穩(wěn)定.其他兩個(gè)回歸模型上的結(jié)果類似..
圖3 12 個(gè)數(shù)據(jù)集上的平均RMSE 和CC (mRMSE 和mCC;重復(fù)運(yùn)行100 次)(回歸模型為RR (λ=0.5))Fig.3 Mean of the RMSEs and the CCs on the 12 datasets,averaged over 100 runs (RR (λ=0.5)was used as the regression model)
通常,隨著M的增加,5 種采樣方法的RMSE和CC 也會(huì)隨之得到改善,因?yàn)橛懈嗟挠?xùn)練樣本加入回歸訓(xùn)練,逐漸提升了回歸性能.但仍然可能會(huì)存在一些波動(dòng),尤其是在樣本數(shù)量較少的情況下.因?yàn)閮H從少量標(biāo)注樣本中訓(xùn)練得到的線性回歸模型可能存在很多隨機(jī)性和不確定性.
在大多數(shù)數(shù)據(jù)集和大多數(shù)M取值上,RS 和GSx 具有更大的RMSE 和更小的CC,即它們的性能相對(duì)于另外3 種算法較差.IRD 在大多數(shù)數(shù)據(jù)集和大多數(shù)M取值上都取得了最小的RMSE 和最大的CC,表明IRD 是表現(xiàn)最佳的樣本選擇方法.
為了更全面地進(jìn)行比較,我們還計(jì)算了100 次重復(fù)實(shí)驗(yàn)RMSE 和CC 平均值的曲線下面積(Area under curve,AUC),分別記為AUC-mRMSE 和AUC-mCC,結(jié)果如圖4(a)所示.由于不同數(shù)據(jù)集上AUC 的大小差異很大,不便在一張圖中展示,因此根據(jù)RS 的結(jié)果進(jìn)行了歸一化處理,使圖4(a)中RS 的結(jié)果始終為1.圖4(a)表明:
圖4 12 個(gè)數(shù)據(jù)集上歸一化AUC-mRMSE 和AUC-mCCFig.4 Normalized AUCs of the mean RMSEs and the mean CCs on the 12 datasets
1)IRD 在12 個(gè)數(shù)據(jù)集中的10 個(gè)上均獲得了最小的RMSE,在其余兩個(gè)數(shù)據(jù)集中排名第2.平均而言,IRD 取得了最小的RMSE.它在10 個(gè)數(shù)據(jù)集上也取得了最大的CC,在其余2 個(gè)數(shù)據(jù)集上排名第2 和第3.平均而言,IRD 也取得了最大的CC.
2)平均而言,RD 的性能略優(yōu)于P-ALICE,兩者均優(yōu)于RS.
3)GSx 在7 個(gè)數(shù)據(jù)集上的RMSE 表現(xiàn)最差,在另外3 個(gè)數(shù)據(jù)集上排名倒數(shù)第二,平均而言,GSx 的RMSE 最差.它在6 個(gè)數(shù)據(jù)集中的CC 也是最低,因此其CC 平均值也最低.
因此,5 種算法的性能整體排名是:IRD>RD>P-ALICE>RS>GSx.
表3 中展示了3 個(gè)回歸模型、5 種無監(jiān)督采樣方法在12 個(gè)數(shù)據(jù)集上的平均AUC 情況.當(dāng)M較小時(shí),GSx 表現(xiàn)較差的原因可能是其選擇的樣本大多是離群點(diǎn),而離群點(diǎn)的負(fù)面影響超過了GSx 多樣性的正面影響.IRD 同時(shí)考慮了信息性、代表性和多樣性,因此表現(xiàn)最好.
除了準(zhǔn)確性,算法的穩(wěn)定性也很重要.實(shí)際情況中,如果多種算法具有相似的性能,通常首選變化較小,也就是更穩(wěn)定的算法.表3 展示了運(yùn)行100次的AUC-mRMSE 和AUC-mCC 在12 個(gè)數(shù)據(jù)集上的平均標(biāo)準(zhǔn)差(Standard deviation,std)提升結(jié)果.可以看到,IRD 在標(biāo)準(zhǔn)差上相對(duì)于RS 的提升最大,即它是最穩(wěn)定的ALR 方法.
表3 AUC-mRMSE/sRMSE 和AUC-mCC/sCC 的提升百分比Table 3 Percentage improvements of the AUCs of the mean/std RMSEs and the mean/std CCs
對(duì)于不同的M,我們統(tǒng)計(jì)了P-ALICE、GSx、RD 和IRD 對(duì)應(yīng)的RMSE (CC)相對(duì)于RS 的比率,重復(fù)100 次實(shí)驗(yàn)在12 個(gè)數(shù)據(jù)集上取平均,結(jié)果如圖5 所示.可見,當(dāng)M較小時(shí),IRD 相對(duì)于其他4 種方法的提升很大,因?yàn)镮RD 同時(shí)考慮了信息性、代表性和多樣性.隨著M的增加,IRD 的優(yōu)越性逐漸下降,因?yàn)殡S著標(biāo)注樣本數(shù)量的增加,每個(gè)樣本最優(yōu)性的影響就會(huì)減小.
圖5 對(duì)于不同的M,4 種ALR 方法的mRMSE 和mCC 相對(duì)于RS 在12 個(gè)數(shù)據(jù)集上的平均比率Fig.5 Ratios of the mean RMSEs and the mean CCs for differentM,averaged across 12 datasets
當(dāng)使用LASSO 和線性SVR 作為線性回歸模型時(shí),我們也重復(fù)了上述實(shí)驗(yàn).結(jié)果如圖4(b)和圖4(c)所示.可以得到和圖4(a)類似的結(jié)論,例如IRD 始終取得最佳的平均性能,而RD 則優(yōu)于P-ALICE、RS 和GSx.此外,整體看來,相對(duì)于RR,4 種ALR算法(特別是IRD)在這兩個(gè)模型上相對(duì)于RS 的性能提升更為明顯.
為了量化4 種無監(jiān)督ALR 算法相對(duì)于RS 的改善效果,我們也計(jì)算了其AUC-mRMSE 和AUC-m CC 的提升百分比,如表3 所示.無論使用哪種線性回歸模型或性能指標(biāo),IRD 的平均表現(xiàn)都優(yōu)于其他4 種方法.
為了確定IRD 與其他4 種算法之間的性能差異是否具有統(tǒng)計(jì)意義,我們使用Dunn 檢驗(yàn)[28]對(duì)幾種方法的AUC-mRMSE 和AUC-mCC 在12 個(gè)數(shù)據(jù)集上的平均值進(jìn)行了非參數(shù)多重比較檢驗(yàn),使用錯(cuò)誤發(fā)現(xiàn)率(False discovery rate)方法[29]進(jìn)行p值校正.結(jié)果如表4 所示,其中具有統(tǒng)計(jì)意義的結(jié)果以粗體標(biāo)出.
表4 非參數(shù)多重檢驗(yàn)的p值(α=0.05 ;如果p <α/2 拒絕H0).Table 4 p-values of non-parametric multiple comparisons (α=0.05 ;rejectH0ifp<α/2)
結(jié)果表明,無論使用哪種線性回歸模型,IRD的RMSE 和CC 相對(duì)于RS、P-ALICE 和GSx 的提升始終具有統(tǒng)計(jì)學(xué)意義;相對(duì)于RD,CC 的提升具有統(tǒng)計(jì)學(xué)意義;使用線性SVR 時(shí),RMSE 的提升也具有統(tǒng)計(jì)學(xué)意義.
為了更直觀地了解不同ALR 算法選擇樣本之間的差異,我們?cè)谝粋€(gè)典型數(shù)據(jù)集(Housing)上使用t-SNE[30]將樣本映射到2 維空間.圖6 展示了3個(gè)不同的M值對(duì)應(yīng)的4 種ALR 算法選擇的樣本.P-ALICE 的樣本權(quán)重在繪圖中沒有顯示.
圖6 中,GSx 傾向于選擇位于邊界的樣本,這樣的樣本很有可能是離群點(diǎn),且所選樣本的分布情況與池中的樣本不一致.因此,它的平均性能在4種算法中是最差的.與GSx 相比,P-ALICE 和RD選擇的樣本在池中分布更均勻.IRD 選擇的樣本傾向于靠近池的邊界,但不完全位于邊界,這樣的樣本不太可能是異常點(diǎn),并且選擇的樣本的分布情況與池中樣本更一致.這些都可能是IRD 表現(xiàn)較好的原因.
圖6 在Housing 數(shù)據(jù)集上不同ALR 算法所選樣本(星號(hào))的t-SNE 可視化Fig.6 t-SNE visualization of the selected samples(asterisks)from different ALR approaches on Housing dataset
算法1~3 中有一個(gè)重要參數(shù):cmax,即最大迭代次數(shù).當(dāng)cmax=0 時(shí),IRD 等效于RD.本小節(jié)通過設(shè)置cmax>0 來探究IRD 的性能是否優(yōu)于RD.
圖7 展示了在3 種線性回歸模型上,cmax∈[0,10]的歸一化AUC (相對(duì)于RS)的變化趨勢(shì),這是在12 個(gè)數(shù)據(jù)集上重復(fù)100 次 實(shí)驗(yàn)的平均結(jié)果.如圖所示,IRD 的性能隨著cmax的增加而迅速提升,并且總是在cmax=5 之前就達(dá)到了最優(yōu),這意味著IRD 是一種既有效又高效的算法.
圖7 對(duì)于不同的cmax,4 種ALR 算法的AUC-mRMSE和AUC-mCC 相對(duì)于RS 在12 個(gè)數(shù)據(jù)集上的平均比率Fig.7 Ratios of AUCs of the mean RMSEs and the mean CCs for differentcmax,averaged across 12 datasets
為了研究5 種無監(jiān)督采樣方法的性能對(duì)3 個(gè)線性回歸模型正則化系數(shù)的敏感性,我們對(duì)λ ∈{0.01,0.05,0.1,0.5,1}進(jìn)行了重復(fù)實(shí)驗(yàn).線性SVR有一個(gè)等價(jià)的L2 正則化系數(shù),等效設(shè)置為C ∈{50,10,5,1,0.5}.將每種采樣方法在不同參數(shù)回歸模型下的AUC 結(jié)果相對(duì)于RS (λ=0.5)進(jìn)行歸一化,如圖8 所示.
圖8 對(duì)于不同的λ(RR 和LASSO)和C(線性SVR),4 種ALR 算法的AUC-mRMSE 和AUC-mCC 相對(duì)于RS 在12 個(gè)數(shù)據(jù)集上的平均比率Fig.8 Ratios of the AUCs of the mean RMSEs and the mean CCs,averaged across 12 datasets,for differentλ(RR and LASSO)andC(linear SVR)
整體來看,5 種無監(jiān)督采樣方法的性能首先隨著λ的增大而提高,然后下降.然而,無論λ(C)取值為多少,IRD 的表現(xiàn)通常都是最好的,RD 次優(yōu).當(dāng)λ較小時(shí),IRD 相對(duì)于其他4 種方法的提升更大.此外,可以看出IRD 對(duì)參數(shù)λ不是很敏感,這將有利于實(shí)際應(yīng)用.
為了研究信息性、代表性和多樣性分別對(duì)IRD的影響,我們將IRD 與三個(gè)變體進(jìn)行比較:
1)IRD (cmax=5):本文提出的方法,在第2節(jié)中已介紹.
2)ID:當(dāng)M=d+1 時(shí),只考慮式(12)的分母部分;當(dāng)M>d+1 時(shí),只考慮式(17)中的D(xn).即只考慮信息性和代表性.
3)RD:等同于cmax=0 時(shí)使用RD 進(jìn)行初始化的IRD.即只考慮代表性和多樣性.
對(duì)于M∈[5,15],每種方法在12 個(gè)數(shù)據(jù)集上運(yùn)行100 次,訓(xùn)練3 種線性回歸模型:RR (λ=0.5)、LASSO (λ=0.5)和線性SVR (C=1).圖9 展示了對(duì)于不同的M取值,IRD 及變體的RMSE 和CC 相對(duì)于RS 的平均比率.3 個(gè)回歸模型上的結(jié)論是類似的.通常,3 種ALR 方法都優(yōu)于RS.IRD 仍然表現(xiàn)最好,這表明同時(shí)考慮信息性、代表性和多樣性至關(guān)重要.
圖9 對(duì)于不同的M,IRD 及其變體的mRMSE 和mCC相對(duì)于RS 在12 個(gè)數(shù)據(jù)集上的平均比率Fig.9 Ratios of the mean RMSEs and the mean CCs w.r.t.differentM,averaged across 12 datasets
主動(dòng)學(xué)習(xí)通過選擇最有價(jià)值的樣本進(jìn)行標(biāo)注,從而利用較少的訓(xùn)練數(shù)據(jù)就可以建立較好的機(jī)器學(xué)習(xí)模型.這在許多實(shí)際應(yīng)用中有著重要的作用,因?yàn)閿?shù)據(jù)的標(biāo)注過程往往需要耗費(fèi)大量的時(shí)間和經(jīng)濟(jì)成本.大多數(shù)現(xiàn)有的主動(dòng)學(xué)習(xí)方法是有監(jiān)督的:能夠從少量的標(biāo)注樣本中建立一個(gè)初始的模型,基于模型查詢新的數(shù)據(jù),然后進(jìn)行迭代更新.本文考慮了線性回歸中完全無監(jiān)督的基于池的主動(dòng)學(xué)習(xí)問題,即在完全不知道任何標(biāo)簽信息的情況下,最優(yōu)地選擇初始的少量樣本進(jìn)行標(biāo)注.文中提出一種新的主動(dòng)學(xué)習(xí)算法IRD,該算法同時(shí)考慮了主動(dòng)學(xué)習(xí)中的3 個(gè)重要標(biāo)準(zhǔn):信息性、代表性和多樣性.在來自于不同應(yīng)用領(lǐng)域的12 個(gè)數(shù)據(jù)集和3 種不同的線性回歸模型(RR、LASSO 和線性SVR)上進(jìn)行了大量實(shí)驗(yàn),充分驗(yàn)證了本文提出方法的有效性.