国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Prefix-LSDPM:面向小樣本的在線學(xué)習(xí)會話退出預(yù)測模型

2023-11-06 12:34:52王占全
關(guān)鍵詞:掩碼向量學(xué)習(xí)者

陳 芮, 李 飛, 王占全

(華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237)

在智慧教育領(lǐng)域中,學(xué)生輟學(xué)預(yù)測(Student Dropout Prediction, SDP)[1]研究被廣泛重視,研究者們使用定量和定性方法分析學(xué)生的整體學(xué)習(xí)過程,并預(yù)測其課程輟學(xué)概率。然而目前針對在線學(xué)習(xí)會話退出預(yù)測(Learning Session Dropout Prediction, LSDP)任務(wù)的相關(guān)研究仍然較少[2]。Lee 等[3]在2020年經(jīng)調(diào)研發(fā)現(xiàn)當(dāng)時還未有關(guān)于MOOC 中學(xué)習(xí)環(huán)節(jié)退出的預(yù)測研究,因此對移動學(xué)習(xí)環(huán)境下的學(xué)習(xí)環(huán)節(jié)輟學(xué)預(yù)測問題進(jìn)行了定義。LSDP 旨在預(yù)測學(xué)習(xí)者在智能輔導(dǎo)系統(tǒng)(Intelligent Tutoring System, ITS)中的學(xué)習(xí)退出行為,能夠挖掘?qū)W習(xí)者退出學(xué)習(xí)的具體時機。與SDP 相比,LSDP 能夠提供更細(xì)粒度的結(jié)果,有助于智能輔導(dǎo)系統(tǒng)及時采取干預(yù)措施以維持學(xué)習(xí)者的學(xué)習(xí)狀態(tài),輔助學(xué)習(xí)者繼續(xù)完成當(dāng)前學(xué)習(xí)項目或推薦學(xué)習(xí)路徑的下一個學(xué)習(xí)項目,提高學(xué)習(xí)者的學(xué)習(xí)效率。已有的LSDP 相關(guān)研究中仍存在以下難點:(1)與SDP 相比,LSDP 對預(yù)測的即時性和準(zhǔn)確率要求更高;(2)LSDP 是基于實時產(chǎn)生的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行預(yù)測,缺乏大規(guī)模的平行數(shù)據(jù),難以訓(xùn)練高質(zhì)量的模型;(3)學(xué)習(xí)會話相較于課程,退出頻率更高,學(xué)習(xí)行為數(shù)據(jù)更具有碎片性,預(yù)測難度更高。

本質(zhì)上,LSDP 任務(wù)屬于學(xué)習(xí)序列分析問題。在近期研究中,同屬于該類問題的知識追蹤[4-5]、教育資源推薦[6-7]等任務(wù)在基于預(yù)訓(xùn)練-微調(diào)范式的方法中取得了較好的效果。微調(diào)(Fine-tuning)是在大型預(yù)訓(xùn)練模型的基礎(chǔ)上訓(xùn)練下游任務(wù)的主流范式[8],需要在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步更新和存儲模型的所有參數(shù),需要為每個任務(wù)存儲完整的模型參數(shù)副本。即使預(yù)訓(xùn)練模型已經(jīng)能夠獲得不錯的詞向量表示能力,在不同的下游任務(wù)中也需要通過對應(yīng)的訓(xùn)練數(shù)據(jù)進(jìn)行微調(diào)。為了在下游任務(wù)上獲得優(yōu)異的性能,F(xiàn)ine-tuning 需要的數(shù)據(jù)規(guī)模與預(yù)訓(xùn)練模型的參數(shù)規(guī)模成正相關(guān)。因此,預(yù)訓(xùn)練-微調(diào)范式模型訓(xùn)練所需的參數(shù)量和數(shù)據(jù)量是巨大的,例如基礎(chǔ)的BERT 模型需要108 M 參數(shù)[9],經(jīng)過大幅度降參優(yōu)化后基礎(chǔ)的ALBERT(A Lite BERT)模型也需要12 M 參數(shù)[10]。在缺乏足夠平行數(shù)據(jù)的情況下,基于預(yù)訓(xùn)練-微調(diào)范式的模型難以達(dá)到理想的預(yù)測效果。而在實際的ITS(Intelligent Tutoring System)場景中,學(xué)習(xí)者的在線學(xué)習(xí)行為的平行數(shù)據(jù)往往很少,導(dǎo)致通過微調(diào)的方法訓(xùn)練得到的模型的準(zhǔn)確率較低。

最近,基于提示學(xué)習(xí)的訓(xùn)練范式[11]在多個任務(wù)上展現(xiàn)了出色的小樣本性能。提示學(xué)習(xí)凍結(jié)預(yù)訓(xùn)練模型的部分參數(shù)并添加極少量的可訓(xùn)練參數(shù)用于適配不同的下游任務(wù),從而大幅減少了訓(xùn)練下游任務(wù)時需要更新的參數(shù)量,降低了對訓(xùn)練數(shù)據(jù)量的要求,即使在極少的訓(xùn)練數(shù)據(jù)情況下也能夠達(dá)到較好的效果。因此,基于提示學(xué)習(xí)的訓(xùn)練范式更能夠適應(yīng)在線教育平臺的小樣本學(xué)習(xí)要求。由于LSDP 任務(wù)將學(xué)習(xí)者在線學(xué)習(xí)會話行為特征序列化后作為輸入,無需采用自然語言形式的提示模板,因此,采用連續(xù)提示向量的前綴提示(Prefix-tuning)[12]是提示學(xué)習(xí)范式中最適合LSDP 任務(wù)的方法。Prefix-tuning 在原始輸入的詞中嵌入向量和在預(yù)訓(xùn)練模型中的Query 和Key 向量之前添加額外的連續(xù)提示向量,從而影響后面的向量表示。與微調(diào)全部預(yù)訓(xùn)練模型的參數(shù)相比,Prefix-tuning 只需訓(xùn)練額外添加的提示參數(shù),能夠保證小樣本條件下的預(yù)測效果。

為了解決現(xiàn)實場景中因訓(xùn)練數(shù)據(jù)不足導(dǎo)致的在線學(xué)習(xí)會話退出預(yù)測準(zhǔn)確率較低的問題,本文提出了一種基于Prefix-tuning 的小樣本學(xué)習(xí)會話退出預(yù)測模型(Prefix-Learning Session Dropout Prediction Model,Prefix-LSDPM)。該模型利用Prefix-tuning 學(xué)習(xí)框架在大規(guī)模預(yù)訓(xùn)練語言模型的基礎(chǔ)上挖掘并建模同一學(xué)習(xí)行為特征間的關(guān)系和連續(xù)學(xué)習(xí)行為間的上下文隱含關(guān)聯(lián),實現(xiàn)了小樣本場景下高準(zhǔn)確率的在線學(xué)習(xí)會話退出預(yù)測。

1 基于Prefix-tuning 的在線學(xué)習(xí)會話退出預(yù)測模型

1.1 任務(wù)定義

在LSDP 任務(wù)中,不僅要關(guān)注學(xué)習(xí)者執(zhí)行同一動作的特征上下文,也要注意學(xué)習(xí)者前后動作上下文。在此設(shè)置下,將學(xué)習(xí)者在線學(xué)習(xí)會話相關(guān)屬性進(jìn)行形式化定義。學(xué)習(xí)者Un在學(xué)習(xí)過程中會產(chǎn)生多個學(xué)習(xí)會話Sm(m∈{1,2,···,M} ),在一個學(xué)習(xí)會話過程中,學(xué)習(xí)者連續(xù)參與學(xué)習(xí)活動,對在線教育平臺中各模塊進(jìn)行訪問和交互,進(jìn)行連續(xù)請求動作。每個Sm由多個學(xué)習(xí)行為At(t∈{1,2,···,T} )組成。每個學(xué)習(xí)行為At包含多個學(xué)習(xí)行為特征fi(i∈{1,2,···,I} )。

在每個學(xué)習(xí)階段中,當(dāng)學(xué)習(xí)者在足夠長的時間內(nèi)不出現(xiàn)新的學(xué)習(xí)動作和活動時,代表發(fā)生了學(xué)習(xí)中途退出,標(biāo)志著學(xué)習(xí)會話的結(jié)束,記為學(xué)習(xí)會話退出。Halfaker 等[13]研究了各個領(lǐng)域的用戶行為數(shù)據(jù),提出了一種用于識別用戶活動集群的方法,研究得出對用戶行為聚類效果最好的時間閾值為1 h。本文引用其研究結(jié)果作為學(xué)習(xí)會話退出的閾值,即當(dāng)用戶最后一次交互行為發(fā)生后1 h 內(nèi)仍未發(fā)生新的交互時,則標(biāo)記該交互行為為退出行為。LSDP 任務(wù)即對學(xué)習(xí)者在線學(xué)習(xí)過程中執(zhí)行當(dāng)前行為時退出概率的估計,如式(1)所示。

其中dt表示會話退出狀態(tài)。當(dāng)學(xué)習(xí)者Un在當(dāng)前發(fā)生行為At時退出當(dāng)前會話,則At對應(yīng)的dt取值為1,否則取值為0。將學(xué)習(xí)者連續(xù)學(xué)習(xí)行為特征以鍵值對的形式序列化為x,由k個行為組成的序列x包含k組學(xué)習(xí)行為特征,其中以鍵值對的形式輸入,如式(2)所示。

由θ參數(shù)化的LSDP 模型建模為Pθ(dt|x)。當(dāng)輸入為x時,取Pθ(dt|x)最大時的dt作為輸出。

1.2 Prefix-tuning

Fine-tuning 與Prefix-tuning 框架對比如圖1 所示。其中:X、Y分別為模型的輸入和輸出序列,eX為輸入向量經(jīng)過3 種嵌入轉(zhuǎn)換的嵌入向量,e[P+X]為提示序列與輸入序列的組合序列經(jīng)過3 種嵌入轉(zhuǎn)換的嵌入向量,P為提示序列。在預(yù)訓(xùn)練參數(shù)權(quán)重的基礎(chǔ)上,F(xiàn)ine-tuning 針對下游任務(wù)訓(xùn)練并重新調(diào)整所有參數(shù)。與Fine-tuning 模式不同的是,Prefix-tuning 凍結(jié)預(yù)訓(xùn)練權(quán)重參數(shù),僅通過調(diào)優(yōu)前綴向量Prefix 以適應(yīng)下游任務(wù),大幅降低調(diào)優(yōu)訓(xùn)練所涉及的參數(shù)量。

圖1 微調(diào)和前綴提示框架對比Fig.1 Comparison of fine-tuning and prefix-tuning frameworks

Transformer 是預(yù)訓(xùn)練-微調(diào)范式與預(yù)訓(xùn)練-提示范式的基本結(jié)構(gòu),它由L層堆疊塊組成,每層包含多頭注意(Multi-Head Attention, MHA)和全連接前饋網(wǎng)絡(luò)(Feed-Forward Network, FFN),注意函數(shù)由查詢Q∈Rn×dk和鍵值對K∈ Rm×dk、V∈ Rm×dk映射得到,如式(3)所示,其中n和m分別是查詢Q和鍵值對K、V的數(shù)量。

Prefix-tuning 將r個可調(diào)前綴向量Pk、Pv∈Rr×e與Transformer 本身的K、V連接,設(shè)置于每一層Multi-head 的鍵K和值V之前,對新的向量K'、V'進(jìn)行多頭注意,如圖2 所示。

圖2 Prefix-tuning 在Transformer 結(jié)構(gòu)上的優(yōu)化Fig.2 Optimization of Prefix tuning on Transformer structure

式(4)中headi的計算優(yōu)化為式(6),其中和表示第i個頭部提示向量,Concat 表示矩陣拼接。

1.3 Prefix-LSDPM

Prefix-LSDPM 的主要架構(gòu)如圖3 所示。Prefix-LSDPM 將提示序列作為前綴設(shè)置于學(xué)習(xí)行為特征輸入序列之前,將學(xué)習(xí)會話退出狀態(tài)目標(biāo)序列設(shè)置于輸入序列之后。凍結(jié)預(yù)訓(xùn)練模型參數(shù)權(quán)重,在改進(jìn)的Transformer 網(wǎng)絡(luò)中通過雙向、單向混合注意模式對合成序列進(jìn)行掩碼,充分挖掘?qū)W習(xí)者單個學(xué)習(xí)行為內(nèi)部特征及連續(xù)學(xué)習(xí)行為之間的隱含關(guān)聯(lián),生成激活函數(shù)后以最大化退出狀態(tài)預(yù)測正確概率為目標(biāo)更新迭代前綴提示參數(shù)。以下分別從提示模板設(shè)置、小樣本掩碼學(xué)習(xí)、退出狀態(tài)預(yù)測映射三方面對Prefix-LSDPM 進(jìn)行詳細(xì)描述。

圖3 Prefix-LSDPM 主要架構(gòu)Fig.3 Main framework of Prefix-LSDPM

1.3.1 提示模板設(shè)置 將連續(xù)學(xué)習(xí)行為特征組以鍵值對的形式序列化為x,提示序列記為Prefix,x對應(yīng)的學(xué)習(xí)會話退出狀態(tài)目標(biāo)序列記為dt。將Prefix 作為前綴序列與輸入序列x和目標(biāo)序列dt依序串聯(lián)為序列z= [Prefix;x;dt],作為Prefix-LSDPM 的輸入序列,如圖3 中的輸入token 所示。其中[SOS]作為起始符添加在每個輸入序列前,[ACT]定義為不同行為之間的特殊分隔符,[EOS]用于標(biāo)記每段序列的結(jié)束以分隔三段序列。

將z以token 嵌入(token embeddings)、分段嵌入 (segment embeddings)和位置嵌入 (position embeddings)這3 種方式嵌入embeding。其中token embedding 將各個行為特征值轉(zhuǎn)換成固定維度的token 向量;segment embeddings 將學(xué)習(xí)行為序列分段標(biāo)記為向量表示,以區(qū)分不同學(xué)習(xí)行為;position embedding 的向量表示使模型學(xué)習(xí)到輸入序列token 的順序?qū)傩?,不同位置上的向量可能存在相同token 內(nèi)容,但具有不同的含義。嵌入后,得到連續(xù)提示序列矩陣Pe、輸入序列矩陣Xe和目標(biāo)序列矩陣De連接組成的輸入矩陣[Pe;Xe;De]∈,該合成矩陣框架即為Prefix-LSDPM 的提示模板。其中Pidx、Xidx、Didx分別為Prefix、x、dt的token 索引,|Pidx|、|Xidx|、|Didx|表示對應(yīng)序列包含的token 數(shù)。

1.3.2 小樣本掩碼學(xué)習(xí) 合成矩陣[Pe;Xe;De]輸入圖2 所示的L層Transformer 網(wǎng)絡(luò),將一定比例的輸入token 隨機掩碼為[MASK],通過預(yù)測這些掩碼token 以學(xué)習(xí)和理解行為特征序列關(guān)系。在如圖3 所示的L層Transformer 網(wǎng)絡(luò)中利用多頭注意力學(xué)習(xí)行為特征隱藏向量的深度雙向表示。掩碼矩陣M決定一對token 是否可以相互關(guān)注,如式(7)所示,其中自注意力掩碼方式如圖4 所示。

圖4 自注意力掩碼Fig.4 Self-attention mask

掩碼矩陣M的Prefix 列全部設(shè)置為0,表示Prefix 內(nèi)部能夠互相關(guān)注,且能夠注意到后續(xù)x和dt的token 內(nèi)容。x列中,Prefix 行設(shè)置為 -∞ ,x行與dt行設(shè)置為0,表示x無法關(guān)注到Prefix 中的token,x內(nèi)部向量能夠互相關(guān)注,且能注意到后序dt的token。dt列中,Prefix 行與x行全部設(shè)置為 -∞ ,dt行右上角部分設(shè)置為 -∞ ,表示dt無法關(guān)注到Prefix 和x中的token,且在dt內(nèi)部單向注意?;谠撗诖a矩陣M的注意模式,將dt作為監(jiān)督信號,凍結(jié)預(yù)訓(xùn)練參數(shù),僅更新提示參數(shù)矩陣Pe以最大化dt的概率。

時間步s對應(yīng)的激活函數(shù)hs∈ Rd,其中,hs=表示時間步s第j層的激活向量。沿用預(yù)訓(xùn)練模型的參數(shù)權(quán)重PLMφ,以z的第s個token 及左側(cè)上下文中的激活函數(shù)來計算hs,如式(8)所示:

其中Pθ∈R|Pidx|×dim(hs)為由參數(shù)θ形成的前綴激活函數(shù)矩陣。PLM 的參數(shù) ? 是固定的,只有參數(shù)θ為可訓(xùn)練參數(shù)。相比于整體微調(diào),前綴提示調(diào)優(yōu)減少了總體訓(xùn)練涉及的參數(shù)量,為小樣本學(xué)習(xí)的快速收斂提供了基礎(chǔ)。將提示序列設(shè)置于序列前端,即使參數(shù)?固定不變,提示后序的所有激活函數(shù)仍然能夠受到前綴提示激活函數(shù)的影響。因此,每一個hs均能夠影響并訓(xùn)練Pθ。hs的最后一層用于計算下一個token 的概率分布。

其中W?為將激活函數(shù)映射至詞匯表的矩陣。以最大化當(dāng)前學(xué)習(xí)行為對應(yīng)的學(xué)習(xí)會話退出狀態(tài)正確概率Pθ(dt|z)作為目標(biāo),優(yōu)化提示參數(shù)θ,訓(xùn)練得到Prefix-LSDPM。

1.3.3 退出狀態(tài)預(yù)測映射 在下游任務(wù)進(jìn)行學(xué)習(xí)會話退出預(yù)測時,模型按照提示模板以前綴形式與輸入學(xué)習(xí)行為特征序列連接,并在輸入序列后端進(jìn)行Mask 掩碼,基于參數(shù)θ生成激活函數(shù),通過softmax分類器映射生成退出狀態(tài)預(yù)測的概率分布,將概率最大的退出狀態(tài)映射至[MASK]作為預(yù)測輸出。例如,給定一組學(xué)習(xí)特征序列,模型按照提示模板將提示序列p以前綴形式與輸入序列連接,將學(xué)習(xí)退出狀態(tài)進(jìn)行Mask 后輸入的token序列為[SOS]p[EOS][ACT][EOS][MASK] [EOS]。這些掩碼后的token 序列經(jīng)過多層Transformer 得到的隱藏層向量依次為h[SOS]、hp、h[SOS]、、h[ACT]、,h[EOS]、h[MASK],接著隱藏向量h[MASK]被輸入到softmax分類器中進(jìn)行線性分類,生成退出狀態(tài)預(yù)測的概率分布Pθ(dt|z)。最后,預(yù)測概率最大的token 被追加到序列以替換[MASK],序列結(jié)尾的[EOS]出現(xiàn)即標(biāo)志著預(yù)測結(jié)束,停止生成激活函數(shù),該token 即作為當(dāng)前學(xué)習(xí)行為序列中最后一個與行為對應(yīng)的學(xué)習(xí)會話退出狀態(tài)預(yù)測結(jié)果。

2 實驗設(shè)置

2.1 數(shù)據(jù)集

實驗基于3 個數(shù)據(jù)集進(jìn)行研究,分別為EdNet[14]、XuetangX 1、XuetangX2。其中EdNet 數(shù)據(jù)來自大型英語在線教育平臺Santa,XuetangX 1 和XuetangX2 數(shù)據(jù)來自目前中國最大的MOOC 平臺之一“學(xué)堂X”(https://xuetangx.com)。數(shù)據(jù)集具體描述如下:

(1) EdNet 收集了從2018 年8 月27 日至2019年11 月27 日記錄的學(xué)習(xí)者學(xué)習(xí)活動最細(xì)粒度的交互數(shù)據(jù),詳細(xì)記錄了每個學(xué)生的行為細(xì)節(jié)特征,該數(shù)據(jù)集包含297 915 名學(xué)習(xí)者共131 441 538 條學(xué)習(xí)行為記錄。

(2) XuetangX 1 收集了39 節(jié)教學(xué)模式的課程中涉及的 112 448 名學(xué)習(xí)者的學(xué)習(xí)行為。該數(shù)據(jù)集包含 1 319 032 個視頻活動、10 763 225 個論壇活動、2 089 933 個作業(yè)活動和 7 380 344 個網(wǎng)頁活動。

(3) XuetangX 2 收集了 698 節(jié)教學(xué)模式課程和515 節(jié)自學(xué)模式課程中涉及的 378 237 名學(xué)習(xí)者的學(xué)習(xí)行為。該數(shù)據(jù)集包含 88 904 266 個視頻活動、534 369個論壇活動、10 912 803 個作業(yè)活動和 14 727 348 個網(wǎng)頁活動。

按照8∶1∶1 的學(xué)習(xí)者數(shù)量比例將預(yù)處理后的數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集。處理后的數(shù)據(jù)集統(tǒng)計結(jié)果如表1 所示。

表1 處理后的數(shù)據(jù)集統(tǒng)計結(jié)果Table 1 Statistics results of processed datasets

2.2 預(yù)訓(xùn)練模型

Prefix-LSDPM 在預(yù)訓(xùn)練模型參數(shù)的基礎(chǔ)上對針對下游學(xué)習(xí)會話退出預(yù)測任務(wù)進(jìn)行提示調(diào)優(yōu)。為避免不同預(yù)訓(xùn)練模型對Prefix-LSDPM 性能的影響,實驗基于以下3 個預(yù)訓(xùn)練模型進(jìn)行研究。

(1) BERT[9]谷歌提出的經(jīng)典預(yù)訓(xùn)練模型,使用MLM 任務(wù)和NSP 任務(wù)進(jìn)行雙向預(yù)訓(xùn)練。

(2) ALBERT[10]谷歌在BERT 的基礎(chǔ)上提出的改進(jìn)預(yù)訓(xùn)練模型,將BERT 模型通過因式嵌入和跨層參數(shù)共享這兩種方式進(jìn)行降參優(yōu)化,并基于MLM 任務(wù)和SOP 任務(wù)進(jìn)行雙向預(yù)訓(xùn)練。

(3) UniLM[15]微軟提出的統(tǒng)一預(yù)訓(xùn)練模型,針對單向、雙向、序列到序列這3 種模式進(jìn)行無監(jiān)督聯(lián)合預(yù)訓(xùn)練。

2.3 參數(shù)設(shè)置

在訓(xùn)練之前,采用合成少數(shù)過采樣技術(shù)(Synthetic Minority Oversampling Technique,SMOTE)[16]對 dropout 標(biāo)簽進(jìn)行過采樣,將 dropout 標(biāo)簽比例保持在 1∶1 左右。采用MetaPrompting[17]軟提示初始化方法,該方法被證明能夠自動生成達(dá)到最佳性能的提示初始化向量,通過元學(xué)習(xí)算法自動找到最優(yōu)的提示初始化向量,以促進(jìn)快速適應(yīng)學(xué)習(xí)會話退出預(yù)測的提示任務(wù)。

為避免不同預(yù)訓(xùn)練模型對Prefix-LSDPM 性能的影響,實驗分別在3 種預(yù)訓(xùn)練模型BERT、ALBERT和UniLM 的基礎(chǔ)上對Prefix-LSDPM 的性能進(jìn)行測試。其中BERT 和ALBERT 均采用base 版本的模型,3 個預(yù)訓(xùn)練模型中的Transformer 網(wǎng)絡(luò)層數(shù)(L)均為12。在每個Transformer 層中,每個多頭注意力層均由 8 個頭組成。模型采用Adam 優(yōu)化器,學(xué)習(xí)率為10-3,超參數(shù)β1= 0.9,β2= 0.999。每組實驗包含 12個 epoch,其中每個 epoch 包含 100 個 step,batch size設(shè)置為8。使用在驗證集中獲得的最佳曲線下面積(AUC)的模型參數(shù)在測試集上進(jìn)行測試。

3 實驗設(shè)計與結(jié)果討論

3.1 提示長度消融實驗

為了探究提示矩陣Pe維度與不同預(yù)訓(xùn)練模型對Prefix-LSDPM 性能的影響,將提示序列長度作為控制變量,對基于BERT、ALBERT、UniLM 這3 種預(yù)訓(xùn)練模型的Prefix-LSDPM 進(jìn)行消融實驗,分別記為 BERT+Prefix-LSDPM、 ALBERT+Prefix-LSDPM和UniLM+Prefix-LSDPM 實驗組。該消融實驗旨在得出能夠使Prefix-LSDPM 達(dá)到最佳預(yù)測性能的提示序列長度,并針對基于不同預(yù)訓(xùn)練模型的Prefix-LSDPM 的性能進(jìn)行對比。本文基于EdNet 數(shù)據(jù)集對以上模型實驗組進(jìn)行訓(xùn)練,通過ROC 曲線的AUC和預(yù)測準(zhǔn)確率(ACC)指標(biāo)對模型效果進(jìn)行衡量?;诓煌A(yù)訓(xùn)練模型的Prefix-LSDPM 隨著提示長度變化的AUC 和ACC 消融實驗結(jié)果如圖5 所示。

圖5 基于不同預(yù)訓(xùn)練模型與提示序列長度的AUC 和ACC 消融實驗結(jié)果Fig.5 AUC and ACC ablation experiment results based on the performance of pre-training model and prompt sequence length

由圖5 可知,基于BERT、ALBERT、UniLM 這3 個預(yù)訓(xùn)練模型進(jìn)行提示調(diào)優(yōu)的Prefix-LSDPM 在提示序列長度為3 個token 時達(dá)到了局部峰值。當(dāng)提示序列長度為4 個和5 個token 時, BERT 和UniLM實驗組模型性能相比提示序列長度為3 個token 時有較大幅度的下降,ALBERT 實驗組模型性能相比提示序列長度為3 個token 時有較小幅度的下降。當(dāng)提示序列長度為6、7 個和8 個token 時,ALBERT和UniLM 實驗組模型相比提示序列長度為4 個和5 個token 時取得了較好的效果,而BERT 實驗組隨著提示序列長度的增加,預(yù)測性能大幅度下降。

基于該消融實驗結(jié)果可以得出,在3 個預(yù)訓(xùn)練模型的參數(shù)基礎(chǔ)上,能夠使Prefix-LSDPM 達(dá)到最佳預(yù)測性能的最佳提示序列長度均為3 個token。其中基于ALBERT 的Prefix-LSDPM 預(yù)測性能受提示序列長度的影響不大,且能保持較好的預(yù)測性能?;贐ERT 的Prefix-LSDPM 預(yù)測性能相比基于ALBERT的Prefix-LSDPM 預(yù)測性能較差,原因是ALBERT 采用SOP 任務(wù)代替了BERT 中的NSP 任務(wù)進(jìn)行雙向訓(xùn)練。SOP任務(wù)旨在挖掘句子間的關(guān)聯(lián)性,在LSDP 任務(wù)中,ALBERT 在挖掘?qū)W習(xí)行為特征間關(guān)聯(lián)的基礎(chǔ)上,還對學(xué)習(xí)行為間的隱含關(guān)聯(lián)進(jìn)行了重點關(guān)注,因此基于ALBERT 的Prefix-LSDPM 能夠取得較好的預(yù)測性能。雖然UniLM 與BERT 采用相同任務(wù)進(jìn)行訓(xùn)練,但UniLM 將單向、雙向和序列到序列這3 種注意力掩碼方式相結(jié)合,為Prefix-LSDPM 中的混合注意力掩碼方式提供了更好的預(yù)訓(xùn)練基礎(chǔ),因此基于UniLM 的Prefix-LSDPM 也能取得較好的預(yù)測性能。

3.2 提示范式與微調(diào)范式對比研究

為了探究Prefix-LSDPM 在性能與參數(shù)量方面相對于預(yù)訓(xùn)練-微調(diào)范式模型是否有改進(jìn),在消融實驗探究的最佳提示長度下,基于BERT、ALBERT、UniLM 這3 種預(yù)訓(xùn)練模型將Prefix-LSDPM 與全參數(shù)微調(diào)預(yù)測性能及擬合所需參數(shù)量進(jìn)行對比,實驗結(jié)果如表2 所示,其中Fine-LSDPM 表示針對學(xué)習(xí)會話退出預(yù)測任務(wù)的雙向微調(diào)。實驗結(jié)果顯示,在同一預(yù)訓(xùn)練參數(shù)的基礎(chǔ)上,Prefix-LSDPM 的預(yù)測性能相比Fine-LSDPM 均有一定程度的提升,其中基于BERT、ALBERT 和UniLM的AUC 分別提升了0.003 7、0.005 19 和0.034 0,基于BERT、ALBERT 和UniLM的ACC 分別提升了0.007 9、0.063 4 和0.037 1;在參數(shù)量方面,基于BERT、ALBERT 和UniLM 的Prefix-LSDPM 訓(xùn)練參數(shù)量分別是Fine-LSDPM 的0.24%、0.56%和0.13%,Prefix-LSDPM 有效降低了調(diào)優(yōu)訓(xùn)練所涉及的參數(shù)量,使模型訓(xùn)練的復(fù)雜度和訓(xùn)練時長大幅降低。該實驗結(jié)果表明,Prefix-LSDPM 將預(yù)訓(xùn)練參數(shù)凍結(jié)后僅更新前綴提示參數(shù)的訓(xùn)練方式,能使下游任務(wù)建模更靠近預(yù)訓(xùn)練模式,并將預(yù)訓(xùn)練模式中已經(jīng)學(xué)習(xí)記憶的知識進(jìn)行快速檢索,在涉及參數(shù)量較少的同時,使模型訓(xùn)練更加迅速且準(zhǔn)確。

表2 Fine-LSDPM 與Prefix-LSDPM 對比結(jié)果Table 2 Comparison between Fine-LSDPM and Prefix-LSDPM

3.3 小樣本性能研究

為了探究Prefix-LSDPM 是否能在小樣本數(shù)據(jù)下達(dá)到理想效果,隨機對EdNet 的訓(xùn)練集進(jìn)行一定比例的下采樣,構(gòu)造訓(xùn)練集的子集,針對不同數(shù)據(jù)量分別以Fine-LSDPM 和Prefix-LSDPM 模型進(jìn)行訓(xùn)練。表3 示出了不同訓(xùn)練數(shù)據(jù)量下各模型能夠達(dá)到的最佳AUC,其中百分?jǐn)?shù)表示訓(xùn)練樣本數(shù)為全部樣本數(shù)的比例。

表3 不同訓(xùn)練數(shù)據(jù)量下各模型的最佳AUCTable 3 Best AUC that each model can achieve under different training data

實驗結(jié)果顯示,在3 種預(yù)訓(xùn)練模型的基礎(chǔ)上,F(xiàn)ine-LSDPM 在訓(xùn)練樣本為30%時AUC 預(yù)測性能均有明顯的下降,而Prefix-LSDPM 在訓(xùn)練樣本減少為10%時AUC 才有小幅度的下降。且在1%訓(xùn)練樣本情況下,基于BERT、ALBERT、UniLM 的Prefix-LSDPM 的預(yù)測AUC 相比Fine-LSDPM 分別提升了0.053 0、0.084 9 和0.074 6。相當(dāng)于Prefix-LSDPM 在基于約1 622 名學(xué)習(xí)者的約685 536 條學(xué)習(xí)行為樣本進(jìn)行訓(xùn)練即可達(dá)到比微調(diào)方法性能更好的效果。因此,Prefix-LSDPM 通過凍結(jié)預(yù)訓(xùn)練參數(shù)以減少迭代參數(shù)量的模式能夠適應(yīng)小樣本學(xué)習(xí),且達(dá)到較好的預(yù)測效果。

3.4 對比實驗

本文將Prefix-LSDPM 和以下模型分別在數(shù)據(jù)集EdNet、XuetangX 1 和XuetangX 2 上進(jìn)行訓(xùn)練,其中(1)、(2)、(3)為時序挖掘模型,(4)、(5)為最近會話退出研究中性能表現(xiàn)較好的模型。

(1) 長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM) 將LSTM 按照文獻(xiàn)[18]的架構(gòu)進(jìn)行訓(xùn)練。該模型由3 層組成,每層有 60 個神經(jīng)元,用 Adam 優(yōu)化器和交叉熵?fù)p失訓(xùn)練了 1 000 個 epoch。

(2) 可變長度馬爾可夫鏈 (Variable Length Markov Chain, VLMC)[19]對學(xué)習(xí)者交互項目序列進(jìn)行建模,最大上下文長度設(shè)置為 4。

(3) 馬爾可夫調(diào)制標(biāo)記點過程模型(Markov Modulated Marked Point Process Model , M3PP)[20]該模型對訪問的單個頁面的序列和在頁面上花費的時間進(jìn)行建模。形式上,將點擊流建模為連續(xù)過程。該模型在在線行為序列分析任務(wù)上效果較好。

(4) 多層感知器 (Multilayer Perceptron, MLP)[21]該模型為最新研究用于學(xué)習(xí)會話退出預(yù)測任務(wù)的有效方法[14]。參考該研究設(shè)置,將學(xué)習(xí)行為數(shù)據(jù)建模為“句子”形式作為輸入,以雙矩陣結(jié)構(gòu)建模學(xué)習(xí)行為特征序列,隨著學(xué)習(xí)行為的增加更新矩陣參數(shù)。

(5) 深度注意會話退出預(yù)測模型(Deep Attention Session Dropout Prediction Model, DAS)[3]該模型基于單層Transformer 實現(xiàn)了LSDP 任務(wù)。在這項研究中,效果最好的序列長度是 5,本文應(yīng)用該結(jié)論進(jìn)行對比實驗。

根據(jù)消融實驗探究結(jié)果,設(shè)置提示序列長度為3,將基于ALBERT 預(yù)訓(xùn)練模型的Prefix-LSDPM 在3 個數(shù)據(jù)集上分別進(jìn)行訓(xùn)練,與以上5 個模型的對比實驗結(jié)果如表4 所示。

表4 不同模型在不同數(shù)據(jù)集上的對比實驗Table 4 Comparative experiments of different models on different datasets

實驗結(jié)果顯示,基于ALBERT 預(yù)訓(xùn)練模型的Prefix-LSDPM 在數(shù)據(jù)集 XuetangX 1 和 XuetangX 2上進(jìn)行提示調(diào)優(yōu)預(yù)測的最佳 AUC 可以分別達(dá)到 0.875 9和0.869 4。在相同數(shù)據(jù)集上,Prefix-LSDPM的預(yù)測性能優(yōu)于經(jīng)典的時序挖掘模型LSTM 和VLMC。與在線頁面訪問時序挖掘模型M3PP 相比,Prefix-LSDPM的最佳AUC 在EdNet、XuetangX1、 XuetangX2 這3 個數(shù)據(jù)集上分別提升了0.112 2、0.113 6 和0.083 5。目前在LSDP 任務(wù)的現(xiàn)有先進(jìn)模型中,MLP 和DAS模型在會話退出預(yù)測任務(wù)中是最新且表現(xiàn)最好的。其中與MLP 相比,Prefix-LSDPM 的最佳AUC 在EdNET、XuetangX1、 XuetangX2 這3 個數(shù)據(jù)集上分別提升了0.104 0、0.063 7 和0.047 6;與DAS 模型相比,分別提升了0.092 9、0.089 4 和0.066 6。實驗結(jié)果表明,Prefix-LSDPM 在預(yù)訓(xùn)練參數(shù)基礎(chǔ)上對在線學(xué)習(xí)行為特征進(jìn)行提示調(diào)優(yōu)的方式,能夠更充分地挖掘連續(xù)學(xué)習(xí)行為間及學(xué)習(xí)特征間上下文隱含關(guān)聯(lián),準(zhǔn)確提取連續(xù)學(xué)習(xí)行為序列與學(xué)習(xí)會話退出模式。Prefix-LSDPM 具有更好的時序序列挖掘效果,相比現(xiàn)有先進(jìn)模型具有更高的預(yù)測準(zhǔn)確率。

4 結(jié) 論

本文提出了一種基于前綴提示的小樣本在線學(xué)習(xí)會話退出預(yù)測模型Prefix-LSDPM。該模型將預(yù)訓(xùn)練-提示-預(yù)測范式擴(kuò)展至在線會話退出預(yù)測任務(wù)。針對現(xiàn)實場景中因數(shù)據(jù)不足導(dǎo)致實際預(yù)測效果不理想的問題,設(shè)計適應(yīng)于小樣本學(xué)習(xí)行為的前綴提示調(diào)優(yōu)方法。將前綴提示可調(diào)向量與Transformer 結(jié)構(gòu)內(nèi)部鍵值對連接,固定凍結(jié)預(yù)訓(xùn)練權(quán)重參數(shù),通過會話退出監(jiān)督信號對前綴提示參數(shù)進(jìn)行調(diào)優(yōu),相比微調(diào)方法能有效降低針對下游任務(wù)調(diào)優(yōu)訓(xùn)練所涉及的參數(shù)量。針對前綴提示模板,設(shè)計多層Transformer網(wǎng)絡(luò)注意力掩碼方式對同一學(xué)習(xí)行為特征間上下文和連續(xù)學(xué)習(xí)行為間上下文的隱含關(guān)聯(lián)進(jìn)行掩碼學(xué)習(xí),為模型的準(zhǔn)確預(yù)測提供基礎(chǔ)?;? 個預(yù)訓(xùn)練模型和3 個數(shù)據(jù)集對模型進(jìn)行訓(xùn)練,實驗結(jié)果表明,Prefix-LSDPM 能夠在小樣本學(xué)習(xí)情況下達(dá)到較好的預(yù)測準(zhǔn)確率,且比現(xiàn)有學(xué)習(xí)會話退出模型具有更好的預(yù)測效果。

猜你喜歡
掩碼向量學(xué)習(xí)者
向量的分解
聚焦“向量與三角”創(chuàng)新題
你是哪種類型的學(xué)習(xí)者
十二星座是什么類型的學(xué)習(xí)者
低面積復(fù)雜度AES低熵掩碼方案的研究
基于布爾異或掩碼轉(zhuǎn)算術(shù)加法掩碼的安全設(shè)計*
漢語學(xué)習(xí)自主學(xué)習(xí)者特征初探
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
基于掩碼的區(qū)域增長相位解纏方法
远安县| 沛县| 湖南省| 洱源县| 湖口县| 磐石市| 新营市| 宁明县| 黎城县| 上杭县| 双桥区| 潍坊市| 古浪县| 昌图县| 施甸县| 河北区| 连山| 海兴县| 宿迁市| 当涂县| 东安县| 仪陇县| 揭阳市| 沙洋县| 铜陵市| 黄骅市| 中宁县| 琼海市| 绍兴市| 东港市| 沐川县| 无极县| 夹江县| 吴江市| 保靖县| 沙河市| 奉新县| 凤山县| 乌兰县| 太保市| 桐梓县|