冉昊璽
摘 要 推薦系統(tǒng)是利用用戶的相關(guān)特征進(jìn)行的相關(guān)物品推薦,大多應(yīng)用于商業(yè),展現(xiàn)了不凡的效果。針對(duì)當(dāng)前高 校存在的課程種類繁多、學(xué)生選課困難、教學(xué)資源浪費(fèi)等現(xiàn)象,本文遷移商業(yè)中的類似人群拓展思想,提出校園課程 推薦系統(tǒng),并充分利用因子分解機(jī)和多層感知機(jī),實(shí)現(xiàn)了低階和高階的特征交叉,達(dá)到了更佳的推薦效果,從而改善 了教學(xué)資源利用率,提高了學(xué)生的選課興趣。
關(guān)鍵詞 推薦系統(tǒng) 神經(jīng)網(wǎng)絡(luò) 因子分解機(jī) 在線選課
中圖分類號(hào):G645 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
推薦系統(tǒng)原是電子商務(wù)網(wǎng)站通過用戶對(duì)象的相關(guān)信息,為其提供相應(yīng)的商品信息和建議,并幫助用戶實(shí)現(xiàn)商品 購(gòu)買的決策,其中的個(gè)性化主要通過用戶屬性和其興趣來體現(xiàn)。隨著推薦系統(tǒng)在商業(yè)中的巨大成功,推薦系統(tǒng)也不斷 受到數(shù)據(jù)挖掘界的重視和深入研究,已經(jīng)形成了一套相對(duì)成熟的科學(xué)方法,并應(yīng)用到了實(shí)踐中。
隨著校園各類型的課程不斷增加,學(xué)生選到并不適合自己的課程的可能性也隨之增高,并且學(xué)生因掌握了較少的 課程信息而無法在五花八門的課程中找到最佳的選擇。與此同時(shí),學(xué)校在課程資源上也造成了相應(yīng)的損失。由于學(xué)生 對(duì)于選課的“失誤”可能性較高,很多課程因此被埋沒或被過高的追捧。比如,一個(gè)課程僅僅因?yàn)閷W(xué)長(zhǎng)單方面的推薦而使 得某一課程有大量的學(xué)生選擇而使得課程爆滿,許多真正適合這一課程的學(xué)生無法選到,而另一些并不適合這一課程 的學(xué)生進(jìn)入了這一課程而從此陷入了痛苦中。這一系列的選課不均衡現(xiàn)象反映了學(xué)生在時(shí)間和精力的浪費(fèi),同時(shí),學(xué) 校寶貴的教學(xué)資源也因此大量浪費(fèi)。這一切原因,可以歸結(jié)為學(xué)生無處獲取很好地選課指導(dǎo)。
針對(duì)這一問題,我借鑒了電子商務(wù)中的推薦系統(tǒng),并提出了課程推薦系統(tǒng)(Curriculum Recommendation System, 此后簡(jiǎn)寫為 CRS)將此類問題近似看做一個(gè) click-through-rate 問題,具體來說則是針對(duì)是否選擇某一課程的二分類 問題,借鑒了 2018 年的騰訊算法大賽,將其中涉及到的問題–類似人群拓展(lookalike)進(jìn)行了遷移。類似人群拓展 的目標(biāo)是利用廣告主已有的消費(fèi)者,找出和已有消費(fèi)者相似的潛在消費(fèi)者,以此拓展業(yè)務(wù)。本文中提出的 CRS 系統(tǒng)也 是利用了這一想法,通過某一課程已參與的學(xué)生群體作為種子群體(廣告行業(yè)亦稱作種子包),找出和這類群體類似的 學(xué)生群體(廣告行業(yè)亦稱作擴(kuò)展人群),并在他們的個(gè)人學(xué)生教務(wù)管理主頁(yè)進(jìn)行課程的推薦。
在模型設(shè)計(jì)時(shí),考慮到這一問題設(shè)計(jì)到的特征的多樣性和復(fù)雜性,需要大規(guī)模的特征交叉,于是本文參考了適合 于大規(guī)模數(shù)據(jù)的梯度提升樹方法,以及在高階特征交叉問題中效果顯著的神經(jīng)網(wǎng)絡(luò) 和在低階問題 中可以較快的實(shí)現(xiàn)大量數(shù)據(jù)的特征交叉的因子分解機(jī)。另外,對(duì)于大量的特征,本文在特征選擇上則是借鑒了 LightGBM 算法的重要性分析,對(duì)重要性指標(biāo)較高的特征進(jìn)行了保留。由于數(shù)據(jù)集存在大量非實(shí)數(shù)特征,本文采用了 獨(dú)熱和 embedding 的聯(lián)合方法,實(shí)現(xiàn)了由非實(shí)數(shù)值向?qū)崝?shù)值的轉(zhuǎn)化以及數(shù)據(jù)分布的降維。
1特征工程
1.1特征構(gòu)造
在特征構(gòu)造這個(gè)階段主要是進(jìn)行對(duì)長(zhǎng)度特征的構(gòu)造。其中涉及到的特征主要為向量特征,如學(xué)生信息的歷史課程 特征和教師信息中的歷史教學(xué)課程特征。長(zhǎng)度特征即為將特征中的向量的長(zhǎng)度進(jìn)行統(tǒng)計(jì)。
另外,對(duì)于離散化特征,則是通過神經(jīng)網(wǎng)絡(luò)中的 embedding 層進(jìn)行模型可以進(jìn)行計(jì)算的形式。
1.2特征提取
在特征提取階段,本文主要是針對(duì)業(yè)務(wù)邏輯和經(jīng)驗(yàn),對(duì)一些特殊的特征進(jìn)行了提取。對(duì)于選課信息中的選課時(shí)間, 可從中提取兩個(gè)特征。先進(jìn)行時(shí)間范圍的劃分。出于實(shí)際考慮,選課階段分為預(yù)選、正選、不推選三個(gè)階段,我們將 選課階段提取出來構(gòu)造為一個(gè)離散型特征。此外,在每個(gè)階段的時(shí)間也有所不同,在每個(gè)階段選課時(shí)間的分布會(huì)隨著 天數(shù)的增加而不斷下降,形成一個(gè)類長(zhǎng)尾分布,并且選課時(shí)間只是在一天的一個(gè)固定時(shí)間段進(jìn)行(例如 10:00am - 6: 00pm),因此我們可以將某一天的某一個(gè)小時(shí)內(nèi)的時(shí)間作為一個(gè)數(shù)值,在這個(gè)時(shí)段內(nèi)的時(shí)間均為這個(gè)數(shù)值,從而形成 一個(gè)數(shù)值型特征。這樣我們便得到了選課時(shí)段和選課具體時(shí)間兩個(gè)特征。而對(duì)于選課年份,我們也同樣需要進(jìn)行保留。
對(duì)于學(xué)生信息中的 id,同樣可以進(jìn)行特征的提取。由于學(xué)號(hào)的特殊性,我們可以從中獲得學(xué)生的年級(jí),所在學(xué)院 及專業(yè),編號(hào)等信息,其思想較為簡(jiǎn)單,這里不再贅述。需注意一點(diǎn),這些提取特征均為離散型特征。
1.3特征選擇
當(dāng)前的特征相對(duì)較少,但是當(dāng)特征的不斷挖掘,亦或是實(shí)際計(jì)算環(huán)境對(duì)于數(shù)據(jù)量的限制較高時(shí),大量的特征由于 計(jì)算時(shí)間過長(zhǎng),并不能較好的達(dá)到工程上對(duì)于的需求,因此,在這里需要對(duì)特征進(jìn)行篩選,亦即特征選擇。
本文主要利用的是 GDBT 算法實(shí)現(xiàn)的特征重要性分析,較為便利的工具是開源的 LightLGB 。它利用 生成的梯度提升樹,通過分析不同特征在分類時(shí)的利用次數(shù)實(shí)現(xiàn)了重要性的分析。在計(jì)算環(huán)境受限的情況下,可以選 擇保留前 20 個(gè)特征作為最終數(shù)據(jù)進(jìn)行訓(xùn)練。
2 CRS系統(tǒng)
2.1高低階特征交叉
在這里,高低階特征交叉分為兩個(gè)的部分:高階部分和低階部分。低階部分可視為因子分解機(jī)的改進(jìn),高階部分 則是使用了神經(jīng)網(wǎng)絡(luò)和 embedding 的方法。
2.1.1低階部分
如圖 1 所述的是模型設(shè)計(jì)所用到的因子分解機(jī)的優(yōu)化形態(tài)。其構(gòu)造主要分為一階部分和二階部分,一階部分可以 看做為單特征在一階特征空間的映射,二階部分則是針對(duì)問題進(jìn)行的對(duì)原因子分解機(jī)進(jìn)行的優(yōu)化,它將特征向量先通 過 Deep 部分訓(xùn)練好的 embedding 層,從而實(shí)現(xiàn)降維,再進(jìn)行特征的兩兩交叉。這樣,便實(shí)現(xiàn)了一個(gè)自動(dòng)化的特征工程。 然而,F(xiàn)M 算法暴露的缺點(diǎn)是其缺乏靈活性,即其只是進(jìn)行了兩個(gè)特征的結(jié)合,對(duì)于多特征的情況卻有所缺失。Deep 部分則通過其對(duì)于高階特征交叉的學(xué)習(xí),很好的彌補(bǔ)了這一點(diǎn)。
其中 w ∈ Rd, Vi ∈ Rk。相加單元(〈w, x〉)代表一階特征的重要性,而其后的內(nèi)積單元表示二階特征交叉的重要性。 如圖 2 所述的為一個(gè)含有 embeddiing 層的前饋神經(jīng)網(wǎng)絡(luò)。由于在 CTR 預(yù)測(cè)問題中,特征存在很多類別型特征從 而變得高度稀疏,所以為了將這些特征變成純粹的、連續(xù)的數(shù)值型特征,我們引入了 embedding 層,從而使得 CTR 問題得以在神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。
2.2 CRS 系統(tǒng)
在模型設(shè)計(jì)之初,考慮到當(dāng)下極為火熱且實(shí)際工程中效果極佳的神經(jīng)網(wǎng)絡(luò),便嘗試將其加入模型中,然而,神經(jīng)網(wǎng) 絡(luò)在處理復(fù)雜問題的優(yōu)秀能力使其輕易達(dá)到了高階的特征交叉,卻自然的忽視了最為基礎(chǔ)的低階特征交叉。于是,參 考因子分解機(jī)的原理,并結(jié)合這一行業(yè)的特質(zhì),將獨(dú)熱處理后的多特征看做一個(gè)域,并實(shí)現(xiàn)域與特征的交叉,從而達(dá) 到更具說服力的特征輸入。
此外,對(duì)于模型輸入,大部分特征為非實(shí)數(shù)型特征,而神經(jīng)網(wǎng)絡(luò)和因子分解機(jī)輸入的數(shù)據(jù)均為實(shí)數(shù)型數(shù)據(jù),因此, 我們需要對(duì)類別特征進(jìn)行獨(dú)熱處理(one-hot)。但是,與此同時(shí),我們需要用 embedding 的方法來解決獨(dú)熱處理帶來 的數(shù)據(jù)分布維度過高問題。這樣,我們就將模型輸入分為三類:?jiǎn)沃颠B續(xù)型、單值離散型、多值離散型,其中,單值連 續(xù)型即為可以直接進(jìn)行特征交叉的實(shí)數(shù)型特征,而單值離散型和多值離散型均需通過 embedding 層來實(shí)現(xiàn)實(shí)數(shù)向量的這一模型的輸出為一個(gè)實(shí)數(shù)值,即為某一學(xué)生選擇某一課程的相關(guān)性,我們將這一學(xué)生對(duì)多個(gè)候選課程進(jìn)行相關(guān) 性計(jì)算,并對(duì)每個(gè)結(jié)果進(jìn)行排列,取最高的幾個(gè)值對(duì)應(yīng)的課程進(jìn)行推薦(例如 top10)。這樣,便實(shí)現(xiàn)了模型從設(shè)計(jì)到 訓(xùn)練再到具體環(huán)境的流程。
CRS系統(tǒng),不僅可以輔助學(xué)生進(jìn)行課程的決策,更可對(duì)其進(jìn)行功能的延展。例如,課程推薦系統(tǒng)可以通過預(yù)測(cè)學(xué) 生的選課情況,從而了解學(xué)生對(duì)于課程的偏好,從側(cè)面實(shí)現(xiàn)了對(duì)某一課程的評(píng)估,使得課程評(píng)估變得更具客觀性。這 樣一來,CRS 系統(tǒng)可以幫助校方進(jìn)行課程信息的調(diào)整及開設(shè)。
此外,CRS 系統(tǒng)經(jīng)過模型與數(shù)據(jù)集的改動(dòng),可以解決回歸問題,實(shí)現(xiàn)學(xué)生對(duì)于某一課程的選課情況的預(yù)測(cè)。這樣 可以更好地幫助校方調(diào)整課容量,從而摒棄了以往僅僅通過主觀、感性的判斷而人為設(shè)定的課容量,對(duì)于新課的開設(shè) 也是具有很好的指導(dǎo)意義。例如,對(duì)某個(gè)新開設(shè)的課程,其在多個(gè)校區(qū)均有開設(shè),通過 CRS 系統(tǒng),便可預(yù)測(cè)不同校區(qū) 的選課情況,并對(duì)這一課程的教室類型和容量進(jìn)行調(diào)整。這樣一來,校方減少了教學(xué)資源的浪費(fèi),實(shí)現(xiàn)了精度化的課 程開設(shè)。從這些應(yīng)用來看,課程推薦系統(tǒng)同樣對(duì)于學(xué)校有著巨大的指導(dǎo)作用。
3實(shí)驗(yàn)驗(yàn)證
3.1實(shí)驗(yàn)環(huán)境
本文使用Python語(yǔ)言和TensorFlow深度學(xué)習(xí)工具實(shí)現(xiàn),云端服務(wù)器配置有16核CPU,64GB內(nèi)存和4個(gè)NVIDIA RTX2080Ti。
3.2學(xué)生-課程的相關(guān)性預(yù)測(cè)和排序
為了驗(yàn)證模型設(shè)計(jì)和實(shí)驗(yàn)方案的可行性,利用現(xiàn)有的已經(jīng)清洗并脫敏的學(xué)生屬性、選課屬性數(shù)據(jù)集進(jìn)行了學(xué)生-課程相關(guān)性的計(jì)算實(shí)驗(yàn)。表1中的相關(guān)性為樣例學(xué)生和樣例課程的相關(guān)性計(jì)算,表2為學(xué)生-課程相關(guān)性的前三相關(guān)性,即推薦候選課程排名前三的名單。由表2可以簡(jiǎn)單得出,通過CRS系統(tǒng)的計(jì)算,可以將學(xué)生的已有信息轉(zhuǎn)化為一種更為普遍的對(duì)課程的偏好,如同學(xué)丙的top3課程均與文學(xué)和歷史相關(guān),而同學(xué)丙便是歷史學(xué)院的學(xué)生;由表1同樣可以得到一些和常識(shí)相對(duì)應(yīng)的信息,如同學(xué)甲、乙均位于校區(qū)0,而他們對(duì)于開設(shè)在校區(qū)1的課程相關(guān)性較強(qiáng)(如課程A和課程B)。當(dāng)然,通過CRS一樣可以挖掘出一些有趣的事件,如生源地為河北的同學(xué)大多有對(duì)計(jì)算機(jī)類課程的偏好。以上實(shí)驗(yàn)結(jié)果因此可以簡(jiǎn)單驗(yàn)證CRS系統(tǒng)的可行性。
4總結(jié)
本作提出了 CRS 系統(tǒng),其不僅可以充分的利用大學(xué)現(xiàn)有的校園數(shù)據(jù)資源,實(shí)現(xiàn)對(duì)學(xué)生個(gè)性化的課程推薦,甚至可 以利用其很好的延展性,應(yīng)用到校方的課程開設(shè)中并為其做出指導(dǎo)作用,最終實(shí)現(xiàn)了對(duì)學(xué)生進(jìn)行課程推薦和輔助學(xué)校 進(jìn)行課程開設(shè)決策的最終目的。
然而,在實(shí)際應(yīng)用中,由于每個(gè)課程,計(jì)算量相當(dāng)龐大,這在實(shí)際情況下是不可行的。因此我提出了以下方案:率 先進(jìn)行課程的聚類,通過 CRS 系統(tǒng)對(duì)課程組別的推薦來減少這一計(jì)算量;另外,我們也可設(shè)定一個(gè)學(xué)生與課程相關(guān)性 指標(biāo)的閾值,將高于這一閾值的課程放入這一學(xué)生的候選課程名單,減少課程數(shù)從而降低計(jì)算的復(fù)雜度。
在校園的課程數(shù)據(jù)的應(yīng)用中,仍有許多的特征亟待挖掘,由于推薦系統(tǒng)的復(fù)雜性,為了簡(jiǎn)化挖掘過程,本文在實(shí) 現(xiàn)時(shí),對(duì)大量的學(xué)生特征進(jìn)行了適當(dāng)?shù)娜∩幔ㄈ邕x擇某一課程的學(xué)生的信息,以及由于選修和必修課程出現(xiàn)的一些差 異情況),使得 CRS 系統(tǒng)的適用性更強(qiáng),適用范圍更廣。
參考文獻(xiàn)
[1] Junxuan Chen&Baigui Sun&Hao Li&Hongtao Lu&Xian-Sheng Hua. Deep ctr prediction in display advertising[J].In Proceedings of the 24th ACM international conference on Multimedia,2016:811–820.
[2] Tianqi Chen and Carlos Guestrin. Xgboost: A scalable tree boosting system[J].In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining,2016:785–794.
[3] Yuchin Juan&Yong Zhuang&Wei-Sheng Chin&Chih-Jen Lin. Field-aware factorization machines for ctr pre- diction[J].In Proceedings of the 10th ACM Conference on Recommender Systems,2016:43–50.
[4] Guolin Ke&Qi Meng&Thomas Finley&Taifeng Wang&Wei Chen&Weidong Ma&Qiwei Ye&Tie-Yan Liu. Lightgbm:A highly efficient gradient boosting decision tree[J].In Advances in Neural Information Processing Systems,2017:3146–3154.
[5] Steffen Rendle.Factorization machines[J].In 2010 IEEE International Conference on Data Mining,2010:995–1000.
[6] Ruoxi Wang&Bin Fu&Gang Fu&Mingliang Wang.Deep & cross network for ad click predictions[J].In Proceedings of the ADKDD17,2017:12.
[7] Jun Xiao&Hao Ye&Xiangnan He&Hanwang Zhang&Fei Wu&Tat-Seng Chua. Attentional factorization machines: Learning the weight of feature interactions via attention networks[J].arXiv preprint arXiv:1708.04617,2017.
附錄
A 數(shù)據(jù)集相關(guān)細(xì)節(jié)
數(shù)據(jù)集的來源為四川大學(xué)學(xué)生部分?jǐn)?shù)據(jù)中的學(xué)生基本信息和選課信息。我們將數(shù)據(jù)分為五個(gè)部分:學(xué)生基本信息 數(shù)據(jù)、選課信息、教師基本信息、教室信息。另外,特征存在三類:數(shù)值型(numeric),離散型(discrete),向量型 (vector),長(zhǎng)度型(length),時(shí)間型(time)。其中,數(shù)值型為浮點(diǎn)數(shù);離散型為類別 id,可進(jìn)行獨(dú)熱處理;向量型為單個(gè)特征中存在多個(gè)離散值的數(shù)組,且數(shù)組長(zhǎng)度不定;長(zhǎng)度型為特殊的數(shù)值型,其為從向量型特征中數(shù)組長(zhǎng)度的取值; 時(shí)間型為特殊的數(shù)值型,由于在這個(gè)背景中涉及到時(shí)序問題,將數(shù)據(jù)中涉及的時(shí)間特征按從小到大進(jìn)行獨(dú)熱處理,并 按數(shù)值型特征對(duì)待。
對(duì)于訓(xùn)練集和測(cè)試集中的標(biāo)簽表示某個(gè)學(xué)生是否選擇某個(gè)課程,分為兩個(gè)值:0、1。0 表示選課,1 表示不選課。
下面將對(duì)數(shù)據(jù)集中的主要特征進(jìn)行列舉:
(1)學(xué)生基本信息:學(xué)生 id(discrete),年齡 (numeric),年級(jí) (numeric),性別 (discrete),生源地 (discrete),歷史 課程 (vector)。
(2)選課信息:選課 id(discrete),課程名,開設(shè)學(xué)院 id(disc? rete),課程號(hào) id(discrete),課序號(hào) id(discrete), 選課時(shí)間,開設(shè)學(xué)院 id,課程類型 id,教師 id,校區(qū) id,周次,教學(xué)樓 id,教室 id,課容量。
(3)教師基本信息:教師 id,教師所屬學(xué)院 id,性別,年齡,歷史教學(xué)課程。
(4)教室信息:教室 id,所在教學(xué)樓 id,所在樓層,教室類型,教室大小,教室新舊情況注意:①在學(xué)生 id 中需保留原始學(xué)生號(hào)用于之后的特征工程。②選課信息為選課信息和課程信息的合并,為便于總結(jié),在這里進(jìn)行了簡(jiǎn)化。③教師基本信息和學(xué)生基本信息中,歷史課程均為課程 id 的集合。④教室信息中,教室新舊情況可視為簡(jiǎn)化特征,例如將最近的裝修年份作為新舊程度劃分的標(biāo)準(zhǔn);教室大小可按照教室面積的標(biāo)準(zhǔn)劃分;教室類型為人為界定特征,比如未有任何設(shè)備的教室為最低級(jí)別,具有多媒體、師生互動(dòng)設(shè) 備等條件則為不同的類型。
下面將對(duì)訓(xùn)練集和測(cè)試集的基本內(nèi)容進(jìn)行分析:
訓(xùn)練集和測(cè)試集均包括選課 id、學(xué)生 id 以及是否選課這三個(gè)特征,其中訓(xùn)練集與測(cè)試集的比例按照 20:1 劃分。另 外,由于這個(gè)分類問題中正負(fù)樣本數(shù)量的明顯差距,我們采用正負(fù)樣本 1:20 來進(jìn)行數(shù)據(jù)的采樣。對(duì)于空缺值及異常 值,均以-1 填充。
B 模型訓(xùn)練細(xì)節(jié)
以下列舉了一些主要參數(shù)及對(duì)應(yīng)的默認(rèn)值:
feature_dim_dict – 特征字典,以字典的格式保存特征的域,例如 {sparse:{field_1:4,field_2:3, field_3:2},dense:{field_4,field_5}}
embedding_size=8 – embedding 層的輸出向量長(zhǎng)度 dnn_hidden_units=(128, 128) – deep 部分的網(wǎng)絡(luò)結(jié)構(gòu) l2_reg_linear=0.00001 – 應(yīng)用在 FM 部分的 L2 正則化 l2_reg_embedding=0.00001 – 應(yīng)用在 embedding 層的 L2 正則化 l2_reg_dnn=0 – 應(yīng)用在神經(jīng)網(wǎng)絡(luò)隱層的 L2 正則化
task=binary – 訓(xùn)練任務(wù),這里默認(rèn)的是二分類問題