基于高低階特征交叉的校園課程推薦系統(tǒng)研究

2019-11-16 05:36冉昊璽

科教導(dǎo)刊·電子版 2019年27期

冉昊璽

摘要推薦系統(tǒng)是利用用戶的相關(guān)特征進(jìn)行的相關(guān)物品推薦，大多應(yīng)用于商業(yè)，展現(xiàn)了不凡的效果。針對(duì)當(dāng)前高校存在的課程種類繁多、學(xué)生選課困難、教學(xué)資源浪費(fèi)等現(xiàn)象，本文遷移商業(yè)中的類似人群拓展思想，提出校園課程推薦系統(tǒng)，并充分利用因子分解機(jī)和多層感知機(jī)，實(shí)現(xiàn)了低階和高階的特征交叉，達(dá)到了更佳的推薦效果，從而改善了教學(xué)資源利用率，提高了學(xué)生的選課興趣。

關(guān)鍵詞推薦系統(tǒng) 神經(jīng)網(wǎng)絡(luò) 因子分解機(jī) 在線選課

中圖分類號(hào)：G645 文獻(xiàn)標(biāo)識(shí)碼：A

0引言

推薦系統(tǒng)原是電子商務(wù)網(wǎng)站通過用戶對(duì)象的相關(guān)信息，為其提供相應(yīng)的商品信息和建議，并幫助用戶實(shí)現(xiàn)商品購(gòu)買的決策，其中的個(gè)性化主要通過用戶屬性和其興趣來體現(xiàn)。隨著推薦系統(tǒng)在商業(yè)中的巨大成功，推薦系統(tǒng)也不斷受到數(shù)據(jù)挖掘界的重視和深入研究，已經(jīng)形成了一套相對(duì)成熟的科學(xué)方法，并應(yīng)用到了實(shí)踐中。

隨著校園各類型的課程不斷增加，學(xué)生選到并不適合自己的課程的可能性也隨之增高，并且學(xué)生因掌握了較少的課程信息而無法在五花八門的課程中找到最佳的選擇。與此同時(shí)，學(xué)校在課程資源上也造成了相應(yīng)的損失。由于學(xué)生對(duì)于選課的“失誤”可能性較高，很多課程因此被埋沒或被過高的追捧。比如，一個(gè)課程僅僅因?yàn)閷W(xué)長(zhǎng)單方面的推薦而使得某一課程有大量的學(xué)生選擇而使得課程爆滿，許多真正適合這一課程的學(xué)生無法選到，而另一些并不適合這一課程的學(xué)生進(jìn)入了這一課程而從此陷入了痛苦中。這一系列的選課不均衡現(xiàn)象反映了學(xué)生在時(shí)間和精力的浪費(fèi)，同時(shí)，學(xué) 校寶貴的教學(xué)資源也因此大量浪費(fèi)。這一切原因，可以歸結(jié)為學(xué)生無處獲取很好地選課指導(dǎo)。

針對(duì)這一問題，我借鑒了電子商務(wù)中的推薦系統(tǒng)，并提出了課程推薦系統(tǒng)（Curriculum Recommendation System，此后簡(jiǎn)寫為 CRS）將此類問題近似看做一個(gè) click-through-rate 問題，具體來說則是針對(duì)是否選擇某一課程的二分類問題，借鑒了 2018 年的騰訊算法大賽，將其中涉及到的問題–類似人群拓展（lookalike）進(jìn)行了遷移。類似人群拓展的目標(biāo)是利用廣告主已有的消費(fèi)者，找出和已有消費(fèi)者相似的潛在消費(fèi)者，以此拓展業(yè)務(wù)。本文中提出的 CRS 系統(tǒng)也是利用了這一想法，通過某一課程已參與的學(xué)生群體作為種子群體（廣告行業(yè)亦稱作種子包），找出和這類群體類似的學(xué)生群體（廣告行業(yè)亦稱作擴(kuò)展人群），并在他們的個(gè)人學(xué)生教務(wù)管理主頁(yè)進(jìn)行課程的推薦。

在模型設(shè)計(jì)時(shí)，考慮到這一問題設(shè)計(jì)到的特征的多樣性和復(fù)雜性，需要大規(guī)模的特征交叉，于是本文參考了適合于大規(guī)模數(shù)據(jù)的梯度提升樹方法，以及在高階特征交叉問題中效果顯著的神經(jīng)網(wǎng)絡(luò) 和在低階問題中可以較快的實(shí)現(xiàn)大量數(shù)據(jù)的特征交叉的因子分解機(jī)。另外，對(duì)于大量的特征，本文在特征選擇上則是借鑒了 LightGBM 算法的重要性分析，對(duì)重要性指標(biāo)較高的特征進(jìn)行了保留。由于數(shù)據(jù)集存在大量非實(shí)數(shù)特征，本文采用了獨(dú)熱和 embedding 的聯(lián)合方法，實(shí)現(xiàn)了由非實(shí)數(shù)值向?qū)崝?shù)值的轉(zhuǎn)化以及數(shù)據(jù)分布的降維。

1特征工程

1.1特征構(gòu)造

在特征構(gòu)造這個(gè)階段主要是進(jìn)行對(duì)長(zhǎng)度特征的構(gòu)造。其中涉及到的特征主要為向量特征，如學(xué)生信息的歷史課程特征和教師信息中的歷史教學(xué)課程特征。長(zhǎng)度特征即為將特征中的向量的長(zhǎng)度進(jìn)行統(tǒng)計(jì)。

另外，對(duì)于離散化特征，則是通過神經(jīng)網(wǎng)絡(luò)中的 embedding 層進(jìn)行模型可以進(jìn)行計(jì)算的形式。

1.2特征提取

在特征提取階段，本文主要是針對(duì)業(yè)務(wù)邏輯和經(jīng)驗(yàn)，對(duì)一些特殊的特征進(jìn)行了提取。對(duì)于選課信息中的選課時(shí)間，可從中提取兩個(gè)特征。先進(jìn)行時(shí)間范圍的劃分。出于實(shí)際考慮，選課階段分為預(yù)選、正選、不推選三個(gè)階段，我們將選課階段提取出來構(gòu)造為一個(gè)離散型特征。此外，在每個(gè)階段的時(shí)間也有所不同，在每個(gè)階段選課時(shí)間的分布會(huì)隨著天數(shù)的增加而不斷下降，形成一個(gè)類長(zhǎng)尾分布，并且選課時(shí)間只是在一天的一個(gè)固定時(shí)間段進(jìn)行（例如 10：00am - 6： 00pm），因此我們可以將某一天的某一個(gè)小時(shí)內(nèi)的時(shí)間作為一個(gè)數(shù)值，在這個(gè)時(shí)段內(nèi)的時(shí)間均為這個(gè)數(shù)值，從而形成一個(gè)數(shù)值型特征。這樣我們便得到了選課時(shí)段和選課具體時(shí)間兩個(gè)特征。而對(duì)于選課年份，我們也同樣需要進(jìn)行保留。

對(duì)于學(xué)生信息中的 id，同樣可以進(jìn)行特征的提取。由于學(xué)號(hào)的特殊性，我們可以從中獲得學(xué)生的年級(jí)，所在學(xué)院及專業(yè)，編號(hào)等信息，其思想較為簡(jiǎn)單，這里不再贅述。需注意一點(diǎn)，這些提取特征均為離散型特征。

1.3特征選擇

當(dāng)前的特征相對(duì)較少，但是當(dāng)特征的不斷挖掘，亦或是實(shí)際計(jì)算環(huán)境對(duì)于數(shù)據(jù)量的限制較高時(shí)，大量的特征由于計(jì)算時(shí)間過長(zhǎng)，并不能較好的達(dá)到工程上對(duì)于的需求，因此，在這里需要對(duì)特征進(jìn)行篩選，亦即特征選擇。

本文主要利用的是 GDBT 算法實(shí)現(xiàn)的特征重要性分析，較為便利的工具是開源的 LightLGB 。它利用生成的梯度提升樹，通過分析不同特征在分類時(shí)的利用次數(shù)實(shí)現(xiàn)了重要性的分析。在計(jì)算環(huán)境受限的情況下，可以選擇保留前 20 個(gè)特征作為最終數(shù)據(jù)進(jìn)行訓(xùn)練。

2 CRS系統(tǒng)

2.1高低階特征交叉

在這里，高低階特征交叉分為兩個(gè)的部分：高階部分和低階部分。低階部分可視為因子分解機(jī)的改進(jìn)，高階部分則是使用了神經(jīng)網(wǎng)絡(luò)和 embedding 的方法。

2.1.1低階部分

如圖 1 所述的是模型設(shè)計(jì)所用到的因子分解機(jī)的優(yōu)化形態(tài)。其構(gòu)造主要分為一階部分和二階部分，一階部分可以看做為單特征在一階特征空間的映射，二階部分則是針對(duì)問題進(jìn)行的對(duì)原因子分解機(jī)進(jìn)行的優(yōu)化，它將特征向量先通過 Deep 部分訓(xùn)練好的 embedding 層，從而實(shí)現(xiàn)降維，再進(jìn)行特征的兩兩交叉。這樣，便實(shí)現(xiàn)了一個(gè)自動(dòng)化的特征工程。然而，F(xiàn)M 算法暴露的缺點(diǎn)是其缺乏靈活性，即其只是進(jìn)行了兩個(gè)特征的結(jié)合，對(duì)于多特征的情況卻有所缺失。Deep 部分則通過其對(duì)于高階特征交叉的學(xué)習(xí)，很好的彌補(bǔ)了這一點(diǎn)。

其中 w ∈ Rd， Vi ∈ Rk。相加單元（〈w， x〉）代表一階特征的重要性，而其后的內(nèi)積單元表示二階特征交叉的重要性。如圖 2 所述的為一個(gè)含有 embeddiing 層的前饋神經(jīng)網(wǎng)絡(luò)。由于在 CTR 預(yù)測(cè)問題中，特征存在很多類別型特征從而變得高度稀疏，所以為了將這些特征變成純粹的、連續(xù)的數(shù)值型特征，我們引入了 embedding 層，從而使得 CTR 問題得以在神經(jīng)網(wǎng)絡(luò)中進(jìn)行學(xué)習(xí)。

2.2 CRS 系統(tǒng)

在模型設(shè)計(jì)之初，考慮到當(dāng)下極為火熱且實(shí)際工程中效果極佳的神經(jīng)網(wǎng)絡(luò)，便嘗試將其加入模型中，然而，神經(jīng)網(wǎng) 絡(luò)在處理復(fù)雜問題的優(yōu)秀能力使其輕易達(dá)到了高階的特征交叉，卻自然的忽視了最為基礎(chǔ)的低階特征交叉。于是，參考因子分解機(jī)的原理，并結(jié)合這一行業(yè)的特質(zhì)，將獨(dú)熱處理后的多特征看做一個(gè)域，并實(shí)現(xiàn)域與特征的交叉，從而達(dá) 到更具說服力的特征輸入。

此外，對(duì)于模型輸入，大部分特征為非實(shí)數(shù)型特征，而神經(jīng)網(wǎng)絡(luò)和因子分解機(jī)輸入的數(shù)據(jù)均為實(shí)數(shù)型數(shù)據(jù)，因此，我們需要對(duì)類別特征進(jìn)行獨(dú)熱處理（one-hot）。但是，與此同時(shí)，我們需要用 embedding 的方法來解決獨(dú)熱處理帶來的數(shù)據(jù)分布維度過高問題。這樣，我們就將模型輸入分為三類：?jiǎn)沃颠B續(xù)型、單值離散型、多值離散型，其中，單值連續(xù)型即為可以直接進(jìn)行特征交叉的實(shí)數(shù)型特征，而單值離散型和多值離散型均需通過 embedding 層來實(shí)現(xiàn)實(shí)數(shù)向量的這一模型的輸出為一個(gè)實(shí)數(shù)值，即為某一學(xué)生選擇某一課程的相關(guān)性，我們將這一學(xué)生對(duì)多個(gè)候選課程進(jìn)行相關(guān) 性計(jì)算，并對(duì)每個(gè)結(jié)果進(jìn)行排列，取最高的幾個(gè)值對(duì)應(yīng)的課程進(jìn)行推薦（例如 top10）。這樣，便實(shí)現(xiàn)了模型從設(shè)計(jì)到訓(xùn)練再到具體環(huán)境的流程。

CRS系統(tǒng)，不僅可以輔助學(xué)生進(jìn)行課程的決策，更可對(duì)其進(jìn)行功能的延展。例如，課程推薦系統(tǒng)可以通過預(yù)測(cè)學(xué) 生的選課情況，從而了解學(xué)生對(duì)于課程的偏好，從側(cè)面實(shí)現(xiàn)了對(duì)某一課程的評(píng)估，使得課程評(píng)估變得更具客觀性。這樣一來，CRS 系統(tǒng)可以幫助校方進(jìn)行課程信息的調(diào)整及開設(shè)。

此外，CRS 系統(tǒng)經(jīng)過模型與數(shù)據(jù)集的改動(dòng)，可以解決回歸問題，實(shí)現(xiàn)學(xué)生對(duì)于某一課程的選課情況的預(yù)測(cè)。這樣可以更好地幫助校方調(diào)整課容量，從而摒棄了以往僅僅通過主觀、感性的判斷而人為設(shè)定的課容量，對(duì)于新課的開設(shè) 也是具有很好的指導(dǎo)意義。例如，對(duì)某個(gè)新開設(shè)的課程，其在多個(gè)校區(qū)均有開設(shè)，通過 CRS 系統(tǒng)，便可預(yù)測(cè)不同校區(qū) 的選課情況，并對(duì)這一課程的教室類型和容量進(jìn)行調(diào)整。這樣一來，校方減少了教學(xué)資源的浪費(fèi)，實(shí)現(xiàn)了精度化的課程開設(shè)。從這些應(yīng)用來看，課程推薦系統(tǒng)同樣對(duì)于學(xué)校有著巨大的指導(dǎo)作用。

3實(shí)驗(yàn)驗(yàn)證

3.1實(shí)驗(yàn)環(huán)境

本文使用Python語(yǔ)言和TensorFlow深度學(xué)習(xí)工具實(shí)現(xiàn)，云端服務(wù)器配置有16核CPU，64GB內(nèi)存和4個(gè)NVIDIA RTX2080Ti。

3.2學(xué)生-課程的相關(guān)性預(yù)測(cè)和排序

為了驗(yàn)證模型設(shè)計(jì)和實(shí)驗(yàn)方案的可行性，利用現(xiàn)有的已經(jīng)清洗并脫敏的學(xué)生屬性、選課屬性數(shù)據(jù)集進(jìn)行了學(xué)生-課程相關(guān)性的計(jì)算實(shí)驗(yàn)。表1中的相關(guān)性為樣例學(xué)生和樣例課程的相關(guān)性計(jì)算，表2為學(xué)生-課程相關(guān)性的前三相關(guān)性，即推薦候選課程排名前三的名單。由表2可以簡(jiǎn)單得出，通過CRS系統(tǒng)的計(jì)算，可以將學(xué)生的已有信息轉(zhuǎn)化為一種更為普遍的對(duì)課程的偏好，如同學(xué)丙的top3課程均與文學(xué)和歷史相關(guān)，而同學(xué)丙便是歷史學(xué)院的學(xué)生;由表1同樣可以得到一些和常識(shí)相對(duì)應(yīng)的信息，如同學(xué)甲、乙均位于校區(qū)0，而他們對(duì)于開設(shè)在校區(qū)1的課程相關(guān)性較強(qiáng)（如課程A和課程B）。當(dāng)然，通過CRS一樣可以挖掘出一些有趣的事件，如生源地為河北的同學(xué)大多有對(duì)計(jì)算機(jī)類課程的偏好。以上實(shí)驗(yàn)結(jié)果因此可以簡(jiǎn)單驗(yàn)證CRS系統(tǒng)的可行性。

4總結(jié)

本作提出了 CRS 系統(tǒng)，其不僅可以充分的利用大學(xué)現(xiàn)有的校園數(shù)據(jù)資源，實(shí)現(xiàn)對(duì)學(xué)生個(gè)性化的課程推薦，甚至可以利用其很好的延展性，應(yīng)用到校方的課程開設(shè)中并為其做出指導(dǎo)作用，最終實(shí)現(xiàn)了對(duì)學(xué)生進(jìn)行課程推薦和輔助學(xué)校進(jìn)行課程開設(shè)決策的最終目的。

然而，在實(shí)際應(yīng)用中，由于每個(gè)課程，計(jì)算量相當(dāng)龐大，這在實(shí)際情況下是不可行的。因此我提出了以下方案：率先進(jìn)行課程的聚類，通過 CRS 系統(tǒng)對(duì)課程組別的推薦來減少這一計(jì)算量;另外，我們也可設(shè)定一個(gè)學(xué)生與課程相關(guān)性指標(biāo)的閾值，將高于這一閾值的課程放入這一學(xué)生的候選課程名單，減少課程數(shù)從而降低計(jì)算的復(fù)雜度。

在校園的課程數(shù)據(jù)的應(yīng)用中，仍有許多的特征亟待挖掘，由于推薦系統(tǒng)的復(fù)雜性，為了簡(jiǎn)化挖掘過程，本文在實(shí) 現(xiàn)時(shí)，對(duì)大量的學(xué)生特征進(jìn)行了適當(dāng)?shù)娜∩幔ㄈ邕x擇某一課程的學(xué)生的信息，以及由于選修和必修課程出現(xiàn)的一些差異情況），使得 CRS 系統(tǒng)的適用性更強(qiáng)，適用范圍更廣。

參考文獻(xiàn)

[1] Junxuan Chen&Baigui Sun&Hao Li&Hongtao Lu&Xian-Sheng Hua. Deep ctr prediction in display advertising[J].In Proceedings of the 24th ACM international conference on Multimedia，2016：811–820.

[2] Tianqi Chen and Carlos Guestrin. Xgboost： A scalable tree boosting system[J].In Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining，2016：785–794.

[3] Yuchin Juan&Yong Zhuang&Wei-Sheng Chin&Chih-Jen Lin. Field-aware factorization machines for ctr pre- diction[J].In Proceedings of the 10th ACM Conference on Recommender Systems，2016：43–50.

[4] Guolin Ke&Qi Meng&Thomas Finley&Taifeng Wang&Wei Chen&Weidong Ma&Qiwei Ye&Tie-Yan Liu. Lightgbm：A highly efficient gradient boosting decision tree[J].In Advances in Neural Information Processing Systems，2017：3146–3154.

[5] Steffen Rendle.Factorization machines[J].In 2010 IEEE International Conference on Data Mining，2010：995–1000.

[6] Ruoxi Wang&Bin Fu&Gang Fu&Mingliang Wang.Deep & cross network for ad click predictions[J].In Proceedings of the ADKDD17，2017：12.

[7] Jun Xiao&Hao Ye&Xiangnan He&Hanwang Zhang&Fei Wu&Tat-Seng Chua. Attentional factorization machines： Learning the weight of feature interactions via attention networks[J].arXiv preprint arXiv：1708.04617，2017.

附錄

A 數(shù)據(jù)集相關(guān)細(xì)節(jié)

數(shù)據(jù)集的來源為四川大學(xué)學(xué)生部分?jǐn)?shù)據(jù)中的學(xué)生基本信息和選課信息。我們將數(shù)據(jù)分為五個(gè)部分：學(xué)生基本信息數(shù)據(jù)、選課信息、教師基本信息、教室信息。另外，特征存在三類：數(shù)值型（numeric），離散型（discrete），向量型（vector），長(zhǎng)度型（length），時(shí)間型（time）。其中，數(shù)值型為浮點(diǎn)數(shù);離散型為類別 id，可進(jìn)行獨(dú)熱處理;向量型為單個(gè)特征中存在多個(gè)離散值的數(shù)組，且數(shù)組長(zhǎng)度不定;長(zhǎng)度型為特殊的數(shù)值型，其為從向量型特征中數(shù)組長(zhǎng)度的取值; 時(shí)間型為特殊的數(shù)值型，由于在這個(gè)背景中涉及到時(shí)序問題，將數(shù)據(jù)中涉及的時(shí)間特征按從小到大進(jìn)行獨(dú)熱處理，并按數(shù)值型特征對(duì)待。

對(duì)于訓(xùn)練集和測(cè)試集中的標(biāo)簽表示某個(gè)學(xué)生是否選擇某個(gè)課程，分為兩個(gè)值：0、1。0 表示選課，1 表示不選課。

下面將對(duì)數(shù)據(jù)集中的主要特征進(jìn)行列舉：

（1）學(xué)生基本信息：學(xué)生 id（discrete），年齡（numeric），年級(jí) （numeric），性別（discrete），生源地（discrete），歷史課程（vector）。

（2）選課信息：選課 id（discrete），課程名，開設(shè)學(xué)院 id（disc? rete），課程號(hào) id（discrete），課序號(hào) id（discrete），選課時(shí)間，開設(shè)學(xué)院 id，課程類型 id，教師 id，校區(qū) id，周次，教學(xué)樓 id，教室 id，課容量。

（3）教師基本信息：教師 id，教師所屬學(xué)院 id，性別，年齡，歷史教學(xué)課程。

（4）教室信息：教室 id，所在教學(xué)樓 id，所在樓層，教室類型，教室大小，教室新舊情況注意：①在學(xué)生 id 中需保留原始學(xué)生號(hào)用于之后的特征工程。②選課信息為選課信息和課程信息的合并，為便于總結(jié)，在這里進(jìn)行了簡(jiǎn)化。③教師基本信息和學(xué)生基本信息中，歷史課程均為課程 id 的集合。④教室信息中，教室新舊情況可視為簡(jiǎn)化特征，例如將最近的裝修年份作為新舊程度劃分的標(biāo)準(zhǔn);教室大小可按照教室面積的標(biāo)準(zhǔn)劃分;教室類型為人為界定特征，比如未有任何設(shè)備的教室為最低級(jí)別，具有多媒體、師生互動(dòng)設(shè) 備等條件則為不同的類型。

下面將對(duì)訓(xùn)練集和測(cè)試集的基本內(nèi)容進(jìn)行分析：

訓(xùn)練集和測(cè)試集均包括選課 id、學(xué)生 id 以及是否選課這三個(gè)特征，其中訓(xùn)練集與測(cè)試集的比例按照 20：1 劃分。另外，由于這個(gè)分類問題中正負(fù)樣本數(shù)量的明顯差距，我們采用正負(fù)樣本 1：20 來進(jìn)行數(shù)據(jù)的采樣。對(duì)于空缺值及異常值，均以-1 填充。

B 模型訓(xùn)練細(xì)節(jié)

以下列舉了一些主要參數(shù)及對(duì)應(yīng)的默認(rèn)值：

feature_dim_dict – 特征字典，以字典的格式保存特征的域，例如 {sparse：{field_1：4，field_2：3， field_3：2}，dense：{field_4，field_5}}

embedding_size=8 – embedding 層的輸出向量長(zhǎng)度 dnn_hidden_units=（128， 128） – deep 部分的網(wǎng)絡(luò)結(jié)構(gòu) l2_reg_linear=0.00001 – 應(yīng)用在 FM 部分的 L2 正則化 l2_reg_embedding=0.00001 – 應(yīng)用在 embedding 層的 L2 正則化 l2_reg_dnn=0 – 應(yīng)用在神經(jīng)網(wǎng)絡(luò)隱層的 L2 正則化

task=binary – 訓(xùn)練任務(wù)，這里默認(rèn)的是二分類問題

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于高低階特征交叉的校園課程推薦系統(tǒng)研究