FOCoR:一種基于特征選擇優(yōu)化的課程推薦技術(shù)

2022-10-18 06:56王揚(yáng)，陳梅，李暉

計(jì)算機(jī)與現(xiàn)代化 2022年10期

王揚(yáng)，陳梅，李暉

(貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽 550025)

0 引言

課程推薦是在線教育領(lǐng)域解決學(xué)習(xí)者和課程快速匹配的關(guān)鍵。主流推薦算法通常會基于顯式的課程評分反饋進(jìn)行分析，但是由于用戶一般很少主動地對課程進(jìn)行評分，因而高質(zhì)量數(shù)據(jù)通常不足且容易導(dǎo)致用戶與推薦課程的匹配度并不高。在線教育平臺的行為日志能夠較真實(shí)地反映用戶的課程學(xué)習(xí)偏好，而且數(shù)據(jù)也相對容易獲取，因此基于用戶行為日志作為隱式反饋課程推薦算法的研究越來越多。

基于行為日志的推薦系統(tǒng)規(guī)避了評分?jǐn)?shù)據(jù)獲取困難的窘境，但是在日志數(shù)據(jù)不足的情況下依然存在著嚴(yán)重的用戶冷啟動問題。本文針對在線教育平臺中行為日志推薦系統(tǒng)存在的冷啟動問題，設(shè)計(jì)一種融合高校選課數(shù)據(jù)的基于特征選擇優(yōu)化的課程推薦方法FOCoR (Features Optimization based Courses Recommendation)。在FOCoR的研究過程中，本文提出基于遺傳算法的特征選擇技術(shù)FSBGA (Feature Selection Based on Genetic Algorithm)，構(gòu)造出結(jié)合模型損失和特征數(shù)量的適應(yīng)度函數(shù)，并在高校選課數(shù)據(jù)的特征子集空間中搜索出兼顧模型損失和特征數(shù)量的最優(yōu)特征子集作為推薦模型的輸入，然后基于梯度提升樹LightGBM技術(shù)構(gòu)建推薦模型進(jìn)行課程推薦。為了驗(yàn)證FOCoR方法的有效性，本文在某高校的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)分析。

1 相關(guān)工作

推薦模型所需的部分輸入數(shù)據(jù)缺失是產(chǎn)生冷啟動問題的根本原因。一些研究借助其它類型的數(shù)據(jù)來應(yīng)對冷啟動問題，這一類方法被稱為基于輔助數(shù)據(jù)的方法[1]。常用的輔助數(shù)據(jù)包括用戶人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、情景信息等。首先，簡要回顧部分解決方案。Raigoza等人[2]利用人口統(tǒng)計(jì)學(xué)特征將用戶分為不同群組，進(jìn)而基于項(xiàng)目在相似特征用戶群組中的流行程度或熱度進(jìn)行推薦。巫可等人[3]利用人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的隱語義推薦模型，通過屬性映射，解決了協(xié)同過濾算法的冷啟動問題。Lika等人[4]在基于人口統(tǒng)計(jì)學(xué)特征對用戶分類的基礎(chǔ)上，設(shè)計(jì)了評分預(yù)測函數(shù)，基于同組用戶的評分對新用戶進(jìn)行推薦。Park等人[5]關(guān)注了自適應(yīng)學(xué)習(xí)環(huán)境下的冷啟動問題，面向新用戶提出一種基于用戶背景信息的方法。此外，自適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)用戶學(xué)習(xí)能力為用戶定制個性化學(xué)習(xí)環(huán)境，也有助于解決用戶冷啟動問題。

隨著社交網(wǎng)絡(luò)的廣泛應(yīng)用，越來越多的研究嘗試?yán)蒙缃痪W(wǎng)絡(luò)數(shù)據(jù)改善推薦系統(tǒng)性能或進(jìn)行推薦，這類推薦也被稱為社會化推薦[6]。用戶基本情況數(shù)據(jù)、用戶與朋友的交互數(shù)據(jù)、用戶與其所屬機(jī)構(gòu)的關(guān)聯(lián)數(shù)據(jù)等都可以用于推薦[7]。社交網(wǎng)絡(luò)數(shù)據(jù)也為冷啟動問題的緩解提供了有力支持。Sahebi等人[8]用社區(qū)發(fā)現(xiàn)技術(shù)從社會化網(wǎng)絡(luò)中識別社區(qū)，在社區(qū)內(nèi)計(jì)算新用戶的最近鄰進(jìn)行協(xié)同過濾。Nguyen等人[9]在社區(qū)發(fā)現(xiàn)與識別的基礎(chǔ)上計(jì)算社區(qū)中所有用戶對特定項(xiàng)目的偏好，這一社區(qū)偏好可用于解決協(xié)同過濾中的數(shù)據(jù)稀疏和新用戶冷啟動問題。Zhang等人[10]利用社交網(wǎng)絡(luò)數(shù)據(jù)對用戶靜態(tài)偏好和動態(tài)偏好建模，可以緩解新用戶冷啟動問題。

情境信息也稱為上下文信息，是任何可以用于描述一個實(shí)體情況特征的信息，例如時(shí)間、空間、設(shè)備、環(huán)境等。利用情境信息實(shí)施推薦的系統(tǒng)成為情境感知推薦系統(tǒng)信息推薦領(lǐng)域重要的發(fā)展方向之一[11]。引入情境信息不僅可以提高推薦模型的準(zhǔn)確率，還有利于緩解冷啟動問題。于洪等人[12]同時(shí)考慮用戶、標(biāo)簽、項(xiàng)目屬性、時(shí)間因子之間的關(guān)系，在基于圖的模型基礎(chǔ)上，進(jìn)行個性化評分預(yù)測，以此解決項(xiàng)目冷啟動問題。Chen等人[13]提出一種協(xié)同過濾的Web服務(wù)QoS(Quality of Service)預(yù)測方法，該方法將用戶和Web服務(wù)在地理空間上近鄰的數(shù)據(jù)整合到矩陣分解模型中，可以緩解評分?jǐn)?shù)據(jù)的稀疏和冷啟動，提高預(yù)測準(zhǔn)確性。Viktoratos等人[14]從Foursquare收集用戶的登錄信息，通過關(guān)聯(lián)規(guī)則挖掘建立用戶登錄日期、時(shí)間段、天氣與POI(興趣點(diǎn))類別的關(guān)聯(lián)，基于這種關(guān)聯(lián)規(guī)則為用戶推薦POI，新項(xiàng)目的推薦可以基于其所屬的類別實(shí)現(xiàn)。Tian等人[15]在基于項(xiàng)目流行度推薦的基礎(chǔ)上，引入時(shí)間和空間2種情境信息計(jì)算情境化的流行度，為新用戶進(jìn)行推薦。

關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data, LOD)項(xiàng)目的發(fā)展為數(shù)據(jù)密集型任務(wù)提供了獲取所需信息的便捷方式，LOD要求用戶以RDF格式發(fā)布數(shù)據(jù)，并通過RDF三元組建立與其他數(shù)據(jù)集合的關(guān)聯(lián)。一些研究引入LOD數(shù)據(jù)用以緩解推薦系統(tǒng)的冷啟動問題。例如，Wang等人[16]提出一種關(guān)聯(lián)數(shù)據(jù)驅(qū)動的數(shù)字圖書推薦模型，把圖書館的本地?cái)?shù)據(jù)與外部相關(guān)的關(guān)聯(lián)數(shù)據(jù)相融合，根據(jù)圖書館資源信息的不同的特性，分別構(gòu)建用戶社會關(guān)系語義本體知識庫與數(shù)字圖書語義本體知識庫，并根據(jù)用戶對圖書瀏覽的活躍程度，針對不同的用戶，采取不同的推薦策略，緩解了圖書推薦系統(tǒng)的冷啟動問題。Srinivasan等人[17]利用LOD數(shù)據(jù)和用戶評分?jǐn)?shù)據(jù)構(gòu)建語義關(guān)聯(lián)圖譜用以增強(qiáng)推薦的多樣性。LOD也為冷啟動問題的緩解提供了富含語義關(guān)聯(lián)的數(shù)據(jù)。Natarajan等人[18]利用開放鏈路數(shù)據(jù)緩解了旅游推薦系統(tǒng)存在的冷啟動問題。莫荔媛[19]在推薦系統(tǒng)中提供了LOD數(shù)據(jù)的接口，當(dāng)新用戶或新項(xiàng)目進(jìn)入推薦系統(tǒng)時(shí)，查詢在LOD數(shù)據(jù)集合中獲取用戶信息或項(xiàng)目信息，以此解決冷啟動問題。

課程推薦本質(zhì)上是要預(yù)測用戶參與一門課程學(xué)習(xí)的概率。高校選課數(shù)據(jù)集為這種預(yù)測提供了基礎(chǔ)。因此本文構(gòu)建結(jié)合選課數(shù)據(jù)集的課程推薦算法，以解決行為日志課程推薦系統(tǒng)存在的冷啟動問題。

2 基于特征優(yōu)化的課程推薦方法FOCoR

本章主要介紹結(jié)合選課數(shù)據(jù)集的課程推薦方法FOCoR。其核心步驟分為數(shù)據(jù)預(yù)處理、特征選擇和選課概率計(jì)算。在數(shù)據(jù)預(yù)處理環(huán)節(jié)中，介紹WOE編碼原理以及如何應(yīng)用WOE編碼將選課數(shù)據(jù)集中的類別特征轉(zhuǎn)變成數(shù)字特征。在特征選擇環(huán)節(jié)將介紹正交表的原理，并提出基于遺傳算法的特征選擇方法FSBGA。FSBGA使用正交表生成遺傳算法的初始種群，通過自定義的適應(yīng)度函數(shù)來平衡模型損失與特征的數(shù)量，從而找到利于模型訓(xùn)練的最優(yōu)特征子集。在選課概率計(jì)算環(huán)節(jié)介紹了LightGBM的原理并使用LightGBM在FSBGA選擇的特征上訓(xùn)練是否選課的二分類模型。依據(jù)選課模型輸出的選課概率對用戶進(jìn)行課程推薦。課程推薦算法FOCoR的核心流程如圖1所示。

2.1 基于WOE的數(shù)據(jù)預(yù)處理

在本文中，數(shù)據(jù)預(yù)處理是指在模型訓(xùn)練前對模型無法處理的數(shù)據(jù)進(jìn)行處理的過程。由于大多數(shù)機(jī)器學(xué)習(xí)算法不能處理類別型特征，因此模型訓(xùn)練前需要將其轉(zhuǎn)換為數(shù)字特征，這個過程被稱為特征編碼。常見的特征編碼方案有One-Hot編碼和WOE(Weight of Evidence)編碼這2種。其中One-Hot采用二進(jìn)制編碼，每個比特位對應(yīng)特征的一個取值水平xi，該位為1表示該特征的取值為xi。WOE編碼，即證據(jù)權(quán)重，也叫做自變量的一種編碼，其定義如式(1)。

(1)

其中i為某個特征的取值。Badi為該特征取值為i時(shí)的Bad標(biāo)簽數(shù)量，BadT為該特征總共的Bad標(biāo)簽數(shù)量。Goodi為該特征取值為i時(shí)的Good標(biāo)簽數(shù)量，GoodT為該特征總共的Good標(biāo)簽數(shù)量?？紤]到One-Hot編碼容易產(chǎn)生高維稀疏矩陣，不利于模型訓(xùn)練，因此使用WOE編碼對選課數(shù)據(jù)集中的類別型特征進(jìn)行特征編碼。

在選課數(shù)據(jù)集中有“年級”這一類別特征，下面介紹如何對其進(jìn)行WOE編碼。首先從選課數(shù)據(jù)集中統(tǒng)計(jì)出各年級學(xué)生的選課數(shù)量，如表1所示。

表1 不同年級學(xué)生的選課數(shù)量

2.2 特征選擇

特征選擇能過濾冗余特征，提高模型精確度，促進(jìn)模型的構(gòu)建和優(yōu)化。在特征選擇過程中，常采用的特征搜索策略包括全局搜索、隨機(jī)搜索和啟發(fā)式搜索3種。高校選課數(shù)據(jù)集的更新頻率較慢，通常在某固定時(shí)間才會發(fā)生更新(例如：每學(xué)期開學(xué)時(shí))。在特征較多但仍期望獲得最優(yōu)特征子集時(shí)，通常采用隨機(jī)搜索策略。本文采用遺傳算法作為特征選擇方法并使用正交表[20]生成遺傳算法的初始種群。

2.2.1 正交表技術(shù)

由于特征選擇之前，人們并不知道哪些特征是對推薦模型訓(xùn)練有益的優(yōu)質(zhì)特征。因此需要使用正交表將初始種群均勻地、離散地分布在整個特征子集空間。通過這種方式，不僅縮小了初始種群的規(guī)模使得模型容易收斂，也使得初始種群更具有代表性。

正交表是經(jīng)驗(yàn)制成的用于設(shè)計(jì)等水平正交實(shí)驗(yàn)的二維表格，記為Lx.y.z。其中L是正交表的記號，x為期望的樣本數(shù)量，y是變量的取值個數(shù)，z是變量的數(shù)量。使用正交表生成的實(shí)驗(yàn)樣本具有均衡搭配、綜合可比的特點(diǎn)[14]，這些特點(diǎn)對于其正交性具有重要的意義。

1)均衡搭配。任意特征的任意取值與其它特征的每一個取值搭配的次數(shù)均相等。

2)綜合可比。任意特征的取值出現(xiàn)的次數(shù)相等。

關(guān)于正交表的特點(diǎn)比較容易理解，以3個特征、每個特征2個取值的L4.2.3正交表為例來說明，如表2所示。

表2 L4.2.3的正交表

由表2可知，各特征的取值均出現(xiàn)2次，各特征的取值與任意特征的取值搭配均出現(xiàn)1次。

2.2.2 基于遺傳算法的特征選擇

特征選擇問題其實(shí)也是組合優(yōu)化問題。本小節(jié)介紹遺傳算法的原理并提出使用遺傳算法求解特征選擇問題的FSBGA算法。

遺傳算法是一種模擬自然進(jìn)化過程搜索最優(yōu)解的方法，通常能夠較快地獲得較好的優(yōu)化結(jié)果。圖2是遺傳算法的流程圖。

使用遺傳算法進(jìn)行特征選擇的關(guān)鍵在于設(shè)計(jì)出平衡特征數(shù)量于模型損失的適應(yīng)度函數(shù)。本文希望特征選擇算法搜索出分類能力好并且特征數(shù)量較少的特征子集。因此定義適應(yīng)度函數(shù)如下：

(2)

其中L(x)為模型對于所選特征向量x的對數(shù)損失。Fn表示特征維度個數(shù)。α∈[0,1]是給定的平衡因子，當(dāng)α=0時(shí)，適應(yīng)度函數(shù)取決于特征維度個數(shù)，當(dāng)α=1時(shí)，適應(yīng)度函數(shù)取決于分類模型的對數(shù)損失。因此平衡因子α可以調(diào)節(jié)模型損失和特征數(shù)量間的權(quán)重。由于適應(yīng)度函數(shù)中使用了分類模型的對數(shù)損失值，會導(dǎo)致適應(yīng)度的計(jì)算時(shí)間較長，影響模型的收斂速度。對于這個問題本文從2個方面做出優(yōu)化：

1)利用數(shù)據(jù)字典保存歷史基因的適應(yīng)度，在計(jì)算適應(yīng)度函數(shù)時(shí)，若基因在數(shù)據(jù)字典中存在，返回對應(yīng)的適應(yīng)度值。

2)創(chuàng)建被淘汰樣本的集合，當(dāng)交叉、變異產(chǎn)生的樣本在已淘汰的中時(shí)，重新選擇父代產(chǎn)生新的后代。

2.3 基于梯度提升樹的選課概率計(jì)算

本文依據(jù)選課模型輸出的選課概率對用戶進(jìn)行課程推薦，因此選課模型的好壞與課程推薦的有效性息息相關(guān)。LightGBM[21]是一種高效的集成樹算法，常被用于點(diǎn)擊率預(yù)測、搜索排序、物品推薦等任務(wù)中。因此本文使用LightGBM在FSBGA選出的最優(yōu)特征集上訓(xùn)練是否選課的二分類模型。本節(jié)將介紹梯度提升樹[22](GBDT)的原理，以及XGBoost[23]為了提高GBDT的準(zhǔn)確率、降低過擬合風(fēng)險(xiǎn)所做出的改進(jìn)，最后介紹LightGBM為了提升計(jì)算速度、降低資源開銷在XGBoost上做的優(yōu)化。

2.3.1 梯度提升樹

1)初始化模型：估計(jì)使式(3)取最小值的回歸樹C進(jìn)行初始化，C是只有一個根節(jié)點(diǎn)的樹。

(3)

2)進(jìn)行模型迭代，迭代次數(shù)m=1,2,…,M：

①對i=1,2,…,n，計(jì)算殘差rim，即在當(dāng)前模型下的損失函數(shù)的負(fù)梯度值：

(4)

②根據(jù)rim擬合一棵回歸樹，得到第m棵樹的葉子區(qū)域Rmj,j=1,2,…,J,J標(biāo)識葉子節(jié)點(diǎn)個數(shù)。

③對j=1,2,…,J，利用線性搜索估計(jì)葉子節(jié)點(diǎn)區(qū)域的值Cmj,令損失函數(shù)極小化：

(5)

④更新回歸樹：其中I為示性函數(shù)，當(dāng)回歸樹判定x∈Rmj時(shí)，I(x)=1，否則I(x)=0。

(6)

3)迭代M次后輸出最終模型：

(7)

2.3.2 XGBoost算法

GBDT的高精度使它在工業(yè)界廣泛應(yīng)用，但GBDT方法只利用了一階導(dǎo)數(shù)信息，且容易產(chǎn)生過擬合。XGBoost則在目標(biāo)函數(shù)中加入了正則項(xiàng)，使得式(5)的目標(biāo)函數(shù)變成了式(8)。

(8)

其中?(fm(xi))是正則化項(xiàng)。利用二階泰勒展開對其近似，使得提高了計(jì)算精度且降低了模型過擬合的風(fēng)險(xiǎn)。仔細(xì)分析XGBoost的算法邏輯，還是會發(fā)現(xiàn)一些不足：

首先，特征數(shù)量越多算法迭代的次數(shù)就越多，這對內(nèi)存的消耗很大，也會延長模型的收斂時(shí)間。

其次，在計(jì)算特征分割點(diǎn)時(shí)，會遍歷所有特征分割點(diǎn)，收益不高的分割點(diǎn)太多時(shí)，會降低算法的計(jì)算效率。

2.3.3 LightGBM算法

為了進(jìn)一步提高計(jì)算效率，降低資源消耗，LightGBM引入了基于梯度的單邊采樣(GOSS)算法與互斥特征綁定(EFB)算法。

因?yàn)樘荻却蟮臉颖緦τ?jì)算信息增益的貢獻(xiàn)更大，因此GOSS隨機(jī)丟棄部分梯度小的樣本，以減少模型訓(xùn)練的耗時(shí)。以下是GOSS的理論部分：

(9)

其中：

(10)

(11)

EFB算法將互斥特征綁定成一個特征，實(shí)際情況中很多的數(shù)據(jù)處理方式會產(chǎn)生稀疏矩陣，EFB算法可以將互斥特征變成一個特征。通過特征數(shù)量的減少，可以降低計(jì)算的復(fù)雜度，減少算法運(yùn)行的內(nèi)存消耗。

正是GOSS、EFB算法的引入，使得比起XGBoost, LightGBM模型訓(xùn)練的內(nèi)存消耗更少、訓(xùn)練時(shí)間更短。因此本文使用LightGBM訓(xùn)練是否選課的二分類模型。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)介紹

本文使用的數(shù)據(jù)是由某高校教務(wù)數(shù)據(jù)庫中抽取出的學(xué)生選課數(shù)據(jù)集。有記錄437616條，包含40個特征，詳情見表3。其中授課教師特征12個、學(xué)生相關(guān)特征18個、課程相關(guān)特征10個，以及是否選課的標(biāo)識。

表3 特征匯總表

3.2 基線模型

FOCoR模型通過計(jì)算學(xué)習(xí)者的選課概率進(jìn)行課程推薦，選課概率計(jì)算是推薦過程的核心，表4給出了常見的用于推薦任務(wù)的二分類模型。

表4 推薦任務(wù)的常見二分類模型

3.3 評估指標(biāo)

本文采用對數(shù)損失、準(zhǔn)確率、召回率、F1分?jǐn)?shù)、ROC曲線這5個指標(biāo)來評估模型的性能。

對數(shù)損失描述了分類模型能正確分類的能力，二分類模型的對數(shù)損失的計(jì)算參照式(12)：

(12)

對于用戶u推薦N門課程的集合記為R(u)，而u在平臺上推薦之后參與的課程集合為T(u)，準(zhǔn)確率的計(jì)算方法參照式(13)：

(13)

準(zhǔn)確率表示用戶對被推薦課程感興趣的概率，準(zhǔn)確率越大，說明用戶對被推薦的課程越感興趣。召回率的計(jì)算公式參照式(14)：

(14)

推薦召回率表示用戶感興趣的課程被推薦的概率，召回率越大，說明越可能向用戶推薦感興趣的課程。F1分?jǐn)?shù)計(jì)算參照式(15)：

(15)

F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均，是同時(shí)考慮了準(zhǔn)確率和召回率的一種評估方式。

ROC曲線：該曲線的評判標(biāo)準(zhǔn)是曲線越靠近對角線的左上角，模型分類效果越好。AUC值則表示ROC曲線下的面積。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 不同特征選擇方法的結(jié)果與分析

選課數(shù)據(jù)集包含40個特征，因此根據(jù)L48.2.40的正交表生成種群規(guī)模為48的初始種群。在平衡因子α=0.7，變異系數(shù)β=0.002時(shí)，經(jīng)過85輪迭代后收斂，得到最優(yōu)特征20個。

為驗(yàn)證FSBGA進(jìn)行特征選擇的有效性，將FSBGA與互信息[29]、F檢驗(yàn)[30]這2種常見的特征選擇方法進(jìn)行對比。不同特征選擇方法下的指標(biāo)數(shù)據(jù)如表5所示。

表5 不同特征集下推薦模型的指標(biāo)

圖3是推薦模型在不同特征選擇算法選出的特征子集上的ROC曲線。

表6記錄了FSBGA相較于互信息與F檢驗(yàn)的指標(biāo)提升幅度。

表6 遺傳算法的指標(biāo)提升幅度/%

從表6可知使用FSBGA進(jìn)行特征選擇的課程推薦模型在各項(xiàng)指標(biāo)上均優(yōu)于使用互信息與F檢驗(yàn)做特征選擇的推薦模型。其中相對于F檢驗(yàn)的對數(shù)損失降低了49%，AUC指標(biāo)提升了75%。可能是由于WOE編碼后的數(shù)據(jù)不服從正態(tài)分布，使得F檢驗(yàn)的效果不好導(dǎo)致的。

3.4.2 不同選課概率預(yù)測模型的結(jié)果與分析

在選課數(shù)據(jù)集上劃分80%的數(shù)據(jù)作為訓(xùn)練集，20%的數(shù)據(jù)作為測試集。表7是不同的推薦方法訓(xùn)練的模型在測試集上的指標(biāo)。

表7 推薦模型的評估指標(biāo)

圖4是不同推薦方法繪制的ROC曲線。

表8記錄了使用FSBGA后不同推薦算法的指標(biāo)提升幅度。

表8 FSBGA對不同推薦算法指標(biāo)的提升幅度/%

從表8可以看出，采用FSBGA特征選擇方法后，除DNN外，其余課程推薦方法的準(zhǔn)確率、召回率、F1、AUC指標(biāo)提升幅度不大，但模型的對數(shù)損失大幅降低。這表明FSBGA有助于提高這些模型的分類能力。由于DNN自身具有特征選擇能力，因此FSBGA未能提升DNN的指標(biāo)表現(xiàn)。然而DNN的準(zhǔn)確率只有0.84，這可能是DNN在小數(shù)據(jù)集上產(chǎn)生了過擬合導(dǎo)致的。

同時(shí)在FSBGA選擇出的特征集上，LightGBM所訓(xùn)練的選課模型在F1分?jǐn)?shù)上表現(xiàn)最佳，因此使用其作為最終的課程推薦模型。

4 結(jié)束語

本文設(shè)計(jì)了融合高校選課數(shù)據(jù)的課程推薦方法FOCoR來解決在線教育平臺行為日志推薦系統(tǒng)存在的冷啟動問題。針對選課數(shù)據(jù)中的特征冗余問題，提出了基于遺傳算法的特征選擇方法FSBGA，并將其與基于互信息、F檢驗(yàn)的特征選擇方法進(jìn)行對比，驗(yàn)證了FSBGA特征選擇方法的有效性。此外，本文將FOCoR與LightGBM、XGBoost、決策樹、隨機(jī)森林、邏輯回歸等技術(shù)在真實(shí)數(shù)據(jù)集上進(jìn)行對比分析，驗(yàn)證了其性能優(yōu)勢。盡管FOCoR采用FSBGA來進(jìn)行特征選擇，能夠有效提升推薦模型的關(guān)鍵性能指標(biāo)，但目前只能選出較優(yōu)的一階特征。如何結(jié)合特征交叉技術(shù)篩選出高階特征來進(jìn)一步提高推薦能力，將是本文研究工作的后續(xù)優(yōu)化方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡