国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

FOCoR:一種基于特征選擇優(yōu)化的課程推薦技術(shù)

2022-10-18 06:56揚(yáng),陳梅,李
計(jì)算機(jī)與現(xiàn)代化 2022年10期
關(guān)鍵詞:冷啟動特征選擇適應(yīng)度

王 揚(yáng),陳 梅,李 暉

(貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025)

0 引 言

課程推薦是在線教育領(lǐng)域解決學(xué)習(xí)者和課程快速匹配的關(guān)鍵。主流推薦算法通常會基于顯式的課程評分反饋進(jìn)行分析,但是由于用戶一般很少主動地對課程進(jìn)行評分,因而高質(zhì)量數(shù)據(jù)通常不足且容易導(dǎo)致用戶與推薦課程的匹配度并不高。在線教育平臺的行為日志能夠較真實(shí)地反映用戶的課程學(xué)習(xí)偏好,而且數(shù)據(jù)也相對容易獲取,因此基于用戶行為日志作為隱式反饋課程推薦算法的研究越來越多。

基于行為日志的推薦系統(tǒng)規(guī)避了評分?jǐn)?shù)據(jù)獲取困難的窘境,但是在日志數(shù)據(jù)不足的情況下依然存在著嚴(yán)重的用戶冷啟動問題。本文針對在線教育平臺中行為日志推薦系統(tǒng)存在的冷啟動問題,設(shè)計(jì)一種融合高校選課數(shù)據(jù)的基于特征選擇優(yōu)化的課程推薦方法FOCoR (Features Optimization based Courses Recommendation)。在FOCoR的研究過程中,本文提出基于遺傳算法的特征選擇技術(shù)FSBGA (Feature Selection Based on Genetic Algorithm),構(gòu)造出結(jié)合模型損失和特征數(shù)量的適應(yīng)度函數(shù),并在高校選課數(shù)據(jù)的特征子集空間中搜索出兼顧模型損失和特征數(shù)量的最優(yōu)特征子集作為推薦模型的輸入,然后基于梯度提升樹LightGBM技術(shù)構(gòu)建推薦模型進(jìn)行課程推薦。為了驗(yàn)證FOCoR方法的有效性,本文在某高校的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)分析。

1 相關(guān)工作

推薦模型所需的部分輸入數(shù)據(jù)缺失是產(chǎn)生冷啟動問題的根本原因。一些研究借助其它類型的數(shù)據(jù)來應(yīng)對冷啟動問題,這一類方法被稱為基于輔助數(shù)據(jù)的方法[1]。常用的輔助數(shù)據(jù)包括用戶人口統(tǒng)計(jì)學(xué)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、情景信息等。首先,簡要回顧部分解決方案。Raigoza等人[2]利用人口統(tǒng)計(jì)學(xué)特征將用戶分為不同群組,進(jìn)而基于項(xiàng)目在相似特征用戶群組中的流行程度或熱度進(jìn)行推薦。巫可等人[3]利用人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的隱語義推薦模型,通過屬性映射,解決了協(xié)同過濾算法的冷啟動問題。Lika等人[4]在基于人口統(tǒng)計(jì)學(xué)特征對用戶分類的基礎(chǔ)上,設(shè)計(jì)了評分預(yù)測函數(shù),基于同組用戶的評分對新用戶進(jìn)行推薦。Park等人[5]關(guān)注了自適應(yīng)學(xué)習(xí)環(huán)境下的冷啟動問題,面向新用戶提出一種基于用戶背景信息的方法。此外,自適應(yīng)學(xué)習(xí)系統(tǒng)可以根據(jù)用戶學(xué)習(xí)能力為用戶定制個性化學(xué)習(xí)環(huán)境,也有助于解決用戶冷啟動問題。

隨著社交網(wǎng)絡(luò)的廣泛應(yīng)用,越來越多的研究嘗試?yán)蒙缃痪W(wǎng)絡(luò)數(shù)據(jù)改善推薦系統(tǒng)性能或進(jìn)行推薦,這類推薦也被稱為社會化推薦[6]。用戶基本情況數(shù)據(jù)、用戶與朋友的交互數(shù)據(jù)、用戶與其所屬機(jī)構(gòu)的關(guān)聯(lián)數(shù)據(jù)等都可以用于推薦[7]。社交網(wǎng)絡(luò)數(shù)據(jù)也為冷啟動問題的緩解提供了有力支持。Sahebi等人[8]用社區(qū)發(fā)現(xiàn)技術(shù)從社會化網(wǎng)絡(luò)中識別社區(qū),在社區(qū)內(nèi)計(jì)算新用戶的最近鄰進(jìn)行協(xié)同過濾。Nguyen等人[9]在社區(qū)發(fā)現(xiàn)與識別的基礎(chǔ)上計(jì)算社區(qū)中所有用戶對特定項(xiàng)目的偏好,這一社區(qū)偏好可用于解決協(xié)同過濾中的數(shù)據(jù)稀疏和新用戶冷啟動問題。Zhang等人[10]利用社交網(wǎng)絡(luò)數(shù)據(jù)對用戶靜態(tài)偏好和動態(tài)偏好建模,可以緩解新用戶冷啟動問題。

情境信息也稱為上下文信息,是任何可以用于描述一個實(shí)體情況特征的信息,例如時(shí)間、空間、設(shè)備、環(huán)境等。利用情境信息實(shí)施推薦的系統(tǒng)成為情境感知推薦系統(tǒng)信息推薦領(lǐng)域重要的發(fā)展方向之一[11]。引入情境信息不僅可以提高推薦模型的準(zhǔn)確率,還有利于緩解冷啟動問題。于洪等人[12]同時(shí)考慮用戶、標(biāo)簽、項(xiàng)目屬性、時(shí)間因子之間的關(guān)系,在基于圖的模型基礎(chǔ)上,進(jìn)行個性化評分預(yù)測,以此解決項(xiàng)目冷啟動問題。Chen等人[13]提出一種協(xié)同過濾的Web服務(wù)QoS(Quality of Service)預(yù)測方法,該方法將用戶和Web服務(wù)在地理空間上近鄰的數(shù)據(jù)整合到矩陣分解模型中,可以緩解評分?jǐn)?shù)據(jù)的稀疏和冷啟動,提高預(yù)測準(zhǔn)確性。Viktoratos等人[14]從Foursquare收集用戶的登錄信息,通過關(guān)聯(lián)規(guī)則挖掘建立用戶登錄日期、時(shí)間段、天氣與POI(興趣點(diǎn))類別的關(guān)聯(lián),基于這種關(guān)聯(lián)規(guī)則為用戶推薦POI,新項(xiàng)目的推薦可以基于其所屬的類別實(shí)現(xiàn)。Tian等人[15]在基于項(xiàng)目流行度推薦的基礎(chǔ)上,引入時(shí)間和空間2種情境信息計(jì)算情境化的流行度,為新用戶進(jìn)行推薦。

關(guān)聯(lián)開放數(shù)據(jù)(Linked Open Data, LOD)項(xiàng)目的發(fā)展為數(shù)據(jù)密集型任務(wù)提供了獲取所需信息的便捷方式,LOD要求用戶以RDF格式發(fā)布數(shù)據(jù),并通過RDF三元組建立與其他數(shù)據(jù)集合的關(guān)聯(lián)。一些研究引入LOD數(shù)據(jù)用以緩解推薦系統(tǒng)的冷啟動問題。例如,Wang等人[16]提出一種關(guān)聯(lián)數(shù)據(jù)驅(qū)動的數(shù)字圖書推薦模型,把圖書館的本地?cái)?shù)據(jù)與外部相關(guān)的關(guān)聯(lián)數(shù)據(jù)相融合,根據(jù)圖書館資源信息的不同的特性,分別構(gòu)建用戶社會關(guān)系語義本體知識庫與數(shù)字圖書語義本體知識庫,并根據(jù)用戶對圖書瀏覽的活躍程度,針對不同的用戶,采取不同的推薦策略,緩解了圖書推薦系統(tǒng)的冷啟動問題。Srinivasan等人[17]利用LOD數(shù)據(jù)和用戶評分?jǐn)?shù)據(jù)構(gòu)建語義關(guān)聯(lián)圖譜用以增強(qiáng)推薦的多樣性。LOD也為冷啟動問題的緩解提供了富含語義關(guān)聯(lián)的數(shù)據(jù)。Natarajan等人[18]利用開放鏈路數(shù)據(jù)緩解了旅游推薦系統(tǒng)存在的冷啟動問題。莫荔媛[19]在推薦系統(tǒng)中提供了LOD數(shù)據(jù)的接口,當(dāng)新用戶或新項(xiàng)目進(jìn)入推薦系統(tǒng)時(shí),查詢在LOD數(shù)據(jù)集合中獲取用戶信息或項(xiàng)目信息,以此解決冷啟動問題。

課程推薦本質(zhì)上是要預(yù)測用戶參與一門課程學(xué)習(xí)的概率。高校選課數(shù)據(jù)集為這種預(yù)測提供了基礎(chǔ)。因此本文構(gòu)建結(jié)合選課數(shù)據(jù)集的課程推薦算法,以解決行為日志課程推薦系統(tǒng)存在的冷啟動問題。

2 基于特征優(yōu)化的課程推薦方法FOCoR

本章主要介紹結(jié)合選課數(shù)據(jù)集的課程推薦方法FOCoR。其核心步驟分為數(shù)據(jù)預(yù)處理、特征選擇和選課概率計(jì)算。在數(shù)據(jù)預(yù)處理環(huán)節(jié)中,介紹WOE編碼原理以及如何應(yīng)用WOE編碼將選課數(shù)據(jù)集中的類別特征轉(zhuǎn)變成數(shù)字特征。在特征選擇環(huán)節(jié)將介紹正交表的原理,并提出基于遺傳算法的特征選擇方法FSBGA。FSBGA使用正交表生成遺傳算法的初始種群,通過自定義的適應(yīng)度函數(shù)來平衡模型損失與特征的數(shù)量,從而找到利于模型訓(xùn)練的最優(yōu)特征子集。在選課概率計(jì)算環(huán)節(jié)介紹了LightGBM的原理并使用LightGBM在FSBGA選擇的特征上訓(xùn)練是否選課的二分類模型。依據(jù)選課模型輸出的選課概率對用戶進(jìn)行課程推薦。課程推薦算法FOCoR的核心流程如圖1所示。

2.1 基于WOE的數(shù)據(jù)預(yù)處理

在本文中,數(shù)據(jù)預(yù)處理是指在模型訓(xùn)練前對模型無法處理的數(shù)據(jù)進(jìn)行處理的過程。由于大多數(shù)機(jī)器學(xué)習(xí)算法不能處理類別型特征,因此模型訓(xùn)練前需要將其轉(zhuǎn)換為數(shù)字特征,這個過程被稱為特征編碼。常見的特征編碼方案有One-Hot編碼和WOE(Weight of Evidence)編碼這2種。其中One-Hot采用二進(jìn)制編碼,每個比特位對應(yīng)特征的一個取值水平xi,該位為1表示該特征的取值為xi。WOE編碼,即證據(jù)權(quán)重,也叫做自變量的一種編碼,其定義如式(1)。

(1)

其中i為某個特征的取值。Badi為該特征取值為i時(shí)的Bad標(biāo)簽數(shù)量,BadT為該特征總共的Bad標(biāo)簽數(shù)量。Goodi為該特征取值為i時(shí)的Good標(biāo)簽數(shù)量,GoodT為該特征總共的Good標(biāo)簽數(shù)量??紤]到One-Hot編碼容易產(chǎn)生高維稀疏矩陣,不利于模型訓(xùn)練,因此使用WOE編碼對選課數(shù)據(jù)集中的類別型特征進(jìn)行特征編碼。

在選課數(shù)據(jù)集中有“年級”這一類別特征,下面介紹如何對其進(jìn)行WOE編碼。首先從選課數(shù)據(jù)集中統(tǒng)計(jì)出各年級學(xué)生的選課數(shù)量,如表1所示。

表1 不同年級學(xué)生的選課數(shù)量

2.2 特征選擇

特征選擇能過濾冗余特征,提高模型精確度,促進(jìn)模型的構(gòu)建和優(yōu)化。在特征選擇過程中,常采用的特征搜索策略包括全局搜索、隨機(jī)搜索和啟發(fā)式搜索3種。高校選課數(shù)據(jù)集的更新頻率較慢,通常在某固定時(shí)間才會發(fā)生更新(例如:每學(xué)期開學(xué)時(shí))。在特征較多但仍期望獲得最優(yōu)特征子集時(shí),通常采用隨機(jī)搜索策略。本文采用遺傳算法作為特征選擇方法并使用正交表[20]生成遺傳算法的初始種群。

2.2.1 正交表技術(shù)

由于特征選擇之前,人們并不知道哪些特征是對推薦模型訓(xùn)練有益的優(yōu)質(zhì)特征。因此需要使用正交表將初始種群均勻地、離散地分布在整個特征子集空間。通過這種方式,不僅縮小了初始種群的規(guī)模使得模型容易收斂,也使得初始種群更具有代表性。

正交表是經(jīng)驗(yàn)制成的用于設(shè)計(jì)等水平正交實(shí)驗(yàn)的二維表格,記為Lx.y.z。其中L是正交表的記號,x為期望的樣本數(shù)量,y是變量的取值個數(shù),z是變量的數(shù)量。使用正交表生成的實(shí)驗(yàn)樣本具有均衡搭配、綜合可比的特點(diǎn)[14],這些特點(diǎn)對于其正交性具有重要的意義。

1)均衡搭配。任意特征的任意取值與其它特征的每一個取值搭配的次數(shù)均相等。

2)綜合可比。任意特征的取值出現(xiàn)的次數(shù)相等。

關(guān)于正交表的特點(diǎn)比較容易理解,以3個特征、每個特征2個取值的L4.2.3正交表為例來說明,如表2所示。

表2 L4.2.3的正交表

由表2可知,各特征的取值均出現(xiàn)2次,各特征的取值與任意特征的取值搭配均出現(xiàn)1次。

2.2.2 基于遺傳算法的特征選擇

特征選擇問題其實(shí)也是組合優(yōu)化問題。本小節(jié)介紹遺傳算法的原理并提出使用遺傳算法求解特征選擇問題的FSBGA算法。

遺傳算法是一種模擬自然進(jìn)化過程搜索最優(yōu)解的方法,通常能夠較快地獲得較好的優(yōu)化結(jié)果。圖2是遺傳算法的流程圖。

使用遺傳算法進(jìn)行特征選擇的關(guān)鍵在于設(shè)計(jì)出平衡特征數(shù)量于模型損失的適應(yīng)度函數(shù)。本文希望特征選擇算法搜索出分類能力好并且特征數(shù)量較少的特征子集。因此定義適應(yīng)度函數(shù)如下:

(2)

其中L(x)為模型對于所選特征向量x的對數(shù)損失。Fn表示特征維度個數(shù)。α∈[0,1]是給定的平衡因子,當(dāng)α=0時(shí),適應(yīng)度函數(shù)取決于特征維度個數(shù),當(dāng)α=1時(shí),適應(yīng)度函數(shù)取決于分類模型的對數(shù)損失。因此平衡因子α可以調(diào)節(jié)模型損失和特征數(shù)量間的權(quán)重。由于適應(yīng)度函數(shù)中使用了分類模型的對數(shù)損失值,會導(dǎo)致適應(yīng)度的計(jì)算時(shí)間較長,影響模型的收斂速度。對于這個問題本文從2個方面做出優(yōu)化:

1)利用數(shù)據(jù)字典保存歷史基因的適應(yīng)度,在計(jì)算適應(yīng)度函數(shù)時(shí),若基因在數(shù)據(jù)字典中存在,返回對應(yīng)的適應(yīng)度值。

2)創(chuàng)建被淘汰樣本的集合,當(dāng)交叉、變異產(chǎn)生的樣本在已淘汰的中時(shí),重新選擇父代產(chǎn)生新的后代。

2.3 基于梯度提升樹的選課概率計(jì)算

本文依據(jù)選課模型輸出的選課概率對用戶進(jìn)行課程推薦,因此選課模型的好壞與課程推薦的有效性息息相關(guān)。LightGBM[21]是一種高效的集成樹算法,常被用于點(diǎn)擊率預(yù)測、搜索排序、物品推薦等任務(wù)中。因此本文使用LightGBM在FSBGA選出的最優(yōu)特征集上訓(xùn)練是否選課的二分類模型。本節(jié)將介紹梯度提升樹[22](GBDT)的原理,以及XGBoost[23]為了提高GBDT的準(zhǔn)確率、降低過擬合風(fēng)險(xiǎn)所做出的改進(jìn),最后介紹LightGBM為了提升計(jì)算速度、降低資源開銷在XGBoost上做的優(yōu)化。

2.3.1 梯度提升樹

1)初始化模型:估計(jì)使式(3)取最小值的回歸樹C進(jìn)行初始化,C是只有一個根節(jié)點(diǎn)的樹。

(3)

2)進(jìn)行模型迭代,迭代次數(shù)m=1,2,…,M:

①對i=1,2,…,n,計(jì)算殘差rim,即在當(dāng)前模型下的損失函數(shù)的負(fù)梯度值:

(4)

②根據(jù)rim擬合一棵回歸樹,得到第m棵樹的葉子區(qū)域Rmj,j=1,2,…,J,J標(biāo)識葉子節(jié)點(diǎn)個數(shù)。

③對j=1,2,…,J,利用線性搜索估計(jì)葉子節(jié)點(diǎn)區(qū)域的值Cmj,令損失函數(shù)極小化:

(5)

④更新回歸樹:其中I為示性函數(shù),當(dāng)回歸樹判定x∈Rmj時(shí),I(x)=1,否則I(x)=0。

(6)

3)迭代M次后輸出最終模型:

(7)

2.3.2 XGBoost算法

GBDT的高精度使它在工業(yè)界廣泛應(yīng)用,但GBDT方法只利用了一階導(dǎo)數(shù)信息,且容易產(chǎn)生過擬合。XGBoost則在目標(biāo)函數(shù)中加入了正則項(xiàng),使得式(5)的目標(biāo)函數(shù)變成了式(8)。

(8)

其中?(fm(xi))是正則化項(xiàng)。利用二階泰勒展開對其近似,使得提高了計(jì)算精度且降低了模型過擬合的風(fēng)險(xiǎn)。仔細(xì)分析XGBoost的算法邏輯,還是會發(fā)現(xiàn)一些不足:

首先,特征數(shù)量越多算法迭代的次數(shù)就越多,這對內(nèi)存的消耗很大,也會延長模型的收斂時(shí)間。

其次,在計(jì)算特征分割點(diǎn)時(shí),會遍歷所有特征分割點(diǎn),收益不高的分割點(diǎn)太多時(shí),會降低算法的計(jì)算效率。

2.3.3 LightGBM算法

為了進(jìn)一步提高計(jì)算效率,降低資源消耗,LightGBM引入了基于梯度的單邊采樣(GOSS)算法與互斥特征綁定(EFB)算法。

因?yàn)樘荻却蟮臉颖緦τ?jì)算信息增益的貢獻(xiàn)更大,因此GOSS隨機(jī)丟棄部分梯度小的樣本,以減少模型訓(xùn)練的耗時(shí)。以下是GOSS的理論部分:

(9)

其中:

(10)

(11)

EFB算法將互斥特征綁定成一個特征,實(shí)際情況中很多的數(shù)據(jù)處理方式會產(chǎn)生稀疏矩陣,EFB算法可以將互斥特征變成一個特征。通過特征數(shù)量的減少,可以降低計(jì)算的復(fù)雜度,減少算法運(yùn)行的內(nèi)存消耗。

正是GOSS、EFB算法的引入,使得比起XGBoost, LightGBM模型訓(xùn)練的內(nèi)存消耗更少、訓(xùn)練時(shí)間更短。因此本文使用LightGBM訓(xùn)練是否選課的二分類模型。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)介紹

本文使用的數(shù)據(jù)是由某高校教務(wù)數(shù)據(jù)庫中抽取出的學(xué)生選課數(shù)據(jù)集。有記錄437616條,包含40個特征,詳情見表3。其中授課教師特征12個、學(xué)生相關(guān)特征18個、課程相關(guān)特征10個,以及是否選課的標(biāo)識。

表3 特征匯總表

3.2 基線模型

FOCoR模型通過計(jì)算學(xué)習(xí)者的選課概率進(jìn)行課程推薦,選課概率計(jì)算是推薦過程的核心,表4給出了常見的用于推薦任務(wù)的二分類模型。

表4 推薦任務(wù)的常見二分類模型

3.3 評估指標(biāo)

本文采用對數(shù)損失、準(zhǔn)確率、召回率、F1分?jǐn)?shù)、ROC曲線這5個指標(biāo)來評估模型的性能。

對數(shù)損失描述了分類模型能正確分類的能力,二分類模型的對數(shù)損失的計(jì)算參照式(12):

(12)

對于用戶u推薦N門課程的集合記為R(u),而u在平臺上推薦之后參與的課程集合為T(u),準(zhǔn)確率的計(jì)算方法參照式(13):

(13)

準(zhǔn)確率表示用戶對被推薦課程感興趣的概率,準(zhǔn)確率越大,說明用戶對被推薦的課程越感興趣。召回率的計(jì)算公式參照式(14):

(14)

推薦召回率表示用戶感興趣的課程被推薦的概率,召回率越大,說明越可能向用戶推薦感興趣的課程。F1分?jǐn)?shù)計(jì)算參照式(15):

(15)

F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均,是同時(shí)考慮了準(zhǔn)確率和召回率的一種評估方式。

ROC曲線:該曲線的評判標(biāo)準(zhǔn)是曲線越靠近對角線的左上角,模型分類效果越好。AUC值則表示ROC曲線下的面積。

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 不同特征選擇方法的結(jié)果與分析

選課數(shù)據(jù)集包含40個特征,因此根據(jù)L48.2.40的正交表生成種群規(guī)模為48的初始種群。在平衡因子α=0.7,變異系數(shù)β=0.002時(shí),經(jīng)過85輪迭代后收斂,得到最優(yōu)特征20個。

為驗(yàn)證FSBGA進(jìn)行特征選擇的有效性,將FSBGA與互信息[29]、F檢驗(yàn)[30]這2種常見的特征選擇方法進(jìn)行對比。不同特征選擇方法下的指標(biāo)數(shù)據(jù)如表5所示。

表5 不同特征集下推薦模型的指標(biāo)

圖3是推薦模型在不同特征選擇算法選出的特征子集上的ROC曲線。

表6記錄了FSBGA相較于互信息與F檢驗(yàn)的指標(biāo)提升幅度。

表6 遺傳算法的指標(biāo)提升幅度/%

從表6可知使用FSBGA進(jìn)行特征選擇的課程推薦模型在各項(xiàng)指標(biāo)上均優(yōu)于使用互信息與F檢驗(yàn)做特征選擇的推薦模型。其中相對于F檢驗(yàn)的對數(shù)損失降低了49%,AUC指標(biāo)提升了75%。可能是由于WOE編碼后的數(shù)據(jù)不服從正態(tài)分布,使得F檢驗(yàn)的效果不好導(dǎo)致的。

3.4.2 不同選課概率預(yù)測模型的結(jié)果與分析

在選課數(shù)據(jù)集上劃分80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集。表7是不同的推薦方法訓(xùn)練的模型在測試集上的指標(biāo)。

表7 推薦模型的評估指標(biāo)

圖4是不同推薦方法繪制的ROC曲線。

表8記錄了使用FSBGA后不同推薦算法的指標(biāo)提升幅度。

表8 FSBGA對不同推薦算法指標(biāo)的提升幅度/%

從表8可以看出,采用FSBGA特征選擇方法后,除DNN外,其余課程推薦方法的準(zhǔn)確率、召回率、F1、AUC指標(biāo)提升幅度不大,但模型的對數(shù)損失大幅降低。這表明FSBGA有助于提高這些模型的分類能力。由于DNN自身具有特征選擇能力,因此FSBGA未能提升DNN的指標(biāo)表現(xiàn)。然而DNN的準(zhǔn)確率只有0.84,這可能是DNN在小數(shù)據(jù)集上產(chǎn)生了過擬合導(dǎo)致的。

同時(shí)在FSBGA選擇出的特征集上,LightGBM所訓(xùn)練的選課模型在F1分?jǐn)?shù)上表現(xiàn)最佳,因此使用其作為最終的課程推薦模型。

4 結(jié)束語

本文設(shè)計(jì)了融合高校選課數(shù)據(jù)的課程推薦方法FOCoR來解決在線教育平臺行為日志推薦系統(tǒng)存在的冷啟動問題。針對選課數(shù)據(jù)中的特征冗余問題,提出了基于遺傳算法的特征選擇方法FSBGA,并將其與基于互信息、F檢驗(yàn)的特征選擇方法進(jìn)行對比,驗(yàn)證了FSBGA特征選擇方法的有效性。此外,本文將FOCoR與LightGBM、XGBoost、決策樹、隨機(jī)森林、邏輯回歸等技術(shù)在真實(shí)數(shù)據(jù)集上進(jìn)行對比分析,驗(yàn)證了其性能優(yōu)勢。盡管FOCoR采用FSBGA來進(jìn)行特征選擇,能夠有效提升推薦模型的關(guān)鍵性能指標(biāo),但目前只能選出較優(yōu)的一階特征。如何結(jié)合特征交叉技術(shù)篩選出高階特征來進(jìn)一步提高推薦能力,將是本文研究工作的后續(xù)優(yōu)化方向。

猜你喜歡
冷啟動特征選擇適應(yīng)度
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
輕型汽油車實(shí)際行駛排放試驗(yàn)中冷啟動排放的評估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于PEMS試驗(yàn)的重型柴油車?yán)鋯?排放特征研究
基于學(xué)習(xí)興趣的冷啟動推薦模型
啟發(fā)式搜索算法進(jìn)行樂曲編輯的基本原理分析
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護(hù)中的應(yīng)用研究
一種多特征融合的中文微博評價(jià)對象提取方法
繁峙县| 太仆寺旗| 荔波县| 江西省| 德安县| 东港市| 纳雍县| 五台县| 马龙县| 商都县| 金堂县| 东乡族自治县| 兴安盟| 南昌县| 廉江市| 毕节市| 澳门| 金平| 荣成市| 西昌市| 三台县| 鹤峰县| 海门市| 瓦房店市| 枣强县| 海口市| 香港 | 淮北市| 和林格尔县| 娄底市| 桦川县| 镇雄县| 祁门县| 桂林市| 东至县| 儋州市| 滦南县| 镇赉县| 正镶白旗| 双江| 布拖县|