李鄉(xiāng)儒,梁惠雯,馮雋怡,肖江平,彭婉芬
(1.華南師范大學 計算機科學學院,廣東 廣州 510631;2.華南師范大學 數(shù)學科學學院,廣東 廣州 510631;3.廣州犀靈信息科技有限責任公司,廣東 廣州 511458)
隨著大數(shù)據(jù)、云計算、移動互聯(lián)等科學技術(shù)的不斷發(fā)展和人們對教育需求的提升,以在線教育平臺為主的“互聯(lián)網(wǎng)+教育”模式得到了廣泛的推廣和普及。截止2019年6月,國內(nèi)在線教育用戶規(guī)模達2.32億并呈快速持續(xù)擴張的趨勢。目前,大多數(shù)的在線教育平臺以整合優(yōu)質(zhì)網(wǎng)絡(luò)課程和其他學習資源為用戶提供服務(wù)。然而,面對海量的學習資源,用戶很難快速地尋找到適合自己的學習資料,甚至可能出現(xiàn)“認知負荷”、“信息迷航”等問題。因此,能夠根據(jù)用戶的學習過程智能化分析其學習行為規(guī)律及認知特點、并提供個性化的學習資源推薦是當前在線教育平臺的一個迫切需求。
大多數(shù)在線教育平臺的個性化推薦都是圍繞著用戶的特征信息進行分析和建模。例如,通過用戶的學習風格、學習興趣等個性化特征信息構(gòu)建推薦模型[1-2]。然而,這種推薦的結(jié)果往往比較粗糙,很難令人滿意,一般適合于一些簡單推薦。近些年,有研究開始嘗試利用用戶的行為特征信息去分析用戶之間的相似度。例如,桂忠艷等通過計算用戶的學習行為序列相似度,采用基于用戶的協(xié)同過濾推薦建模[3-4]。然而,這些研究更多的是聚焦在用戶的特征信息,忽視了對學習資源的挖掘分析。
該文設(shè)計了一個基于學習風格、資源偏好和行為序列的個性化學習資源混合推薦系統(tǒng),在充分利用用戶行為特征信息的前提下,結(jié)合學習風格和資源偏好,為用戶生成個性化畫像,進一步為用戶提供學習反饋和個性化的學習資料推薦服務(wù)。
設(shè)計的個性化學習資源推薦系統(tǒng)自下而上分為數(shù)據(jù)層、數(shù)據(jù)分析層和推薦計算層,應(yīng)用于一個以人工智能類課程為主的在線教育平臺的體系架構(gòu),如圖1所示。
圖1 個性化學習資源推薦系統(tǒng)的體系架構(gòu)
1.1.1 用戶庫
用戶庫存儲用戶的特征信息,包括個性化特征信息和行為特征信息[5]。個性化特征信息是指用戶自身所固有的,且不隨時間發(fā)生變化或變化緩慢的信息。典型的個性化特征信息包括用戶的年齡、性別、專業(yè)等基礎(chǔ)信息,如學習風格等課程前測信息。個性化特征信息在數(shù)據(jù)形式的表現(xiàn)上為靜態(tài)數(shù)據(jù)。行為特征信息是指隨時間推移有顯著變化的信息。例如,登錄時間、點擊次數(shù)、發(fā)帖等。這類信息在數(shù)據(jù)形式的表現(xiàn)上為動態(tài)數(shù)據(jù)。在該研究中,根據(jù)用戶以下三種學習方式,對行為特征信息進行分類:
(1)自主學習,如觀看視頻、瀏覽學習資料等;
(2)反思學習,如提交作業(yè)、查看作業(yè)批改結(jié)果等;
(3)交流反饋,如討論區(qū)留言等。
1.1.2 資源庫
資源庫由知識資料、學習資料和標簽資料組成。知識資料包括知識塊和知識點。在所實施的《模式識別》案例中,以章節(jié)的劃分及中小標題作為知識塊,以各章節(jié)內(nèi)容所出現(xiàn)的定理、算法、數(shù)理名詞等作為知識點。學習資料是指以知識資料中的知識塊、知識點作為關(guān)鍵詞進行網(wǎng)絡(luò)爬取,并做一定的人工篩選后的內(nèi)容資料。
標簽集是指系統(tǒng)中用于概述學習資料的內(nèi)容與形式的概括性描述。標簽不僅簡潔、直觀地概述了學習資料,便于用戶快速閱覽和選擇,而且能夠?qū)⑵滢D(zhuǎn)化為相對應(yīng)的文本字段[6],便于數(shù)據(jù)的深度挖掘和分析。在所實施的《模式識別》案例中,從內(nèi)容和形式兩個方面設(shè)計了7類標簽,具體如下:
(1)內(nèi)容:知識塊(標簽值:中標題、小標題);知識點(標簽值:算法、定理、梳理名詞)。
(2)形式:語言(標簽值:中文、英文);類別(標簽值:推導、實現(xiàn)、總結(jié)、推廣);載體(標簽值:文字、圖片、視頻);數(shù)據(jù)集(標簽值:MNIST、sklearn data、其他);編程語言(標簽值:java、c++、python、其他)。
1.2.1 用戶分析
系統(tǒng)通過對用戶的個性化特征信息和行為特征信息的量化、統(tǒng)計和建模,對其進行挖掘分析,包括用戶之間的相似度分析、資源偏好分析和用戶畫像。
用戶之間的相似度分析是進行用戶推薦建模的基礎(chǔ)。它是通過用戶的特征信息來計算用戶之間的相關(guān)程度,從而確定用戶之間的相似度,并把相似用戶稱為“鄰居用戶”,然后將“鄰居用戶”所選擇的學習資源推薦給當前用戶。
資源偏好是指用戶對學習資源的內(nèi)容和形式的偏愛、喜好等傾向性要求。例如,有的用戶喜歡以文本為載體的學習資料,而有的用戶則喜歡視頻類型的學習資源。在該系統(tǒng)中,使用TF-IDF算法[7]計算用戶下每一類標簽的標簽值所占的權(quán)重,從而可得出用戶的資源偏好。
用戶畫像是建立在一系列真實數(shù)據(jù)之上的用戶模型。它可以從多角度描述用戶的學習特點。與大多數(shù)僅用個性化特征信息構(gòu)建用戶畫像的在線教育平臺不同,該系統(tǒng)既結(jié)合了用戶的個性化特征信息,也考慮了行為特征信息,定量和定性地構(gòu)建了用戶的個性化畫像[8-9]。例如,通過用戶的課程前測信息得出學習風格;通過對用戶的瀏覽時長、瀏覽學習資料的頻率等行為特征信息統(tǒng)計得出其學習的常用模塊序列、知識興趣點、知識難點、作業(yè)詳情等。用戶可以通過個性化畫像了解和掌握自己的學習情況,便于調(diào)整學習策略。
1.2.2 資料分析
將標簽、點擊數(shù)(閱讀量)、評論數(shù)等作為學習資料的屬性特征。系統(tǒng)通過對學習資料屬性特征的量化、統(tǒng)計和建模,進行學習資料的相似度分析和質(zhì)量分析等。
學習資料之間的相似度分析是基于學習資源推薦的建?;A(chǔ)。它是將學習資料的標簽作為特征來計算學習資料之間的相關(guān)程度,從而確定學習資料之間的相似度,并把相似資料稱為“鄰居資料”,然后將“鄰居資料”推薦給當前用戶。
學習資料的質(zhì)量分析主要是通過對點擊數(shù)(閱讀量)、評論數(shù)等屬性特征的統(tǒng)計分析,可在一定程度上過濾掉劣質(zhì)內(nèi)容。
1.3.1 基于學習風格的推薦
在線學習平臺通過引導用戶完成具有較好可信度的課前學習測評任務(wù),分析得出用戶的學習風格。進而,系統(tǒng)根據(jù)用戶的學習風格進行相應(yīng)的學習資源推薦。該文采用Felder-Silverman模型[10]的4個維度對用戶的學習風格進行劃分,分別是信息加工、信息感知、信息輸入和信息理解,具體見表1。
表1 學習風格顯式分類
1.3.2 基于行為序列的推薦
基于用戶的個性化特征信息的推薦雖然被廣泛應(yīng)用,但是這種推薦往往比較粗糙。因此,這類方法一般適合于簡單推薦,而對于復雜一些的推薦任務(wù)則很難得到令人滿意的結(jié)果。近些年,有研究開始嘗試利用用戶的行為特征信息去分析用戶之間的相似度。該系統(tǒng)以桂忠艷等[4,11-12]對網(wǎng)絡(luò)學習行為數(shù)據(jù)的研究為基礎(chǔ),對用戶相似度計算的穩(wěn)定性進行改進。
1.3.2.1 相似度計算
(1)行為序列相似度的計算。
用戶的行為序列用有限集S表示:
{(z1,y1),(z2,y2),…,(zn,yn)},n≥2
其中,(zi,yi)表示第i個元素對,zi表示訪問模塊,yi表示相應(yīng)操作,按照行為發(fā)生的先后順序依次記錄在集合中。為了描述的簡潔,將元素對(zi,yi)中的元素連接組成的字符串ziyi用si表示,稱之為用戶的第i個狀態(tài)串。
狀態(tài)序列是行為序列中每個元素對中的元素依次鏈接形成的字符串。例如,用戶S的狀態(tài)序列用狀態(tài)串可表示為“s1s2…sn”,記為S=s1s2…sn。狀態(tài)序列S的狀態(tài)子序列定義為S(i)=sn1sn2…sni,其中,1 令用戶A和B的狀態(tài)序列分別為A和B,則行為序列的相似度[4]由以下計算公式給出。 sim=α×simseq(A,B)+β×simtrans(A,B)+ γ×simvalue(A,B) (2)基于時間衰減效應(yīng)的用戶相似度計算。 用戶在不同時間段的學習行為對預測其學習行為具有不同的貢獻。一般來說,發(fā)生時間越靠近的行為更能體現(xiàn)用戶的學習興趣,對用戶之間相似度的貢獻也越大。為提高近期的行為序列對相似度計算的重要性,引入時間權(quán)重函數(shù)WT。 其中,SA為用戶A所有的行為序列集,DA,Si表示用戶A生成的行為序列與其最早生成的某行為序列的時間間隔;LA表示用戶A行為序列的時間跨度;α∈(0,1)為權(quán)重增長指數(shù)。故用戶A和B之間的基于時間衰減效應(yīng)的用戶相似度計算如下: sim(A,B)= 在分析用戶之間的關(guān)系時,僅考慮行為相似度是不夠的。造成相似度極高的原因有很多,例如,在較短時間內(nèi)不能觀察到用戶長期行為的差異。然而,在實際應(yīng)用中需要對用戶之間的關(guān)系進行更精準、更穩(wěn)定的描述[13]。為此,該文提出相關(guān)系數(shù)的概念,即通過分析一段時間內(nèi)相似度的變化,得到該時間段內(nèi)用戶之間的相似度。假設(shè)平均相似度為simavg,方差為simdx,則相關(guān)系數(shù)(RC)可通過下式計算: 因此,兩個用戶的關(guān)系越相近,平均相似度變化越大;反之,平均相似度變化越小。 1.3.2.2 基于行為序列的推薦原理 為了解決傳統(tǒng)的最近鄰協(xié)同過濾推薦由于用戶規(guī)模擴大導致搜索的時效降低難以滿足系統(tǒng)的實時性需求問題[14],該系統(tǒng)首先采用K-Means算法對用戶進行聚類,然后在用戶的聚類空間內(nèi)計算行為序列相似度,最后根據(jù)確定的“鄰居用戶”將其所選擇的學習資源推薦給當前用戶。 1.3.3 基于資源偏好的推薦 系統(tǒng)通過TF-IDF算法計算出用戶下每一類標簽的標簽值的權(quán)重大小,獲得用戶的資源偏好,進而得到學習資源推薦的依據(jù)。例如,對于喜歡文本類的用戶,系統(tǒng)更多地向其推薦文本載體的學習資料。 1.3.4 基于學習資源的推薦 系統(tǒng)通過標簽計算學習資料之間的相似度[15],并把相似資料稱為“鄰居資料”,然后將“鄰居資料”推薦給當前用戶。 1.3.5 混合推薦機制 由于每一種推薦方法都有其優(yōu)缺點和適用特定的場景,而且,用戶在進行線上學習的過程中,也是一個不斷變化的動態(tài)過程,故僅僅考慮一種推薦方法進行學習資源推薦不一定符合實際的應(yīng)用情形。由此,提出了一種基于上述4種推薦方法的混合推薦機制。 在課程學習初期,根據(jù)用戶的課前學習測評獲得用戶的學習風格,采用基于學習風格的方法推薦學習資料;隨著用戶學習時間的增加和交互的增多,對用戶的學習行為進行挖掘分析,采用基于學習行為的方法推薦學習資料;同時,可以通過用戶的行為數(shù)據(jù)獲得用戶的資源偏好。采用了以基于資源偏好的推薦為主、學習資源推薦為輔的協(xié)同過濾推薦。該混合推薦機制如圖2所示。 圖2 混合推薦機制 前述1.3節(jié)介紹了文中推薦算法的基本原理,這些算法基于對學習風格、資源偏好和行為序列的分析可給出個性化學習資源混合推薦系統(tǒng)。該混合推薦系統(tǒng)的流程如圖3所示。 圖3 推薦系統(tǒng)業(yè)務(wù)流程 進一步描述如下: 第一步:用戶登錄。獲取用戶信息和課程信息。 第二步:判斷用戶是否初次學習該課程。若是,引導用戶完成課前學習測評任務(wù),分析得出用戶的學習風格,根據(jù)用戶的學習風格進行相應(yīng)的學習資料推薦。 第三步:行為特征信息收集。系統(tǒng)采集行為特征信息的相關(guān)數(shù)據(jù),如:登錄時間、點擊次數(shù)、發(fā)帖等。 第四步:分析用戶的資源偏好、計算用戶之間的相似度和學習資源之間的相似度,根據(jù)混合推薦機制向用戶推薦學習資料。 第五步:判斷用戶是否退出系統(tǒng)。若否,則跳轉(zhuǎn)至第三步。 文中的個性化學習資源推薦系統(tǒng)已應(yīng)用于華南師范大學數(shù)科院所開設(shè)的《模式識別》和《數(shù)據(jù)挖掘?qū)д摗氛n程教學中。系統(tǒng)通過充分利用用戶的學習行為數(shù)據(jù),結(jié)合學習風格和資源偏好,為同學們推薦優(yōu)質(zhì)的學習資料。與此同時,向授課教師和學生反饋教學和學習情況。其中,圖4展示了用戶的課程信息,圖5為系統(tǒng)作業(yè)詳情及學習資源推薦內(nèi)容。表2是對資源模塊的說明。 表2 資源模塊說明 圖4 課程信息 圖5 作業(yè)詳情及學習資源推薦內(nèi)容 圖6為某一學生的用戶畫像與反饋,其中的三幅統(tǒng)計圖表展示了作業(yè)分析情況。通過對該生的學習行為進行分析,發(fā)現(xiàn)其常用學習序列如下: 圖6 用戶畫像 (1)課件瀏覽-資料A點擊-資料B點擊-課程討論區(qū)-作業(yè)查閱。 (2)作業(yè)查閱-課件瀏覽-資料點擊-課件瀏覽-資料提交-作業(yè)提交。 學生從常用學習模塊序列的反饋中可以知曉自己的學習路徑。這有助于學生進一步了解自己的學習過程和學習行為規(guī)律,也方便授課教師了解學生的學習特點。 設(shè)計了一個應(yīng)用于人工智能類課程的個性化學習資源推薦系統(tǒng),該系統(tǒng)包括數(shù)據(jù)層、數(shù)據(jù)分析層和推薦算法層。系統(tǒng)在充分利用用戶學習行為數(shù)據(jù)的前提下,結(jié)合學習風格和資源偏好,綜合4種推薦方法制定了混合推薦機制為用戶提供個性化畫像、學習反饋與學習資料推薦的服務(wù),當前處于第二個學期的試用階段。2 推薦系統(tǒng)業(yè)務(wù)流程
3 系統(tǒng)應(yīng)用
4 結(jié)束語