文∣蒲菊華 王鋆玙 熊璋
“互聯網+”戰(zhàn)略和教育信息化2.0 進程的全面推進,使“互聯網+教育”的全新教學理念得以廣泛推廣,中華人民共和國教育部印發(fā)的《教育信息化2.0行動計劃》提出要逐步發(fā)展在線教學模式。2020 年初爆發(fā)的新冠肺炎疫情為在線教育帶來了新的機遇與挑戰(zhàn)。據統計,2020 年我國在線教育用戶規(guī)模增長至4.23億,占網民整體數量的46.8%。在政策支持、市場需求、技術革新等多方因素共同推動下,我國以中小學生為服務主體的K12在線教育快速發(fā)展,已成為當下的教育熱點。
為迎合在線學習的市場需求,大量優(yōu)質在線學習平臺興起并快速發(fā)展,因其可以以低成本而獲得優(yōu)質資源的契機而吸引了大量學習者,累積了包含各種粒度學習資源的海量數據,同時也不可避免地造成了信息過載問題,增加了學習者進行資源篩選的時間成本,使學習者難以獲取滿足個性化需求的匹配學習資源。統計數據顯示,截至2020年底,我國上線慕課數量已超過3.4萬門,而完課率卻低于5%。
“信息過載”問題對K12用戶群體的影響尤為嚴重,中小學生尤其是高年級學生課程多、日程滿,絕大部分時間被線下教育占據,且中小學生對資源鑒別和自我認知能力相對較低。對海量在線資源進行篩選和對不匹配資源進行試錯所耗費的時間與精力對K12在線教育目標用戶群體而言是巨大的問題。
因此,在數據驅動的背景下,利用云平臺、人工智能等前沿技術,構建針對中小學生在線學習需求的資源推薦系統是當前的重要發(fā)展方向。根據學習者的知識背景、個性特征和學習環(huán)境,向學習者提供個性化的學習資源推薦服務,幫助其進行高效的過濾和匹配,進而引導其學習;以此為為提升中小學生自主學習意識和能力提供優(yōu)質平臺,全面提升用戶在線學習的效率和體驗。
學習資源推薦過程可以概括為三個主要環(huán)節(jié):數據收集、特征挖掘及推薦結果生成。在線學習資源推薦系統首先從學習平臺中收集資源信息、學習者信息、學習者和資源間的交互日志(主要包括學習者的瀏覽、學習、答題行為)等多源數據,然后充分挖掘資源和學習者的特征,最后根據學習者和資源的匹配程度自適應地提供個性化推薦服務。
相較于發(fā)展相對成熟的電商推薦系統而言 ,學習資源推薦系統具有與其相似的模式和性質,故可以將學習資源推薦平臺中的學習資源類比電商推薦系統中的物品,學習者類比為用戶。因此,現有的在線學習推薦系統很多借鑒了電商平臺中的商品推薦的主流思想和方法,遷移使用其中的主流推薦模型。
目前,學習資源推薦系統使用最為廣泛的方法主要分為基于內容[1][2]和基于協同過濾[3][4]的推薦。簡單來說,基于內容的推薦依據學習資源本身的屬性計算資源間的相似度,然后根據學習者的學習歷史,推薦和學習者曾經學習過的資源相似度最高的新資源;而基于協同過濾的推薦算法則利用統計數據和集體智慧,采取了“物以類聚,人以群分”的思想,大部分具有相似年齡層次、知識水平和興趣愛好的學習者所需求的學習資源也是相似的,資源推薦系統可以從大量學習者及資源交互數據中學習某種隱性模式。
近年來,許多技術人員嘗試對基于內容或協同過濾的模型進行改進[5],或融合先進技術提升課程推薦性能[6]。但這些方法仍存在一定的局限性,難以充分挖掘資源推薦場景下的某些重要固有特征或難以滿足更精細化的推薦需求。因此,我們有必要深度剖析在線學習資源推薦場景的特點,進而提出針對性的解決方案。
為充分挖掘在線學習資源推薦場景的獨有特征并滿足該場景下的一些精細化需求,我們針對在線學習資源推薦系統涉及的兩大主體,即學習資源和學習者,展開進一步深入分析,總結出各自重要特點。
對學習資源而言,學習資源不是相互獨立的,不同學習資源之間可能存在復雜、隱性的依賴關系。以數學課程資源“基本初等函數”為例,其中包含多個視頻資源“指數函數” “對數函數”“冪函數”等,視頻資源間存在學習先后順序要求,但資源間的這種先后關系通常較為隱性,難以直接獲取。通過進一步分析發(fā)現,視頻資源中包含有更細粒度的概念,如“指數冪”“對數運算”“換底公式”等,這些底層概念之間同樣存在固有的先決條件依賴,而底層概念間的這些先后關系也應該被考慮和充分利用。
對學習者而言,雖然類似的學習群體可能有大體一致的學習需求,但對于每一個學習者個體而言,其學習目的和知識背景各不相同,且短期學習興趣可能發(fā)生動態(tài)變化。而這種短期行為所體現的學習興趣可能對于下一個學習資源的選擇更為重要。具體來說,學習者在平臺上的學習行為呈現為按時間發(fā)展的順序模式,我們將用戶在較短的連續(xù)時間內交互行為序列稱為一個會話。序列行為體現出三類特征:①學習者潛在學習偏好,即用戶在一個會話內學習過的多個相似資源體現了其當前的潛在學習目的;②時序依賴特征,即學習者學習過的部分資源間存在嚴格的時間先后順序,反映了某種隱性的依賴關系;③重復交互模式,即同一會話中學習者重復瀏覽或學習的資源體現出其較明確的意圖和強興趣。
因此,充分理解和利用序列行為中的此類特征,有助于理解學習者短期的興趣變化,從而實現對其上下文進行更為精確建模表示,進而實現更為精準的學習資源推薦。
通過對在線學習資源推薦系統兩大主體的分析,我們發(fā)現將現有的基于內容和協同過濾的推薦方法應用于在線學習資源推薦中會面臨兩大挑戰(zhàn)。
第一,現有推薦方法忽略了學習資源之間的依賴關系。如前所述,學習資源間存在某些固有關系,而非完全獨立?,F實情況下,尤其是對于知識點體系較為龐大的基礎課程而言,許多資源之間存在先決條件依賴關系,即學生需要按照某種順序學習這些資源。這種依賴關系對于學習、組織、應用和生成知識至關重要。
第二,現有推薦模型對學習者的個性化、動態(tài)學習偏好建模困難。在線學習平臺面向的學習者通常具有較為明確的學習目的,對推薦內容有較高的針對性和準確性要求;同時每個學習者的知識背景、學習能力和學習目的各不相同,且K12階段教育涉及多方群體,各方評價標準各異,尤其是學生和家長對核心資源的質量和匹配度要求較高。基于內容和基于協同過濾的推薦模型建模是學習者長期的、靜態(tài)的偏好,忽略了其短期序列行為中的特征,難以捕捉用戶興趣的漂移和變化。
針對在線學習資源推薦系統面臨的上述挑戰(zhàn),本文融合“依賴關系”和“序列表示”,構建一種新的學習資源推薦框架,充分考慮資源間的依賴關系和學習者的動態(tài)偏好,以提升推薦性能。該框架主要由“資源依賴關系學習與挖掘模塊”“基于圖神經網絡的序列表示模塊”“依賴關系與序列表示的融合”三部分構成。
資源依賴關系學習與挖掘模塊是為了充分挖掘和利用資源間的關聯與依賴關系,以提升推薦效果和可解釋性,同時引導合理的學習路徑。
對于在線學習平臺而言,學習資源眾多,資源之間以及資源所蘊含的概念之間的關系非常龐雜,不可能依據人工的方式來建立所有的此類關系,而且學習資源間的有些依賴關系也是難以直接獲取的。為此,我們考慮將學習資源映射到更細的概念維度,并通過學習概念圖進一步推斷資源間的依賴關系。
以課程資源依賴為例,給定所有的課程,課程間的真實關系標簽體現了兩個課程之間是否存在先后關系。理論上,存在先后關系用1表示,不存在先后關系用0表示。對于所有課程或學習資源間存在的海量復雜依賴關系,我們采用數據挖掘和模型訓練的方式,將課程映射到通用概念空間,并利用表示學習的技術方法得到每門課程的概念表示向量,進一步學習兩個概念對之間關系的有向權重,通過訓練好的模型自動推斷所有課程間的依賴關系。
基于圖神經網絡的序列表示是為了充分挖掘學習者的知識背景,挖掘用戶行為序列中的動態(tài)特征。
鑒于學習者偏好動態(tài)變化的特點,我們考慮采用圖神經網絡對序列數據進行建模,通過從學習者與學習資源交互(瀏覽、學習行為)序列中了解學習用戶當前的學習興趣,并理解和建模學習者的興趣偏好隨時間的演變,從而用表示向量來刻畫學習者更精確、更動態(tài)意圖,提供定制、及時的序列化資源推薦。
第一,根據學習者歷史學習行為數據,分別基于單個序列和全部序列構建會話圖和全局圖。第二,采用門控圖神經網絡學習圖中各個節(jié)點的向量表示。第三,基于各節(jié)點重要程度動態(tài)融合節(jié)點表示當前學習者的最終偏好。第四,通過計算學習者向量和資源向量間的相似性評分,向學習者推薦評分最高的前若干個學習資源。
本文進一步融合上述資源依賴關系學習與挖掘模塊和基于圖神經網絡的序列表示模塊,將學習到的依賴關系矩陣融合到序列推薦模型中,以提升推薦性能。
該框架考慮兩部分的融合,如圖1所示。
圖1 融合神經網絡與依賴關系的推薦框架
一方面,模型將資源依賴矩陣融合到編碼器部分,在學習圖節(jié)點表示時充分考慮資源本身與其他資源之間的依賴關系;另一方面,模型將資源依賴矩陣嵌入到注意力網絡中,在為每個項目計算評分并生成推薦列表時,將資源間的先決條件關系納入考慮。
綜上,以融合依賴關系和序列表示為思路構建的學習資源推薦框架較好地解決了在線學習資源推薦面臨的挑戰(zhàn)。針對資源固有關系考慮不充分的問題,通過利用資源和概念間的映射關系進行先決條件學習,捕捉資源間依賴。針對學習者個性化學習目的及興趣表示不準確的問題,從學習行為序列中挖掘學習者的潛在行為模式,并通過圖神經網絡建模會話間復雜轉換來獲取學習者的動態(tài)偏好變化,最終融合兩個模塊提供自適應資源推薦。
該框架可以推廣于在線學習的各類學習資源,包括課程、視頻、知識點、習題等。以習題推薦為例,該框架首先通過資源依賴關系學習與挖掘模塊充分利用習題和知識間的映射關系,彌補傳統推薦模型對資源間固有關系的忽視,發(fā)現習題間潛在結構或概念先后關系,保證推薦的習題具有典型代表性,且循序漸進,滿足先決條件順序要求。通過序列表示模型還可以根據學生歷史答題序列捕捉用戶動態(tài)的知識狀態(tài)和學習能力變化,以生成更契合中小學生個體能力水平的精準推薦。
為了解決典型推薦方法應用于在線學習資源推薦面臨的兩大挑戰(zhàn),本文針對在線學習資源推薦的兩大主體,即資源和學習者的特點,提出了一種融合依賴關系與序列表示的在線學習資源推薦框架。通過資源依賴關系的學習與挖掘模塊和基于圖神經網絡的序列表示模塊,分別解決了對資源和對學習者的特征學習不充分的問題,最后融合兩部分進行自適應推薦,有效提升在線學習資源推薦的準確性。