郭儉 徐亞軍
摘 要:隨著在線課程和線上學(xué)習(xí)的普及,大量的在線學(xué)習(xí)行為數(shù)據(jù)被積累。如何利用數(shù)據(jù)挖掘技術(shù)分析積累的大數(shù)據(jù),從而為教學(xué)決策和學(xué)習(xí)優(yōu)化提供服務(wù),已經(jīng)成為新的研究重點(diǎn)。文章基于蘇州線上教育中心的學(xué)習(xí)行為數(shù)據(jù),結(jié)合用戶設(shè)定與對(duì)用戶行為數(shù)據(jù)的挖掘分析,提出了一套資源畫像的建設(shè)方法,該方法為個(gè)性化推薦及跟蹤提供了數(shù)據(jù)基礎(chǔ)。
關(guān)鍵詞:資源畫像;大數(shù)據(jù)算法;個(gè)性化推薦系統(tǒng)
中圖分類號(hào):TP391 ? ? ? ? ? 文獻(xiàn)標(biāo)志碼:B ? ? ? ? ?文章編號(hào):1673-8454(2019)12-0077-04
蘇州線上教育中心是蘇州市教育局于2018年1月面向基礎(chǔ)教育領(lǐng)域推出的線上學(xué)習(xí)平臺(tái)。中心以“全名師、全過程、全免費(fèi)”為核心理念,統(tǒng)籌全市名優(yōu)教師資源,通過個(gè)人電腦、手機(jī)、平板電腦和電視等端口向全市師生提供“名師在線直播”“名師在線答疑”“名師優(yōu)質(zhì)資源”“在線學(xué)習(xí)行為數(shù)據(jù)分析與智能引導(dǎo)”等教育服務(wù)。平臺(tái)上線后用戶使用活躍,總登錄人次已達(dá)870.3萬,日均登錄2.1萬人次;微課觀看總數(shù)475萬余人次,人均觀看28.3次;名師直播課觀看91.8萬次,場(chǎng)均參與583人,初步形成了常態(tài)化的應(yīng)用局面。
隨著師生大量的使用,平臺(tái)積累了海量的行為數(shù)據(jù)。挖掘這些數(shù)據(jù)背后的價(jià)值,在智能分析的基礎(chǔ)上,將分析結(jié)果再度作用于日常教與學(xué),初步實(shí)現(xiàn)人工智能技術(shù)的導(dǎo)入與應(yīng)用,是中心近期建設(shè)的重要內(nèi)容。為此,研發(fā)團(tuán)隊(duì)基于項(xiàng)目實(shí)際,使用大數(shù)據(jù)分析與人工智能技術(shù)等方法手段,進(jìn)行了資源畫像模型等的研究與開發(fā)。
學(xué)習(xí)資源,是指用于學(xué)生學(xué)習(xí)的各類素材的統(tǒng)稱。本文所指的學(xué)習(xí)資源,是指可用于在線學(xué)習(xí)的各類資源,主要包括:微課/直播課等視頻資源、教師講解類等音頻資源、PPT課件/Word課件等文檔資源、練習(xí)題/考試題等習(xí)題資源、練習(xí)卷/測(cè)試卷/考卷等檢測(cè)卷資源。
要實(shí)現(xiàn)學(xué)習(xí)個(gè)性化,學(xué)習(xí)資源是載體。個(gè)性化學(xué)習(xí)的優(yōu)化,其實(shí)質(zhì)是對(duì)資源在時(shí)間、空間等維度上的最優(yōu)化安排利用。
學(xué)習(xí)資源畫像,實(shí)質(zhì)是一組標(biāo)注,用以對(duì)資源的特征進(jìn)行推薦系統(tǒng)可識(shí)別的描述。在在線學(xué)習(xí)平臺(tái),可以綜合利用傳統(tǒng)的資源標(biāo)注與基于行為大數(shù)據(jù)的分析來設(shè)定,可以從如下幾個(gè)方面來考慮:
資源屬性標(biāo)注,即系統(tǒng)提供功能,對(duì)資源的關(guān)鍵屬性進(jìn)行手動(dòng)或者半自動(dòng)的資源標(biāo)注,通過系統(tǒng)的算法,形成為資源的特征描述。此類方法較為傳統(tǒng),對(duì)于資源數(shù)量不是很大時(shí)非常有效,對(duì)于推薦系統(tǒng)的冷啟動(dòng)會(huì)有較大的準(zhǔn)確性,是很值得進(jìn)行建設(shè)的內(nèi)容。資源標(biāo)注的內(nèi)容包括:
(1)資源的基本屬性
如資源所屬的學(xué)科、教材章節(jié)、知識(shí)點(diǎn)、難易度、長(zhǎng)度、推薦使用場(chǎng)景等。
(2)資源的可推薦屬性
在蘇州線上教育平臺(tái),由于資源的海量特性,一個(gè)章節(jié)或知識(shí)點(diǎn)下面往往綁定了幾個(gè)甚至幾十個(gè)資源,學(xué)生用戶進(jìn)行選擇耗時(shí)耗力,又未必有好的效果。在教育局的主導(dǎo)下,各學(xué)科教研員對(duì)每個(gè)章節(jié)的資源逐個(gè)細(xì)看審核,挑選出其中最優(yōu)質(zhì)的1到2個(gè)資源,標(biāo)注為推薦級(jí),然后通過系統(tǒng)引導(dǎo)學(xué)生進(jìn)行基于優(yōu)質(zhì)資源的學(xué)習(xí)。在此情況下,資源的推薦屬性首先是由人工標(biāo)注的。
為進(jìn)行計(jì)算,資源的可推薦屬性的處理方式與前述的基本屬性不一致,需要考慮到更多的維度,并綜合以后使用歸一化的推薦指數(shù)來進(jìn)行描述,0代表不推薦,1代表強(qiáng)烈推薦,0至1之間的小數(shù)體現(xiàn)推薦的強(qiáng)弱程度。表1為我們對(duì)教研員推薦的算法模型初始設(shè)定值。
除了教研員可以設(shè)定資源為推薦外,其他平臺(tái)用戶(教師和學(xué)生)也可以進(jìn)行推薦,不同的用戶推薦指數(shù)的權(quán)重應(yīng)該有所區(qū)分:區(qū)域級(jí)的教研員,一般負(fù)責(zé)一個(gè)區(qū)一個(gè)學(xué)科的教育教學(xué)研究,具有相當(dāng)?shù)臋?quán)威性,需要具有最高的計(jì)算權(quán)重;學(xué)科帶頭人/特級(jí)教師等,也是教育專家,對(duì)資源間的有效性有更深刻的了解,他們推薦的資源也應(yīng)該有較高的權(quán)重;一般的任課教師,可以以一個(gè)較低的權(quán)重進(jìn)行推薦指數(shù)的計(jì)算。推薦指數(shù)的計(jì)算,除了需要按照推薦者的身份進(jìn)行區(qū)分外,也需要把推薦者人數(shù)納入計(jì)算范圍,一個(gè)資源受到10個(gè)人的推薦和3個(gè)人推薦,計(jì)算出來的推薦指數(shù)需要體現(xiàn)10個(gè)人推薦資源的指數(shù)值大于3個(gè)人推薦資源的指數(shù)值。一個(gè)資源的最終推薦指數(shù)是綜合了不同用戶權(quán)重、推薦人數(shù)量等維度計(jì)算出來的數(shù)值,此公式不同的團(tuán)隊(duì)有不同的算法,在此不作細(xì)述。
(3)資源負(fù)向評(píng)價(jià)指數(shù)
資源負(fù)向評(píng)價(jià)指數(shù),為綜合對(duì)資源的投訴、在評(píng)論中的負(fù)面評(píng)價(jià)等因素進(jìn)行衡量的指數(shù)。資源負(fù)向評(píng)價(jià)指數(shù)取值[0,1],0為不具有負(fù)向評(píng)價(jià),系統(tǒng)可以進(jìn)行推薦;1為強(qiáng)烈的負(fù)向評(píng)價(jià),系統(tǒng)不能將資源推薦給任何人。資源的負(fù)向評(píng)價(jià)指數(shù)具有很強(qiáng)的指向性,主要包括:
投訴:被投訴并經(jīng)核實(shí)的,平臺(tái)需要進(jìn)行懲罰性的自動(dòng)處理,該資源成為淘汰資源,除了資源作者、平臺(tái)管理員之外,無人能夠看到此資源,即事實(shí)上的資源下架。
負(fù)面評(píng)論:在資源的評(píng)價(jià)中,經(jīng)過情感分析發(fā)現(xiàn)有負(fù)面評(píng)論的,需要根據(jù)負(fù)面評(píng)價(jià)的占比進(jìn)行反向推薦,即即使被其他操作認(rèn)可可以推薦的,也需要降低其推薦優(yōu)先度。
我們以單純的線性計(jì)算公式舉例如下:
負(fù)向評(píng)價(jià)指數(shù)=本資源被負(fù)向評(píng)論的總數(shù)/本資源被有效評(píng)論的總數(shù)
實(shí)際公式需要考慮如情感指數(shù)程度、評(píng)論總數(shù)等因素,進(jìn)行必要的糾正;需要考慮適當(dāng)放大負(fù)向評(píng)價(jià)指數(shù)的負(fù)面作用,降低被選中率;處理之前,需要使用情感分析引擎進(jìn)行預(yù)處理,區(qū)分無效評(píng)價(jià)、負(fù)面評(píng)價(jià)、其他評(píng)價(jià)三類。
(4)資源響應(yīng)半徑
由于基礎(chǔ)教育具有周期性教學(xué)的特點(diǎn),如每年9月10日,六年級(jí)英語會(huì)上教材Unit 1的相關(guān)內(nèi)容。區(qū)域級(jí)在線學(xué)習(xí)平臺(tái)一般都以支持同步學(xué)習(xí)場(chǎng)景為主,隨著學(xué)習(xí)章節(jié)的推移,對(duì)新章節(jié)資源的需求會(huì)在幾天之內(nèi)從零達(dá)到高峰,并在幾天之內(nèi)迅速恢復(fù)為零。如何對(duì)章節(jié)進(jìn)行數(shù)字化的建模,不同的團(tuán)隊(duì)有不同的做法,我們介紹一種簡(jiǎn)化的算法。
①場(chǎng)景半徑的計(jì)算
時(shí)間響應(yīng)與具體場(chǎng)景具有緊密的結(jié)核性,如對(duì)于同步學(xué)習(xí),已經(jīng)學(xué)習(xí)過的課程,其資源需要降低推薦幾率,而即將學(xué)習(xí)的課程資源,則需要大幅提高其被推薦的幾率,越是近越應(yīng)該高;對(duì)于階段性回顧,如期中期末的復(fù)習(xí)與回顧,則與同步學(xué)習(xí)相反,目的是對(duì)此階段學(xué)習(xí)的內(nèi)容進(jìn)行拔高與回顧,對(duì)于尚未學(xué)習(xí)過的課程的資源則不應(yīng)該出現(xiàn)在推薦列表中,而之前學(xué)習(xí)過的,屬于拓展提高的資源或者容易錯(cuò)的題目應(yīng)該高頻率出現(xiàn)在推薦列表中。
不同的年份,開學(xué)日期的不同導(dǎo)致了相同的日期資源的時(shí)間特性也不一樣,如同樣是3月4日,在2018年為第一周的周日,而在2019年為第三周周一,僅一年之隔就相差了一周以上。為了使時(shí)間半徑具有更好的針對(duì)性,特對(duì)時(shí)間進(jìn)行如下分割:需要系統(tǒng)級(jí)設(shè)定各學(xué)期、寒暑假的開始結(jié)束日期,按照表2進(jìn)行每一天的計(jì)算。
為得到此數(shù)據(jù),需要通過平臺(tái)設(shè)定的方式設(shè)定如上四個(gè)時(shí)間段,即寒假起止日期、春季學(xué)期起止日期、暑假起止日期、秋季學(xué)期起止日期。由于需要考慮平臺(tái)對(duì)春季和秋季學(xué)期日期的設(shè)定,故做如下約定:秋季學(xué)期的結(jié)束日期可以覆蓋寒假的起止日期,即寒假日期可以單獨(dú)設(shè)定,無須考慮是否與秋季學(xué)期、春季學(xué)期覆蓋。春季學(xué)期的結(jié)束日期可以覆蓋暑假的起止日期,即暑假日期可以單獨(dú)設(shè)定,而與春季學(xué)期無關(guān)。為防止有空檔日期,建議將秋季學(xué)期的結(jié)束日期設(shè)定為寒假中的某一天,并將次日設(shè)定為春季學(xué)期的開始日期。同理設(shè)定秋季起止日期。
如此,根據(jù)系統(tǒng)的設(shè)定,資源的時(shí)間半徑將按照表3中的規(guī)則取舍。不同的學(xué)期天數(shù)可能不一樣,為簡(jiǎn)單起見,可以使用簡(jiǎn)單線性縮放來進(jìn)行處理。
②教材章節(jié)響應(yīng)半徑
教材章節(jié)響應(yīng)半徑,需要根據(jù)教材章節(jié)的同步設(shè)定進(jìn)行處理。根據(jù)不同的學(xué)科,教材章節(jié)具有不同的特性。如語文和英語類,其教材章節(jié)很平鋪化,一冊(cè)書具有固定的課數(shù);數(shù)學(xué)和物理等理科類課程,則有大小章節(jié)之分,不同的章節(jié)課時(shí)數(shù)也會(huì)發(fā)生較大的變化。
為方便統(tǒng)一計(jì)算,教材章節(jié)半徑按照如下策略進(jìn)行:相應(yīng)半徑以0-1.0的數(shù)值來表述,0為開學(xué)的進(jìn)度,1為期末的進(jìn)度。
實(shí)際教學(xué)時(shí),需要考慮到期中考試和期末考試兩個(gè)特殊階段,在此階段,主要為階段性的復(fù)習(xí),我們稱之為復(fù)習(xí)階段,在正常的計(jì)算時(shí),需要將此復(fù)習(xí)階段和同步學(xué)習(xí)階段分開來處理。復(fù)習(xí)階段和同步學(xué)習(xí)階段分別使用不同的引擎進(jìn)行處理,故教材章節(jié)半徑,僅計(jì)算同步學(xué)習(xí)的章節(jié)半徑。
如平臺(tái)有教材章節(jié)進(jìn)度設(shè)定的,使用基于時(shí)間軸的方式進(jìn)行數(shù)字歸一化處理:根據(jù)平臺(tái)的設(shè)定,每個(gè)章節(jié)會(huì)有上課時(shí)間的設(shè)定;如“有理數(shù)”上課期間為5/8至5/20,根據(jù)該時(shí)間段在該學(xué)期內(nèi)的分布值來計(jì)算。另外,為方便起見,對(duì)于一個(gè)章節(jié)使用期間的中間值來計(jì)算后賦值。
如平臺(tái)無計(jì)算學(xué)科教材章節(jié)進(jìn)度設(shè)定的,則根據(jù)章節(jié)進(jìn)行平分計(jì)算。如學(xué)科章節(jié)僅有一層的,則按照章節(jié)數(shù)平均計(jì)算;如果學(xué)科章節(jié)有兩層甚至三層的,將所有章節(jié)補(bǔ)齊到兩層或者三層,示意如圖1。
③其他響應(yīng)半徑
除了教材章節(jié)響應(yīng)半徑,還有其他響應(yīng)半徑,如知識(shí)點(diǎn)響應(yīng)半徑,可以通過類似的方法進(jìn)行計(jì)算而得,不同類型的半徑,在與場(chǎng)景相結(jié)合計(jì)算相似度半徑時(shí),需要有相應(yīng)的算法。
基于行為大數(shù)據(jù)的分析計(jì)算,需要在采集大量用戶使用資源的基礎(chǔ)上進(jìn)行計(jì)算,如果平臺(tái)用戶行為少,則計(jì)算會(huì)非常不準(zhǔn)確,當(dāng)一個(gè)區(qū)域級(jí)學(xué)習(xí)平臺(tái)進(jìn)入常態(tài)化的使用,每天都有大量數(shù)據(jù)產(chǎn)生以后,基于行為大數(shù)據(jù)的資源價(jià)值分析計(jì)算就變得非常有意義。行為大數(shù)據(jù)種類很多,分析的維度也很多,對(duì)資源價(jià)值的衡量的準(zhǔn)確度也就很精準(zhǔn)。
(1)資源熱度指數(shù)
通過使用該指數(shù)來衡量被各種場(chǎng)景使用的熱度,指數(shù)值為歸一化后的數(shù)值,0代表無人使用,沒有熱度;1代表非常多的人使用,是熱門資源。不同的場(chǎng)景資源熱度權(quán)重需要細(xì)分成不一樣的場(chǎng)景維度,場(chǎng)景包括資源觀看、資源引用(引用到教案/導(dǎo)學(xué)/作業(yè)等)、資源收藏、資源點(diǎn)贊、資源評(píng)論等。
系統(tǒng)通過用戶對(duì)資源的各場(chǎng)景行為數(shù)據(jù)分析以后計(jì)算資源場(chǎng)景熱度特征指數(shù),每個(gè)場(chǎng)景的熱度指數(shù),有多種算法可以進(jìn)行計(jì)算,如最簡(jiǎn)單的可以使用本資源行為發(fā)生數(shù)與當(dāng)前學(xué)科當(dāng)前年級(jí)最熱門資源的比例來進(jìn)行計(jì)算,也可以使用對(duì)數(shù)等方式進(jìn)行計(jì)算。
在計(jì)算完畢一個(gè)資源的多個(gè)維度的熱度指數(shù)以后,需要按照設(shè)定的權(quán)重計(jì)算出綜合熱度指數(shù),在個(gè)性化推薦等場(chǎng)景,將使用該綜合熱度指數(shù)進(jìn)行計(jì)算。各場(chǎng)景權(quán)重的設(shè)置可以有一個(gè)初期的設(shè)定值,以反映不同行為對(duì)資源價(jià)值的評(píng)價(jià),如資源引用與資源收藏的權(quán)重需要大于資源點(diǎn)贊數(shù);資源點(diǎn)贊行為的權(quán)重需要大于資源觀看行為的權(quán)重。為簡(jiǎn)單起見,我們可以設(shè)定一個(gè)初始的權(quán)重表來將各場(chǎng)景行為熱度指數(shù)綜合計(jì)算成綜合的熱度指數(shù),具體如表4所示。
(2)資源推薦轉(zhuǎn)換指數(shù)
當(dāng)一個(gè)資源通過引擎推薦給用戶以后,用戶在不經(jīng)意之間做出了兩種截然不同的選擇:用戶受到封面、標(biāo)題或者相關(guān)信息的引導(dǎo),點(diǎn)擊資源觀看進(jìn)行學(xué)習(xí)或者檢測(cè);由于資源展現(xiàn)的信息沒有吸引用戶,或者用戶對(duì)此不關(guān)心,忽視而過。這兩種不同的結(jié)果如果進(jìn)行長(zhǎng)時(shí)的跟蹤,當(dāng)積累到一定閾值以后,資源的吸引力(≈資源價(jià)值)也得以衡量。參照一般互聯(lián)網(wǎng)公司的推薦算法,資源推薦給用戶以后也需要進(jìn)行跟蹤,如果一個(gè)資源被推薦多次,但是無人觀看,或者觀看覆蓋度(資源被使用長(zhǎng)度/資源總長(zhǎng)度,如視頻被觀看3秒,總時(shí)長(zhǎng)為300秒,則覆蓋度為1%)很低,系統(tǒng)需要認(rèn)為該資源不受人喜歡;而一個(gè)資源被推薦以后,用戶點(diǎn)擊進(jìn)去的次數(shù)明顯較多,則系統(tǒng)需要認(rèn)為該資源價(jià)值較大。
(3)資源推薦轉(zhuǎn)換指數(shù)
即為推薦成功的指數(shù),使用歸一化的[0,1]數(shù)值來表述。在基礎(chǔ)教育領(lǐng)域,一般的資源轉(zhuǎn)換成功率較低,故計(jì)算一般不建議使用線性除,而是使用對(duì)數(shù)化以后計(jì)算的方式。在實(shí)際處理的時(shí)候,需要如前所述,將推薦數(shù)量較低(如 低于100次)的資源去除,數(shù)據(jù)量較低時(shí)具有一定的偶然性,暫不適合進(jìn)行資源價(jià)值(其實(shí)應(yīng)該為吸引力)的定量計(jì)算。
(4)資源的相似度
通過前述的幾個(gè)維度,我們得到了資源不同維度的特性值,并且盡可能已經(jīng)做到了歸一化的指數(shù)處理。資源的相似度,可以使用前述的多個(gè)維度組成多維向量空間,并通過計(jì)算余弦值或者歐幾里得距離等方法,計(jì)算出與特定資源相類似的資源列表出來。此類計(jì)算已經(jīng)有非常成熟的公式,在此不做贅述。
(5)資源間的關(guān)聯(lián)
資源間的關(guān)聯(lián)包括相同類型資源間的關(guān)聯(lián)與不同類型資源間的關(guān)聯(lián)。資源間的關(guān)聯(lián)計(jì)算是典型的大數(shù)據(jù)分析計(jì)算。本處的資源間的關(guān)聯(lián)不是指前述通過相似度計(jì)算出來的資源,而是通過對(duì)行為大數(shù)據(jù)進(jìn)行分析,找出從屬性特征方面低相關(guān)、實(shí)際使用又是高相關(guān)的資源。通過大數(shù)據(jù)分析的方式,試圖得到資源相似度計(jì)算得不到的關(guān)聯(lián)信息。資源間的關(guān)聯(lián),可以使用協(xié)同過濾算法來計(jì)算所得。
前文從多個(gè)方面多個(gè)維度,對(duì)資源的特征畫像進(jìn)行了計(jì)算,綜合多個(gè)特征,可以開始形成一個(gè)較為完整的資源畫像。
資源畫像的不同特征,在具體的個(gè)性化計(jì)算時(shí),一個(gè)特征會(huì)被不同的計(jì)算引擎所采用;一個(gè)計(jì)算引擎,會(huì)根據(jù)算法使用到多個(gè)畫像特征;在多個(gè)引擎分別計(jì)算出合適的資源列表以后,再由場(chǎng)景引擎進(jìn)行基于場(chǎng)景的結(jié)果計(jì)算,最終才會(huì)輸出一個(gè)符合當(dāng)前用戶當(dāng)前場(chǎng)景的資源列表??傮w的資源畫像計(jì)算與個(gè)性化推薦計(jì)算引擎流程如圖2所示。
[1]金志福.基于大數(shù)據(jù)的教育資源個(gè)性推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京:中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2015.
[2]牟智佳.電子書包中基于教育大數(shù)據(jù)的個(gè)性化學(xué)習(xí)評(píng)價(jià)模型與系統(tǒng)設(shè)計(jì)[J].遠(yuǎn)程教育雜志,2014,32(5):90-96.
[3]肖年志,郭儉.面向自適應(yīng)學(xué)習(xí)的資源模型構(gòu)建[J].中國(guó)教育信息化.2018(3):42-45.
(編輯:魯利瑞)