曹雨翱++袁新瑞++高嶺
摘 要:學(xué)習(xí)偏好分析是個性化教學(xué)服務(wù)的基本功能要求,可選取學(xué)習(xí)者所訪問的URL、訪問量、訪問頻率、訪問時間、訪問內(nèi)容類別、引用頁等六個網(wǎng)絡(luò)學(xué)習(xí)行為指標,來分析學(xué)習(xí)者的學(xué)習(xí)偏好。通過對學(xué)習(xí)者訪問的URL和訪問量兩種數(shù)據(jù)的獲取、分析和偏好分析實驗驗證,有效給出了學(xué)習(xí)者的學(xué)習(xí)偏好。
關(guān)鍵詞:學(xué)習(xí)偏好;教學(xué)服務(wù);學(xué)習(xí)行為分析
中圖分類號:G434 文獻標志碼:A 文章編號:1673-8454(2016)09-0015-05
一、引言
“互聯(lián)網(wǎng)+”時代下,在線學(xué)習(xí)成為一種具有發(fā)展前景的學(xué)習(xí)模式。據(jù)企鵝智酷和騰訊課堂在2015年7月聯(lián)合發(fā)布的第32期《在線教育報告》顯示:2014年國內(nèi)共有167家在線教育創(chuàng)業(yè)公司獲得投資,是前一年的2.6倍,預(yù)計到2017年中國的在線教育用戶預(yù)計將突破1.2億[1]。學(xué)校學(xué)習(xí)中,基于SPOC的混合式學(xué)習(xí)也成為高校普遍重視的學(xué)習(xí)模式。但是,無論是學(xué)校還是社會上的在線學(xué)習(xí)環(huán)境,都需要將提供個性化的學(xué)習(xí)服務(wù)作為最基本的功能。因此,如何獲知學(xué)習(xí)者的學(xué)習(xí)需求和偏好,就成為一個值得研究的重要課題。
基于用戶網(wǎng)絡(luò)行為的用戶偏好分析,給學(xué)習(xí)需求和偏好分析帶來啟示。MovieLens站點使用“協(xié)同過濾”技術(shù),推薦用戶可能欣賞的電影并幫助他們避開不喜歡的影視作品,該站點也會根據(jù)用戶的收視率對沒有瀏覽的影片生成個性化預(yù)測[2]。宋姜等人在研究網(wǎng)絡(luò)社交偏好影響因素時,通過在線試卷調(diào)查,結(jié)構(gòu)方程分析方法,得出:不擅長面對面交流的人跟傾向于網(wǎng)絡(luò)社交手段,周圍人群的社交普及率越高,人們自身約會傾向于社交網(wǎng)絡(luò)等[3]。那么,如何通過網(wǎng)絡(luò)學(xué)習(xí)行為分析用戶的學(xué)習(xí)偏好呢。這需要從學(xué)習(xí)行為指標選取、數(shù)據(jù)獲取、偏好分析三個環(huán)節(jié)開展研究,探索和實現(xiàn)行之有效的學(xué)習(xí)偏好分析方法并給出偏好表示,支撐進一步的學(xué)習(xí)內(nèi)容推送服務(wù)。
二、學(xué)習(xí)偏好分析的行為指標選取
彭文輝在研究學(xué)習(xí)行為時利用系統(tǒng)科學(xué)對復(fù)雜事物的描述方法和學(xué)習(xí)的分層特性,對這種連貫的交互行為分類表示,提出了基于學(xué)習(xí)行為的OCCP層次化模型[4],如圖1所示。在這個模型中,學(xué)習(xí)行為被高階問題解決行為層和低階操作圈定,中間又分為兩層,由下到上分別是認知行為層和協(xié)作行為層,具體的講,低階的操作層指學(xué)習(xí)者接觸信息時的聽、說、讀等動作,認知行為層指對知識內(nèi)容的分析,差別等,協(xié)作行為層強調(diào)認知個體與他人的交流活動,如提問,答疑等,最高的問題解決行為層指運用知識,即對各種學(xué)問的綜合提煉,自我設(shè)計等。
以上學(xué)習(xí)行為在網(wǎng)絡(luò)學(xué)習(xí)中可演變?yōu)橄鄳?yīng)的網(wǎng)絡(luò)操作行為指標,具體有:學(xué)習(xí)者訪問的URL、訪問量、訪問頻率、訪問時間、訪問的內(nèi)容類別和引用頁。
1.訪問的網(wǎng)址類別特點
URL,稱作統(tǒng)一資源定位符,線上學(xué)習(xí)的每種資源都有且僅有一個這樣的標識符,由數(shù)字、字母和特殊字符構(gòu)成,當用戶訪問網(wǎng)絡(luò)資源時,服務(wù)器端會記錄此用戶的URL請求,它表明了用戶的訪問路徑。URL能將各類網(wǎng)絡(luò)內(nèi)容表現(xiàn)成不同組合字段的形式,根據(jù)后臺數(shù)據(jù)庫和網(wǎng)站結(jié)構(gòu)的差異,不同類別的網(wǎng)址表示的含義不同,為了將字符形式的URL與站點內(nèi)容相聯(lián)系,需要對站點進行編目。以西北大學(xué)教育資源云平臺為例,7種類別資源的URL只有在末尾的catagoryID參數(shù)部分不同,其余字段均相同,編目如表1所示。既然URL對于資源來說代表了一種路徑,那么當用戶進行網(wǎng)絡(luò)學(xué)習(xí)時,連貫的訪問動作也可以反映在URL中,所以定義服務(wù)器端記錄的URL為用戶請求網(wǎng)絡(luò)資源的路徑指標。
2.訪問量
資源被訪問的次數(shù)與用戶的偏好成正比關(guān)系,對單一用戶而言,某一方面資源訪問量多是用戶對這一方面知識感興趣的必要非充分條件,所以定義訪問量為用戶瀏覽資源次數(shù)指標。
3.頻率
稱作某一時間內(nèi)完成操作的次數(shù),其作為一個比值,是描述客觀物體周期性變化的頻繁程度,稠密的網(wǎng)絡(luò)資源給用戶帶來的益處就是獲取內(nèi)容的豐富,在圖書館,受喜好程度較高的書籍往往紙張皺褶,發(fā)軟,等價到網(wǎng)絡(luò)學(xué)習(xí)中,當用戶對某一類資源的興趣高于其他時,這些資源的訪問度就高,若以用戶從上線到下線為時間區(qū),定義網(wǎng)絡(luò)資源的被訪問率指標,即為用戶的訪問頻率。
4.時間
網(wǎng)絡(luò)學(xué)習(xí)區(qū)別于線下學(xué)習(xí)的時間特征為分散性和短時性,當用戶的行為不受固定時間約束時,他們學(xué)習(xí)所產(chǎn)生的時間則更傾向于真實需要的表述。用時間記錄用戶學(xué)習(xí)狀態(tài)同樣需根據(jù)不同資源內(nèi)容來進行劃分,若將總時長看作一個餅狀結(jié)構(gòu),那么單一用戶操作各類網(wǎng)絡(luò)資源的時間則是形成完整“餅”的細分時間片,由此,時間片的長度受用戶興趣影響長短不一,所以定義用戶操作資源的時長為分析他們興趣偏好的時間指標。
5.內(nèi)容類別
信息分類已經(jīng)不是一個新概念,但是這種方式的益處卻尤為明顯,體現(xiàn)在網(wǎng)絡(luò)化教學(xué)中也是個性化教育的一部分。學(xué)習(xí)來源于需要,不同學(xué)習(xí)目標的習(xí)得方式不一定相同,所需內(nèi)容的呈現(xiàn)形式也不盡相同,得易于現(xiàn)有技術(shù)手段和資源的豐富,許多學(xué)科都有如文字,圖片,視頻等資料,當學(xué)習(xí)者參與到網(wǎng)絡(luò)學(xué)習(xí)中,這些資料便被他們獲取,而留在服務(wù)器中的行為記錄則記錄下了用戶使用資源的類型,因此定義內(nèi)容類別為用戶線上學(xué)習(xí)的資源類型偏好指標。
6.引用頁
網(wǎng)站的結(jié)構(gòu)呈網(wǎng)狀,即用戶從一個頁面到另一個頁面的路徑不止存在一種,站點越龐大,頁面與頁面的關(guān)聯(lián)關(guān)系越復(fù)雜,如果以用戶的點擊動作為計量點,那么頁面內(nèi)容的更替則代表了當前點擊動作結(jié)束后,下一跳的結(jié)果,如此“周而復(fù)始”的變化就是通過當前頁與來源頁的迭代,所以定義引用頁為當前用戶上一次訪問的跳轉(zhuǎn)指標。
三、基于字符串的指標獲取與行為建模
為了驗證這種分析方法的有效性,我們選取兩個指標來實現(xiàn)學(xué)習(xí)偏好分析的過程,主要針對URL、訪問量。
1.指標獲取方法
用戶的學(xué)習(xí)行為數(shù)據(jù)有兩種存儲類型,分別是文存儲件形式和結(jié)構(gòu)數(shù)據(jù)庫存儲形式,后者的數(shù)據(jù)提取不用劃分,因為數(shù)據(jù)庫已經(jīng)對各類將要轉(zhuǎn)入的信息進行了分類,當用戶操作網(wǎng)絡(luò)資源時,相關(guān)的動作就已經(jīng)被有序地記錄下來,而前者地記錄是一個文本文件的形式,我們需要的內(nèi)容是這個文本文件中的某些片段,為了達到這個目的,首先需要對用戶的日志文件進行讀取,然后將每一條記錄分解成一個字符串,再提取字符串中有意義的數(shù)據(jù)源,最后把提取出來的數(shù)據(jù)以二維表的形式存儲到數(shù)據(jù)庫中,循環(huán)提取的過程,直到文件末尾。
用PHP語言描述如下,首先利用file()函數(shù)將用戶行為日志文件讀取到一個數(shù)組中,由于日志文件行的劃分是固定的,即當文件記錄了末尾字段的信息后會在日志中自動換行,再做記錄,而用file()函數(shù)的益處在于它接收值后以數(shù)組形式返回并且數(shù)組中的每一個元素對應(yīng)日志文件的每一行,如果我們定義一個數(shù)組變量filearray接收file()的返回值,那么filearray中的每一個數(shù)組值即為用戶日志文件中的每一條記錄,把存儲在filearray數(shù)組里的值循環(huán)輸出即可在瀏覽器里查看到所有記錄。
以Apache的通用日志格式為例,用戶請求獲取資源的時間存儲于一組中括號中,請求的URL存在于第一個“”中,且有些URL還包含請求的資源類型,引用頁存在于第二個“”中,這些數(shù)據(jù)是用戶偏好指標的源數(shù)據(jù),所以有價值,但是這類源數(shù)據(jù)被不同的特殊字符劃分,給提取造成了困難,使得用字符串函數(shù)匹配變得繁瑣,然而也正是因為有特殊字符的標示作用,另一種模式匹配方法,正則表達式才能發(fā)揮更大的作用。IIS日志格式同理,但由于日志中特殊字符少,提取相對簡單。
正則表達式作為一種復(fù)雜模式的匹配方法,以參數(shù)的形式可見于相應(yīng)計算函數(shù)中。介于我們要提取的源數(shù)據(jù)是日志信息中的多個字段值,所以要對它進行多次匹配,preg_match_all()正則表達式全局匹配函數(shù)可以解決這個問題,如果不需要全局匹配,可以用preg_match()函數(shù)。具體如下描述,假定一條日志數(shù)據(jù)由$str接收,則匹配URL,引用頁的寫法是preg_match_all (‘/”(.+?)”/,$str,$m),匹配時間的寫法是preg_match(‘/\[(.+)\]/,$str,$n),輸出URL,引用頁,時間的寫法分別是,echo $m[1][0],echo $m[1][1],echo $n[0],以上代碼均驗證通過。
2.行為建模
由URL,訪問量、頻率、時間、內(nèi)容類別、引用頁表示的用戶偏好源數(shù)據(jù)以二維表的形式存儲在結(jié)構(gòu)數(shù)據(jù)庫中,這些數(shù)據(jù)表征了不同的用戶行為,本身就具有一定的數(shù)據(jù)結(jié)構(gòu),利用這些結(jié)構(gòu)進行挖掘,就可以將學(xué)習(xí)行為這類復(fù)雜的動作量化表達,下面取URL,訪問量兩種源數(shù)據(jù)并對這兩個指標建模。
(1)URL
一般來說,用戶找到自己想要的文件需要進行多次單擊操作,日志服務(wù)器能記錄用戶請求文件的URL,以西北大學(xué)教育資源云平臺為例,如果一個用戶依次點擊了首頁,百家講壇,大觀園里論詩才,則Web日志中會記錄三個URL,如圖2所示。
依據(jù)URL的唯一性,若將每個地址看做一個點,那么用戶在某一個時段的訪問行為就是一個關(guān)于這些點的集合。既然這些點表現(xiàn)了用戶訪問的頁面或文件,那么在實際中,點與點之間必定存在一個方向,即用戶的訪問順序。若將這些點分散在一個二位平面里,模擬一種情況,假設(shè)有五條URL,它們所代表頁面的訪問順序如圖3所示。
圖中的a至g代表頁面的訪問權(quán)值,如果一個頁面被多次訪問,那么對于當前用戶,此頁面也具備較高的權(quán)值,頁面內(nèi)提供的信息也可能是用戶學(xué)習(xí)最為需要和關(guān)心的內(nèi)容。
將URL建模后,我們發(fā)現(xiàn)它的圖形結(jié)構(gòu)與數(shù)據(jù)結(jié)構(gòu)中的圖十分相似,而在數(shù)據(jù)結(jié)構(gòu)中有一種稱為鄰接矩陣的方法用于圖的存儲和表示,且這種方法便于計算,尤其是判定圖中任意兩個頂點之間是否有邊相連以及各個頂點的度,但是這種方法不適合對稀疏圖進行存儲,會浪費大量的空間,介于此,為了節(jié)省空間,我們希望使用一種只存有關(guān)聯(lián)信息,而不保留不相鄰接的點信息的構(gòu)造,而圖的鄰接表表示法剛好可以解決這個問題。
(2)訪問量
將資源看做目標對象,可知存儲在網(wǎng)絡(luò)上的各種資源有不同的分類標準和遞進關(guān)系,但從本質(zhì)結(jié)構(gòu)上說,資源都是離散型數(shù)據(jù),而且這種數(shù)據(jù)在分類上呈現(xiàn)樹形結(jié)構(gòu)。樹形結(jié)構(gòu)是一種非線性邏輯結(jié)構(gòu),這種結(jié)構(gòu)中節(jié)點間后繼的關(guān)系并不有唯一性,直觀地看,樹結(jié)構(gòu)是指具有分支關(guān)系的結(jié)構(gòu),其分叉、分層的特征類似于自然界中的數(shù)。實際中,大多數(shù)學(xué)習(xí)類網(wǎng)站的資源分類呈現(xiàn)樹形結(jié)構(gòu)的森林狀態(tài),也就是說從頂級分類開始,資源呈現(xiàn)出一個由若干棵樹構(gòu)成的集合狀態(tài),但是這種資源由于子結(jié)點的多樣性給存儲和計算帶來了困難,所以在數(shù)據(jù)處理前要對森林結(jié)構(gòu)的資源進行優(yōu)化。
因為任何樹都可以轉(zhuǎn)化為二叉樹進行處理,因此二叉樹作為一種簡單而特殊的數(shù)可以對森林結(jié)構(gòu)進行替換,在表示時,我們使用孩子兄弟法,即以二叉鏈表作為數(shù)的存儲結(jié)構(gòu),鏈表中的每個結(jié)點設(shè)有兩個域,分別指向該結(jié)點的第一個孩子結(jié)點和下一個兄弟結(jié)點。
若將用戶與資源分別看做列標頭與橫表頭,可以構(gòu)造一個用戶—資源訪問表,表中的數(shù)據(jù)為每個用戶對每種資源訪問的次數(shù),如表2所示。
表中A1,A2,A3…,B1,B2,B3…是將資源從森林狀整理為二叉樹后的先序遍歷順序,不用中序遍歷和后續(xù)遍歷是因為在我們對資源分類進行樹形建模時,將父結(jié)點的優(yōu)先級看做大于子結(jié)點的優(yōu)先級,同級子結(jié)點的優(yōu)先級相同,在這種前提下,先序遍歷的生成的資源訪問順序符合結(jié)點間的優(yōu)先級大小。
表中A,B,C…表示不同類型的資源,在表2中只作為邏輯展示,沒有實際意義。
表中數(shù)據(jù)代表每位用戶訪問各種資源的次數(shù),其數(shù)學(xué)建模方法如下:
若記訪問頻率的均值為X,每種學(xué)習(xí)資源為An1Bn2Cn3…Mnj,每個用戶為Ui,則方差D(X)可以描述為用戶對某一資源Ai訪問頻率波動的大小,公式為D(X)=ni=1(xn-XAn2Bn2Cns…Mnj)2,其中XAn1Bn2Cns…Mnj為每種學(xué)習(xí)資源或An1或Bn2…Mnj在Ui個用戶訪問下的平均訪問量,公式為XAn1=。方差的優(yōu)勢在于將數(shù)值中的波動擴大了,方差越大表明離散程度越大,方差越小表明離散程度越小。
四、數(shù)據(jù)分析
1.URL數(shù)據(jù)
Web日志數(shù)據(jù)來源于西北大學(xué)教育資源云平臺我們使用的是IIS7.0日志服務(wù)器。
下面要對日志進行預(yù)處理,剔除如json傳值,圖片緩存等與用戶學(xué)習(xí)偏好聯(lián)系不大的請求,突出價值數(shù)據(jù)。為了方便描述,只取用戶**.110.232進行說明,對預(yù)處理后的日志編目說明如圖4所示。
用戶**.110.232的訪問日志在進行預(yù)處理后,得到了20個關(guān)鍵頁,這些頁面分別代表了首頁,視屏播放頁,圖片資源頁以及壓縮包資源頁,將這些頁面元素按照用戶訪問的順序表示后如圖5所示。
按照URL的建模方法,取相似資源訪問次數(shù)為弧節(jié)點的數(shù)據(jù)域,建立用戶學(xué)習(xí)偏好鄰接矩陣如圖6所示。
從鄰接表的數(shù)據(jù)域可以得出以下結(jié)論:
(1)**.110.232用戶更喜好百家講壇的內(nèi)容,而且是關(guān)于“紅學(xué)”方面,其次是探索發(fā)現(xiàn)關(guān)于戰(zhàn)爭的內(nèi)容,然后是政治方面的圖片素材。
(2)**.110.232用戶更喜好視頻類資源,接下來是圖片。需要說明的是,以上數(shù)據(jù)分析建立在用戶某一個時段內(nèi),且當某資源頁僅被用戶打開一次時,這次動作由于次數(shù)低不作計量。
2.訪問量
未使用教育資源云平臺中數(shù)據(jù)是因為該平臺正在做升級,用戶量較少,不適合做多用戶分析,而用戶訪問量可用隨機模擬數(shù)據(jù)代替,下面是分析過程。為了方便描述與統(tǒng)計,將表2拆分,資源分類里只保留A類并將其分為5種資源,用戶選取3個。若從資源角度出發(fā),可以將用戶的訪問動作看成是隨機事件,所以我們利用隨機函數(shù)為每位用戶生成他們的訪問次數(shù),并在隨機函數(shù)的參數(shù)設(shè)定中選取1到10,建表3如下。
根據(jù)前文的方法,可得,X=4.6,D(u1)=6.72,D(u2)=1.79,D(u3)=2.6,發(fā)現(xiàn),D(u2) 由圖7可知u2用戶的訪問曲線起伏最小,峰值與谷值之差為4,u1用戶的訪問曲線起伏最大,峰值與谷值之差為10,u2居中,其峰值與谷值之差為8。用戶u2在對A類資源訪問時,他的學(xué)習(xí)行為更傾向于較為平均的訪問狀態(tài),也就是說用戶u2對A類資源中每個資源的偏好程度相差不大,若定義學(xué)習(xí)偏移量L_sft(X)為一個用戶訪問資源的方差D(X),根據(jù)D(u2) 五、小結(jié) 本文就互聯(lián)網(wǎng)學(xué)習(xí),基于行為科學(xué),學(xué)習(xí)理論和前人對網(wǎng)絡(luò)學(xué)習(xí)行為分類的研究成果,選取了分析用戶網(wǎng)絡(luò)學(xué)習(xí)的行為指標。再者,通過字符串模式匹配方法說明了行為指標的獲取途徑,并對兩類行為數(shù)據(jù)建模供以后文分析。最后的實驗部分從用戶訪問的URL數(shù)據(jù)和資源訪問量數(shù)據(jù)驗證了用戶偏好與行為之間的關(guān)系,結(jié)果表明該分析方法行之有效。介于實驗部分的分析存在模擬數(shù)據(jù),進一步的研究可以將此替換為真實數(shù)據(jù),用作具體案例分析。 參考文獻: [1]企鵝智酷,騰訊課堂.在線教育報告第32期[EB/OL].http://edu.qq.com/a/20150706/019734.htm#p=1.[2015-07-06]. [2]GroupLens Research.www.movielens.org. [3]宋姜,甘利人,吳鵬.網(wǎng)絡(luò)社交偏好影響因素研究[J].情報雜志,2014,1(33). [4]彭文輝.網(wǎng)絡(luò)學(xué)習(xí)行為分類模型及概念模型[M].北京:科學(xué)出版社,2013.