朱 睿,馮錫煒,竇予梓,高天鑄,馬 蕾,吳衍兵
(遼寧石油化工大學 計算機與通信工程學院,遼寧 撫順 113001)
教育信息化越來越受到教育研究者的關(guān)注,隨著各類學科的電子化,人們訪問這類網(wǎng)站所產(chǎn)生的瀏覽數(shù)據(jù)量越來越大。通過大數(shù)據(jù)技術(shù),對這些瀏覽數(shù)據(jù)進行分析后,可以根據(jù)每個用戶群體不同的瀏覽數(shù)據(jù)習慣進行相關(guān)教育方面的信息推送[1-3]。
專業(yè)化教育資源本體庫的建立對于教學信息資源的推送有著不尋常的實踐價值[4-5]。在2017年教育部發(fā)布了《基礎教育教學資源元數(shù)據(jù)》系列教育行業(yè)標準通知,里面包括了《基礎教育教學資源元數(shù)據(jù) 信息模型》、《基礎教育教學資源元數(shù)據(jù)XML綁定》及《基礎教育教學資源元數(shù)據(jù) 實踐指南》,這些標準對于建立相關(guān)教育信息化本體有著非常重要的意義。
文中利用Protégé,以計算機組成原理這一課程內(nèi)容為本體設計數(shù)據(jù)來源,進行本體設計?;诎俣戎笖?shù)中關(guān)于計算機組成原理的各項搜索數(shù)據(jù),基于貝葉斯建立詞匯頻度分析模型,將百度指數(shù)中的搜索指數(shù)結(jié)合詞匯頻度分析模型進行計算,計算后的各個不同本體的詞匯頻度分析數(shù)據(jù)按照數(shù)值的從大到小進行推送。
教育信息化具有兩層含義,一個在教育目標中加入信息素養(yǎng),另一層指在教學與科研中加入信息技術(shù)手段,注重教育信息資源的探究與使用[6]。文中主要對后者進行闡述。在信息技術(shù)手段上利用大數(shù)據(jù)、語義分析及用戶粘性等信息技術(shù)對教育工作者常進行瀏覽的網(wǎng)頁記錄進行分析,進而進行推送[7-8]。
教育資源本體用來容納和規(guī)范教育信息,根據(jù)實際的需求,將本體的屬性分為數(shù)據(jù)屬性(Data Property)和對象屬性(Object Property)。數(shù)據(jù)屬性定義域是本體的類,值域是數(shù)據(jù)類型。對象屬性是表示所有個體之間的關(guān)系屬性[9]。
數(shù)據(jù)屬性:為使網(wǎng)絡上分布的教育資源庫有統(tǒng)一的語義標注標準,通過對《基礎教育教學資源元數(shù)據(jù)》的每一個元數(shù)據(jù)項進行分析,然后整理出了數(shù)據(jù)屬性。部分數(shù)據(jù)屬性的定義與說明如表1所示[10-11]。
表1 數(shù)據(jù)屬性定義及說明
對象屬性:根據(jù)教育元數(shù)據(jù)進行教育資源領(lǐng)域的本體構(gòu)建。主要對象屬性是教育信息的對象屬性[12]。教育資源之間存在豐富的語義關(guān)系,通過語義關(guān)系建立本體屬性,利用這些屬性進行本體推理和查詢,作為教育資源語義搜索的基礎[6]。
教育資源間屬性關(guān)系,可根據(jù)教育信息的特點,對教育信息間關(guān)系進行分析抽象,得到表2所示的對象屬性及對應公理。
其中對象屬性的公理,為從離散數(shù)學當中借鑒過來的三種關(guān)系性質(zhì),分別是Transitive(傳遞性)、Asymmetric(非對稱性)和Reflexive(自反性),具體對象屬性及對應公理如表2所示[13]。
表2 對象屬性及對應公理
利用Protégé進行計算機組成原理這一課程體系及相關(guān)知識的本體構(gòu)建。層級關(guān)系采用目前本科計算機類學生教學常用的《計算機組成原理》中對計算機組成的分類方式作為分類標準,主題上分四個大塊,分別是概論、計算機系統(tǒng)的硬件結(jié)構(gòu)、中央處理器、控制單元。采用樹狀方式進行存儲,深度為4層。圖1和圖2分別是在Protégé進行本體構(gòu)建的結(jié)構(gòu)圖和可視化界面圖。Protégé會生成對應的owl及xml文件,可以方便在Hadoop中進行相關(guān)處理工作。
圖1 Protégé本體之間結(jié)構(gòu)關(guān)系簡圖
圖2 Protégé本體之間可視化界面部分展開
教育信息之間的語義關(guān)系可以制定豐富的自定義推理規(guī)則[14-15]。這里假設a、b為教育信息,p、q表示屬性,p具有傳遞性,p和q互逆:
傳遞性規(guī)則:(? a p ? b)(? b p ? c)->(? a p ? c)
如果教育信息a和b之間具有屬性p,教育信息b和c之間也具有屬性p,屬性p具有傳遞性,則可以推理得到教育信息a與c之間也具有屬性p。
互逆規(guī)則:(? a p ? b)->(? b q ? a)
如果教育信息a與b之間具有屬性p,由于屬性p和q互逆,則可以推理得到教育信息b和教育信息a之間具有屬性q。
這里以計算機組成原理中的知識點為例,利用表2對象屬性及對應公理中對象屬性結(jié)合傳遞性或互逆規(guī)則,用JSJZC表示計算機組成原理的知識點作,在表3中寫出為推理規(guī)則。
表3 教育信息本體間邏輯
續(xù)表3
屬性約束,OWL使用屬性約束來描述那些特定類的屬性條件,屬性條件的基數(shù)約束如表4所示[11]。
表4 屬性條件約束規(guī)則
本體構(gòu)建只是將零散的教育信息進行半結(jié)構(gòu)化的數(shù)據(jù)構(gòu)建過程,而詞匯頻度分析模型是將這類數(shù)據(jù)進行處理的模型。Hadoop作為一個分布式計算基本框架,在對大數(shù)據(jù)進行分布式計算的過程中,需要對數(shù)據(jù)進行整理和規(guī)劃,而作為Apache公司推出的MapReduce可以在大數(shù)據(jù)以及半非結(jié)構(gòu)化的概況下進行數(shù)據(jù)處理[16-17]。教育信息數(shù)據(jù)具有半非結(jié)構(gòu)化,需要通過本體構(gòu)建的方式構(gòu)建起一個相對的結(jié)構(gòu)體系,所以通過對MapReduce和Hadoop進行配合,進行相關(guān)的數(shù)據(jù)計算,能更好地對數(shù)據(jù)進行處理。
而詞匯頻度分析模型MapReduce對教育信息資源進行管理,詞匯頻度分析模型的處理和表示是分類器構(gòu)建的一個重要過程[18]。詞匯頻度分析研究的是對教育信息資源進行推送的相關(guān)算法,在前面已經(jīng)基于本體進行個元數(shù)據(jù)的分類及結(jié)構(gòu)構(gòu)建工作,但只有結(jié)構(gòu)無法進行相應的推送工作,因為對于元數(shù)據(jù)來說,每個元數(shù)據(jù)在推送過程中都具有相同的推送價值[19-20]。為了更好的進行相關(guān)信息資源的推送,文中在基于語義構(gòu)建元數(shù)據(jù)的基礎上加入了基于改良后的貝葉斯概率統(tǒng)計計算公式。貝葉斯概率統(tǒng)計計算公式相較于傳統(tǒng)的頻數(shù)概率統(tǒng)計方式有所不同,其概率統(tǒng)計會保留不確定性[7]。
(1)
這與推送內(nèi)容的目標用戶對于推送內(nèi)容的不確定性恰好吻合,而傳統(tǒng)的貝葉斯公式如式(1)所示,其中P(A)代表A發(fā)生的概率,其概率值在[0,1],X代表在A之后進行測試的實驗[7]。這個公式代表的含義是在已知P(A)(在推送中最開始的P(A)可來自該行業(yè)專家的初始定值或小范圍內(nèi)的問卷調(diào)查賦值初始概率)的情況下,每次新的變化會讓概率在[0,1]之間不停的變化。當中需要對每個教育本體進行附加屬性,通過這些附加屬性進行詞匯頻度分析模型的構(gòu)造。文中采用詞匯頻度分析模型來對各個標題進行賦值,從而在進行推送的過程中可以更加準確地進行相關(guān)信息的推送工作[21]。
W={w1,w2,…,wn}
(2)
wi={name,depth},i∈[1,n]
(3)
式(2)中的W代表本體庫,式(3)中的wi為本體庫中的本體,每個本體wi含本體名稱和在本體庫中的本體層數(shù),規(guī)定根節(jié)點(在文中是計算機組成)層數(shù)為1,其中下角標i代表每個本體的標號,n代表本體庫中最大本體數(shù)目。
htj={h11,h12,…,h1m,h21,…,h2m,…,hf1,…,hfm}
(4)
式(4)中htj是各個本體詞匯在不同日期下的熱度值,其中t代表日期,最大日期值為f,j代表所對應本體的標號。wi通過記錄的字段name與htj在代表本體進行互相映射。
(5)
式(5)為預先處理數(shù)據(jù),根據(jù)已構(gòu)建的本體庫,其存在層級關(guān)系,層級越低,其概括越大。而層級越高,其內(nèi)容越細。計算在本體庫中與wi具有較強連接度的本體數(shù)據(jù)的比例關(guān)系,進而得出與整體的關(guān)系。P(wi)代表的是每個本體與整體的連接概括關(guān)系,而dep(wi,wj)表示兩個本體間的層級的距離,如果兩個本體間越相近,其dep()值越小,P(wi)越大,其本體wi與其他本體的鏈接越緊密,在推送的時候更應該連帶進行推送。此部分對應傳統(tǒng)貝葉斯公式中的P(A)部分。
(6)
式(6)為計算在對應本體的熱度值,該熱度值的來源為各大搜索引擎的熱詞搜索數(shù)據(jù)(文中采用的是百度指數(shù)中的相關(guān)數(shù)據(jù))。這里設每日該本體對應的熱詞比例公式為P(htj),htj和hTj分別為獲取當前詞匯的熱度數(shù)和不同天數(shù)下的該本體的熱度數(shù)。P(htj)值越高,代表htj在用戶搜索中占有較重要的意義,htj所對應的本體wi的推送排名應該上升。P(htj)值越低,代表htj在推薦中應該進行排名下滑。
(7)
通過組合式(5)及式(6),可以得到簡單的基于貝葉斯模型,如式(7)所示。但貝葉斯在進行統(tǒng)計概率的情況下,其容易受到單次數(shù)據(jù)較大波動導致統(tǒng)計概率發(fā)生較大的起伏,所以,文中在結(jié)合本體與貝葉斯統(tǒng)計概率公式的同時加入頻數(shù)統(tǒng)計概率。
(8)
式(8)為當有相應的用戶搜索數(shù)據(jù)后,計算用戶搜索頻度值。式(8)中的α值為加權(quán)自定義值,默認情況下為0。而β為本體加權(quán)變量,默認情況下為1。如果需要特殊優(yōu)先推送,增加該本體的β值或者調(diào)節(jié)α值,增加β值可以對本體進行正向加權(quán),讓P(wi,htj)增加,而調(diào)節(jié)α即避免當前該信息過新無人查看P(htj)=0這種情況。
(9)
式(9)得到每個本體Wi所對應的粘性能量值Ei,推送系統(tǒng)根據(jù)Ei值進行相關(guān)內(nèi)容的推送。Ei值越大,其推送排名越靠前;Ei值越小,其推送排名越靠后。
基于逆概率的貝葉斯算法設計出的詞匯頻度分析模型和通過語義本體構(gòu)建規(guī)則構(gòu)建起來的半結(jié)構(gòu)化教育信息本體結(jié)構(gòu),進行用戶粘性模型教育信息推薦系統(tǒng)[22-23]的設計工作。通過在百度指數(shù)上的相關(guān)數(shù)據(jù)結(jié)合專業(yè)書籍及相關(guān)專業(yè)老師的意見,計算P(wi)及相關(guān)公式的結(jié)果Ei,得到計算機組成原理排名前10的詞匯。教育信息推薦系統(tǒng)推送結(jié)果如表5所示。
表5 教育信息推薦系統(tǒng)推送結(jié)果
圖3是用MATLAB生成的教育信息推薦系統(tǒng)推送結(jié)果展示圖,以搜索計算機組成一詞例推送出的相關(guān)信息,點的大小代表訪問量,距離的遠近代表相關(guān)性層級的遠近。圖4是MATLAB生成的按書目錄一級標題推送結(jié)果。從圖3和圖4對比中可以大致看出,基于按一級目錄進行推送的結(jié)果在大多情況下不如教育信息推薦系統(tǒng)的推送結(jié)果,教育信息推薦系統(tǒng)的推送結(jié)果具有信息量大,相關(guān)信息多的特點。
圖3 教育信息推薦系統(tǒng)推送結(jié)果展示圖
圖4 按書目錄一級標題推送結(jié)果圖
對于表5當中的教育信息推薦系統(tǒng)的推送結(jié)果,選取了100名相關(guān)計算機專業(yè)的學生,通過給他們推送基于詞匯頻度分析模型及按書目錄一級標題排列進行推薦可靠度打分,讓其判斷需要程度的排序,得出如圖5所示的百名用戶滿意度記錄。從圖中可以大致看出,基于按一級目錄進行推送的結(jié)果在百名用戶中大多情況下不如教育信息推薦系統(tǒng)的推送結(jié)果。
圖5 百名用戶滿意值記錄
數(shù)值判斷方面,利用Jaccard Index(簡稱JS指數(shù))進行用戶對推送結(jié)果排序的符合程度計算。式(10)為JS指數(shù)計算方式,其中A為推送結(jié)果,B為用戶希望推送結(jié)果。J(A,B)為JS指數(shù)計算結(jié)果,當JS指數(shù)大于0.70時為優(yōu)秀,大于0.50時為良好,低于0.25時,該系統(tǒng)不利于進行推送。
(10)
將表5當中的信息推薦系統(tǒng)表和按一級目錄排列的結(jié)果同時讓100名自愿用戶(計算機專業(yè)學生)評判是否符合心理推送預期。并且利用式(10)進行計算。
根據(jù)圖5中百名用戶滿意值記錄,進行平均值計算,結(jié)果比較如表6所示。從表中可以看出,利用詞匯頻度分析模型結(jié)合語義本體分析后的推送系統(tǒng)JS平均指數(shù)達到了0.73,達到了良好的標準,而根據(jù)一級目錄進行推薦的推薦系統(tǒng)JS平均指數(shù)達到了0.57,明顯比基于用戶粘性模型及語義本體分析后的JS平均指數(shù)低。
表6 各類推薦算法比較表
對于表5當中的教育信息推薦系統(tǒng)的推送結(jié)果,從多名自愿用戶(計算機專業(yè)學生)的學生中選出100個計算機專業(yè)常見詞匯,通過測試推送基于詞匯頻度分析模型及按書目錄一級標題排列進行打分,能推送出準確的結(jié)果為1,未能推送出結(jié)果的為0,未能推送出準確結(jié)果但能推送出其泛詞(相同或相關(guān)的詞匯)的結(jié)果為0.5。圖6是100詞匯測試結(jié)果記錄圖,其中實線代表教育信息推薦系統(tǒng)推送,虛線代表按照一級目錄推送。
圖6 100詞匯測試結(jié)果
根據(jù)圖6,將圖中數(shù)據(jù)進行推薦度計算(推薦結(jié)果累加總分/詞匯總數(shù)),結(jié)果比較如表7所示。從表中可以看出,利用詞匯頻度分析模型結(jié)合語義本體分析后的推薦度分數(shù)達到了0.73,達到了良好的標準,而根據(jù)一級目錄進行推薦的推薦系統(tǒng)推薦度數(shù)僅僅達到了0.535,顯而易見,教育信息推薦系統(tǒng)的推送結(jié)果的準確性要遠遠高于按一級目錄推送結(jié)果的準確性。
表7 推薦算法比較
文中利用語義本體對教育信息進行本體構(gòu)建,利用貝葉斯及頻度統(tǒng)計概率的方式對構(gòu)建的教育信息本體進行概率上的計算,得到每個本體的推送概率Ei,根據(jù)Ei值的大小進行教育本體信息的推送工作。對推送的結(jié)果進行滿意度判斷,并且進行統(tǒng)計后,利用JS指數(shù)對該推送結(jié)果進行分析。
為了使推送的內(nèi)容更加準確,從算法的實用性和健壯性出發(fā),在教育信息研究領(lǐng)域當中應用改進貝葉斯算法設計的詞匯頻度分析模型,其推送結(jié)果的準確性和適應性優(yōu)于基于目錄結(jié)構(gòu)推送算法,能夠更加精確地對所服務的人群進行相應數(shù)據(jù)的推送工作。