基于XML—本體的開放教育個(gè)性化學(xué)生用戶模型設(shè)計(jì)

2014-04-23 20:45張雪燕

中國教育信息化·高教職教 2014年2期

關(guān)鍵詞：本體

摘要：個(gè)性化學(xué)生用戶模型是能否順利實(shí)施開放教育個(gè)性化網(wǎng)絡(luò)教學(xué)的核心，隨著網(wǎng)上教學(xué)資源及資源類型的增加，傳統(tǒng)的向量表述方式無法準(zhǔn)確描述學(xué)生的個(gè)人興趣。本文提出了基于領(lǐng)域本體的學(xué)生模型。在開放教育網(wǎng)絡(luò)教學(xué)領(lǐng)域，在本體形式化描述基礎(chǔ)上，構(gòu)建了網(wǎng)絡(luò)教學(xué)領(lǐng)域本體，并據(jù)此設(shè)計(jì)了基于XML-本體的個(gè)性化學(xué)生用戶模型。

關(guān)鍵詞：本體；領(lǐng)域本體；XML-；個(gè)性化網(wǎng)絡(luò)教學(xué)；平均絕對(duì)偏差

中圖分類號(hào)：TP311.52 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1673-8454（2014）03-0079-05

一、引言

隨著社會(huì)和科學(xué)技術(shù)特別是信息技術(shù)的發(fā)展，人們可以足不出戶接受教育。而教育也從原來單純的學(xué)歷教育發(fā)展到非學(xué)歷教育，教育形式越來越多樣化，教育的實(shí)現(xiàn)手段也越來越多樣化。網(wǎng)絡(luò)教學(xué)越來越為大多數(shù)人所接受，各種網(wǎng)絡(luò)教學(xué)平臺(tái)應(yīng)時(shí)而生。而對(duì)于學(xué)生用戶來說，最大的問題并不是沒有資源，而是無法快速準(zhǔn)確地找到自己所需的資源，即學(xué)生用戶迫切需要個(gè)性化教學(xué)服務(wù)?！皞€(gè)性化學(xué)習(xí)推薦服務(wù)”是當(dāng)前開放教育研究的熱點(diǎn)和重點(diǎn)。[1-9]

個(gè)性化學(xué)習(xí)推薦服務(wù)的核心是學(xué)生用戶模型和資源的組織。[1，10，11]目前絕大多數(shù)網(wǎng)上教學(xué)平臺(tái)采用的是基于關(guān)鍵詞或向量模型，缺乏語義信息，從而無法實(shí)現(xiàn)信息的共享和重用。資源的組織主要從編者的角度，以科目、章節(jié)或知識(shí)點(diǎn)為主線來組織資源。學(xué)生用戶模型一般是靜態(tài)的，學(xué)生僅僅是系統(tǒng)的使用者而非參與者。在這類用戶模型中，無法體現(xiàn)出學(xué)生、導(dǎo)師及資源之間的關(guān)系，從而無法實(shí)現(xiàn)準(zhǔn)確有效的個(gè)性化學(xué)習(xí)推薦服務(wù)。

為解決上述問題，國內(nèi)外專家提出了引入“本體”（Ontology）。本體是概念化的明確的規(guī)范說明，形式上定義了領(lǐng)域內(nèi)相關(guān)概念之間的關(guān)系。[10，11]本體描述的都是個(gè)體（實(shí)例）、類（概念）、屬性以及關(guān)系。本體具有良好的概念層次以及實(shí)現(xiàn)對(duì)邏輯推理的支持，因而采用本體表示學(xué)生用戶的模型是可行的。[2-7，9，11]在開放教育網(wǎng)絡(luò)教學(xué)領(lǐng)域中，筆者以領(lǐng)域本體庫的構(gòu)建為基礎(chǔ)，提出了一種基于XML-本體的學(xué)生用戶模型，以實(shí)現(xiàn)個(gè)性化學(xué)習(xí)服務(wù)推薦。

二、開放教育網(wǎng)絡(luò)教學(xué)領(lǐng)域本體

領(lǐng)域本體（Domain Ontology或Domain-specific Ontology，即領(lǐng)域特異性本體）所建模的是某個(gè)特定領(lǐng)域，或者現(xiàn)實(shí)世界的一部分。領(lǐng)域本體所表達(dá)的是那些適合于該領(lǐng)域的那些術(shù)語的特殊含義。開放教育網(wǎng)絡(luò)教學(xué)本體指的是網(wǎng)絡(luò)教學(xué)本體結(jié)構(gòu)以及對(duì)網(wǎng)絡(luò)教學(xué)資源概念的本體知識(shí)描述。此處本體在概念層次上定義，包含了概念的所有相關(guān)知識(shí)。

1.網(wǎng)絡(luò)教學(xué)領(lǐng)域資源分析

在當(dāng)前的網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)中主要的用戶對(duì)象包括學(xué)生、教師、企業(yè)培訓(xùn)對(duì)象、領(lǐng)域?qū)＜?、其他領(lǐng)域愛好者等。資源主要包括用戶資源、基礎(chǔ)理論知識(shí)資源、實(shí)驗(yàn)實(shí)訓(xùn)資源等，其中還應(yīng)包含關(guān)系及推理規(guī)則知識(shí)庫。具體的結(jié)構(gòu)如圖1所示：

網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)結(jié)構(gòu)一般分為三層：應(yīng)用層、實(shí)現(xiàn)層和資源層。應(yīng)用層主要功能是與用戶交互，包括用戶身份認(rèn)證、資源獲取、信息反饋、資源評(píng)價(jià)以及資源添加等功能。實(shí)現(xiàn)層實(shí)現(xiàn)了資源推薦和分析算法，實(shí)現(xiàn)了資源的提取。這是整個(gè)系統(tǒng)的核心算法層。資源層主要是資源的維護(hù)，保證數(shù)據(jù)庫資源的安全性、可靠性和可維護(hù)性。

2.網(wǎng)絡(luò)教學(xué)本體結(jié)構(gòu)

在參考了BlackBoard、WebCT、Moodle、Sakai等眾多的LMS系統(tǒng)后，以國家開放大學(xué)學(xué)習(xí)平臺(tái)及寧波電大網(wǎng)上課堂平臺(tái)為具體研究實(shí)例，在2.1的基礎(chǔ)上形成了網(wǎng)上教學(xué)本體體系。在設(shè)計(jì)時(shí)就考慮了網(wǎng)絡(luò)學(xué)習(xí)資源的通用性，更重要的是考慮了信息的共享性和重用性，并且最終應(yīng)方便知識(shí)庫處理及知識(shí)的提取。圖2是網(wǎng)絡(luò)教學(xué)本體結(jié)構(gòu)。

3.網(wǎng)絡(luò)教學(xué)本體

（1）本體的形式化定義

就現(xiàn)有的各種本體而言，無論其在表達(dá)上采用的究竟是何種語言，在結(jié)構(gòu)上都具有許多相似性。大多數(shù)本體描述的都是個(gè)體（實(shí)例）、類（概念）、屬性以及關(guān)系。

本體構(gòu)成要素包括類、屬性、關(guān)系、函式術(shù)語、約束（限制）、規(guī)則及公理體系等。其中類是集合（sets）、概念、對(duì)象類型或者說事物的種類，[2]屬性是對(duì)象（和類）所可能具有的屬性、特征、特性、特點(diǎn)和參數(shù)，關(guān)系是類與類之間、類與個(gè)體以及個(gè)體與個(gè)體之間的彼此關(guān)聯(lián)所可能具有的方式，函式術(shù)語是在聲明語句當(dāng)中，可用來代替具體術(shù)語的特定關(guān)系所構(gòu)成的復(fù)雜結(jié)構(gòu)，約束（限制）是采取形式化方式所聲明的，關(guān)于接受某項(xiàng)斷言作為輸入而必須成立的情況的描述，公理是指采取特定邏輯形式的斷言（包括規(guī)則在內(nèi)）所共同構(gòu)成的就是其本體在相應(yīng)應(yīng)用領(lǐng)域當(dāng)中所描述的整個(gè)理論。下面給出本體的形式化定義：

定義1：本體O={C，AC，R，AR，H，P}，其中，C為類或?qū)ο蟮募希珹C為屬性集，R為關(guān)系集，AR為關(guān)系屬性集，每個(gè)關(guān)系對(duì)應(yīng)一個(gè)自己的屬性集，H為概念層次，P為公理集。

從定義知，本體可定義成一個(gè)六元組，C中既有抽象的類也有個(gè)體實(shí)例，是所有對(duì)象的集合，可以用AC（Ci）來表示對(duì)象Ci的屬性集；對(duì)象Ci和Cj之間的關(guān)系可用rij（Ci，Cj）表示；關(guān)系rij的屬性可以用AR（rij）來表示；P是公理集合，是對(duì)本體中類、屬性及關(guān)系的約束與限制。

（2）網(wǎng)絡(luò)教學(xué)領(lǐng)域本體描述

定義2：網(wǎng)絡(luò)教學(xué)領(lǐng)域本體，DOnto log y={CD，AC

D，RD，AR

D，HD，PD}，其中CD為網(wǎng)絡(luò)教學(xué)的對(duì)象集合，AC

D為屬性集，RD為關(guān)系集，AR

D為關(guān)系屬性集，HD為網(wǎng)絡(luò)教學(xué)中的概念層次，PD為網(wǎng)絡(luò)教學(xué)中的公理集。

下面僅以網(wǎng)絡(luò)教學(xué)中的幾個(gè)重要概念為例進(jìn)行說明：

①定義概念（或?qū)ο螅┘?/p>

CD={網(wǎng)絡(luò)教學(xué)平臺(tái)，用戶服務(wù)，概念資源，實(shí)驗(yàn)資源，用戶資源，用戶研究…}endprint

②定義概念的屬性集

D={AC

D（網(wǎng)絡(luò)教學(xué)平臺(tái)），AC

D（用戶服務(wù)），AC

D（概念資源），AC

D（檢索系統(tǒng)）…}

其中：

D（網(wǎng)絡(luò)教學(xué)平臺(tái)）={性質(zhì)，對(duì)象，資源類型，體系結(jié)構(gòu)，軟件，硬件設(shè)備…}

D（檢索系統(tǒng)）={功能，檢索語言，類型，網(wǎng)絡(luò)環(huán)境…}

③定義概念之間的關(guān)系

RD={Synonymy（檢索系統(tǒng)，資源檢索系統(tǒng)），partOf（用戶研究，用戶服務(wù)），Isa（概念資源，網(wǎng)絡(luò)教學(xué)資源），Isa（多媒體檢索系統(tǒng)，檢索系統(tǒng)），InterCross（檢索系統(tǒng)，網(wǎng)絡(luò)環(huán)境），InterCross（資源共享，資源檢索）…}

④定義關(guān)系的屬性

本系統(tǒng)中涉及的關(guān)系的屬性包括Synonymy，PartOf，Isa（KindOf），InterCross等四種屬性。其中Synonymy表示同義關(guān)系，PartOf概念之間部分與整體的關(guān)系，Isa概念之間的繼承關(guān)系，類的父子類關(guān)系，InterCross表示關(guān)聯(lián)度。定義如下：

D={Synonymy，PartOf，Isa，InterCross…}

⑤定義概念層次結(jié)構(gòu)

HD={（教育事業(yè)，教育機(jī)構(gòu)，開放教育，網(wǎng)絡(luò)教學(xué)）（網(wǎng)絡(luò)教學(xué)平臺(tái)，資源獲取，用戶服務(wù)）（機(jī)器檢索，檢索系統(tǒng)）…}

⑥定義網(wǎng)絡(luò)教學(xué)領(lǐng)域內(nèi)的公理

用like（Ci，Cj，λ）表示對(duì)象Ci和Cj相關(guān)程度為λ（0<λ<1），raValue（Ci，Cj，AR

D）為對(duì)象Ci和Cj的關(guān)系rij（Ci，Cj）的屬性AR

D所表示的關(guān)聯(lián)度。則我們認(rèn)為Synonymy關(guān)系的相關(guān)度為1，PartOf，Isa（KindOf），InterCross等關(guān)系的關(guān)聯(lián)度分別為它們各自關(guān)系的屬性值，定義如下：

PD={Synonymy（Ci，Cj）→like（Ci，Cj，1），PartOf（Ci，Cj）→raValue（Ci，Cj，AR

D（PartOf）}，InterCross（Ci，Cj）→raValue（Ci，Cj，AR

D（nterCross）}

三、基于XML-本體的學(xué)生用戶模型的創(chuàng)建

1.學(xué)生用戶模型

學(xué)生用戶模型是網(wǎng)絡(luò)教學(xué)平臺(tái)中最重要的用戶模型，是實(shí)現(xiàn)個(gè)性化學(xué)習(xí)服務(wù)推薦的核心。圖3是基于XML-本體的個(gè)性化學(xué)生模型。

系統(tǒng)最初會(huì)根據(jù)學(xué)生的注冊信息生成初始的學(xué)生模型，但這個(gè)學(xué)生模型并不是靜態(tài)的，在學(xué)生訪問網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)過程中，系統(tǒng)的學(xué)生信息收集模塊會(huì)不斷收集學(xué)生信息，并把這些信息提供給學(xué)生信息學(xué)習(xí)模塊。學(xué)生信息學(xué)習(xí)模塊通常采用基于前饋神經(jīng)網(wǎng)絡(luò)，從而不斷修正學(xué)生模型。此處學(xué)生模型與網(wǎng)絡(luò)教學(xué)本體庫建立了關(guān)聯(lián)，即當(dāng)學(xué)生搜索某個(gè)資料，會(huì)優(yōu)先考慮他的專業(yè)、授課教師或領(lǐng)域?qū)＜业纫蛩?。而這在傳統(tǒng)的LMS平臺(tái)中是無法做到的。

在本系統(tǒng)中XML標(biāo)簽存放在一個(gè)數(shù)據(jù)表中，包括XML標(biāo)簽的名稱以及對(duì)該標(biāo)簽的說明，作用類似于數(shù)據(jù)字典，系統(tǒng)在需要的時(shí)候可以檢索這個(gè)表或?qū)υ摫磉M(jìn)行修改。當(dāng)學(xué)生信息收集系統(tǒng)收集到某個(gè)較為多見的信息的時(shí)候，若該信息無法用該表中的任何一個(gè)XML標(biāo)簽來表述的時(shí)候，在本系統(tǒng)中采用手工添加的方式，由領(lǐng)域?qū)＜一蚪處焷硖砑?。目前系統(tǒng)中采用的方式是給定時(shí)間段內(nèi)的領(lǐng)域?qū)＜液徒處熡脩舻耐镀睓C(jī)制。這種處理機(jī)制主要是為方便信息的提取和處理，降低處理的維度和復(fù)雜度，從而使學(xué)習(xí)服務(wù)推薦算法更高效更準(zhǔn)確。

在學(xué)生模型學(xué)習(xí)模塊中，我們同時(shí)采用了顯式反饋和隱式反饋機(jī)制。由于顯式反饋會(huì)干擾學(xué)生用戶瀏覽網(wǎng)站，容易引起學(xué)生用戶的反感。因此默認(rèn)設(shè)置為隱式反饋，即利用學(xué)生在本網(wǎng)站中的瀏覽時(shí)間，打開某個(gè)網(wǎng)頁的次數(shù)和所花費(fèi)的時(shí)間，這些服務(wù)器端能獲取的數(shù)據(jù)，來獲取學(xué)生學(xué)習(xí)的情況及興趣點(diǎn)。但有時(shí)候也應(yīng)顯式地允許學(xué)生或其他相關(guān)人員來設(shè)置學(xué)生的一些信息，以更好地為學(xué)生服務(wù)。

2.基于XML-本體的學(xué)生用戶模型舉例

根據(jù)前面的介紹，我們生成了一個(gè)學(xué)生用戶資源文件，下面是目前系統(tǒng)中較為完善的一個(gè)學(xué)生的資料：

20123312019

李一鳴

男

13957402318

網(wǎng)絡(luò)公司職員

機(jī)械工程

計(jì)算機(jī)網(wǎng)絡(luò)

網(wǎng)絡(luò)組網(wǎng)與維護(hù)

王軍

……

數(shù)據(jù)庫原理與應(yīng)用

張雪燕

……

組網(wǎng)

網(wǎng)絡(luò)安全

理財(cái)

……

需要注意的是，本模型具有可擴(kuò)展性，即可以方便地添加新的屬性，當(dāng)然也可以刪除一些屬性。通常來說，用戶在不同時(shí)期，興趣點(diǎn)甚至關(guān)注的領(lǐng)域都會(huì)發(fā)生改變，因而學(xué)生的模型就需要修改。在上述模型中，我們可以清楚地看到，學(xué)生與授課教師或輔導(dǎo)教師之間，學(xué)生與自己所在的領(lǐng)域、自己所修的專業(yè)、所修的課程之間均建立了關(guān)聯(lián)。在XML中這些信息是很容易抽取到的，因此學(xué)習(xí)服務(wù)推薦算法在為學(xué)生推薦資源的時(shí)候，就可以參考這些因素，從而實(shí)現(xiàn)較為準(zhǔn)確的推薦。

3.實(shí)驗(yàn)與結(jié)果分析

在實(shí)驗(yàn)過程中重點(diǎn)關(guān)注學(xué)員實(shí)際接受的推薦文檔數(shù)。這里包括每種算法都會(huì)有一個(gè)實(shí)際接受的推薦文檔數(shù)以及兩種算法總的接受的推薦文檔數(shù)（totalAdopted）。其中totalAddopted =keyAddopted+xmlAdoppted-（ keyAddopted∩xmlAdoppted），其中 keyAddopted指基于關(guān)鍵詞的推薦算法，xmlAdoppted指的是基于xml-本體的推薦算法。為評(píng)價(jià)算法性能設(shè)置了一個(gè)參數(shù)推薦算法的平均絕對(duì)偏差MAE，表述如下：

MAE=

其中，totalAddopted=keyAddopted+xmlAdoppted-（keyAddopted⌒xmlAdoppted）。則基于關(guān)鍵詞的推薦算法的MAE記為：

MAEkey=

基于xml-本體的推薦算法的MAE記為：

MAExml=

課題組在寧波電大網(wǎng)上課堂平臺(tái)和中央電大在線（國開）平臺(tái)上做了5組測試，每組隨機(jī)抽取25%的用戶。共計(jì)做了9次這樣的實(shí)驗(yàn)。表1是9次實(shí)驗(yàn)獲得的平均值，圖4是2種算法的比較。

從上述表中的數(shù)據(jù)可以看出，基于關(guān)鍵詞向量的推薦算法在資源數(shù)量比較小的時(shí)候總體要優(yōu)于基于xml-本體的算法，但隨著資源數(shù)量的增加，基于xml-本體的算法明顯優(yōu)于基于關(guān)鍵詞的算法。

以寧波電大網(wǎng)上課堂學(xué)習(xí)平臺(tái)為例。在前面用戶模型例子中李一鳴同學(xué)在2012年11月5日9：30登錄了網(wǎng)上課堂，他之前最近一次登錄的時(shí)間為2012年10月18日18：30。因此我們需要把2012年10月18日18：30分以后至2012年11月5日9：30之前更新的一些資源有選擇地推薦給他。根據(jù)服務(wù)器端的統(tǒng)計(jì)，在此期間，共更新與上傳了398篇資源。資源的格式為（資源ID，資源名稱，關(guān)鍵詞，所屬領(lǐng)域，提供者ID）。根據(jù)后臺(tái)數(shù)據(jù)庫的信息，發(fā)現(xiàn)與李一鳴相關(guān)的資料有15篇。其中已學(xué)課程4篇，正在學(xué)的課程5篇，理財(cái)方面的1篇，組網(wǎng)方面的3篇，計(jì)算機(jī)網(wǎng)絡(luò)相關(guān)考證資源2篇。采用傳統(tǒng)的基于向量的推薦算法最終推薦的資源為15篇，采用基于XML-本體用戶模型的推薦算法最終推薦的資源為9篇（除去已學(xué)課程及考級(jí)資料）?；赬ML-本體用戶模型的推薦算法考慮了一些內(nèi)在聯(lián)系，如已學(xué)課程資源不推薦、不感興趣的計(jì)算機(jī)考證資源不推薦。而基于關(guān)鍵詞向量的推薦算法則把凡是與其相關(guān)的所有資料都推薦給他，推薦的資料較多，但有些資料并不是學(xué)員所需要的。

四、結(jié)論

當(dāng)前的很多推薦服務(wù)系統(tǒng)中，主要通過關(guān)鍵詞匹配來實(shí)現(xiàn)推薦，從而無法發(fā)掘一些領(lǐng)域相關(guān)的隱性信息，本文構(gòu)建了基于XML的網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域本體的學(xué)生用戶模型，并將其應(yīng)用到現(xiàn)有的系統(tǒng)中。采用這種方法，能較為準(zhǔn)確地為學(xué)生用戶推薦資源，并能有效地發(fā)掘領(lǐng)域相關(guān)的隱性知識(shí)。最為明顯的是我們的方法能關(guān)注學(xué)生、導(dǎo)師以及領(lǐng)域?qū)＜抑g的關(guān)系。從而為學(xué)生推薦高質(zhì)量、高準(zhǔn)確性并為學(xué)生認(rèn)可的資源。今后的工作主要集中在完善網(wǎng)絡(luò)學(xué)習(xí)領(lǐng)域本體和學(xué)生模型學(xué)習(xí)方面。

參考文獻(xiàn)：

[1]劉萍，胡月紅.領(lǐng)域本體學(xué)習(xí)方法和技術(shù)研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù)，2012， V28 （1）：19-25.

[2]于娟.基于文本的領(lǐng)域本體學(xué)習(xí)方法及其應(yīng)用研究[D].大連：大連理工大學(xué)， 2010.

[3]蔣秀林，謝強(qiáng)，丁秋林.基于領(lǐng)域本體的用戶模型的研究[J].計(jì)算機(jī)應(yīng)用研究，2012，29（2）： 606-608.

[4]姜強(qiáng)等.基于用戶模型的個(gè)性化本體學(xué)習(xí)資源推薦研究[J].中國電化教育，2010， 280：106-111.

[5]宋麗哲，詹赤兵，王勝海.基于本體的數(shù)字圖書館個(gè)性化用戶模型表示[J].中文信息學(xué)報(bào)，2008，22（1）： 99-103.

[6]邱百爽，趙蔚，劉秀琴.基于語義網(wǎng)的自適應(yīng)學(xué)習(xí)系統(tǒng)中用戶模型的研究[J].開放教育研究， 2008，（8）：106-111.

[7]張付志，李偉靜，朱彩云.基于領(lǐng)域本體的跨系統(tǒng)個(gè)性化服務(wù)用戶模型[J].計(jì)算機(jī)工程，2009，35（13）：31-33.

[8]Yao Jung Yang， Chuni Wu. An attribute-based ant colony system for adaptive learning object recommendation[J].Expert Systems with Applications，2009（36）：3034-3047.

[9]官魏，馬力，王瑞.信息網(wǎng)絡(luò)環(huán)境復(fù)雜學(xué)習(xí)模型設(shè)計(jì)與實(shí)證研究[J].中國電化教育，2013（3）：12-18.

[10]Gruber， T. R.. A translation approach to portable ontologies[J]. Knowledge Acquisition. 5（2）：199-220， 1993.

[11]Gómez P A， Manzano M D. A Survey of Ontology Learning Methods and Techniques[EB/OL]. [2011 - 09-23].http：//www.sti-Innsbruck. at /fileadmin /documents /deliverables /Ontoweb /D1.5.pdf.

（編輯：王天鵬）endprint