方 哲 徐朝軍
教育資源共享平臺(tái)主要服務(wù)于基礎(chǔ)教育階段的教師與學(xué)生,用于教學(xué)資源的共享與使用。與其他資源平臺(tái)相比,該平臺(tái)以關(guān)注個(gè)人、集體資源共享和使用行為為基點(diǎn),翔實(shí)地記錄個(gè)人、集體共享、查看、搜索、下載資源等諸多活動(dòng),從而生成個(gè)性化的資源推薦列表,使用戶更容易獲取滿意的資源。教師個(gè)人、學(xué)校及教育主管部門可以上傳共享教育資源,打破資源壟斷,通過資源交流促進(jìn)教師的專業(yè)成長(zhǎng)。
本平臺(tái)所使用的知識(shí)圖譜以課程標(biāo)準(zhǔn)、教案文檔、試卷習(xí)題、閱讀材料作為源數(shù)據(jù),采用TFIDF、TextRank等關(guān)鍵詞抽取技術(shù)抽取文本數(shù)據(jù)中的知識(shí)點(diǎn),綜合字符串相似度、知識(shí)點(diǎn)貢獻(xiàn)等算法抽取知識(shí)點(diǎn)之間的聯(lián)系。對(duì)抽取到的知識(shí)點(diǎn)及關(guān)系采用機(jī)器與人工相結(jié)合的方式進(jìn)行過濾,構(gòu)建基礎(chǔ)教育知識(shí)圖譜。考慮到知識(shí)圖譜存在大量關(guān)系數(shù)據(jù),故采用Neo4j數(shù)據(jù)庫對(duì)基礎(chǔ)教育知識(shí)圖譜進(jìn)行存儲(chǔ)。
平臺(tái)上線后,政府部門、企業(yè)單位、學(xué)校以及教師個(gè)人均可以通過API接口上傳資源,平臺(tái)自動(dòng)對(duì)資源進(jìn)行標(biāo)注、編碼處理后將資源并入共享庫,并與知識(shí)圖譜中的知識(shí)點(diǎn)進(jìn)行關(guān)聯(lián),同時(shí)系統(tǒng)會(huì)對(duì)上傳的資源質(zhì)量、知識(shí)點(diǎn)覆蓋面等指標(biāo)進(jìn)行評(píng)估。使用者可以根據(jù)知識(shí)點(diǎn)搜索、知識(shí)圖譜瀏覽、目錄導(dǎo)航、用戶個(gè)性化推薦等多種方式訪問資源,建立個(gè)性化資源包,也可以下載資源包進(jìn)行二次開發(fā)設(shè)計(jì)。
在實(shí)現(xiàn)基于知識(shí)圖譜導(dǎo)航的教學(xué)資源系統(tǒng)的基礎(chǔ)上,實(shí)現(xiàn)對(duì)用戶教學(xué)資源的個(gè)性化推薦。平臺(tái)首頁有三列資源,分別為熱門資源、最新資源和推薦資源。資源采用了協(xié)同過濾算法和知識(shí)圖譜輔助推薦相結(jié)合的融合推薦方式。這種方式不僅加入了知識(shí)圖譜輔助推薦,還在原來的用戶和瀏覽資源記錄二維數(shù)據(jù)的基礎(chǔ)上,增加了資源本身的語義和資源間的聯(lián)系,大大緩解了冷啟動(dòng)和數(shù)據(jù)稀疏問題,實(shí)現(xiàn)了精準(zhǔn)推薦,促進(jìn)了資源的有效利用。
師生在教學(xué)過程中會(huì)需要整理符合當(dāng)前進(jìn)度的資源的情況,比如單元復(fù)習(xí)、薄弱點(diǎn)突擊、重點(diǎn)整理等。平臺(tái)為這一需求提供了資源包這一功能,用戶可以自行創(chuàng)建資源包,可以添加平臺(tái)中所有類型的資源以及知識(shí)點(diǎn)、學(xué)習(xí)目標(biāo)、學(xué)習(xí)重難點(diǎn)等條目,還可以創(chuàng)建簡(jiǎn)介作為學(xué)習(xí)筆記或記錄其中的重要內(nèi)容。資源包也可以一鍵打包下載,資源將會(huì)整合在壓縮包中,其他條目則會(huì)以文本形式進(jìn)行存儲(chǔ)。
知識(shí)圖譜的構(gòu)建主要分知識(shí)抽取、知識(shí)加工和知識(shí)融合3個(gè)步驟。知識(shí)抽取包括實(shí)體抽取、關(guān)系抽取以及屬性抽取。實(shí)體抽取采用基于規(guī)則和詞典的方法、傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法,從語料中識(shí)別出知識(shí)實(shí)體。關(guān)系抽取的目的在于抽取文本中的實(shí)體對(duì)以及識(shí)別實(shí)體對(duì)之間的語義關(guān)系。根據(jù)對(duì)人工標(biāo)注的依賴程度,抽取方法可以分為有監(jiān)督的關(guān)系抽取方法、半監(jiān)督的關(guān)系抽取方法以及無監(jiān)督的關(guān)系抽取方法。知識(shí)屬性抽取可以豐富對(duì)知識(shí)本身的認(rèn)識(shí),由于屬性值結(jié)構(gòu)是不完全確定的,因此采用了基于規(guī)則的抽取方式。
知識(shí)加工的主要目的是獲得結(jié)構(gòu)化的體系,經(jīng)過實(shí)體對(duì)齊,能夠獲得初步的本體以及大量的基本事實(shí)描述,但同時(shí)還必須經(jīng)過知識(shí)加工過程才能夠獲得更高質(zhì)量的認(rèn)識(shí)實(shí)體,在層次上建立一種更大規(guī)模的認(rèn)識(shí)系統(tǒng),從而完成對(duì)認(rèn)識(shí)體系的整合與管理。而認(rèn)識(shí)加工主要分為本體構(gòu)建、知識(shí)推理以及質(zhì)量評(píng)估3個(gè)階段。本體構(gòu)建過程通常分為縱向概念之間的并列計(jì)算、實(shí)體上下位關(guān)聯(lián)抽取和本體生成3個(gè)過程。知識(shí)推理則是在已有的認(rèn)識(shí)基礎(chǔ)上獲取新的事實(shí),或者經(jīng)過對(duì)知識(shí)的歸納實(shí)現(xiàn)個(gè)體知識(shí)到一般知識(shí)的推廣。最后通過質(zhì)量評(píng)估對(duì)知識(shí)進(jìn)行評(píng)估測(cè)量,留高去低,從而保證知識(shí)的質(zhì)量和圖譜的質(zhì)量。
知識(shí)融合是將不同知識(shí)庫中的同一實(shí)體融合在一起,主要包括實(shí)體對(duì)齊和實(shí)體消歧兩個(gè)環(huán)節(jié)。通過與實(shí)體對(duì)齊將出現(xiàn)在不同知識(shí)圖譜或數(shù)據(jù)庫中的但帶有同一意義的知識(shí)實(shí)體對(duì)齊,再通過實(shí)體消歧將存在歧義的實(shí)體根據(jù)上下文來消除一詞多義的現(xiàn)象。
經(jīng)過知識(shí)提取、知識(shí)加工、知識(shí)融合3個(gè)過程即可形成本平臺(tái)所要求的知識(shí)點(diǎn)圖譜。
目前教學(xué)資源個(gè)性化推薦側(cè)重于對(duì)學(xué)習(xí)者興趣進(jìn)行建模分析。該類推薦方法是使用與學(xué)習(xí)者之間的各種交互行為數(shù)據(jù)信息以及基于學(xué)習(xí)者興趣的元數(shù)據(jù)信息來為每個(gè)學(xué)習(xí)者分別建模,進(jìn)而根據(jù)推薦算法為每個(gè)學(xué)習(xí)者推薦其可能會(huì)感興趣的資源。這種方法更多偏重于與學(xué)習(xí)者的偏好相近的學(xué)習(xí)資源,但容易忽視資源間的內(nèi)在邏輯關(guān)系。因此在改善協(xié)同過濾推薦算法以更適用于教學(xué)資源推薦的同時(shí),還要考慮資源之間的聯(lián)系。