徐昊+李慧君+秦玥
摘 要:近年來,隨著互聯(lián)網(wǎng)與教育的不斷融合,以MOOC為代表的網(wǎng)絡(luò)教育平臺在世界范圍內(nèi)紛紛涌現(xiàn)。本文應(yīng)用文本數(shù)據(jù)的獲取與挖掘的技術(shù),對MOOC教育資源的跨語言知識管理方法進(jìn)行研究,最后實(shí)現(xiàn)知識點(diǎn)的跨語言檢索和學(xué)習(xí)筆記的推薦功能,對基于開放數(shù)據(jù)的跨語言教育資源共享平臺的構(gòu)建具有重要意義。
關(guān)鍵詞:跨語言;知識管理;MOOC;文本挖掘
G40-057
大型開放式網(wǎng)絡(luò)課程(MOOC)自2011年上線以來就倍受人們矚目,它在時間和空間上拓展了教育的范圍,教學(xué)形式較為新穎,對學(xué)習(xí)者來說,MOOC可以激發(fā)他們的求知欲、學(xué)習(xí)積極性和自主性[1]。MOOC的優(yōu)勢在于便捷和開放,能提供課程的相關(guān)學(xué)習(xí)資源,如講義、筆記、學(xué)習(xí)小組、論壇等。還有一些英語課程配備了中文字幕,可以幫助中國學(xué)習(xí)者進(jìn)行學(xué)習(xí)。這些在一定程度上提高了學(xué)習(xí)者的學(xué)習(xí)效率,促使學(xué)習(xí)者更快融入在線學(xué)習(xí)中,最后完成整個課程。
但是我們發(fā)現(xiàn),在線學(xué)習(xí)也存在一些不完善的地方。以學(xué)習(xí)資源中的筆記為例,筆記通常按照記錄時間順序顯示,還存在著很多與課程內(nèi)容無關(guān)的信息,這導(dǎo)致學(xué)習(xí)者不能查看某個知識點(diǎn)對應(yīng)的筆記,還會被無關(guān)信息打擾。而且課程中的中英文知識點(diǎn)之間的關(guān)聯(lián)也不能體現(xiàn)。為了改進(jìn)這些情況,讓MOOC平臺為學(xué)習(xí)者提供更好的用戶體驗(yàn),本文研究了如何通過文本挖掘技術(shù)和跨語言知識庫的構(gòu)建,管理MOOC學(xué)習(xí)資源中的知識。
一、研究現(xiàn)狀和關(guān)鍵技術(shù)
1.跨語言知識管理
WordNet是由美國普林斯頓大學(xué)開發(fā)的大規(guī)模的匯總英語詞匯知識的在線資源庫。它是一個由普通的詞典內(nèi)容與計算機(jī)科學(xué)、心理學(xué)成功結(jié)合的基于認(rèn)知語言學(xué)的詞典,主要按照詞匯的意義而不是字母順序而組成的“詞匯網(wǎng)絡(luò)”[2]。經(jīng)過20年的研究工作的進(jìn)展,WordNet已經(jīng)發(fā)展成為國際上非常有影響的英語詞匯知識庫,為知識管理做出了卓越的貢獻(xiàn)。近年來,隨著單一語言知識庫的飛速發(fā)展和各語言信息多樣性的增加,跨語言知識管理以及規(guī)模性跨語言知識庫的建設(shè)將成為必然的趨勢,具有研究價值。UKC (Universal Knowledge Core) 就是這樣一個典型例子。
UKC是一個由意大利特倫托大學(xué)開發(fā)的擴(kuò)展的多語種版的WordNet,包括幾十萬個概念。UKC扮演的角色是世界上所有的自然語言的中心樞紐,對于每種語言,都存在一個獨(dú)立的LKC (Local Knowledge Core)。每個LKC都有一個源語言(目前為英文)和一個目標(biāo)語言(世界上任何一種語言),可以獨(dú)立發(fā)展并且與UKC同步。事實(shí)上,LKC是一個本土化進(jìn)程,通過UKC,所有LKC可以均衡協(xié)作、互相使用,多種語言可以得到匹配。
UKC的基本組成部分是詞語,義項(xiàng),同義詞集和概念[3]。它們的含義如下:同義詞集是一組擁有一個共有的含義的詞語;概念是可以表示一個同義詞集含義的一句描述性質(zhì)的話;義項(xiàng)是一個詞語的含義;注釋是一個同義詞集的簡短描述。此外,UKC中還有詞目和詞性這兩個
元素。
2.關(guān)鍵技術(shù)
近半個世紀(jì)以來,隨著計算機(jī)技術(shù)的成熟與發(fā)展,人們的生活中大量產(chǎn)生著社交媒體中的文本數(shù)據(jù)、通訊數(shù)據(jù)、GPS位置信息、傳感器數(shù)據(jù)甚至還有圖片和視頻,信息的種類和數(shù)量有了爆炸式的增加。但是人們目前面臨的嚴(yán)峻的問題是數(shù)據(jù)豐富而信息貧乏,只是把海量數(shù)據(jù)存儲起來并不會帶來任何價值,還需要對其進(jìn)行分析,并從中獲得有用的信息[10]。數(shù)據(jù)分析基本上都經(jīng)歷了數(shù)據(jù)獲取、預(yù)處理(清洗)、選擇分析算法、展示結(jié)果、評估這一流程。本文的研究基于文本數(shù)據(jù)的處理與分析,包括文本數(shù)據(jù)的獲取、清洗、信息挖掘和數(shù)據(jù)可視化。
獲取數(shù)據(jù)是數(shù)據(jù)挖掘的初始步驟。對分析者而言,外部數(shù)據(jù)比內(nèi)部數(shù)據(jù)更容易獲取,獲取外部數(shù)據(jù)可以通過搜索引擎、開放數(shù)據(jù)、在聚合數(shù)據(jù)平臺上購買或下載專業(yè)數(shù)據(jù)集、網(wǎng)絡(luò)爬蟲、調(diào)查問卷等方式。目前應(yīng)用較多的外部數(shù)據(jù)的采集方式的主要有兩種:商業(yè)化工具與網(wǎng)絡(luò)爬蟲,我們的研究就基于Python爬蟲程序來獲取網(wǎng)絡(luò)課程的筆記。
文本挖掘是數(shù)據(jù)挖掘的一個分支,也是一個由機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、數(shù)學(xué)、自然語言處理等多種學(xué)科交叉而成的領(lǐng)域。顧名思義,就是從大量文本數(shù)據(jù)中抽取隱含的、未知、可能有用的信息,并對這些數(shù)據(jù)進(jìn)行分析,挖掘其中潛在的知識信息[4]。文本挖掘的數(shù)據(jù)主要是指非結(jié)構(gòu)化文檔和郵件、網(wǎng)頁內(nèi)容等半結(jié)構(gòu)化數(shù)據(jù),常見的算法有關(guān)聯(lián)規(guī)則算法,聚類算法 和分類算法。
數(shù)據(jù)可視化是指將身居分析的結(jié)果以圖形或表格的形式展現(xiàn)出來,以便進(jìn)一步分析和報告數(shù)據(jù)的特征以及數(shù)據(jù)之間的關(guān)系。它的首要任務(wù)是準(zhǔn)確地展示和傳達(dá)數(shù)據(jù)所包含的信息,并用直觀、容易理解和操縱的方式呈現(xiàn)出來。它的基本流程是:將信息映射成可視形式,選擇合適的圖表,刪去不突出的對象或?qū)傩?,最終呈現(xiàn)出關(guān)鍵屬性的明顯特征。
二、跨語言知識管理的應(yīng)用
我們研究的數(shù)據(jù)來自網(wǎng)易公開課中斯坦福大學(xué)開設(shè)的計算機(jī)系課程《機(jī)器學(xué)習(xí)》。首先使用Python爬蟲程序獲取最優(yōu)筆記內(nèi)容作為實(shí)驗(yàn)數(shù)據(jù),然后用R語言分析文本數(shù)據(jù)、提取關(guān)鍵詞,模仿UKC構(gòu)建跨語言知識庫,最后實(shí)現(xiàn)學(xué)習(xí)課程時對感興趣的知識點(diǎn)的查詢功能。跨語言知識管理研究的流程如圖1所示。
數(shù)據(jù)獲取與關(guān)鍵知識點(diǎn)提取
首先,利用編寫的Python爬蟲程序從網(wǎng)易公開課的課程頁面獲取前30頁最優(yōu)筆記,獲得的數(shù)據(jù)保存成文本格式。
關(guān)鍵知識點(diǎn)提取是研究的核心部分,是文本分析算法的具體實(shí)現(xiàn)部分,此部分使用R語言完成,步驟如下:
第一步:讀入待處理的文件,對數(shù)據(jù)進(jìn)行清理和格式轉(zhuǎn)換之后,經(jīng)過排序,得到了共380條可用的筆記;
第二步:由于課程講授是具有連續(xù)性的,而且為了方便統(tǒng)計,這里人為地將筆記按每3分鐘為一段進(jìn)行分段統(tǒng)計。然后對文本進(jìn)行分詞,然后全部去除文本中包含的標(biāo)點(diǎn)、數(shù)字、多余的空格和停用詞,生成語料庫;