迪麗努爾·克依木
新疆師范大學,新疆烏魯木齊,830054
在傳統(tǒng)的教學模式中,由于學生在知識基礎(chǔ)、認知能力、興趣等方面的差異,造成其對知識結(jié)構(gòu)的組織方式也不盡相同。一般學生在學習過程中,都能發(fā)現(xiàn)知識的關(guān)系,并把新舊知識連接在一起。但部分大學生知識結(jié)構(gòu)不完整、知識聯(lián)系不清,不能形成系統(tǒng)的理解。長期下去,學生的學習和思考能力就會出現(xiàn)停滯,從而影響了學生的學習和思考能力的提升,更別說實施個性化教學了。從以上兩方面來看,無論是對傳統(tǒng)的教學,還是對網(wǎng)上的教學,都需要對課程知識點的相互關(guān)系進行分析。知識圖譜可視化技術(shù)展示了各知識點的分布狀態(tài)及其相互關(guān)系。這樣就可以幫助學生對相關(guān)知識點進行系統(tǒng)的理解,幫助他們建立起知識的聯(lián)系。另外,在互聯(lián)網(wǎng)教學中,將會為個性化的推薦學習提供極大的幫助,因此,建立一個教育領(lǐng)域的知識圖譜是非常有必要的。
維基百科清晰地指出了知識圖譜的內(nèi)涵,也就是Google用于強化其搜索引擎的知識庫[1]。谷歌公司使用它是因為它可以讓谷歌搜索引擎的相關(guān)功能得到拓展和提升,讓用戶擁有更好的體驗感。谷歌的知識圖譜最早是在2012推出的,它以freebase網(wǎng)站的服務(wù)為基礎(chǔ),捕獲與應(yīng)用維基百科以及類似的更多數(shù)據(jù)發(fā)源地的數(shù)據(jù),最后創(chuàng)造出了知識圖譜。兩年過后,谷歌公司對知識圖譜下了定義,之后將知識圖譜的功能融合到了搜索引擎中,提高了谷歌搜索引擎的搜索能力,有助于用戶更精準、更迅速地獲取自己需求的知識和資訊。其他搜索引擎公司也邁進了知識圖譜的探索領(lǐng)域[2],就像facebook研發(fā)出了facebook社會圖表知識圖譜,而我們國家的Baidu公司也研發(fā)出自己的知心知識圖譜,還有Sogou公司的知立方知識圖譜等。經(jīng)過不斷的探索和開發(fā),它慢慢地被擴展到了其他行業(yè),就像在AI問答、個性化傳播等智能信息的運用,知識圖譜形成的學術(shù)價值以及商業(yè)價值巨大[3]。
近年來,學術(shù)界和工業(yè)界都建立了自己的知識圖譜,根據(jù)應(yīng)用可以將其分為兩個主要類別[4]:一種是通用知識圖譜,也稱為開放領(lǐng)域知識圖譜。通俗地講就是大眾版,其沒有特別深的行業(yè)知識及專業(yè)內(nèi)容,通常解決科普知識和常識性問題,適合互聯(lián)網(wǎng)的大規(guī)模搜索、問答以及推薦。還有一種就是行業(yè)知識圖譜,也被稱作特定領(lǐng)域知識圖譜以及垂直領(lǐng)域知識圖譜。簡單來說,其指的是專業(yè)版,經(jīng)過深層次調(diào)研某個領(lǐng)域或子領(lǐng)域并編制相應(yīng)的版本,應(yīng)對專業(yè)問題,是目前知識圖譜更具價值的研究方向[5]。
就目前的研究現(xiàn)狀來看,國內(nèi)外在構(gòu)建通用知識圖譜方面獲取了一定的成效,比如,從國外的通用知識圖譜角度出發(fā),由Cyc公司1984年開始創(chuàng)建推出的常識知識庫,其規(guī)模最大,經(jīng)典的常識知識有“Every tree is a plant”“Plants die eventually”等;另外還有:Princeton 大學知識科學實驗室自20世紀80年代研發(fā)的應(yīng)用在語句消除分歧方面的WordNet詞典知識庫(主要用于詞義消歧)、2010年被谷歌公司收購的MateWeb公司開發(fā)的Freebase知識圖庫(完全免費并允許商業(yè)化的開放許可協(xié)議)、被維基媒體基金會倡導能夠自己制作編寫的包含很多國家語種的百科知識庫Wikidata知識圖譜(目標是構(gòu)件全世界最大的免費知識庫,但是仍然面臨知識缺失嚴重的問題)以及如今國際上包含領(lǐng)域最多的各種語種百科同義詞典BabelNet知識圖譜等[6]。而在中國,就知識圖譜的開發(fā)而言,也取得了一定的成效:Baidu公司研發(fā)出了大規(guī)模知識圖譜;Sogou公司制造出了知立方圖譜;清華大學得到了XLore知識圖譜;復旦大學研發(fā)了CN-DBpedia知識圖譜(中文通用百科知識圖譜),信息的搜集主要源于中文百科類網(wǎng)站的文本資訊,經(jīng)過過濾、融合和推斷后,形成高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),供人和機器使用;上海交通大學推出的利用百度百科、互動百科和維基百科等三個知識庫做成類似于DBpedia的中文百科Zhishi.me,是國內(nèi)構(gòu)建的最早的知識庫[7]。
相對于國內(nèi)外在通用知識圖譜上取得的成效,我國在知識圖譜領(lǐng)域缺少專業(yè)數(shù)據(jù),獲取的成效存在一定的缺陷[8]?,F(xiàn)如今研發(fā)的知識圖譜中,相對成熟的領(lǐng)域十分稀少,僅有歐洲聯(lián)盟的重要合作研究項目藥物領(lǐng)域的知識圖譜Open PHACTS、醫(yī)療領(lǐng)域的知識圖譜體重指數(shù)的Watson機器人。根據(jù)《2018知識圖譜發(fā)展報告》,我國在電商、企業(yè)商業(yè)、圖情、創(chuàng)投四個領(lǐng)域均在開展知識建模[9]。
總的來說,盡管目前知識圖譜研究方面可謂是碩果累累,而且許多科研發(fā)現(xiàn)都轉(zhuǎn)化成了商業(yè)利潤,例如語義檢索、智能問答、語境分析、還有智能知識體系等。然而,研究知識圖譜及其使用價值依然很有意義。①中文句子的識別、中文關(guān)系抽取較英文語法復雜很多,在中文知識圖譜的研究和應(yīng)用方面仍有很大的發(fā)展空間。并且目前互聯(lián)網(wǎng)高速發(fā)展,人工智能不斷向深研究,也從側(cè)面驗證了中文知識圖譜的商業(yè)應(yīng)用價值以及學術(shù)研究價值相對較高[10]。②對比通用知識圖譜,成熟的領(lǐng)域知識圖譜需要更為專業(yè)的、深入行業(yè)的人員來建立,而且領(lǐng)域知識圖譜覆蓋的行業(yè)相對寬泛,其調(diào)研價值相對較高。簡單來說,從中文角度出發(fā),選取某一領(lǐng)域,比如在這篇文章中的課程構(gòu)建知識圖譜,建立領(lǐng)域知識圖譜具有很大的研究價值和發(fā)展前景[11]。
知識圖譜具有強大的語義處理能力,能夠在互聯(lián)網(wǎng)的網(wǎng)頁上建立概念之間的連接關(guān)系,以最小的代價可以將互聯(lián)網(wǎng)上有價值的信息組織起來;知識圖譜還具有強大的開放互聯(lián)能力,能夠不斷地加入互聯(lián)網(wǎng)中新增的信息。憑借這些功能,知識圖譜在檢索和教育等領(lǐng)域?qū)谐錾谋憩F(xiàn)。教育知識圖譜能夠?qū)W科知識和教學資源借助標準化的、形式化的手段密切關(guān)聯(lián)在一起,進而完成在線教育資源的合理組織。
在大學教育時期,國內(nèi)著名的課程在線學習平臺,如學堂在線、中國大學MOOC(幕課)、精品課程等,絕大多數(shù)是對優(yōu)質(zhì)課程視頻學習資源的描述,展示了不同課程的聯(lián)系、和知識相關(guān)的課程體系,而課程知識圖譜的稀缺導致學生在課程視頻學習結(jié)束以后,并未構(gòu)建起完備的知識體系,學習成效并未達到預(yù)期目標。現(xiàn)如今,盡管大學課程和有關(guān)教材的版本豐富多彩,但課程知識圖譜的構(gòu)建離不開各行業(yè)專業(yè)的交流與制造,其操作十分嚴苛、復雜,并且知識更新十分迅速,因此現(xiàn)如今大學課程缺少知識圖譜的構(gòu)建。
當今,網(wǎng)絡(luò)信息資源數(shù)量在不斷遞增,傳統(tǒng)的知識組織結(jié)構(gòu)十分分散,但用戶在知識服務(wù)方面的需要也在不斷遞增,因此兩者之間存在一定的矛盾。在知識圖譜技術(shù)出現(xiàn)以后,其與用戶的認知需求相互適應(yīng),對比傳統(tǒng)人工組織某學科領(lǐng)域發(fā)展的宏觀狀況,知識圖譜技術(shù)的效率相對較高,并且十分合理,所以知識圖譜的出現(xiàn)是社會發(fā)展的必然。
從教育領(lǐng)域角度出發(fā),知識圖譜不僅能夠幫助學生從互聯(lián)網(wǎng)上獲取教學資源,作為自主學習的知識來源,還可以幫助學生快速分清知識點的主次關(guān)系以及它們之間的內(nèi)在邏輯關(guān)系。因此,學生有效利用知識圖譜能夠提高學習效率,加深知識點的理解和記憶能力,從而讓學校打破傳統(tǒng)的教育模式,實現(xiàn)個性化教育。
隨著互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的飛速發(fā)展,智能教學在教師的教學和學生的自主學習方面也有了很大的突破。課程的知識圖譜是智能教學方式的一種體現(xiàn),構(gòu)建知識圖譜和應(yīng)用涉及自然語言處理相關(guān)的基礎(chǔ)技術(shù),因此構(gòu)建教育領(lǐng)域的知識圖譜不單單是教育行業(yè)鉆研的焦點,也是人工智能層面的研究熱點,具有實際應(yīng)用價值和科研價值。
知識圖譜是結(jié)構(gòu)化的語義網(wǎng)絡(luò),能夠描述生活中的概念和概念之間的關(guān)系。知識圖譜的構(gòu)建步驟涉及四點,分別是知識獲取、知識表述、知識存儲以及知識可視化。知識獲取是從一些公開的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)中利用知識抽取技術(shù)獲得實體、屬性和關(guān)系等知識要素,再次結(jié)合知識交融以及知識推斷等技術(shù)構(gòu)建語義知識庫,確保其結(jié)構(gòu)化。知識抽取主要有兩部分,一部分是實體抽取,也就是從選取的數(shù)據(jù)源中選取實體組織類別劃分,同時把文章中的實體和知識庫中的實體構(gòu)建密切聯(lián)系;另一部分是關(guān)系抽取,也就是數(shù)據(jù)源中的非結(jié)構(gòu)化信息,開展的是不同實體關(guān)系的抽取,最終獲取各個實體的語義關(guān)系。從數(shù)據(jù)結(jié)構(gòu)課程的知識圖譜角度出發(fā),知識圖譜需求的理論主要源于專業(yè)書籍,相關(guān)技術(shù)網(wǎng)站以及部分專業(yè)知識庫。
教育信息化導致共享信息資源的迅猛遞增,但是學習資源的形式豐富多彩,導致學習過程中出現(xiàn)了知識不連貫以及知識碎片化等情形。在各種資源中,學生需要耗用龐大的精力去查詢無效內(nèi)容,導致學生不能迅速、準確、高效地搜集自己需求的理論,造成學生陷入了知識誤區(qū)。
數(shù)據(jù)結(jié)構(gòu)在計算機學科中屬于專業(yè)學科,帶有綜合性的特點,也是編寫計算機程序過程中的關(guān)鍵理論基石和技術(shù)手段。課程的原理十分復雜,涉及的知識點較多,學生很難梳理不同知識點的聯(lián)系。在學習知識過程中,需要了解知識的排列順序。只有了解了學習過程中的所有知識點,才可以有效地把控某一領(lǐng)域的有關(guān)理論。課程知識圖譜實際上是精準地提取課程中的教材內(nèi)容,借助圖片等形式促使學科知識可視化,對學生構(gòu)建清楚的課程知識體系有積極意義,同時還有助于提升知識學習的趣味性。
將數(shù)據(jù)結(jié)構(gòu)教材、大綱、網(wǎng)絡(luò)資源等作為參考依據(jù),通過使用Python網(wǎng)絡(luò)爬蟲技術(shù)搜集并整合和課程有關(guān)的知識數(shù)據(jù),運用知識圖譜構(gòu)建技術(shù)把獲取到的數(shù)據(jù)轉(zhuǎn)變?yōu)椤皩嶓w-關(guān)系-實體”三元組,利用圖數(shù)據(jù)庫加以保存,設(shè)計有關(guān)算法和流程來處理數(shù)據(jù)語料庫,獲取并調(diào)整和數(shù)據(jù)結(jié)構(gòu)學科領(lǐng)域有關(guān)的內(nèi)涵和關(guān)聯(lián)。
知識圖譜對學生學習效率的提升有積極意義,運用網(wǎng)頁信息創(chuàng)建學科知識圖譜,公開學科知識體系,探究學科領(lǐng)域知識圖譜的切入點十分關(guān)鍵。而構(gòu)建數(shù)據(jù)結(jié)構(gòu)課程知識圖譜的創(chuàng)新點是運用人工智能技術(shù)來展示知識點的內(nèi)容以及知識結(jié)構(gòu),指引學習者更好地認識并探究課程內(nèi)容,促使學生在線學習的品質(zhì)以及效率不斷提升;借助層次遞進形式展示知識圖譜,調(diào)整可視化頁面,促使學習者可以清楚地、方便快捷地了解知識圖譜。
隨著“互聯(lián)網(wǎng)+”教育的到來,各種學習平臺、教學課程資源日益豐富,為學生的學習帶來了極大的方便,使他們能夠從課堂上獲得更多知識。在廣度上,知識的學習得到了持續(xù)擴展。然而,海量的學習資源也使學習者不堪重負,而大量的知識碎片又使學習者很難掌握所學的內(nèi)容。如果沒有正確的組織方式,就不能系統(tǒng)地了解所學的知識,而且還會浪費很多寶貴的時間。這會對學生的學習效果產(chǎn)生一定的影響。在數(shù)據(jù)結(jié)構(gòu)基礎(chǔ)上構(gòu)建知識圖譜則有助于應(yīng)對上述難題,也就是說:知識圖譜能將多個知識點結(jié)合起來,并能反映出知識點的結(jié)構(gòu)和分布。