李嘉哲 王貝倫 陳月瑤
隨著計算機(jī)及人工智能技術(shù)的飛速發(fā)展,現(xiàn)代信息技術(shù)給中小學(xué)教育帶來了顯著的變化。2017年,國務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》,提出要推進(jìn)“智能教育”,“推動人工智能在教學(xué)、管理、資源建設(shè)等全流程應(yīng)用”,同時指出構(gòu)建知識圖譜、提升知識服務(wù)技術(shù)的重要性。知識圖譜是谷歌(Google)于2012年提出來的,用于增強(qiáng)其搜索引擎功能[1][2],隨著智能技術(shù)和服務(wù)應(yīng)用的不斷發(fā)展,在數(shù)據(jù)互聯(lián)的Web 2.0時代向知識互聯(lián)的Web 3.0時代邁進(jìn)的背景下,它已被廣泛應(yīng)用于智能搜索、智能問答、個性化推薦等領(lǐng)域,成為教育領(lǐng)域添薪續(xù)力、革故鼎新的重要手段。
目前,統(tǒng)編初中語文教材課文涵蓋詩歌、小說、散文、戲劇等多種體裁,類型多樣,篇目繁多,信息量大,課文與課文之間以人文主題和語文素養(yǎng)雙線組元[3]。聽課調(diào)研中,我們發(fā)現(xiàn)一線師生在使用統(tǒng)編初中語文教材時常常會提出這樣幾個問題:(1)教材整體結(jié)構(gòu)不夠明晰;(2)不同單元課文之間的內(nèi)在聯(lián)系不明晰;(3)對所有課文進(jìn)行跨年級形象化全局概覽的技術(shù)手段比較缺乏。針對上述問題,我們開始研究如何利用自然語言處理技術(shù)繪制統(tǒng)編初中語文教材課文知識圖譜,并基于知識圖譜構(gòu)建統(tǒng)編初中語文教材課文知識庫,開展具體運用實踐。
一、知識圖譜在構(gòu)建統(tǒng)編初中語文教材知識庫中的作用
(一)知識圖譜有助于展現(xiàn)系統(tǒng)化的課文結(jié)構(gòu)體系
知識圖譜利用可視化技術(shù),將課文之間的關(guān)聯(lián)以圖形數(shù)據(jù)庫的形式展現(xiàn)出來,闡明了課文與課文之間的內(nèi)在關(guān)聯(lián),深刻揭示了語文教材課文組織結(jié)構(gòu)。這有利于使用者更為清晰地了解課文系統(tǒng)化的結(jié)構(gòu)體系,準(zhǔn)確解析課文內(nèi)核,精確剖析不同課文之間的關(guān)聯(lián),進(jìn)行智能化聯(lián)想搜索。
(二)借助圖形數(shù)據(jù)庫方便進(jìn)行課文概覽
知識圖譜依靠其圖像化屬性,能夠?qū)⒔y(tǒng)編初中語文教材收錄的數(shù)百篇課文繪制成一幅清晰直觀的電子圖譜,并為每篇課文提供一目了然、直觀清晰的內(nèi)容概覽。加之統(tǒng)編初中語文教材知識庫的內(nèi)容具有公共屬性,面向全社會公開,這一技術(shù)的運用方便知識圖譜系統(tǒng)的管理員對數(shù)據(jù)庫內(nèi)容進(jìn)行個性化的增刪與查改。
(三)可視化技術(shù)提供多元、豐富的功能
知識圖譜系統(tǒng)充分利用CSS、HTML、JavaScript等語言工具實現(xiàn)了課文知識圖譜網(wǎng)頁端的可視化,其功能多元、豐富,精益求精,擁有課文關(guān)系圖界面及課文檢索界面可視化及相互跳轉(zhuǎn)、知識圖譜放大縮小、節(jié)點拖曳以及課文檢索等功能。對于使用者而言,不僅學(xué)習(xí)成本低廉,而且上手快,操作簡易,使用方便。此外,相較于傳統(tǒng)的文字目錄,形象化、可視化的知識圖譜更加貼近師生的教學(xué)活動,直觀便捷,可以更好地激發(fā)學(xué)生學(xué)習(xí)的積極性,提高教學(xué)效果。
二、統(tǒng)編初中語文教材課文知識庫中知識圖譜的內(nèi)容
基于自然語言處理技術(shù),結(jié)合統(tǒng)編初中語文教材課文全文,我們構(gòu)建了統(tǒng)編初中語文教材課文知識圖譜,涉及不同的計算機(jī)技術(shù)(如圖1)。概言之,統(tǒng)編初中語文教材課文知識圖譜主要包括四部分:(1)場景分析及圖譜設(shè)計;(2)標(biāo)簽自動生成;(3)數(shù)據(jù)處理及圖譜搭建;(4)可視化。下面,我們將依次對上述四個部分進(jìn)行介紹。
(一)場景分析及圖譜設(shè)計,明確實體、關(guān)系和屬性內(nèi)涵
場景分析是科學(xué)建模過程中最基礎(chǔ)也最關(guān)鍵的一步,對于知識圖譜來說也不例外。只有合理、全面、深刻地分析應(yīng)用場景,才能設(shè)計出符合需求、邏輯分明、實用性強(qiáng)的知識圖譜。
在進(jìn)行場景分析及圖譜設(shè)計時,我們需要明確知識圖譜的實體、關(guān)系和屬性,它們是知識圖譜必不可缺的基本元素。
1.實體:表征知識圖譜中的節(jié)點。在本知識圖譜中,每篇課文和每個標(biāo)簽都是一個實體,如課文《皇帝的新裝》及其標(biāo)簽“聰明”都是實體。
2.關(guān)系:表征知識圖譜中的邊。在本知識圖譜中,用課文實體和標(biāo)簽實體之間的邊表示該課文主題包含該標(biāo)簽。若一篇課文含有某個標(biāo)簽,它們之間就存在關(guān)系,即課文內(nèi)含包括該標(biāo)簽指示的內(nèi)容。例如,課文實體《春》和標(biāo)簽實體“大自然”之間存在關(guān)系“HasLabel”,表明該課文的標(biāo)簽包含“大自然”,即“大自然”揭示了課文《春》的主要內(nèi)容,可作為課文《春》的一個子主題。若不同課文含有相同標(biāo)簽,則因為這兩篇課文都有邊與該標(biāo)簽節(jié)點相連,從而使兩篇課文也相連,由此實現(xiàn)含有共同主題的課文彼此相連以及主題聚類的效果。這些標(biāo)簽的主題不僅包含課文所在單元蘊含的人文主題,也包含課文蘊含的人文精神,因此一篇課文可以有多個主題標(biāo)簽。
3.屬性:表征知識圖譜中實體(節(jié)點)及關(guān)系(邊)包含的具體內(nèi)容。在本知識圖譜中,課文實體的屬性包括作者、課文位置、課文文本內(nèi)容。例如,對于課文《皇帝的新裝》,其“作者”屬性為“安徒生”,“課文位置”屬性為“七年級上冊第六單元第19課”。
(二)標(biāo)簽自動生成,精準(zhǔn)掌握文本關(guān)鍵詞
標(biāo)簽主要用于區(qū)分課文的關(guān)鍵詞。例如,對于課文《皇帝的新裝》,其標(biāo)簽可以為皇帝、衣服、聰明、愚蠢、虛榮等。針對知識圖譜中的每一篇課文,我們都會對其生成不同的標(biāo)簽。課文內(nèi)容不同,標(biāo)簽個數(shù)也會不同。具體而言,若課文較長,主題較為多元化,標(biāo)簽個數(shù)就會多。比如,朱自清的《春》相較于劉湛秋的《雨的四季》,標(biāo)簽數(shù)較少一些,因為《雨的四季》課文篇幅更長,且提到了四個季節(jié),內(nèi)容更為多元。
標(biāo)簽自動生成的方法有兩種:(1)根據(jù)詞向量的詞義特性找聚類中心作為主題詞,聚類中心個數(shù)根據(jù)聚類結(jié)果權(quán)衡;(2)刪去常用詞后進(jìn)行詞頻排序,選擇排名前幾位的詞作為關(guān)鍵詞標(biāo)簽。兩種方法涉及的技術(shù)如下。
1.分詞:按照詞性詞義對語句進(jìn)行分詞處理
分詞,是自然語言處理技術(shù)中處理文本的一種技術(shù),指按照詞性或詞義將句子中的詞語分隔開的技術(shù),如小草//偷偷地//從土里//鉆出來。分詞標(biāo)準(zhǔn)在不同的情況下不盡相同,有時也可不分詞而直接對語句進(jìn)行處理,它對于文本挖掘有著重要作用。
在本知識圖譜中,我們使用正則化匹配和jieba庫進(jìn)行分詞處理。具體而言,首先,運用一些標(biāo)準(zhǔn)化方法消除特殊符號,讓文本內(nèi)容更為規(guī)范化,易于處理。然后,通過正則化匹配特定的標(biāo)點符號進(jìn)行分句,對分句結(jié)果進(jìn)一步進(jìn)行規(guī)范化處理,再運用jieba庫進(jìn)行分詞。
2.詞向量轉(zhuǎn)化:將中文詞語轉(zhuǎn)化為數(shù)值詞向量
詞向量轉(zhuǎn)化,是將中文詞語轉(zhuǎn)換成數(shù)值向量的技術(shù)。在自然語言處理過程中,計算機(jī)無法“理解”人類語言,因此需要將輸入計算機(jī)的詞語轉(zhuǎn)化成計算機(jī)可以“理解”和處理的詞向量。詞向量是針對詞語的向量化表示,是將詞語轉(zhuǎn)化(或嵌入)數(shù)學(xué)空間的數(shù)值結(jié)果。
在本知識圖譜中,我們使用中文數(shù)據(jù)集上訓(xùn)練的BERT模型[4]進(jìn)行詞向量轉(zhuǎn)化,具體而言,是將分詞結(jié)果逐個輸入BERT模型,然后利用該模型輸出該詞的詞向量結(jié)果。
3.聚類:將相似相近的詞向量進(jìn)行聚類
聚類,是將相近或相似的詞向量歸為一類的技術(shù)。處理課文過程中,教師可以將其理解為把同義詞或近義詞歸為一類,如將“春天”和“春季”進(jìn)行聚類。
在本知識圖譜中,我們使用K最近鄰算法聚類。具體而言,首先運用PCA算法將詞向量降維,然后對降維后的詞向量使用K最近鄰算法,將詞向量分為K個類別。由于不確定課文主題有多少,故對2~6之間的K值分別進(jìn)行結(jié)果測試,從中選取聚類效果最好的K值。最后,對每個聚類選取與聚類中心最接近的詞向量,作為該聚類的中心詞。
4.詞頻統(tǒng)計:統(tǒng)計課文中非常用詞的頻率
詞頻統(tǒng)計,是統(tǒng)計每篇課文中標(biāo)簽出現(xiàn)頻率的過程。對于每篇課文,經(jīng)過分詞后,我們首先刪除停用詞,即利用一個大約包含2500個常用詞的停用詞列表,刪除常用詞(如人稱代詞“你”“我”“他”等)。然后,對余下的非常用詞進(jìn)行統(tǒng)計,得出所有詞語在課文出現(xiàn)的次數(shù)。例如,對于課文《皇帝的新裝》,詞頻統(tǒng)計結(jié)果為:[(“衣服”,24)、(“皇帝”,21)、(“騙子”,13)、(“織布機(jī)”, 11)、(“穿”,8)、(“美麗”,8)]。其中,“(‘衣服,24)”表示“衣服”一詞在《皇帝的新裝》中出現(xiàn)了24次,其余結(jié)果同理。
(三)數(shù)據(jù)處理及圖譜搭建,厘清本體之間的關(guān)系
經(jīng)過場景分析、標(biāo)簽生成,我們便可以處理數(shù)據(jù)并搭建課文知識圖譜了。本知識圖譜搭建過程中,涉及的技術(shù)如下。
1.數(shù)據(jù)處理:數(shù)據(jù)獲取、格式化及數(shù)據(jù)存儲
數(shù)據(jù)獲取是指獲取中學(xué)語文課文及相關(guān)信息,如作者、課文內(nèi)容、課程位置等,它是在標(biāo)簽生成之前完成的。格式化是指將數(shù)據(jù)存儲為json格式文件,以便進(jìn)行數(shù)據(jù)解析,它在數(shù)據(jù)獲取后即可完成。圖譜數(shù)據(jù)提取和格式化保存,是指從格式化文件中提取出課文標(biāo)題、對應(yīng)作者和文本內(nèi)容等信息,與課文標(biāo)簽一同進(jìn)行格式化存儲。
2.實體消歧:合并相似性高的標(biāo)簽實體
實體消歧是用于解決同名實體歧義問題的技術(shù)。在本知識圖譜中,我們根據(jù)各篇課文生成的標(biāo)簽,對其進(jìn)行詞向量相似性度量,以決定是否能夠合并為同一個標(biāo)簽。例如,“春”和“春天”可合并為標(biāo)簽“春天”,“思鄉(xiāng)”和“懷鄉(xiāng)”可合并為標(biāo)簽“懷鄉(xiāng)”。
3.本體建模:構(gòu)筑知識圖譜的結(jié)構(gòu)輪廓
本體建模是一個通過分析、確定本體及本體間關(guān)系,描摹知識圖譜大致輪廓的過程。其中,本體指的是某個領(lǐng)域?qū)嶓w或概念通過關(guān)系組成的結(jié)構(gòu)。本體可以是實體的抽象,也可以是本體的實例。例如,《從百草園到三味書屋》是一個課文實體,那么“課文”就是它所對應(yīng)的本體。本體建模即分析并總結(jié)知識圖譜包含的本體,并厘清本體之間關(guān)系的過程。本體建模在數(shù)據(jù)獲取之前就可完成。
(四)可視化技術(shù),直觀展現(xiàn)事物之間的聯(lián)系
可視化技術(shù)指的是利用計算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理的理論、方法和技術(shù)[5][6]。目前,可視化技術(shù)已經(jīng)逐步滲透到生物醫(yī)學(xué)、航空航天、交通管理、教育學(xué)等多個領(lǐng)域,知識圖譜便是一種利用可視化技術(shù)記錄、描述、展現(xiàn)事物之間聯(lián)系的圖形數(shù)據(jù)庫。
如圖2所示,我們利用CSS、HTML、JavaScript等語言工具對課文知識圖譜進(jìn)行了網(wǎng)頁上的可視化,即使用HTML編寫網(wǎng)頁結(jié)構(gòu),使用CSS設(shè)置網(wǎng)頁樣式,使用JavaScript實現(xiàn)一系列用戶交互效果(如點擊發(fā)生事件等)。其實現(xiàn)的一系列功能包括:課文關(guān)系圖界面及課文檢索界面可視化及相互跳轉(zhuǎn);知識圖譜放大、縮小及頁面移動;節(jié)點拖曳,以亮暗區(qū)分是否被選中;可選用兩種節(jié)點/文字圖譜查看方式;課文概要可視化。
三、統(tǒng)編初中語文教材課文知識庫的應(yīng)用實踐
(一)全局概覽
知識庫能夠為其所涵蓋的課文提供全局概覽。在圖2中,用鼠標(biāo)滾輪可以控制圖譜的放大和縮小,按住空白處進(jìn)行拖動。如圖3所示,將鼠標(biāo)移到某個節(jié)點上拖動時,該節(jié)點的不相鄰節(jié)點會變暗。
(二)課文檢索
知識庫支持課文檢索功能。其利用圖像化手段,濃縮概括每篇課文的主要內(nèi)容,并將體裁不同但內(nèi)核相近的課文聯(lián)系起來,為使用者瀏覽、查閱、學(xué)習(xí)提供便利。知識圖譜中的每個節(jié)點均對應(yīng)一篇課文,通過在課文檢索界面搜索文本,可以展示每篇課文的詳細(xì)信息(包括作者、課程位置、標(biāo)簽和課文原文),以及與之相關(guān)的其他課文。由此,使用者通過瀏覽課文標(biāo)簽,可以輕松掌握整篇課文的內(nèi)容內(nèi)核。
如圖4所示,通過在課文檢索界面檢索課文《皇帝的新裝》,使用者可以一目了然地看到文本的標(biāo)簽包含“皇帝”“衣服”“聰明”“愚蠢”等,進(jìn)而在未閱讀原文的情況下就能快速了解了這篇課文的主要內(nèi)容。
對于每篇課文,使用者都能通過課程位置信息和圖譜,定位到與其相關(guān)聯(lián)的其他課文上。搜索一篇課文,查詢結(jié)果只會展示該課文和與該課文相關(guān)聯(lián)的其他課文,清晰明了,一目了然。如圖5所示,搜索茨威格的《偉大的悲劇》一文,我們可以在圖譜中看到與文本主題相關(guān)或相近的其他課文,包括《土地的誓言》《鄧稼先》等。
對于擁有相同標(biāo)簽的不同課文,通過用戶界面,使用者能夠直觀便捷地搜索到相關(guān)信息。這意味著使用者能夠在不同課文之間輕松跳轉(zhuǎn),旁征博引,舉一反三。對于家長和學(xué)生群體來說,在知識圖譜上搜索課文,能夠極大地降低時間成本,檢索方便,學(xué)習(xí)便利。對于教師群體來說,由于知識圖譜能將不同學(xué)期的課文串聯(lián)起來,故而方便教師授課時進(jìn)行聯(lián)想教學(xué)。
(三)標(biāo)簽生成
該系統(tǒng)也支持標(biāo)簽的自動生成,使用者可以將需要進(jìn)行標(biāo)簽生成的文件命名為“new_lesson.txt”,然后運行“l(fā)abel_generation.py”,便能得到程序自動生成的標(biāo)簽結(jié)果。
目前,我們構(gòu)建的統(tǒng)編初中語文教材課文知識庫擁有全局概覽、課文檢索和標(biāo)簽生成三大功能,未來計劃囊括統(tǒng)編小學(xué)語文、統(tǒng)編高中語文教材,進(jìn)行綜合分析,及時更新數(shù)據(jù),以適應(yīng)不同學(xué)段人群的需要。
知識圖譜作為人工智能發(fā)展的重要成果,已經(jīng)在許多領(lǐng)域生根發(fā)芽,如信息檢索、個性化推薦、生物醫(yī)療等領(lǐng)域[7]。而在教育領(lǐng)域,各學(xué)科知識圖譜的構(gòu)建,作為跨學(xué)科學(xué)習(xí)的重要基礎(chǔ),也必將進(jìn)一步發(fā)揮圖形數(shù)據(jù)庫的優(yōu)勢,在國家《新一代人工智能發(fā)展規(guī)劃》“三步走”戰(zhàn)略的指導(dǎo)下大步前進(jìn),煥發(fā)出嶄新的活力,為立德樹人提供創(chuàng)造性助力。
注:本文系國家語委“十四五”科研規(guī)劃2021年度省部級重點項目“中華優(yōu)秀傳統(tǒng)文化數(shù)字化課程資源的開發(fā)與應(yīng)用研究——以統(tǒng)編義務(wù)教育語文教材為中心”(項目批準(zhǔn)號:WT145-3)的階段性研究成果。
參考文獻(xiàn)
[1] BERNERS-LEE T, HENDLER J, LASSILA O. The Semantic Web[J]. Scientific American Magazine,2008,23(1):1-4.
[2] AMIT S.Introducing the Knowledge Graph[R]. America: Official Blog of Google,2012.
[3] 溫儒敏.“部編本”語文教材的編寫理念、特色與使用建議[J].課程·教材·教法,2016(11):3-11.
[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. arXiv preprint arXiv:1810.04805,2018.
[5] 劉勘,周曉崢,周洞汝.數(shù)據(jù)可視化的研究與發(fā)展[J].計算機(jī)工程,2002(8):1-2,63.
[6] 何海生.“互聯(lián)網(wǎng)+教育”視角下可視化技術(shù)的創(chuàng)新應(yīng)用[J].信息記錄材料,2017(9):142-143.
[7] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016(4):589-606.
責(zé)任編輯:孫建輝