郭勝娟 董峰銘
(1.武漢城市職業(yè)學(xué)院 湖北 武漢 430070;2.武漢大學(xué) 湖北 武漢 430072)
“科學(xué)” 是師范類高等院校小學(xué)科學(xué)教育專業(yè)的師范生必須進(jìn)行的科學(xué)教育實踐課,旨在通過小學(xué)頂崗實習(xí)的模式來為小學(xué)培養(yǎng)合格的科學(xué)課教師,加強(qiáng)師范院校的 “科學(xué)” 教學(xué)實踐能力的培養(yǎng),有利于培養(yǎng)合格的小學(xué)科學(xué)教師。因此,如何利用人工智能技術(shù)來構(gòu)建學(xué)生思維成為科學(xué)教育研究領(lǐng)域的熱點問題。
作為人工智能的研究熱點之一,知識圖譜已經(jīng)由教育工作者融入課程教學(xué),用于更好地構(gòu)建學(xué)生的思維。例如,武漢大學(xué)的徐雷教授與袁小群教授通過采用語義技術(shù)處理了歷史教育資源,實現(xiàn)了歷史教育知識庫的構(gòu)建,以此知識庫為基礎(chǔ)設(shè)計并實現(xiàn)了包含歷史知識可視化、歷史知識檢索以及在線歷史題庫等功能的歷史教育學(xué)習(xí)平臺[1]。此外,知識可視化在思政課程、語文課程、數(shù)學(xué)課程等均有相關(guān)的研究。但在科學(xué)教育領(lǐng)域,知識庫的構(gòu)建與可視化分析仍為空白。本文在借鑒前人的研究基礎(chǔ)上,在科學(xué)教育領(lǐng)域進(jìn)行了擴(kuò)展,探究基于知識圖譜的知識獲取、整合與可視化的方法。
知識圖譜是Google基于本體論、圖理論等相關(guān)基礎(chǔ)學(xué)科而提出的概念,它采用知識獲取、知識整合、知識處理等技術(shù)將非結(jié)構(gòu)化和半結(jié)構(gòu)化知識組織起來,形成復(fù)雜的語義網(wǎng)絡(luò),存儲并可視化知識。
知識圖譜的概念源于本體理論。本體 “Ontology” 在計算機(jī)領(lǐng)域可以看作描述某個知識領(lǐng)域的一個通用概念模型,該概念在1980年被引入人工智能領(lǐng)域,1998年德國學(xué)者Studer給出了本體的相關(guān)定義即 “本體是共享概念模型的形式化規(guī)范說明”[2],該定義闡釋了本體理論的 “概念特征、共享性、形式化和明確性” 四個特征。概念特征指從客觀世界中的一些現(xiàn)象中抽象出的模型,其所代表的含義獨立于具體的環(huán)境狀態(tài);共享性指本體中的知識是共同認(rèn)可的,反映出的是領(lǐng)域中公認(rèn)的概念集合;形式化表示本體是可讀的,是可以被計算機(jī)識別處理的;明確性指本體中的術(shù)語、屬性等都有明確的定義[3]。
知識圖譜在表現(xiàn)上呈現(xiàn)的是圖結(jié)構(gòu)的網(wǎng)狀有向圖,它可以采用資源描述框架表示實體之間的語義關(guān)系,采用 “實體―關(guān)系―實體” 三元組(SPO)來表示實體與關(guān)系。SPO是知識圖譜中知識表示的基本單位,用來表示實體與實體之間的關(guān)系,或者用來描述實體的某個屬性的屬性值[4],這種SPO關(guān)系由RDF進(jìn)行數(shù)據(jù)存儲和交換。RDF由節(jié)點和邊組成,節(jié)點表示實體及屬性,邊則表示了實體和實體之間的關(guān)系以及實體和屬性的關(guān)系。OWL(Web Ontology Language)網(wǎng)絡(luò)本體語言是W3C開發(fā)的一種網(wǎng)絡(luò)本體語言,用于對本體進(jìn)行語義描述[5],其構(gòu)建在RDF的頂端之上,被設(shè)計為供計算機(jī)進(jìn)行解釋。OWL網(wǎng)絡(luò)本體語言使用XML編寫,通過使用XML,OWL信息可在使用不同類型的操作系統(tǒng)和應(yīng)用語言的不同類型的計算機(jī)之間進(jìn)行交換,實現(xiàn)知識圖譜的存儲與傳輸。
如圖1,知識圖譜的主要構(gòu)建過程分為數(shù)據(jù)獲取、知識抽取、知識存儲、知識推理和知識應(yīng)用等幾個階段[6]。知識獲取階段是從相關(guān)領(lǐng)域獲取結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù);以這些數(shù)據(jù)為基礎(chǔ),采用自然語言處理、知識規(guī)則算法或者人工手段對實體、關(guān)系和屬性進(jìn)行知識提?。徊捎肗eo4j等NoSQL數(shù)據(jù)庫對知識進(jìn)行存儲,采用實體對齊、關(guān)系對齊算法對知識進(jìn)行融合;采用本體推理、規(guī)則推理和路徑推理的基本算法或者模型對知識進(jìn)行推理;最后將知識應(yīng)用于推薦系統(tǒng)、語義搜索和問答系統(tǒng)。
課程知識圖譜首先需要設(shè)計 “科學(xué)” 課程的知識模塊,確定知識模塊間的關(guān)系。在知識模塊確定后,確定每個知識模塊的知識點,形成主要知識點。采用知識提取的理論與方法,手動或者程序化提取實體及其屬性,分析知識點間的關(guān)聯(lián)關(guān)系,設(shè)計知識點層級和順序關(guān)系,確定知識與知識之間的圖譜關(guān)系,構(gòu)造知識圖譜,并將知識圖譜可視化。構(gòu)建后的知識圖譜需要專業(yè)教師進(jìn)行審核,并根據(jù)審核結(jié)果對知識點、知識實體、知識屬性及知識關(guān)聯(lián)關(guān)系進(jìn)行修改。被學(xué)科教師審核通過的知識圖譜可用于課程教學(xué)(見圖2)。
課程標(biāo)準(zhǔn)和教材是課程知識點提取的主要依據(jù),任課教師可以根據(jù)教學(xué)內(nèi)容、教學(xué)對象和教學(xué)目標(biāo),從中提取課程主要知識點,形成教學(xué)的知識點體系。
本文以教科版小學(xué) “科學(xué)” 五年級下冊《環(huán)境與我們》單元的知識點為例,提取涉及的 “環(huán)境問題” “大氣污染” “工業(yè)開采” “水資源” “霧霾” “酸雨” “富營養(yǎng)化” “垃圾處理” 等領(lǐng)域的29個知識點。每個知識點以陳述句形式呈現(xiàn)。 “垃圾處理” 所涉及的知識點描述如下。
知識點1:垃圾處理是重要的環(huán)境問題,要充分認(rèn)識垃圾處理的方式及危害,了解生活垃圾的產(chǎn)生,進(jìn)而減少垃圾產(chǎn)生。
知識點2:垃圾處理的方法主要有焚燒與填埋,這兩種方法對于環(huán)境保護(hù)都有一定危害。
知識點3:垃圾填埋場會對周圍的環(huán)境產(chǎn)生嚴(yán)重的危害,例如:垃圾散發(fā)惡臭,進(jìn)而會污染空氣;地下填埋的垃圾會對土壤造成污染,從而影響農(nóng)作物的生長,影響農(nóng)業(yè);填埋的垃圾會招引并滋生蚊蠅,從而引發(fā)疾病等。
知識實體提取是采用自動化jieba分詞工具對中文知識點進(jìn)行分詞,或者手工方式提取課程內(nèi)容中的主要詞匯。比如,上述 “知識點1” 中,采用jieba工具可以提取到 “垃圾處理” “方式” “危害” 以及 “產(chǎn)生” 等4個詞匯,但在句意中 “方式” “危害” 以及 “產(chǎn)生” 存在上下文語義,需采用上下文語義補(bǔ)全的方式對語義進(jìn)行補(bǔ)全為 “垃圾處理方式” “垃圾危害” 以及 “垃圾產(chǎn)生的原因” 。
關(guān)系是知識實體之間的聯(lián)系,它從知識點語義表達(dá)中進(jìn)行獲取。知識點可采用jieba進(jìn)行詞性標(biāo)注,獲取句子中的謂詞屬性,整合人工校驗技術(shù),分析知識實體之間的包含、屬于、進(jìn)階、基礎(chǔ)、并列、同義關(guān)系。根據(jù)這些關(guān)系在課程教學(xué)的特征,抽象出 “知識涵蓋” “措施” 等知識點關(guān)系,形成關(guān)系抽提。
本文以 “環(huán)境問題與垃圾處理” 為研究對象,采用SPO邏輯表示方法,構(gòu)建三元組。在環(huán)境問題中涵蓋垃圾相關(guān)的知識,而垃圾相關(guān)知識又涵蓋 “垃圾處理” ,即 “如何處理垃圾” “生活垃圾的分類” “如何減少垃圾” 這三個知識點。這樣,本文構(gòu)建的SPO三元組如下:(環(huán)境問題,知識覆蓋,垃圾)、(垃圾,知識覆蓋,垃圾處理)、(垃圾,知識覆蓋,生活垃圾)、(垃圾,知識覆蓋,減少垃圾)。
知識點除了層次關(guān)系外,還有自己的屬性。在知識庫構(gòu)建中,主要的屬性有 “舉例” 。比如,在 “垃圾處理” 的方法中,有 “回收” “填埋” 和 “焚燒” 等列舉屬性。這些關(guān)系采用SPO三元組表示方法如下:(垃圾處理,舉例,回收)、(垃圾處理,舉例,填埋)、(垃圾處理,舉例,焚燒)。
本體是知識表示的重要方式,Protégé是重要的本體構(gòu)建工具,它是斯坦福大學(xué)開發(fā)的免費(fèi)且開源的本體編輯器,其由Java語言編寫,具有圖形化構(gòu)建本體、對各實體間隱含屬性進(jìn)行自動化推理以及對本體的一致性進(jìn)行檢測的功能[6]。
在知識層次的劃分基礎(chǔ)上,在Protégé中構(gòu)建本體,需要創(chuàng)建類與子類,分析類與子類的繼承關(guān)系的知識關(guān)系,再對類與子類進(jìn)行屬性定義。protégé中屬性分為對象屬性與數(shù)據(jù)屬性,其中對象屬性指兩個對象以及他們之間的關(guān)系,即前文在知識分層時所整理的 “關(guān)系” ;數(shù)據(jù)屬性指某個對象的屬性,即前文在知識分層時所整理的 “個體屬性” 。
本文在分析29個知識點的基礎(chǔ)上,構(gòu)建了 “環(huán)境問題” “資源” 等2個主題, “垃圾” “能源” 等8個類別, “酸雨” “霧霾” 等32個實體,以及實體之間呈現(xiàn)出類與子類之間的關(guān)系。
知識圖譜屬于非關(guān)系型數(shù)據(jù),需要采用圖數(shù)據(jù)進(jìn)行存儲。圖數(shù)據(jù)庫允許數(shù)據(jù)以圖的方式存儲,實體在圖數(shù)據(jù)庫中作為頂點,而實體間的關(guān)系在圖數(shù)據(jù)庫中作為邊,可以用NoSQL數(shù)據(jù)庫來存儲。由于NoSQL數(shù)據(jù)庫去掉了關(guān)系數(shù)據(jù)庫的關(guān)系特性,因而數(shù)據(jù)非常容易擴(kuò)展。
Neo4j是由Java和Scala寫成的一個NoSQL數(shù)據(jù)庫,專門用于網(wǎng)絡(luò)圖的存儲,它用節(jié)點、邊、屬性來高效的存儲知識及關(guān)系。 本體模型導(dǎo)出的OWL文件可以借助于擴(kuò)展插件Neosemantics可以將OWL/RDF文件導(dǎo)入到Neo4j中,通過在Neo4j上創(chuàng)建唯一約束,來通過URL確保資源的唯一性,并通過將資源添加到索引中來加速獲取過程。
為了加快查詢速度,根據(jù)案例中提取的實體關(guān)系,將 “環(huán)境問題” “資源” “能源” “垃圾分類” 等實體設(shè)置不同標(biāo)簽,這樣,既起到頁面美觀的作用,又方便管理圖數(shù)據(jù)庫中的節(jié)點與關(guān)系。Neo4j同一節(jié)點標(biāo)簽下的多個節(jié)點可視作同一類節(jié)點,從而實現(xiàn)了實體與實體之間的關(guān)聯(lián)性問題。
Neo4j數(shù)據(jù)庫支持Cypher查詢語句,可以采用 “MATCH(n)RETURNn” 查詢語句來查詢知識庫。Cypher是圖數(shù)據(jù)庫Neo4j的聲明式查詢語言,其通過匹配數(shù)據(jù)庫中的節(jié)點與關(guān)系,來提取信息或修改數(shù)據(jù)。從而Neo4j數(shù)據(jù)庫支持由業(yè)務(wù)邏輯層傳遞,如節(jié)點id、節(jié)點標(biāo)簽、關(guān)系標(biāo)簽、節(jié)點名等組成的關(guān)鍵字查詢。例如采用 “MATCH(n:`垃圾`)RETURNn LIMIT 25” ,可以返回如圖3所示的知識實體 “垃圾” 的知識圖譜。
本文采用主題探究教學(xué)模式,將教學(xué)內(nèi)容整合成知識圖譜[7]。主題探究是建構(gòu)主義教學(xué)理論的分支,在分析學(xué)生自我認(rèn)知的基礎(chǔ)上,以場景教育為錨點,以明確的教學(xué)目標(biāo)為依據(jù),通過自主學(xué)習(xí)、實驗觀察、獨立思考、小組協(xié)同等多種模式展開新課程內(nèi)容的學(xué)習(xí),從而構(gòu)建知識體系。它以 “認(rèn)知理論” 發(fā)展為基本規(guī)律,采用 “需求定位、實驗探究、總結(jié)分析、知識驗證” 為核心流程的學(xué)習(xí)模式,構(gòu)建學(xué)習(xí)者的認(rèn)知規(guī)律。
在課程設(shè)計上,教師以 “垃圾” 為主題,以知識圖譜的方式展示 “垃圾” 主題,讓學(xué)生展開討論。通過可交互式知識圖譜,讓學(xué)生掌握 “減少垃圾的方法” “垃圾處理的方式” 等知識點。通過實體關(guān)系分析,引出并動態(tài)展示 “生活垃圾” 知識圖譜,討論垃圾分類問題。整個教學(xué)過程,以知識圖譜構(gòu)建 “知識錨點” ,探究知識要點,構(gòu)建學(xué)生的思維過程,形成思維邏輯方法。
基于以上教學(xué)策略,本文選擇武漢市某小學(xué)的 “科學(xué)” 教學(xué)班為研究對象,采用對比分析方法,對教學(xué)效果進(jìn)行實驗分析。為了驗證教學(xué)策略效果,本項目隨機(jī)選擇了小學(xué)五年級實驗班和對照班各43人進(jìn)行對比實驗,教學(xué)效果如表1所示。本文從學(xué)生課堂參與度、學(xué)生滿意度和學(xué)生知識增益程度三個方面評估教學(xué)效果。課堂參與度由任課教師在課堂上觀察并記錄,評估積極參與課堂教學(xué)的學(xué)生人數(shù)占總?cè)藬?shù)的百分比。學(xué)生滿意度是課后通過問卷調(diào)查獲取學(xué)生對課堂教學(xué)是否滿意的人數(shù)占總?cè)藬?shù)的百分比。學(xué)生知識增益程度是通過課前測試和課后測試,評估學(xué)生科學(xué)知識的提高程度。對同一知識點通過課前和課后測試,評估學(xué)生在本課堂學(xué)習(xí)了新知識后,對該知識點得分提高的平均值。實驗表明:課前進(jìn)行學(xué)生知識測試的對照班和實驗班平均成績分別為32.32分和33.12分,課程學(xué)習(xí)后對照班和實驗班的平均成績分別為92.52分和96.46分。
表1 教學(xué)效果表
知識圖譜是人工智能領(lǐng)域中的重要研究內(nèi)容,它通過圖結(jié)構(gòu)對學(xué)科知識進(jìn)行存儲并可視化表示,能夠清晰表示學(xué)科知識點之間的關(guān)聯(lián)關(guān)系,從而構(gòu)建學(xué)生的思維邏輯。
本文采用知識圖譜的方式,以 “科學(xué)” 課程為例,探究了知識圖譜在教學(xué)中的應(yīng)用。通過實驗分析表明該方法能有效提高學(xué)生的參與度和學(xué)生課程滿意度。對比實驗表明采用知識圖譜的教學(xué)策略后,學(xué)生獲取知識的增益度比對照班級高5.26分。