劉德喜,陳雨婕,劉宇星,狄國強(qiáng),邱寶林,廖國瓊
(江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013)
計(jì)算機(jī)人才培養(yǎng)強(qiáng)調(diào)的程序性開發(fā)能力正在轉(zhuǎn)化為更重要的系統(tǒng)性設(shè)計(jì)能力,未來將會(huì)更關(guān)注學(xué)生掌握軟硬件協(xié)同工作的能力以及解決復(fù)雜工程問題的能力。根據(jù)新工科專業(yè)系統(tǒng)能力培養(yǎng)改革與實(shí)踐指導(dǎo),突出系統(tǒng)化思想對(duì)于高校計(jì)算機(jī)專業(yè)教學(xué)和培養(yǎng)的重要影響。缺乏知識(shí)的整體性理解和系統(tǒng)的綜合實(shí)踐能力是現(xiàn)階段課程體系下暴露出來的問題,需要建立新的計(jì)算機(jī)專業(yè)教學(xué)課程體系,重新規(guī)劃計(jì)算機(jī)課程的重點(diǎn)內(nèi)容和順序設(shè)置。高校受有限的教學(xué)課時(shí)等條件制約,需要對(duì)專業(yè)課程設(shè)置、課程內(nèi)容選擇和課程之間的邏輯關(guān)系進(jìn)行合理劃分和組織,形成一個(gè)有序、互聯(lián)的課程群落。系統(tǒng)類課程群的建設(shè)使專業(yè)知識(shí)框架更加合理和完善,帶動(dòng)整體教學(xué)水平進(jìn)一步提高,使學(xué)生的素質(zhì)和實(shí)踐能力躍上新臺(tái)階。
計(jì)算機(jī)專業(yè)知識(shí)體系覆蓋范圍廣,課程群中術(shù)語和知識(shí)內(nèi)容繁雜,不同課程知識(shí)之間具有連續(xù)性,授課過程中,一些術(shù)語總是孤立講授,未能與相關(guān)術(shù)語合理關(guān)聯(lián),無法構(gòu)成專業(yè)學(xué)科級(jí)知識(shí)體系。構(gòu)建專業(yè)課程群應(yīng)從課程定位以及課程之間的邏輯關(guān)系出發(fā),基于最根本的課程內(nèi)容結(jié)合“系統(tǒng)觀”思想,將專業(yè)知識(shí)點(diǎn)有機(jī)組織,有效指導(dǎo)教師的授課重點(diǎn)。通過融合和規(guī)劃相關(guān)課程群的信息,合理安排術(shù)語的講授順序和邏輯,可以在有限的時(shí)間內(nèi)幫助學(xué)生構(gòu)建知識(shí)框架,形成系統(tǒng)能力。
本文以計(jì)算機(jī)系統(tǒng)類課程群為例,基于術(shù)語、定義抽取及圖分析技術(shù),自動(dòng)完成課程群概念圖構(gòu)建,以更好地輔助教師教學(xué),培養(yǎng)學(xué)生系統(tǒng)能力并構(gòu)建完整的知識(shí)框架,從而推動(dòng)教育信息化、智能化發(fā)展。
計(jì)算機(jī)系統(tǒng)類課程群建設(shè)主要研究在系統(tǒng)能力培養(yǎng)要求下的相關(guān)課程設(shè)置、課程定位和課程之間的邏輯關(guān)系。國內(nèi)各高校參照示范單位并基于本校師資等條件,建設(shè)適合自己的計(jì)算機(jī)類專業(yè)系統(tǒng)能力培養(yǎng)方式,提高學(xué)生適應(yīng)新經(jīng)濟(jì)發(fā)展的整體素質(zhì)和能力。
其中,清華大學(xué)提出分層、雙向的系統(tǒng)能力培養(yǎng)課程體系建設(shè)新思路,借鑒國外著名高校,開設(shè)系統(tǒng)能力培養(yǎng)課程橫縱向梳理知識(shí)體系,明確各層次教學(xué)內(nèi)容,建立計(jì)算機(jī)系統(tǒng)層次間的聯(lián)系,并輔以課程實(shí)驗(yàn)體系,逐級(jí)遞進(jìn),以迭代的方式培養(yǎng)學(xué)生能力[1]。廣東工業(yè)大學(xué)針對(duì)軟硬件教學(xué)活動(dòng)分離的現(xiàn)狀,提出兩者結(jié)合的計(jì)算機(jī)專業(yè)基礎(chǔ)課程群實(shí)驗(yàn)教學(xué)模式,通過對(duì)“軟”“硬”線課程內(nèi)容協(xié)同優(yōu)化,再總結(jié)和挖掘課程間的內(nèi)在聯(lián)系,結(jié)合教學(xué)方案構(gòu)建課程群知識(shí)地圖,通過關(guān)鍵路徑發(fā)現(xiàn)先修、后修制約關(guān)系支撐教學(xué)[2]。桂林電子科技大學(xué)根據(jù)系統(tǒng)能力培養(yǎng)總目標(biāo)及計(jì)算機(jī)系統(tǒng)各層次之間的關(guān)系,明確各課程教學(xué)目標(biāo),并構(gòu)建“三橫兩縱”實(shí)踐課程教學(xué)體系,從基礎(chǔ)、專業(yè)和綜合3個(gè)層次能力培養(yǎng)逐步過渡,和開設(shè)軟、硬件課程實(shí)踐環(huán)節(jié)兩個(gè)角度,培養(yǎng)學(xué)生計(jì)算機(jī)系統(tǒng)綜合開發(fā)能力[3]。北京航空航天大學(xué)以“三位一體”教學(xué)目標(biāo)和“三工”教學(xué)準(zhǔn)則,由傳統(tǒng)建設(shè)模式轉(zhuǎn)變?yōu)椤耙哉n程群為中心”的建設(shè)模式,精簡(jiǎn)非必要知識(shí),重構(gòu)整個(gè)課程群體系[4]。其他高校計(jì)算機(jī)院系也以“系統(tǒng)能力培養(yǎng)”為主線組建“系統(tǒng)能力培養(yǎng)課程群”,對(duì)教學(xué)內(nèi)容依學(xué)生掌握程度進(jìn)行分解和整合,挖掘不同課程的相似內(nèi)容,實(shí)現(xiàn)整體化協(xié)作式教學(xué)[5-6]。
本文依據(jù)教材分析整個(gè)課程或課程群中的相關(guān)術(shù)語及其之間的內(nèi)在關(guān)系,構(gòu)建計(jì)算機(jī)系統(tǒng)類課程群中的概念圖譜,輔助建設(shè)課程群。本文創(chuàng)新性地提出利用自動(dòng)分析方法識(shí)別整個(gè)課程或課程群中的術(shù)語、定義,并確定核心術(shù)語以及它們之間的關(guān)聯(lián)形成專業(yè)課程群概念圖。該方法一方面可以改進(jìn)現(xiàn)有研究在分析課程群概念關(guān)系上的主觀性,同時(shí)還能從課程群全局或系統(tǒng)出發(fā),勾勒出概念關(guān)系圖,有利于幫助學(xué)生建立系統(tǒng)觀。
課程概念圖譜直觀展示專業(yè)中的各個(gè)概念以及整合它們的關(guān)系網(wǎng)絡(luò),是課程群建設(shè)的重要內(nèi)容。相關(guān)工作中,有的從授課內(nèi)容出發(fā),構(gòu)建簡(jiǎn)略的教學(xué)知識(shí)圖譜[7];有對(duì)龐大的知識(shí)點(diǎn)進(jìn)行梳理和分割,構(gòu)建分層拓?fù)涞母拍顖D譜[8]。這些方法中,主要根據(jù)對(duì)培養(yǎng)方案和教學(xué)大綱的研討和論證完成對(duì)知識(shí)點(diǎn)的提煉。已有工作大都采用人工方式,受人力、時(shí)間等因素局限,往往只涉及單個(gè)課程,提煉的知識(shí)點(diǎn)數(shù)量也很有限,難以展示課程知識(shí)結(jié)構(gòu)以及知識(shí)點(diǎn)之間的關(guān)系。
在教育領(lǐng)域,對(duì)知識(shí)圖譜自動(dòng)構(gòu)建時(shí),張勇等[9]以教學(xué)大綱和百度詞條為基礎(chǔ),利用基于“自舉”的知識(shí)點(diǎn)識(shí)別算法,以典型知識(shí)點(diǎn)詞條為基礎(chǔ),逐步擴(kuò)展收集學(xué)科相關(guān)的其他知識(shí)點(diǎn)詞條,采取融合基于知識(shí)點(diǎn)上下文相似性和基于百度百科的點(diǎn)互信息策略構(gòu)建知識(shí)點(diǎn)之間的關(guān)聯(lián)性,從而構(gòu)建面向教育信息化和智能化的學(xué)科知識(shí)圖譜。黃超等[10]根據(jù)MOOC平臺(tái)上的課程相關(guān)信息,進(jìn)行課程術(shù)語挖掘和課程先后序?qū)W習(xí),其中借助圖的置信度傳播算法進(jìn)行課程術(shù)語抽取,使用基于課程大綱骨架的抽取算法確定術(shù)語的上下文關(guān)系。朱鵬等[11]以課程知識(shí)內(nèi)容的Web文檔資源為數(shù)據(jù),構(gòu)建基于課程知識(shí)圖譜的課程知識(shí)導(dǎo)航服務(wù)平臺(tái),計(jì)算TF-IDF(Term Frequency-Inverse Document Frequency)和MI(Mutual Information)的權(quán)值,并結(jié)合相似度和細(xì)化度方法,科學(xué)地量化課程術(shù)語間的層次關(guān)系并完成課程知識(shí)圖譜模式層的本體構(gòu)建,利用DOM(Document Object Model)樹完成課程知識(shí)圖譜的知識(shí)實(shí)例抽取。
本文創(chuàng)新性地利用自然語言處理等技術(shù),從專業(yè)課程的文本教材中自動(dòng)抽取術(shù)語及其依賴關(guān)系,以指導(dǎo)課程群建設(shè)。創(chuàng)新點(diǎn)體現(xiàn)在:構(gòu)建了面向計(jì)算機(jī)課程教材的語料庫;結(jié)合規(guī)則、統(tǒng)計(jì)和深度學(xué)習(xí)方法,抽取教材中的專業(yè)術(shù)語及其定義,構(gòu)建課程群概念圖譜;利用圖分析法對(duì)概念節(jié)點(diǎn)進(jìn)行權(quán)重分析,識(shí)別核心概念。
課程群概念圖譜是基于術(shù)語節(jié)點(diǎn)之間的內(nèi)在關(guān)系而形成的知識(shí)邏輯網(wǎng)絡(luò),其中每個(gè)節(jié)點(diǎn)由教材文本中自動(dòng)抽取的術(shù)語知識(shí)點(diǎn)構(gòu)成,并基于它們?cè)谖谋局械倪壿嬯P(guān)系自動(dòng)搭建術(shù)語之間的聯(lián)系。課程群概念圖譜的結(jié)構(gòu)化形式貼合專業(yè)課程群的知識(shí)體系和知識(shí)結(jié)構(gòu),可以幫助教師設(shè)計(jì)更高效的培養(yǎng)方案和教學(xué)計(jì)劃,也可以幫助學(xué)生梳理知識(shí)點(diǎn),形成系統(tǒng)觀。
課程群概念圖譜CNet(Concept Network)構(gòu)建方案如圖1所示。
Fig.1 Construction plan of curriculum group CNet圖1 課程群概念圖譜CNet構(gòu)建方案
術(shù)語抽取是構(gòu)建課程群概念圖CNet的基礎(chǔ),圖譜中的節(jié)點(diǎn)由文本中抽取的重要術(shù)語構(gòu)成。本文基于計(jì)算機(jī)專業(yè)系列教材,包括《操作系統(tǒng)》《計(jì)算機(jī)組成原理》《計(jì)算機(jī)網(wǎng)絡(luò)》《數(shù)字邏輯》等不同課程的多部教材,采用基于規(guī)則方法和基于深度學(xué)習(xí)的方法。
2.1.1 基于規(guī)則和統(tǒng)計(jì)的術(shù)語抽取
將術(shù)語構(gòu)詞規(guī)則、術(shù)語長(zhǎng)度、術(shù)語出現(xiàn)頻率等因素作為詞語術(shù)語性的衡量標(biāo)準(zhǔn)。為解決基礎(chǔ)算法破壞術(shù)語構(gòu)詞完整性、領(lǐng)域性的問題,采用單詞片拼接、語法規(guī)則庫過濾、融合TF-IDF和C-value的算法等步驟進(jìn)行基于規(guī)則和統(tǒng)計(jì)的術(shù)語抽?。?2]。
首先對(duì)原始語料進(jìn)行分詞后得到單詞片,由于通用詞典分詞會(huì)破壞術(shù)語完整性,對(duì)每個(gè)單詞碎片與左右相鄰片段進(jìn)行拼接得到詞串以還原術(shù)語的長(zhǎng)度及單元性,其中根據(jù)計(jì)算機(jī)術(shù)語長(zhǎng)度的最大值限制最大單詞片拼接數(shù)為5。對(duì)詞串串頻進(jìn)行統(tǒng)計(jì),為能涵蓋更多術(shù)語,將頻數(shù)閾值定為能涵蓋90%詞串處的值,串頻大于閾值的詞串將作為候選術(shù)語。由此得到的候選術(shù)語更具單元性和領(lǐng)域性,同時(shí)該方法也可處理嵌套術(shù)語的問題,例如“操作系統(tǒng)”和“單道批操作系統(tǒng)”的頻數(shù)同時(shí)大于閾值,則兩者都將被提取。
單純依靠單詞片的拼接,會(huì)導(dǎo)致結(jié)果中存在不符合邏輯或不符合術(shù)語構(gòu)詞規(guī)則的短語。本文根據(jù)文本語料、實(shí)驗(yàn)結(jié)果和語言學(xué)特征,總結(jié)明顯不能作為術(shù)語構(gòu)詞的詞性規(guī)則,非術(shù)語構(gòu)詞規(guī)則如表1所示。
Table 1 Rules of non-term words表1 非術(shù)語構(gòu)詞規(guī)則
對(duì)候選術(shù)語進(jìn)行詞性標(biāo)注,并根據(jù)規(guī)則庫對(duì)不符合規(guī)則的候選術(shù)語進(jìn)行過濾。但由于篩選后的結(jié)果中還包括普通常見詞語、無意義的字串等。針對(duì)出現(xiàn)的問題,參考張靜等[12]提出的IC-value計(jì)算公式,融合TF-IDF與C-value算法計(jì)算候選詞的術(shù)語度。
C-value算法主要依據(jù)統(tǒng)計(jì)信息,考慮了術(shù)語長(zhǎng)度和嵌套術(shù)語的影響,認(rèn)為術(shù)語長(zhǎng)度對(duì)C-value值起促進(jìn)作用。對(duì)于嵌套術(shù)語,若嵌套詞串出現(xiàn)的頻數(shù)較高,則被嵌套串是術(shù)語的可能性就越小,即嵌套串詞頻對(duì)被嵌套串的值起消極作用。但C-value方法不能有效過濾一些出現(xiàn)頻次很高的普通詞匯,因此融合算法中加入TF-IDF算法中的逆文檔頻率,以降低高頻次普通詞匯的術(shù)語度值。
本文根據(jù)處理方式的不同,采用改進(jìn)的融合算法,既考慮了術(shù)語長(zhǎng)度和術(shù)語嵌套,又剔除掉常用的普通詞匯,對(duì)候選術(shù)語a的術(shù)語度計(jì)算如式(1)所示。
其中,|a|表示候選術(shù)語a的長(zhǎng)度即候選術(shù)語包含的字?jǐn)?shù),tf(x)表示x在文檔集中出現(xiàn)的頻次,df(a)表示候選術(shù)語a的文檔頻率,b是候選術(shù)語a的嵌套候選術(shù)語,Ta表示候選術(shù)語a的嵌套候選術(shù)語集合。
2.1.2 基于BiLSTM+CRF的術(shù)語識(shí)別模型
將術(shù)語識(shí)別轉(zhuǎn)化為序列標(biāo)注任務(wù),構(gòu)建訓(xùn)練集BiLSTM+CRF模型,并通過測(cè)試集考察模型對(duì)術(shù)語識(shí)別的效果。
計(jì)算機(jī)專業(yè)領(lǐng)域的術(shù)語范圍較大,種類較多,選取教材文本作為語料,其包括常見的重要術(shù)語,本次研究的重點(diǎn)在于識(shí)別所有教學(xué)術(shù)語,為后續(xù)構(gòu)建概念圖做鋪墊。由基于統(tǒng)計(jì)和規(guī)則的方法得到結(jié)果,經(jīng)過人工篩選后作為初始詞典,對(duì)教材中的字串打上“B”“I”“O”3種標(biāo)簽,分別代表術(shù)語的開頭、術(shù)語的后續(xù)和非術(shù)語。
對(duì)教材每個(gè)章節(jié)均采用兩輪標(biāo)注,下文對(duì)具體任務(wù)內(nèi)容進(jìn)行介紹。第一輪標(biāo)注:使用當(dāng)前詞典中所包含的術(shù)語,以章節(jié)為單位,進(jìn)行第一輪標(biāo)注,對(duì)得到的標(biāo)注結(jié)果,進(jìn)行人工審核和識(shí)別,并向計(jì)算機(jī)術(shù)語詞典中添加未標(biāo)注的新術(shù)語,進(jìn)行更新。第二輪標(biāo)注:依據(jù)更新后的教材術(shù)語詞典對(duì)已進(jìn)行第一輪標(biāo)注的章節(jié)再次標(biāo)注,并以句子為單位進(jìn)行分割。
語料庫涵蓋計(jì)算機(jī)專業(yè)4門課程的教材文本,分別為:《操作系統(tǒng)》《計(jì)算機(jī)網(wǎng)絡(luò)》《計(jì)算機(jī)組成原理》《數(shù)字邏輯》,共有效標(biāo)注17 122個(gè)句子,其中《操作系統(tǒng)》6 036句、《計(jì)算機(jī)網(wǎng)絡(luò)》6 962句、《計(jì)算機(jī)組成原理》3 814句、《數(shù)字邏輯》310句,平均每個(gè)句子包含4個(gè)術(shù)語,最多的包含26個(gè)術(shù)語,最少的情況為句子中沒有術(shù)語,句子中術(shù)語字符占比平均值為0.07,最大值為0.23;語料中共包含4 426個(gè)術(shù)語,他們出現(xiàn)的頻次為77 342次,其中《操作系統(tǒng)》30 392次、《計(jì)算機(jī)網(wǎng)絡(luò)》30 815次、《計(jì)算機(jī)組成原理》14 758次、《數(shù)字邏輯》1 377次;術(shù)語的平均長(zhǎng)度為6個(gè)字符,最大長(zhǎng)度為49個(gè)字符,在詞典中僅有一個(gè),是“Internet-SecureAssociationandKeyManagementProtocol”,最小長(zhǎng)度為1個(gè)字符。
BiLSTM+CRF模型通過神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)字符的特征和字符間關(guān)系,再由條件隨機(jī)場(chǎng)優(yōu)化輸出序列,達(dá)到自動(dòng)學(xué)習(xí)識(shí)別術(shù)語的目標(biāo)。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)適合處理長(zhǎng)序列數(shù)據(jù),其隱藏層節(jié)點(diǎn)不僅取決于當(dāng)前輸入的信息,還受前一時(shí)刻歷史數(shù)據(jù)的影響,因此能夠在處理整個(gè)序列數(shù)據(jù)時(shí),不僅考慮單個(gè)詞語,還能更好地利用每個(gè)詞前后的雙向語義特征信息。同時(shí)在長(zhǎng)序列訓(xùn)練中,能夠處理反向傳播中出現(xiàn)的梯度消失和爆炸問題,有選擇地記憶重要信息和忘記不重要信息。條件隨機(jī)場(chǎng)可以學(xué)習(xí)標(biāo)簽之間的約束關(guān)系,根據(jù)輸入的特征向量?jī)?yōu)化輸出序列,防止不合法的標(biāo)簽情況。
CNet抽取術(shù)語的定義作為概念圖譜中節(jié)點(diǎn)的屬性。術(shù)語定義提取包括兩個(gè)階段:基于規(guī)則的候選定義識(shí)別和基于向量空間模型的候選定義篩選。
受文獻(xiàn)[13-15]的啟發(fā),結(jié)合對(duì)語料庫中定義語句的特征分析,首先通過術(shù)語定位候選句式,即句子中的關(guān)鍵詞被冒號(hào)引起來,或者后面接上了術(shù)語的英文形式。相應(yīng)的規(guī)則表達(dá)式為:Term→[“|”|"]?+關(guān)鍵詞+'[“|”|"]?((.*?))?
定義8條候選定義識(shí)別規(guī)則,即術(shù)語所在的句子如果符合以下規(guī)則,則該句子為術(shù)語的候選定義。其中,“句首號(hào)”表示出現(xiàn)在句子開頭的符號(hào),如句子開頭、逗號(hào)、右括號(hào)、序號(hào)等;“句尾號(hào)”表示出現(xiàn)在句子結(jié)束或停頓的符號(hào),如句子結(jié)尾、逗號(hào)、分號(hào)等。具體規(guī)則如表2所示。
Table 2 Extraction rules of term definition表2 術(shù)語定義抽取規(guī)則
對(duì)于某個(gè)術(shù)語,基于規(guī)則可能識(shí)別出多條候選定義,本文借助向量空間模型進(jìn)行術(shù)語定義準(zhǔn)確度排序,計(jì)算選定的術(shù)語和候選定義之間的相似度,據(jù)此篩選出最合適的術(shù)語定義[14]。向量空間模型(Vector-space models,VSM)用特征項(xiàng)及其相應(yīng)權(quán)值代表文檔信息,將文檔表示為向量,通過向量計(jì)算文檔之間的相似性。
給定候選術(shù)語定義句子S1,S2,S3,…,Sn,先對(duì)句子進(jìn)行停用詞過濾,將過濾后得到的詞作為句子的特征項(xiàng),再將候選術(shù)語定義句子視為一個(gè)集合,進(jìn)行詞頻統(tǒng)計(jì),挑選出前m個(gè)高頻詞語,構(gòu)建高頻詞向量H=(<t1,w1>,<t2,w2>,…,<tm,wm>),t1,t2,…,tm為該術(shù)語定義的詞語坐標(biāo)系,w1,w2,…,wm為相應(yīng)的詞頻,作為其坐標(biāo)值。之后,針對(duì)每個(gè)候選句子,根據(jù)高頻詞向量的詞語坐標(biāo),對(duì)其特征項(xiàng)進(jìn)行詞頻統(tǒng)計(jì),構(gòu)建每個(gè)候選句子的向量S=(<t1,w1>,<t2,w2>,…,<t15,wm>)。計(jì)算每個(gè)句子向量與高頻詞向量的相似度,相似度最高的句子作為術(shù)語定義的最優(yōu)選擇。本文在每個(gè)章節(jié)中的術(shù)語定義篩選時(shí),m設(shè)置為15。
本文的定義提取是在特定領(lǐng)域,對(duì)于一個(gè)特定術(shù)語而言,所需篩選的候選定義與選定的術(shù)語屬于一個(gè)領(lǐng)域內(nèi)的詞語,可能會(huì)多次出現(xiàn)在不同的句子中,導(dǎo)致其IDF值較低,因此與傳統(tǒng)TF-IDF權(quán)重不同,此處只以詞頻TF為權(quán)重。給定一個(gè)文檔S=(<t1,w1>,<t2,w2>,…<ti,wi>,…,<t|D|,w|D|>),t1,t2,…,t|D|是一個(gè)由詞表D張成的|D|維的坐標(biāo)系,wi為詞ti在S中的權(quán)重,即詞頻,則S可表示為向量<w1,w2,…,wi,…,w|D|)。同樣地,視高頻詞集合為一個(gè)文本后,也可以表示為一個(gè)向量,記為H=<h1,h2,…,hi,…,h|D|)。H和S之間的相似度定義為兩個(gè)向量的夾角余弦,如式(2)所示[14]。
實(shí)驗(yàn)的數(shù)據(jù)集包括:湯小丹等編著的《計(jì)算機(jī)操作系統(tǒng)》(第三版)、左萬利等編著的《計(jì)算機(jī)操作系統(tǒng)教程》(第四版)、任國林編著的《計(jì)算機(jī)組成原理》、唐朔飛編著的《計(jì)算機(jī)組成原理》、謝希仁編著的《計(jì)算機(jī)網(wǎng)絡(luò)》(第7版)和陳光夢(mèng)編著的《數(shù)字邏輯基礎(chǔ)》。
數(shù)據(jù)集共包含16 352條標(biāo)注語句,對(duì)全部語料按照15∶1:1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行實(shí)驗(yàn)。為測(cè)試訓(xùn)練的模型是否能屏蔽上下文環(huán)境影響和是否具有發(fā)現(xiàn)新術(shù)語的能力。其中,新術(shù)語表示在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過而在測(cè)試集中出現(xiàn)的術(shù)語,實(shí)驗(yàn)中使用《操作系統(tǒng)》《計(jì)算機(jī)網(wǎng)絡(luò)》《計(jì)算機(jī)組成原理》3本教材某一版本構(gòu)成訓(xùn)練集,并設(shè)置3個(gè)測(cè)試集,分別使用與上述3門課程教材相同(測(cè)試集1)、課程相同教材不同(測(cè)試集2)和課程不同(測(cè)試集3,《數(shù)字邏輯》教材)的測(cè)試數(shù)據(jù)。各數(shù)據(jù)集統(tǒng)計(jì)信息如表3所示。
Table 3 Data set statistics表3 數(shù)據(jù)集統(tǒng)計(jì)
BiLSTM-CRF模型參數(shù)設(shè)置如表4所示。采用的字符向量維度為100維,字符LSTM的隱層大小為105維。使用隨機(jī)梯度下降(SGD)算法訓(xùn)練模型,設(shè)置一個(gè)批次的樣本數(shù)為10,迭代次數(shù)為50,學(xué)習(xí)率為0.001。
Table 4 Parameter settings表4 模型參數(shù)設(shè)置
Table 5 Results of term recognition表5 術(shù)語識(shí)別結(jié)果
對(duì)抽取結(jié)果選取精確率(Precision)、召回率(Recall)和F1值(F-Measure)作為評(píng)估指標(biāo)。根據(jù)計(jì)算公式得出兩種方法在3個(gè)測(cè)試集上術(shù)語識(shí)別的對(duì)比結(jié)果。
對(duì)比BiLSTM+CRF模型在3個(gè)測(cè)試集上的表現(xiàn):
測(cè)試集1與訓(xùn)練集來源于相同教材,具有相同的上下文環(huán)境和同領(lǐng)域的術(shù)語。因此,根據(jù)上表的結(jié)果顯示,識(shí)別的效果在3個(gè)測(cè)試中最好,精確率和召回率都在95%左右,能夠有效抽取大部分術(shù)語。
測(cè)試集2與訓(xùn)練集所屬相同課程,但來自于不同作者的教材。相對(duì)于測(cè)試集1,其改變了上下文環(huán)境,但是術(shù)語種類大致相似。根據(jù)實(shí)驗(yàn)結(jié)果,精確率降低約10%,但召回率相差不多。模型在改變環(huán)境后,多識(shí)別出了一些非術(shù)語的詞語,例如:“LAN與WAN”“字證書”“FTP服務(wù)器”……出現(xiàn)很多將多種術(shù)語連在一起識(shí)別成一個(gè)術(shù)語、多識(shí)別或少識(shí)別出一個(gè)完整術(shù)語的部分字符的情況,但是在正確術(shù)語的覆蓋率上表現(xiàn)較好。
測(cè)試集3與訓(xùn)練集屬于不同課程,因此大多數(shù)術(shù)語屬于沒有在訓(xùn)練時(shí)出現(xiàn)過,僅僅出現(xiàn)過少量多門課程共同的術(shù)語。測(cè)試集3的目的在于測(cè)試模型的新詞發(fā)現(xiàn)能力。根據(jù)結(jié)果,模型識(shí)別出《數(shù)字邏輯》中199種新術(shù)語,包括“多輸出邏輯函數(shù)”“組合邏輯電路”“同步時(shí)序邏輯電路”“SynchronousSequentialLogicCircuit”……但是整體召回率較低,存在識(shí)別錯(cuò)誤的非術(shù)語詞,例如:將“卡諾圖簡(jiǎn)化邏輯函數(shù)”中的兩個(gè)術(shù)語抽取成“圖簡(jiǎn)化邏輯函數(shù)”“數(shù)字邏輯系統(tǒng)”只抽取了“字邏輯系統(tǒng)”……模型在識(shí)別新詞方面還有待提高。
基于規(guī)則和統(tǒng)計(jì)的方法與BiLSTM+CRF模型相比,其準(zhǔn)確率和召回率都相差較大,在候選術(shù)語頻率統(tǒng)計(jì)階段出現(xiàn)了較多低頻術(shù)語被篩掉的情況。其中,測(cè)試集1中被篩掉的低頻術(shù)語有216個(gè),測(cè)試集2中被篩掉171個(gè),測(cè)試集3中被篩掉67個(gè),導(dǎo)致抽取效果不佳。
根據(jù)術(shù)語抽取結(jié)果,采用基于規(guī)則的候選定義識(shí)別與基于向量空間模型的候選定義篩選算法,對(duì)每個(gè)術(shù)語進(jìn)行相應(yīng)定義提取。實(shí)驗(yàn)結(jié)果顯示,該方法在本文所給定的教材上有較好的抽取結(jié)果?;谝?guī)則匹配的方法具有良好的描述能力,而向量空間模型則考察了候選定義的相關(guān)性和重要性。
CNet中共有4 426個(gè)節(jié)點(diǎn),按所屬科目添加了不同顏色的標(biāo)簽,節(jié)點(diǎn)屬性展示了相應(yīng)的定義。通過PageRank算法可將它們按照重要性劃分為:普通術(shù)語和核心術(shù)語。按照專業(yè)術(shù)語在語料中的共現(xiàn)關(guān)系構(gòu)建邊,其中一般關(guān)系(CoInChapter)表示連接的兩個(gè)節(jié)點(diǎn)在同一章節(jié)共現(xiàn);緊密關(guān)系(CoInPara)表示連接的兩個(gè)節(jié)點(diǎn)在同一段落中共現(xiàn)。最終,完成的課程群概念局部圖展示如圖2所示。
Fig.2 Partial display of curriculum group CNet圖2 課程群局部概念圖展示
將課程群中的術(shù)語節(jié)點(diǎn)按重要性進(jìn)行分類,可以幫助教師在課堂中有側(cè)重性地加以講解,加深學(xué)生術(shù)語學(xué)習(xí)印象。本文通過PageRank算法計(jì)算各術(shù)語的點(diǎn)度中心性,根據(jù)點(diǎn)度中心性的排序鑒定術(shù)語是否屬于核心術(shù)語[16-17]。
PageRank算法中一個(gè)節(jié)點(diǎn)的重要性依據(jù)鏈接節(jié)點(diǎn)的數(shù)量和鏈接結(jié)點(diǎn)的權(quán)重,對(duì)每個(gè)鏈入節(jié)點(diǎn)經(jīng)過遞歸算法計(jì)算,達(dá)到收斂后,即為該節(jié)點(diǎn)的PR值,如式(3)所示。
其中,PR(A)是節(jié)點(diǎn)A的PR值;節(jié)點(diǎn)Ti是指向A的所有結(jié)點(diǎn)中的某個(gè)結(jié)點(diǎn);C(Tn)是結(jié)點(diǎn)Tn的出度,也即Tn指向其他節(jié)點(diǎn)的邊的個(gè)數(shù);d為阻尼系數(shù),是指在任意時(shí)刻,用戶到達(dá)某結(jié)點(diǎn)后并繼續(xù)向后跳轉(zhuǎn)的概率,通常d=0.85。
本文實(shí)驗(yàn)中設(shè)置迭代次數(shù)為20次,阻尼系數(shù)設(shè)置為0.85。對(duì)于概念圖中的每個(gè)節(jié)點(diǎn)計(jì)算其PR值,并設(shè)定閾值0.5,將大于閾值的術(shù)語定為重要術(shù)語,小于閾值的定位為普通術(shù)語,在圖譜中以不同節(jié)點(diǎn)加以區(qū)分。
課程群概念圖CNet旨在輔助課程群建設(shè)和教學(xué)。CNet融合和規(guī)劃了相關(guān)課程的群體性信息,又保留了每門課程單個(gè)術(shù)語自身的信息,可以在以下方面輔助教與學(xué)。
(1)使用CNet輔助高校專業(yè)課程體系構(gòu)建。CNet中術(shù)語節(jié)點(diǎn)之間的聯(lián)系可以形成單門課程甚至整個(gè)專業(yè)的知識(shí)圖譜,幫助分析章節(jié)內(nèi)、課程內(nèi)、課程間不同術(shù)語之間的關(guān)系,進(jìn)而形成概念子圖、概念社群,輔助課程群建設(shè),合理安排課程設(shè)置,研究課程之間的邏輯關(guān)系。同時(shí),也可以在培養(yǎng)方案設(shè)計(jì)時(shí),恰當(dāng)?shù)貏澐指髡n程的邊界,形成內(nèi)容緊湊、銜接合理、分工明確的課程群。例如:存儲(chǔ)管理中“段頁式存儲(chǔ)管理”“虛擬存儲(chǔ)器”與存儲(chǔ)系統(tǒng)中“高速緩沖存儲(chǔ)器”“快表”以及“主存—輔存層次”之間的聯(lián)系,如圖3所示。
Fig.3 Sub-network of concept "storage management"圖3 “存儲(chǔ)管理”概念子圖
(2)CNet可以同時(shí)為教師與學(xué)生雙方服務(wù)。如果將課程學(xué)習(xí)的過程分為:預(yù)習(xí)階段、課堂拓展階段、課后復(fù)習(xí)階段。在預(yù)習(xí)階段,可以通過整個(gè)框架和核心術(shù)語對(duì)總體內(nèi)容進(jìn)行了解;課堂學(xué)習(xí)時(shí),教師合理拓展關(guān)聯(lián)性術(shù)語,進(jìn)行鞏固或延申講解;對(duì)課程內(nèi)容總結(jié)復(fù)習(xí)時(shí),重點(diǎn)關(guān)注核心術(shù)語,并將相關(guān)知識(shí)串聯(lián),構(gòu)建知識(shí)體系。利用概念圖進(jìn)行自適應(yīng)學(xué)習(xí),依據(jù)使用者對(duì)知識(shí)的掌握程度,構(gòu)建學(xué)習(xí)畫像,選擇圖譜中不同的概念子圖、不同的學(xué)習(xí)路徑,以提供個(gè)性化幫助,提高學(xué)習(xí)針對(duì)性。圖4是在概念知識(shí)圖譜基礎(chǔ)上,針對(duì)“數(shù)據(jù)表示”這一知識(shí)點(diǎn)提取和調(diào)整后的概念子圖,可以幫助學(xué)生了解各種數(shù)據(jù)表示方法之間的聯(lián)系。
Fig.4 Sub-network of "data representation" knowledge point圖4 “數(shù)據(jù)表示”知識(shí)點(diǎn)的概念子圖
在計(jì)算機(jī)專業(yè)系統(tǒng)能力培養(yǎng)時(shí),課程內(nèi)容的選擇和課程術(shù)語的梳理是課程群建設(shè)和教學(xué)改革的重要基礎(chǔ),目前方法主要是基于任課教師的經(jīng)驗(yàn),缺乏定量分析,主觀性較強(qiáng)。如何自動(dòng)且有效地將各課程中的術(shù)語知識(shí)點(diǎn)有機(jī)組織起來,幫助教師在教與學(xué)時(shí)把握重點(diǎn)、理清關(guān)系,站在課程、課程群甚至整個(gè)專業(yè)的高度理解各個(gè)術(shù)語,提升系統(tǒng)觀和系統(tǒng)能力,這是本文構(gòu)建概念圖譜的主要目的。本文通過文本分析、自然語言處理等技術(shù)實(shí)現(xiàn)課程群概念圖譜構(gòu)建,輔助教師和學(xué)生由點(diǎn)及面地理解知識(shí)點(diǎn),架建知識(shí)框架,形成系統(tǒng)能力。
本文以計(jì)算機(jī)系統(tǒng)類課程群為例,詳細(xì)闡述了課程群概念圖譜構(gòu)建的完整過程。首先,使用基于規(guī)則和統(tǒng)計(jì)的方法以及基于BiLSTM+CRF的模型,從教材文本中抽取用于構(gòu)建圖譜節(jié)點(diǎn)的關(guān)鍵術(shù)語;其次,通過基于規(guī)則匹配的術(shù)語定義識(shí)別算法和基于向量空間模型的定義篩選算法,從文本集中篩選最適合術(shù)語的定義作為相應(yīng)節(jié)點(diǎn)的屬性,以術(shù)語在段落中的共現(xiàn)和在小節(jié)中的共現(xiàn)作為關(guān)系緊密程度的區(qū)分,分別構(gòu)建了緊密關(guān)系和普通關(guān)系兩種邊,在圖譜中加以區(qū)分展示;第三,基于PageRank算法,分析概念圖譜中術(shù)語的重要性,將術(shù)語分為重要術(shù)語和普通術(shù)語,并在圖譜中區(qū)分顯示;第四,選擇高效的存儲(chǔ)方法,將課程群概念圖譜進(jìn)行存儲(chǔ),用以輔助教學(xué)。
本研究是課程群概念圖譜的初步探索,還有很多待改進(jìn)之處,如計(jì)算機(jī)專業(yè)領(lǐng)域包含學(xué)科課程眾多,目前只對(duì)4門主要課程進(jìn)行語料庫構(gòu)建。后續(xù)工作中,可以繼續(xù)添加新課程教材文本,以及進(jìn)一步擴(kuò)充語料庫等。由于不同課程之間術(shù)語大多不同,本文的標(biāo)注方法需要耗費(fèi)大量人力,接下來可以進(jìn)行方法的替換和更新,自動(dòng)生成專業(yè)語料或者使用遷移學(xué)習(xí)更方便地構(gòu)建語料庫。此外,本文所使用的基礎(chǔ)混合算法模型,在已學(xué)習(xí)的數(shù)據(jù)集上表現(xiàn)較好,而在更換上下文環(huán)境后以及進(jìn)行新術(shù)語識(shí)別方面,還有待提高??稍诨A(chǔ)算法上作進(jìn)一步優(yōu)化,例如:在詞向量中加入子詞單元、語言學(xué)特征、注意力機(jī)制、多維特征等,以提高模型適應(yīng)性和識(shí)別能力。同時(shí),由于教材文本的行文特點(diǎn),其中存在大量口語化表達(dá),從而導(dǎo)致抽取出的結(jié)果中出現(xiàn)同義術(shù)語的多種表述形式,而這樣的同義術(shù)語應(yīng)當(dāng)在概念圖中使用一個(gè)節(jié)點(diǎn)進(jìn)行表示。后續(xù)應(yīng)對(duì)抽取的術(shù)語進(jìn)行同義詞合并,進(jìn)一步優(yōu)化課程概念圖的存儲(chǔ)空間和查詢效率。