計(jì)算機(jī)系統(tǒng)類課程群概念圖自動(dòng)構(gòu)建研究

2023-07-16 08:16劉德喜陳雨婕劉宇星狄國強(qiáng)邱寶林廖國瓊

軟件導(dǎo)刊 2023年6期

劉德喜，陳雨婕，劉宇星，狄國強(qiáng)，邱寶林，廖國瓊

（江西財(cái)經(jīng)大學(xué) 信息管理學(xué)院，江西南昌 330013）

0 引言

計(jì)算機(jī)人才培養(yǎng)強(qiáng)調(diào)的程序性開發(fā)能力正在轉(zhuǎn)化為更重要的系統(tǒng)性設(shè)計(jì)能力，未來將會(huì)更關(guān)注學(xué)生掌握軟硬件協(xié)同工作的能力以及解決復(fù)雜工程問題的能力。根據(jù)新工科專業(yè)系統(tǒng)能力培養(yǎng)改革與實(shí)踐指導(dǎo)，突出系統(tǒng)化思想對(duì)于高校計(jì)算機(jī)專業(yè)教學(xué)和培養(yǎng)的重要影響。缺乏知識(shí)的整體性理解和系統(tǒng)的綜合實(shí)踐能力是現(xiàn)階段課程體系下暴露出來的問題，需要建立新的計(jì)算機(jī)專業(yè)教學(xué)課程體系，重新規(guī)劃計(jì)算機(jī)課程的重點(diǎn)內(nèi)容和順序設(shè)置。高校受有限的教學(xué)課時(shí)等條件制約，需要對(duì)專業(yè)課程設(shè)置、課程內(nèi)容選擇和課程之間的邏輯關(guān)系進(jìn)行合理劃分和組織，形成一個(gè)有序、互聯(lián)的課程群落。系統(tǒng)類課程群的建設(shè)使專業(yè)知識(shí)框架更加合理和完善，帶動(dòng)整體教學(xué)水平進(jìn)一步提高，使學(xué)生的素質(zhì)和實(shí)踐能力躍上新臺(tái)階。

計(jì)算機(jī)專業(yè)知識(shí)體系覆蓋范圍廣，課程群中術(shù)語和知識(shí)內(nèi)容繁雜，不同課程知識(shí)之間具有連續(xù)性，授課過程中，一些術(shù)語總是孤立講授，未能與相關(guān)術(shù)語合理關(guān)聯(lián)，無法構(gòu)成專業(yè)學(xué)科級(jí)知識(shí)體系。構(gòu)建專業(yè)課程群應(yīng)從課程定位以及課程之間的邏輯關(guān)系出發(fā)，基于最根本的課程內(nèi)容結(jié)合“系統(tǒng)觀”思想，將專業(yè)知識(shí)點(diǎn)有機(jī)組織，有效指導(dǎo)教師的授課重點(diǎn)。通過融合和規(guī)劃相關(guān)課程群的信息，合理安排術(shù)語的講授順序和邏輯，可以在有限的時(shí)間內(nèi)幫助學(xué)生構(gòu)建知識(shí)框架，形成系統(tǒng)能力。

本文以計(jì)算機(jī)系統(tǒng)類課程群為例，基于術(shù)語、定義抽取及圖分析技術(shù)，自動(dòng)完成課程群概念圖構(gòu)建，以更好地輔助教師教學(xué)，培養(yǎng)學(xué)生系統(tǒng)能力并構(gòu)建完整的知識(shí)框架，從而推動(dòng)教育信息化、智能化發(fā)展。

1 相關(guān)研究

1.1 計(jì)算機(jī)系統(tǒng)類課程群及其建設(shè)方法

計(jì)算機(jī)系統(tǒng)類課程群建設(shè)主要研究在系統(tǒng)能力培養(yǎng)要求下的相關(guān)課程設(shè)置、課程定位和課程之間的邏輯關(guān)系。國內(nèi)各高校參照示范單位并基于本校師資等條件，建設(shè)適合自己的計(jì)算機(jī)類專業(yè)系統(tǒng)能力培養(yǎng)方式，提高學(xué)生適應(yīng)新經(jīng)濟(jì)發(fā)展的整體素質(zhì)和能力。

其中，清華大學(xué)提出分層、雙向的系統(tǒng)能力培養(yǎng)課程體系建設(shè)新思路，借鑒國外著名高校，開設(shè)系統(tǒng)能力培養(yǎng)課程橫縱向梳理知識(shí)體系，明確各層次教學(xué)內(nèi)容，建立計(jì)算機(jī)系統(tǒng)層次間的聯(lián)系，并輔以課程實(shí)驗(yàn)體系，逐級(jí)遞進(jìn)，以迭代的方式培養(yǎng)學(xué)生能力［1］。廣東工業(yè)大學(xué)針對(duì)軟硬件教學(xué)活動(dòng)分離的現(xiàn)狀，提出兩者結(jié)合的計(jì)算機(jī)專業(yè)基礎(chǔ)課程群實(shí)驗(yàn)教學(xué)模式，通過對(duì)“軟”“硬”線課程內(nèi)容協(xié)同優(yōu)化，再總結(jié)和挖掘課程間的內(nèi)在聯(lián)系，結(jié)合教學(xué)方案構(gòu)建課程群知識(shí)地圖，通過關(guān)鍵路徑發(fā)現(xiàn)先修、后修制約關(guān)系支撐教學(xué)［2］。桂林電子科技大學(xué)根據(jù)系統(tǒng)能力培養(yǎng)總目標(biāo)及計(jì)算機(jī)系統(tǒng)各層次之間的關(guān)系，明確各課程教學(xué)目標(biāo)，并構(gòu)建“三橫兩縱”實(shí)踐課程教學(xué)體系，從基礎(chǔ)、專業(yè)和綜合3個(gè)層次能力培養(yǎng)逐步過渡，和開設(shè)軟、硬件課程實(shí)踐環(huán)節(jié)兩個(gè)角度，培養(yǎng)學(xué)生計(jì)算機(jī)系統(tǒng)綜合開發(fā)能力［3］。北京航空航天大學(xué)以“三位一體”教學(xué)目標(biāo)和“三工”教學(xué)準(zhǔn)則，由傳統(tǒng)建設(shè)模式轉(zhuǎn)變?yōu)椤耙哉n程群為中心”的建設(shè)模式，精簡(jiǎn)非必要知識(shí)，重構(gòu)整個(gè)課程群體系［4］。其他高校計(jì)算機(jī)院系也以“系統(tǒng)能力培養(yǎng)”為主線組建“系統(tǒng)能力培養(yǎng)課程群”，對(duì)教學(xué)內(nèi)容依學(xué)生掌握程度進(jìn)行分解和整合，挖掘不同課程的相似內(nèi)容，實(shí)現(xiàn)整體化協(xié)作式教學(xué)［5-6］。

本文依據(jù)教材分析整個(gè)課程或課程群中的相關(guān)術(shù)語及其之間的內(nèi)在關(guān)系，構(gòu)建計(jì)算機(jī)系統(tǒng)類課程群中的概念圖譜，輔助建設(shè)課程群。本文創(chuàng)新性地提出利用自動(dòng)分析方法識(shí)別整個(gè)課程或課程群中的術(shù)語、定義，并確定核心術(shù)語以及它們之間的關(guān)聯(lián)形成專業(yè)課程群概念圖。該方法一方面可以改進(jìn)現(xiàn)有研究在分析課程群概念關(guān)系上的主觀性，同時(shí)還能從課程群全局或系統(tǒng)出發(fā)，勾勒出概念關(guān)系圖，有利于幫助學(xué)生建立系統(tǒng)觀。

1.2 課程概念圖譜構(gòu)建

課程概念圖譜直觀展示專業(yè)中的各個(gè)概念以及整合它們的關(guān)系網(wǎng)絡(luò)，是課程群建設(shè)的重要內(nèi)容。相關(guān)工作中，有的從授課內(nèi)容出發(fā)，構(gòu)建簡(jiǎn)略的教學(xué)知識(shí)圖譜［7］；有對(duì)龐大的知識(shí)點(diǎn)進(jìn)行梳理和分割，構(gòu)建分層拓?fù)涞母拍顖D譜［8］。這些方法中，主要根據(jù)對(duì)培養(yǎng)方案和教學(xué)大綱的研討和論證完成對(duì)知識(shí)點(diǎn)的提煉。已有工作大都采用人工方式，受人力、時(shí)間等因素局限，往往只涉及單個(gè)課程，提煉的知識(shí)點(diǎn)數(shù)量也很有限，難以展示課程知識(shí)結(jié)構(gòu)以及知識(shí)點(diǎn)之間的關(guān)系。

在教育領(lǐng)域，對(duì)知識(shí)圖譜自動(dòng)構(gòu)建時(shí)，張勇等［9］以教學(xué)大綱和百度詞條為基礎(chǔ)，利用基于“自舉”的知識(shí)點(diǎn)識(shí)別算法，以典型知識(shí)點(diǎn)詞條為基礎(chǔ)，逐步擴(kuò)展收集學(xué)科相關(guān)的其他知識(shí)點(diǎn)詞條，采取融合基于知識(shí)點(diǎn)上下文相似性和基于百度百科的點(diǎn)互信息策略構(gòu)建知識(shí)點(diǎn)之間的關(guān)聯(lián)性，從而構(gòu)建面向教育信息化和智能化的學(xué)科知識(shí)圖譜。黃超等［10］根據(jù)MOOC平臺(tái)上的課程相關(guān)信息，進(jìn)行課程術(shù)語挖掘和課程先后序?qū)W習(xí)，其中借助圖的置信度傳播算法進(jìn)行課程術(shù)語抽取，使用基于課程大綱骨架的抽取算法確定術(shù)語的上下文關(guān)系。朱鵬等［11］以課程知識(shí)內(nèi)容的Web文檔資源為數(shù)據(jù)，構(gòu)建基于課程知識(shí)圖譜的課程知識(shí)導(dǎo)航服務(wù)平臺(tái)，計(jì)算TF-IDF（Term Frequency-Inverse Document Frequency）和MI（Mutual Information）的權(quán)值，并結(jié)合相似度和細(xì)化度方法，科學(xué)地量化課程術(shù)語間的層次關(guān)系并完成課程知識(shí)圖譜模式層的本體構(gòu)建，利用DOM（Document Object Model）樹完成課程知識(shí)圖譜的知識(shí)實(shí)例抽取。

本文創(chuàng)新性地利用自然語言處理等技術(shù)，從專業(yè)課程的文本教材中自動(dòng)抽取術(shù)語及其依賴關(guān)系，以指導(dǎo)課程群建設(shè)。創(chuàng)新點(diǎn)體現(xiàn)在：構(gòu)建了面向計(jì)算機(jī)課程教材的語料庫；結(jié)合規(guī)則、統(tǒng)計(jì)和深度學(xué)習(xí)方法，抽取教材中的專業(yè)術(shù)語及其定義，構(gòu)建課程群概念圖譜；利用圖分析法對(duì)概念節(jié)點(diǎn)進(jìn)行權(quán)重分析，識(shí)別核心概念。

2 課程群概念圖譜構(gòu)建

課程群概念圖譜是基于術(shù)語節(jié)點(diǎn)之間的內(nèi)在關(guān)系而形成的知識(shí)邏輯網(wǎng)絡(luò)，其中每個(gè)節(jié)點(diǎn)由教材文本中自動(dòng)抽取的術(shù)語知識(shí)點(diǎn)構(gòu)成，并基于它們?cè)谖谋局械倪壿嬯P(guān)系自動(dòng)搭建術(shù)語之間的聯(lián)系。課程群概念圖譜的結(jié)構(gòu)化形式貼合專業(yè)課程群的知識(shí)體系和知識(shí)結(jié)構(gòu)，可以幫助教師設(shè)計(jì)更高效的培養(yǎng)方案和教學(xué)計(jì)劃，也可以幫助學(xué)生梳理知識(shí)點(diǎn)，形成系統(tǒng)觀。

課程群概念圖譜CNet（Concept Network）構(gòu)建方案如圖1所示。

Fig.1 Construction plan of curriculum group CNet圖1 課程群概念圖譜CNet構(gòu)建方案

2.1 術(shù)語抽取

術(shù)語抽取是構(gòu)建課程群概念圖CNet的基礎(chǔ)，圖譜中的節(jié)點(diǎn)由文本中抽取的重要術(shù)語構(gòu)成。本文基于計(jì)算機(jī)專業(yè)系列教材，包括《操作系統(tǒng)》《計(jì)算機(jī)組成原理》《計(jì)算機(jī)網(wǎng)絡(luò)》《數(shù)字邏輯》等不同課程的多部教材，采用基于規(guī)則方法和基于深度學(xué)習(xí)的方法。

2.1.1 基于規(guī)則和統(tǒng)計(jì)的術(shù)語抽取

將術(shù)語構(gòu)詞規(guī)則、術(shù)語長(zhǎng)度、術(shù)語出現(xiàn)頻率等因素作為詞語術(shù)語性的衡量標(biāo)準(zhǔn)。為解決基礎(chǔ)算法破壞術(shù)語構(gòu)詞完整性、領(lǐng)域性的問題，采用單詞片拼接、語法規(guī)則庫過濾、融合TF-IDF和C-value的算法等步驟進(jìn)行基于規(guī)則和統(tǒng)計(jì)的術(shù)語抽?。?2］。

首先對(duì)原始語料進(jìn)行分詞后得到單詞片，由于通用詞典分詞會(huì)破壞術(shù)語完整性，對(duì)每個(gè)單詞碎片與左右相鄰片段進(jìn)行拼接得到詞串以還原術(shù)語的長(zhǎng)度及單元性，其中根據(jù)計(jì)算機(jī)術(shù)語長(zhǎng)度的最大值限制最大單詞片拼接數(shù)為5。對(duì)詞串串頻進(jìn)行統(tǒng)計(jì)，為能涵蓋更多術(shù)語，將頻數(shù)閾值定為能涵蓋90%詞串處的值，串頻大于閾值的詞串將作為候選術(shù)語。由此得到的候選術(shù)語更具單元性和領(lǐng)域性，同時(shí)該方法也可處理嵌套術(shù)語的問題，例如“操作系統(tǒng)”和“單道批操作系統(tǒng)”的頻數(shù)同時(shí)大于閾值，則兩者都將被提取。

單純依靠單詞片的拼接，會(huì)導(dǎo)致結(jié)果中存在不符合邏輯或不符合術(shù)語構(gòu)詞規(guī)則的短語。本文根據(jù)文本語料、實(shí)驗(yàn)結(jié)果和語言學(xué)特征，總結(jié)明顯不能作為術(shù)語構(gòu)詞的詞性規(guī)則，非術(shù)語構(gòu)詞規(guī)則如表1所示。

Table 1 Rules of non-term words表1 非術(shù)語構(gòu)詞規(guī)則

對(duì)候選術(shù)語進(jìn)行詞性標(biāo)注，并根據(jù)規(guī)則庫對(duì)不符合規(guī)則的候選術(shù)語進(jìn)行過濾。但由于篩選后的結(jié)果中還包括普通常見詞語、無意義的字串等。針對(duì)出現(xiàn)的問題，參考張靜等［12］提出的IC-value計(jì)算公式，融合TF-IDF與C-value算法計(jì)算候選詞的術(shù)語度。

C-value算法主要依據(jù)統(tǒng)計(jì)信息，考慮了術(shù)語長(zhǎng)度和嵌套術(shù)語的影響，認(rèn)為術(shù)語長(zhǎng)度對(duì)C-value值起促進(jìn)作用。對(duì)于嵌套術(shù)語，若嵌套詞串出現(xiàn)的頻數(shù)較高，則被嵌套串是術(shù)語的可能性就越小，即嵌套串詞頻對(duì)被嵌套串的值起消極作用。但C-value方法不能有效過濾一些出現(xiàn)頻次很高的普通詞匯，因此融合算法中加入TF-IDF算法中的逆文檔頻率，以降低高頻次普通詞匯的術(shù)語度值。

本文根據(jù)處理方式的不同，采用改進(jìn)的融合算法，既考慮了術(shù)語長(zhǎng)度和術(shù)語嵌套，又剔除掉常用的普通詞匯，對(duì)候選術(shù)語a的術(shù)語度計(jì)算如式（1）所示。

其中，|a|表示候選術(shù)語a的長(zhǎng)度即候選術(shù)語包含的字?jǐn)?shù)，tf（x）表示x在文檔集中出現(xiàn)的頻次，df（a）表示候選術(shù)語a的文檔頻率，b是候選術(shù)語a的嵌套候選術(shù)語，Ta表示候選術(shù)語a的嵌套候選術(shù)語集合。

2.1.2 基于BiLSTM+CRF的術(shù)語識(shí)別模型

將術(shù)語識(shí)別轉(zhuǎn)化為序列標(biāo)注任務(wù)，構(gòu)建訓(xùn)練集BiLSTM+CRF模型，并通過測(cè)試集考察模型對(duì)術(shù)語識(shí)別的效果。

計(jì)算機(jī)專業(yè)領(lǐng)域的術(shù)語范圍較大，種類較多，選取教材文本作為語料，其包括常見的重要術(shù)語，本次研究的重點(diǎn)在于識(shí)別所有教學(xué)術(shù)語，為后續(xù)構(gòu)建概念圖做鋪墊。由基于統(tǒng)計(jì)和規(guī)則的方法得到結(jié)果，經(jīng)過人工篩選后作為初始詞典，對(duì)教材中的字串打上“B”“I”“O”3種標(biāo)簽，分別代表術(shù)語的開頭、術(shù)語的后續(xù)和非術(shù)語。

對(duì)教材每個(gè)章節(jié)均采用兩輪標(biāo)注，下文對(duì)具體任務(wù)內(nèi)容進(jìn)行介紹。第一輪標(biāo)注：使用當(dāng)前詞典中所包含的術(shù)語，以章節(jié)為單位，進(jìn)行第一輪標(biāo)注，對(duì)得到的標(biāo)注結(jié)果，進(jìn)行人工審核和識(shí)別，并向計(jì)算機(jī)術(shù)語詞典中添加未標(biāo)注的新術(shù)語，進(jìn)行更新。第二輪標(biāo)注：依據(jù)更新后的教材術(shù)語詞典對(duì)已進(jìn)行第一輪標(biāo)注的章節(jié)再次標(biāo)注，并以句子為單位進(jìn)行分割。

語料庫涵蓋計(jì)算機(jī)專業(yè)4門課程的教材文本，分別為：《操作系統(tǒng)》《計(jì)算機(jī)網(wǎng)絡(luò)》《計(jì)算機(jī)組成原理》《數(shù)字邏輯》，共有效標(biāo)注17 122個(gè)句子，其中《操作系統(tǒng)》6 036句、《計(jì)算機(jī)網(wǎng)絡(luò)》6 962句、《計(jì)算機(jī)組成原理》3 814句、《數(shù)字邏輯》310句，平均每個(gè)句子包含4個(gè)術(shù)語，最多的包含26個(gè)術(shù)語，最少的情況為句子中沒有術(shù)語，句子中術(shù)語字符占比平均值為0.07，最大值為0.23；語料中共包含4 426個(gè)術(shù)語，他們出現(xiàn)的頻次為77 342次，其中《操作系統(tǒng)》30 392次、《計(jì)算機(jī)網(wǎng)絡(luò)》30 815次、《計(jì)算機(jī)組成原理》14 758次、《數(shù)字邏輯》1 377次；術(shù)語的平均長(zhǎng)度為6個(gè)字符，最大長(zhǎng)度為49個(gè)字符，在詞典中僅有一個(gè)，是“Internet-SecureAssociationandKeyManagementProtocol”，最小長(zhǎng)度為1個(gè)字符。

BiLSTM+CRF模型通過神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)字符的特征和字符間關(guān)系，再由條件隨機(jī)場(chǎng)優(yōu)化輸出序列，達(dá)到自動(dòng)學(xué)習(xí)識(shí)別術(shù)語的目標(biāo)。雙向長(zhǎng)短期記憶網(wǎng)絡(luò)適合處理長(zhǎng)序列數(shù)據(jù)，其隱藏層節(jié)點(diǎn)不僅取決于當(dāng)前輸入的信息，還受前一時(shí)刻歷史數(shù)據(jù)的影響，因此能夠在處理整個(gè)序列數(shù)據(jù)時(shí)，不僅考慮單個(gè)詞語，還能更好地利用每個(gè)詞前后的雙向語義特征信息。同時(shí)在長(zhǎng)序列訓(xùn)練中，能夠處理反向傳播中出現(xiàn)的梯度消失和爆炸問題，有選擇地記憶重要信息和忘記不重要信息。條件隨機(jī)場(chǎng)可以學(xué)習(xí)標(biāo)簽之間的約束關(guān)系，根據(jù)輸入的特征向量?jī)?yōu)化輸出序列，防止不合法的標(biāo)簽情況。

2.2 術(shù)語定義提取

CNet抽取術(shù)語的定義作為概念圖譜中節(jié)點(diǎn)的屬性。術(shù)語定義提取包括兩個(gè)階段：基于規(guī)則的候選定義識(shí)別和基于向量空間模型的候選定義篩選。

受文獻(xiàn)［13-15］的啟發(fā)，結(jié)合對(duì)語料庫中定義語句的特征分析，首先通過術(shù)語定位候選句式，即句子中的關(guān)鍵詞被冒號(hào)引起來，或者后面接上了術(shù)語的英文形式。相應(yīng)的規(guī)則表達(dá)式為：Term→［“|”|"］？+關(guān)鍵詞+'［“|”|"］？（（.*？））？

定義8條候選定義識(shí)別規(guī)則，即術(shù)語所在的句子如果符合以下規(guī)則，則該句子為術(shù)語的候選定義。其中，“句首號(hào)”表示出現(xiàn)在句子開頭的符號(hào)，如句子開頭、逗號(hào)、右括號(hào)、序號(hào)等；“句尾號(hào)”表示出現(xiàn)在句子結(jié)束或停頓的符號(hào)，如句子結(jié)尾、逗號(hào)、分號(hào)等。具體規(guī)則如表2所示。

Table 2 Extraction rules of term definition表2 術(shù)語定義抽取規(guī)則

對(duì)于某個(gè)術(shù)語，基于規(guī)則可能識(shí)別出多條候選定義，本文借助向量空間模型進(jìn)行術(shù)語定義準(zhǔn)確度排序，計(jì)算選定的術(shù)語和候選定義之間的相似度，據(jù)此篩選出最合適的術(shù)語定義［14］。向量空間模型（Vector-space models，VSM）用特征項(xiàng)及其相應(yīng)權(quán)值代表文檔信息，將文檔表示為向量，通過向量計(jì)算文檔之間的相似性。

給定候選術(shù)語定義句子S1，S2，S3，…，Sn，先對(duì)句子進(jìn)行停用詞過濾，將過濾后得到的詞作為句子的特征項(xiàng)，再將候選術(shù)語定義句子視為一個(gè)集合，進(jìn)行詞頻統(tǒng)計(jì)，挑選出前m個(gè)高頻詞語，構(gòu)建高頻詞向量H=（＜t1，w1＞，＜t2，w2＞，…，＜tm，wm＞），t1，t2，…，tm為該術(shù)語定義的詞語坐標(biāo)系，w1，w2，…，wm為相應(yīng)的詞頻，作為其坐標(biāo)值。之后，針對(duì)每個(gè)候選句子，根據(jù)高頻詞向量的詞語坐標(biāo)，對(duì)其特征項(xiàng)進(jìn)行詞頻統(tǒng)計(jì)，構(gòu)建每個(gè)候選句子的向量S=（＜t1，w1＞，＜t2，w2＞，…，＜t15，wm＞）。計(jì)算每個(gè)句子向量與高頻詞向量的相似度，相似度最高的句子作為術(shù)語定義的最優(yōu)選擇。本文在每個(gè)章節(jié)中的術(shù)語定義篩選時(shí)，m設(shè)置為15。

本文的定義提取是在特定領(lǐng)域，對(duì)于一個(gè)特定術(shù)語而言，所需篩選的候選定義與選定的術(shù)語屬于一個(gè)領(lǐng)域內(nèi)的詞語，可能會(huì)多次出現(xiàn)在不同的句子中，導(dǎo)致其IDF值較低，因此與傳統(tǒng)TF-IDF權(quán)重不同，此處只以詞頻TF為權(quán)重。給定一個(gè)文檔S=（＜t1，w1＞，＜t2，w2＞，…＜ti，wi＞，…，＜t|D|，w|D|＞），t1，t2，…，t|D|是一個(gè)由詞表D張成的|D|維的坐標(biāo)系，wi為詞ti在S中的權(quán)重，即詞頻，則S可表示為向量＜w1，w2，…，wi，…，w|D|）。同樣地，視高頻詞集合為一個(gè)文本后，也可以表示為一個(gè)向量，記為H=＜h1，h2，…，hi，…，h|D|）。H和S之間的相似度定義為兩個(gè)向量的夾角余弦，如式（2）所示［14］。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集及實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)的數(shù)據(jù)集包括：湯小丹等編著的《計(jì)算機(jī)操作系統(tǒng)》（第三版）、左萬利等編著的《計(jì)算機(jī)操作系統(tǒng)教程》（第四版）、任國林編著的《計(jì)算機(jī)組成原理》、唐朔飛編著的《計(jì)算機(jī)組成原理》、謝希仁編著的《計(jì)算機(jī)網(wǎng)絡(luò)》（第7版）和陳光夢(mèng)編著的《數(shù)字邏輯基礎(chǔ)》。

數(shù)據(jù)集共包含16 352條標(biāo)注語句，對(duì)全部語料按照15∶1：1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集進(jìn)行實(shí)驗(yàn)。為測(cè)試訓(xùn)練的模型是否能屏蔽上下文環(huán)境影響和是否具有發(fā)現(xiàn)新術(shù)語的能力。其中，新術(shù)語表示在訓(xùn)練數(shù)據(jù)中未出現(xiàn)過而在測(cè)試集中出現(xiàn)的術(shù)語，實(shí)驗(yàn)中使用《操作系統(tǒng)》《計(jì)算機(jī)網(wǎng)絡(luò)》《計(jì)算機(jī)組成原理》3本教材某一版本構(gòu)成訓(xùn)練集，并設(shè)置3個(gè)測(cè)試集，分別使用與上述3門課程教材相同（測(cè)試集1）、課程相同教材不同（測(cè)試集2）和課程不同（測(cè)試集3，《數(shù)字邏輯》教材）的測(cè)試數(shù)據(jù)。各數(shù)據(jù)集統(tǒng)計(jì)信息如表3所示。

Table 3 Data set statistics表3 數(shù)據(jù)集統(tǒng)計(jì)

BiLSTM-CRF模型參數(shù)設(shè)置如表4所示。采用的字符向量維度為100維，字符LSTM的隱層大小為105維。使用隨機(jī)梯度下降（SGD）算法訓(xùn)練模型，設(shè)置一個(gè)批次的樣本數(shù)為10，迭代次數(shù)為50，學(xué)習(xí)率為0.001。

Table 4 Parameter settings表4 模型參數(shù)設(shè)置

Table 5 Results of term recognition表5 術(shù)語識(shí)別結(jié)果

3.2 術(shù)語抽取實(shí)驗(yàn)結(jié)果

對(duì)抽取結(jié)果選取精確率（Precision）、召回率（Recall）和F1值（F-Measure）作為評(píng)估指標(biāo)。根據(jù)計(jì)算公式得出兩種方法在3個(gè)測(cè)試集上術(shù)語識(shí)別的對(duì)比結(jié)果。

對(duì)比BiLSTM+CRF模型在3個(gè)測(cè)試集上的表現(xiàn)：

測(cè)試集1與訓(xùn)練集來源于相同教材，具有相同的上下文環(huán)境和同領(lǐng)域的術(shù)語。因此，根據(jù)上表的結(jié)果顯示，識(shí)別的效果在3個(gè)測(cè)試中最好，精確率和召回率都在95%左右，能夠有效抽取大部分術(shù)語。

測(cè)試集2與訓(xùn)練集所屬相同課程，但來自于不同作者的教材。相對(duì)于測(cè)試集1，其改變了上下文環(huán)境，但是術(shù)語種類大致相似。根據(jù)實(shí)驗(yàn)結(jié)果，精確率降低約10%，但召回率相差不多。模型在改變環(huán)境后，多識(shí)別出了一些非術(shù)語的詞語，例如：“LAN與WAN”“字證書”“FTP服務(wù)器”……出現(xiàn)很多將多種術(shù)語連在一起識(shí)別成一個(gè)術(shù)語、多識(shí)別或少識(shí)別出一個(gè)完整術(shù)語的部分字符的情況，但是在正確術(shù)語的覆蓋率上表現(xiàn)較好。

測(cè)試集3與訓(xùn)練集屬于不同課程，因此大多數(shù)術(shù)語屬于沒有在訓(xùn)練時(shí)出現(xiàn)過，僅僅出現(xiàn)過少量多門課程共同的術(shù)語。測(cè)試集3的目的在于測(cè)試模型的新詞發(fā)現(xiàn)能力。根據(jù)結(jié)果，模型識(shí)別出《數(shù)字邏輯》中199種新術(shù)語，包括“多輸出邏輯函數(shù)”“組合邏輯電路”“同步時(shí)序邏輯電路”“SynchronousSequentialLogicCircuit”……但是整體召回率較低，存在識(shí)別錯(cuò)誤的非術(shù)語詞，例如：將“卡諾圖簡(jiǎn)化邏輯函數(shù)”中的兩個(gè)術(shù)語抽取成“圖簡(jiǎn)化邏輯函數(shù)”“數(shù)字邏輯系統(tǒng)”只抽取了“字邏輯系統(tǒng)”……模型在識(shí)別新詞方面還有待提高。

基于規(guī)則和統(tǒng)計(jì)的方法與BiLSTM+CRF模型相比，其準(zhǔn)確率和召回率都相差較大，在候選術(shù)語頻率統(tǒng)計(jì)階段出現(xiàn)了較多低頻術(shù)語被篩掉的情況。其中，測(cè)試集1中被篩掉的低頻術(shù)語有216個(gè)，測(cè)試集2中被篩掉171個(gè)，測(cè)試集3中被篩掉67個(gè)，導(dǎo)致抽取效果不佳。

根據(jù)術(shù)語抽取結(jié)果，采用基于規(guī)則的候選定義識(shí)別與基于向量空間模型的候選定義篩選算法，對(duì)每個(gè)術(shù)語進(jìn)行相應(yīng)定義提取。實(shí)驗(yàn)結(jié)果顯示，該方法在本文所給定的教材上有較好的抽取結(jié)果?；谝?guī)則匹配的方法具有良好的描述能力，而向量空間模型則考察了候選定義的相關(guān)性和重要性。

4 課程群概念圖譜及應(yīng)用

4.1 課程群概念圖構(gòu)建

CNet中共有4 426個(gè)節(jié)點(diǎn)，按所屬科目添加了不同顏色的標(biāo)簽，節(jié)點(diǎn)屬性展示了相應(yīng)的定義。通過PageRank算法可將它們按照重要性劃分為：普通術(shù)語和核心術(shù)語。按照專業(yè)術(shù)語在語料中的共現(xiàn)關(guān)系構(gòu)建邊，其中一般關(guān)系（CoInChapter）表示連接的兩個(gè)節(jié)點(diǎn)在同一章節(jié)共現(xiàn)；緊密關(guān)系（CoInPara）表示連接的兩個(gè)節(jié)點(diǎn)在同一段落中共現(xiàn)。最終，完成的課程群概念局部圖展示如圖2所示。

Fig.2 Partial display of curriculum group CNet圖2 課程群局部概念圖展示

4.2 核心術(shù)語分析

將課程群中的術(shù)語節(jié)點(diǎn)按重要性進(jìn)行分類，可以幫助教師在課堂中有側(cè)重性地加以講解，加深學(xué)生術(shù)語學(xué)習(xí)印象。本文通過PageRank算法計(jì)算各術(shù)語的點(diǎn)度中心性，根據(jù)點(diǎn)度中心性的排序鑒定術(shù)語是否屬于核心術(shù)語［16-17］。

PageRank算法中一個(gè)節(jié)點(diǎn)的重要性依據(jù)鏈接節(jié)點(diǎn)的數(shù)量和鏈接結(jié)點(diǎn)的權(quán)重，對(duì)每個(gè)鏈入節(jié)點(diǎn)經(jīng)過遞歸算法計(jì)算，達(dá)到收斂后，即為該節(jié)點(diǎn)的PR值，如式（3）所示。

其中，PR（A）是節(jié)點(diǎn)A的PR值；節(jié)點(diǎn)Ti是指向A的所有結(jié)點(diǎn)中的某個(gè)結(jié)點(diǎn)；C（Tn）是結(jié)點(diǎn)Tn的出度，也即Tn指向其他節(jié)點(diǎn)的邊的個(gè)數(shù)；d為阻尼系數(shù)，是指在任意時(shí)刻，用戶到達(dá)某結(jié)點(diǎn)后并繼續(xù)向后跳轉(zhuǎn)的概率，通常d=0.85。

本文實(shí)驗(yàn)中設(shè)置迭代次數(shù)為20次，阻尼系數(shù)設(shè)置為0.85。對(duì)于概念圖中的每個(gè)節(jié)點(diǎn)計(jì)算其PR值，并設(shè)定閾值0.5，將大于閾值的術(shù)語定為重要術(shù)語，小于閾值的定位為普通術(shù)語，在圖譜中以不同節(jié)點(diǎn)加以區(qū)分。

4.3 課程群概念圖譜應(yīng)用

課程群概念圖CNet旨在輔助課程群建設(shè)和教學(xué)。CNet融合和規(guī)劃了相關(guān)課程的群體性信息，又保留了每門課程單個(gè)術(shù)語自身的信息，可以在以下方面輔助教與學(xué)。

（1）使用CNet輔助高校專業(yè)課程體系構(gòu)建。CNet中術(shù)語節(jié)點(diǎn)之間的聯(lián)系可以形成單門課程甚至整個(gè)專業(yè)的知識(shí)圖譜，幫助分析章節(jié)內(nèi)、課程內(nèi)、課程間不同術(shù)語之間的關(guān)系，進(jìn)而形成概念子圖、概念社群，輔助課程群建設(shè)，合理安排課程設(shè)置，研究課程之間的邏輯關(guān)系。同時(shí)，也可以在培養(yǎng)方案設(shè)計(jì)時(shí)，恰當(dāng)?shù)貏澐指髡n程的邊界，形成內(nèi)容緊湊、銜接合理、分工明確的課程群。例如：存儲(chǔ)管理中“段頁式存儲(chǔ)管理”“虛擬存儲(chǔ)器”與存儲(chǔ)系統(tǒng)中“高速緩沖存儲(chǔ)器”“快表”以及“主存—輔存層次”之間的聯(lián)系，如圖3所示。

Fig.3 Sub-network of concept "storage management"圖3 “存儲(chǔ)管理”概念子圖

（2）CNet可以同時(shí)為教師與學(xué)生雙方服務(wù)。如果將課程學(xué)習(xí)的過程分為：預(yù)習(xí)階段、課堂拓展階段、課后復(fù)習(xí)階段。在預(yù)習(xí)階段，可以通過整個(gè)框架和核心術(shù)語對(duì)總體內(nèi)容進(jìn)行了解；課堂學(xué)習(xí)時(shí)，教師合理拓展關(guān)聯(lián)性術(shù)語，進(jìn)行鞏固或延申講解；對(duì)課程內(nèi)容總結(jié)復(fù)習(xí)時(shí)，重點(diǎn)關(guān)注核心術(shù)語，并將相關(guān)知識(shí)串聯(lián)，構(gòu)建知識(shí)體系。利用概念圖進(jìn)行自適應(yīng)學(xué)習(xí)，依據(jù)使用者對(duì)知識(shí)的掌握程度，構(gòu)建學(xué)習(xí)畫像，選擇圖譜中不同的概念子圖、不同的學(xué)習(xí)路徑，以提供個(gè)性化幫助，提高學(xué)習(xí)針對(duì)性。圖4是在概念知識(shí)圖譜基礎(chǔ)上，針對(duì)“數(shù)據(jù)表示”這一知識(shí)點(diǎn)提取和調(diào)整后的概念子圖，可以幫助學(xué)生了解各種數(shù)據(jù)表示方法之間的聯(lián)系。

Fig.4 Sub-network of "data representation" knowledge point圖4 “數(shù)據(jù)表示”知識(shí)點(diǎn)的概念子圖

5 結(jié)語

在計(jì)算機(jī)專業(yè)系統(tǒng)能力培養(yǎng)時(shí)，課程內(nèi)容的選擇和課程術(shù)語的梳理是課程群建設(shè)和教學(xué)改革的重要基礎(chǔ)，目前方法主要是基于任課教師的經(jīng)驗(yàn)，缺乏定量分析，主觀性較強(qiáng)。如何自動(dòng)且有效地將各課程中的術(shù)語知識(shí)點(diǎn)有機(jī)組織起來，幫助教師在教與學(xué)時(shí)把握重點(diǎn)、理清關(guān)系，站在課程、課程群甚至整個(gè)專業(yè)的高度理解各個(gè)術(shù)語，提升系統(tǒng)觀和系統(tǒng)能力，這是本文構(gòu)建概念圖譜的主要目的。本文通過文本分析、自然語言處理等技術(shù)實(shí)現(xiàn)課程群概念圖譜構(gòu)建，輔助教師和學(xué)生由點(diǎn)及面地理解知識(shí)點(diǎn)，架建知識(shí)框架，形成系統(tǒng)能力。

本文以計(jì)算機(jī)系統(tǒng)類課程群為例，詳細(xì)闡述了課程群概念圖譜構(gòu)建的完整過程。首先，使用基于規(guī)則和統(tǒng)計(jì)的方法以及基于BiLSTM+CRF的模型，從教材文本中抽取用于構(gòu)建圖譜節(jié)點(diǎn)的關(guān)鍵術(shù)語；其次，通過基于規(guī)則匹配的術(shù)語定義識(shí)別算法和基于向量空間模型的定義篩選算法，從文本集中篩選最適合術(shù)語的定義作為相應(yīng)節(jié)點(diǎn)的屬性，以術(shù)語在段落中的共現(xiàn)和在小節(jié)中的共現(xiàn)作為關(guān)系緊密程度的區(qū)分，分別構(gòu)建了緊密關(guān)系和普通關(guān)系兩種邊，在圖譜中加以區(qū)分展示；第三，基于PageRank算法，分析概念圖譜中術(shù)語的重要性，將術(shù)語分為重要術(shù)語和普通術(shù)語，并在圖譜中區(qū)分顯示；第四，選擇高效的存儲(chǔ)方法，將課程群概念圖譜進(jìn)行存儲(chǔ)，用以輔助教學(xué)。

本研究是課程群概念圖譜的初步探索，還有很多待改進(jìn)之處，如計(jì)算機(jī)專業(yè)領(lǐng)域包含學(xué)科課程眾多，目前只對(duì)4門主要課程進(jìn)行語料庫構(gòu)建。后續(xù)工作中，可以繼續(xù)添加新課程教材文本，以及進(jìn)一步擴(kuò)充語料庫等。由于不同課程之間術(shù)語大多不同，本文的標(biāo)注方法需要耗費(fèi)大量人力，接下來可以進(jìn)行方法的替換和更新，自動(dòng)生成專業(yè)語料或者使用遷移學(xué)習(xí)更方便地構(gòu)建語料庫。此外，本文所使用的基礎(chǔ)混合算法模型，在已學(xué)習(xí)的數(shù)據(jù)集上表現(xiàn)較好，而在更換上下文環(huán)境后以及進(jìn)行新術(shù)語識(shí)別方面，還有待提高?？稍诨A(chǔ)算法上作進(jìn)一步優(yōu)化，例如：在詞向量中加入子詞單元、語言學(xué)特征、注意力機(jī)制、多維特征等，以提高模型適應(yīng)性和識(shí)別能力。同時(shí)，由于教材文本的行文特點(diǎn)，其中存在大量口語化表達(dá)，從而導(dǎo)致抽取出的結(jié)果中出現(xiàn)同義術(shù)語的多種表述形式，而這樣的同義術(shù)語應(yīng)當(dāng)在概念圖中使用一個(gè)節(jié)點(diǎn)進(jìn)行表示。后續(xù)應(yīng)對(duì)抽取的術(shù)語進(jìn)行同義詞合并，進(jìn)一步優(yōu)化課程概念圖的存儲(chǔ)空間和查詢效率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡