申玫+徐寧+趙曉玲
摘要:在中高職課程銜接的實(shí)際中,存在著中高職專業(yè)設(shè)置不對(duì)口、專業(yè)課程內(nèi)容重復(fù)等問題。為了選擇對(duì)口專業(yè)及查找重復(fù)課程,采用人工手段對(duì)教育教學(xué)文件進(jìn)行分析研究,效率低、精確性差。而使用計(jì)算機(jī)自然語言處理技術(shù)對(duì)中高職教學(xué)文件中的文本數(shù)據(jù)進(jìn)行分析,可以快速獲得中高職相關(guān)專業(yè)之間的相似度及專業(yè)課程內(nèi)容之間的重復(fù)度,為課程設(shè)置提供科學(xué)依據(jù)。將自然語言處理技術(shù)用于青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)”專業(yè)中高職課程銜接問題上,對(duì)相關(guān)文件進(jìn)行分析,得到合理的結(jié)論。
關(guān)鍵詞:中高職銜接;自然語言處理技術(shù);課程設(shè)置
中圖分類號(hào):G712 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1672-5727(2015)11-0060-04
中高職教育課程銜接主要存在兩個(gè)方面的難題:其一,中高職教育沒有實(shí)行專業(yè)歸類對(duì)口招生報(bào)考制度,造成中高職專業(yè)設(shè)置的對(duì)應(yīng)關(guān)系不明確,各院校自行選擇對(duì)接專業(yè),造成很多中職專業(yè)在升高職時(shí)不對(duì)口。其二,中高職專業(yè)課程內(nèi)容重復(fù),使中職畢業(yè)生升入高職時(shí)重復(fù)學(xué)習(xí)相同的課程內(nèi)容。
在我國,中高職課程銜接仍然依賴于專家經(jīng)驗(yàn)。對(duì)口專業(yè)的判斷及重復(fù)課程的篩選是通過對(duì)“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件的內(nèi)容進(jìn)行人工分析。面對(duì)多個(gè)專業(yè),每個(gè)專業(yè)數(shù)十門課程,采用人工分析,工作效率低,專業(yè)的對(duì)口程度和課程重復(fù)程度難以精確的衡量。為了科學(xué)高效地進(jìn)行中高職課程銜接,不能僅僅依賴經(jīng)驗(yàn)和人工分析,而應(yīng)該運(yùn)用計(jì)算機(jī)技術(shù),對(duì)各院校多年積累的課程數(shù)據(jù)文件進(jìn)行深入分析研究,使中高職課程銜接方法具備精確性和實(shí)用性。如何讓計(jì)算機(jī)對(duì)“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件進(jìn)行自動(dòng)識(shí)別分析是科學(xué)高效進(jìn)行中高職課程銜接的關(guān)鍵。
自然語言處理(Natural Language Processing,簡(jiǎn)稱NLP)就是用計(jì)算機(jī)來處理、理解以及運(yùn)用人類語言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語言學(xué)的交叉學(xué)科,又常被稱為計(jì)算語言學(xué),是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。 自然語言處理技術(shù)可以實(shí)現(xiàn)文本分類聚類、文本自動(dòng)摘要、機(jī)器翻譯、檢索系統(tǒng)、問答系統(tǒng)、人機(jī)交互等諸多功能,其中重要的一項(xiàng)任務(wù)就是文本相似度分析。文本相似度分析最為著名的應(yīng)用案例之一是搜索引擎,如谷歌、百度等,人們能通過輸入文字來查找相關(guān)的新聞等網(wǎng)絡(luò)資源,另外,在檢測(cè)學(xué)術(shù)論文是否抄襲方面文本相似度也有其關(guān)鍵技術(shù)的應(yīng)用。所謂文本相似度計(jì)算是指利用計(jì)算機(jī)自動(dòng)計(jì)算文本間的相似程度,文本相似度是表示兩個(gè)或多個(gè)文本之間相似程度的一個(gè)度量參數(shù),相似度大,說明文件相似程度高,反之文件相似程度就低。
本文運(yùn)用自然語言處理中的文本相似度算法對(duì)中高職課程相關(guān)的文本數(shù)據(jù)進(jìn)行分析,能夠快速地找出中高職對(duì)口專業(yè),指導(dǎo)課程銜接方案的合理設(shè)置。
一、 自然語言處理中的文本相似度算法
文本相似度度量任務(wù)就是衡量?jī)蓚€(gè)文本之間語義相似的程度,是自然語言處理中一個(gè)非常重要的任務(wù)。常規(guī)的文本相似度度量方法是將文本轉(zhuǎn)化詞匯的集合,分析每個(gè)詞在單個(gè)文本中出現(xiàn)的次數(shù)以及在整個(gè)語料庫中出現(xiàn)的次數(shù),進(jìn)而利用每個(gè)文本的詞頻信息構(gòu)建為一個(gè)向量,并利用向量間的余弦相似度或Jaccard相似度等方法計(jì)算文本之間的相似度。圖1顯示了文本相似度算法的主要流程。
(一)預(yù)處理
計(jì)算機(jī)可以快速地計(jì)算出兩列數(shù)組之間的相似度,也可以分析出兩個(gè)矩陣之間的相似度,但對(duì)于兩篇文本來說,相似度的計(jì)算要相對(duì)復(fù)雜。因?yàn)?,文本是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘的算法要應(yīng)用到文本對(duì)象之上,就必須對(duì)文本進(jìn)行預(yù)處理,使其結(jié)構(gòu)化,即將文本轉(zhuǎn)化為數(shù)組或向量。對(duì)于中文文本的預(yù)處理技術(shù)主要包括中文分詞和停用詞過濾兩個(gè)方面。
1.中文分詞技術(shù)
中文文本與英文文本不同,詞與詞之間沒有空格,讀者閱讀時(shí)要根據(jù)經(jīng)驗(yàn)和語言知識(shí)來自行分詞。因而,計(jì)算機(jī)對(duì)于中文的處理相對(duì)于以英文為代表的西文處理存在更大的難度。現(xiàn)有的分詞方法主要有:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。對(duì)于分析者來說,自行開發(fā)中文分詞算法難度較大,目前有很多開源的軟件和在線工具都可以完成分詞工作,如Jieba、SCWS、中科院張華平開發(fā)的ICTCLAS 、武漢大學(xué)沈陽開發(fā)的ROST-CM等。
2.停用詞過濾
在文本處理中,有一些詞出現(xiàn)頻繁但意義不大,為了提高文本的分析速度和精度,須將這些詞忽略。比如,“的”、“在”、“是”等幾乎是中文文本中出現(xiàn)頻率最高的詞,這類詞對(duì)文本相似度的計(jì)算會(huì)產(chǎn)生不良的干擾。對(duì)于這類問題的解決,可以利用現(xiàn)有的“中文停用詞表”將這些詞進(jìn)行過濾刪除。但是較為精確的方法是計(jì)算文本中每個(gè)詞的TF-IDF值,將TF-IDF值為0的詞刪除。
TF-IDF是用來評(píng)估某一詞匯對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度的統(tǒng)計(jì)方法。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。比如,“船體的認(rèn)識(shí)”被分詞后變成“船體”、“的”、“認(rèn)識(shí)”,其中“的”是停用詞,而“船體”和“認(rèn)識(shí)”這兩個(gè)詞在計(jì)算文本相似度中的重要程度是不同的?!按w”這個(gè)詞較為專業(yè),“認(rèn)識(shí)”這個(gè)詞較為普通,在中高職院校的教學(xué)文件中幾乎每篇都會(huì)出現(xiàn)“認(rèn)識(shí)”這個(gè)詞。當(dāng)某個(gè)詞在所有文本中都會(huì)出現(xiàn),那么,它對(duì)文本相似性也就沒有貢獻(xiàn)了。
(二)基于余弦相似度的文本相似度算法
經(jīng)過預(yù)處理之后,兩篇文本被轉(zhuǎn)換為兩份詞匯表數(shù)據(jù),分別用向量D1(n)和D2(m)來表示,其中n和m表示兩表中詞匯的數(shù)目。文本相似度工作就是計(jì)算分析D1(n)和D2(m)的相似度。具體步驟如下:
(1)將兩份詞匯表中重復(fù)多次的詞合并,并將兩份詞匯表匯總成一個(gè)總詞匯表,用向量A(p)表示,其中p表示詞匯的數(shù)目,p≤m+n。
(2)計(jì)算A(p)中的詞在D1(n)和D2(m)中出現(xiàn)的次數(shù),分別用向量B1(p)和B2(p)表示。
根據(jù)余弦公式計(jì)算cos茲=,即計(jì)算B1(p)和B2(p)這兩個(gè)向量的夾角余弦,當(dāng)夾角為0時(shí),余弦值為1,意味著兩個(gè)向量重合,即兩文本相同。也就是說余弦值越接近1,兩文本越相似。
二、中高職課程銜接文本數(shù)據(jù)來源
近年來,中高職教育銜接是我國教育領(lǐng)域的研究熱點(diǎn),各級(jí)教育部門頒發(fā)了一系列文件,如《教育部關(guān)于推進(jìn)中等和高等職業(yè)教育協(xié)調(diào)發(fā)展的指導(dǎo)意見》、《國家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》、《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》等。在進(jìn)行文本相似度分析時(shí),要合理選擇相關(guān)文本進(jìn)行研究。本文所選的數(shù)據(jù)來源有以下兩個(gè)方面:
判斷對(duì)口專業(yè)的文本文件主要有:地方教育部門或行業(yè)指導(dǎo)委員會(huì)制定的各專業(yè)教育教學(xué)指導(dǎo)性文件,如《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》或各中高職院校制定的《人才培養(yǎng)方案》。中等職業(yè)學(xué)校專業(yè)教學(xué)指導(dǎo)方案是中等職業(yè)學(xué)校專業(yè)建設(shè)和專業(yè)教學(xué)的基本指導(dǎo)文件,內(nèi)容包括教學(xué)計(jì)劃和各門課程的課程標(biāo)準(zhǔn)。人才培養(yǎng)方案是人才培養(yǎng)的總體設(shè)計(jì),反映著一個(gè)學(xué)院人才培養(yǎng)的指導(dǎo)思想和整體思路,關(guān)系著學(xué)院人才培養(yǎng)的內(nèi)容、途徑和質(zhì)量。
衡量專業(yè)課程內(nèi)容重復(fù)情況的文本文件主要有:地方教育部門、行業(yè)指導(dǎo)委員會(huì)或院校制定的人才培養(yǎng)方案和課程標(biāo)準(zhǔn)。其中課程標(biāo)準(zhǔn)是指規(guī)定某一學(xué)科的課程性質(zhì)、課程目標(biāo)、內(nèi)容目標(biāo)、實(shí)施建議的教學(xué)指導(dǎo)性文件,是衡量課程內(nèi)容重復(fù)度的主要依據(jù)。
三、實(shí)例分析
青島遠(yuǎn)洋船員職業(yè)學(xué)院是一所高職院校,其船舶工程技術(shù)專業(yè),在面對(duì)機(jī)械制造技術(shù)、焊接技術(shù)應(yīng)用、電氣運(yùn)行與控制等多個(gè)中職專業(yè)的畢業(yè)生時(shí),如何能對(duì)口接收并進(jìn)行合理的課程設(shè)置,是學(xué)院開展中高職教育銜接的關(guān)鍵。
(一)選擇對(duì)口專業(yè)
根據(jù)教育部頒發(fā)的《中等職業(yè)學(xué)校專業(yè)目錄》(2010年修訂),將山東省教育廳開發(fā)的6個(gè)中職專業(yè)(船舶建造與維修、焊接技術(shù)應(yīng)用、機(jī)械制造技術(shù)、機(jī)電技術(shù)應(yīng)用、電氣運(yùn)行與控制、旅游服務(wù)與管理)的教學(xué)指導(dǎo)方案與青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)專業(yè)”人才培養(yǎng)方案進(jìn)行文本相似度分析,得到數(shù)據(jù)結(jié)果,如圖2所示。
通過對(duì)人才培養(yǎng)方案進(jìn)行文本相似度分析,可以看出,高職“船舶工程技術(shù)”專業(yè)的三個(gè)方向“船體”、“輪機(jī)”和“電氣”,與6個(gè)中職專業(yè)的相似程度各不相同:與“船體方向”對(duì)口的中職專業(yè),按相似度依次為“船舶建造與維修”、“焊接技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”;與“輪機(jī)方向”對(duì)口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”;與“電氣方向”對(duì)口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”、“電氣運(yùn)行與控制”。
本文選擇“旅游服務(wù)與管理”作為與其他專業(yè)對(duì)比的參考專業(yè),與船舶工程技術(shù)三個(gè)方向均不對(duì)口,相似度極低,與生活常識(shí)相符合。
(二) 判斷重復(fù)課程
中高職對(duì)口專業(yè)經(jīng)常會(huì)出現(xiàn)課程內(nèi)容重復(fù)的問題,專業(yè)對(duì)口程度越高,其課程重復(fù)的可能性就越大。通過分析課程標(biāo)準(zhǔn)的文本相似度,可能得到課程內(nèi)容的重復(fù)程度,從而指導(dǎo)課程安排和課時(shí)分配,避免中職學(xué)生升入高職后重復(fù)學(xué)習(xí)。
圖3以中職“船舶制造與修理”專業(yè)與高職“船舶工程技術(shù)”專業(yè)船體方向?yàn)槔?,?門高職課程分別與9門中職課程進(jìn)行了文本相似度分析。為了直觀判斷出中職課程與高職課程之間的相關(guān)度,將高職的任一課程與所有中職課程對(duì)比繪制成折線圖,如圖2所示。將高職機(jī)械設(shè)計(jì)、電工基礎(chǔ)、結(jié)構(gòu)制圖、修造工藝這4門課與中職9門課程進(jìn)行比較,可以得出以下結(jié)論。
第一,高職機(jī)械設(shè)計(jì)課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第二,高職電工基礎(chǔ)課程與中職各課程相似度均不高,說明課程內(nèi)容沒有重復(fù);第三,高職結(jié)構(gòu)制圖課與中職船舶識(shí)圖課的相似度非常高,說明課程內(nèi)容重復(fù);第四,高職修造工藝課與中職船舶建造與修理課的相似度非常高,說明課程內(nèi)容重復(fù)。
通過對(duì)每門課程的“課程標(biāo)準(zhǔn)”的文本相似度進(jìn)行分析,可以準(zhǔn)確快速地得出各門課程重復(fù)程度,對(duì)與中職課程重復(fù)程度高的高職課程,如“結(jié)構(gòu)制圖”和“修造工藝”等應(yīng)考慮免修或適當(dāng)減免學(xué)時(shí)。
運(yùn)用自然語言處理技術(shù),分析文本文檔、為課程設(shè)置提供可靠依據(jù),在中高職教育課程銜接領(lǐng)域是全新的嘗試。本文通過使用自然語言處理技術(shù),對(duì)中高職銜接相關(guān)教育教學(xué)文件進(jìn)行文本相似度分析。通過青島遠(yuǎn)洋船員職業(yè)學(xué)院的實(shí)驗(yàn)驗(yàn)證,這種方法可以定
量地對(duì)中高職教育銜接時(shí)對(duì)口專業(yè)進(jìn)行篩選,以及對(duì)重復(fù)課程進(jìn)行判斷,取得了良好的分析效果,具有較強(qiáng)的科學(xué)性和應(yīng)用性。
將自然語言處理引入中高職教育銜接領(lǐng)域,可以充分利用現(xiàn)有的教學(xué)文件數(shù)據(jù),提高各項(xiàng)教育教學(xué)決策的速度和準(zhǔn)確性,促進(jìn)了職業(yè)教育水平的整體提高。隨著自然語言處理技術(shù)的不斷發(fā)展,通過計(jì)算機(jī)可以高速地對(duì)海量數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)不僅包括院校原有的教育教學(xué)文檔,還包括行業(yè)發(fā)展趨勢(shì)、社會(huì)人才需求等文本數(shù)據(jù),并自動(dòng)生成適應(yīng)社會(huì)發(fā)展情況的“人才培養(yǎng)方案”、“課程標(biāo)準(zhǔn)”等教育教學(xué)文檔,從而實(shí)現(xiàn)教育決策的“人工智能”。