申玫 徐寧 趙曉玲
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 山東 青島 266071)
自然語(yǔ)言處理技術(shù)在中高職課程銜接中的應(yīng)用
申玫 徐寧 趙曉玲
(青島遠(yuǎn)洋船員職業(yè)學(xué)院 山東 青島 266071)
在中高職課程銜接的實(shí)際中,存在著中高職專業(yè)設(shè)置不對(duì)口、專業(yè)課程內(nèi)容重復(fù)等問(wèn)題。為了選擇對(duì)口專業(yè)及查找重復(fù)課程,采用人工手段對(duì)教育教學(xué)文件進(jìn)行分析研究,效率低、精確性差。而使用計(jì)算機(jī)自然語(yǔ)言處理技術(shù)對(duì)中高職教學(xué)文件中的文本數(shù)據(jù)進(jìn)行分析,可以快速獲得中高職相關(guān)專業(yè)之間的相似度及專業(yè)課程內(nèi)容之間的重復(fù)度,為課程設(shè)置提供科學(xué)依據(jù)。將自然語(yǔ)言處理技術(shù)用于青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)”專業(yè)中高職課程銜接問(wèn)題上,對(duì)相關(guān)文件進(jìn)行分析,得到合理的結(jié)論。
中高職銜接;自然語(yǔ)言處理技術(shù);課程設(shè)置
中高職教育課程銜接主要存在兩個(gè)方面的難題:其一,中高職教育沒(méi)有實(shí)行專業(yè)歸類對(duì)口招生報(bào)考制度,造成中高職專業(yè)設(shè)置的對(duì)應(yīng)關(guān)系不明確,各院校自行選擇對(duì)接專業(yè),造成很多中職專業(yè)在升高職時(shí)不對(duì)口。其二,中高職專業(yè)課程內(nèi)容重復(fù),使中職畢業(yè)生升入高職時(shí)重復(fù)學(xué)習(xí)相同的課程內(nèi)容。
在我國(guó),中高職課程銜接仍然依賴于專家經(jīng)驗(yàn)。對(duì)口專業(yè)的判斷及重復(fù)課程的篩選是通過(guò)對(duì)“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件的內(nèi)容進(jìn)行人工分析。面對(duì)多個(gè)專業(yè),每個(gè)專業(yè)數(shù)十門(mén)課程,采用人工分析,工作效率低,專業(yè)的對(duì)口程度和課程重復(fù)程度難以精確的衡量。為了科學(xué)高效地進(jìn)行中高職課程銜接,不能僅僅依賴經(jīng)驗(yàn)和人工分析,而應(yīng)該運(yùn)用計(jì)算機(jī)技術(shù),對(duì)各院校多年積累的課程數(shù)據(jù)文件進(jìn)行深入分析研究,使中高職課程銜接方法具備精確性和實(shí)用性。如何讓計(jì)算機(jī)對(duì)“人才培養(yǎng)方案”和“課程標(biāo)準(zhǔn)”等文本文件進(jìn)行自動(dòng)識(shí)別分析是科學(xué)高效進(jìn)行中高職課程銜接的關(guān)鍵。
自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱NLP)就是用計(jì)算機(jī)來(lái)處理、理解以及運(yùn)用人類語(yǔ)言(如中文、英文等),它屬于人工智能的一個(gè)分支,是計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科,又常被稱為計(jì)算語(yǔ)言學(xué),是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。 自然語(yǔ)言處理技術(shù)可以實(shí)現(xiàn)文本分類聚類、文本自動(dòng)摘要、機(jī)器翻譯、檢索系統(tǒng)、問(wèn)答系統(tǒng)、人機(jī)交互等諸多功能,其中重要的一項(xiàng)任務(wù)就是文本相似度分析。文本相似度分析最為著名的應(yīng)用案例之一是搜索引擎,如谷歌、百度等,人們能通過(guò)輸入文字來(lái)查找相關(guān)的新聞等網(wǎng)絡(luò)資源,另外,在檢測(cè)學(xué)術(shù)論文是否抄襲方面文本相似度也有其關(guān)鍵技術(shù)的應(yīng)用。所謂文本相似度計(jì)算是指利用計(jì)算機(jī)自動(dòng)計(jì)算文本間的相似程度,文本相似度是表示兩個(gè)或多個(gè)文本之間相似程度的一個(gè)度量參數(shù),相似度大,說(shuō)明文件相似程度高,反之文件相似程度就低。
本文運(yùn)用自然語(yǔ)言處理中的文本相似度算法對(duì)中高職課程相關(guān)的文本數(shù)據(jù)進(jìn)行分析,能夠快速地找出中高職對(duì)口專業(yè),指導(dǎo)課程銜接方案的合理設(shè)置。
文本相似度度量任務(wù)就是衡量?jī)蓚€(gè)文本之間語(yǔ)義相似的程度,是自然語(yǔ)言處理中一個(gè)非常重要的任務(wù)。常規(guī)的文本相似度度量方法是將文本轉(zhuǎn)化詞匯的集合,分析每個(gè)詞在單個(gè)文本中出現(xiàn)的次數(shù)以及在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的次數(shù),進(jìn)而利用每個(gè)文本的詞頻信息構(gòu)建為一個(gè)向量,并利用向量間的余弦相似度或Jaccard相似度等方法計(jì)算文本之間的相似度。圖1顯示了文本相似度算法的主要流程。
圖1 文本相似度算法流程圖
(一)預(yù)處理
計(jì)算機(jī)可以快速地計(jì)算出兩列數(shù)組之間的相似度,也可以分析出兩個(gè)矩陣之間的相似度,但對(duì)于兩篇文本來(lái)說(shuō),相似度的計(jì)算要相對(duì)復(fù)雜。因?yàn)?,文本是非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)挖掘的算法要應(yīng)用到文本對(duì)象之上,就必須對(duì)文本進(jìn)行預(yù)處理,使其結(jié)構(gòu)化,即將文本轉(zhuǎn)化為數(shù)組或向量。對(duì)于中文文本的預(yù)處理技術(shù)主要包括中文分詞和停用詞過(guò)濾兩個(gè)方面。
1.中文分詞技術(shù)
中文文本與英文文本不同,詞與詞之間沒(méi)有空格,讀者閱讀時(shí)要根據(jù)經(jīng)驗(yàn)和語(yǔ)言知識(shí)來(lái)自行分詞。因而,計(jì)算機(jī)對(duì)于中文的處理相對(duì)于以英文為代表的西文處理存在更大的難度?,F(xiàn)有的分詞方法主要有:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。對(duì)于分析者來(lái)說(shuō),自行開(kāi)發(fā)中文分詞算法難度較大,目前有很多開(kāi)源的軟件和在線工具都可以完成分詞工作,如Jieba、SCWS、中科院張華平開(kāi)發(fā)的ICTCLAS、武漢大學(xué)沈陽(yáng)開(kāi)發(fā)的ROSTCM等。
2.停用詞過(guò)濾
在文本處理中,有一些詞出現(xiàn)頻繁但意義不大,為了提高文本的分析速度和精度,須將這些詞忽略。比如,“的”、“在”、“是”等幾乎是中文文本中出現(xiàn)頻率最高的詞,這類詞對(duì)文本相似度的計(jì)算會(huì)產(chǎn)生不良的干擾。對(duì)于這類問(wèn)題的解決,可以利用現(xiàn)有的“中文停用詞表”將這些詞進(jìn)行過(guò)濾刪除。但是較為精確的方法是計(jì)算文本中每個(gè)詞的TF-IDF值,將TF-IDF值為0的詞刪除。
TF-IDF是用來(lái)評(píng)估某一詞匯對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度的統(tǒng)計(jì)方法。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。比如,“船體的認(rèn)識(shí)”被分詞后變成 “船體”、“的”、“認(rèn)識(shí)”,其中“的”是停用詞,而“船體”和“認(rèn)識(shí)”這兩個(gè)詞在計(jì)算文本相似度中的重要程度是不同的?!按w”這個(gè)詞較為專業(yè),“認(rèn)識(shí)”這個(gè)詞較為普通,在中高職院校的教學(xué)文件中幾乎每篇都會(huì)出現(xiàn) “認(rèn)識(shí)”這個(gè)詞。當(dāng)某個(gè)詞在所有文本中都會(huì)出現(xiàn),那么,它對(duì)文本相似性也就沒(méi)有貢獻(xiàn)了。
(二)基于余弦相似度的文本相似度算法
經(jīng)過(guò)預(yù)處理之后,兩篇文本被轉(zhuǎn)換為兩份詞匯表數(shù)據(jù),分別用向量D1(n)和D2(m)來(lái)表示,其中n和m表示兩表中詞匯的數(shù)目。文本相似度工作就是計(jì)算分析D1(n)和D2(m)的相似度。具體步驟如下:
(1)將兩份詞匯表中重復(fù)多次的詞合并,并將兩份詞匯表匯總成一個(gè)總詞匯表,用向量A(p)表示,其中p表示詞匯的數(shù)目,p≤m+n。
(2)計(jì)算A(p)中的詞在D1(n)和D2(m)中出現(xiàn)的次數(shù),分別用向量B1(p)和B2(p)表示。
近年來(lái),中高職教育銜接是我國(guó)教育領(lǐng)域的研究熱點(diǎn),各級(jí)教育部門(mén)頒發(fā)了一系列文件,如《教育部關(guān)于推進(jìn)中等和高等職業(yè)教育協(xié)調(diào)發(fā)展的指導(dǎo)意見(jiàn)》、《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020 年)》、《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》等。在進(jìn)行文本相似度分析時(shí),要合理選擇相關(guān)文本進(jìn)行研究。本文所選的數(shù)據(jù)來(lái)源有以下兩個(gè)方面:
判斷對(duì)口專業(yè)的文本文件主要有:地方教育部門(mén)或行業(yè)指導(dǎo)委員會(huì)制定的各專業(yè)教育教學(xué)指導(dǎo)性文件,如《山東省中等職業(yè)學(xué)校教學(xué)指導(dǎo)方案》或各中高職院校制定的《人才培養(yǎng)方案》。中等職業(yè)學(xué)校專業(yè)教學(xué)指導(dǎo)方案是中等職業(yè)學(xué)校專業(yè)建設(shè)和專業(yè)教學(xué)的基本指導(dǎo)文件,內(nèi)容包括教學(xué)計(jì)劃和各門(mén)課程的課程標(biāo)準(zhǔn)。人才培養(yǎng)方案是人才培養(yǎng)的總體設(shè)計(jì),反映著一個(gè)學(xué)院人才培養(yǎng)的指導(dǎo)思想和整體思路,關(guān)系著學(xué)院人才培養(yǎng)的內(nèi)容、途徑和質(zhì)量。
衡量專業(yè)課程內(nèi)容重復(fù)情況的文本文件主要有:地方教育部門(mén)、行業(yè)指導(dǎo)委員會(huì)或院校制定的人才培養(yǎng)方案和課程標(biāo)準(zhǔn)。其中課程標(biāo)準(zhǔn)是指規(guī)定某一學(xué)科的課程性質(zhì)、課程目標(biāo)、內(nèi)容目標(biāo)、實(shí)施建議的教學(xué)指導(dǎo)性文件,是衡量課程內(nèi)容重復(fù)度的主要依據(jù)。
青島遠(yuǎn)洋船員職業(yè)學(xué)院是一所高職院校,其船舶工程技術(shù)專業(yè),在面對(duì)機(jī)械制造技術(shù)、焊接技術(shù)應(yīng)用、電氣運(yùn)行與控制等多個(gè)中職專業(yè)的畢業(yè)生時(shí),如何能對(duì)口接收并進(jìn)行合理的課程設(shè)置,是學(xué)院開(kāi)展中高職教育銜接的關(guān)鍵。
(一)選擇對(duì)口專業(yè)
根據(jù)教育部頒發(fā)的 《中等職業(yè)學(xué)校專業(yè)目錄》(2010年修訂),將山東省教育廳開(kāi)發(fā)的6個(gè)中職專業(yè)(船舶建造與維修、焊接技術(shù)應(yīng)用、機(jī)械制造技術(shù)、機(jī)電技術(shù)應(yīng)用、電氣運(yùn)行與控制、旅游服務(wù)與管理)的教學(xué)指導(dǎo)方案與青島遠(yuǎn)洋船員職業(yè)學(xué)院“船舶工程技術(shù)專業(yè)”人才培養(yǎng)方案進(jìn)行文本相似度分析,得到數(shù)據(jù)結(jié)果,如圖2所示。
圖2 中、高職培養(yǎng)方案文本余弦相似度對(duì)比圖
通過(guò)對(duì)人才培養(yǎng)方案進(jìn)行文本相似度分析,可以看出,高職“船舶工程技術(shù)”專業(yè)的三個(gè)方向“船體”、“輪機(jī)”和“電氣”,與6個(gè)中職專業(yè)的相似程度各不相同:與“船體方向”對(duì)口的中職專業(yè),按相似度依次為“船舶建造與維修”、“焊接技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”;與“輪機(jī)方向”對(duì)口的中職專業(yè),按相似度依次為“船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”;與“電氣方向”對(duì)口的中職專業(yè),按相似度依次為 “船舶建造與維修”、“機(jī)電技術(shù)應(yīng)用”、“機(jī)械制造技術(shù)”、“電氣運(yùn)行與控制”。
本文選擇“旅游服務(wù)與管理”作為與其他專業(yè)對(duì)比的參考專業(yè),與船舶工程技術(shù)三個(gè)方向均不對(duì)口,相似度極低,與生活常識(shí)相符合。
(二)判斷重復(fù)課程
中高職對(duì)口專業(yè)經(jīng)常會(huì)出現(xiàn)課程內(nèi)容重復(fù)的問(wèn)題,專業(yè)對(duì)口程度越高,其課程重復(fù)的可能性就越大。通過(guò)分析課程標(biāo)準(zhǔn)的文本相似度,可能得到課程內(nèi)容的重復(fù)程度,從而指導(dǎo)課程安排和課時(shí)分配,避免中職學(xué)生升入高職后重復(fù)學(xué)習(xí)。
圖3以中職“船舶制造與修理”專業(yè)與高職“船舶工程技術(shù)”專業(yè)船體方向?yàn)槔?,?門(mén)高職課程分別與9門(mén)中職課程進(jìn)行了文本相似度分析。為了直觀判斷出中職課程與高職課程之間的相關(guān)度,將高職的任一課程與所有中職課程對(duì)比繪制成折線圖,如圖2所示。將高職機(jī)械設(shè)計(jì)、電工基礎(chǔ)、結(jié)構(gòu)制圖、修造工藝這4門(mén)課與中職9門(mén)課程進(jìn)行比較,可以得出以下結(jié)論。
圖3 高職與中職專業(yè)課程相似度圖
第一,高職機(jī)械設(shè)計(jì)課程與中職各課程相似度均不高,說(shuō)明課程內(nèi)容沒(méi)有重復(fù);第二,高職電工基礎(chǔ)課程與中職各課程相似度均不高,說(shuō)明課程內(nèi)容沒(méi)有重復(fù);第三,高職結(jié)構(gòu)制圖課與中職船舶識(shí)圖課的相似度非常高,說(shuō)明課程內(nèi)容重復(fù);第四,高職修造工藝課與中職船舶建造與修理課的相似度非常高,說(shuō)明課程內(nèi)容重復(fù)。
通過(guò)對(duì)每門(mén)課程的“課程標(biāo)準(zhǔn)”的文本相似度進(jìn)行分析,可以準(zhǔn)確快速地得出各門(mén)課程重復(fù)程度,對(duì)與中職課程重復(fù)程度高的高職課程,如“結(jié)構(gòu)制圖”和“修造工藝”等應(yīng)考慮免修或適當(dāng)減免學(xué)時(shí)。
運(yùn)用自然語(yǔ)言處理技術(shù),分析文本文檔、為課程設(shè)置提供可靠依據(jù),在中高職教育課程銜接領(lǐng)域是全新的嘗試。本文通過(guò)使用自然語(yǔ)言處理技術(shù),對(duì)中高職銜接相關(guān)教育教學(xué)文件進(jìn)行文本相似度分析。通過(guò)青島遠(yuǎn)洋船員職業(yè)學(xué)院的實(shí)驗(yàn)驗(yàn)證,這種方法可以定量地對(duì)中高職教育銜接時(shí)對(duì)口專業(yè)進(jìn)行篩選,以及對(duì)重復(fù)課程進(jìn)行判斷,取得了良好的分析效果,具有較強(qiáng)的科學(xué)性和應(yīng)用性。
將自然語(yǔ)言處理引入中高職教育銜接領(lǐng)域,可以充分利用現(xiàn)有的教學(xué)文件數(shù)據(jù),提高各項(xiàng)教育教學(xué)決策的速度和準(zhǔn)確性,促進(jìn)了職業(yè)教育水平的整體提高。隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,通過(guò)計(jì)算機(jī)可以高速地對(duì)海量數(shù)據(jù)進(jìn)行分析,這些數(shù)據(jù)不僅包括院校原有的教育教學(xué)文檔,還包括行業(yè)發(fā)展趨勢(shì)、社會(huì)人才需求等文本數(shù)據(jù),并自動(dòng)生成適應(yīng)社會(huì)發(fā)展情況的“人才培養(yǎng)方案”、“課程標(biāo)準(zhǔn)”等教育教學(xué)文檔,從而實(shí)現(xiàn)教育決策的“人工智能”。
[1]顧曰國(guó).自然語(yǔ)言語(yǔ)義、語(yǔ)義自動(dòng)化處理與知識(shí)本體——寫(xiě)在“知識(shí)本體”專號(hào)前面的話[J].當(dāng)代語(yǔ)言學(xué), 2013(2):127-128.
[2]金希茜.基于語(yǔ)義相似度的中文文本相似度算法研究[D].杭州:浙江工業(yè)大學(xué),2009.
[3]沈斌.基于分詞的中文文本相似度計(jì)算研究[D].天津:天津財(cái)經(jīng)大學(xué),2006.
[4]張華平.語(yǔ)言淺層分析與句子級(jí)新信息檢測(cè)研究[D].北京:中國(guó)科學(xué)院研究生院,2005.
[5]黃承慧.一種結(jié)合詞項(xiàng)語(yǔ)義信息和TF-IDF方法的文本相似度量方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):856-864.
[7]鄧澤民.《中等職業(yè)學(xué)校專業(yè)目錄2010年修訂》解讀[J].中國(guó)職業(yè)技術(shù)教育,2010(16):22-25.
(責(zé)任編輯:王璐)
Application of Natural Language Processing Technology in Cohesion Between Secondary and Higher Vocational Education Curriculum
SHEN Mei,XU Ning,ZHAO Xiao-ling
(Qingdao Ocean Shipping Mariners College,Qingdao Shandong 266071,China)
There are many problems in cohesion between secondary and higher vocational education,such as specialty mismatch and course content duplication.In order to solve these problems,manual work is adopted to analyze education documents,which has low efficiency and poor accuracy,while natural language processing technology is used to analyze the documents,similarities between specialties and repeat-ability between courses can be quickly obtained,which can provide a scientific basis for curriculum.In this paper, natural language processing technology is used to analyze education documents of Qingdao Ocean Shipping Mariners College,and the result shows that it is reasonable.
cohesion between secondary and higher vocational education;natural language processing;curriculum
G712
A
1672-5727(2015)11-0060-04
申玫(1984—),女,青島遠(yuǎn)洋船員職業(yè)學(xué)院船舶與海洋工程系講師,研究方向?yàn)榇芭c海洋工程教學(xué)和研究。
2013年交通運(yùn)輸職業(yè)教育教學(xué)指導(dǎo)委員會(huì)科研項(xiàng)目“船舶工程技術(shù)專業(yè)群中高職教育課程銜接研究”(項(xiàng)目編號(hào):2013B40)