国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

NLP技術(shù)對(duì)主觀評(píng)教數(shù)據(jù)進(jìn)行情感分析的應(yīng)用探索

2018-01-18 01:35:58范宇辰陳偉
中國(guó)教育網(wǎng)絡(luò) 2017年12期
關(guān)鍵詞:詞庫(kù)評(píng)教語(yǔ)料

文/范宇辰 陳偉

對(duì)于高校而言,教學(xué)質(zhì)量的好壞直接標(biāo)示其辦學(xué)水平的高低,同時(shí)教學(xué)評(píng)價(jià)也是政府和教育主管部門(mén)加強(qiáng)高校管理、保障教學(xué)質(zhì)量、提升人才培養(yǎng)質(zhì)量的重要手段。對(duì)于教師教學(xué)效果的準(zhǔn)確評(píng)價(jià),一方面可以作為評(píng)判教師教學(xué)質(zhì)量?jī)?yōu)劣的指標(biāo);另一方面,對(duì)教師教學(xué)質(zhì)量進(jìn)行科學(xué)、客觀、公平和全面的評(píng)價(jià),是更合理選聘教師及評(píng)定教師晉職、晉升資格的需要,以此達(dá)到調(diào)動(dòng)教師教學(xué)的積極性,提高教師的整體素質(zhì),提高教育教學(xué)質(zhì)量的目的。

然而,目前在評(píng)教過(guò)程中仍存在諸多問(wèn)題,這些問(wèn)題直接影響著教學(xué)質(zhì)量的提升乃至學(xué)校的整體發(fā)展。因此,如何克服目前高校教學(xué)評(píng)價(jià)體系的諸多弊端,科學(xué)公正地實(shí)現(xiàn)教師評(píng)價(jià),引導(dǎo)教育教學(xué)改革就成為提高教學(xué)質(zhì)量過(guò)程中一個(gè)非常關(guān)鍵的環(huán)節(jié)。

問(wèn)題分析

傳統(tǒng)教評(píng)主要依賴于學(xué)生的評(píng)教數(shù)據(jù),方法是通過(guò)采集學(xué)生大量的客觀打分?jǐn)?shù)據(jù)與主管評(píng)價(jià)語(yǔ)句來(lái)對(duì)不同教師的教學(xué)成果進(jìn)行評(píng)測(cè)。然而,由于技術(shù)水平的局限和技術(shù)手段的缺失,目前大部分高校教評(píng)僅利用了學(xué)生、管理者、專家等客觀打分?jǐn)?shù)據(jù),方法單一,模式簡(jiǎn)單,并不能作為全面衡量教師教學(xué)成果的依據(jù)。而海量主觀評(píng)教數(shù)據(jù)的沉淀,不僅浪費(fèi)了很多學(xué)生認(rèn)真用心的教學(xué)評(píng)價(jià),更無(wú)法幫助高校通過(guò)科學(xué)的方式篩選出具有良好教學(xué)口碑的優(yōu)秀教師,為他們提供更好的發(fā)展平臺(tái)。

設(shè)計(jì)實(shí)現(xiàn)

隨著技術(shù)的進(jìn)步,如何利用好鮮活的主觀評(píng)教數(shù)據(jù),為教師教學(xué)效果提供評(píng)價(jià)的支撐,是我們需要解決的問(wèn)題。自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,利用NLP自然語(yǔ)言處理技術(shù)可以充分分析、挖掘主觀評(píng)教數(shù)據(jù),為教學(xué)管理服務(wù)。自然語(yǔ)言工具箱(NLTK,Natural Language Toolkit)是一個(gè)基于Python語(yǔ)言的類(lèi)庫(kù),它也是當(dāng)前最為流行的自然語(yǔ)言編程與開(kāi)發(fā)工具。在進(jìn)行自然語(yǔ)言處理研究和應(yīng)用時(shí),恰當(dāng)利用NLTK中的函數(shù)可以大幅度地提高效率,達(dá)到工作目標(biāo)。

自然語(yǔ)言情感分析目前可采用詞典分析或者機(jī)器學(xué)習(xí)來(lái)進(jìn)行。詞典匹配是直接計(jì)算文本中的情感詞,得出它們的情感傾向分值。而機(jī)器學(xué)習(xí)方法的思路是先選出一部分表達(dá)積極情感的文本和一部分表達(dá)消極情感的文本,用機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練,獲得一個(gè)情感分類(lèi)器。再通過(guò)這個(gè)情感分類(lèi)器對(duì)所有文本進(jìn)行積極和消極的二分分類(lèi),最終的分類(lèi)可以為文本給出0或1這樣的類(lèi)別,也可以給出一個(gè)概率值。

機(jī)器學(xué)習(xí)的方法精確度更高,因?yàn)樵~典匹配會(huì)由于語(yǔ)義表達(dá)的豐富性而出現(xiàn)很大誤差,而機(jī)器學(xué)習(xí)方法不會(huì),可使用的場(chǎng)景更多樣,無(wú)論是主客觀分類(lèi)還是正負(fù)面情感分類(lèi),機(jī)器學(xué)習(xí)都可以完成任務(wù),而無(wú)需像詞典匹配那樣要深入到詞語(yǔ)、句子、語(yǔ)法這些層面。詞典方法適用的語(yǔ)料范圍更廣,無(wú)論是手機(jī)、電腦這些商品,還是書(shū)評(píng)、影評(píng)這些語(yǔ)料,都可以適用。但機(jī)器學(xué)習(xí)則極度依賴語(yǔ)料,把手機(jī)語(yǔ)料訓(xùn)練出來(lái)的的分類(lèi)器拿去給書(shū)評(píng)分類(lèi),那是注定要失敗的。

經(jīng)過(guò)分析,學(xué)生主觀評(píng)教數(shù)據(jù)均為短句,90%以上少于20個(gè)漢字,語(yǔ)義表達(dá)清晰,基本不存在復(fù)雜言論。所使用語(yǔ)料較為狹窄,85%以上均在200字語(yǔ)料范圍內(nèi)。因此,采用詞典匹配法,結(jié)合情感詞庫(kù)進(jìn)行分析統(tǒng)計(jì)得出情感分值是成本較低且準(zhǔn)確度較高的做法。

評(píng)教數(shù)據(jù)庫(kù)與數(shù)據(jù)中心進(jìn)行數(shù)據(jù)交換、清洗

為了滿足智慧校園建設(shè)的需要,學(xué)校統(tǒng)一數(shù)據(jù)中心大數(shù)據(jù)平臺(tái)采用H3C DataEngine構(gòu)建,很好的解決了大數(shù)據(jù)的存儲(chǔ)、管理、分析、挖掘等問(wèn)題,構(gòu)建起了海量數(shù)據(jù)處理系統(tǒng)。

新華三的H3C DataEngine大數(shù)據(jù)平臺(tái),是集數(shù)據(jù)采集、存儲(chǔ)、查詢分析、挖掘、可視化展示、應(yīng)用開(kāi)發(fā)為一體的綜合性數(shù)據(jù)處理產(chǎn)品,其可幫助用戶構(gòu)建海量數(shù)據(jù)處理系統(tǒng),發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在價(jià)值。系統(tǒng)向下能采集用戶多源異構(gòu)的數(shù)據(jù)集,向上可構(gòu)建快捷的分析應(yīng)用。產(chǎn)品問(wèn)世以來(lái),已通過(guò)權(quán)威評(píng)測(cè)機(jī)構(gòu)數(shù)據(jù)中心聯(lián)盟的基礎(chǔ)能力及性能專項(xiàng)測(cè)評(píng)。其中功能測(cè)評(píng)通過(guò)全部28大項(xiàng)測(cè)試。性能專項(xiàng),在6個(gè)廠家的12項(xiàng)測(cè)試中獲得6項(xiàng)第一,4項(xiàng)第二,產(chǎn)品整體能力獲得業(yè)界一致認(rèn)可。

在高校教育信息化領(lǐng)域,通過(guò)對(duì)重點(diǎn)應(yīng)用場(chǎng)景的分析,涉及數(shù)據(jù)類(lèi)型包括業(yè)務(wù)結(jié)構(gòu)化數(shù)據(jù)、實(shí)時(shí)流數(shù)據(jù)、圖像數(shù)據(jù)、文本數(shù)據(jù)這四種,H3C DataEngine大數(shù)據(jù)平臺(tái)針對(duì)以上數(shù)據(jù)類(lèi)型的特點(diǎn),優(yōu)化了底層數(shù)據(jù)庫(kù)處理平臺(tái),內(nèi)置了常見(jiàn)大數(shù)據(jù)分析算法,涵蓋深度學(xué)習(xí)、流數(shù)據(jù)挖掘、文本處理,以及大規(guī)模機(jī)器學(xué)習(xí),并提供可視化數(shù)據(jù)挖掘組件服務(wù)。

本應(yīng)用通過(guò)學(xué)校統(tǒng)一數(shù)據(jù)中心實(shí)現(xiàn)評(píng)教數(shù)據(jù)庫(kù)與校主數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)交換、管理,在數(shù)據(jù)交換任務(wù)中,進(jìn)行數(shù)據(jù)處理,包括去除空數(shù)據(jù)、補(bǔ)齊空余字段等,查詢出每條學(xué)生評(píng)教數(shù)據(jù)的主觀評(píng)價(jià)內(nèi)容。

利用Python進(jìn)行主觀評(píng)教數(shù)據(jù)的情感分析

具體實(shí)現(xiàn)流程為:

一是詞庫(kù)準(zhǔn)備。結(jié)合實(shí)際場(chǎng)景,以數(shù)據(jù)檢索、去重的方式建立評(píng)價(jià)詞庫(kù)。

二是語(yǔ)料處理、拆分詞匯等。加載停詞表,利用結(jié)巴分詞(jieba)將需要分析的語(yǔ)句拆分成詞匯。

三是情感分析。將拆分好的詞匯與自定義的語(yǔ)句分析表對(duì)應(yīng),利用自然語(yǔ)言處理模塊(NLTK)分析積極與消極詞匯。

四是結(jié)果寫(xiě)入數(shù)據(jù)庫(kù)。遍歷每一條主觀評(píng)教數(shù)據(jù),將處理結(jié)果寫(xiě)入評(píng)教庫(kù)中,如圖1所示。

圖1 將主觀評(píng)教數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)中

第一列為拆分后的評(píng)價(jià)內(nèi)容,用來(lái)展示頁(yè)面上的學(xué)生評(píng)價(jià)語(yǔ)義分析和學(xué)生詳細(xì)評(píng)價(jià)。標(biāo)記一的內(nèi)容為積極評(píng)價(jià)數(shù),標(biāo)記二的內(nèi)容為消極評(píng)價(jià)數(shù)。

可視化設(shè)計(jì)

教學(xué)評(píng)價(jià)系統(tǒng)可視化設(shè)計(jì)采用了echarts開(kāi)發(fā)組件,可以流暢的運(yùn)行在 PC和移動(dòng)設(shè)備上,兼容當(dāng)前絕大部分瀏覽器,底層依賴輕量級(jí)的 Canvas 類(lèi)庫(kù) ZRender,提供直觀,生動(dòng),可交互,可高度個(gè)性化定制的數(shù)據(jù)可視化圖表。

本案例采用了多種豐富的可視化設(shè)計(jì)效果,采用了包括雷達(dá)圖、餅圖、詞云分析等多種圖例,直觀展示自然語(yǔ)言情感分析結(jié)果,用戶普遍反映良好。

效果展現(xiàn)

客觀評(píng)價(jià)

客觀評(píng)價(jià)分別來(lái)源于專家、教師、學(xué)生三類(lèi)人群打分分值,并且通過(guò)建立數(shù)據(jù)模型,從學(xué)生、教師、班級(jí)三個(gè)角度來(lái)對(duì)原始數(shù)據(jù)進(jìn)行處理與和優(yōu)化,以解決惡意評(píng)教、數(shù)據(jù)區(qū)分度不夠等問(wèn)題。最終結(jié)果以百分制采用流量圖形式進(jìn)行展示。

主觀評(píng)價(jià)

學(xué)生評(píng)價(jià)的具體語(yǔ)句以自動(dòng)滾動(dòng)的方式進(jìn)行展現(xiàn);學(xué)生評(píng)價(jià)語(yǔ)義分析以環(huán)狀圖的方式展示篩選出的排名前十名的評(píng)價(jià)關(guān)鍵詞;情感分析結(jié)果以正面和負(fù)面評(píng)價(jià)人數(shù)及其占比的方式展現(xiàn)該名教師正負(fù)面情感分析結(jié)果。

目前,經(jīng)過(guò)小范圍使用測(cè)試,學(xué)院的教學(xué)管理人員和教師均對(duì)此表示認(rèn)可,該系統(tǒng)能有效利用海量的主觀評(píng)教數(shù)據(jù),大大加深了他們對(duì)于學(xué)生評(píng)教反饋的理解和認(rèn)識(shí)。

改進(jìn)提升

雖然,利用NLP進(jìn)行教評(píng)情感分析已大大提高了學(xué)生主觀評(píng)價(jià)數(shù)據(jù)的利用度,也能基本準(zhǔn)確反映教學(xué)評(píng)價(jià)的主觀分析結(jié)果,但在處理過(guò)程中,仍存在著一定缺陷。

第一,由于中文語(yǔ)義表達(dá)的豐富性而出現(xiàn)誤差。如某同學(xué)評(píng)價(jià)語(yǔ)句為:“課程太難,不好理解”,拆分詞匯后“太難”、“不好理解”會(huì)被定義為負(fù)面評(píng)價(jià)詞匯,但實(shí)際上該同學(xué)僅是對(duì)課程做出評(píng)價(jià),并不是對(duì)老師的教學(xué)進(jìn)行評(píng)價(jià),因而出現(xiàn)誤判。

第二,詞庫(kù)的詞匯量有限,對(duì)判斷結(jié)果的分析具有局限性。詞典匹配法先天特點(diǎn)決定,詞庫(kù)質(zhì)量直接影響結(jié)果的準(zhǔn)確性。實(shí)驗(yàn)中,我們采用的積極詞匯和消極詞匯的詞庫(kù)詞匯量有限,當(dāng)超出詞庫(kù)所包含的詞語(yǔ)范圍后,便無(wú)法對(duì)某些詞語(yǔ)進(jìn)行分析匹配。當(dāng)學(xué)生使用一些新奇詞匯(如網(wǎng)絡(luò)用語(yǔ)和新出現(xiàn)的流行語(yǔ)等)進(jìn)行評(píng)價(jià)時(shí),此分析方法將會(huì)具有一定的局限性,需定期對(duì)詞庫(kù)進(jìn)行補(bǔ)充升級(jí)。

第三,利用機(jī)器學(xué)習(xí)的方法進(jìn)行情感分析。機(jī)器學(xué)習(xí)的文本分析方法有很多,如樸素貝葉斯和支持向量機(jī)等模型構(gòu)建方法,或者采用深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)分析復(fù)雜文本,目前進(jìn)步非常快,由于是從大量訓(xùn)練樣本數(shù)據(jù)中學(xué)習(xí)分類(lèi)模型,這種方法具有人工干預(yù)少、通用性和靈活性較強(qiáng)且對(duì)領(lǐng)域和語(yǔ)言知識(shí)要求較少等優(yōu)點(diǎn)。對(duì)于長(zhǎng)文本,復(fù)雜語(yǔ)義的內(nèi)容,使用機(jī)器學(xué)習(xí)的方法進(jìn)行分析,準(zhǔn)確度將大大提高,同時(shí)不再受詞匯庫(kù)等的局限。未來(lái),計(jì)劃采用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)方法進(jìn)一步改進(jìn)分析模型,使其使用范圍更廣,應(yīng)用效果更好。

猜你喜歡
詞庫(kù)評(píng)教語(yǔ)料
地方高校教學(xué)評(píng)價(jià)指標(biāo)制訂與評(píng)教數(shù)據(jù)分析
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
高校學(xué)生網(wǎng)上評(píng)教的探索與實(shí)踐
詞庫(kù)音系學(xué)的幾個(gè)理論問(wèn)題芻議
高校學(xué)生評(píng)教的問(wèn)題與對(duì)策——以中國(guó)礦業(yè)大學(xué)為例
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
評(píng)教,別忘記站在教師的立場(chǎng)上
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
環(huán)境變了,詞庫(kù)別變
電腦迷(2014年14期)2014-04-29 00:44:03
鄄城县| 醴陵市| 大关县| 阿拉尔市| 九龙坡区| 晋中市| 彝良县| 台湾省| 延寿县| 闽清县| 遂宁市| 三河市| 友谊县| 卓资县| 乌拉特中旗| 景洪市| 来凤县| 江达县| 道真| 子洲县| 苍山县| 哈密市| 湘阴县| 阿鲁科尔沁旗| 云阳县| 抚松县| 会东县| 苍南县| 成都市| 通化市| 遂平县| 图们市| 临澧县| 都匀市| 大同市| 兰溪市| 五莲县| 福建省| 青浦区| 栾城县| 绥江县|