摘 要:隨著在線教育平臺(tái)的普及,蘊(yùn)含豐富情感信息的在線課程評(píng)論文本不斷涌現(xiàn),其對(duì)于優(yōu)化在線教育平臺(tái)和提升教學(xué)效果具有重要意義。故構(gòu)建一種基于R-Boson情感詞典的在線課程評(píng)論情感分析模型。首先,爬取B站課程評(píng)論并運(yùn)用jieba等技術(shù)進(jìn)行數(shù)據(jù)預(yù)處理;其次,根據(jù)評(píng)論特點(diǎn)建立教育領(lǐng)域否定詞和程度副詞詞典;最后,使用R-Boson情感分析模型計(jì)算評(píng)論情感傾向。結(jié)果表明,與基礎(chǔ)Boson詞典相比,添加否定詞和程度副詞的R-Boson模型性能有所提升,其F1值從93%提升至95%,負(fù)向召回率從54%提升至79%,負(fù)向精確率從76%提升至87%;同時(shí),模型在遞增數(shù)據(jù)規(guī)模下F1值從89%逐漸提升至95%。
關(guān)鍵詞:在線課程評(píng)論;情感分析;R-Boson;B站
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)16-0107-06
Research on Sentiment Analysis Model for Online Course Comments Based on R-Boson
Abstract: With the popularization of online education platforms, online course review texts containing rich emotional information continue to emerge, which is of great significance for optimizing online education platforms and improving teaching effectiveness. Therefore, a sentiment analysis model for online course comments based on R-Boson sentiment dictionary is constructed. Firstly, it crawls course comments from bilibili and uses techniques such as jieba for data preprocessing. Secondly, it establishes a dictionary of negative words and degree adverbs in the field of education based on the characteristics of comments. Finally, it uses the R-Boson sentiment analysis model to calculate the sentiment tendency of comments. The results show that compared with the basic Boson dictionary, the R-Boson model with negative words and degree adverbs improves its performance. Its F1 value increases from 93% to 95%, the negative recall rate increases from 54% to 79%, and the negative accuracy rate increases from 76% to 87%. At the same time, the F1 value of the model gradually increases from 89% to 95% in increasing data size.
Keywords: online course comment; sentiment analysis; R-Boson; bilibili
0 引 言
《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》指出:發(fā)揮在線教育優(yōu)勢(shì),完善終身學(xué)習(xí)體系,建設(shè)學(xué)習(xí)型社會(huì)。由此可見,在線教育在推動(dòng)教育現(xiàn)代化改革方面具有顯著作用,未來的教育信息化研究方向?qū)⒅靥接懺诰€教育互動(dòng)機(jī)制對(duì)教與學(xué)過程的影響[1]。此外,基于我國在教育信息化領(lǐng)域的不斷推進(jìn)以及疫情對(duì)教育提出的現(xiàn)實(shí)挑戰(zhàn),在線教育迅速崛起為一種新的教育形式,大量在線教育平臺(tái)和網(wǎng)站的使用率持續(xù)上升。如慕課、網(wǎng)易公開課等大規(guī)模在線開放課程平臺(tái)和YouTube、bilibili(以下簡(jiǎn)稱B站)等在線視頻網(wǎng)站因其豐富的教育視頻資源,成為廣大網(wǎng)絡(luò)用戶進(jìn)行學(xué)習(xí)的重要途徑。而B站目前已成為“中國青年最大的原創(chuàng)視頻發(fā)布平臺(tái)”,許多在線開放課程被搬運(yùn)至此[2],其在線課程評(píng)論作為學(xué)習(xí)者互動(dòng)的關(guān)鍵渠道,具有反映個(gè)體對(duì)視頻課程的情感和評(píng)價(jià)的功能,蘊(yùn)含大量極富價(jià)值的學(xué)習(xí)者情感信息[3],深入挖掘評(píng)論文本中隱含的情感信息有助于緩解在線教育中存在的師生情感交流不足的問題,從而提升在線教育的實(shí)施效果[4]。
與電商、微博等領(lǐng)域的評(píng)論情感分析不同,在線教育評(píng)論文本具有區(qū)別于通用場(chǎng)景數(shù)據(jù)的特有屬性,并且在中文語料方面,暫且沒有公開的在線教育評(píng)論語料可供文本情感識(shí)別使用,這為在線教育領(lǐng)域的情感識(shí)別研究、應(yīng)用和發(fā)展帶來巨大的挑戰(zhàn)[5]。此外,分析B站部分在線課程評(píng)論發(fā)現(xiàn),情感詞在評(píng)論中占據(jù)主導(dǎo)地位,正面情感詞如“重難點(diǎn)”“受益匪淺”以及負(fù)面情感詞如“難懂”“遙遙無期”等凸顯了評(píng)論較強(qiáng)的情感極性,同時(shí)以上關(guān)鍵情感詞在BosonNLP(波森情感詞典)中已有相應(yīng)的記錄,這進(jìn)一步驗(yàn)證了情感詞匯在情感分析中的重要性。
故采用文本情感分析技術(shù)構(gòu)建教育領(lǐng)域的在線課程評(píng)論情感分析模型,文本情感分析是自然語言處理中的一項(xiàng)基本任務(wù),其目的是根據(jù)文本表達(dá)的情感傾向?qū)⑵鋭澐值讲煌那楦蓄悇e。盡管基于深度學(xué)習(xí)的情感分析方法在解決情感分析問題方面取得了良好的成效,但是多數(shù)方法往往過于注重?cái)?shù)據(jù)驅(qū)動(dòng),而忽略了詞性特征、文本否定詞特征等文本情感特征對(duì)情感分析的影響[6]??傊?,雖然基于深度學(xué)習(xí)的情感分析已取得了顯著成效,但在教育領(lǐng)域仍主要依賴情感詞典進(jìn)行情感分析[7]?;诖耍狙芯恳訠站課程評(píng)論文本數(shù)據(jù)作為數(shù)據(jù)來源,依照教育語言的特征來構(gòu)建教育領(lǐng)域的否定詞和程度副詞詞表,并在此基礎(chǔ)上使用波森情感詞典作為輔助工具計(jì)算文本情感傾向,從而提升R-Boson(即重新構(gòu)建波森情感詞典)在線課程評(píng)論情感分析模型的準(zhǔn)確性。該模型的應(yīng)用有助于B站等在線教育平臺(tái)更加精準(zhǔn)地分析學(xué)生評(píng)論,為教學(xué)質(zhì)量和學(xué)習(xí)體驗(yàn)提供有針對(duì)性的改進(jìn)建議。
1 相關(guān)技術(shù)
目前,國內(nèi)外針對(duì)在線教育評(píng)論文本進(jìn)行情感分析的方法主要包括基于機(jī)器學(xué)習(xí)的分析、基于深度學(xué)習(xí)的分析以及基于情感詞典的分析[8]。
1.1 機(jī)器學(xué)習(xí)技術(shù)
基于機(jī)器學(xué)習(xí)的情感分析方法一般會(huì)先提取文本的詞頻、詞性等情感特征,接著利用支持向量機(jī)(SVM)、決策樹等機(jī)器學(xué)習(xí)方法構(gòu)建一個(gè)分析模型。該模型通過學(xué)習(xí)訓(xùn)練數(shù)據(jù)中的文本與相應(yīng)情感標(biāo)簽之間的關(guān)系,使其能夠?qū)π碌奈谋具M(jìn)行情感分析。例如朱軍等[9]通過構(gòu)建情感詞典,提取特征詞,并根據(jù)評(píng)論中情感詞的出現(xiàn)與否選擇樸素貝葉斯或SVM分析器進(jìn)行情感分析。然而,這種方法的效用在很大程度上取決于人工標(biāo)注的準(zhǔn)確性,且無法對(duì)文本的上下文語義進(jìn)行建模,故存在很大的局限性[10]。
1.2 深度學(xué)習(xí)技術(shù)
基于深度學(xué)習(xí)的情感分析方法近年來發(fā)展迅速且取得良好成果。目前,主流的深度學(xué)習(xí)情感分類模型包括卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)以及門控循環(huán)單元(GRU)[11]。盡管基于深度學(xué)習(xí)的情感分析方法能夠自動(dòng)學(xué)習(xí)語義特征,但針對(duì)網(wǎng)絡(luò)中存在語義模糊的短文本這一情況,這一方法面臨著有效訓(xùn)練的困難,影響了情感分析的性能[12]。另外,由于模型輸入的文本特征相對(duì)單一,未充分整合情感特征信息,致使所提取的文本語義信息相對(duì)不足。因此,為了獲得更為準(zhǔn)確的分析效果,需要借助更多的訓(xùn)練樣本進(jìn)一步豐富模型對(duì)語義的理解。
總體而言,基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的情感分析方法需要依賴昂貴的人工成本。其出色的分析效果往往得益于高質(zhì)量地標(biāo)注訓(xùn)練集,而人為主觀地對(duì)數(shù)據(jù)進(jìn)行標(biāo)注也可能對(duì)分析效果產(chǎn)生影響[13]。
1.3 情感詞典技術(shù)
由于B站中的課程評(píng)論具有非正式的語言風(fēng)格,針對(duì)此類文本,基于情感詞典的方法具有粒度精細(xì)、操作簡(jiǎn)便、可解釋性高、結(jié)果穩(wěn)定等優(yōu)勢(shì)[14]。
1.3.1 概述
詞典型情感分析方法利用現(xiàn)有情感詞典提取文本的情感特征,同時(shí)通過人工設(shè)計(jì)有關(guān)單詞、句法結(jié)構(gòu)等的判斷規(guī)則,以計(jì)算文本的情感得分[15]。目前,人工構(gòu)建的中文情感詞典主要包括臺(tái)灣大學(xué)情感語料庫、大連理工大學(xué)中文情感詞匯本體庫、中國知網(wǎng)的HowNet情感詞典、BoSon語義情感詞庫等[16]。閆曉東等[17]通過人工構(gòu)建的詞典(其中包括情感詞、否定詞、轉(zhuǎn)折詞等多個(gè)要素),以文本結(jié)構(gòu)為基礎(chǔ)識(shí)別情感短語,著重分析了轉(zhuǎn)折詞對(duì)句子情感傾向的影響。這種方法實(shí)現(xiàn)起來相對(duì)便捷,然而由于語言句法的復(fù)雜性,相同的詞匯在不同的語境中可能呈現(xiàn)天差地別的差異[18],所以存在準(zhǔn)確度不高且泛化能力差的缺點(diǎn)。因此,高質(zhì)量的情感詞典對(duì)于提升情感分析的準(zhǔn)確率、精確率和召回率有著至關(guān)重要的作用。
1.3.2 波森情感詞典
波森情感詞典是一種基于微博、知乎等社交軟件hpqxpZ5ybY4+IY5XZ/oGOA==數(shù)據(jù)構(gòu)建的詞典,專為處理社交軟件中的短文本而設(shè)計(jì)。該詞典為每個(gè)單詞賦予一定的權(quán)重,根據(jù)單詞權(quán)重計(jì)算整個(gè)句子的情感得分。相較于其他種類的情感詞典,波森情感詞典具有高準(zhǔn)確率、高效率以及廣泛的語言支持等優(yōu)勢(shì)。然而,基于波森情感詞典的情感分析方法存在非領(lǐng)域化的不足。例如,在教育領(lǐng)域中沒有充分考慮中文語言的特殊性:一方面是由于程度副詞引起的情感極性加重,如“我喜歡這節(jié)課”與“我特別喜歡這節(jié)課”兩者雖然都傳達(dá)積極的信號(hào),但后者明顯表達(dá)了更強(qiáng)烈的情感;另一方面,否定詞在情感分析中扮演著至關(guān)重要的角色,例如,“我很喜歡這節(jié)課”與“我很不喜歡這節(jié)課”兩者明顯表達(dá)不同的情感極性,而僅僅采用波森詞典中的情感值進(jìn)行簡(jiǎn)單的加減可能無法很好地反映這種情感變動(dòng),容易造成正負(fù)抵消的情況,而將明顯的負(fù)面情感誤判為中性。
綜上所述,本文將聚焦基于情感詞典的情感分析,主要參考HowNet情感否定詞和程度副詞詞袋,構(gòu)建適用于教育領(lǐng)域的否定詞和程度副詞情感詞典。研究旨在建立一個(gè)適用于在線教育課程評(píng)論的R-Boson情感分析模型,通過計(jì)算評(píng)論的情緒值,深入分析B站在線課程評(píng)論的情感傾向。
2 模型構(gòu)建
基于上述相關(guān)理論,本文提出了R-Boson在線課程評(píng)論情感分析模型,模型結(jié)構(gòu)如圖1所示。模型的構(gòu)建流程主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、建立教育領(lǐng)域的否定詞和程度副詞詞表、計(jì)算文本情感值以及評(píng)估模型五個(gè)步驟。
2.1 數(shù)據(jù)采集
B站作為國內(nèi)最受歡迎的視頻網(wǎng)站之一,匯聚了大量豐富的在線課程評(píng)論。因此本文選擇B站數(shù)學(xué)、化學(xué)、物理等國家中小學(xué)精品系列課程的教育評(píng)論作為實(shí)驗(yàn)案例。為獲取教育課程評(píng)論數(shù)據(jù),利用Python爬蟲技術(shù)和bilibili開放API,依次爬取了視頻樓層、時(shí)間、點(diǎn)贊數(shù)、用戶ID、用戶名、性別、評(píng)論內(nèi)容等信息。最終,共抓取20 041條教育課程評(píng)論數(shù)據(jù),圖2是部分評(píng)論數(shù)據(jù)的展示。
2.2 數(shù)據(jù)預(yù)處理
缺乏價(jià)值的教育課程評(píng)論文本會(huì)對(duì)分析結(jié)果產(chǎn)生較大影響,因此,在進(jìn)行文本分析之前,需要先對(duì)教育評(píng)論進(jìn)行數(shù)據(jù)清洗。首先,利用擴(kuò)展庫Pandas的drop_duplicate函數(shù)去除教育評(píng)論中的重復(fù)數(shù)據(jù);其次,對(duì)語料進(jìn)行停用詞過濾,停用詞是指那些沒有實(shí)際意義的詞,如“的”“了”等,這些詞對(duì)教育評(píng)論的本質(zhì)含義影響較小,應(yīng)該被去除;最后,采用在中文分詞中表現(xiàn)出色的jieba分詞包[19]對(duì)評(píng)論文本進(jìn)行分詞處理。
此外,對(duì)所獲取的20 041條教育評(píng)論數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),去除重復(fù)評(píng)論等無意義文本后,具有明顯否定詞和程度副詞特征的教育評(píng)論在總體評(píng)論中占比較大,統(tǒng)計(jì)占比約為44%,深入分析這類評(píng)論可以更準(zhǔn)確地把握學(xué)習(xí)者對(duì)課程的情感態(tài)度。因此,本研究通過人工的方式篩選出具有明顯否定詞和程度副詞特征的教育評(píng)論,最終獲得8 871條數(shù)據(jù),其中正向評(píng)論4 686條,負(fù)向評(píng)論4 185條。這一精心篩選的數(shù)據(jù)集為后續(xù)深入研究提供了堅(jiān)實(shí)的基礎(chǔ)。表1為篩選后的正負(fù)向教育評(píng)論示例。
2.3 建立否定詞、程度副詞詞表
為解決波森情感詞典非領(lǐng)域化的問題,對(duì)波森詞典情感分析模型進(jìn)行基于詞性的修改。
2.3.1 詞表構(gòu)建
構(gòu)建教育領(lǐng)域否定詞和程度副詞詞表的步驟如下:
1)分析包含否定詞和程度副詞的8 871條教育評(píng)論,了解B站課程評(píng)論的語言特點(diǎn),人工篩選出具有學(xué)齡特征的否定詞和程度副詞。
真不錯(cuò),很適合復(fù)習(xí) 老師講光路圖的時(shí)候最好是畫下圖,太難理解了
2)去除知網(wǎng)程度副詞和否定詞詞表中不符合中小學(xué)學(xué)齡特征的程度副詞和否定詞,如“毋”“忌”“弗”“切莫”等。
3)匯總上述人工篩選后具有學(xué)齡特征的否定詞和程度副詞,最終構(gòu)建一個(gè)教育領(lǐng)域的否定詞和程度副詞詞表,其中包含70個(gè)否定詞和121個(gè)程度副詞,這些詞匯均具有特定的學(xué)齡特征,適用于中小學(xué)教育階段。
此外,否定詞和程度副詞的權(quán)重分配規(guī)則主要參考張小艷[20]等學(xué)者對(duì)程度副詞范圍的等級(jí)劃分,對(duì)最高等級(jí)的修飾詞取權(quán)重2,其次以0.3為下降梯度[21],對(duì)其他等級(jí)的修飾詞權(quán)重進(jìn)行賦值,帶入情感詞典分析模型。修飾詞權(quán)重分配如表2所示。
2.3.2 程度副詞處理
評(píng)論文本中的程度副詞反映了情感的強(qiáng)度,根據(jù)強(qiáng)度的不同賦予程度副詞不同的權(quán)值。程度副詞的情感強(qiáng)度主要分為most、over、very、more、ish、insufficiently等,表示情感強(qiáng)度逐漸減弱。文中在構(gòu)建教育領(lǐng)域的程度副詞詞表時(shí),給予了程度副詞對(duì)應(yīng)的權(quán)重,從而更準(zhǔn)確地表達(dá)情感的強(qiáng)烈程度。圖3為所構(gòu)建的部分教育領(lǐng)域程度副詞表及其權(quán)重的展示。
2.3.3 否定詞處理
當(dāng)情感詞被否定詞修飾時(shí),會(huì)導(dǎo)致文本情感傾向性的變化。具體而言,否定詞的個(gè)數(shù)會(huì)對(duì)情感詞組的情感值產(chǎn)生影響:如果否定詞的個(gè)數(shù)為奇數(shù),情感分?jǐn)?shù)將取相反數(shù);反之,如果否定詞的個(gè)數(shù)為偶數(shù),情感分?jǐn)?shù)將保持不變。這一規(guī)律反映了否定詞對(duì)情感表達(dá)的強(qiáng)烈影響,且通過奇偶性判斷進(jìn)一步?jīng)Q定了情感值的正負(fù)方向。
2.3.4 評(píng)論文本情感值計(jì)算:累加和
基于情感詞典計(jì)算文本情感值因?qū)崿F(xiàn)方法簡(jiǎn)單,得到廣泛的應(yīng)用[22]。首先,利用jieba分詞工具對(duì)文本進(jìn)行分詞處理,遍歷情感詞典,找出其中的情感詞;其次,向前尋找修飾該情感詞的程度副詞和否定詞,將情感詞的分?jǐn)?shù)乘以副詞的權(quán)值,得到該情感詞組的分?jǐn)?shù);最后,將句中所有情感詞組的分?jǐn)?shù)相加,獲取句子的總體情感值。當(dāng)情感值大于0時(shí),判定為正向課程評(píng)論;當(dāng)情感值小于0時(shí),判定為負(fù)向課程評(píng)論。核心代碼為:
總的來說,本研究首先進(jìn)行數(shù)據(jù)預(yù)處理,獲取具有明顯否定詞和程度副詞特征的教育評(píng)論;其次,在此基礎(chǔ)上結(jié)合HowNet情感否定詞和程度副詞詞袋建立教育領(lǐng)域的程度副詞和否定詞詞表;最后,通過核心代碼實(shí)現(xiàn)評(píng)論文本情感值的計(jì)算。最終構(gòu)建的R-Boson在線課程評(píng)論情感分析模型有針對(duì)性地彌補(bǔ)了波森情感詞典非領(lǐng)域化的不足,同時(shí)可在一定程度上提升情感分析的精度,為后續(xù)分析提供更可靠的數(shù)據(jù)。
3 模型評(píng)估
3.1 衡量指標(biāo)
目前,對(duì)于中文文本分析模型的評(píng)價(jià)通常從召回率R(Recall)、精確率P(Precision)以及F1值來考量。召回率是對(duì)覆蓋面的度量,它代表了分析器正確分析的比例[23],精確率表示被分為正例的事例中實(shí)際為正例的比例,而F1值則中和了精確率和召回率,是它們的加權(quán)調(diào)和平均數(shù)。相關(guān)計(jì)算式如下:
在混淆矩陣中,TP(True Positive)表示正向類別中被正確預(yù)測(cè)為正向類別的樣本數(shù)量;TN(True Negative)表示負(fù)向類別中被正確預(yù)測(cè)為負(fù)向類別的樣本數(shù)量;FP(False Positive)表示負(fù)向類別中被錯(cuò)誤預(yù)測(cè)為正向類別的樣本數(shù)量;FN(False Negative)表示正向類別中被錯(cuò)誤預(yù)測(cè)為負(fù)向類別的樣本數(shù)量。
3.2 實(shí)驗(yàn)數(shù)據(jù)
前文數(shù)據(jù)預(yù)處理部分顯示,近一半(44%)的在線教育評(píng)論中包含否定詞和程度副詞,對(duì)這部分評(píng)論進(jìn)行情感分析有助于更準(zhǔn)確地了解學(xué)習(xí)者對(duì)課程的情感傾向。因此文章選取前文人工篩選的具有明顯否定詞和程度副詞特征的8 871條評(píng)論作為測(cè)試集,并使用相同的評(píng)論文本測(cè)試集對(duì)比R-Boson情感分析模型的輸出結(jié)果和人工標(biāo)注的結(jié)果,進(jìn)行精確率、召回率和F1值的計(jì)算,以評(píng)估模型的性能。
3.3 實(shí)驗(yàn)設(shè)計(jì)
3.3.1 添加程度和否定副詞前后性能對(duì)比實(shí)驗(yàn)
首先使用教育領(lǐng)域的程度副詞和否定詞詞表進(jìn)行匹配,其次計(jì)算在線教育評(píng)論文本情感值,最后經(jīng)過統(tǒng)計(jì)分析得出R-Boson情感分析模型的F1值為95%,負(fù)向召回率為79%,負(fù)向精確率為87%,比未添加程度副詞和否定詞詞表的基礎(chǔ)波森情感詞典分析效果更好。分析結(jié)果如表3所示。
具體而言,包含教育領(lǐng)域否定詞和程度副詞詞表的R-Boson模型的綜合性能有所提升:F1值、正向召回率和精確率從93%提升至95%,負(fù)向召回率從54%提升至79%,負(fù)向精確率從76%提升至87%,R-Boson情感分析模型更成功地捕捉到了負(fù)向情感評(píng)論。原因是通過在R-Boson在線課程評(píng)論情感分析模型中添加教育領(lǐng)域的否定詞和程度副詞,成功地強(qiáng)化了模型的特征學(xué)習(xí)能力,模型能更有效地處理包含程度副詞和否定詞的教育評(píng)論,進(jìn)而增強(qiáng)了模型對(duì)教育評(píng)論的語義理解。
3.3.2 數(shù)據(jù)量遞增實(shí)驗(yàn)
為全面了解R-Boson情感分析模型在不同數(shù)據(jù)規(guī)模下的性能表現(xiàn),文章進(jìn)行數(shù)據(jù)量遞增實(shí)驗(yàn)。首先從8 871條含否定詞和程度副詞的評(píng)論中選取遞增的教育評(píng)論數(shù)據(jù)集:2 000、4 000、6 000和8 000條評(píng)論,每個(gè)數(shù)據(jù)集都維持正負(fù)評(píng)論的平衡;其次,對(duì)不同數(shù)據(jù)集采用相同的評(píng)估方法,利用R-Boson模型處理評(píng)論數(shù)據(jù),與人工標(biāo)注的情感標(biāo)簽比較,重點(diǎn)評(píng)估F1值、負(fù)向召回率和負(fù)向精確率等指標(biāo);最后,繪制折線圖展示模型性能隨數(shù)據(jù)量遞增的趨勢(shì),折線圖如圖4所示。
由圖5可知,隨著教育評(píng)論數(shù)量的遞增,模型性能整體上呈現(xiàn)穩(wěn)步上升的趨勢(shì),其F1值從89%逐步提升至95%,正向召回率和正向精確率也隨評(píng)論數(shù)量的增加而提升,表明模型更有效地捕捉了正向情感。此外,負(fù)向召回率和負(fù)向精確率在評(píng)論數(shù)量遞增的過程中有輕微波動(dòng),但總體上保持穩(wěn)定,負(fù)向召回率維持在78%—82%區(qū)間,負(fù)向精確率維持在84%—89%區(qū)間。通過實(shí)驗(yàn)證明,逐步增加教育評(píng)論數(shù)量將對(duì)情感分析模型性能產(chǎn)生積極影響,更多的訓(xùn)練數(shù)據(jù)有助于提升模型的泛化能力,使其在不同情感分析任務(wù)中更為有效,本研究為進(jìn)一步優(yōu)化情感分析模型提供了實(shí)證支持。
4 結(jié) 論
文章構(gòu)建的R-Boson在線課程評(píng)論情感分析模型通過添加具有教育領(lǐng)域特征的否定詞和程度副詞,成功提升了情感分析模型的整體性能。結(jié)果顯示:在否定詞和程度副詞對(duì)比實(shí)驗(yàn)中,添加否定詞和程度副詞對(duì)模型性能產(chǎn)生了積極影響,正負(fù)向召回率、正負(fù)向精確率以及F1值均得到一定程度的提升,模型更好地適應(yīng)了教育評(píng)論中的語境變化,這進(jìn)一步驗(yàn)證了教育否定詞和程度副詞在情感分析任務(wù)中的重要性;在數(shù)據(jù)量遞增實(shí)驗(yàn)中,模型在遞增數(shù)據(jù)集中的F1值穩(wěn)步提升,且負(fù)向召回率和精確率在適度規(guī)模數(shù)據(jù)集上保持相對(duì)穩(wěn)定,這對(duì)實(shí)際應(yīng)用中的情感分析具有積極意義。
然而,與正向精確率和召回率相比,R-Boson情感分析模型的負(fù)向精確率和召回率仍然相對(duì)較低,這可能是因?yàn)樵诰€課程評(píng)論中包含特定的教育術(shù)語和語言結(jié)構(gòu),如“犯困”“啰嗦”“照本宣科”等帶有負(fù)向情感的詞語充分表達(dá)了學(xué)習(xí)者對(duì)課程的意見與不滿。因此,為進(jìn)一步提升模型在教育領(lǐng)域的情感分析性能,讓模型更好地適應(yīng)教育領(lǐng)域的特殊語境,后續(xù)研究將構(gòu)建教育領(lǐng)域情感詞典,該詞典包含教育領(lǐng)域常用的情感詞匯,最后進(jìn)行模型優(yōu)化,期望可以在教育領(lǐng)域情感分析任務(wù)中取得更好的成效。
參考文獻(xiàn):
[1] 吳鵬澤,黃嘉歆,華子荀.基于價(jià)值共創(chuàng)理論的在線教育價(jià)值投入-產(chǎn)出度分析 [J].現(xiàn)代教育技術(shù),2023,33(10):74-85.
[2] 杜恩龍,常紀(jì)超.傳播儀式觀視域下的刷屏彈幕解析——以B站《西游記》彈幕為例[J].東南傳播,2021(7):53-57.
[3] 張婧婧,楊業(yè)宏,安欣.彈幕視頻中的學(xué)習(xí)交互分析 [J].中國遠(yuǎn)程教育,2017(11):22-30+79-80.
[4] 李浩君,汪旭輝,廖偉霞.在線教育彈幕情感信息智能識(shí)別模型研究——融合變式情感詞典與深度學(xué)習(xí)技術(shù) [J].現(xiàn)代遠(yuǎn)距離教育,2023(1):19-31.
[5] 魏曉聰,于瀾.中文慕課評(píng)論情感識(shí)別語料庫的構(gòu)建與應(yīng)用 [J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué),2023,37(4):174-181.
[6] KONG L,LI C Y,GE J D,et al. Leveraging Multiple Features for Document Sentiment Classification [J].Information Sciences,2020,518:39-55.
[7] PIRYANI R,MADHAVI D,SINGH V K. Analytical Mapping of Opinion Mining and Sentiment Analysis Research during 2000-2015 [J].Information Processing & Management,2017,53(1):122-150.
[8] 陳龍,管子玉,何金紅,等.情感分類研究進(jìn)展 [J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):1150-1170.
[9] 朱軍,劉嘉勇,張騰飛,等.基于情感詞典和集成學(xué)習(xí)的情感極性分類方法 [J].計(jì)算機(jī)應(yīng)用,2018,38(S1):95-98+107.
[10] KIRITCHENKO S,ZHU X D,CHERRY C,et al. Nrc-Canada-2014: Detecting Aspects and Sentiment in Customer Reviews [C]//Proceedings of the 8th International Workshop on Semantic Evaluation. [S.l.]:Association for Computational Linguistics,2014:437-442.
[11] 陳可嘉,柯永誠.融合多特征的在線評(píng)論情感分類[J/OL].小型微型計(jì)算機(jī)系統(tǒng),1-9[2023-11-17].http://kns.cnki.net/kcms/detail/21.1106.TP.20230223.1407.014.html.
[12] 戚天梅,過弋,王吉祥,等.基于機(jī)器學(xué)習(xí)的外匯新聞情感分析 [J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(6):1742-1748.
[13] 馬瑞,李明,鄭自園,等.基于MOOC課程評(píng)論的情感分析與主題挖掘研究 [J].教育信息技術(shù),2023(9):3-7.
[14] XU G,MENG X F,WANG H F. Build Chinese Emotion Lexicons Using a Graph-based Algorithm and Multiple Resources [J].Proceedings of the 23rd international conference on computational linguistics. Beijing:[S.n.],2010:538-546.
[15] 劉鑫,祁瑞華,徐琳宏,等.融合多級(jí)特征的俄語推特文本情感分析 [J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(6):1176-1183.
[16] 張學(xué)波,王卿.社交媒體平臺(tái)中健康報(bào)道標(biāo)題對(duì)公眾情緒影響研究——以人民日?qǐng)?bào)微信公眾號(hào)為例 [J].傳媒論壇,2022,5(3):19-22.
[17] 閆曉東,黃濤.基于情感詞典的藏語文本句子情感分類 [J].中文信息學(xué)報(bào),2018,32(2):75-80.
[18] 趙妍妍,秦兵,石秋慧,等.大規(guī)模情感詞典的構(gòu)建及其在情感分類中的應(yīng)用 [J].中文信息學(xué)報(bào),2017,31(2):187-193.
[19] 尚永敏,趙榆琴.基于機(jī)器學(xué)習(xí)的在線評(píng)論情感分析與實(shí)現(xiàn) [J].大理大學(xué)學(xué)報(bào),2021,6(12):80-86.
[20] 張小艷,白瑜.基于加權(quán)融合字詞向量的中文在線評(píng)論情感分析 [J].計(jì)算機(jī)應(yīng)用研究,2022,39(1):31-36.
[21] 張麗,張禎.基于文本挖掘的新冠肺炎疫情下醫(yī)藥在線消費(fèi)者的需求研究[J/OL].運(yùn)籌與管理,2023:1-8[2024-07-17].http://kns.cnki.net/kcms/detail/34.1133.G3.20230901.0849.002.html.
[22] 丁森華,邵佳慧,李春艷,等.文本情感分析方法對(duì)比研究 [J].廣播電視信息,2020(4):92-96.
[23] 張宇.面向微博文本的情感分析模型研究 [D].天津:天津商業(yè)大學(xué),2019.