国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

文本挖掘與智慧教育

2020-07-14 16:05吳大慶郭向陽(yáng)馬盡文
數(shù)字教育 2020年3期
關(guān)鍵詞:文本挖掘智慧教育機(jī)器學(xué)習(xí)

吳大慶 郭向陽(yáng) 馬盡文

摘 要:隨著互聯(lián)網(wǎng)和移動(dòng)通信技術(shù)的日益普及和成熟,教育行業(yè)正在向著信息化的方向快速發(fā)展,例如在線課堂、慕課等新的教學(xué)形式已改變了原有的教育形態(tài)。與此同時(shí),人工智能技術(shù)的大量運(yùn)用,使得教育信息化不再滿足于形式的創(chuàng)新,而是更重視教育數(shù)據(jù)的采集和挖掘,提高教育的針對(duì)性和智能化,產(chǎn)生了所謂的智慧教育。實(shí)際上,智慧教育更多地體現(xiàn)在從教育相關(guān)的數(shù)據(jù)中挖掘到新的教育理念,學(xué)習(xí)到重要的模式與方法,與數(shù)據(jù)挖掘技術(shù)密切相關(guān)。本文首先介紹文本挖掘的理論與方法,并進(jìn)一步討論如何將其應(yīng)用到智慧教育中,且以教育類新聞主題挖掘和在線課堂的智能化作為實(shí)例展示和證明了文本挖掘?qū)χ腔劢逃陌l(fā)展能夠起到至關(guān)重要的作用。

關(guān)鍵詞:智慧教育;文本挖掘;機(jī)器學(xué)習(xí);深度學(xué)習(xí);主題發(fā)現(xiàn)

中圖分類號(hào):G4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2096-0069(2020)03-0001-08

引言

隨著互聯(lián)網(wǎng)和移動(dòng)通信技術(shù)的快速發(fā)展,信號(hào)的生成、采集、處理和分享的速度和規(guī)模都達(dá)到了前所未有的程度,人類已經(jīng)進(jìn)入了大數(shù)據(jù)(Big Data)時(shí)代。在這一嶄新的數(shù)據(jù)時(shí)代中,我們能夠獲得大批量數(shù)據(jù)信息,使得許多問題的處理更加快速、準(zhǔn)確和智能。然而,有價(jià)值的信息往往隱藏在大量數(shù)據(jù)的背后,并且被一些無關(guān)的數(shù)據(jù)或噪聲所干擾,因此,能夠從數(shù)據(jù)中挖掘出有價(jià)值信息的數(shù)據(jù)挖掘(Data Mining)技術(shù)近年來得到了快速的發(fā)展和廣泛的應(yīng)用。韓家煒在2011年給出了數(shù)據(jù)挖掘的廣義解釋:從大量數(shù)據(jù)中挖掘出有趣模式和知識(shí)的過程。實(shí)際上,數(shù)據(jù)挖掘是從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(Knowledge Discovery in Database,KDD)的重要途徑之一,也是人工智能的基礎(chǔ)。[1]

在大數(shù)據(jù)時(shí)代中,文本數(shù)據(jù)成為許多信息的來源,對(duì)文本數(shù)據(jù)的挖掘蘊(yùn)含著巨大的商業(yè)價(jià)值,因此文本挖掘(Text Mining)已引起學(xué)術(shù)界以及業(yè)界的廣泛關(guān)注。實(shí)際上,在人與人之間、人與機(jī)器之間都會(huì)產(chǎn)生大量的文本數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)挖掘不同,文本挖掘需要進(jìn)行文本預(yù)處理,將非結(jié)構(gòu)的文本轉(zhuǎn)化為結(jié)構(gòu)性數(shù)據(jù),通過對(duì)結(jié)構(gòu)性數(shù)據(jù)的進(jìn)一步挖掘,得到文本數(shù)據(jù)內(nèi)部潛在的模式和規(guī)則,進(jìn)而提高人們獲取文本信息的準(zhǔn)確性和速度。根據(jù)人們的實(shí)際需求,文本挖掘的任務(wù)包括文本分類、文本聚類、信息抽取、情感與觀點(diǎn)分析、話題檢測(cè)與追蹤等。

雖然文本挖掘具有巨大的應(yīng)用價(jià)值,但開展文本挖掘技術(shù)研究卻是一項(xiàng)非常具有挑戰(zhàn)性的工作,最根本的原因在于文本數(shù)據(jù)是一種非常不規(guī)則的、難以通過數(shù)學(xué)方法精確描述的數(shù)據(jù)類型,比具有精準(zhǔn)數(shù)值表示的數(shù)字圖像和語音信號(hào)更難處理[2]。除此之外,在研究文本挖掘技術(shù)時(shí),算法的表現(xiàn)還總是受困于文本噪聲繁多、歧義、語義的隱蔽性等語言現(xiàn)象[3]。比如“小明還欠款500元”,這個(gè)句子既可以理解為“小明償還欠款500元”,也可以理解為“小明仍然欠款500元”。從20世紀(jì)90年代開始,隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的大規(guī)模使用,社交網(wǎng)絡(luò)的興起,文本挖掘開始走進(jìn)人們的視野。文本數(shù)據(jù)的挖掘經(jīng)歷了從開始的基于詞法、句法的分析向統(tǒng)計(jì)學(xué)方法的過渡和發(fā)展,目前已經(jīng)進(jìn)入基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的快速發(fā)展時(shí)期。

文本挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于醫(yī)療、法律、商務(wù)、金融、國(guó)家安全和教育等多個(gè)領(lǐng)域。在醫(yī)療領(lǐng)域,利用文本挖掘技術(shù)分析病人化驗(yàn)報(bào)告,給出病情的初步診斷結(jié)果,能夠有效地縮短病人的就診時(shí)間且提高醫(yī)生的診斷效率;在法律領(lǐng)域,文本自動(dòng)生成技術(shù)會(huì)幫助律師撰寫出法律文書的初稿,能夠?yàn)槁蓭煿?jié)約大量時(shí)間;在商務(wù)和金融領(lǐng)域,利用文本挖掘技術(shù)對(duì)大量的財(cái)經(jīng)新聞、財(cái)務(wù)報(bào)告、用戶評(píng)論進(jìn)行挖掘和分析,能夠幫助企業(yè)做出正確的決策。祝智庭在2012年指出,信息時(shí)代下智慧教育要以先進(jìn)的、適宜的信息技術(shù)作為基本支持,設(shè)計(jì)開發(fā)能適應(yīng)各種特定教學(xué)需求的智慧學(xué)習(xí)環(huán)境[4]。從廣義上講,智慧教育是指在教育領(lǐng)域全面深入地運(yùn)用現(xiàn)代信息技術(shù)來促進(jìn)教育向數(shù)字化、網(wǎng)絡(luò)化、智能化和多媒體化的轉(zhuǎn)變,達(dá)到開放、共享、交互、協(xié)作、泛在的目標(biāo)。目前,我國(guó)智慧教育更多地集中在硬件、軟件和網(wǎng)絡(luò)等基礎(chǔ)技術(shù)和環(huán)境的建設(shè)上,已經(jīng)在數(shù)字課本、在線課堂、學(xué)校云平臺(tái)等建設(shè)上取得了很大的進(jìn)步,但作為教育智能化核心技術(shù)的文本挖掘還沒有很好地應(yīng)用到智慧教育中來。為此,我們將文本挖掘技術(shù)引入到智慧教育領(lǐng)域,并以主題挖掘?yàn)槔齺碚f明它對(duì)智慧教育的作用和價(jià)值,希望能引起大家的關(guān)注和重視。

本文將做如下安排:首先,介紹文本挖掘的基本模型與算法,包括文本的表示及三種常見的文本挖掘任務(wù)和方法;其次,闡述目前文本挖掘技術(shù)應(yīng)用到智慧教育中的一些嘗試;再次,演示一個(gè)實(shí)例——發(fā)現(xiàn)教育類新聞報(bào)道中的主題詞;然后,探討文本挖掘能夠?yàn)樵诰€課堂提供的一些智能化應(yīng)用;最后,對(duì)文本挖掘技術(shù)與智慧教育研究進(jìn)行總結(jié)以及展望。

一、基本模型與算法

(一)文本表示

文本是由文字和標(biāo)點(diǎn)符號(hào)組成的字符串。想要使計(jì)算機(jī)更高效地處理文本,就需要對(duì)文本進(jìn)行預(yù)處理,具體來說就是對(duì)文本進(jìn)行數(shù)字化編碼,達(dá)到相似文本表示相近、不同文本表示有著較大區(qū)別的目的。對(duì)于中文文本,我們還需要對(duì)其進(jìn)行分詞,這是一個(gè)很具挑戰(zhàn)性的任務(wù),但目前已經(jīng)有一些有效的分詞工具可以利用,對(duì)此就不再討論了。

向量空間模型(Vector Space Model, VSM)是一種經(jīng)常使用的簡(jiǎn)單文本表示方法[5]。在該模型中,一條文本可以看成是詞表S={s1,s2,...,sv}中的某些詞所構(gòu)成的一個(gè)集合。這樣一條文本總可表示為這些詞的權(quán)重所構(gòu)成的一個(gè)V維向量。對(duì)于一個(gè)包含N條文本的語料庫(kù),每一條文本可以用詞頻-逆向文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)向量來表示,具體定義如下:

其中fij是第j個(gè)文本中單詞wi出現(xiàn)的頻率,是全部N條文本中含有單詞wi的文本的個(gè)數(shù)。在一條文本中,出現(xiàn)次數(shù)高的詞的fij值比較大,此詞可代表該文本的可能性則較大。同時(shí),如果這個(gè)詞在多條文本里面都出現(xiàn),將較小,則意味著此詞對(duì)于區(qū)分該文本的作用較低。因此,TF-IDF的編碼方式可以很好反映出語料庫(kù)中的單詞對(duì)文本的重要性或可表示性。

為了更精細(xì)地描述單詞的語義,人們進(jìn)一步提出了分布式表示,其思想基于這樣一種假設(shè):一個(gè)詞的語義由其上下文決定,上下文相近的詞,其語義也相似。Mikolov等在2013年提出了基于神經(jīng)網(wǎng)絡(luò)的詞嵌入(Word Embedding)模型CBOW(Continuous Bag-Of-Words,連續(xù)詞袋)[6]和Skip-gram[7],也就是現(xiàn)在經(jīng)常所說的詞向量表示。以CBOW模型為例,利用整個(gè)訓(xùn)練語料(V個(gè)文本),通過極大化下面的似然函數(shù)即可訓(xùn)練出較理想的神經(jīng)網(wǎng)絡(luò)模型(如圖1所示的網(wǎng)絡(luò)結(jié)構(gòu)):

,C為滑動(dòng)窗口大小,v(wi)為詞wi的向量表示,v(wj)=WInOneHot(wj),其中OneHot(wj)是 wj的獨(dú)熱編碼,即V維的二元向量,在wj的詞表索引號(hào)的分量位置上為1,其余分量位置上為0,而WOut和WIn則為神經(jīng)網(wǎng)絡(luò)中的權(quán)矩陣、待訓(xùn)練的參數(shù)矩陣。

通過極大化(2)獲得WOut和WIn后,則可得出語料庫(kù)中的第j條文本的向量表示為:

(二)文本挖掘技術(shù)

1.文本聚類分析

聚類分析是最基本的數(shù)據(jù)挖掘方法,在無任何類別標(biāo)簽的前提下,通過對(duì)數(shù)據(jù)自身內(nèi)在結(jié)構(gòu)的學(xué)習(xí)來建立一種自動(dòng)歸類規(guī)則或函數(shù)。聚類分析是一種傳統(tǒng)的非監(jiān)督統(tǒng)計(jì)學(xué)習(xí)方法,與有監(jiān)督的分類統(tǒng)計(jì)學(xué)習(xí)方法形成鮮明的對(duì)照。從聚類過程來看,聚類分析可分為單層聚類和層次聚類。單層聚類是初始時(shí)刻將全部文檔劃分為若干個(gè)不同的簇,通過迭代不斷修正和完善,其經(jīng)典方法便是K-Means(K-均值)算法[8]。而層次聚類是按不同尺度逐步建立數(shù)據(jù)的層次聚類結(jié)構(gòu),最后達(dá)到所需要的聚類結(jié)果,其典型代表便是基于最小方差標(biāo)準(zhǔn)的Ward(沃德)算法。近年來,人們還提出了基于數(shù)據(jù)點(diǎn)分布密度的聚類分析方法,即根據(jù)數(shù)據(jù)點(diǎn)的聚集程度進(jìn)行劃分,其典型代表便是DBSCAN(Density-Based Spatial Clustering of Applications with Noise,基于密度且可應(yīng)用于噪聲環(huán)境的空間聚類)算法[9]。

2.主題模型

主題模型是用來刻畫文本中主題分布的模型。所謂主題可以理解為文本所談?wù)摰脑掝}或關(guān)鍵詞。在主題模型里,主題常常被選定為一組關(guān)鍵詞,并通過這些詞的概率分布來描述它們的可能性或重要性。實(shí)際上,我們可以自然地認(rèn)為不同主題的文本中詞的出現(xiàn)頻率是不同的,比如“演唱會(huì)”一詞在娛樂新聞中出現(xiàn)的頻率明顯高于科技新聞,相反,“人工智能”一詞在科技新聞中出現(xiàn)的頻率明顯高于娛樂新聞。

比較典型的主題模型包括潛在語義分析(Latent Semantic Analysis,LSA)[10]、概率潛在語義分析(Probabilistic Latent Semantic Analysis,PLSA)[11]、潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)[12]和貝葉斯Unigram(一元文法)模型[13]。

3.自動(dòng)摘要

文本自動(dòng)摘要是指通過算法自動(dòng)從原始文檔中全面準(zhǔn)確地提取出能夠反映該文檔中心思想的簡(jiǎn)單連貫的短文。按照算法輸出結(jié)果的類型可以分為抽取式摘要和生成式摘要。抽取式摘要是從原文檔中抽取關(guān)鍵句和關(guān)鍵詞來組成摘要,而生成式摘要?jiǎng)t允許根據(jù)原文生成新的詞語、短語來組成摘要,這樣顯然更接近人們做摘要的方式[14]。

抽取式摘要的代表算法是依據(jù)網(wǎng)頁(yè)檢索排序的PageRank算法所改進(jìn)的TextRank算法[15]。其過程是首先構(gòu)建一個(gè)詞節(jié)點(diǎn)的有向加權(quán)圖。對(duì)于當(dāng)前詞節(jié)點(diǎn),設(shè)指向其的前驅(qū)詞節(jié)點(diǎn)集合為In(wi)??紤]其中的一個(gè)詞節(jié)點(diǎn)wj,設(shè)它的后驅(qū)詞節(jié)點(diǎn)集合為Out(wj), 且指向詞節(jié)點(diǎn)wi的連接權(quán)重為lji,則 可以表示在所有詞節(jié)點(diǎn)wj的后驅(qū)詞節(jié)點(diǎn)集合中,通向當(dāng)前詞節(jié)點(diǎn)wi所占的比重或者概率?;谶@些比重,我們按下述迭代公式來計(jì)算詞節(jié)點(diǎn)wi的rank值:

其中,γ為平滑系數(shù)。最后對(duì)rank值進(jìn)行排序,抽取rank值大的詞組合作為摘要。

近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,生成式摘要可通過模仿機(jī)器翻譯中的Seq-Seq(序列-序列)模型[16]來進(jìn)行,即將原始文本,即文字序列{x1,...,xN}作為輸入內(nèi)容,并將標(biāo)準(zhǔn)摘要文字序列{y1,...,yM}(M<

Encoder和Decoder本質(zhì)上都是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)。Encoder中隱層狀態(tài)層神經(jīng)元hi=σ(Wxv(xi)+Whhi-1),σ為激活函數(shù),v(xi)=WInOneHot(xi)為輸入xi的向量表示。Encoder的輸出為c=f(h1,...,hN),稱為輸入的編碼。對(duì)于標(biāo)準(zhǔn)的Encoder-Decoder結(jié)構(gòu),一般每個(gè)解碼過程均取c=hN,意為最后一個(gè)循環(huán)神經(jīng)元的輸出。Decoder中隱層狀態(tài)神經(jīng)元Sj=σ(Wcc+Wyv(yj)+Wssj-1)。模型通過極大化全部輸出的預(yù)測(cè)概率來訓(xùn)練參數(shù):

其中,k為yj在詞表中的索引號(hào)。

在Encoder-Decoder結(jié)構(gòu)基礎(chǔ)上,Seq-Seq模型依據(jù)可引入在計(jì)算機(jī)視覺領(lǐng)域中廣為使用的注意力(Attention)機(jī)制[17],能夠更加關(guān)注當(dāng)前詞所在的上下文的信息。注意機(jī)制主要改變了Decoder中對(duì)于輸入經(jīng)過Encoder的編碼c=f(h1,...,hN)的選擇。具體為

,意為每次解碼時(shí),對(duì)于編碼信息的選擇要融合全部Encoder隱層狀態(tài),融合系數(shù)取決于當(dāng)前Decoder階段隱層狀態(tài)與Encoder隱層狀態(tài)的關(guān)聯(lián)程度,即從輸入文本中找出與輸出相關(guān)的部分。具體計(jì)算方式為αji= ,scoreji=simlarity(sj,hi)。通過這種改進(jìn),Seq-Seq模型更符合人類做摘要的行為。

二、文本挖掘在智慧教育中的應(yīng)用

近年來,隨著人工智能技術(shù)的長(zhǎng)足發(fā)展,智能化的浪潮已涌入各行各業(yè),教育行業(yè)也成為熱點(diǎn)之一。2017年國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》文件明確提出了智能教育的概念,積極推進(jìn)人工智能技術(shù)應(yīng)用于教育領(lǐng)域的各個(gè)方面,引領(lǐng)中國(guó)智慧教育的大發(fā)展。目前的智慧教育還處在教育的信息化階段,利用信息技術(shù)打造教育平臺(tái)環(huán)境。接下來的發(fā)展更要突出人工智能的應(yīng)用,即對(duì)教育過程中產(chǎn)生的數(shù)據(jù)進(jìn)行深入分析和挖掘,為學(xué)生、教師與管理者的決策提供更有力的支持。

在智慧教育的發(fā)展過程中,文本挖掘逐漸嶄露頭角。例如網(wǎng)絡(luò)智能答疑系統(tǒng)[18]就是通過建立學(xué)科領(lǐng)域知識(shí)問答庫(kù),將學(xué)生自然語言表達(dá)的問題和知識(shí)庫(kù)文檔進(jìn)行特征項(xiàng)提取并按TF-IDF方法計(jì)算特征項(xiàng)的權(quán)重,采用向量空間模型計(jì)算二者的相似度,從而找到最佳答案。

在教育研究領(lǐng)域,通過文本挖掘分析國(guó)內(nèi)教育信息化領(lǐng)域的研究熱點(diǎn)與趨勢(shì)也是一個(gè)很好的應(yīng)用方向[19]。通常的做法是先對(duì)文本數(shù)據(jù)進(jìn)行聚類分析,然后根據(jù)不同類別來發(fā)現(xiàn)其主題。在對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理后,我們則可以采用傳統(tǒng)的聚類分析算法進(jìn)行文本的聚類分析,而這些算法的優(yōu)劣則會(huì)影響到文本聚類的結(jié)果。我們采用了K-Means、Ward和DBSCAN算法在多個(gè)文本數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)和比較。實(shí)驗(yàn)結(jié)果表明,K-Means算法和Ward算法聚類效果要明顯優(yōu)于DBSCAN算法。進(jìn)一步還可發(fā)現(xiàn),K-Means算法運(yùn)行速度快,Ward算法比較耗時(shí),這是由于Ward算法要不斷地對(duì)所合并類之間的數(shù)據(jù)點(diǎn)的距離進(jìn)行計(jì)算,而K-Means算法每次迭代只需計(jì)K×N次距離。因此我們?cè)诤竺娴膽?yīng)用中便選擇了K-Means算法進(jìn)行下一步的文本聚類分析。對(duì)于N個(gè)數(shù)據(jù)樣本,K-Means算法的迭代過程如下:第一步,隨機(jī)初始化K個(gè)聚類中心(K

根據(jù)聚類分析的結(jié)果,我們可進(jìn)一步對(duì)每類文檔進(jìn)行主題分析與發(fā)現(xiàn)。我們通??刹捎靡恍└怕誓P瓦M(jìn)行主題的推斷。雖然存在著各種模型和方法,但在新聞報(bào)道的聚類分析中,同一聚類的新聞材料一般可認(rèn)為來自共同的主題或主題分布,貝葉斯Unigram模型往往取得較好的效果。實(shí)際上,這是一個(gè)典型的概率生成模型。對(duì)于包含N條文本的語料D={d1,...,dN},設(shè)第i條文本為di={wi1,...,wiL },其長(zhǎng)度為L(zhǎng)i,則貝葉斯Unigram模型所描述的生成文本的過程如圖3所示。

首先,利用Dirichlet分布來產(chǎn)生主題詞的概率分布φ:p(φ|β)=Dirichlet(β),其中β為其生成參數(shù)向量。然后,利用基于φ的多項(xiàng)式分布來獨(dú)立地產(chǎn)生每個(gè)單詞wij:p(wij|φ)=Multinomial(φ)。因此得到語料D的概率表示:

反過來,φ根據(jù)Dirichlet分布和多項(xiàng)式分布的共軛性質(zhì),φ的后驗(yàn)概率分布可以表示為先驗(yàn)和觀測(cè)所融合的Dirichlet分布:p(φ|W,β)=Dirichlet(W+β),其中W=(f1,...,fv)是詞表中每一個(gè)詞出現(xiàn)的頻率,因此可以直接用Dirichlet分布的均值的顯式表達(dá)作為主題分布隨機(jī)變量φ的估計(jì):

將公式(7)得到的φ顯示表達(dá)代入并最大化下列似然函數(shù):

得到對(duì)β的估計(jì),再重新計(jì)算公式(7),即可得出該語料或聚類所服從的主題分布,即每個(gè)關(guān)鍵詞被抽取來生成文本的概率。

三、教育類新聞挖掘的應(yīng)用實(shí)例

隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,教育相關(guān)的新聞報(bào)道日益增多,每天都會(huì)有大量相似或相關(guān)的文本信息涌入人們的視野。為了提高人們獲取信息的速度和質(zhì)量,對(duì)大量的新聞報(bào)道進(jìn)行主題挖掘是必要的。

本實(shí)例采用的數(shù)據(jù)集來自THUCNews數(shù)據(jù)集[20]中標(biāo)簽為教育的部分,由新浪新聞RSS訂閱頻道2005—2011年間的歷史數(shù)據(jù)篩選過濾生成,包含14個(gè)領(lǐng)域的74萬篇新聞文檔,我們選取其中的教育領(lǐng)域的3萬篇作為全部語料。如表1所示,每一條文本由標(biāo)題和內(nèi)容組成。

首先,我們對(duì)文本數(shù)據(jù)中的每條文本用結(jié)巴分詞工具進(jìn)行分詞,之后過濾停用詞,構(gòu)建出語料的特征詞表。其次,我們利用CBOW模型訓(xùn)練出特征詞的200維向量表示,同時(shí)計(jì)算每條文本的TF-IDF表示,把兩者進(jìn)行融合,得到每條文本的200維向量表示。我們對(duì)所有文本樣本的向量表示通過t-SNE[21]降維至2維平面得到其可視化表示,從中可以看出,大部分區(qū)域有著明顯的團(tuán)狀結(jié)構(gòu),因此可以通過聚類分析算法將相似文本歸并在一起。這樣, 我們進(jìn)一步采用K-Means算法進(jìn)行聚類分析,且根據(jù)經(jīng)驗(yàn)設(shè)置170個(gè)類別。最后,根據(jù)相似文本應(yīng)具有共同主題的思想,隨機(jī)抽取10個(gè)類別,通過貝葉斯Unigram模型找到代表每個(gè)類的主題詞。

本研究從170個(gè)聚類結(jié)果中抽取了10個(gè)類進(jìn)行主題挖掘。表2為從每個(gè)類中挖掘出的前10個(gè)主題詞列表。我們對(duì)每一類的文本進(jìn)行主題挖掘,并按照概率大小從左至右進(jìn)行排序,加黑的主題詞是該類中概率較大的主題詞。從這些挖掘結(jié)果,我們可以清晰地看出每個(gè)類下的教育報(bào)道的關(guān)注點(diǎn),如自主招生、考研、大學(xué)排行榜、高考錄取分?jǐn)?shù)等。此外,類和類之間的主題有著很明顯的差異,這能夠幫助有目的閱讀的讀者快速過濾不相關(guān)的新聞報(bào)道。

四、在線課堂教學(xué)的智能化應(yīng)用

隨著信息化教學(xué)手段的提高和普及,各類學(xué)校都越來越重視網(wǎng)絡(luò)教學(xué)平臺(tái)的建設(shè),并在課堂教學(xué)中增加了多種線上互動(dòng)與交流的環(huán)節(jié)。在這些環(huán)節(jié)中可通過文本挖掘做到智能化教學(xué),提高教學(xué)的水平和效率。

實(shí)際中,在線課堂面對(duì)著大量的學(xué)生,他們隨時(shí)可能提出許多問題,老師無法逐個(gè)閱讀,而文本挖掘技術(shù)可以很快地將這些問題分類并找出代表性的問題,為老師的教學(xué)提供快捷智能的輔助。另外,針對(duì)某一個(gè)事件或論點(diǎn)的多種評(píng)論,也可快速地計(jì)算出正面評(píng)價(jià)多還是負(fù)面評(píng)價(jià)多,為老師判斷學(xué)生的意見提供依據(jù)。對(duì)于線上課堂的留言板、論壇、聊天室的評(píng)論可進(jìn)行文本聚類分析與主題發(fā)現(xiàn),有利于快速了解大量學(xué)生在課堂學(xué)習(xí)中所遇到的普遍問題、學(xué)生的學(xué)習(xí)興趣、教學(xué)難點(diǎn)等,幫助教師制定相應(yīng)的教學(xué)計(jì)劃,同時(shí)也為老師的教學(xué)評(píng)價(jià)提供指導(dǎo)信息。

另一方面,我們可根據(jù)線上課堂所產(chǎn)生的大量文本數(shù)據(jù),結(jié)合現(xiàn)有的知識(shí)文本數(shù)據(jù),采用文本挖掘技術(shù)來構(gòu)建輔助線上課堂教學(xué)的系統(tǒng)。最具代表性的便是知識(shí)圖譜和問答系統(tǒng)。對(duì)于學(xué)生來說,系統(tǒng)的可視化的知識(shí)圖譜能夠提升學(xué)生對(duì)知識(shí)理解的速度和深度。我們可采用文本挖掘中的主題發(fā)現(xiàn)、關(guān)聯(lián)分析等技術(shù),結(jié)合老師與學(xué)生的需求,構(gòu)建課堂教學(xué)知識(shí)的圖譜,使學(xué)生可更直觀地了解知識(shí)的關(guān)聯(lián)和邏輯。對(duì)于老師來說,通常會(huì)重復(fù)地回答學(xué)生提出的相似問題,在特定的知識(shí)領(lǐng)域內(nèi)搭建問答系統(tǒng)可以很好地減輕老師的教學(xué)強(qiáng)度,同時(shí)也方便學(xué)生快速便捷解決學(xué)習(xí)中遇到的問題。

五、總結(jié)和展望

本文介紹了文本挖掘中的基本思想、模型和方法,并討論如何將其應(yīng)用于智慧教育中,推進(jìn)我國(guó)教育智能化的發(fā)展。對(duì)教育類新聞主題的挖掘,可以清晰地看出教育類報(bào)道在一定時(shí)期內(nèi)圍繞著的熱點(diǎn),這能方便教育工作者快速了解教育領(lǐng)域關(guān)注的熱點(diǎn)和方向,對(duì)教育工作的展開能起到一定的參考作用。另外,通過在線課堂中的討論,我們也能看出文本挖掘與教育的智能化緊密相連,具有廣闊的應(yīng)用前景。

智慧教育對(duì)促進(jìn)我國(guó)的教育發(fā)展起著至關(guān)重要的作用,但目前的智慧教育仍處在發(fā)展的初期,需要引入更多的人工智能技術(shù),尤其是文本挖掘技術(shù),但教育行業(yè)中存在著大量的非結(jié)構(gòu)化的文本數(shù)據(jù),并且教育的種類繁多,如義務(wù)教育、高等教育、職業(yè)教育等,這給文本挖掘的研究和應(yīng)用帶來了巨大的挑戰(zhàn)。將傳統(tǒng)的文本挖掘技術(shù)應(yīng)用到教育方面的場(chǎng)景,需要重新設(shè)計(jì)模型和算法,并與實(shí)際應(yīng)用場(chǎng)景建立反饋機(jī)制,才能促進(jìn)教育的快速發(fā)展。

參考文獻(xiàn)

[1]HAN J,PEI J,KAMBER M.Data Mining:Concepts and Techniques[M].Amsterdam: Elsevier,2011.

[2]宗成慶,夏睿,張家俊.文本數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2019.

[3]宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2013.

[4]祝智庭,賀斌.智慧教育:教育信息化的新境界[J].電化教育研究,2012 (12):5-13.

[5]SALTON G,WONG A,YANG C S.A Vector Space Model for Auto-matic Indexing[J]. Communications of the ACM(S0001-0782),1975, 18(11):613-620.

[6]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[OB/OL].(2013-9-7)[2020-2-10].http://arxiv.org/abs/1301.3781.

[7]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed Represen-tations of Words and Phrases and Their Compositionality[C]//Ad-vances in Neural Information Processing Systems.2013:3111-3119.

[8]MACQUEEN J.Some Methods for Classification and Analysis of Mu-ltivariate Observations[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.1967,1(14):281-297.

[9]ESTER M,KRIEGEL H P,SANDER J,et al.A Density-Based Algo-rithm for Discovering Clusters in Large Spatial Databases with Noise[C]//KDD.1996,96(34):226-231.

[10]LANDAUER T K,DUMAIS S.Latent Semantic Analysis[J].Scholarpedia(S1941-6016),2008, 3(11):4356.

[11]DEERWESTER S,DUMAIS S T,F(xiàn)URNAS G W,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science(S1097-4571),1990,41(6):391-407.

[12]HOFMANN T.Probabilistic Latent Semantic Indexing[C]//Pro-ceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.1999:50-57.

[13]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research(S1533-7928),2003,3:993-1022.

[14]WU D Q,GUO X Y,MA J W.News Topic Discovery through Com-munity Detection[C]//IEEE International Conference on Signal,Infor-mation and Data Processing.2019:43-48.

[15]MIHALCEA R,TARAU P.Textrank:Bringing Order into Text[C]//Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing.2004:404-411.

[16]SUTSKEVER I,VINYALS O,LE Q V. Sequence to Sequence Learning with Neural Networks[C]//Advances in Neural Information Processing Systems.2014:3104-3112.

[17]VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is All You Need[C]//Advances in Neural Information Processing Systems.2017:5998-6008.

[18]楊丹,鄒艷.基于自然語言處理的網(wǎng)絡(luò)教育智能答疑系統(tǒng)設(shè)計(jì)[J].科學(xué)咨詢 (科技.管理), 2011(10):46.

[19]陸偉. 基于學(xué)術(shù)論文與新聞?wù)Z料的教育信息化文本挖掘分析[J].大學(xué)(研究版),2017(12):36-43.

[20]LI J Y,SUN M S.Scalable Term Selection for Text Categorization [C]// Proceedings of the 2007 Joint Conference on Empirical Methodsin Natural Language Processing and Computational Natural Language Learning.2007:774-782.

[21]MAATEN L,HINTON G.Visualizing Data Using t-SNE[J].Journal of Machine Learning Research(S1533-7928),2008,9(11):2579-2605.

(責(zé)任編輯 孫志莉 孫震華)

猜你喜歡
文本挖掘智慧教育機(jī)器學(xué)習(xí)
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
高校智慧教育生態(tài)發(fā)展新挑戰(zhàn)
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測(cè)分析
從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢(shì)
基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
慧眼識(shí)璞玉,妙手煉渾金
子长县| 深圳市| 星子县| 睢宁县| 贵德县| 仙桃市| 迁安市| 茂名市| 手游| 铁岭县| 衡山县| 福贡县| 和政县| 巩留县| 青铜峡市| 福州市| 山东省| 建瓯市| 朝阳县| 锦屏县| 洪江市| 荣昌县| 麻栗坡县| 鹤山市| 彩票| 垦利县| 体育| 界首市| 昂仁县| 五河县| 普兰县| 磴口县| 西畴县| 大厂| 十堰市| 伊宁市| 莲花县| 鱼台县| 沭阳县| 娄烦县| 台南市|