許 睿, 唐 海, 沈林豪
(湖北汽車工業(yè)學(xué)院電氣與信息工程學(xué)院,湖北 十堰 442002)
網(wǎng)絡(luò)學(xué)習(xí)資源包括視頻文件、音頻文件、多媒體課件、光盤、計算機(jī)系統(tǒng)、網(wǎng)絡(luò)平臺討論區(qū)等,具有多媒體、超文本、友好交互、虛擬仿真、遠(yuǎn)程共享等特性[1]。網(wǎng)絡(luò)學(xué)習(xí)過程中,大量學(xué)習(xí)資源在豐富學(xué)習(xí)者體驗的同時,它們的零散性和無序性也會增加學(xué)習(xí)者負(fù)擔(dān),造成學(xué)習(xí)者的 “知識迷航”現(xiàn)象[2]。同時,以視頻學(xué)習(xí)資源為例,視頻拍攝的效果、主講教師的表現(xiàn)力、視頻后期的剪輯和制作等因素也會影響學(xué)習(xí)者的學(xué)習(xí)效果[3]。
為了提高學(xué)習(xí)者的學(xué)習(xí)效率,將資源中的知識結(jié)構(gòu)進(jìn)行可視化展示,可以清晰地反映出各知識點(diǎn)之間的聯(lián)系。同時依據(jù)聯(lián)通主義的理論,知識結(jié)構(gòu)可視化還能促進(jìn)學(xué)習(xí)者進(jìn)行有意義學(xué)習(xí)、長時間記憶以及對知識的主動構(gòu)建、遷移[4]。 知識圖譜(Knowledge Graph)是典型的可視化表示方式,關(guān)鍵技術(shù)包括實體抽取、關(guān)系抽取、屬性抽取等。實體抽取也稱為命名實體識別(Named Entity Recognition),指從原始語料中自動識別出命名實體[5],是構(gòu)建知識圖譜的第一步。
在教育領(lǐng)域,從原始語料中抽取的實體通常是知識點(diǎn)或者知識元,又可稱為關(guān)鍵詞。在關(guān)鍵詞抽取研究初期,對于關(guān)鍵詞的標(biāo)注由專家完成,優(yōu)點(diǎn)是精度高,但是效率較低,無法在短時間內(nèi)標(biāo)注大量資源,因此需要采用自動標(biāo)注的方式。目前,關(guān)鍵詞的提取技術(shù)分為有監(jiān)督和無監(jiān)督兩種。前者的精度較高,但是需要足量的人工標(biāo)注樣本進(jìn)行訓(xùn)練,后者不需要訓(xùn)練集,但需要針對實際應(yīng)用場景進(jìn)行算法優(yōu)化。常見的無監(jiān)督關(guān)鍵詞提取算法有以下幾種:基于統(tǒng)計特征的TF-IDF算法[6],基于主題模型的LDA 算法[7],基于圖模型的Text Rank算法[8]。
TF-IDF算法是依據(jù)關(guān)鍵詞的詞頻和逆文本頻率衡量其重要程度。當(dāng)某個詞在某個文本中出現(xiàn)頻率高,在其他文本中出現(xiàn)少甚至不出現(xiàn),則這個詞具有很好的類別區(qū)分能力,重要程度高,可選取為關(guān)鍵詞。
LDA 算法是根據(jù)一定量的文本集,推理出每個文本的 “文本-主題”分布以及每個主題的 “主題-詞語”分布,出現(xiàn)在主要主題中的主要詞語被識別成關(guān)鍵詞的概率更高。
Text Rank算法來源于谷歌公司的PageRank算法,其核心思想是將文本分割成多個單元,建立單元之間的圖模型,利用投票機(jī)制對各個單元進(jìn)行分值計算與排序,投票者的分值越高,數(shù)量越多,單元排名就會越靠前。優(yōu)點(diǎn)是不需要進(jìn)行訓(xùn)練,從單一文本就能直接提取其中的關(guān)鍵詞并根據(jù)重要程度進(jìn)行排序。
許多研究者對Text Rank算法進(jìn)行了深入研究與改良。夏天[9]考慮到候選關(guān)鍵詞對相鄰結(jié)點(diǎn)的影響力不同,將候選關(guān)鍵詞的詞頻、位置、覆蓋范圍等因素轉(zhuǎn)化為權(quán)重,由此提升了算法準(zhǔn)確率;徐立[10]在總結(jié)以往權(quán)重研究的基礎(chǔ)上,提出了OPW-Text Rank算法,通過量化影響關(guān)鍵詞的因素與相關(guān)系數(shù),提高了準(zhǔn)確率,并找到改進(jìn)算法的最優(yōu)滑動窗口值;除了調(diào)整候選關(guān)鍵詞的權(quán)重,還有一些研究人員[11-12]通過構(gòu)建新的概率轉(zhuǎn)移矩陣,提高了Text Rank算法的準(zhǔn)確率。
目前關(guān)鍵詞抽取技術(shù)的研究對象主要是文本資源,例如論文、新聞報道和文本數(shù)據(jù)集等,相比之下,以視頻與音頻為對象進(jìn)行內(nèi)容特征提取較為困難[13],但是在當(dāng)前的學(xué)習(xí)系統(tǒng)中,視頻與音頻學(xué)習(xí)資源是不可或缺的并且占據(jù)主體地位。因此,本文研究重點(diǎn)是從視頻、音頻中抽取關(guān)鍵詞,為后續(xù)自動構(gòu)建學(xué)科知識圖譜提供必要的基礎(chǔ)。
一門視頻課程通常包含多個視頻,每段視頻的時間長短不一,每段視頻所包含的關(guān)鍵詞數(shù)量也不同。從主講教師的角度來說,重要的內(nèi)容往往會花費(fèi)更多的篇幅和時間,相同詞頻的不同關(guān)鍵詞,出現(xiàn)在長視頻中的關(guān)鍵詞會更重要。因此,提出改進(jìn)算法TW-Text Rank,以此來衡量關(guān)鍵詞在視頻、音頻類學(xué)習(xí)資源中的重要性。
由于視頻、音頻不能直接進(jìn)行文本關(guān)鍵詞抽取,仍需將其轉(zhuǎn)化為文本形式,經(jīng)過文本預(yù)處理后進(jìn)入TW-TextRank 算法處理步驟,最終將得到的結(jié)果取前N個,作為文本關(guān)鍵詞,流程如圖1所示。
圖1 處理流程圖
視頻學(xué)習(xí)資源爬取自中國大學(xué)MOOC 平臺,通過Python中的urllib庫對視頻資源進(jìn)行爬取,以目錄樹的形式進(jìn)行保存。
視頻-文本轉(zhuǎn)換是將獲得的學(xué)習(xí)資源視頻進(jìn)行音頻抽取,再將音頻文件轉(zhuǎn)化為文本文件的過程。主要通過Python中的MoviePy庫與Speech Recognition模塊實現(xiàn),但由于音頻轉(zhuǎn)文本的過程中存在語音識別正確率無法達(dá)到100%的問題,以及后續(xù)操作要求,需要對文本進(jìn)行預(yù)處理。
文本預(yù)處理主要包括文本清洗、句子切詞與去除停用詞。文本清洗的目的是將常見的語音識別錯誤進(jìn)行更正,比如將 “整形變量”替換為 “整型變量”、“單晶度”替換為 “單精度”等。傳統(tǒng)Text Rank算法以文本中的詞為單元構(gòu)建圖模型,在英文中,構(gòu)建圖模型的單元是各單詞,它們之間有空格進(jìn)行分離,但中文句子不存在天然的分隔符,所以需要將清洗后的文本分解成一個個詞語,并以分隔符進(jìn)行分離。常見的分詞工具有jieba分詞,Han LP,ICTCLAS,LTP等,處理后得到文本中詞的集合。去除停用詞則是構(gòu)建一個通用詞庫,包含 “啊”、“吧”、“偶爾”、“然后”等對關(guān)鍵詞沒有貢獻(xiàn)的語氣詞、連詞、數(shù)字以及一些特殊字符,再將文本中出現(xiàn)在停用詞庫中的進(jìn)行操作。常見的停用詞庫有哈工大停用詞表(767個詞)、百度停用詞表(1395個詞)、四川大學(xué)機(jī)器智能實驗室停用詞表(976個詞)等。
傳統(tǒng)的Text Rank 算法將文本看成是詞的集合T={W1,W2,…,Wn},構(gòu)建圖模型G=(V,E),其中V =W1∪W2∪… ∪Wn。 引入滑動窗口概念,當(dāng)兩個結(jié)點(diǎn)共現(xiàn)于一個滑動窗口時,則結(jié)點(diǎn)之間有邊,反之無邊,為了避免圖模型的邊稠密;滑動窗口一般取值為5。依據(jù)詞之間的共現(xiàn)關(guān)系來建立權(quán)重轉(zhuǎn)移概率矩陣。其中結(jié)點(diǎn)的得分由式(1)迭代計算得出,收斂極限值取0.0001,迭代次數(shù)取1000次。
Score(Wi)指結(jié)點(diǎn)i的分值,In(Wi)是指向結(jié)點(diǎn)i的其他結(jié)點(diǎn)的集合;Out(Wj)是結(jié)點(diǎn)j指向的結(jié)點(diǎn)集合;d是阻尼系數(shù),初始含義指從當(dāng)前頁面繼續(xù)向后跳轉(zhuǎn)頁面的概率,在Text Rank算法中代表當(dāng)前結(jié)點(diǎn)向其他任意結(jié)點(diǎn)跳轉(zhuǎn)的概率,便于計算結(jié)果的迭代收斂,通常取值為0.85。
為從視頻學(xué)習(xí)資源中抽取關(guān)鍵詞,提出改進(jìn)的TW-Text Rank算法,引入實體在視頻資源中的時長因素T(Wi),重新計算各結(jié)點(diǎn)的分值,優(yōu)化排序后的結(jié)果。表達(dá)式如式(2)所示。
其中,T(Wi)是候選關(guān)鍵詞在當(dāng)前學(xué)習(xí)資源中的時長權(quán)重,可以表示為
其中ti代表候選關(guān)鍵詞所在的視頻時長,t代表每一段視頻的時長,N代表視頻總數(shù)。 圖2表示TW-Text Rank算法流程。
圖2 TW-TextRank算法流程圖
與詞頻因素不同,時長因素在同一文本多次出現(xiàn)時不會被重復(fù)計數(shù),衡量的是關(guān)鍵詞在此門課程中視頻中所占的篇幅長度。若某個詞時長權(quán)重大,說明此詞在多處視頻出現(xiàn),與其它關(guān)鍵詞具有更高的共現(xiàn)概率,在時長權(quán)重大的章節(jié)中出現(xiàn)的詞,會比時長權(quán)重小的章節(jié)中的詞重要。
計算結(jié)點(diǎn)的T(Wi)值是本算法的關(guān)鍵步驟,首先獲取每一段視頻的時長,獲取時長常用的Python 庫 有re 庫 和subprocess 庫、MoviePy 庫、opencv-python庫。將獲取的視頻時長存儲到視頻名稱-時長表T中。
獲得結(jié)點(diǎn)分值的具體算法如下:
算法1 求結(jié)點(diǎn)分值
輸入:視頻名稱-時長表T,分詞后的文本集合D;
輸出:key為結(jié)點(diǎn),value為T(Wi)的字典;
步驟一:計算每個視頻時長與總時長的比值r,寫入表T;
步驟二:對文本集合D進(jìn)行遍歷,獲取文本文件名,與表T中的視頻名稱進(jìn)行匹配;
步驟三:構(gòu)建每個文本的關(guān)鍵詞字典dict,key=關(guān)鍵詞i,value=r;
步驟四:合并所有的字典dict,合并時如key相同,則更新value=r1+r2。
根據(jù)相應(yīng)的T(Wi)代入式(2)進(jìn)行迭代計算。
實驗環(huán)境:AMD Ryzen5 3600+16G 內(nèi)存+win10專業(yè)版;
編程平臺:Py Charm + Python3.6;
數(shù)據(jù)集:中國大學(xué)MOOC 平臺中隨機(jī)選擇的8門C語言相關(guān)課程,平均時長32.18h,轉(zhuǎn)化后的文本平均大小為615KB;
評價指標(biāo):準(zhǔn)確率P,召回率R,F值,如式(4)-(6):
式(4)-(6)中:X為正確抽到的關(guān)鍵詞數(shù);Y為錯誤抽到的關(guān)鍵詞數(shù);Z為屬于關(guān)鍵詞但未被抽到的詞數(shù)。
運(yùn)用TW-Text Rank算法,對文本處理后的部分結(jié)果如表1所示。
表1 前20位關(guān)鍵字及其分值
根據(jù)排序的關(guān)鍵詞結(jié)果依照評價指標(biāo)進(jìn)行計算,其結(jié)果如表2所示。
表2 兩種算法結(jié)果對比
TW-TextRank 0.64 0.388 0.483西安郵電大學(xué) Text Rank 0.60 0.305 0.404 TW-TextRank 0.58 0.369 0.451
由表2的實驗結(jié)果可知,傳統(tǒng)Text Rank方法的F值均值為0.413,TW-Text Rank 算法的F值均值為0.455,總體的結(jié)果優(yōu)于傳統(tǒng)Text Rank方法。
由圖3可知,兩種方法對各門課程的抽取準(zhǔn)確率都在0.60左右,是由于選擇的課程都是C 語言的基礎(chǔ)課,大部分內(nèi)容基本相同,在進(jìn)行關(guān)鍵詞抽取時,一些常見的知識點(diǎn)會以相差不大的分值進(jìn)行排序。同樣地由于每個老師的教學(xué)計劃存在差異,不同學(xué)校的教學(xué)視頻資源抽取的關(guān)鍵詞數(shù)量也不同,導(dǎo)致最終的準(zhǔn)確率在0.55~0.65之間波動。
圖3 各門課程P值折線圖
由圖4與圖5可知,F值的提高主要與召回率相關(guān),說明與傳統(tǒng)算法相比,TW-Text Rank算法可以提高出現(xiàn)頻次較低,但出現(xiàn)在重要章節(jié)的關(guān)鍵詞的分值。
圖4 各門課程R 值折線圖
圖5 各門課程F值折線圖
提出的TW-Text Rank算法充分考慮了關(guān)鍵詞在視頻資源中的時長權(quán)重,雖然改進(jìn)后的算法會增加一些存儲開銷,但是在提高抽取關(guān)鍵詞的F值與召回率方面效果明顯。該算法在視頻資源的關(guān)鍵詞抽取以及知識圖譜構(gòu)建的場景下有一定的應(yīng)用價值。
此外在進(jìn)行文本預(yù)處理時,去除停用詞需要更多的考慮語言習(xí)慣,對常見的停用詞庫進(jìn)行一定量的擴(kuò)充,抽取效果會比較好。
研究對象是同一門課程的不同視頻資源。針對同一學(xué)科體系下的不同課程,是否還具有類似的提升效果,需要進(jìn)行進(jìn)一步的實驗和研究。