融合BERT 與LDA 的在線課程評論關鍵詞提取方法

2022-03-25 03:11尼格拉木買斯木江艾孜爾古麗玉素甫

現代電子技術 2022年6期

尼格拉木·買斯木江，艾孜爾古麗·玉素甫，2

（1.新疆師范大學計算機科學技術學院，新疆烏魯木齊 830054；2.新疆師范大學計算機科學技術學院國家語言資源監(jiān)測與研究少數民族語言中心，北京 100814）

0 引言

隨著信息技術的迅猛發(fā)展，“互聯網+教育”得到了市場的青睞和追捧，但當前的慕課平臺還有一些不足，如存在教學視頻延遲、教學資源不完整等問題。由于數據量太大，使得手工統計和分析難以實施，所以迫切需要一種方法能夠從大量的信息源中快速有效地提取出真正需要的信息，并充分展示分析結果。因此，需要對在線課程評論關鍵詞進行提取。

關鍵字提取使人們能夠以簡潔的方式表示文本文檔。文檔的關鍵詞在文本自動索引等任務及相關應用場景中有相應表現。目前，關鍵字提取主要基于最頻繁度量的關鍵字提取、詞頻反轉文本頻率的關鍵字提取等方法。隨著關鍵詞提取技術的提高，一些學者優(yōu)化算法，利用節(jié)點信息進行關鍵詞處理，如通過TextRank 調整邊的轉移權值以取得較好的效果。Abilhoa W D 通過隱含的Diricre 分布主題模型構建主題特征LDA 的獎勵函數計算詞，構建關鍵詞抽取模型。Nagarajan R 等通過將句法特征結合到詞的表示中來獲得比N-Gram 更高的準確性。Abdelhaq H 等通過LDA 和TextRank 算法聯合提取關鍵詞。顧益軍等為了提高學習算法的有效性及秉持對基于統計關鍵詞提取方法的評價，對基本的學習算法和常用的Set 算法進行了比較。郭慶用文本分類問題思路解決了文本主題詞挖掘問題，提取關鍵詞用了支持向量機（SVM）。Khalil M 認為在提取關鍵詞時要考慮句子的影響程度?；谝陨戏椒ǎ梢赃M一步提高關鍵詞處理的效率。

隨著人工智能技術的發(fā)展，關鍵詞提取得到越來越多的重視，洪成杰通過BERT 和TextRank 處理關鍵詞。王亞坤利用融合算法提取關鍵詞。韋強申通過PageRank 和神經短語嵌入算法對關鍵詞進行提取和排序。薛清福等構建詞向量并與主題挖掘技術TextRank 相結合，增添了文本語義與TextRank 的相關性。肖倩等提出一種新的詞向量聚類和TextRank 方法，利用BERT 詞之間的相似度關系，提高了關鍵詞處理效率。李德新等優(yōu)化了關鍵詞提取，但仍存在準確性不高的問題。

基于上述研究，本文提出了一種融合BERT（Bidirectional Encoder Representations from Transformer）和模型LDA 隱含狄利克雷分布（Latent Dirichlet Allocation）的在線課程評論關鍵詞提取方法。該方法可以根據語義信息的影響，濃縮在線課程的特點評論信息和關鍵詞的覆蓋率和差異。利用訓練后的BERT 模型獲得候選詞的詞向量；再利用LDA 主題模型得到候選關鍵詞差異的影響程度以及在主題與文本候選關鍵詞間的語義相關性；最后在主題與語義關聯性及TextRank算法基礎上對實驗所選出來的關鍵詞進行排序。通過本文提出的方法可以完善慕課平臺的建設與改進，同時也有助于提供更好的用戶體驗。

1 一種融合BERT 與LDA-TextRank 的在線課程評論關鍵詞提取方法

近幾年在線課程的發(fā)展，使用戶和平臺管理者能夠從繁雜的用戶評論中獲取更多有價值的信息。在選擇和改進過程中得以實現是目前在線課程評論的研究熱點。本文提出一種基于BERT LDA-TextRank 的關鍵詞提取方法。第一步獲取候選關鍵詞，在候選關鍵詞之前對爬取的課程評語進行預處理，再通過BERT 模型訓練得到慕課網在線評語的詞向量；然后利用LDA 主題模型得到候選關鍵詞的主題分布；最后結合TextRank 算法計算出各主題的關系詞，并生成候選關鍵詞進行主題挖掘。

1.1 詞向量構建模塊

一些學者采用分布式方法對詞進行處理，該方法有相關性更強的優(yōu)點，能更好地反映詞與詞之間的緊密關系。Mikolov 等人提出了一種詞表示模型，通過分布式方法突出詞語的相關性。本文則通過谷歌開源工具包BERT 模型訓練慕課平臺語料庫上的詞表示模型。為了得到待測文本候選關鍵詞，本文首先對在線課程評論進行預處理并選取評論主題的特點；再基于針對網絡課程的候選關鍵詞，在現有的數據集上進行文本表示，在得到BERT 模型訓練好的詞向量之后，進一步得到文本評論向量。

圖1 BERT 模型圖

1.2 主題差異性挖掘模塊

關鍵詞不僅需包含網絡課程評論的主要框架，而且要有主題差異和文本覆蓋。如果考慮不周，則提取的關鍵詞有效率會下降，因此，關鍵詞不僅重要，而且具有差異度和覆蓋度。

為了表征關鍵詞之間的差異和覆蓋范圍，本文重點關注了候選關鍵詞重要屬性，利用LDA 主題模型分析候選關鍵詞主題差異的關系。

LDA 主題模型認為一個文檔由幾個主題組成，同時每個主題由幾個單詞組成，分別代表個文檔的個特征詞及其主題。主題模型是一種識別和聚類文檔中潛在主題的算法，可用于識別文本中隱含的主題信息。現流行的主題概率模型是隱含狄利克雷分布，即LDA，簡稱基于向量模型。這個模型是一個基于生產的概率模型，其中包含文件、話題和文字。該模型運用先驗分布解決了主題挖掘任務中向量過度擬合問題。LDA 概率模型基于貝葉斯算法，具體計算過程如圖2所示。

圖2 LDA 概率模型

圖2 中LDA 的各實驗變量參考釋義如表1 所示。

表1 主題模型中各參數含義

從主題模型生成單詞的LDA 過程如下：

1）根據先驗實驗概率從多個備選文檔中選擇一個文檔；

2）從Dirichlet 分布中抽樣，并且生成主題分布；

3）主題多項式分布樣本的底部單詞，生成主題的文檔z；

4）與主題對應的單詞分布由Dirichlet 分布生成；

5）生成詞w從詞的多項式分布采樣中得到；

6）參數計算可以采用Gibbs 算法，即：

1.3 基于TextRank 的主題摘要生成模塊

關鍵詞能體現文本的基本信息，隨著人工智能的發(fā)展，各種技術和理論被應用到關鍵詞處理中。BERT 在這些技術中脫穎而出。

基于TextRank 的主題摘要生成是指主要評論中的某個評論語句和其他相似度較高的評論，如有兩個句子s，s，t表示評語候選關鍵詞，相似度公式如下：

式中，若兩個給定句子相似度高于給定的值，在該模型中被認定為這兩個句子具有語義相關性并且會將s，s連接起來，作為候選評論語句的重要語句根據相關權重計算抽取出重要度高的個句子，得到主題摘要。

1.4 BERT-LDA 模型整體框架

本文以BERT 的模型為基礎，構建LDA-Text Rank課程評價的主題提取模型。與傳統主題模型的輸入語料庫相比，該模型使用BERT 語言模型減少了輸入語料庫，大大提高了模型提取的效率，使主題提取的分布更好。BERT-LDA-TextRank 模型操作過程為：對爬取的課程評語進行預處理，預處理語料庫用輸入到BERT 模型獲得減少維度的詞向量表示；再通過LDA 模型對數據進行主題挖掘，挖掘熱門話題和相應的主題關鍵字；最后運用TextRank 算法提取各關鍵評論語句的主題摘要。本文方法在更深的層面上提取隱含的主題中包含情感信息的課程評價。

2 實驗

2.1 數據預處理和參數設置

本文以最大的IT 網絡學習平臺慕課（MOOC）網作為數據來源，通過開源爬取框架Scrapy 爬取了前100 門熱門課程評論信息共51 977 條數據記錄。同時采用結巴分詞系統對數據進行了去重、過濾、去停用詞等文本預處理。圖3 為在線評論主題挖掘算法流程。實驗中數據集按3∶1 的比例分割，并使用BERT+LDA+TextRank 模型，參數設置如表2、表3 所示。

圖3 在線評論主題挖掘算法流程

表2 Bert 模型參數設置

表3 LDA 模型參數設置

2.2 實驗評價指標與實驗環(huán)境

為了驗證本文模型的性能，在本實驗效果評價上使用了困惑度（Perplexity）對比實驗。困惑度是用來度量概率分布的重合程度和預測樣本的指標，也可以用來表示兩個概率分布或概率模型，在主題模型中低困惑度的概率分布預測樣本能力更高。困惑度計算公式如下所示：

式中（）指的是每個單詞的出現頻率。根據式（3）可求得相應文檔中不同主題出現的概率。

實驗環(huán)境為X86 平臺，Intel CPU，內存16 GB，硬盤100 GB，GPU-v100，操作系統為Windows 10，Pycharm 2017。使用基于TensorFlow 的深度學習庫Keras 進行測試。

2.3 實驗結果與分析

為了對提出模型性能進行測試，開展了兩組對比實驗。第一個實驗在對主題提取效果進行驗證的基礎上測試了各模型性能，同時驗證不同主題數下模型的性能，并為實驗選擇最有效的主題數。第二個實驗是驗證不同數量的Gibbs 迭代次數對模型的影響。第三個實驗基于TextRank 的主題詞分布研究。

2.3.1 基于慕課在線課程評語主題提取效果對比

本文選擇了慕課網中最熱門的50 門課程。根據大量文獻將參數設置為0.2，將設置為0.1，兩個參數都為超參數。下一步將初始Gibbs 樣本的迭代次數初始值設置為300。因為BERT-LDA-TextRank 模板的第一層為文本表示模型，第二層為主題挖掘層，所以模板的參數也是超級參數，以人為設置為主。通過調整主體數量來調整主題提取影響度，因此值分別為2，4，6，8，10，12，14 在各主題數基礎下確定實驗最佳性能，對比實驗如下：

1）LDA：此模型是Ml構建的原始LDA 主題模型，直接使用LDA 主題模型進行主題提取實驗。

2）CBOW-LDA：該模型類似于BERT-LDA 模型，通過CBOW 算法對文本進行降維，最后將降維后的實驗語料集輸入LDA 主題模型進行主題抽取實驗。

3）LDA-TextRank：模型第一次使用LDA-TextRank算法將降維語料庫輸入LDA 主題模型主題提取實驗，最后用TextRank 算法挖掘各主題。

4）BERT-LDA-TextRank：為本文提出的模型。實驗模型是使用BERT 訓練在線課程評語的候選評語并生成評論向量，然后將語料集輸入LDA 主題模型，最后與實驗3）類似，用TextRank 算法計算主題分布。

這四個模型的混淆度隨著主題的增加而明顯。通常，降維模型的LDA 模型混亂程度都不優(yōu)于本文提出的BERT-LDA-TextRank 方法，其中單純的LDA 模型主題提取能力最差；本文模型混亂程度最低，對比CBOW-LDA，添加文本表示模型對文本向量化，訓練語料有了很明顯的提高。

對比CBOW-LDA，添加BERT 主題模型的混亂效果優(yōu)于添加CBOW-LDA，因為BERT 模型考慮上下文語義信息和詞序關系，以及在訓練和文本中的單詞出現的次數，因此CBOW 提取的特征不如BERT。本文還進行了LDA-TextRank 和BERT-LDA-TextRank 對比實驗。在本文的數據集上BERT-LDA-TextRank 模型略優(yōu)于LDA-TextRank 模型。通過實驗不難發(fā)現，當主題數=6 時，被試的困惑程度最低，所以主題模型中的主題數為6。

圖4 模型結果對比圖

2.3.2 Gibbs 迭代次數對模型影響研究

為了確定吉布斯抽樣的最優(yōu)迭代數，本文在保持其他參數不變的情況下，進行BERT-LDA-TextRank 迭代數混淆度實驗，分別將吉布斯抽樣迭代數設置為50，100，150，200，250，300，以觀察其混淆度隨迭代數的變化。設定迭代次數時，吉布斯認為迭代次數越高實驗效果越好，但增加迭代次數也會影響計算機硬件配置，所以配置迭代次數時，應根據實際實驗條件來設置參數。

通過圖5 可知，Gibbs 迭代次數從0～250 的困惑度值差距較大，主題提取精度在迭代次數為250 時為最佳并保持不變。因此，在本模型中Gibbs 參數設置為250。

圖5 迭代次數對實驗結果影響圖

2.3.3 基于TextRank 主題詞分布研究

為了能更清楚地研究各主題評論內容，本研究利用第1.3 節(jié)所講解的TextRank 算法生成主題摘要和關鍵詞語，限于文章篇幅，表4 給出部分產品的主題摘要和關鍵詞語。

從表4 中可以看出：第1 個主題與程序語言學習相關，用戶在評論中都體現了一些主題信息，“C++”這個詞語出現的概率較高；第2 個主題是基于機器學習的，因為“SVM”這個詞出現的頻率相對較高；第5 個主題是關于各種框架學習等。除此之外，從主題詞分布中能夠掌握用戶的關注點，比如Java 課程中，機器學習主題主要關注一些模型，而用戶關注框架和語法問題。同時，實驗結果表明，用戶對相關課程和平臺管理者的建議以及主觀情感態(tài)度也會表現在評語中，比如慕課用戶對語言類科恒“Java”的授課老師、內容以及授課方式給出了比較客觀的評價，對JS 課程的授課內容很滿意，對第4 個主題的課程評價比較卡頓，對管理者提出了相應的改進方案。

表4 主題詞分布表

通過主題挖掘，能夠從更深的層面上提取隱含的主題中包含情感信息、對學習者及有利于平臺管理者的課程評價，有助于完善慕課平臺的建設與改進，同時也有助于提供更好的用戶體驗。

3 結語

本文提出一種結合BERT 和LDA-TextRank 差異的簡單有效的關鍵詞提取方法，該方法考慮了候選關鍵詞的語義重要性、覆蓋范圍和差異。該方法通過LDA 主題模型、BERT 詞表示模型提升候選關鍵詞的差異敏感度，結合TextRank 算法生成了主題摘要和關鍵詞語。實驗結果表明，與現有的關鍵詞提取方法相比，文中方法的困惑度有明顯降低。下一步就是根據不同語料庫信息高度集中的特點，整合外部知識信息，提高關鍵詞提取的質量，擴充語料完善實驗。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡