国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向高校的智能問答系統(tǒng)設(shè)計(jì)

2022-02-22 01:07:20戚夢瑤
電腦知識與技術(shù) 2022年36期
關(guān)鍵詞:文本分類數(shù)字化校園

戚夢瑤

關(guān)鍵詞:問答系統(tǒng);校園問答;數(shù)字化校園;文本分類;文本相似度

中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2022)36-0033-03

1 概述

智能問答系統(tǒng)是一種能夠理解用戶提出的用自然語言表述的問題,并能夠自動、準(zhǔn)確地給出用戶答案的軟件系統(tǒng)[1]?,F(xiàn)今互聯(lián)網(wǎng)上的資源信息飛速增長,如何精確、快速地從海量信息中挖掘用戶想要的信息成為亟待解決的問題。智能問答系統(tǒng)是進(jìn)行該項(xiàng)工作的重要手段,很大程度上可以替代或輔助傳統(tǒng)人工咨詢的方式。

根據(jù)應(yīng)用領(lǐng)域的不同,智能問答系統(tǒng)一般可分為面向開放域的問答系統(tǒng)和面向限定域的問答系統(tǒng)[2]。面向開放域的問答系統(tǒng)包含豐富的知識庫,為回答多個(gè)領(lǐng)域的問題提供了一定的基礎(chǔ),但在回答專業(yè)領(lǐng)域的問題時(shí)難以精準(zhǔn)定位答案、表現(xiàn)較差[3]。目前針對法律[4]、醫(yī)療[5]、金融[6]等限定領(lǐng)域的智能問答系統(tǒng)研究較為成熟,而針對高校領(lǐng)域的問答系統(tǒng)研究仍處于起步階段。為了能夠整合多方面資源,為高校學(xué)生提供快速、高效、準(zhǔn)確的校園智能問答服務(wù),同時(shí)建立起統(tǒng)一的信息獲取平臺,完善數(shù)字化校園建設(shè),并進(jìn)一步實(shí)現(xiàn)學(xué)生在校情況動態(tài)監(jiān)測,本文旨在運(yùn)用人工智能、自然語言處理等相關(guān)技術(shù),研究和設(shè)計(jì)面向高校的智能問答系統(tǒng)。

2 高校應(yīng)用智能問答系統(tǒng)的意義

高校是一個(gè)復(fù)雜的社會化服務(wù)系統(tǒng),應(yīng)向?qū)W生提供各類服務(wù),如教育服務(wù)、生活服務(wù)等。學(xué)生在接受服務(wù)的過程中可能會遇到問題,需要進(jìn)行咨詢得到解答,例如食堂供應(yīng)時(shí)間、圖書館開放時(shí)間、請假審批流程等;在招生季,學(xué)生會咨詢大量有關(guān)報(bào)考方面的問題,例如招生計(jì)劃、專業(yè)選擇、學(xué)校制度等。學(xué)生在遇到問題時(shí)會咨詢班主任、輔導(dǎo)員或者學(xué)校行政人員,但事實(shí)上,學(xué)生提出的大多數(shù)問題具有相似性,同時(shí)教師和行政人員難以對每個(gè)學(xué)生提出的問題都做出非常及時(shí)和詳細(xì)的解答,而智能問答系統(tǒng)的研究和開發(fā)可以在以上校園問答場景中發(fā)揮重要作用,具體有以下三點(diǎn)意義:

1)建立統(tǒng)一信息獲取平臺、提高校園咨詢效率。通過分析高校這一限定領(lǐng)域的特點(diǎn),以校園為導(dǎo)向幫助院校建立起統(tǒng)一、可靠的信息獲取平臺,自動解答學(xué)生用自然語言提出的問題,為學(xué)校提供良好的信息化服務(wù)途徑。相比傳統(tǒng)的人工問答方式,使用智能問答系統(tǒng)可以為高校降低人力成本,解決大量重復(fù)、可自動化的工作內(nèi)容,并能夠24小時(shí)為學(xué)生提供高效、標(biāo)準(zhǔn)化的校園咨詢服務(wù)。

2)完善數(shù)字化校園建設(shè)。數(shù)字化校園建設(shè)已成為教育信息化的重要部分,也是衡量教育現(xiàn)代化發(fā)展的主要標(biāo)志。基于人工智能技術(shù)開發(fā)的智能問答系統(tǒng)輔助傳統(tǒng)的人工咨詢流程,可以提升高校管理效能和服務(wù)水平,實(shí)現(xiàn)校園服務(wù)工作信息化、自動化、便捷化,持續(xù)推動數(shù)字校園的建設(shè)和發(fā)展[7]。

3)實(shí)現(xiàn)學(xué)生在校情況動態(tài)監(jiān)測。學(xué)生在平臺咨詢的問題能夠體現(xiàn)學(xué)生在校期間的各方面情況,在智能問答系統(tǒng)的運(yùn)行推廣過程中,可以不斷收集和整合學(xué)生咨詢的問題,并基于問題數(shù)據(jù)做進(jìn)一步的統(tǒng)計(jì)與分析,統(tǒng)計(jì)分析的結(jié)果可供高校有關(guān)部門進(jìn)行參考,使得對學(xué)生在校生活、學(xué)習(xí)情況有大致的了解,真正落實(shí)“以學(xué)生為中心”的理念。

3 智能問答系統(tǒng)框架

本文設(shè)計(jì)的面向高校的智能問答系統(tǒng)框架如圖1所示,分為數(shù)據(jù)、算法、應(yīng)用三個(gè)部分。用戶通過前端界面輸入用自然語言表述的問題,首先系統(tǒng)會對問題進(jìn)行分詞、去除停用詞等預(yù)處理操作,并使用詞向量模型表示文本,接著通過問題分類模塊以及文本相似度計(jì)算模塊,向用戶返回結(jié)果。在上述過程中,若無法成功在系統(tǒng)中匹配到用戶的問題,則管理員需要及時(shí)在校園問答庫中進(jìn)行補(bǔ)充,從而使得問答庫能夠不斷更新和完善。

數(shù)據(jù):包括構(gòu)建校園問答庫以及數(shù)據(jù)預(yù)處理。構(gòu)建校園問答庫是智能問答庫的基礎(chǔ),通過網(wǎng)絡(luò)爬取數(shù)據(jù)以及問卷收集數(shù)據(jù)兩種方式構(gòu)建問答對。為了后續(xù)算法的實(shí)現(xiàn),還需進(jìn)行數(shù)據(jù)預(yù)處理步驟,構(gòu)建詞向量表示文本。

算法:包括問題分類模塊以及文本相似度計(jì)算模塊。問題分類模塊使用訓(xùn)練得到的分類器對已經(jīng)預(yù)處理的用戶問題進(jìn)行分類,得到問題所屬的類別。文本相似度計(jì)算模塊將用戶問題和問答庫中的問題進(jìn)行文本相似度計(jì)算,獲取用戶需要的答案。

應(yīng)用:向用戶提供方便操作的可視化前端界面,用戶可通過前端界面發(fā)送問題并接收結(jié)果。為方便用戶的使用,接入微信公眾號,可采取基于MVC(Mod?el View Controller模型-視圖-控制器)設(shè)計(jì)模式,采用Vue.js框架實(shí)現(xiàn)微信客戶端的開發(fā)。

4 構(gòu)建校園問答庫(FAQ)

構(gòu)建校園問答庫是實(shí)現(xiàn)自動問答系統(tǒng)的基礎(chǔ),其優(yōu)劣對于智能問答系統(tǒng)的適用性以及可靠性起著至關(guān)重要的作用。校園問答庫中的問題要能夠基本覆蓋高校學(xué)生會遇到的常見問題,答案需要根據(jù)不同高校的實(shí)際情況對問題進(jìn)行有針對性地解答。本文收集問題數(shù)據(jù)的方式有兩種,一種是使用爬蟲技術(shù),爬取各高等院校貼吧中的問題數(shù)據(jù);另外一種是通過問卷調(diào)查的方式,收集學(xué)生在平常學(xué)習(xí)、生活過程中容易碰到的問題。

在收集完問題之后,需要給問題標(biāo)注準(zhǔn)確的答案,形成問答對。同時(shí)為實(shí)現(xiàn)后續(xù)自動問答模塊的問題分類功能,還需手工給問題標(biāo)注分類標(biāo)簽,本文針對校園場景將問題分為3種類別,最終得到的校園問答庫示例數(shù)據(jù)如表1所示。

5 自動問答模塊設(shè)計(jì)

5.1 自動問答模塊處理流程

自動問答模塊是本系統(tǒng)的核心,其處理流程如圖2所示。首先對用戶提出的問題進(jìn)行分類,若問題屬于某個(gè)類別的可能性最大且超過閾值,則將問題標(biāo)記為該類別,否則提示用戶該問題類型不在問答庫中,同時(shí)系統(tǒng)記錄該問題并通知管理員是否考慮添加新問題類別。在得到問題所屬類別后,將其與校園問答庫(FAQ)中同類別下的問題進(jìn)行相似度計(jì)算,找到問答庫中與用戶提出的問題相似度最高的問題,并判斷相似度是否超過閾值,若超過閾值則將對應(yīng)的答案返回給用戶,否則提示用戶該問題不在問答庫中,同時(shí)系統(tǒng)記錄該問題并通知管理員在問答庫中添加該問題以及對應(yīng)的答案。

5.2 自動問答模塊實(shí)現(xiàn)流程

自動問答模塊通過獲取詞向量、問題分類、問句相似度計(jì)算三個(gè)步驟,基于Word2vec詞向量模型和TextCNN模型實(shí)現(xiàn)自動問答模塊關(guān)鍵算法。

5.2.1 文本向量表示

首先,需要將用自然語言表述的問題轉(zhuǎn)換為計(jì)算機(jī)可以識別的格式,使用Word2vec模型進(jìn)行文本向量表示。在構(gòu)建詞向量前,需要對校園問答庫(FAQ)中問題進(jìn)行數(shù)據(jù)預(yù)處理,主要包括對問句的分詞處理、去除停用詞、特征詞提取等操作。

1)分詞處理:詞是漢語中最基本的語義單位,分詞主要是將原先沒有分割符的中文語句(例如“我想咨詢食堂開放時(shí)間”)按照規(guī)定的劃分原則拆分其中的字或詞(“我/想/咨詢/食堂/開放/時(shí)間”)的過程。

2)去除停用詞:為提升文本特征的質(zhì)量,降低文本特征的維度,進(jìn)行去除停用詞操作?!巴S迷~”為經(jīng)常出現(xiàn)在文本中但對信息檢索沒有幫助的、應(yīng)該提前消除的詞語,例如中文語句中的語氣詞、助詞、虛詞等,目前常見的去除停用詞的方法是通過構(gòu)建停用詞表,主流的通用中文停用詞表有百度停用詞表、哈工大停用詞表等。

3)特征詞提?。禾卣髟~是指能表示文本意向的關(guān)鍵詞,能否正確地找出問題中的特征詞,影響著后續(xù)文本分類及相似度計(jì)算的準(zhǔn)確性和效率[8]。

接著基于Word2vec模型對知識庫中的問題數(shù)據(jù)構(gòu)建詞向量集。Word2vec有兩種詞向量訓(xùn)練模式,包括CBOW和Skip-gram[9]。對于用戶輸入的問題,也需要利用Word2vec模型獲取其詞向量,從而方便進(jìn)行下一步的問題分類和相似度計(jì)算。

5.2.2 問題分類

對用戶輸入的問題進(jìn)行分類,從而縮小問題集比對范圍,提高問答的準(zhǔn)確性。文本分類過程包括兩個(gè)步驟:模型訓(xùn)練和測試。在得到詞向量后,基于Ten?sorflow機(jī)器學(xué)習(xí)框架構(gòu)建Text-CNN[10]模型,該模型首先通過卷積層、池化層提取特征,其流程框架如圖3所示,然后對提取到的特征進(jìn)行分析就可以實(shí)現(xiàn)文本分類。

利用訓(xùn)練數(shù)據(jù)集訓(xùn)練分類模型,在模型訓(xùn)練過程中,性能評價(jià)指標(biāo)可以使用損失(loss)和準(zhǔn)確率(Ac?curacy)。然后,對訓(xùn)練好的分類模型進(jìn)行測試,在模型測試過程中,性能評價(jià)指標(biāo)可以使用損失(loss)、準(zhǔn)確率(Accuracy)、查準(zhǔn)率(precision)、召回率(recall)、F1 Score以及混淆矩陣。如果訓(xùn)練結(jié)果不理想,調(diào)整參數(shù)進(jìn)行訓(xùn)練,再次對模型進(jìn)行測試,直到找到最優(yōu)的文本分類模型。

5.2.3 計(jì)算相似度

最后,計(jì)算用戶提出的問題與校園問答庫(FAQ)中的問題集的相似度,根據(jù)相似度逆序排序得到答案,并將答案返回用戶可視化前端界面。采用Word2vec結(jié)合余弦相似度公式計(jì)算問句詞向量間的距離。對于每個(gè)文本組合(q,a),其中q 為用戶提出的問題,a 為問題庫中的候選問題,詞向量余弦相似度計(jì)算公式如式(1)所示。

6 結(jié)束語

本文設(shè)計(jì)了一個(gè)適用于高校的智能問答系統(tǒng),并基于Word2vec詞向量模型、TextCNN模型設(shè)計(jì)自動問答算法,能基本實(shí)現(xiàn)校園場景下的自動問答應(yīng)用,為學(xué)生提供更高效的問答服務(wù),為高校有關(guān)部門提升工作效率提供參考。但系統(tǒng)仍有不完善之處需要在未來進(jìn)行進(jìn)一步優(yōu)化,主要有以下兩個(gè)方面。

1)添加用戶評價(jià)及反饋功能。在用戶通過智能問答系統(tǒng)提問并得到答案之后,邀請用戶對答案的滿意度進(jìn)行評分,從而能夠在問答庫構(gòu)建以及算法模型訓(xùn)練過程不斷改進(jìn),形成良性循環(huán),使得系統(tǒng)能夠更符合用戶的使用需求。

2)與可視化大屏系統(tǒng)相結(jié)合。在問答系統(tǒng)的運(yùn)行過程中可以積累大量的問答數(shù)據(jù),結(jié)合大數(shù)據(jù)技術(shù)分析問答數(shù)據(jù),開發(fā)可視化大屏,使用圖表的形式進(jìn)行統(tǒng)計(jì)展示,與問答系統(tǒng)相結(jié)合,開放接口,構(gòu)建全方面、閉環(huán)、可拓展的智能校園問答體系,推動校園數(shù)字化建設(shè)。

猜你喜歡
文本分類數(shù)字化校園
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
數(shù)字化校園中統(tǒng)一移動平臺的實(shí)踐與探索
如何加強(qiáng)校園信息化建設(shè)創(chuàng)學(xué)校發(fā)展提速平臺
淺析高校一卡通系統(tǒng)財(cái)務(wù)管理
基于大數(shù)據(jù)的數(shù)字化校園中學(xué)生學(xué)籍管理系統(tǒng)
基于蟻群智能算法的研究文本分類
數(shù)字化校園的整體構(gòu)架及技術(shù)分析
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
辽宁省| 灌云县| 泸定县| 长武县| 嘉鱼县| 姜堰市| 中卫市| 莲花县| 玉门市| 巴东县| 台南县| 潼南县| 宝清县| 泸水县| 贡山| 盱眙县| 济源市| 理塘县| 肇庆市| 得荣县| 巴塘县| 平顶山市| 许昌市| 肥东县| 交城县| 千阳县| 庆云县| 唐山市| 璧山县| 嘉荫县| 巴林左旗| 洛浦县| 陇西县| 海安县| 苍梧县| 治县。| 皮山县| 馆陶县| 吐鲁番市| 湾仔区| 定结县|