国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的問(wèn)答系統(tǒng)開(kāi)發(fā)

2021-06-01 12:57:10
關(guān)鍵詞:爬蟲(chóng)分詞知識(shí)庫(kù)

(北方工業(yè)大學(xué)信息學(xué)院,北京 100144)

0 引言

在一些日常培訓(xùn)教學(xué)場(chǎng)景中經(jīng)常出現(xiàn)一種比較尷尬的情況,就是在學(xué)生問(wèn)出一些老師無(wú)法立刻給出答案的科學(xué)問(wèn)題時(shí),老師不能在沒(méi)有查閱準(zhǔn)確資料的情況下正確回答問(wèn)題,經(jīng)分析,在新時(shí)代的青年學(xué)生在接觸了多種多媒體資料后通常對(duì)一些未知的知識(shí)充滿(mǎn)好奇,并且會(huì)在實(shí)際場(chǎng)合中向老師提問(wèn),基于深度學(xué)習(xí)的問(wèn)答系統(tǒng)開(kāi)發(fā)的成果主要包括以下內(nèi)容:基于B/S架構(gòu)的智能答疑系統(tǒng)軟件以及基于問(wèn)題回答語(yǔ)言自動(dòng)生成相關(guān)技術(shù)的一項(xiàng)發(fā)明專(zhuān)利。

1 系統(tǒng)相關(guān)技術(shù)分析

1.1 問(wèn)題關(guān)鍵字提取

基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)需要對(duì)學(xué)生提出的問(wèn)題進(jìn)行關(guān)鍵字抽取操作,抽取出最能體現(xiàn)句子含義的一些詞或短語(yǔ),問(wèn)題關(guān)鍵字抽取在很大程度上影響著自動(dòng)答疑軟件返回答案的準(zhǔn)確性。問(wèn)題關(guān)鍵字提取主要經(jīng)過(guò)學(xué)生輸入問(wèn)題、中文分詞、關(guān)鍵字提取三個(gè)步驟。自動(dòng)問(wèn)答系統(tǒng)輸入模塊主要支持兩種提問(wèn)形式,學(xué)生可以在文本框內(nèi)直接輸入文字也可以通過(guò)語(yǔ)音輸入問(wèn)題。而中文分詞本系統(tǒng)使用的是jieba全模式方式進(jìn)行分詞,全模式分詞會(huì)掃描所有可以成詞的詞語(yǔ),分詞速度快,呈現(xiàn)關(guān)鍵詞完整,容錯(cuò)率較高,對(duì)于可能出現(xiàn)的重復(fù)詞,使用NLTK(Natural Language Toolkit)模塊進(jìn)行去重,達(dá)到準(zhǔn)確分詞的效果。本系統(tǒng)關(guān)鍵字提取步驟采用的是詞頻-逆向文件頻率模型(TF-IDF),該算法根據(jù)某些詞語(yǔ)或者短語(yǔ)在目標(biāo)文本中出現(xiàn)的頻率,給予其一定權(quán)重,最后統(tǒng)計(jì)各個(gè)詞語(yǔ)或短語(yǔ)的權(quán)重和,最終以權(quán)重和選取關(guān)鍵詞檢索的一種算法。意思就是,如果一個(gè)詞語(yǔ)或短語(yǔ)在文本中出現(xiàn)頻率較高,那么它的權(quán)重就高;反之,若一個(gè)詞出現(xiàn)的次數(shù)很少甚至不出現(xiàn),則它的權(quán)重就低。

1.2 知識(shí)庫(kù)關(guān)鍵詞檢索

基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)提取出學(xué)生問(wèn)題關(guān)鍵詞后,會(huì)將其與知識(shí)庫(kù)中的問(wèn)題關(guān)鍵詞進(jìn)行對(duì)比,計(jì)算并選取相似度高的問(wèn)題,返回其答案,現(xiàn)在使用比較廣泛的相似度計(jì)算方法有基于向量余弦的相似度計(jì)算方法,基于語(yǔ)料庫(kù)的相似度計(jì)算方法,二者有各自的使用場(chǎng)景也各有優(yōu)缺點(diǎn),本項(xiàng)目結(jié)合二者的優(yōu)點(diǎn),在此之上按照本項(xiàng)目的相關(guān)情況,設(shè)計(jì)出了關(guān)鍵詞相似度計(jì)算方法。

首先,基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)接收到關(guān)鍵詞后,采用基于向量余弦模型(VSM)計(jì)算方法,該模型的使用前提條件是要基于圖論的理論依據(jù),所以?xún)蓚€(gè)詞語(yǔ)之間必須存在關(guān)聯(lián),通過(guò)判斷兩個(gè)詞語(yǔ)轉(zhuǎn)換成兩個(gè)余弦向量之后的向量距離來(lái)判斷兩者之間的相似度大小。在系統(tǒng)中使用向量空間模型將問(wèn)題句子映射為一個(gè)向量a(x1,x2,x3,…,xn),將目標(biāo)句子映射為另一個(gè)向量b(y1,y2,y3,…,yn),如圖1所示。

計(jì)算其對(duì)應(yīng)向量之間的夾角余弦:

此方法能夠簡(jiǎn)單直接的計(jì)算出詞義的相似度,但也存在不能夠反映詞語(yǔ)在不同語(yǔ)境所表達(dá)的不同含義,所以本項(xiàng)目需要有針對(duì)性的建立語(yǔ)料庫(kù),補(bǔ)足關(guān)鍵字匹配關(guān)聯(lián)性的問(wèn)題。

1.3 答案語(yǔ)言自動(dòng)組織

基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)需要采用自然語(yǔ)言生成技術(shù)對(duì)答案語(yǔ)言進(jìn)行組織,自然語(yǔ)言生成是自然語(yǔ)言處理的一部分,可以看做自然語(yǔ)言處理的反向過(guò)程,該技術(shù)通常接受非語(yǔ)法格式的輸入,采用知識(shí)庫(kù)或者邏輯形式等機(jī)器表述系統(tǒng)生成自然語(yǔ)言。

圖1 映射向量Fig.1 Mapping vector

針對(duì)學(xué)生語(yǔ)言特點(diǎn)的分析,本項(xiàng)目采用N-gram模型進(jìn)行語(yǔ)言組織。N-gram模型是一種語(yǔ)言模型(Language Model,LM),是一個(gè)基于概率的判別模型,它的輸入是一句話(huà)(單詞的順序序列),輸出是這句話(huà)的概率,即這些單詞的聯(lián)合概率(joint probability)。N-gram模型類(lèi)似于生活中“聯(lián)想”的原理。比如:當(dāng)我們提到“西瓜”時(shí),我們會(huì)立刻聯(lián)想到“綠色”“大”“圓的”這些詞語(yǔ)、當(dāng)提到“上火”、“金罐”時(shí),肯定會(huì)聯(lián)想到“加多寶”而不是百事可樂(lè)。Ngram基于這樣的思想,它的特點(diǎn)是某個(gè)詞語(yǔ)的出現(xiàn)依賴(lài)于其他若干個(gè)詞語(yǔ),并且獲取的信息越多,預(yù)測(cè)越準(zhǔn)確。

得到了經(jīng)過(guò)N-gram模型排列組合的語(yǔ)句之后,本軟件采用基于LSTM的自然語(yǔ)言生成模型輸出答案[1]。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)算法設(shè)計(jì)是傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的擴(kuò)展[2],在技術(shù)上解決了RNN容易出現(xiàn)梯度消失的問(wèn)題,在長(zhǎng)序列的中有更好的表現(xiàn)。

基于LSTM的自然語(yǔ)言生成模型,如圖2所示,主要是通過(guò)抽樣選取的方式將一個(gè)個(gè)詞語(yǔ)拼接成完整的句子,利用編碼解碼的方式,進(jìn)而達(dá)到描述語(yǔ)義的目的。

圖2 LSTM 的自然語(yǔ)言生成模型Fig.2 LSTM's natural language generation model

LSTM內(nèi)部,如圖3所示,使用門(mén)控機(jī)制解決了RNN的梯度消失問(wèn)題[3],通過(guò)三個(gè)門(mén)結(jié)構(gòu):輸入門(mén)、遺忘門(mén)、輸出門(mén)、選擇性地遺忘部分歷史信息,加入部分當(dāng)前輸入信息,最終整合到當(dāng)前信息產(chǎn)生輸出信息。

圖3 LSTM 內(nèi)部結(jié)構(gòu)圖Fig.3 LSTM internal structure diagram

2 功能模塊設(shè)計(jì)

2.1 學(xué)生模塊

基于深度學(xué)習(xí)自動(dòng)問(wèn)答系統(tǒng)中主要的使用權(quán)限為學(xué)生用戶(hù),主要的功能是提問(wèn),步驟如下:學(xué)生進(jìn)入首頁(yè),登錄自己的帳號(hào),進(jìn)入提問(wèn)頁(yè)面,使用語(yǔ)音提出問(wèn)題,或在文本框內(nèi)輸入問(wèn)題,點(diǎn)擊提交。系統(tǒng)收到問(wèn)題后判斷問(wèn)題輸入格式,如果是語(yǔ)音輸入則公司原有系統(tǒng)將語(yǔ)音轉(zhuǎn)化為文字進(jìn)行錄入。系統(tǒng)處理接收到的句子,進(jìn)行分詞和提取關(guān)鍵詞操作。系統(tǒng)根據(jù)關(guān)鍵詞在知識(shí)庫(kù)中檢索相似度高的問(wèn)題。按照相似度從高到低輸出檢索到的問(wèn)題答案。如果沒(méi)有相似度高的問(wèn)題,轉(zhuǎn)向搜索引擎搜索問(wèn)題,同時(shí)使用網(wǎng)絡(luò)爬蟲(chóng)抓取相關(guān)網(wǎng)頁(yè)。

搜索到答案之后,使用自然語(yǔ)言生成技術(shù)將答案返回給學(xué)生,同時(shí)提示答案來(lái)源于網(wǎng)絡(luò)。教師通過(guò)歷史記錄給出標(biāo)準(zhǔn)答案后,學(xué)生通過(guò)查看歷史記錄獲取。

2.2 教師模塊

基于深度學(xué)習(xí)的自動(dòng)問(wèn)答系統(tǒng)中教師的使用權(quán)限為教師用戶(hù),主要負(fù)責(zé)解答學(xué)生問(wèn)題,篩選爬蟲(chóng)結(jié)果,具體步驟如下:教師在首頁(yè)里登錄,需要先確認(rèn)教師身份,認(rèn)證通過(guò)后進(jìn)入教師用戶(hù)頁(yè)面,可以在此頁(yè)面管理學(xué)生的相關(guān)信息。教師可以查看歷史記錄,查看是否有新提出的問(wèn)題,該問(wèn)題在現(xiàn)有知識(shí)庫(kù)中是否存在,若已有問(wèn)題,查看是否準(zhǔn)確,是否需要更改;若未記錄,查看搜索引擎以及網(wǎng)絡(luò)爬蟲(chóng)結(jié)果。審閱搜索以及抓取到的結(jié)果是否正確,說(shuō)法是否符合學(xué)生理解能力。如果對(duì)結(jié)果滿(mǎn)意,可以將問(wèn)題及答案添加到知識(shí)庫(kù);如果不滿(mǎn)意,可以刪掉結(jié)果,自行撰寫(xiě)答案,添加到知識(shí)庫(kù)中。

3 系統(tǒng)界面

基于深度學(xué)習(xí)的自動(dòng)答疑系統(tǒng)是一套B/S 架構(gòu)的智能答疑系統(tǒng),可以幫助學(xué)生答疑科學(xué)常識(shí)相關(guān)課程難點(diǎn),提高學(xué)生的自主學(xué)習(xí)能力;也方便教師集中尋找問(wèn)題,及時(shí)對(duì)課程內(nèi)容和教學(xué)方法進(jìn)行調(diào)整。如下表是該軟件簡(jiǎn)單介紹:

完成注冊(cè)信息后,返回首頁(yè)點(diǎn)擊登錄,進(jìn)入登錄頁(yè)面,輸入信息,通過(guò)身份驗(yàn)證后可以進(jìn)入使用界面。學(xué)生進(jìn)入使用界面后,可以在文本框中輸入自己想問(wèn)的問(wèn)題;或點(diǎn)擊麥克風(fēng)錄入問(wèn)題,說(shuō)完語(yǔ)音后系統(tǒng)會(huì)將語(yǔ)音轉(zhuǎn)化為文字顯示在文本框內(nèi),確認(rèn)完成后點(diǎn)擊提交即可獲取答案。

在提交問(wèn)題后,系統(tǒng)分析模塊便開(kāi)始分析問(wèn)題。具體流程如下:

開(kāi)始進(jìn)行自然語(yǔ)言理解,進(jìn)行分詞、語(yǔ)義理解、提取關(guān)鍵詞;在知識(shí)庫(kù)中比較提取出來(lái)的關(guān)鍵詞相似度查找答案,找到相似度超過(guò)0.5的問(wèn)題,將答案以列表形式返回給學(xué)生。

如果知識(shí)庫(kù)中未收錄過(guò)該問(wèn)題,系統(tǒng)將會(huì)轉(zhuǎn)向使用搜索引擎到網(wǎng)絡(luò)上查找答案。同時(shí)使用網(wǎng)絡(luò)爬蟲(chóng)下載所有問(wèn)題相關(guān)的網(wǎng)頁(yè),將抓取到的結(jié)果添加到知識(shí)庫(kù)中。系統(tǒng)會(huì)將搜索到的結(jié)果返回顯示給學(xué)生,同時(shí)提示“所提問(wèn)題在知識(shí)庫(kù)中未收錄,已為您在網(wǎng)上查詢(xún)到如下結(jié)果,結(jié)果可能存在錯(cuò)誤,請(qǐng)等待教師確認(rèn)。”等教師審核搜索結(jié)果并確認(rèn)標(biāo)準(zhǔn)答案后,學(xué)生點(diǎn)擊“查看歷史問(wèn)題”即可查看準(zhǔn)確答案。

4 結(jié)語(yǔ)

本系統(tǒng)所實(shí)現(xiàn)的主要功能包括基于網(wǎng)絡(luò)爬蟲(chóng)和歷史數(shù)據(jù)的知識(shí)庫(kù)自動(dòng)構(gòu)建,在系統(tǒng)的使用過(guò)程中,隨著使用者在本系統(tǒng)進(jìn)行提問(wèn),隨著問(wèn)題數(shù)量增加和類(lèi)型不斷地豐富,本系統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)功能會(huì)爬取網(wǎng)上與問(wèn)題相關(guān)的網(wǎng)頁(yè),豐富知識(shí)庫(kù)的內(nèi)容,然后系統(tǒng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)爬取的答案進(jìn)行篩選,這樣不僅能夠有效增強(qiáng)知識(shí)庫(kù)的精確性,同時(shí)該系統(tǒng)可通過(guò)網(wǎng)絡(luò)爬蟲(chóng)靶向性地聚集在問(wèn)答內(nèi)容密集的網(wǎng)站,為知識(shí)庫(kù)的數(shù)據(jù)維護(hù)提供保障。另外本系統(tǒng)還實(shí)現(xiàn)了基于深度學(xué)習(xí)的問(wèn)題答案語(yǔ)言自動(dòng)組織與撰寫(xiě),當(dāng)用戶(hù)使用本軟件進(jìn)行提問(wèn)時(shí),輸入問(wèn)題之后進(jìn)行自然語(yǔ)言處理、提取關(guān)鍵字,在知識(shí)庫(kù)中檢索問(wèn)題答案,最后采用自然語(yǔ)言處理的文本生成技術(shù)進(jìn)行答案語(yǔ)言組織將查詢(xún)結(jié)果顯示給用戶(hù)。

猜你喜歡
爬蟲(chóng)分詞知識(shí)庫(kù)
利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
基于Python的網(wǎng)絡(luò)爬蟲(chóng)和反爬蟲(chóng)技術(shù)研究
結(jié)巴分詞在詞云中的應(yīng)用
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
利用爬蟲(chóng)技術(shù)的Geo-Gnutel la VANET流量采集
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲(chóng)技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
值得重視的分詞的特殊用法
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
时尚| 西安市| 苍南县| 休宁县| 固安县| 张家界市| 邵武市| 乌鲁木齐市| 台北县| 江都市| 东方市| 杭锦后旗| 宜城市| 海丰县| 环江| 中西区| 阿巴嘎旗| 阿拉善左旗| 安徽省| 郴州市| 饶平县| 江北区| 梧州市| 松溪县| 牡丹江市| 天水市| 攀枝花市| 佛山市| 商城县| 河津市| 东乌珠穆沁旗| 通榆县| 甘孜县| 邢台市| 关岭| 福州市| 昆明市| 河北区| 连山| 军事| 呈贡县|