国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合神經(jīng)網(wǎng)絡(luò)的智能問答算法

2020-05-22 12:33:28燕,辛
關(guān)鍵詞:分詞向量特征

付 燕,辛 茹

(西安科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054)

0 引 言

問答技術(shù)是為了讓用戶通過自然語言就可以與計(jì)算機(jī)進(jìn)行交互的技術(shù)。但是由于目前問題和潛在正確答案之間的匹配度并不高,給智能問答帶來了挑戰(zhàn)[1]。

梁敬東等[2]提出了一種通過word2vec和LSTM來計(jì)算句子相似度實(shí)現(xiàn)的FAQ問答系統(tǒng),模型相較于傳統(tǒng)的算法較大提高了答案匹配的準(zhǔn)確率;榮光輝等[3]提出的基于深度學(xué)習(xí)的方法解決了傳統(tǒng)人工構(gòu)造特征中特征不足以及準(zhǔn)確率低下的問題;陳靜[4]以句子的詞向量矩陣作為模型的輸入,以問答匹配的置信度作為模型的輸出,提高了問答系統(tǒng)的準(zhǔn)確率。類似的基于深度學(xué)習(xí)的智能問答算法可參考文獻(xiàn)[5-8]等。

以上方法主要利用關(guān)鍵詞對(duì)文檔進(jìn)行定位,得到的結(jié)果與用戶想要的答案有一定差距?;诖颂岢隽艘环N基于word2vec的考慮文檔關(guān)鍵詞之間關(guān)系的混合神經(jīng)網(wǎng)絡(luò)的智能問答算法。

1 LSTM_CNN算法模型的構(gòu)建

LSTM網(wǎng)絡(luò)解決了長時(shí)依賴問題[9]。LSTM在抽取特征之后,針對(duì)不同時(shí)序產(chǎn)生的特征狀態(tài),通過max-pooling或者avg-pooling獲得最終的特征。無論是max-pooling或者avg-pooling只是對(duì)不同的特征做出最后的選擇,因此提出的LSTM_CNN算法采用一些其它的技巧對(duì)特征進(jìn)行選擇。該算法即是對(duì)這里的特征選擇進(jìn)行改進(jìn),采用CNN算法的結(jié)構(gòu)對(duì)所有的時(shí)序特征做出最后的選擇,即LSTM_CNN算法。算法框架如圖1所示。

圖1 LSTM_CNN算法流程

1.1 文本分詞處理

為了選擇合適的分詞工具作為本文數(shù)據(jù)預(yù)處理操作中的分詞處理,在同一實(shí)驗(yàn)環(huán)境下,測試了現(xiàn)有常用的3種分詞方法(THULAC、LTP、JieBa)的性能。實(shí)驗(yàn)環(huán)境為Intel Core i5 2.8 GHz。評(píng)測結(jié)果見表1。

表1 SIGHAN Bakeoff 2005 MSR,560 KB

以上是對(duì)標(biāo)準(zhǔn)測試集的實(shí)驗(yàn)結(jié)果,同時(shí)也對(duì)各方法從速度上進(jìn)行了實(shí)驗(yàn),結(jié)果見表2。

表2 數(shù)據(jù)集:CNKI_journal.txt(51 MB)

評(píng)測結(jié)果顯示,在速度與正確性上,結(jié)巴分詞(JieBa)均具有較好的性能,故采用結(jié)巴分詞(JieBa)的Python版本進(jìn)行分詞操作。

1.2 詞向量的構(gòu)建

本文選取的語料庫為搜狗新聞?wù)Z料庫,其中的語料來自搜狐新聞2012年6月-7月期間,國內(nèi)、國際、體育、社會(huì)和娛樂等18個(gè)頻道的新聞數(shù)據(jù)。

具體處理流程如圖2所示。

圖2 詞向量計(jì)算流程

1.3 數(shù)據(jù)預(yù)處理

本次實(shí)驗(yàn)以答案對(duì)的形式存儲(chǔ)數(shù)據(jù) (q,a+,a-),q表示問題,a+表示正向答案,a-表示負(fù)向答案。實(shí)驗(yàn)所用的訓(xùn)練數(shù)據(jù)已經(jīng)包含了問題和正向答案,因此需要對(duì)負(fù)向答案進(jìn)行選擇,實(shí)驗(yàn)時(shí)采用隨機(jī)的方式對(duì)負(fù)向答案進(jìn)行選擇,組合成 (q,a+,a-) 的形式。

1.4 詞向量的表示

對(duì)所得到的問題、答案對(duì)的形式,利用word2vec將一個(gè)句子轉(zhuǎn)換成固定長度的向量表示,從而便于進(jìn)行數(shù)學(xué)處理。Word2vec矩陣給每個(gè)詞分配一個(gè)固定長度的向量表示,這個(gè)長度可以自行設(shè)定,比如300,實(shí)際上會(huì)遠(yuǎn)遠(yuǎn)小于字典長度(比如10 000)。而且兩個(gè)向量之間的夾角值可以作為它們之間關(guān)系的一個(gè)衡量。通過簡單的余弦函數(shù),計(jì)算兩個(gè)單詞之間的相關(guān)性,如式(1)所示

(1)

1.5 特征提取

LSTM_CNN算法選擇共享的LSTM模型來計(jì)算問題和答案的語義特征。LSTM對(duì)輸入的問題答案信息的詞向量進(jìn)行特征選擇,可以對(duì)距離相對(duì)較遠(yuǎn)的詞與詞之間的聯(lián)系選取出更好的特征。

CNN[10]最大的優(yōu)勢在特征提取方面。當(dāng)使用LSTM模型計(jì)算的到問題和答案的特征后,再通過共享的CNN做進(jìn)一步的特征選取,這種方法得到的實(shí)驗(yàn)結(jié)果性能更優(yōu)。

1.6 目標(biāo)函數(shù)的計(jì)算

采用問題和答案最終獲取的特征,計(jì)算目標(biāo)函數(shù)(cosine_similary),如圖3所示。其中,P是1-MaxPooling; T是tanh層。目標(biāo)函數(shù)計(jì)算如式(2)所示

L=max{0,M-cosine(q,a+)+cosine(q,a-)}

(2)

M是需要設(shè)定的參數(shù)margin,q、a+、a-分別是問題、正向答案、負(fù)向答案對(duì)應(yīng)的語義表示向量。

2 算法的實(shí)現(xiàn)過程

2.1 實(shí)驗(yàn)條件及實(shí)驗(yàn)數(shù)據(jù)

本章算法的實(shí)驗(yàn)環(huán)境見表3,算法在不同的環(huán)境下計(jì)算時(shí)會(huì)產(chǎn)生一些差異。

圖3 計(jì)算目標(biāo)函數(shù)

表3 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所使用的數(shù)據(jù)集來自第六屆“泰迪杯”官方給出的全部訓(xùn)練數(shù)據(jù)train_data_complete.json(170.6 MB),測試數(shù)據(jù)test_data_sample.json(552 KB)。其中訓(xùn)練數(shù)據(jù)的格式為:問題-答案-標(biāo)簽。標(biāo)簽為1表示是問題的正確答案,標(biāo)簽為0是無關(guān)內(nèi)容。測試數(shù)據(jù)的格式為:問題-答案,未標(biāo)注標(biāo)簽。數(shù)據(jù)樣例見表4。

表4 數(shù)據(jù)集示例

2.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理需要對(duì)原始問答數(shù)據(jù)進(jìn)行分詞處理,數(shù)據(jù)集分詞后的結(jié)果一部分如圖4所示。測試集與訓(xùn)練集的區(qū)別為測試集的標(biāo)簽?zāi)J(rèn)全是0。對(duì)原始數(shù)據(jù)進(jìn)行分詞處理后,再構(gòu)建相應(yīng)的詞向量,構(gòu)建的詞向量結(jié)果如圖5所示。

圖4 數(shù)據(jù)集分詞結(jié)果

圖5 詞向量結(jié)果

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本模型使用結(jié)巴分詞處理后的訓(xùn)練集、測試集數(shù)據(jù)以及詞向量進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集樣例見表4。

3.2 實(shí)驗(yàn)過程

實(shí)驗(yàn)中訓(xùn)練設(shè)置的參數(shù)如下:學(xué)習(xí)率=0.05,每1000輪驗(yàn)證一次,濾波器的尺寸=[1,2,3,5],濾波器的數(shù)目=500。經(jīng)過多次實(shí)驗(yàn)發(fā)現(xiàn),訓(xùn)練迭代輪數(shù)為3000次即可達(dá)到預(yù)期的目標(biāo),所以本次訓(xùn)練迭代輪數(shù)為3000輪。經(jīng)過3000輪的迭代訓(xùn)練后,模型準(zhǔn)確度已達(dá)到90%以上。已達(dá)到預(yù)期的訓(xùn)練目標(biāo)。模型準(zhǔn)確度隨著迭代訓(xùn)練輪數(shù)變化的趨勢如圖6所示。

圖6 模型準(zhǔn)確度變化趨勢

在模型的訓(xùn)練的過程中,為了對(duì)模型進(jìn)行校驗(yàn),在每經(jīng)過1000輪訓(xùn)練迭代后,就會(huì)用測試集對(duì)模型進(jìn)行校驗(yàn),并利用當(dāng)前的模型求解問題與候選答案的關(guān)聯(lián)度,其值越接近1,則說明候選答案與問題的關(guān)聯(lián)度越高,也能說明候選答案是問題正確答案的可能性越大。訓(xùn)練結(jié)束后,關(guān)聯(lián)度集部分結(jié)果如圖7所示。通過分析關(guān)聯(lián)度集中的數(shù)據(jù),本文設(shè)置0.83為正確答案與錯(cuò)誤答案的界限,關(guān)聯(lián)度低于0.83為錯(cuò)誤答案,高于0.83為正確答案。根據(jù)此閾值,對(duì)測試集中的候選答案的標(biāo)簽進(jìn)行標(biāo)注。

圖7 測試集關(guān)聯(lián)度集部分結(jié)果

3.3 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證提出算法的有效性,將該算法分別與CNN和LSTM算法同等實(shí)驗(yàn)條件下進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果見表5。

表5 不同算法的實(shí)驗(yàn)對(duì)比結(jié)果

由表5中數(shù)據(jù)可以看出,CNN與LSTM都是比較好的深度學(xué)習(xí)方法,對(duì)于自然語義處理尤其是LSTM獨(dú)特的特點(diǎn),通過循環(huán)重復(fù)利用網(wǎng)絡(luò)模塊,以便于更好處理語義之間的聯(lián)系;CNN可以直接通過詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入從而提取詞語直接的特征值,不必人工提取特征,從而使得對(duì)大型數(shù)據(jù)的語義處理效率更高,通過將二者結(jié)合,實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。

4 結(jié)束語

本文對(duì)LSTM及CNN等方法進(jìn)行了深入的分析與研究,并詳細(xì)闡述了本文的考慮文檔關(guān)鍵詞之間關(guān)系的LSTM_CNN模型。但隨著現(xiàn)實(shí)應(yīng)用需求的不斷變化,對(duì)智能問答算法的執(zhí)行效率和答案的準(zhǔn)確度也越來越高。因此未來還可從以下兩點(diǎn)對(duì)智能問答模型進(jìn)行深入研究:①在線文本的處理;②模型性能的進(jìn)一步優(yōu)化。未來可通過對(duì)模型算法的進(jìn)一步優(yōu)化,給出準(zhǔn)確率更高的答案,從而進(jìn)一步提高模型的性能。

猜你喜歡
分詞向量特征
向量的分解
聚焦“向量與三角”創(chuàng)新題
如何表達(dá)“特征”
結(jié)巴分詞在詞云中的應(yīng)用
不忠誠的四個(gè)特征
抓住特征巧觀察
值得重視的分詞的特殊用法
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
合作市| 大渡口区| 翁源县| 江永县| 太康县| 浦江县| 江孜县| 将乐县| 嵩明县| 怀仁县| 平舆县| 图片| 徐水县| 芜湖县| 济源市| 松潘县| 南郑县| 得荣县| 武陟县| 长葛市| 正蓝旗| 孟连| 永宁县| 思南县| 博白县| 肥城市| 金湖县| 特克斯县| 綦江县| 肇东市| 加查县| 兖州市| 高平市| 荣昌县| 怀仁县| 梅州市| 怀远县| 常德市| 罗山县| 新干县| 菏泽市|