基于機(jī)器閱讀理解模型的護(hù)士AI問答系統(tǒng)

2021-06-08 15:27李瑛瑋翟潔袁學(xué)范勇琪楊博涵龍海朱

中國(guó)新通信 2021年3期

李瑛瑋翟潔袁學(xué) 范勇琪楊博涵龍海朱

【摘要】? ? 針對(duì)護(hù)士資源少，醫(yī)療服務(wù)水平有待提高的現(xiàn)狀，為讓患者得到及時(shí)，準(zhǔn)確的回復(fù)，從而緩解護(hù)士壓力，本文研究了基于機(jī)器閱讀理解模型的護(hù)士AI問答系統(tǒng)相關(guān)知識(shí)技術(shù)，展示了該系統(tǒng)關(guān)鍵技術(shù)與核心算法，基于這些技術(shù)實(shí)現(xiàn)了回答較為準(zhǔn)確的醫(yī)療智能問答系統(tǒng)。該系統(tǒng)可以根據(jù)患者的提問返回較為準(zhǔn)確的回答，以便及時(shí)，可靠地解決患者醫(yī)療方面問題。

【關(guān)鍵詞】? ? 機(jī)器學(xué)習(xí)? ? 智能問答系統(tǒng)? ? BM25算法? ? 護(hù)士AI

Abstract：Less for the nurse resources， the present situation of the medical service level needs to improve， to make patients get timely， accurate response， so as to alleviate the pressure of the nurses， this paper studies the nurse AI question answering system based on machine reading comprehension model knowledge technology， shows the system key technology and core algorithm， based on the answers of these technology to achieve the more accurate medical intelligent question answering system.The system can return more accurate answers according to patients questions， so as to timely and reliably solve patients medical problems.

Keywords： Machine learning; Intelligent question answering system; BM25 algorithm; The nurse

醫(yī)療領(lǐng)域是信息化發(fā)展的重要方向，而醫(yī)療信息化則是醫(yī)療衛(wèi)生事業(yè)能否在信息時(shí)代更好地服務(wù)于患者、服務(wù)于社會(huì)的重要支撐據(jù)統(tǒng)計(jì)我國(guó)每千人口護(hù)士數(shù)僅為2.36人。世界上大多數(shù)國(guó)家的護(hù)士占總?cè)丝诘谋戎丶s為5%，而我國(guó)只有1%左右。以此推算，我國(guó)目前尚缺數(shù)百萬名護(hù)士，護(hù)理人力資源配置嚴(yán)重不足。從數(shù)據(jù)中看，護(hù)士的工作壓力是極大的，這當(dāng)中又有相當(dāng)一部分時(shí)間花在與患者交流上。

基于以上原因，設(shè)計(jì)一個(gè)護(hù)士AI問答系統(tǒng)，從而幫助護(hù)士解答患者在醫(yī)療設(shè)備上的問題，緩解護(hù)士的工作壓力，讓患者得到及時(shí)準(zhǔn)確的回復(fù)，提高醫(yī)院的服務(wù)水平顯得尤為重要。

一、設(shè)計(jì)思路

1.1 模型設(shè)計(jì)

研究的目的是實(shí)現(xiàn)一個(gè)智能AI問答模型，該模型系統(tǒng)流程如下所述：

1）用戶提問：患者通過微信小程序平臺(tái)向系統(tǒng)提出了一個(gè)關(guān)于設(shè)備使用的問題。

2）文章檢索器：?jiǎn)栴}作為query輸入文章檢索器中。文章檢索器先根據(jù)query從已完成分詞的數(shù)據(jù)集的文檔中，選出最相關(guān)的5篇。

3）文檔理解器：將query和5篇文檔同時(shí)輸入文檔理解器，理解器會(huì)根據(jù)query通過訓(xùn)練好深度神經(jīng)網(wǎng)絡(luò)從文章中找到合適的答案，并給出對(duì)應(yīng)得分。

4）問答對(duì)檢索器：query輸入文章檢索器時(shí)，也會(huì)同時(shí)輸入到問答對(duì)檢索器中，問答對(duì)檢索器會(huì)根據(jù)query，從我們提前設(shè)置好的問答對(duì)中，找到最相關(guān)的5個(gè)答案，同時(shí)也計(jì)算出對(duì)應(yīng)得分。

5）選擇器：將兩種檢索器的答案和得分一起輸入選擇器中，選擇器會(huì)根據(jù)每個(gè)的檢索器權(quán)重和答案得分，計(jì)算出最合適的答案，從微信上返回給用戶。

二、技術(shù)實(shí)現(xiàn)

2.1 問答檢索器

2.1.1 BM25算法

問答對(duì)檢索器根據(jù)輸入的query，從數(shù)據(jù)庫(kù)中尋找最相關(guān)的五個(gè)問答對(duì)。從定義來說，這無非是一個(gè)信息檢索問題。因此采用了BM25，編輯距離算法結(jié)合同義詞停用詞詞庫(kù)來計(jì)算相似度。

BM25算法通常用來做搜索相關(guān)性評(píng)分的，通常用來計(jì)算query和文本集合∑ti=wi*R（qi，d）D中每篇文本之間的相關(guān)性。我們用Q表示query，在這里Q一般是一個(gè)句子。在這里我們要對(duì)Q進(jìn)行語素解析（一般是分詞），在這里以分詞為例，我們對(duì)Q進(jìn)行分詞，得到q1，q2，……，qn這樣一個(gè)詞序列。給定文本d∈，現(xiàn)在以計(jì)算Q和d之間的分?jǐn)?shù)（相關(guān)性），其表達(dá)式如下：

上面式子wi中表示qi的權(quán)重，R（qi，d）為qi和d的相關(guān)性，Score（Q，d）就是每個(gè)語素qi和d的相關(guān)性的加權(quán)和。wi的計(jì)算方法有很多，一般是用IDF來表示的，但這里的IDF計(jì)算和上面的有所不同，具體的表達(dá)式如下：

2.2 文章檢索器

文章檢索器根據(jù)輸入的query，從數(shù)據(jù)庫(kù)中尋找最相關(guān)的五篇文章。從定義來說，這無非是一個(gè)全文檢索問題。全文檢索就是把文本中的內(nèi)容拆分成若干個(gè)關(guān)鍵詞，然后根據(jù)關(guān)鍵詞創(chuàng)建索引。查詢時(shí)，根據(jù)關(guān)鍵詞查詢索引，最終找到包含關(guān)鍵詞的文章。整個(gè)過程類似于查字典的過程。這里我們通過現(xiàn)有的百度中文通用領(lǐng)域搜索數(shù)據(jù)集，來訓(xùn)練一個(gè)通用百科知識(shí)模型，并用此模型從數(shù)據(jù)集中篩選與用戶所提出的問題最為相關(guān)的五篇文章。這里采用DrQA模型的Retriever來進(jìn)行實(shí)現(xiàn)。

2.2.1DrQA模型Retriever部分

DrQA 是一個(gè)開放的問答系統(tǒng)。該系統(tǒng)需要輸入一段文本，一個(gè)問題，如果該問題的答案需要存在于這段文本中，那么DrQA系統(tǒng)就可以根據(jù)這段文本返回這個(gè)問題的答案。這里主要利用DrQA模型的Retriever部分來從多篇文章中篩選出可能包含答案的文章作為候選。

Document Retriever的具體做法如下：1）對(duì)樣本單詞進(jìn)行清洗，包括去停詞等各種過濾操作。2）統(tǒng)計(jì)所有的樣本，并進(jìn)一步對(duì)樣本做同樣規(guī)則的清洗得到最終的樣本，然后將這些單詞進(jìn)行哈希搜索得到每個(gè)單詞的唯一id。需要注意的是，如果哈系的特征數(shù)目設(shè)置過小，那么這過程可能會(huì)有兩個(gè)不同的單詞但是得到的id相同，所以該模型使用的特征數(shù)目為224，可以盡量避免這種哈希沖突。3）得到每個(gè)單詞唯一的id以后，就可以根據(jù)TF-IDF公式來計(jì)算每個(gè)樣本的IDF向量以及TF向量了。4）最后將IDF乘以TF即可得到TF-IDF向量。將問題的TF-IDF向量與文章的TF-IDF向量相乘并取最大的前五個(gè)的文章的索引，即可得到與問題最相關(guān)的5篇文章。

2.3 文章理解器

2.3.1基于BERT進(jìn)行閱讀理解

機(jī)器閱讀理解是給定一段文本Paragraph和問題Question，得到答案Answer。通常假定Answer就包含在原文中，因此機(jī)器閱讀理解任務(wù)的目標(biāo)就是得到一個(gè)span（start， end），start表示Answer的開始字符在Paragraph中的位置，end表示Answer的結(jié)束字符在Paragraph中的位置。

如上圖所示，展示了如何用BERT來做信息抽取任務(wù)的結(jié)構(gòu)圖。

1、將Question和Paragraph分別作為BERT的text1和text2輸入。

2、start/end span在Paragraph對(duì)應(yīng)的輸出位置表示。

3、通常輸出會(huì)通過2個(gè)dense網(wǎng)絡(luò)，接到start輸出和end輸出序列。

將上述start輸出和end輸出序列接一個(gè)sigmod層，然后用binary_crossentropy函數(shù)即可進(jìn)行訓(xùn)練。

2.4選擇器

問答對(duì)檢索器和文章理解器給出的答案都會(huì)有具體的分?jǐn)?shù)，選擇器即根據(jù)二者所得分?jǐn)?shù)選擇出一個(gè)更為可靠的答案返回給患者。

三、實(shí)驗(yàn)結(jié)果展示

前期的問答對(duì)檢索器和文章理解器從10萬多條醫(yī)療問答數(shù)據(jù)以及醫(yī)療文章中選擇出關(guān)鍵詞符合的，送入到問答模型。最終返回的問答對(duì)由問答模型做選擇。經(jīng)過對(duì)該問答模型的調(diào)優(yōu)和大量訓(xùn)練，得出了以下訓(xùn)練結(jié)果：

可以看出，經(jīng)過多次數(shù)據(jù)投喂后，該系統(tǒng)的訓(xùn)練集損失不斷下降，驗(yàn)證集準(zhǔn)確率不斷上升，最終在驗(yàn)證集上達(dá)到了百分之九十以上的準(zhǔn)確率。

為了方便患者隨時(shí)隨地使用，將其以微信小程序的形式呈現(xiàn)出來，成果如圖5所示：

可以看到，AI護(hù)士機(jī)器人對(duì)于患者的提問給出了合理，科學(xué)的回答，而且根據(jù)不同的提問方式，還會(huì)根據(jù)患者的提問給出患者切實(shí)所需的答案。

四、結(jié)束語

本文研究了護(hù)士AI問答系統(tǒng)的相關(guān)知識(shí)技術(shù)，算法技術(shù)主要體現(xiàn)在文章檢索器，文章理解器，問答對(duì)檢索器，選擇器四個(gè)部分，在各部分實(shí)現(xiàn)的基礎(chǔ)上，進(jìn)一步將其整合起來，實(shí)現(xiàn)了高效，準(zhǔn)確的護(hù)士AI問答系統(tǒng)。該系統(tǒng)為患者提供可靠，及時(shí)的醫(yī)療知識(shí)服務(wù)，同時(shí)也為醫(yī)療服務(wù)行業(yè)與機(jī)器學(xué)習(xí)的發(fā)展結(jié)合提供了思路與參考。

參? 考? 文? 獻(xiàn)

[1]陳樂樂，黃松，孫金磊，惠戰(zhàn)偉，吳開舜.基于BM25算法的問題報(bào)告質(zhì)量檢測(cè)方法[J].清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2020，60（10）：829-836.

[2]田迎，單婭輝，王時(shí)繪.基于知識(shí)圖譜的抑郁癥自動(dòng)問答系統(tǒng)研究[J].湖北大學(xué)學(xué)報(bào)（自然科學(xué)版）. 2020（5）：587-591+596.

[3]吳炎，王儒敬.基于BERT的語義匹配算法在問答系統(tǒng)中的應(yīng)用[J].儀表技術(shù). 2020（6）：19-22+30.

[4]劉奕洋，余正濤，高盛祥，等.基于機(jī)器閱讀理解的中文命名實(shí)體識(shí)別方法[J].模式識(shí)別與人工智能.2020（7）：653-659.

[5]顧迎捷，桂小林，李德福，等.基于神經(jīng)網(wǎng)絡(luò)的機(jī)器閱讀理解綜述[J].軟件學(xué)報(bào).2020（7）：2095-2126.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機(jī)器閱讀理解模型的護(hù)士AI問答系統(tǒng)