国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

醫(yī)學文獻閱讀增強深度學習方法*

2023-10-23 02:58:16阮群生謝運煌柯漢平吳清鋒
計算機時代 2023年10期
關鍵詞:字符檢索卷積

阮群生,謝運煌,柯漢平,吳清鋒

(1.贛州師范高等??茖W校自然科學與計算機系,江西 贛州 341000;2.寧德師范學院信息與機電工程學院;3.廈門大學信息學院)

0 引言

隨著醫(yī)學水平的不斷提高,民眾的健康保健意識不斷增強。但受制于看病難和看病貴等問題,越來越多的民眾傾向于通過互聯(lián)網(wǎng)獲得第一手的醫(yī)學相關信息,然而,理解醫(yī)學專業(yè)知識是一件費時費力的事[1]。因此,網(wǎng)上出現(xiàn)了一些醫(yī)學問答社區(qū),如拇指醫(yī)生(https://muzhi.baidu.com),好大夫(https://www.Haodf.com),春雨醫(yī)生(https://www.Chunyuyisheng.com)等,對大多數(shù)問答做出高質(zhì)量的詮釋,可以幫助用戶理解專業(yè)知識。

本文對關鍵詞抽取/檢索[2-3]和深度學習[4-5]進行研究。目前,關鍵詞抽取及文本檢索的研究最具代表性的是TF-IDF[6]方法,該方法結(jié)合了詞頻和逆文檔頻率,對詞語的權重進行量化,易于計算,但也存在著語料庫依賴嚴重的問題。深度神經(jīng)網(wǎng)絡在計算機視覺和語音識別已取得突破性應用,特別是在文本檢索領域[7-8]。不同于排序?qū)W習方法,深度神經(jīng)網(wǎng)絡能夠自動提取查詢和文本內(nèi)容中的特征,相比于傳統(tǒng)的機器學習方法,它在復雜的學習任務上能表現(xiàn)出更強的學習能力。

本文針對一篇醫(yī)學文獻或一段醫(yī)學專業(yè)詞匯的描述文字,提出一種新穎的醫(yī)學文獻閱讀知識增強方法,方法的構(gòu)建步驟是:首先將文獻中的內(nèi)容或醫(yī)學專業(yè)詞匯描述文字劃分為不同的片段,并對片段中的關鍵詞做抽取,生成關鍵詞層級劃分樹;接著,基于片段對應的關鍵詞,設計基于注意力機制的卷積神經(jīng)網(wǎng)絡,藉此把片段關鍵詞與相關的醫(yī)學社區(qū)問答內(nèi)容(也稱醫(yī)學專業(yè)問答知識庫)進行融合學習和關聯(lián),根據(jù)關聯(lián)的Top 概率排名從問答知識庫提取知識,并把其鏈接到對應的文本片段。這樣能夠幫助缺乏醫(yī)學背景的用戶更好地了解到相關醫(yī)學背景知識,有助于患者對專業(yè)知識、專業(yè)文獻的了解,亦能幫助醫(yī)生對專業(yè)知識的拓展和加深理解。

1 醫(yī)學文獻閱讀增強方法

1.1 關鍵詞層級劃分樹(HST)設計

給定一篇醫(yī)學文獻或一段醫(yī)學專業(yè)文本內(nèi)容D,對于關鍵詞層級劃分樹(Hierarchy Selection Tree,HST)的設計如下。

首先,根據(jù)句子和段落邊界,將內(nèi)容D劃分為若干片段S={s1,s2,…,sk},其中片段si(1≤i≤k)可以由不同的句子或者段落構(gòu)成,這些片段均可使用文本分詞工具對其進行詞語的切割。經(jīng)切割后,每個片段可由若干個詞語構(gòu)成W={w1,w2,…,wh},進而使用word2vec 模型把切割得到的詞語wh轉(zhuǎn)化為特征向量表示。基于每個片段詞粒度的向量特征表示,在HST 結(jié)構(gòu)中,可以通過計算得到不同文本片段之間的相似度。具體為:給定兩個文本片段si,sj,其中si的詞語特征向集為{},sj的詞語特征向集為{},則可設任意si,sj兩個片段中詞語對的向量特征表示(),這里有1≤g≤m,1≤h≤n,本文采用余弦相似度方法計算文本片段之間的相似度SIM(si,sj),文本之間的相似度計算方法如式⑴所示。

接著,由式⑴計算出不同文本片段之間的相似度結(jié)果,再對不同片段進行聚類。例如,基于上述相似度的計算,可以將所有的文本片段聚為M個類,其中每個類pi都由若干個片段組成。為衡量類pi的聚類效果,使用式⑵所示的qi函數(shù)來評估,其中center表示qi的中心向量。

對于給定的k個文本片段S={s1,s2,…,sk},在HST,聚類個數(shù)為b(1≤b≤k-1),聚類結(jié)果是{p1,p2,…,pb}。為了得到劃分后的聚類效果最優(yōu)解f(k,b),可使用動態(tài)規(guī)劃算法。劃分任務的最優(yōu)子結(jié)構(gòu)的計算為式⑶所示。

其中,q(i,k)是類(片段i到片段k)的聚類效果。采用最優(yōu)子結(jié)構(gòu)的思想,k個文本片段劃分為M個類的問題就可以分解為將i-1個文本片段劃分為M-1個類的子問題。

在動態(tài)規(guī)劃之后,則可以使用數(shù)組Boundary 中的值通過回溯構(gòu)造k個文本片段。需要說明的是,該數(shù)組還包含用于將M個分區(qū)中分組為v(1 ≤v≤b-1)文本段的最佳聚類。因此,可以通過堆疊這些最佳聚類來獲得文本D的層次結(jié)構(gòu)。因此,葉子層是文本D劃分為M個類的最優(yōu)聚類,而其上一層將是文本D劃分為M-1個類的最優(yōu)聚類。如圖1所示顯示了從有關數(shù)據(jù)挖掘的真實文本文檔生成的聚類層次結(jié)構(gòu),被劃分為10 個文本片段,經(jīng)如動態(tài)算法調(diào)整后,文本片段亦可被劃分為{(s1,s2),(s3,s4),(s5,s6),(s7,…,s10)}四類,此時,文本聚類效果最優(yōu)。在每個級別中,只有其中一個節(jié)點被分成兩個,簇數(shù)在每一水平級中增加一個。因此,同現(xiàn)有工作相比,所提出的方法獲得了兩個明顯的好處。一是可保證結(jié)果是全局最優(yōu)解,而不是局部最優(yōu)解;二是可以通過運行動態(tài)規(guī)劃算法來構(gòu)建層次聚類,且一個文本D只需構(gòu)建一次層次結(jié)構(gòu)樹。層次結(jié)構(gòu)樹如圖1所示。

圖1 關鍵詞層級樹示例

基于文本片段構(gòu)建的層級樹結(jié)構(gòu),接著需對層級樹中每個結(jié)點進行關鍵詞抽取。與在關鍵詞抽取中經(jīng)常使用到的TFIDF 技術不同的是文中結(jié)合了語義網(wǎng)絡,借助獲得不同詞語之間的語義關系,從而提高關鍵詞抽取的準確率。首先,將樹中結(jié)點文本內(nèi)容中出現(xiàn)的詞語都表示為圖節(jié)點,用圖中邊的權重來表示不同詞語之間的關聯(lián)程度?,F(xiàn)設有詞語對(wi,wj),經(jīng)采用word2vec 模型轉(zhuǎn)化后的特征向量對(),詞語之間的關聯(lián)度計算如公式⑷:

其中,count(wi,wj)表示詞語wi和詞語wj在文本中共同出現(xiàn)的次數(shù),count(wi)和count(wj)分別表示它們單獨出現(xiàn)的次數(shù),λ為權重系數(shù)。

借助于語義圖,統(tǒng)計出每個節(jié)點中所有詞語對的連接邊權重之和,根據(jù)設定的閾值,把超過閾值權重之和為最高的詞語計入關鍵詞集合,之后,從語義網(wǎng)中剔除已被計入的關鍵詞,并在剩下的節(jié)點中重復挑選出權重之和最高的節(jié)點及其關聯(lián)程度高的節(jié)點作為一個關鍵詞組,直到形成K個關鍵詞組。遍歷層級樹中的所有結(jié)點做關鍵詞抽取,并將抽取出的關鍵詞組添加到層級樹中的每個結(jié)點中。通過簡單的層級樹,結(jié)合語義網(wǎng)絡抽取出來的關鍵詞,則可生成關鍵詞層級劃分樹HST。接著,需要為每一個文本片段生成查詢關鍵詞組合,首先在HST 中找到該片段對應的葉節(jié)點,為了保持針對文本片段內(nèi)容生成的查詢關鍵詞序列的全局性,自底向上遍歷所有的父節(jié)點,得到關鍵詞序列。例如,在圖1 中,結(jié)合文本片段S6內(nèi)容,遍歷結(jié)點1,2,5,9,可得到片段S6對應的關鍵詞查詢序列。

由上述分析可知,關鍵詞層級劃分樹通過文本內(nèi)容之間的相似度聚類得到不同的文本簇,并通過語義圖抽取出文本簇對應的關鍵詞,很大程度上提高了給定文本片段的關鍵詞提取效率,既能保證從文本內(nèi)容中提取查詢關鍵詞的局部性,又保留了關鍵詞的全局性。

1.2 醫(yī)學文獻閱讀增強模型

在前文論述基礎上,現(xiàn)假定某文本內(nèi)容中的一個片段對應的查詢內(nèi)容q和社區(qū)問答的文本內(nèi)容d,對它們進行處理,可得到對應的字符嵌入特征表示wq,wd。為了實現(xiàn)根據(jù)查詢內(nèi)容q從文本內(nèi)容d中提取相似度最吻合的問答知識內(nèi)容,文中將設計一個醫(yī)學知識理解增強輔助系統(tǒng)來完成知識提取的任務。

如圖2所示,首先向系統(tǒng)輸入一個醫(yī)學文本D,系統(tǒng)將文檔分層地分割成連貫的文本片段D={s1,s2,…,sk}。之后由系統(tǒng)相應的功能模塊對文本片段進行特征向量化、相似度計算等初始化操作;接著再由K-Means方法、動態(tài)規(guī)劃算法和語義網(wǎng)絡對文本的分割片段進行聚類,并建立關鍵詞HST 樹,通過HST 的樹形層次結(jié)構(gòu),抽取具有局部和全局信息特征的查詢關鍵詞序列;最后,由系統(tǒng)中l(wèi)wCNN 模塊完成以查詢關鍵詞序列為信息檢索條件,向Q&A知識庫提取排名順序的問答內(nèi)容,并將它附加到醫(yī)學文本D中,以此幫助用戶達到增強對醫(yī)學專業(yè)知識理解的目的。

圖2 醫(yī)學文獻閱讀增強模型整體邏輯結(jié)構(gòu)

1.2.1 卷積神經(jīng)網(wǎng)絡主體結(jié)構(gòu)設計

卷積神經(jīng)網(wǎng)絡是一種具有局部連接,權重共享等特性的前饋神經(jīng)網(wǎng)絡,在特征表達方面相比于人工設計特征具有更強的判別能力和泛化能力。它最早被應用在計算機視覺領域,隨后逐步擴展到自然語言處理和語音識別等領域。卷積神經(jīng)網(wǎng)絡在處理文本時,通過設置卷積核的不同寬度和高度,能夠有效捕捉到多個連續(xù)字詞之間的特征,在文本分類等任務上都有重要的應用,例如,TextCNN,DCNN 等深度卷積網(wǎng)絡類型的方法被廣泛地用于文本處理中,且取得了很好的應用效果[9]。

基于CNN 在文本特征提取上的優(yōu)越性,本文在卷積層應用了多個卷積核。為了構(gòu)造tri-gram特征,本文采用了大小為3 的滑動窗口,構(gòu)造了卷積核h∈R3*k,其中k是對應字符嵌入向量的維度大小。因此,對于給定字符嵌入向量wq,wd和一組卷積核{h1,h2,…,hm},卷積層輸出Q,D的計算如式⑸所示。

醫(yī)學文本處理的網(wǎng)絡卷積層結(jié)構(gòu)設計為如圖3所示的網(wǎng)絡。

圖3 醫(yī)學文本處理的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)

1.2.2 基于卷積神經(jīng)網(wǎng)絡的注意力機制網(wǎng)絡設計

基于HST 形成的關鍵詞查詢q和文本內(nèi)容d,有針對性地在基于卷積神經(jīng)網(wǎng)絡中加入注意力機制模塊,以實現(xiàn)對查詢相關內(nèi)容更好、更準確地搜索,本文把融入注意力機制模型的卷積神經(jīng)網(wǎng)絡稱為lwCNN。對于給定查詢q和社區(qū)問答文本內(nèi)容d,lwCNN 首先獲取q,d的字符嵌入特征表示wq,wd,通過卷積神經(jīng)網(wǎng)絡和注意力機制對wq,wd提取抽象特征Aq,Ad,最后計算得到q和d之間的相關程度rel(q,d)。lwCNN 模塊的邏輯結(jié)構(gòu)如圖4所示。

圖4 lwCNN模塊

傳統(tǒng)的卷積神經(jīng)網(wǎng)絡在卷積層操作之后,直接使用池化層,如最大池和平均池,對卷積層提取出來的特征向量在字詞級做進一步處理。這樣的池化操作簡單地將所有字詞權重都等同起來,只取特征的最大化或平均表示,不能有效地將所有信息都利用起來。不同于傳統(tǒng)的池化操作,lwCNN 考慮到文本中的每個字符占比不一致的問題,用注意力機制獲得權重向量來表示每個字符對整個文本的影響作用。因而,基于給定的權重向量以及卷積層的特征向量表示,lwCNN計算得到最終特征向量表示。

lwCNN 中的注意力機制基于雙向長短時記憶網(wǎng)絡(Bi-LSTM),給定一組特征向量表示,能夠得到相應位置的權重大小。Bi-LSTM 由前向LSTM 和后向LSTM 共同組成,它是循環(huán)神經(jīng)網(wǎng)絡(RNN)的一種變形,其通過記憶細胞,有選擇性記憶前后文信息,從而更準確獲得該位置的上下文信息。LSTM 模型包括隱層狀態(tài)h,遺忘門f,記憶門i和輸出門o,對于給定輸入xt,它的計算過程如式⑹所示。

給定輸入序列(x1,x2,…,xm),Bi-LSTM 通過前后向遍歷文本序列,連接前向LSTM 隱藏層狀態(tài)∈Rm*c和后向LSTM 隱藏層狀態(tài)∈Rm*c,最后輸出h∈Rm*2c。其計算方法如式⑺所示。

在注意力機制中,本文采用點積模型[8],通過構(gòu)造參數(shù)矩陣U∈R2c*1,使用Softmax函數(shù)計算得到字符集的權重向量S∈Rm*1,其算式如下:

接下來,重點介紹圖4 中的rel(q,d)的計算方法,具體為:

對于給定查詢q和社區(qū)問答d對應的卷積層輸出Q,D,lwCNN通過注意力機制計算得到權重向量Sq,Sd,并得到最后的特征向量表示Aq,Ad。其算式如下:

lwCNN 采用余弦相似度作為相似度的衡量標準,因而對于查詢和問答內(nèi)容他們最后相關度rel(q,d)的計算公式如下:

1.2.3 字符嵌入模塊設計

為了將查詢內(nèi)容擴展到醫(yī)學領域,同時解決傳統(tǒng)分詞工具對專業(yè)醫(yī)學術語的錯分現(xiàn)象,本文提出了字符嵌入的特征表示。對于給定的文本內(nèi)容,將文本內(nèi)容劃分為一個個漢字,并對漢字進行向量特征表示的學習?;趙ord2vec 模型,本文設計的字符嵌入學習模型主要有兩種:CBOW模型,Skip-gram模型,它們都采用了三層神經(jīng)網(wǎng)絡結(jié)構(gòu),輸入層,輸出層和隱藏層。CBOW 模型通過上下文字符來預測中間字符,例如,當上下文取值為4,輸出層輸入前后8 個字符,輸出層輸出所有字符對應的Softmax 概率。為了最大化中間字符對應的概率值,本文通過反向傳播算法不斷訓練神經(jīng)網(wǎng)絡的參數(shù)并更新字符對應的向量。Skip-gram模型則使用中間字符來預測上下文字符。

1.2.4 損失函數(shù)設計

給定標注了相關性的訓練集,本文對lwCNN 網(wǎng)絡進行訓練。對于一個查詢q,將標注為相關的社區(qū)問答內(nèi)容作為d+,不相關的社區(qū)問答內(nèi)容作為d-。通過lwCNN,本文計算得到查詢和回答內(nèi)容之間的相關性分別為rel(q,d+)和rel(q,d-)。為了提高網(wǎng)絡對相關性判別的能力,可最大化rel(q,d+)和rel(q,d-)之間的差距,以此來增大相關內(nèi)容對應的相關度rel(q,d+),減小不相關內(nèi)容的相關度rel(q,d-)。損失函數(shù)構(gòu)建如下:

其中,margin是設定的最小差距。對于數(shù)據(jù)中的所有查詢,本文最大化相關正樣本與不相關負樣本的相關度差距,使用梯度下降算法使得損失函數(shù)的值降到最低,不斷優(yōu)化模型的參數(shù),從而得到lwCNN 模型參數(shù)用于驗證集和測試集的預測。

2 模型實驗

2.1 數(shù)據(jù)集

為了驗證lwCNN 模型在醫(yī)學領域的檢索效果,選用數(shù)據(jù)集cMed[10]作為文中模型的實驗測試數(shù)據(jù),該數(shù)據(jù)集的采集來自于醫(yī)學問答社區(qū)網(wǎng)和尋醫(yī)問藥網(wǎng)。用戶可以在網(wǎng)站社區(qū)提問,具有認證資格的醫(yī)生可以針對用戶的問題進行回答。該數(shù)據(jù)集一共收集了54000 個問題和101743 個答案,并對這些問題和答案都做了相關性標注。該數(shù)據(jù)集分為訓練集、測試集和驗證集。詳細信息如表1所示。

表1 cMed數(shù)據(jù)集信息

2.2 模型評估指標

為科學客觀評估模型的質(zhì)量,選用P@5,MAP 和MRR 三個指標來衡量模型對于實驗數(shù)據(jù)集的檢索效果。P@5 能夠衡量檢索答案的精確率,對于大小為size的問題集合Q中的每個問題,統(tǒng)計前5個檢索結(jié)果中相關結(jié)果的數(shù)目count,其計算方法如式⑿所示。

MAP 是精確率AP 的平均結(jié)果。對于大小為size的問題集合Q中的每個問題,獲得所有相關結(jié)果的排序(p1,p2,…,pn)。通過計算每個問題的AP,MAP 的計算方法如式(13)所示。

MRR將排序結(jié)果的倒數(shù)作為其準確率,對于大小為size的問題集合Q中的每個問題,獲得第一個相關結(jié)果的位置p,MRR指標的計算公式如式⒁。

2.3 實驗結(jié)果及分析

為了驗證lwCNN 在中文醫(yī)學文本檢索的性能,本項研究就基于層次樹動態(tài)文本分割模塊和文本特征注意力模型兩個方面,分別執(zhí)行了多組消融實驗。最后,開展了文中模型同傳統(tǒng)的BM25、TF-IDF 模型、Bi-LSTM、CNN 以及其他優(yōu)秀的基準算法的對比實驗,并對實驗結(jié)果進行定量與定性分析。

2.3.1 注意力機制的影響實驗

為了探究注意力機制對lwCNN 的影響,在實驗數(shù)據(jù)集上,分別執(zhí)行了CNN 和lwCNN 兩種網(wǎng)絡模型的信息檢索能力。不同于lwCNN,CNN對給定字符嵌入表示,通過卷積操作和最大池化操作,得到相應的特征表示。而lwCNN通過注意力機制,融合了句子中字符的權重,能得到更為精確的特征表示。實驗結(jié)果如表2所示。

從實驗結(jié)果可以發(fā)現(xiàn),本文的lwCNN 在p@5,MAP和MRR指標值上均有1.5%,5.4%和4.6%左右的提升。這表明,注意力機制有效地利用了所有文本的特征信息,通過計算字符的權重,能幫助卷積神經(jīng)網(wǎng)絡提取更合適的特征表達,從而提高關鍵詞檢索的性能。

2.3.2 與傳統(tǒng)文本檢索方法對比

首先,為了驗證神經(jīng)網(wǎng)絡對于檢索性能提高的影響,本文對比了傳統(tǒng)文本檢索方法的實驗效果。在傳統(tǒng)的文本檢索方法中,選取了應用較為廣泛的BM25以及TF-IDF 算法作基準方法。這些基準方法的檢索是對語料信息進行統(tǒng)計分析,在文本檢索任務上都表現(xiàn)出了較為出色的性能。

BM25 采用了相關度計算公式來表征問題和文本之間的相關性,考慮了查詢中每個語素qi的權重wi,每個語素qi與文本d的相關性R(qi,d)以及文本的長度dl三方面因素,計算公式如下:

其中,k1,b為調(diào)節(jié)參數(shù)。TF-IDF 模型對于給定語料庫,首先對文本進行分詞,詞干提取,去除停用詞等操作。然后通過統(tǒng)計詞頻和逆文檔頻率,將問題和文本都表示為TF-IDF 組成的向量,通過計算余弦相似度,來統(tǒng)計它們之間的相關性。

傳統(tǒng)的文本檢索方法只需統(tǒng)計文本中的詞頻、逆文檔頻率、文檔長度等信息,因此對于BM25 公式,本文設置的參數(shù)為:k1=2,b=0.75;對TF-IDF 方法,本文計算語料中詞語的TF-IDF 值,以此來表示文本對應的TF-IDF 向量,并按照相關度進行排序。最終得到的實驗結(jié)果如表3所示。

從表3 中可以看出,BM25 和TF-IDF 算法的實驗結(jié)果則較為相近,沒有明顯差別。而lwCNN 相比這兩種傳統(tǒng)的檢索方法,有著明顯的優(yōu)勢。在p@5 上,lwCNN 提高了約5%。在MAP 和MRR 兩個指標上,則分別提高了約11%和9%。因此,lwCNN 相比于傳統(tǒng)的文本檢索方法,檢索性能有大幅度的提高。它解決了傳統(tǒng)文本檢索方法忽略文字之間語義關系的問題,能得到更準確的文本相關度。

2.3.3 與深度網(wǎng)絡算法對比

為進一步探究lwCNN 與其他深度網(wǎng)絡算法或模型的不同檢索效果,本文選用Bi-LSTM、文獻[11]、文獻[12]中的方法作為對比神經(jīng)網(wǎng)絡模型。

Bi-LSTM 通過對上下文信息進行有選擇性的記憶,能基于上下文提取出長文本中的重要信息,為文本內(nèi)容提供了更豐富的特征表示。給定數(shù)據(jù)集,本文先基于字符嵌入將問題和文本都表示為特定的向量,然后分別輸入上述三個基準模型以及l(fā)wCNN 網(wǎng)絡中,得到相應的特征向量后計算余弦相似度來表示它們之間的相關性。基于相關性排序結(jié)果,本文評估這兩種網(wǎng)絡在數(shù)據(jù)集上的檢索性能。

本次實驗中,本文首先對數(shù)據(jù)集的語料信息進行預處理,得到查詢和文本內(nèi)容的字符嵌入向量。因此,結(jié)合數(shù)據(jù)集中的字符統(tǒng)計信息,本文把問題的字符長度固定為100,答案的字符長度固定為200,并設置特征向量的維度為50。對于Bi-LSTM 網(wǎng)絡,本文設置該網(wǎng)絡的隱藏層單元數(shù)為100。在lwCNN 網(wǎng)絡中,卷積核的數(shù)目被設定為128?;趦煞N網(wǎng)絡的相似度排序結(jié)果,本文通過多組實驗得到對比結(jié)果如表4所示。

表4 與神經(jīng)網(wǎng)絡對比實驗結(jié)果

表4 顯示,Bi-LSTM 網(wǎng)絡在檢索性能方面明顯弱于lwCNN,其他優(yōu)秀的改進模型檢索質(zhì)量同本文模型較為接近。從實驗結(jié)果來分析可得知:由于受到中文醫(yī)學文本的特性所影響,在中文醫(yī)學文本中,句子中的上下文信息往往不夠明顯,長距離下文字之間的關聯(lián)性較弱;而句子中連續(xù)的字詞之間則有明顯的聯(lián)系。因此,使用卷積神經(jīng)網(wǎng)絡捕捉連續(xù)字詞之間的關系,往往能獲取更好的局部特征表示。

綜合分析上述三組實驗,可以得知:

⑴傳統(tǒng)的BM25和TF-IDF在各項實驗結(jié)果上的表現(xiàn)都比較差,相比之下,加入了神經(jīng)網(wǎng)絡之后的模型,如Bi-LSTM,CNN 以及l(fā)wCNN,在各項指標下都有明顯的優(yōu)勢。

⑵相對于Bi-LSTM 經(jīng)典及其他改進的優(yōu)秀神經(jīng)網(wǎng)絡模型,lwCNN有更好的檢索效果。

⑶去除了注意力機制的lwCNN,在各項檢索性能上都出現(xiàn)了下滑。

⑷lwCNN在所有的實驗方法中表現(xiàn)性能最佳。

上述實驗結(jié)果亦表明:lwCNN 能夠在問答知識庫中準確地檢索出與查詢問題高度相關解答內(nèi)容,且在cMed數(shù)據(jù)集上表現(xiàn)出良好的性能。

3 結(jié)束語

本文提出關鍵詞劃分樹(HST)和基于注意力機制的卷積神經(jīng)網(wǎng)絡(lwCNN),分別用于醫(yī)學文本的關鍵內(nèi)容抽取和社區(qū)醫(yī)學問答內(nèi)容的檢索。針對給定的醫(yī)學文獻,HST 將文獻內(nèi)容劃分為不同的片段,并對片段進行關鍵詞抽取。對于給定片段形成的關鍵詞查詢,lwCNN 檢索相關醫(yī)學問答內(nèi)容鏈接到相關片段上。實驗證明,lwCNN 能有效地檢索出相關醫(yī)學問答內(nèi)容。結(jié)合關鍵詞劃分樹,本文方法有助于用戶醫(yī)學文獻的閱讀及醫(yī)學專業(yè)知識學習,一定程度上給用戶帶來更好的閱讀體驗,促進其對智能醫(yī)學相關管理系統(tǒng)的黏性。未來,將進一步優(yōu)化內(nèi)容檢索模型,提高檢索性能,擴大醫(yī)學專業(yè)知識檢索庫,采用Transformer等優(yōu)秀的大型預訓練模型,來提升醫(yī)學社區(qū)問答內(nèi)容檢索的精度。

猜你喜歡
字符檢索卷積
尋找更強的字符映射管理器
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
字符代表幾
一種USB接口字符液晶控制器設計
電子制作(2019年19期)2019-11-23 08:41:50
2019年第4-6期便捷檢索目錄
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
消失的殖民村莊和神秘字符
基于傅里葉域卷積表示的目標跟蹤算法
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
電視技術(2014年19期)2014-03-11 15:38:20
临夏市| 桦川县| 武城县| 济宁市| 扬州市| 淮南市| 甘肃省| 四平市| 鹤峰县| 西峡县| 营口市| 云梦县| 千阳县| 白山市| 平江县| 马关县| 图木舒克市| 毕节市| 滦南县| 凉山| 航空| 新营市| 龙井市| 新沂市| 普兰县| 崇州市| 彭泽县| 清徐县| 马公市| 信阳市| 台湾省| 建宁县| 宜良县| 抚宁县| 通州市| 临湘市| 甘谷县| 教育| 陕西省| 洛南县| 嘉鱼县|