国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Albert模型的民族醫(yī)藥知識(shí)圖譜構(gòu)建*

2022-09-07 12:52唐東昕
計(jì)算機(jī)時(shí)代 2022年9期
關(guān)鍵詞:醫(yī)藥圖譜實(shí)體

李 晴,唐東昕,賀 松

(貴州大學(xué)醫(yī)學(xué)院,貴州 貴陽 550025)

0 引言

中華文化博大精深,源遠(yuǎn)流長。在醫(yī)療救治的發(fā)展過程中,五十六個(gè)民族形成了各具民族特色的防病治病的醫(yī)療方劑和用藥經(jīng)驗(yàn)。具有鮮明的地域性和民族性的中國少數(shù)民族醫(yī)藥是經(jīng)過古人不斷切身實(shí)踐和數(shù)千次的經(jīng)驗(yàn)?zāi)鄱?,是中華文化的瑰寶之一。然而有關(guān)民族醫(yī)藥的信息化資源非常稀少,只有古籍醫(yī)書記載,不便于學(xué)習(xí)和整理。將民族醫(yī)藥進(jìn)行實(shí)體抽取,構(gòu)建民族醫(yī)藥知識(shí)圖譜,可以方便查詢方劑的治療功效以及清楚地了解其中的關(guān)聯(lián),便于醫(yī)護(hù)人員和研究人員高效地學(xué)習(xí),對其進(jìn)行規(guī)范性整理和保護(hù),彰顯其民族特色,有助于推動(dòng)民族醫(yī)藥的發(fā)展和傳承。

1 研究現(xiàn)狀

在人工智能領(lǐng)域中,對于醫(yī)學(xué)知識(shí)圖譜的構(gòu)建始終是國內(nèi)外的研究熱點(diǎn)。高效地將知識(shí)圖譜應(yīng)用于醫(yī)學(xué)領(lǐng)域?qū)⒔o人類的醫(yī)療衛(wèi)生帶來革命性的變化。張雨琪等人詳細(xì)地介紹了現(xiàn)有的中醫(yī)藥知識(shí)圖譜,并以知識(shí)圖譜的構(gòu)建過程為主線,闡述了構(gòu)建技術(shù)如何根據(jù)領(lǐng)域特點(diǎn)應(yīng)用于中醫(yī)藥知識(shí)圖譜,以及其應(yīng)用進(jìn)展。北京大學(xué)計(jì)算語言學(xué)研究所發(fā)布的中文醫(yī)學(xué)知識(shí)圖譜CMeKG(Chinese Medical Knowledge Graph),其規(guī)模龐大,涉及醫(yī)學(xué)文本范圍廣泛。然而對于民族醫(yī)藥知識(shí)圖譜構(gòu)建卻寥寥無幾,因此為保護(hù)民族醫(yī)藥的傳承和推進(jìn)其不斷發(fā)展,構(gòu)建民族醫(yī)藥知識(shí)圖譜有非常重要的意義。

知識(shí)圖譜是谷歌于2012 年正式提出,主要目的是為了提升谷歌的搜索質(zhì)量和搜索性能。知識(shí)圖譜的定義:“A knowledge graph consists of a set of interconnected typed entities and their attributes.”即知識(shí)圖譜是由一組相互連接的類型化實(shí)體及其屬性組成。知識(shí)圖譜(Knowledge Graph,KG)作為一種用圖模型描述知識(shí)和建模世界萬物之間關(guān)聯(lián)關(guān)系的方法,通過一系列形如<頭實(shí)體,關(guān)系,尾實(shí)體〉的三元組對知識(shí)進(jìn)行結(jié)構(gòu)化表示。通過構(gòu)建知識(shí)圖譜的方式,可以綜合分析民族醫(yī)藥方劑的治療過程,對于理解民族醫(yī)藥方劑理論,提供了高效的學(xué)習(xí)途徑。

2 方法與結(jié)果

2.1 民族醫(yī)藥數(shù)據(jù)處理

由于民族醫(yī)藥記載于古醫(yī)藥典中,因此需要將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),有關(guān)數(shù)據(jù)是選取于賈敏如、李星煒的《中國民族藥志要》,這本書主要涉及到44 個(gè)用藥民族,記載的藥物總共達(dá)5500 余種,民族醫(yī)藥的地域性非常明顯,其記載主要是按照如下順序:①使用的民族;②該族用的藥名或者藥物別名;③明確的藥用部位;④藥物具有正確的生物學(xué)名稱;⑤該藥物在本民族中的使用功能和主治效果。這種記載方式為后序提取文字節(jié)省精力,也便利了后序數(shù)據(jù)的整理和標(biāo)注。

數(shù)據(jù)提取后整理成文本格式,刪除無效重復(fù)的數(shù)據(jù),修改錯(cuò)誤的數(shù)據(jù),補(bǔ)充缺失的數(shù)據(jù),對于中英文符號(hào)進(jìn)行正確的轉(zhuǎn)換,清理文本中的停用詞以及無效字段,總共設(shè)置了如下的實(shí)體字段,具體說明見表1。

表1 民族醫(yī)藥數(shù)據(jù)字段說明

基于上述的操作,使用doccano 開源的文本標(biāo)注工具進(jìn)行標(biāo)注。doccano主要可以進(jìn)行文本分類,序列標(biāo)注,以及序列到序列標(biāo)注等比較常用的標(biāo)注功能。民族醫(yī)藥數(shù)據(jù)集屬于文本命名實(shí)體標(biāo)注范疇,對民族醫(yī)藥語料逐一進(jìn)行標(biāo)注。民族醫(yī)藥語料標(biāo)注完成后,將數(shù)據(jù)集按照70%,20%,10%的比例隨機(jī)劃分為訓(xùn)練集,測試集和驗(yàn)證集,導(dǎo)出的數(shù)據(jù)使用相關(guān)代碼轉(zhuǎn)換為BIO三元標(biāo)注方式。

2.2 基于Albert-BiLSTM-CRF模型實(shí)體識(shí)別過程

2.2.1 Albert-BiLSTM-CRF模型架構(gòu)

Albert-BiLSTM-CRF 模型是進(jìn)行民族醫(yī)藥專業(yè)術(shù)語的實(shí)體提取,主要包含:數(shù)據(jù)輸入層,Albert 預(yù)訓(xùn)練語言模型,BiLSTM 層,CRF 層,最終是輸出層。如圖1所示。

圖1 Albert-BiLSTM-CRF模型

第一層:將預(yù)處理好的民族醫(yī)藥數(shù)據(jù)轉(zhuǎn)換為BIO格式數(shù)據(jù)輸入到模型中。

第二層:數(shù)據(jù)通過Albert預(yù)訓(xùn)練語言模型,將文本轉(zhuǎn)化為動(dòng)態(tài)向量,實(shí)現(xiàn)字符向量化。

第三層:BiLSTM 層通過獲取前后向相關(guān)的語義信息進(jìn)行更深一步的語義編碼,提取文本特征,經(jīng)過深層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,給出文本中各對應(yīng)標(biāo)簽的權(quán)重。

第四層:CRF 層根據(jù)BiLSTM 層輸出的每個(gè)實(shí)體類別標(biāo)簽的概率來自動(dòng)學(xué)習(xí)句子的約束條件,通過考慮文本標(biāo)簽間的相關(guān)性輸出概率最大的的實(shí)體標(biāo)簽序列,獲得全局最優(yōu)的標(biāo)簽實(shí)體。

第五層:通過CRF 層輸出的概率最大的實(shí)體標(biāo)注序列來提取出民族醫(yī)藥文本中對應(yīng)的實(shí)體。

2.2.2 ALBERT模型

BERT模型是谷歌于2018年提出,推動(dòng)了自然語言處理領(lǐng)域的發(fā)展。BERT 是基于Transformer的雙向編碼表示的深度學(xué)習(xí)框架模型,Transformer 模型使用的是編碼器和解碼器的架構(gòu),編碼器是由多個(gè)網(wǎng)絡(luò)層疊加形成,其中主要包含多頭自注意力機(jī)制層和前反饋網(wǎng)絡(luò)層,這兩層又分別添加了Add&Norm 殘差模塊,將這一層的輸入信息加上輸出信息進(jìn)行數(shù)據(jù)的歸一化處理和網(wǎng)絡(luò)子層的連接。BERT 模型使用Attention 機(jī)制能有效捕捉語句之間的雙向關(guān)系,由于BERT 模型的參數(shù)量龐大,模型訓(xùn)練時(shí)間周期長,因此谷歌又推出了相較于BERT,參數(shù)量大幅度削減,輕量級(jí)的Albert模型。

Albert 模型主要是通過以下兩種方法降低模型的參數(shù)量,同時(shí)對其性能沒有造成明顯的影響。第一種方法是參數(shù)因式分解,BERT模型中的Embedding size和Hidden size是相等的,即Transformer中的輸入和輸出維度,而Albert模型中,對于詞嵌入?yún)?shù)進(jìn)行了因式分解,將E 和H 分開設(shè)定,把原本的V*H 的大矩陣分解成了兩個(gè)小矩陣,將詞映射到低維Embedding空間E,再投影到高維隱藏空間H,則詞嵌入?yún)?shù)量從O(V*H)降低為O(V*E+E*H),當(dāng)H 遠(yuǎn)遠(yuǎn)大于E 時(shí),參數(shù)量削減非常明顯。第二種方法是跨層參數(shù)共享,BERT 模型中Transformer 每一層的參數(shù)都是獨(dú)立的,而Albert模型中,采用的是共享所有層的所有參數(shù),再次大量縮減參數(shù)量,同時(shí)有效地提高了模型的穩(wěn)定性。

Albert 模型還更改了BERT 模型中的一個(gè)子任務(wù)Next Sentence Prediction,即預(yù)測下一句損失,但由于下一句預(yù)測把主題預(yù)測和連貫性預(yù)測結(jié)合到文本任務(wù)中,而模型會(huì)傾向于關(guān)注主題來預(yù)測,并且主題預(yù)測更簡單,因此Albert 模型換成了Sentence Order Prediction,即句間連貫性預(yù)測,避免預(yù)測主題,只關(guān)注句子之間的連貫性,SOP 獲取的正負(fù)樣本均取自同一文本,正樣本是兩個(gè)連貫的語句,負(fù)樣本是交換正樣本中的兩個(gè)連貫語句的順序,SOP 只專注于預(yù)測句子之間的連貫性,使得模型能夠?qū)W習(xí)到更細(xì)粒度的區(qū)分,Albert 模型顯著地提升了下游多句子編碼任務(wù)的性能。

2.2.3 BiLSTM-CRF模型

BiLSTM-CRF 模型是由前后向LSTM 和CRF 兩個(gè)模型組合而形成的,其模型結(jié)構(gòu)如圖2所示。

圖2 BiLSTM-CRF模型

2.3 ALBBC模型實(shí)驗(yàn)配置參數(shù)

2.3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所采用的環(huán)境如表2所示。

表2 實(shí)驗(yàn)環(huán)境

2.3.2 Albert-BiLSTM-CRF模型參數(shù)

Albert-BiLSTM-CRF模型的實(shí)驗(yàn)參數(shù)如表3所示。

表3 模型參數(shù)

2.3.3 實(shí)驗(yàn)結(jié)果分析

基于模型的參數(shù)配置,圖3展示的是模型的epoch為30 時(shí),loss 和accuracy 的變化曲線,其中訓(xùn)練集和驗(yàn)證集的loss基本同步下降,趨于平穩(wěn),準(zhǔn)確率也同步提升,訓(xùn)練集略微高于驗(yàn)證集,說明數(shù)據(jù)在訓(xùn)練集和測試集中是同分布的,在訓(xùn)練集中學(xué)習(xí)到的目標(biāo)特征適用于測試集,通過loss變化曲線不斷優(yōu)化模型超參數(shù),最終得到適用于數(shù)據(jù)集對應(yīng)的最優(yōu)參數(shù)。

圖3 ALBBC模型loss和accuracy變化曲線

實(shí)驗(yàn)采用評價(jià)指標(biāo)分別是精確率(Precision),召回率(Recall)和F1 值(F1-Score)來評判民族醫(yī)藥實(shí)體的識(shí)別效果,不同實(shí)體識(shí)別的效果如表4所示。

表4 實(shí)體抽取結(jié)果(單位:%)

同時(shí)為了對比本模型的有效性,選取了以下模型進(jìn)行對比,取值均是經(jīng)過多次實(shí)驗(yàn),取其平均值而得,如表5所示。

表5 不同模型的結(jié)果對比(單位:%)

表5 中展現(xiàn)了CRF,雙向LSTM,BiLSTM-CRF 模型,Albert-BiLSTM 模型和Albert-BiLSTM-CRF 模型的P、R、F1 值。由模型實(shí)驗(yàn)對比結(jié)果可以得出,機(jī)器學(xué)習(xí)方法結(jié)果最低,BiLSTM-CRF 模型從上下文信息中高效地提取文本特征,加入Albert模型,識(shí)別效果有進(jìn)一步提升,最終Albert-BiLSTM-CRF模型可以高效實(shí)現(xiàn)命名實(shí)體識(shí)別。

2.4 民族醫(yī)藥知識(shí)圖譜存儲(chǔ)及可視化

2.4.1 Neo4j圖數(shù)據(jù)庫

Neo4j是高性能的NoSQL 數(shù)據(jù)庫,同時(shí)也是目前主流數(shù)據(jù)庫中使用率較高的圖數(shù)據(jù)庫之一。Neo4j圖數(shù)據(jù)庫具備對事物的支持特性,能夠?qū)?shù)據(jù)的存儲(chǔ)進(jìn)行橫向擴(kuò)展,查詢語言使用Cypher并且具備強(qiáng)大的圖形搜索能力。Neo4j圖數(shù)據(jù)庫主要存儲(chǔ)數(shù)據(jù)的節(jié)點(diǎn)和“關(guān)系”,節(jié)點(diǎn)可以附帶零個(gè)或多個(gè)屬性值和“關(guān)系”,“關(guān)系”是用戶自定義實(shí)體之間的關(guān)系。

2.4.2 民族醫(yī)藥知識(shí)圖譜展示

將模型抽取的實(shí)體存儲(chǔ)為CSV 格式,利用Python中py2neo 模塊,將其導(dǎo)入Neo4j 中,通過Cypher LOAD CSV 讀取數(shù)據(jù),在Neo4j 中直觀地展示民族醫(yī)知識(shí)圖譜,如圖4 所示。在Neo4j 中使用Cypher 查詢語句:

圖4 部分民族醫(yī)藥圖譜展示

其中,n1,n2 是節(jié)點(diǎn),rel 是節(jié)點(diǎn)之間的關(guān)系,where 是過濾條件,根據(jù)自己需要查詢的信息進(jìn)行篩選,return是返回需要的信息。

3 結(jié)束語

本文圍繞民族醫(yī)藥知識(shí)圖譜的構(gòu)建展開,主要基于Albert-BiLSTM-CRF 模型對數(shù)據(jù)集進(jìn)行命名實(shí)體識(shí)別,實(shí)體表示知識(shí)圖譜的節(jié)點(diǎn),并自定義節(jié)點(diǎn)之間的關(guān)系,最終,通過Neo4j 實(shí)現(xiàn)民族醫(yī)藥知識(shí)圖譜可視化。由于Albert 模型需要大量的數(shù)據(jù)來進(jìn)行訓(xùn)練,而民族醫(yī)藥的數(shù)據(jù)是非結(jié)構(gòu)化的,數(shù)據(jù)集有限,因此準(zhǔn)確率還有待提高,本實(shí)驗(yàn)還存在不足之處,例如還可利用知識(shí)圖譜構(gòu)建民族醫(yī)藥的智能問答系統(tǒng),在此領(lǐng)域上延伸民族醫(yī)藥的學(xué)習(xí),挖掘更多的專業(yè)問題,更好地為學(xué)習(xí)民族醫(yī)藥提供更加高效的渠道,同時(shí)有助于積極推進(jìn)民族醫(yī)藥現(xiàn)代化傳承與創(chuàng)新研究。

猜你喜歡
醫(yī)藥圖譜實(shí)體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
傳統(tǒng)醫(yī)藥類非遺
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
醫(yī)藥下一個(gè)十年 創(chuàng)新為王
《中國當(dāng)代醫(yī)藥》來稿要求
《中國當(dāng)代醫(yī)藥》來稿要求
岳西县| 威海市| 民乐县| 都兰县| 梁山县| 专栏| 西宁市| 东平县| 丘北县| 孝义市| 巫溪县| 枣强县| 灵璧县| 浠水县| 兴义市| 平塘县| 乡城县| 桑日县| 温泉县| 栾城县| 孟村| 正宁县| 林芝县| 县级市| 巴南区| 大余县| 大同县| 定结县| 阿鲁科尔沁旗| 凤台县| 靖边县| 罗源县| 井陉县| 峡江县| 同心县| 阜城县| 辽源市| 翼城县| 乌苏市| 泸州市| 南丹县|