国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

評(píng)測(cè)縱覽:面向“基因-疾病”的關(guān)聯(lián)語義挖掘任務(wù)*

2022-02-13 11:37歐陽思卓姚昕智王宇星彭錢錢賀芷涵夏靜波
醫(yī)學(xué)信息學(xué)雜志 2022年12期
關(guān)鍵詞:語料庫語義實(shí)體

歐陽思卓 姚昕智 王宇星 彭錢錢 賀芷涵 夏靜波

(1 華中農(nóng)業(yè)大學(xué)信息學(xué)院 武漢 430070 2 華中農(nóng)業(yè)大學(xué)農(nóng)業(yè)生物信息學(xué)湖北省重點(diǎn)實(shí)驗(yàn)室 武漢 430070)

1 引言

1.1 AGAC語料庫設(shè)計(jì)目的和標(biāo)注過程

1.1.1 設(shè)計(jì)目的 活躍基因注釋語料庫(Active Gene Annotation Corpus,AGAC)是針對(duì)具有改變中心功能變化的基因標(biāo)注問題設(shè)計(jì)的[1]?!肮δ茏兓钡亩x源自于對(duì)功能喪失(Loss of Functio,LOF)和功能獲得(Gain of Function,GOF)的聚焦和一個(gè)直觀的藥理學(xué)假設(shè)[2]:如果一個(gè)基因突變后功能喪失或者功能獲得引起某種疾病,則針對(duì)LOF/GOF突變基因的拮抗劑或者激動(dòng)劑很有可能成為該疾病的特效藥物。

1.1.2 語料庫標(biāo)注 AGAC語料庫由1名主標(biāo)注員和3名副標(biāo)注員歷時(shí)17個(gè)月標(biāo)注完成,語料庫中包含了從PubMed收集的500篇人工注釋摘要,挑選了8個(gè)觸發(fā)詞實(shí)體,涵蓋從分子水平到細(xì)胞水平的生物現(xiàn)象和過程,其中包括5類生物概念實(shí)體(突變、相互作用、通路、分子生理活性、細(xì)胞生理活性)和3類調(diào)控概念實(shí)體(正調(diào)控、負(fù)調(diào)控和調(diào)控)。此外,AGAC通過主事和致事兩個(gè)語義角色描述主題和因果關(guān)系。

1.1.3 語料庫注釋質(zhì)量檢驗(yàn) AGAC語料庫通過標(biāo)注者間信度檢驗(yàn)注釋質(zhì)量。在包含嚴(yán)格邊界檢查的嚴(yán)苛比較標(biāo)準(zhǔn)下,平行標(biāo)注結(jié)果精確率均高于召回率。針對(duì)出現(xiàn)的標(biāo)注異議,主標(biāo)注員依據(jù)指南[3]進(jìn)行裁議。因此,綜合測(cè)試結(jié)果和標(biāo)注流程控制,語料庫標(biāo)注質(zhì)量得到有效保障。

1.2 AGAC語料庫特點(diǎn)

1.2.1 數(shù)據(jù)不平衡 當(dāng)對(duì)所有文本標(biāo)注情況進(jìn)行統(tǒng)計(jì)時(shí),統(tǒng)計(jì)數(shù)據(jù)表明標(biāo)注出的實(shí)體分布情況在類型上是不平衡的。例如“突變(Var)”標(biāo)簽出現(xiàn)了上千次但是“通路(Pathway)”標(biāo)簽總共只出現(xiàn)了幾十次。語義角色的標(biāo)注中也出現(xiàn)此類分布不平衡現(xiàn)象, “CouseOf”關(guān)系的注釋次數(shù)在測(cè)試集和訓(xùn)練集相差較大。

1.2.2 選擇性注釋 根據(jù)AGAC的標(biāo)注指南[3],標(biāo)注時(shí)并不是無差別注釋,而是根據(jù)標(biāo)注規(guī)則選擇對(duì)含有足夠所需信息的句子進(jìn)行注釋,以期挖掘出帶有明確LOF/GOF描述的“基因-疾病”關(guān)聯(lián)的病理信息。這導(dǎo)致基于AGAC語料庫的命名實(shí)體識(shí)別具有挑戰(zhàn)性,所設(shè)計(jì)算法需在語義信息提取上有深入理解。

1.2.3 潛在主題注釋 通過文本挑選規(guī)則選取的每一個(gè)帶有LOF/GOF類別的“基因-疾病”關(guān)聯(lián)摘要都會(huì)被認(rèn)為是一個(gè)潛在的主題注釋,這一特性將AGAC與其他語料庫區(qū)別開來,使其注釋具有獨(dú)特性,真正面向藥理學(xué)假設(shè)LOF拮抗劑和GOF激動(dòng)劑的知識(shí)發(fā)現(xiàn),用于藥物重定位和藥物再利用的場(chǎng)景[4]。

2 AGAC語料庫標(biāo)注指南

2.1 標(biāo)注規(guī)則和標(biāo)簽設(shè)計(jì)

AGAC觸發(fā)詞實(shí)體標(biāo)注規(guī)則遵循生物學(xué)的中心法則,采用選擇性標(biāo)注,語義不完整的句子不予標(biāo)注。標(biāo)注規(guī)則[3]確保邏輯鏈條起點(diǎn)是“突變”等變異信息,利用分子事件來聚焦分子生理活性,記錄實(shí)體間相互作用,篩選生物通路信息。語料庫實(shí)體標(biāo)簽說明和實(shí)例,見表1。另外,兩個(gè)語義角色標(biāo)注提供了實(shí)體之間關(guān)系的表征,“ThemeOf”用來描述主事實(shí)體指向當(dāng)前實(shí)體的關(guān)系,“CauseOf”用來描述當(dāng)前實(shí)體指向致事實(shí)體的關(guān)系。

表1 觸發(fā)詞實(shí)體標(biāo)簽說明

2.2 實(shí)體標(biāo)注和語義標(biāo)注示例

根據(jù)設(shè)定的標(biāo)注規(guī)則,標(biāo)注示例,見圖1。該句子中有5個(gè)實(shí)體被識(shí)別出來,其中,“TRPV1”是一個(gè)基因,被標(biāo)注為“Gene”;“gain-of-function”獲得功能是一個(gè)正調(diào)控的實(shí)體,被標(biāo)注為“PosReg”;“mutation”被標(biāo)注為“Var”;而謂語動(dòng)詞“impairs”是一個(gè)表示負(fù)向調(diào)控的實(shí)體詞,被標(biāo)注為“NegReg”;“pain and itch sensations”疼痛和瘙癢是發(fā)生在細(xì)胞層面的活動(dòng),因此被標(biāo)注為“CPA”。語義角色也被識(shí)別出4個(gè),其中,R1是由“TRPV1”指向“mutation”的“ThemeOf”關(guān)系,因?yàn)樵撏蛔儼l(fā)生的主體是“TRPV1”基因;R2是由“mutation”指向“gain-of-function”的“CauseOf”關(guān)系,因?yàn)橥蛔儼l(fā)生后導(dǎo)致了TRPV1 基因獲得功能;R3是由“gain-of-function”指向“impairs”的“CauseOf”關(guān)系,因?yàn)門RPV1基因突變之后獲得功能導(dǎo)致后續(xù)其他生物活動(dòng)減弱;R4是由“pain and itch sensations”指向“impairs”的“ThemeOf”關(guān)系,因?yàn)椤皽p弱”事件的主體是“pain and itch sensations”。

圖1 標(biāo)注示例(原文來自PMID:29424270)

3 AGAC語料庫在醫(yī)藥領(lǐng)域應(yīng)用場(chǎng)景

3.1 概述

根據(jù)AGAC語料庫標(biāo)注后的結(jié)果應(yīng)用于實(shí)際場(chǎng)景獲得的啟發(fā),發(fā)現(xiàn)其在與癌癥有關(guān)的關(guān)鍵基因預(yù)測(cè)、藥物重定位和疾病病理循證等場(chǎng)景下都取得一定的成效,通過預(yù)測(cè)基因和藥物對(duì)成功找到有文獻(xiàn)支持的6種可能有抗癲癇疾病作用的藥物,通過對(duì)基因突變之后失去功能或者得到功能的預(yù)測(cè)可以提取導(dǎo)致阿爾茨海默癥的關(guān)鍵基因,見圖2。

圖2 AGAC語料庫在關(guān)鍵基因預(yù)測(cè)、藥物重定位知識(shí)發(fā)現(xiàn)場(chǎng)景的應(yīng)用

3.2 AGAC應(yīng)用于阿爾茨海默癥中關(guān)鍵基因的預(yù)測(cè)

3.2.1 應(yīng)用價(jià)值 阿爾茨海默癥(Alzheimer’s Disease,AD)是一種常見的神經(jīng)退行性疾病,會(huì)損害記憶力、語言和各種身體行為。雖然沒有數(shù)據(jù)庫記錄AD相關(guān)基因的突變類型(LOF突變/ GOF突變)信息,但有大量文獻(xiàn)報(bào)道了AD發(fā)病機(jī)制的研究情況。因此,AGAC技術(shù)可以被應(yīng)用于AD文獻(xiàn)中,以提取突變基因及其改變的生物學(xué)過程[5]。

3.2.2 應(yīng)用方法 首先在PubMed上獲取AD相關(guān)的文獻(xiàn),基于規(guī)則和文本相關(guān)性進(jìn)行過濾,將過濾后的AD文本進(jìn)行AGAC標(biāo)注,并推斷文本中包括的LOF/GOF突變信息,共提取出325個(gè)突變并得到了822對(duì)LOF/GOF相關(guān)的突變?nèi)M信息及其對(duì)應(yīng)的句子證據(jù)。這325個(gè)突變帶有突變后下游生物過程的清晰語義,經(jīng)過人工整理后可分為8種類型。包括5類實(shí)體信息:基因表達(dá)、蛋白質(zhì)活性、相互作用、通路活性和細(xì)胞活性,這5類都是遵循了中心法則從分子水平到細(xì)胞水平的基本生物學(xué)過程。除此之外還包括磷酸化、Abeta積累和鈣離子濃度3類語義信息。而相關(guān)的句子證據(jù)可以證明提取出的三元組信息的正確性,例如來自PubMed唯一標(biāo)識(shí)碼(PubMed Unique Identifier,PMID)為29656768的文獻(xiàn)摘要中的一個(gè)三元組是“MLKL;LOF;Alzheimer’s disease”,它對(duì)應(yīng)的句子證據(jù)是“MLKL loss-of-function mutation might contribute to late-onset ApoE ε4-negative AD in the Hong Kong Chinese population.”。從生物學(xué)的觀點(diǎn)來看,失去功能(loss-of-function)顯然是功能失去的一種描述。因此,這句話承載著明確的語義信息,即基因“MLKL”在突變后發(fā)揮著與“阿爾茨海默癥”相關(guān)的“LOF”功能。

3.3 AGAC在抗癲癇藥物重定位中的應(yīng)用

通過在實(shí)際場(chǎng)景中的應(yīng)用得知,使用AGAC可以優(yōu)化抗癲癇藥物的發(fā)現(xiàn)過程[1],通過全基因組關(guān)聯(lián)分析(Genome-wide Association Study, GWAS)等多個(gè)數(shù)據(jù)集收集與癲癇相關(guān)的基因作為關(guān)鍵詞在PubMed數(shù)據(jù)庫檢索文獻(xiàn)并提取摘要,再對(duì)這些文本以“突變”和“癲癇”為關(guān)鍵字過濾后進(jìn)行自動(dòng)化標(biāo)注,通過AGAC獲得功能和失去功能規(guī)則對(duì)標(biāo)注后的句子進(jìn)行分類,根據(jù)前文的藥理學(xué)假說將預(yù)測(cè)結(jié)果與DrugBank數(shù)據(jù)庫中條目匹配,獲得了281個(gè)“基因-藥物”對(duì),包括了112種藥物和28個(gè)基因,112種藥物中有30種藥物被錄入數(shù)據(jù)庫。新預(yù)測(cè)出的10種未入庫的多靶點(diǎn)藥物中,有6種被發(fā)現(xiàn)與癲癇相關(guān)并且都得到文獻(xiàn)支持,這6種藥物分別是:奧沙西泮、替馬西泮、哈拉西泮、普拉西泮、唑吡坦和硫戊巴比妥。該案例研究結(jié)果支持了AGAC在促進(jìn)知識(shí)發(fā)現(xiàn)和藥物再利用方面的潛力。

4 結(jié)語

本文基于AGAC語料庫設(shè)計(jì)了一個(gè)面向“基因-疾病”關(guān)聯(lián)的語義挖掘任務(wù),并簡要介紹在構(gòu)建語料庫時(shí)設(shè)計(jì)的文本收集規(guī)則、實(shí)體標(biāo)注和語義角色標(biāo)注規(guī)則以及語料庫“數(shù)據(jù)不平衡”“選擇性注釋”和“潛在主題注釋”3個(gè)特點(diǎn),提出語料庫在抗癲癇藥物重定位、提取阿爾茨海默癥關(guān)鍵基因等領(lǐng)域的應(yīng)用,體現(xiàn)出AGAC語料庫應(yīng)用前景和潛力,促進(jìn)出物自然語言處理和醫(yī)學(xué)健康等相關(guān)方向的跨學(xué)科應(yīng)用。

猜你喜歡
語料庫語義實(shí)體
語言與語義
《語料庫翻譯文體學(xué)》評(píng)介
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
“社會(huì)”一詞的語義流動(dòng)與新陳代謝
“吃+NP”的語義生成機(jī)制研究
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
山阴县| 海兴县| 江北区| 马公市| 衡南县| 嘉兴市| 永年县| 云和县| 临夏县| 三明市| 黔西县| 梨树县| 雅江县| 环江| 虎林市| 孝昌县| 昭平县| 绥阳县| 攀枝花市| 家居| 新竹市| 乌审旗| 呼和浩特市| 乳山市| 威海市| 左权县| 洪雅县| 扶沟县| 怀来县| 广元市| 襄垣县| 哈巴河县| 盐边县| 介休市| 紫金县| 高雄市| 双辽市| 城口县| 江油市| 郧西县| 五莲县|