范少萍 安新穎
知識組織
基于多屬性規(guī)則的生物醫(yī)學(xué)語義關(guān)系研究*
范少萍 安新穎
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)指數(shù)級增長亟需快速識別出領(lǐng)域內(nèi)核心且關(guān)鍵的語義關(guān)系,開展領(lǐng)域知識發(fā)現(xiàn)研究。本文借鑒DisGeNET基于規(guī)則的關(guān)系得分方法設(shè)計(jì)思想,在專家咨詢基礎(chǔ)上,提出生物醫(yī)學(xué)領(lǐng)域語義關(guān)系具有可靠性、重要性和新穎性3種屬性,設(shè)定每種屬性對應(yīng)的指標(biāo)及定量計(jì)算方法。通過分析結(jié)直腸癌領(lǐng)域關(guān)系計(jì)算結(jié)果,驗(yàn)證本文所提關(guān)系得分方法在關(guān)系重要性排序方面的有效性。該方法考慮維度更加全面,為生物醫(yī)學(xué)領(lǐng)域知識圖譜構(gòu)建、知識發(fā)現(xiàn)等提供有益參考。
語義關(guān)系;關(guān)系得分;關(guān)系排序;知識圖譜;知識發(fā)現(xiàn)
生命科學(xué)與醫(yī)學(xué)是面向人民生命健康的科學(xué),是關(guān)乎人類福祉的科學(xué),科學(xué)探索與研究結(jié)論更強(qiáng)調(diào)科學(xué)性、可靠性、權(quán)威性。生物醫(yī)學(xué)領(lǐng)域文獻(xiàn)數(shù)量指數(shù)級增長,其中蘊(yùn)含大量實(shí)體及相互間關(guān)系,對于構(gòu)建領(lǐng)域知識圖譜、厘清領(lǐng)域發(fā)展脈絡(luò)、開展領(lǐng)域知識發(fā)現(xiàn)研究具有重要意義。
在實(shí)體間語義關(guān)系識別研究中,實(shí)體類型根據(jù)上下文語境具有唯一性,然而,實(shí)體間語義關(guān)系在不同語境與內(nèi)容下有明顯差異。如句子1“Aspirin use and survival after diagnosis of colorectal cancer”和句子2“Regular aspirin use after the diagnosis of colorectal cancer is associated with lower risk of colorectal cancer-specific and overall mortality, especially among individuals with tumors that overexpress COX-2”中,均提到了結(jié)直腸癌(colorectal cancer)與阿司匹林(aspirin),但二者關(guān)系在不同語境和內(nèi)容下不同。句子1描述了阿司匹林與結(jié)直腸癌可能存在關(guān)系,在數(shù)據(jù)集[1]中關(guān)系標(biāo)注為may be affected by;句子2明確說明結(jié)直腸癌診斷后定期服用阿司匹林與降低結(jié)直腸癌特異性和總體死亡率的風(fēng)險(xiǎn)有關(guān),在數(shù)據(jù)集中關(guān)系標(biāo)注為may be treated(decreased)by。此外,同一關(guān)系類型(如基因-疾病關(guān)系)甚至同一種關(guān)系在同一文獻(xiàn)集合中重復(fù)出現(xiàn),進(jìn)一步強(qiáng)化了關(guān)系的確定性。因此,相關(guān)研究文獻(xiàn)數(shù)量越多,關(guān)系數(shù)量越多,關(guān)系網(wǎng)絡(luò)越復(fù)雜,亟需通過科學(xué)合理的方法識別核心關(guān)鍵關(guān)系,發(fā)現(xiàn)潛在有價(jià)值的關(guān)系,實(shí)現(xiàn)更細(xì)粒度的知識發(fā)現(xiàn),從而為學(xué)科知識結(jié)構(gòu)與知識關(guān)聯(lián)構(gòu)建、多源數(shù)據(jù)的深層次知識發(fā)現(xiàn)提供參考;同時(shí)也是輔助科研人員高效利用數(shù)據(jù)、發(fā)現(xiàn)新知識,以及提供智能精準(zhǔn)的知識與情報(bào)服務(wù)的重要內(nèi)容和發(fā)展方向[2]。
現(xiàn)有語義關(guān)系排序方法主要分為兩大類,即基于機(jī)器學(xué)習(xí)的方法和基于規(guī)則的方法。
李智恒等[3]、吳曉芳等[4]利用SemRep工具得到Medline數(shù)據(jù)庫文獻(xiàn)中不同語義類型對應(yīng)的語義關(guān)系,采用KL散度、RlogF矩陣和PredScal函數(shù)相結(jié)合的方法計(jì)算語義關(guān)系得分,構(gòu)建與疾病相關(guān)蛋白質(zhì)以及蛋白質(zhì)及藥物等實(shí)體之間的聯(lián)系。白潔[5]針對機(jī)器學(xué)習(xí)方法無法揭示語義層面深層次信息,構(gòu)建關(guān)系本體開展語義關(guān)系抽取研究,并設(shè)計(jì)語義優(yōu)先排序SPR算法,選取相關(guān)度最高的關(guān)系。孟祥福等[6]針對普通空間關(guān)鍵字查詢通常會(huì)導(dǎo)致多查詢結(jié)果的問題,根據(jù)空間對象之間的位置相近性和文本相似性,度量任意一對空間對象之間的位置-文本關(guān)系緊密度,提出基于概率密度的代表性空間對象選取算法。劉雷[7]基于復(fù)雜網(wǎng)絡(luò)理論,選擇多元關(guān)系排序問題開展研究,提出基于星型拓?fù)涞漠悩?gòu)概率超圖模型,每個(gè)節(jié)點(diǎn)根據(jù)不同的關(guān)系類型,通過一定概率歸屬于不同的超邊,為疾病預(yù)測可能相關(guān)聯(lián)的基因。
然而,生物醫(yī)學(xué)研究注重遵循證據(jù),與循證醫(yī)學(xué)(Evidence based Medicines)思想相同,即醫(yī)生不是憑個(gè)人實(shí)踐經(jīng)驗(yàn)治療患者,而是在個(gè)人豐富經(jīng)驗(yàn)基礎(chǔ)上,依據(jù)現(xiàn)有科學(xué)指導(dǎo)臨床實(shí)踐[8]。因此,機(jī)器學(xué)習(xí)算法在進(jìn)行語義關(guān)系排序時(shí)僅對關(guān)系進(jìn)行統(tǒng)計(jì)學(xué)計(jì)算,缺乏相關(guān)證據(jù)推演,對臨床應(yīng)用與指導(dǎo)價(jià)值的可靠性稍顯不足。
基于規(guī)則的方法與基于機(jī)器學(xué)習(xí)的方法不同,并非通過大規(guī)模數(shù)理概率統(tǒng)計(jì)得到關(guān)系得分或排序,而是通過制定規(guī)則,基于規(guī)則約定或定量計(jì)算得到關(guān)系得分。生物醫(yī)學(xué)領(lǐng)域應(yīng)用此類方法的典型代表為DisGeNET數(shù)據(jù)庫的關(guān)系得分計(jì)算方法。DisGeNET數(shù)據(jù)庫通過整合已有多個(gè)基因/突變與疾病關(guān)聯(lián)的數(shù)據(jù)庫信息(如ClinVar、GWASDB等),利用機(jī)器學(xué)習(xí)方法從文獻(xiàn)中獲取相應(yīng)的關(guān)聯(lián)信息,同時(shí),從關(guān)系來源數(shù)據(jù)庫的數(shù)量和類型,以及支持關(guān)系的出版物數(shù)量方面,利用設(shè)計(jì)的方法計(jì)算關(guān)系得分(得分取值范圍為0~1[9]),最終構(gòu)建統(tǒng)一的基因/突變位點(diǎn)與疾病關(guān)聯(lián)的數(shù)據(jù)庫[10]。該數(shù)據(jù)庫計(jì)算基因-疾病關(guān)系(Gene-Disease Associations,GDA)的方法見公式(1)。
其中,代表關(guān)系最終得分。代表關(guān)系是否被CGI、CLINGEN、GENOMICS ENGLAND、CTD、PSYGENET、ORPHANET、UNIPROT 7個(gè)數(shù)據(jù)庫人工編審過,如果被3個(gè)以上數(shù)據(jù)庫編審,則=0.6;被2個(gè)數(shù)據(jù)庫編審,=0.5;被1個(gè)數(shù)據(jù)庫編審,=0.3;未被上述數(shù)據(jù)庫編審,=0。M代表是否包含RGD、MGD和CTD 3個(gè)數(shù)據(jù)庫中的鼠類資源,如果包含,=0.2,反之=0。代表是否包含HPO、CLINVAR、GWASCAT、GWASDB 4個(gè)人類表型、基因組等資源相關(guān)數(shù)據(jù)庫中資源,如果包含,=0.1,反之=0。代表LHGDN和BEFREE數(shù)據(jù)庫中支持該關(guān)系的文章數(shù)量,如果有9篇以上文章支持該關(guān)系,=0.1,如果支持文章數(shù)量不足9篇,則得分為文章數(shù)量乘以0.01[9]。
可以看出,DisGeNET在計(jì)算GDA得分時(shí)重點(diǎn)依據(jù)該關(guān)系的來源數(shù)據(jù)庫。來源數(shù)據(jù)庫權(quán)威且數(shù)據(jù)庫數(shù)據(jù)已得到編審與領(lǐng)域認(rèn)可,則賦予較高得分。DisGeNET的這種GDA得分計(jì)算方法符合循證醫(yī)學(xué)思想,利用相對充分的證據(jù)證明關(guān)系的科學(xué)性與可靠性,并利用關(guān)系出現(xiàn)頻次證明其重要性。然而,上述關(guān)系得分計(jì)算方法僅考慮關(guān)系來源的權(quán)威性,忽略關(guān)系所在文獻(xiàn)或文本所揭示出的其他有意義信息,如關(guān)系所在文本的出現(xiàn)時(shí)間可在一定程度上揭示關(guān)系的新舊程度,關(guān)系發(fā)表期刊水平可在一定程度上代表其對領(lǐng)域發(fā)展的貢獻(xiàn)大小等。因此,須充分挖掘關(guān)系所在文本特征,界定關(guān)系多重屬性,并遴選對關(guān)系排序具有關(guān)鍵作用的屬性,從而設(shè)計(jì)更加科學(xué)、權(quán)威、全面的語義關(guān)系排序方法。
基于此,本文開展基于規(guī)則的語義關(guān)系研究,利用關(guān)系文本特征,梳理、總結(jié)關(guān)系屬性,并設(shè)計(jì)科學(xué)可靠的屬性計(jì)算方法,從而實(shí)現(xiàn)實(shí)體間語義關(guān)系的定量計(jì)算與排序,有利于識別重要語義關(guān)系,精簡知識網(wǎng)絡(luò),發(fā)現(xiàn)潛在研究方向,對于推動(dòng)生物醫(yī)學(xué)研究高質(zhì)量發(fā)展、輔助科研管理決策、實(shí)現(xiàn)研究成果轉(zhuǎn)移轉(zhuǎn)化等具有一定作用。
為得到更科學(xué)合理的關(guān)系排序規(guī)則與定量計(jì)算方法,本節(jié)按照梳理關(guān)系屬性、開展專家咨詢、提出研究假設(shè)、設(shè)定計(jì)算指標(biāo)、提出計(jì)算方法5個(gè)階段分別開展研究。
(1)梳理關(guān)系屬性。通過DisGeNET數(shù)據(jù)庫關(guān)系得分計(jì)算維度可以看出,可靠性(來源數(shù)據(jù)庫)與重要性(出現(xiàn)頻次)是語義關(guān)系的兩項(xiàng)重要屬性。從科技文獻(xiàn)老化的角度來說,舊有文獻(xiàn)的使用頻次將逐漸降低,讓位于新生文獻(xiàn)[11],新生文獻(xiàn)可能比舊有文獻(xiàn)的研究內(nèi)容更加新穎,對研究發(fā)展更具參考價(jià)值。標(biāo)題與摘要揭示了文章的主要研究內(nèi)容與最新發(fā)現(xiàn),因此,發(fā)表在新生文獻(xiàn)標(biāo)題或摘要部分的關(guān)系可能更新穎,關(guān)系根據(jù)其所在文獻(xiàn)發(fā)表時(shí)間,具有新穎性。生物醫(yī)學(xué)研究的最終目的是為臨床服務(wù),解決臨床研究與決策中面臨的各種科學(xué)問題,而臨床試驗(yàn)是開展臨床大規(guī)模應(yīng)用的首要前提,因此,基于臨床試驗(yàn)的應(yīng)用性也應(yīng)為關(guān)系的重要屬性之一?;诖耍镝t(yī)學(xué)領(lǐng)域語義關(guān)系應(yīng)具有可靠性、重要性、新穎性和應(yīng)用性4種屬性。
(2)開展專家咨詢。本文針對上述關(guān)系屬性開展專家咨詢,主要咨詢科學(xué)計(jì)量學(xué)、計(jì)算生物學(xué)以及臨床醫(yī)學(xué)等領(lǐng)域相關(guān)專家和學(xué)者。專家和學(xué)者對可靠性、重要性與新穎性無太大異議;對于應(yīng)用性,臨床醫(yī)學(xué)學(xué)者認(rèn)為,文獻(xiàn)中雖有部分經(jīng)臨床試驗(yàn)驗(yàn)證的研究結(jié)論與內(nèi)容,但臨床試驗(yàn)是非強(qiáng)制性要求注冊并開展的項(xiàng)目,且研究文獻(xiàn)中存在大量對臨床有指導(dǎo)意義的基礎(chǔ)研究,應(yīng)用性指標(biāo)的使用容易導(dǎo)致一些重要的基礎(chǔ)研究中存在的語義關(guān)系被弱化,不建議納入。因此,綜合專家意見,本文最終確定關(guān)系屬性為可靠性、重要性和新穎性3種。
(3)提出研究假設(shè)。結(jié)合上述分析結(jié)論,本文提出5種研究假設(shè)(本文所研究的關(guān)系均為正向支持關(guān)系)。
假設(shè)1:發(fā)表在高影響力期刊上的文獻(xiàn)由于得到領(lǐng)域較高水平專家嚴(yán)苛評審,其所包含的關(guān)系可靠性相對較高。
假設(shè)2:比較毒理基因組學(xué)數(shù)據(jù)庫(the Comparative Toxicogenomics Database,CTD)由于得到領(lǐng)域?qū)<揖帉?,?shù)據(jù)更新及時(shí),覆蓋實(shí)體類型多樣,在領(lǐng)域內(nèi)應(yīng)用廣泛,被其收錄并編審的關(guān)系具有較高可靠性。
假設(shè)3:標(biāo)題是對文章關(guān)鍵核心內(nèi)容的凝練,在標(biāo)題位置出現(xiàn)的關(guān)系重要性更強(qiáng)。
假設(shè)4:關(guān)系三元組出現(xiàn)頻次越高,其重要性越強(qiáng)。
假設(shè)5:文獻(xiàn)出現(xiàn)時(shí)間越晚,越容易結(jié)合最先進(jìn)思想與技術(shù),在未來越可能有廣闊研究空間,其所包含的關(guān)系新穎性越強(qiáng)。
(4)設(shè)定計(jì)算指標(biāo)?;诒疚奶岢龅恼Z義關(guān)系的可靠性、重要性和新穎性3種屬性和研究假設(shè),考慮數(shù)據(jù)獲取的可靠性、便利性、可定量,設(shè)定每種屬性所對應(yīng)的指標(biāo)及指標(biāo)說明,如表1所示。與DisGeNET數(shù)據(jù)庫相比,可靠性除考慮關(guān)系的來源數(shù)據(jù)庫外,增加來源期刊影響因子,進(jìn)一步強(qiáng)化關(guān)系的科學(xué)可靠。重要性在關(guān)系出現(xiàn)頻次基礎(chǔ)上,增加關(guān)系出現(xiàn)位置,進(jìn)一步強(qiáng)化核心關(guān)鍵關(guān)系。此外,增加新穎性指標(biāo),從關(guān)系出現(xiàn)時(shí)間方面進(jìn)行考量。
(5)提出計(jì)算方法?;谏鲜鲅芯考僭O(shè)與指標(biāo)設(shè)定,本文提出了關(guān)系排序計(jì)算方法,見公式(2)。雖然公式(1)和公式(2)有部分變量的字母表示相同,但含義大不相同,公式(2)利用每個(gè)指標(biāo)英文首字母表示對應(yīng)變量。
其中,代表關(guān)系最終得分;代表權(quán)威性,代表影響力,二者合并為可靠性;代表核心力,代表頻率,二者合并為重要性;代表新穎性。權(quán)威性根據(jù)關(guān)系三元組來源文獻(xiàn)是否出現(xiàn)在CTD數(shù)據(jù)庫計(jì)算,若出現(xiàn)在CTD數(shù)據(jù)庫中,則=0.2,否則=0.1(CTD只是有針對性地對部分關(guān)系進(jìn)行了人工審核,更強(qiáng)調(diào)關(guān)系的確定性,而未被納入的關(guān)系,也已公開發(fā)表,得到領(lǐng)域?qū)<艺J(rèn)可,同樣具有一定的意義,因此,不在CTD數(shù)據(jù)庫也給予一定分值)。影響力根據(jù)關(guān)系三元組所在期刊影響因子在所有同類關(guān)系中按從大到小排序的位置計(jì)算,最大值為0.2;若某類關(guān)系共來自10種不同影響因子的期刊,那么影響因子最高的期刊所描述的關(guān)系三元組影響力=0.2,排序第10位的期刊所描述關(guān)系三元組影響力=0.02;若期刊無影響因子,則影響力得分為0。核心力C根據(jù)關(guān)系三元組的出現(xiàn)位置計(jì)算,若出現(xiàn)在標(biāo)題或同時(shí)出現(xiàn)在標(biāo)題與摘要,則此關(guān)系三元組核心力=0.2;若僅出現(xiàn)在摘要,則此關(guān)系三元組核心力得分為0.1。頻率根據(jù)關(guān)系三元組出現(xiàn)頻次在所有同類關(guān)系中按從大到小排序的位置計(jì)算,最大值為0.2;若某類關(guān)系共有10種不同三元組,則出現(xiàn)頻次最高的關(guān)系三元組的頻率=0.2,排序第10位的頻率=0.02。新穎性根據(jù)關(guān)系三元組所在同類關(guān)系中文獻(xiàn)的平均發(fā)表年份計(jì)算,若某類關(guān)系共有10種不同三元組,則平均發(fā)表年份最新的關(guān)系三元組新穎性=0.2,排序第10位的新穎性0.02。如某關(guān)系三元組,其來源文獻(xiàn)出現(xiàn)在CTD數(shù)據(jù)庫,所在期刊影響因子排序?yàn)榈?位,出現(xiàn)在文獻(xiàn)的標(biāo)題位置,關(guān)系三元組出現(xiàn)頻次排序?yàn)榈?位,且發(fā)表時(shí)間排序第1位,則該關(guān)系的得分為0.2+0.2+0.2+0.2+0.2=1。本文將5個(gè)指標(biāo)視為同等重要,在關(guān)系得分方法中所占比重相同,關(guān)系得分最高為1分。
本文計(jì)算關(guān)系來源于公開數(shù)據(jù)集[1],該數(shù)據(jù)集主要包含腫瘤學(xué)相關(guān)研究的2?183條句子,標(biāo)注了9種語義關(guān)系,分別為基因-疾?。℅DA)、疾病-化合物(Disease-Chemical Associations,DCA)、化合物-基因(Chemical-Gene Associations,CGA)等,每類關(guān)系各3種。標(biāo)注信息中含實(shí)體、實(shí)體關(guān)系、所在文獻(xiàn)PMID等信息,可用于本文關(guān)系排序方法驗(yàn)證。
遴選標(biāo)注文獻(xiàn)中與結(jié)直腸癌相關(guān)文獻(xiàn)。結(jié)直腸癌的發(fā)病率正逐年上升,在全球癌癥中排名第3位。中國是全球結(jié)直腸癌每年新發(fā)病例數(shù)最多的國家。這種癌癥是死亡率排名第二的疾病,正逐漸出現(xiàn)年輕化趨勢。發(fā)表的《2020年結(jié)直腸癌統(tǒng)計(jì)報(bào)告》(,2020)[12]數(shù)據(jù)提示,年輕人腸癌發(fā)病率正在逐年增加,而老年人的發(fā)病率在降低,腸癌中位診斷年齡從2001—2002年的72歲降至2015—2016年的66歲。
根據(jù)公式(2)及各指標(biāo)的計(jì)算方法,計(jì)算結(jié)直腸癌領(lǐng)域127條關(guān)系的得分情況,如表2所示??梢钥闯觯梅肿罡叩氖?-Fluorouracil與結(jié)直腸癌可能存在may be treated(decreased)by的治療關(guān)系,5-Fluorouracil是1962年上市的首個(gè)結(jié)直腸癌化療藥物,是結(jié)直腸癌化療的首選藥物之一[13]。在表2中,5-Fluorouracil與結(jié)直腸癌存在may be treated(decreased)by和may be affected by兩種關(guān)系,且得分不同,主要是由于二者的核心力得分不同,也就是在文獻(xiàn)中出現(xiàn)位置不同,如不納入核心力指標(biāo),may be affected by的關(guān)系排序更靠前,但這一關(guān)系未能明確揭示5-Fluorouracil與結(jié)直腸癌是治療關(guān)系還是致病關(guān)系。雖然兩種關(guān)系同時(shí)出現(xiàn),但經(jīng)本文的關(guān)系排序方法計(jì)算后,may be treated(decreased)by的治療關(guān)系排序靠前,且這一結(jié)果與文獻(xiàn)分析結(jié)果一致,說明本文計(jì)算方法的有效性。
將本文方法得到的基因與疾病關(guān)系排序結(jié)果與DisGeNET數(shù)據(jù)庫結(jié)直腸癌文獻(xiàn)的基因與疾病關(guān)系得分結(jié)果進(jìn)行對比,關(guān)系排序前5位的基因結(jié)果如表3所示??梢钥闯觯c結(jié)直腸癌關(guān)系比較密切的基因(如APC、TP53)兩種計(jì)算方法均排序靠前。其中,腺瘤性結(jié)腸息肉?。ˋdenomatous Polyposis Coli,APC)基因與結(jié)直腸癌關(guān)系類型為affects,通過文獻(xiàn)閱讀發(fā)現(xiàn),該基因是結(jié)直腸癌抑癌基因,可在胚系和體系水平出現(xiàn)異常調(diào)節(jié)[14-15],證明通過調(diào)節(jié)該基因可影響(affects)結(jié)直腸癌發(fā)生。此外,本文方法計(jì)算結(jié)果中K-RAS基因排序靠前,關(guān)系類型為is associated with。經(jīng)查閱文獻(xiàn),RAS基因是第一個(gè)被鑒定出來的人類癌癥基因,結(jié)直腸癌的突變RAS基因主要是K-RAS。臨床中較多研究聚焦K-RAS基因突變與結(jié)直腸癌轉(zhuǎn)移和治療的作用關(guān)系[16-17],進(jìn)一步證明該基因與結(jié)直腸癌多方面存在關(guān)聯(lián)(is associated with)。但部分DisGeNET數(shù)據(jù)庫排序靠前且與結(jié)直腸癌關(guān)系密切的基因(如CTNNB1),在本文計(jì)算結(jié)果中并未出現(xiàn),可能與本文所選用關(guān)系計(jì)算來源數(shù)據(jù)集有關(guān),數(shù)據(jù)集中包含的結(jié)直腸癌相關(guān)關(guān)系未覆蓋所有結(jié)直腸癌基因。
化合物/藥物與基因關(guān)系計(jì)算結(jié)果(Top5)如表4所示。本文識別出白藜蘆醇(resveratrol)與K-RAS基因存在regulates關(guān)系。閱讀文獻(xiàn)發(fā)現(xiàn),白藜蘆醇是包括葡萄、花生和漿果在內(nèi)的許多可食用品中的一種多酚化合物,其衍生物通過抑制結(jié)直腸癌致癌的K-RAS介導(dǎo)的信號通路來抑制HCT116細(xì)胞球體的生長,從而抑制具有K-RAS突變的結(jié)直腸癌細(xì)胞的增殖[18]。這一研究證明了白藜蘆醇對K-RAS基因具有調(diào)控(regulates)作用,說明識別結(jié)果可靠。
本文遵循循證醫(yī)學(xué)理念,借鑒DisGeNET基于規(guī)則的關(guān)系得分方法設(shè)計(jì)思想,在專家咨詢基礎(chǔ)上,提出生物醫(yī)學(xué)領(lǐng)域語義關(guān)系具有可靠性、重要性和新穎性3種屬性,基于研究假設(shè),提出每種屬性對應(yīng)的指標(biāo)及定量計(jì)算方法。通過結(jié)直腸癌領(lǐng)域關(guān)系計(jì)算與結(jié)果分析,驗(yàn)證了本文所提方法的有效性。與基于機(jī)器學(xué)習(xí)的關(guān)系排序方法相比,本文所提方法更注重相關(guān)證據(jù)推演,強(qiáng)調(diào)關(guān)系屬性的多元性,更關(guān)注語義關(guān)系的臨床應(yīng)用與指導(dǎo)價(jià)值,更適用于生物醫(yī)學(xué)領(lǐng)域的關(guān)系排序與語義關(guān)聯(lián)構(gòu)建。與DisGeNET數(shù)據(jù)庫關(guān)系得分方法相比,本文所提方法考慮維度更加全面,納入指標(biāo)更加豐富,可以快速有效地識別關(guān)鍵關(guān)聯(lián),用于領(lǐng)域知識圖譜構(gòu)建;同時(shí),由于加入新穎性屬性,可用于發(fā)現(xiàn)新興/潛在的語義關(guān)系,用于領(lǐng)域知識發(fā)現(xiàn)研究。因此,生物醫(yī)學(xué)信息服務(wù)機(jī)構(gòu)可利用本文所提關(guān)系排序方法,對已有數(shù)據(jù)庫存儲的語義關(guān)系進(jìn)行計(jì)算,輔助科研人員識別并遴選實(shí)體間重要的語義關(guān)系,發(fā)現(xiàn)潛在有價(jià)值關(guān)系,更加清晰地厘清領(lǐng)域知識結(jié)構(gòu)與內(nèi)容演進(jìn),為相關(guān)研究提供選題參考與事實(shí)佐證。本文目前僅在一個(gè)數(shù)據(jù)集驗(yàn)證了方法的有效性,今后將在更多數(shù)據(jù)集進(jìn)行驗(yàn)證,為生物醫(yī)學(xué)領(lǐng)域重要語義關(guān)系識別與遴選、潛在有價(jià)值知識發(fā)現(xiàn)等提供有益參考。
[1] Corpus for relation classification in medical field[EB/OL].[2020-11-10]. https://github.com/yangshuothtf/corpus_relation_classification.
[2] 胡正銀,劉蕾蕾,代冰,等. 基于領(lǐng)域知識圖譜的生命醫(yī)學(xué)學(xué)科知識發(fā)現(xiàn)探析[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2020,4(11):1-14.
[3] 李智恒,楊志豪,林鴻飛. 基于語義的疾病相關(guān)蛋白質(zhì)知識抽?。跩]. 山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(3):104-110.
[4] 吳曉芳,楊志豪,林鴻飛,等. 基于語義關(guān)系的疾病知識提取系統(tǒng)[J]. 計(jì)算機(jī)工程,2015,41(1):284-288,295.
[5] 白潔. 基于本體的實(shí)體關(guān)系抽取與檢索[D]. 沈陽:東北大學(xué),2012.
[6] 孟祥福,張霄雁,趙路路,等. 基于位置-文本關(guān)系的空間對象top-k查詢與排序方法[J]. 智能系統(tǒng)學(xué)報(bào),2020,15(2):235-242.
[7] 劉雷. 基于異構(gòu)超圖的多元關(guān)系排序研究[D]. 大連:大連理工大學(xué),2019.
[8] 張鳴明,劉鳴. 循證醫(yī)學(xué)的概念和起源[J]. 華西醫(yī)學(xué),1998(3):6.
[9] Original Data Sources[EB/OL].[2020-11-08]. https://www.disgenet.org/dbinfo.
[10] PI?ERO J,àLEX B,QUERALT-ROSINACH N,et al. DisGeNET:a comprehensive platform integrating information on human disease-associated genes and variants[J]. Nucleic Acids Research,2017,45(1):833-839.
[11] 龐景安. 科學(xué)計(jì)量研究方法論[M]. 北京:科學(xué)技術(shù)文獻(xiàn)出版社,1999.
[12] SIEGEL R L,MILLER K D,SAUER A G,et al. Colorectal cancer statistics,2020[J]. CA-A Cancer Journal for Clinicians,2020,70(3):145-164.
[13] SUSAN G,ARBUCK M D. Overview of clinical trials using 5-fluorouracil and leucovorin for the treatment of colorectal cancer[J]. Cancer,1989,63(S6):1036-1044.
[14] DOW L E,O’ROURKE KP,SIMON J,et al. Apc restoration promotes cellular differentiation and reestablishes crypt homeostasis in colorectal cancer[J]. Cell,2015,161(7):1539-1552.
[15] SA R,SONG H L,WEI M H,et al. The impact of APC polymorphisms on the transition from polyps to colorectal cancer(CRC)[J]. Gene,2020,740:144486.
[16] 劉佳明,劉偉,徐達(dá),等. RAS基因突變對結(jié)直腸癌肝轉(zhuǎn)移患者肝切除術(shù)后預(yù)后的影響[J]. 中華肝膽外科雜志,2020,26(1):1-5.
[17] DIENSTMANN R,CONNOR K,BYRNE A T,et al. Precision therapy in RAS mutant colorectal cancer[J]. Gastroenterology,2020,158(4):806-811.
[18] OKAMOTO H,MATSUKAWA T,DOI S,et al. A novel resveratrol derivative selectively inhibits the proliferation of colorectal cancer cells with KRAS mutation[J]. Molecular & Cellular Biochemistry,2018:442(1/2):39-45.
Study on Biomedical Semantic Relation Based on Multi-attribute Rules
FAN ShaoPing AN XinYing
( Institute of Medical Information, CAMS & PUMC, Beijing 100020, China )
With the rapid growth of biomedical literature, it is urgent to identify the key semantic relations in the field quickly, and carry out domain knowledge discovery research. Based on the design idea of DisGeNET and expert consultation, this paper proposes that biomedical semantic relation has three attributes: reliability, importance and novelty, and sets the index and quantitative calculation method for each attribute. Through the results and analysis of colorectal cancer relation, the effectiveness of the proposed relation score method in the ranking of relations and knowledge discovery is verified. The dimension of the proposed method is more comprehensive, which can provide a useful reference for biomedical knowledge graph and knowledge discovery.
Semantic Relation; Relation Score; Relation Ranking; Knowledge Graph; Knowledge Discovery
G350
10.3772/j.issn.1673-2286.2021.01.003
范少萍,安新穎. 基于多屬性規(guī)則的生物醫(yī)學(xué)語義關(guān)系研究[J]. 數(shù)字圖書館論壇,2021(1):18-23.
*本研究得到國家自然科學(xué)基金項(xiàng)目“面向精準(zhǔn)醫(yī)學(xué)的基因-疾病-藥物語義關(guān)系抽取研究”(編號:71704188)資助。
范少萍,女,1986年生,博士,副研究員,研究方向:醫(yī)學(xué)信息分析與科技評價(jià)。
安新穎,女,1978年生,博士,研究員,通信作者,研究方向:醫(yī)學(xué)信息分析與科技評價(jià),E-mail:an.xinying@imicams.ac.cn。
(收稿日期:2020-12-05)