国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于“主語-謂語-賓語”三元組的知識發(fā)現(xiàn)研究
——以誘導(dǎo)多能干細胞領(lǐng)域為例*

2017-10-22 10:24:57隗玲胡正銀龐弘燊覃筱楚郭紅梅方曙
數(shù)字圖書館論壇 2017年9期
關(guān)鍵詞:三元組生物醫(yī)學(xué)賓語

隗玲,胡正銀,龐弘燊,覃筱楚,郭紅梅,方曙

(1.山西財經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國科學(xué)院成都文獻情報中心,成都 610041;3.深圳大學(xué)圖書館,深圳 518060;4.中國科學(xué)院廣州生物醫(yī)藥與健康研究院,廣州 510530;5.中國科學(xué)院文獻情報中心,北京 100190)

基于“主語-謂語-賓語”三元組的知識發(fā)現(xiàn)研究
——以誘導(dǎo)多能干細胞領(lǐng)域為例*

隗玲1,2,胡正銀2,龐弘燊3,覃筱楚4,郭紅梅5,方曙2

(1.山西財經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國科學(xué)院成都文獻情報中心,成都 610041;3.深圳大學(xué)圖書館,深圳 518060;4.中國科學(xué)院廣州生物醫(yī)藥與健康研究院,廣州 510530;5.中國科學(xué)院文獻情報中心,北京 100190)

本文提出基于“主語-謂語-賓語(Subject-Predication-Object,SPO)”三元組的生物醫(yī)學(xué)領(lǐng)域知識發(fā)現(xiàn)框架,對該框架的關(guān)鍵技術(shù)和實施流程進行研究。首先,基于UMLS語料庫,利用SemRep工具從生物醫(yī)藥文獻中抽取SPO三元組;其次,基于領(lǐng)域知識組織體系,結(jié)合自定義詞表和清洗規(guī)則對SPO進行清洗和篩選;再次,利用NetMiner分別繪制以Subject和Object為中心節(jié)點,Predication為邊的語義網(wǎng)絡(luò)圖;最后,結(jié)合專家解讀,實現(xiàn)領(lǐng)域知識發(fā)現(xiàn)。本文以誘導(dǎo)多能干細胞領(lǐng)域為例進行實證研究。結(jié)果顯示,SPO三元組可細粒度地揭示科技文獻的知識內(nèi)容,基于SPO的語義網(wǎng)絡(luò)能直觀地支持領(lǐng)域知識發(fā)現(xiàn),該框架具有兼容、高效、易實施等優(yōu)點。

知識發(fā)現(xiàn);SPO;知識組織;語義網(wǎng)絡(luò)

1 引言

文本知識發(fā)現(xiàn)(Knowledge Discovery in Text,KDT)是以可信的方式,從文獻中識別和提取有用、新穎、潛在有用和最終可理解的模式的過程。信息抽取是KDT的核心技術(shù)之一,其目的是從文本中自動抽取實體、實體屬性以及實體間的語義關(guān)系等信息作為知識發(fā)現(xiàn)的基礎(chǔ)知識單元[1]。SPO三元組是一種以“主語-謂語-賓語”形式來表示文獻中知識單元及其語義關(guān)系的知識表示方式,具有語義表示能力豐富、結(jié)構(gòu)簡單、技術(shù)成熟等優(yōu)點。通過對SPO三元組中的“主語-謂語-賓語”進行聚類、分類、重構(gòu)、降維等文本挖掘操作,結(jié)合可視化分析工具,可快速、清晰、直觀地揭示領(lǐng)域知識主題、重要概念及其關(guān)系,被廣泛應(yīng)用于知識組織、語義網(wǎng)絡(luò)、本體映射、科技文獻挖掘與知識發(fā)現(xiàn)等領(lǐng)域[2-4]。

誘導(dǎo)多能干細胞(induced Pluripotent Stem Cells,iPSC)技術(shù)可通過對成熟細胞進行“重新”編程培育出新的干細胞,擁有與胚胎干細胞相似的分化潛力,可分化為多種類型的細胞,有望用于多種疑難病癥的治療,對于藥物篩選、再生醫(yī)學(xué)與發(fā)育生物學(xué)的研究均具有重要意義,是生物醫(yī)學(xué)領(lǐng)域重要的前沿技術(shù)?;赟PO對iPSC領(lǐng)域科技文獻中蘊含的知識單元進行深度信息揭示,形成知識單元語義網(wǎng)絡(luò),可以多維度、細粒度地呈現(xiàn)iPSC的知識脈絡(luò),實現(xiàn)領(lǐng)域知識發(fā)現(xiàn)。

2 研究現(xiàn)狀

2.1 KDiBL常用語料庫與工具

隨著生物醫(yī)學(xué)文獻數(shù)量的快速增長和生命科學(xué)研究的交叉發(fā)展,生物醫(yī)學(xué)領(lǐng)域知識發(fā)現(xiàn)(Knowledge Discovery in Biomedical Literature,KDiBL)已成為一個重要研究領(lǐng)域[1]。統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(Unified Medical Language System,UMLS)是美國國家醫(yī)學(xué)圖書館(the United States National Library of Medicine,NLM)自1986年研究和開發(fā)的生物醫(yī)學(xué)一體化超級敘詞表系統(tǒng)[5]。其融合多個生物醫(yī)藥、衛(wèi)生健康等領(lǐng)域詞表,采用字符串-術(shù)語-概念的組合方式對生物醫(yī)學(xué)領(lǐng)域的術(shù)語進行規(guī)范,并提供計算機處理的互操作接口,是KDiBL常用的標準語料庫[2,5]。NLM基于UMLS開發(fā)出一系列自然語言處理工具。其中,MetaMap是一款將自由詞向UMLS概念映射的工具[2,6],可標記出文本中包含的UMLS概念,作為一項基礎(chǔ)性文本處理工具被廣泛應(yīng)用于KDiBL的各領(lǐng)域。SemRep是NLM語義知識表示項目的重要成果之一,是一款基于UMLS和MetaMap的生物醫(yī)學(xué)文獻語義知識抽取與表示工具[2,7],SemRep可從海量生物醫(yī)學(xué)文獻自動抽取SPO結(jié)構(gòu)來揭示文獻的知識內(nèi)容。其中,SPO三元組的主語和賓語是UMLS中的概念,謂語來自于UMLS語義網(wǎng)絡(luò)中的語義關(guān)系。UMLS語義網(wǎng)絡(luò)包含133種語義類型和54種語義關(guān)系。以“DNA-ADMINISTERED_TOPluripotent Stem Cells”為例,DNA為主語,其語義類型為實體物質(zhì),語義關(guān)系為ADMINISTERED_TO,賓語為Pluripotent Stem Cells,其語義類型為解剖要素[5]。

醫(yī)學(xué)主題詞(Medical Subject Headings,MeSH)是NLM開發(fā)和維護的綜合型詞匯表[8],用來描述生物醫(yī)學(xué)主題或特性。MeSH由主題詞變更表、字母順序表、副主題詞和樹形結(jié)構(gòu)組成,在文本挖掘過程中常用于詞表清洗和語義關(guān)系計算。樹形結(jié)構(gòu)表將表中所有主題詞按照學(xué)科性質(zhì)和語義關(guān)系進行層次分類,表示概念間的隸屬關(guān)系,越底層的概念越具體,所包含的信息顆粒度越細。NLM提供的生物醫(yī)學(xué)文獻數(shù)據(jù)庫PubMed包含基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、醫(yī)療保健、微生物等多個領(lǐng)域的海量文獻[9],富含醫(yī)學(xué)疾病和生物信息知識,已成為生物醫(yī)學(xué)文獻知識發(fā)現(xiàn)的核心數(shù)據(jù)庫。

2.2 KDiBL研究進展

基于上述語料庫與分析工具,KDiBL研究有了更進一步的發(fā)展,不僅可以基于文檔詞頻統(tǒng)計信息和高頻動詞識別重要關(guān)系開展醫(yī)學(xué)發(fā)現(xiàn),而且可以根據(jù)概念間的語義關(guān)系挖掘知識內(nèi)容。Reeve等首先利用 UMLS識別生物醫(yī)學(xué)文獻中的名字詞組,將其轉(zhuǎn)化為UMLS概念和語義類型,并基于概念間的語義類型關(guān)聯(lián)關(guān)系生成詞匯鏈,然后結(jié)合概念出現(xiàn)的頻次和詞匯鏈的3個特征識別強詞匯鏈,最終形成文獻知識主題[10];Kilicoglu等開發(fā)的Semantic MEDLINE自動摘要系統(tǒng)利用SemRep對文獻集中包含的謂語進行數(shù)據(jù)挖掘,將其劃分成疾病治療、藥物相互作用、藥物基因組學(xué)和疾病遺傳因素4個研究主題,并通過分析其語義關(guān)系和頻次生成語義網(wǎng)絡(luò)圖[11];Fiszman等對循證醫(yī)學(xué)文獻開展知識發(fā)現(xiàn)研究,對53種藥物的干預(yù)效果進行識別[12];Workman等為膀胱癌尋找對應(yīng)的基因信息,采用3種統(tǒng)計指標對重要的語義述語進行知識抽取,將結(jié)果與相關(guān)標準進行對比,最終驗證了其方法用于管理基因數(shù)據(jù)庫的優(yōu)越性[13-14];Zhang等利用中心度指標抽取語義網(wǎng)絡(luò)的關(guān)鍵節(jié)點,對5種不同學(xué)科疾病的伴發(fā)疾病、發(fā)病部位、治療藥物和治療措施進行知識發(fā)現(xiàn)[15];Cairelli等通過對大腦神經(jīng)損傷語義關(guān)系網(wǎng)絡(luò)按照關(guān)系頻次和概念關(guān)聯(lián)度進行裁剪,從海量科學(xué)概念中發(fā)現(xiàn)17種有助神經(jīng)損傷診斷的潛在生物標記[16]。

總之,UMLS及其相關(guān)語料庫與工具集已成為KDiBL研究的基礎(chǔ)性資源,SPO三元組是揭示生物醫(yī)藥文本信息的基礎(chǔ)知識單元。

3 基于SPO的生物醫(yī)學(xué)領(lǐng)域知識發(fā)現(xiàn)框架

本文以藥物基因組學(xué)領(lǐng)域知識發(fā)現(xiàn)為例,將基于SPO的生物醫(yī)學(xué)領(lǐng)域知識發(fā)現(xiàn)框架進行描述,如圖1所示。該框架由語義關(guān)系架構(gòu)和知識發(fā)現(xiàn)流程兩部分組成,其中語義關(guān)系架構(gòu)定義領(lǐng)域的知識組織體系,主要用于指導(dǎo)SPO抽取和清洗,是該框架的關(guān)鍵技術(shù);知識發(fā)現(xiàn)流程則描述實施過程。

圖1 基于SPO的藥物基因組學(xué)領(lǐng)域知識發(fā)現(xiàn)框架

3.1 藥物基因組學(xué)語義關(guān)系架構(gòu)

UMLS語義網(wǎng)絡(luò)能較全面地揭示生物醫(yī)學(xué)涉及概念間的各種關(guān)系,為語義抽取和知識發(fā)現(xiàn)提供支撐。為有針對性地分析生物醫(yī)學(xué)不同領(lǐng)域概念間的語義關(guān)系,學(xué)者提出可將醫(yī)學(xué)概念劃分為幾種主要的語義類型,并結(jié)合醫(yī)學(xué)理論確定若干個謂詞代表重要的語義關(guān)系。不同的謂詞與不同語義類型的概念組合成不同的語義模式,相應(yīng)的語義模式集合共同表達某類語義信息,即具體領(lǐng)域的某個核心研究內(nèi)容。這樣一種對概念、關(guān)系及其組合進行分類和定義的模式,被稱為架構(gòu)[5]。

Fismzan等提出疾病治療學(xué)的架構(gòu),將該領(lǐng)域的研究內(nèi)容分為伴發(fā)疾病、發(fā)病部位、治療藥物、治療措施[17-18],與之相關(guān)的語義關(guān)系為COEXISTS_WITH、LOCATION_OF、TREATS和PREVENTS;Fiszman等接著提出物質(zhì)相互作用研究的架構(gòu),將物質(zhì)分為藥物、化學(xué)品、生理學(xué)、病狀[18],與之相關(guān)的語義關(guān)系為AFFECTS、CAUSES、COMPLICATES、DISRUPTS、ISA、TREATS、PREVENTS、INTERACTS_WEITH;隨后,F(xiàn)ismzan等再次提出藥物基因組學(xué)和疾病基因倫理學(xué)研究的架構(gòu)[19-20]。疾病基因倫理學(xué)的架構(gòu)將語義類型分為基因表象、解剖要素和疾病過程,與之相關(guān)的語義關(guān)系為AFFECTS、ASSOCIATED_WITH、AUGMENTS、CAUSES、DISRUPTS、COEXISTS_WITH、INHIBITS、PREDISPOSES、STIMULATES。藥物基因組學(xué)架構(gòu)定義了5種語義類型和16種語義關(guān)系、6類語義信息和對應(yīng)的多種語義模式。該架構(gòu)在UMLS標準語義類型和語義關(guān)系的基礎(chǔ)上,將語義類型與語義關(guān)系的組合定義為語義模式,一組語義模式包含多個具有相近語義關(guān)系的SPO,描述一類語義信息具體內(nèi)涵。通過定義語義模式與語義信息類型,可將大量SPO所蘊含的藥物醫(yī)學(xué)信息進行分組歸類,從而體現(xiàn)其知識主題。

3.2 基于SPO的生物醫(yī)學(xué)領(lǐng)域知識發(fā)現(xiàn)流程

Fiszman等提出SPO獲取和處理的原則:根據(jù)相關(guān)性標準參考領(lǐng)域架構(gòu),定義具體子領(lǐng)域相關(guān)的核心語義SPO;根據(jù)連接性標準識別與核心SPO相關(guān)聯(lián)的其他SPO;根據(jù)新穎性標準剔除一般的、無具體信息的SPO,這些SPO中的主語或謂語一般位于靠近UMLS詞表的根節(jié)點的位置;根據(jù)顯著性標準剔除頻次低于平均值的SPO[17]。

本文以誘導(dǎo)多能干細胞領(lǐng)域iPSC為實證對象,參考藥物基因組學(xué)架構(gòu)和Fiszman等[17]的數(shù)據(jù)獲取與處理原則,制定知識發(fā)現(xiàn)流程。

(1)SPO獲取與清洗。根據(jù)確定的檢索表達式在PubMed數(shù)據(jù)庫中檢索文獻并下載相關(guān)的SPO,從中篩選出主語或賓語為iPSC的SPO,形成分析使用的初始數(shù)據(jù)集。確定清洗規(guī)則和清洗流程,在初始數(shù)據(jù)集對SPO進行篩選和剔除。首先,利用預(yù)設(shè)的藥物基因組學(xué)相關(guān)語義搭配模式對語義述語進行篩選,保留架構(gòu)范圍內(nèi)的述語,刪除其他述語;其次,根據(jù)新穎性和重要性原則,剔除含義寬泛、對信息抽取無意義的概念組成語義述語;最后,合并重復(fù)的SPO,一篇文獻中多個相同的SPO視為同一SPO。另外,還可根據(jù)SPO出現(xiàn)的頻次對其進行過濾,設(shè)置閾值去掉出現(xiàn)頻次較低的SPO。

(2)語義網(wǎng)絡(luò)圖繪制。根據(jù)SPO中主語和賓語基于謂語的共現(xiàn)關(guān)系,繪制其語義網(wǎng)絡(luò)圖。

(3)概念抽取與知識發(fā)現(xiàn)。對語義網(wǎng)絡(luò)中謂語的iPSC概念按照出現(xiàn)頻次排序,抽取排序靠前的概念形成知識主題。

4 實證分析

4.1 數(shù)據(jù)來源與數(shù)據(jù)處理

在PubMed數(shù)據(jù)庫中以“Regenerative Medicine”為關(guān)鍵詞進行檢索,選取被Semantic Medline數(shù)據(jù)庫索引且文獻類型為“Journal Article”,時間為2010年1月1日—2014年12月31日,檢索日期為2017年3月28日,檢索獲得10 687篇文獻。

利用SemRep抽取每篇文獻題目和摘要文本中的語義述語,得到65 042個原始SPO三元組。為聚焦于誘導(dǎo)多能干細胞技術(shù),首先以主語或賓語為“iPSC”在原始SPO三元組數(shù)據(jù)集中進行篩選,獲得相關(guān)語義述語782個,其中以“iPSC”為主語的SPO數(shù)量為634個,以“iPSC”為賓語的SPO數(shù)量為148個;其次,依據(jù)藥物基因組學(xué)框架設(shè)定謂詞和領(lǐng)域主題詞進一步篩選,保留758個SPO,不屬于框架設(shè)定的謂詞有NEG_PART_OF,非領(lǐng)域主題詞有notch、complex、research personnel、material等;再次,以“iPSC”為主語的SPO數(shù)量為618個,以“iPSC”為賓語的SPO數(shù)量為140個;最后,在所抽取的語義述語中,有些主語或賓語概念的含義過于寬泛,不能為概念抽取提供有意義的信息。如location、surface、central、enviroment、part、place、intermediate、generalized、landscapsce等,需要將其剔除,共得到用于分析的SPO數(shù)量為698個,其中以“iPSC”為主語的SPO數(shù)量為603個,以“iPSC”為賓語的SPO數(shù)量為95個。

4.2 iPSC文獻知識發(fā)現(xiàn)

本節(jié)在上述SPO統(tǒng)計的基礎(chǔ)上,進一步對SPO中謂語進行分析,并以謂語為邊繪制SPO語義網(wǎng)絡(luò)圖。

4.2.1 Prediction分析

iPSC領(lǐng)域的語義類型主要集中于實體物質(zhì)、解剖要素、生物有機體和病理學(xué)四個方面。從概念類型數(shù)量角度看,實體物質(zhì)和解剖要素的相關(guān)概念居多;從概念出現(xiàn)頻次角度看,生物有機體的相關(guān)概念居多(見表1)。該領(lǐng)域的語義述語謂語類型不多,共有AFFECTS、DISRUPTS、AUGEMTS、ADMINSTERED_TO、PRODUCES、LACATION_OF、PART_OF種,其語義信息主要聚焦于藥理作用和生物特征兩方面(見表2)。其中,表示生物特征的語義模式包含數(shù)量眾多的由謂語LACATION_OF和PART_OF連接的SPO三元組;表示藥理作用的語義模式中,SPO三元組中謂語出現(xiàn)的頻次依次為PRODUCES、AUGEMTS、ADMINSTERED_TO、AFFECTS和DISRUPTS。從語義類型和語義模式可初步判斷,該領(lǐng)域的研究重點聚焦于誘導(dǎo)多能干細胞的生成,具體內(nèi)容為使用重組編碼來源物質(zhì)借助各種輔助物質(zhì)生成iPSC。

相較藥物基因組學(xué)架構(gòu),iPSC語義類型缺少生物醫(yī)學(xué)過程,語義信息類型缺少遺傳病因、物質(zhì)關(guān)系、臨床作用和過程并發(fā)。

表1 誘導(dǎo)多能干細胞領(lǐng)域語義類型

表2 誘導(dǎo)多能干細胞領(lǐng)域語義信息類型和語義模式

4.2.2 語義網(wǎng)絡(luò)分析

NetMiner是將社會網(wǎng)絡(luò)分析和可視化探索技術(shù)相結(jié)合的工具,允許使用者以可視化和交換的方式探查網(wǎng)絡(luò)數(shù)據(jù),分析網(wǎng)絡(luò)潛在的模式和結(jié)構(gòu),并具有高級的圖形特性[21]。本文使用NetMiner工具繪制基于謂語共現(xiàn)關(guān)系的有向語義網(wǎng)絡(luò)圖。網(wǎng)絡(luò)節(jié)點表示語義概念,節(jié)點形狀表示概念的語義類型。語義關(guān)系用節(jié)點間連線的標簽標識,連線具備寬度和方向兩個屬性,寬度表示對應(yīng)語義術(shù)語的頻次,方向由主語指向賓語。

圖2中iPSC為主語,其他節(jié)點為賓語,二者的語義關(guān)系主要有PART_OF、LOCATION_OF、PRODUCES三種,對應(yīng)的語義模式為{Anatomy}PART_OF{Living Being or Anatomy}、{Anatomy}LOCATION_OF{Substance or Pathology}、{Substance or Anatomy}PRODUCES{Anatomy}。前兩種語義模式表示誘導(dǎo)多能干細胞領(lǐng)域蘊含的生物特征,第三種語義模式揭示該領(lǐng)域涉及的藥理作用。其中,五角星形節(jié)點隸屬于實體組生物有機體或解剖要素,主語iPSC與這些賓語形成的語義關(guān)系為PART_OF。生物有機體出現(xiàn)頻次較高的概念有human、house mice、mus,解剖要素出現(xiàn)頻次較高的概念為dental pulp?,F(xiàn)階段用于PSC重組編碼通常用的細胞為人體皮膚細胞,其次為動物成纖維細胞和牙髓細胞;用于實驗的動物對象主體為鼠類,其次是家兔、家豬、猴子等;涉及的人體病灶組織有心臟、肝臟等。圓形節(jié)點隸屬于實體組物質(zhì)要素或病理學(xué),主語iPSC與這些賓語形成的語義關(guān)系為LOCATION_OF。物質(zhì)要素中出現(xiàn)頻次較高的概念為TRANSCRIPTION FACTOR、POUSP1、SOX2、MYC等。物質(zhì)要素組成員為各種轉(zhuǎn)錄因子、基因、蛋白質(zhì)、酶等生成誘導(dǎo)多能干細胞的輔助因素。病例癥狀組成員有帕金森病、神經(jīng)退行性疾病、脊髓性肌萎縮、唐氏癥、神經(jīng)病等,顯示現(xiàn)階段誘導(dǎo)多能干細胞研究所針對的疾病類型。十字形節(jié)點也隸屬于實體組生物有機體或解剖要素,主語iPSC與這些賓語形成的語義關(guān)系為PRODUCE。十字形節(jié)點內(nèi)容與圓形節(jié)點內(nèi)容有較大重疊度,為了區(qū)分兩種語義關(guān)系,特此用兩種不同的形狀標識節(jié)點。此處需要說明的是箭頭指向是由主語指向賓語,但不代表語義關(guān)系一定也是主語指向賓語,圖2中的PRODUCES關(guān)系和圖3中的PART_OF關(guān)系需要反向理解。

圖3中iPSC為賓語,其他節(jié)點為主語,分別用三角形、菱形、圓形、五角星形和十字形五種形狀表示,二者對應(yīng)的語義關(guān)系為AFFECTS、ADMINISTERED_TO、DISRUPTS、AUGMENTS和PART_OF。對應(yīng)的語義模式有{Substance or Anatomy}AFFECTS OR ADMINISTERED_TO OR DISRUPTS OR AUGEMENTS{Anatomy}、{Substance or Anatomy}PART_OF{Anatomy}。其中,除語義關(guān)系DISRUPTS表示某些蛋白質(zhì)或酸性鞘磷脂酶會破壞誘導(dǎo)多能干細胞的生成外,其他多種基因、轉(zhuǎn)錄分子等有助于誘導(dǎo)多能干細胞的生成或使用。語義關(guān)系PART_OF表示各種基因或蛋白質(zhì)是誘導(dǎo)多能干細胞的組成部分,與圖2中的LOCATION_OF和PRODUCE關(guān)系形成互補。

圖2 Pluripotent Stem Cells為主語的語義網(wǎng)絡(luò)

圖3 Pluripotent Stem Cells為賓語的語義網(wǎng)絡(luò)

4.2.3 知識主題分析

本節(jié)結(jié)合專家解讀,對iPSC領(lǐng)域的知識主題進行描述和分析。通過分析發(fā)現(xiàn)該領(lǐng)域的知識主題集中于生物特征和藥理作用兩大類,而生物特征可細分為iPSC生成的影響要素(或輔助要素)、iPSC針對的疾病類型、iPSC實驗涉及的人體病灶組織和iPSC實驗的對象四個方面,而藥理作用聚焦于多種要素對iPSC生成的影響作用。

(1)iPSC生成的影響要素(或輔助要素)。誘導(dǎo)多能干細胞是通過對成熟細胞進行“重新編程”培育出的干細胞。在細胞重組過程中,對源細胞的基因表達和轉(zhuǎn)錄調(diào)控是兩個非常重要的環(huán)節(jié)。因此,語義網(wǎng)絡(luò)中出現(xiàn)大量基因類、蛋白質(zhì)類概念,其中TRANSCRIPTION FACTOR、genes、MicroRNAS、OKSM為出現(xiàn)頻次較高的重要概念。兩個重要環(huán)節(jié)中的任何因素都可對iPSC生成產(chǎn)生影響。

(2)iPSC針對的疾病類型。誘導(dǎo)多能干細胞實驗采用最多的成熟細胞為人體皮膚細胞和豬皮膚干細胞,最終生成的誘導(dǎo)產(chǎn)物有心肌細胞、肝臟細胞、人類紅細胞和血小板、胰島素分泌細胞和神經(jīng)干細胞等,分別用于治療心臟病、肝臟疾病、貧血、糖尿病和神經(jīng)變性疾病等。iPSC細胞用于以上疾病的細胞治療或基因治療。此外,也有研究者使用牙髓細胞作為誘導(dǎo)多能干細胞的來源細胞將其重組后生成神經(jīng)組細胞,用于治療自閉癥。

(3)iPSC實驗涉及的人體病灶組織。心臟、肝臟、大腦是iPSC實驗涉及的較典型的人體病灶組織,此外,還有眼睛、胰腺器官等。iPSC在治療影響再生能力較差的器官、組織的毀滅性疾病和神經(jīng)變性疾病方面有巨大的潛力。

(4)iPSC實驗的對象。目前有關(guān)誘導(dǎo)多能干細胞的研究基本處于實驗研究階段,誘導(dǎo)生成的各種細胞一般用于鼠類、家兔、家犬、猴子等動物。

多種要素對iPSC生成的影響作用。誘導(dǎo)多能干細胞藥理作用方面的摘要主題聚焦于多種要素對PSC生成的影響作用。除三個節(jié)點概念(Proteins、acid sphingomyelinase和N-glycolylneuraminic acid)對PSC的生成有抑制作用外,其他概念如小分子核糖核酸、特別的蛋白質(zhì)、轉(zhuǎn)錄分子及各種基因等對PSC的生成均有正向促進作用。如NANOG細胞周期蛋白可抑制PSC重編程過程的反復(fù)性,提高重編程效率;轉(zhuǎn)錄因子SOX2在多能干細胞形成的過程中扮演重要角色,是干細胞多能性的一個指示器,具有影響干細胞維持或分化的能力。

5 結(jié)語

本文利用UMLS和SemRep從iPSC領(lǐng)域文獻中抽取SPO三元組,參考藥物基因組學(xué)語義關(guān)系架構(gòu)對SPO三元組數(shù)據(jù)集進行清洗和篩選,構(gòu)建富含語義信息的iPSC領(lǐng)域SPO語義網(wǎng)絡(luò),挖掘iPSC領(lǐng)域知識主題的內(nèi)涵。研究結(jié)果顯示,該框架具有細粒度、高效、直觀等優(yōu)點。該框架可以兼容生物醫(yī)學(xué)領(lǐng)域多種架構(gòu),幫助領(lǐng)域?qū)<铱焖佟⒅庇^地發(fā)現(xiàn)海量文獻中非結(jié)構(gòu)化文本信息所蘊含的知識主題;基于SPO的語義網(wǎng)絡(luò)能直觀細致地揭示概念間的語義關(guān)系,從微觀層面深入揭示文獻內(nèi)容,細粒度地揭示醫(yī)學(xué)文獻的知識內(nèi)容。研究的不足在于,分析使用的數(shù)據(jù)集來自藥物基因組學(xué)文獻,數(shù)據(jù)內(nèi)容不夠完整,對知識發(fā)現(xiàn)結(jié)果有所影響。未來,將進一步完善iPSC領(lǐng)域數(shù)據(jù)集,通過對語義網(wǎng)絡(luò)進行子團識別和聚類分析,開展?jié)u進式知識發(fā)現(xiàn)研究。

[1]李清.一體化醫(yī)學(xué)語言系統(tǒng)的語義相似度及推理研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2012.

[2]白海燕,王莉,梁冰.UMLS及其在智能檢索中的應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2012(4):1-9.

[3]胡正銀.基于個性化語義TRIZ的專利技術(shù)挖掘研究[D].北京:中國科學(xué)院大學(xué),2015.

[4]KESELMAN A,ROSEMBLAT G,KILICOGLU H,et al.Adapting semantic natural language processing technology to address information overload in influenza epidemic management[J].Journal of the American Society for Information Science & Technology Jasist,2010,61(12):2531-2543.

[5]NCBI.UMLS?Reference Manual[EB/OL].[2017-05-31].http://www.ncbi.nlm.nih.gov/books/NBK9676/.

[6]ARONSON A R,LANG F.An overview of MetaMap:historical perspective and recent advances[J].Journal of the American Medical Informatics Association,2010,17(3):229-236.

[7]ARNOLD P,RAHM E.Semrep:a repository for semantic mapping[EB/OL].[2017-09-08].https://dbs.uni-leipzig.de/en/publication/title/semrep_a_repository_for_semantic_mapping.

[8]NCBI.Introduction to MeSH[EB/OL].[2017-05-31].https://www.ncbi.nlm.nih.gov/mesh.

[9]NCBI.PubMed Centra[EB/OL].[2017-05-31].https://www.ncbi.nlm.nih.gov/pubmed.

[10]REEVE L H,HAN H,BROOKS A D.The use of domain-specific concepts in biomedical text summarization[J].Information Processing& Mana-gement,2007,43(6):1765-1776.

[11]KILICOGLU H,FISZMAN M,RODRIGUEZ A,et al.Semantic MEDILINE: a web application for managing the results of PubMed searches[EB/OL].[2017-05-31].https://www.researchgate.net/publication/228617741.

[12]FISZMAN M,DEMNER-FUSHMAN D,KILICOGLU H,et al.Automatic summarization of MEDLINE citations for evidencebased medical treatment:a topic-oriented evaluation[J].Journal Biomedical Informatics,2009,42(5):801-813.

[13]WORKMAN T E,FISZMAN M,HURDLE J F,et al.Biomedical text summarization to support genetic database curation:using Semantic MEDLINE to create a secondary database of genetic information[J].Journal of Medical Library Association Jmla,2010,98(4):273-281.

[14]WORKMAN T E,HURDLE J F.Dynamic summarization of bibliographic-based data[J].Bmc Medical Informatics and Decision Making,2011,11(1):1-10.

[15]ZHANG H,FISZMAN M,SHIN D,et al.Degree centrality for semantic abstraction summarization of therapeutic studies[J].Journal of Biomedical Informatics,2011,44(5):830-838.

[16]CAIRELLI M J,FISZMAN M,ZHANG H,et al.Networks of neuroinjury semantic predications to identify biomarkers for mild traumatic brain injury[J].Journal of Biomedical Semantics,2015,6(1):25.

[17]FISZMAN M,RINDFLESCH T C,KILICOGLU H.Abstraction summarization for managing the biomedical research literature[C]//Proceedings of the HLT-NAACL Workshop on Computational Lexical Semantics.[S.1.]:[s.n.],2004:76-83.

[18]FISZMAN M,RINDFLESCH T C,KILICOGLU H.Summarizing drug information in Medline citations[J].AMIA.Annual Symposium proceedings.AMIA Symposium,2006:254-258.

[19]AHLERS C B,FISZMAN M,DEMNER-FUSHMAN D,et al.Extracting semantic predications from MEDLINE citations for pharmacogenomics[J].Pac Symp Biocomput,2007,12:209-220.

[20]WORKMAN T E,FISZMAN M,HURDLE J F,et al.Biomedical text summarization to support genetic database curation: using Semantic MEDLINE to create a secondary database of genetic information[J].Journal of the Medical Library Association Jmla,2010,98(4):273-281.

[21]Cyram.NetMiner v4.3.0[EB/OL].[2017-05-08].http://www.netminer.com.

Study on Knowledge Discovery Based on “Subject-Predication-Object” Predications: A Case Study of Induced Pluripotent Stem Cells

WEI Ling1,2, HU ZhengYin2, PANG HongShen3, QIN XiaoChu4, GUO HongMei5, FANG Shu2
(1.School of Information and Management, Shanxi University of Finance and Economics, Taiyuan 030006, China;2.Chengdu Library and Information Center, Chinese Academy of Sciences, Chengdu 610041, China; 3.Shenzhen University Library, Shenzhen 518060, China;4.Guangzhou Institutes of Biomedicine and Health, Chinese Academy of Sciences, Guangzhou 510530, China;5.National Science Library, Chinese Academy of Sciences, Beijing 100190, China)

This paper summarizes a set of knowledge discovery framework to make studies on knowledge discovery in biomedical literature based on Subject-Predication-Object (SPO) predications, and studies the key technology and implementation process of the framework. First, SPO predications were extracted from the biomedical literature by using UMLS corpus and SemRep; then, according to the knowledge organization system, vocabulary and cleaning rules were self-defined,the SPOs were cleaned and filtered; next, semantic network diagrams were constructed by NetMiner, which included subjects and objects as the center nodes and predications as the edges; finally, combining the diagrams and experts’ interpretation, domain knowledge discovery was achieved. In this paper, an empirical study was conducted to investigate the field of pluripotent stem cells. Research results show that, SPO predications can reveal the knowledge content of scientific literature, and SPOs-based semantic networks can intuitively support domain knowledge discovery. The framework is compatible, efficient and easy to implement.

Knowledge Discovery; SPO; Knowledge Organization; Semantic Network

G250

10.3772/j.issn.1673-2286.2017.09.005

* 本研究得到中國科學(xué)技術(shù)信息研究所ISTIC-EBSCO文獻大數(shù)據(jù)發(fā)現(xiàn)服務(wù)聯(lián)合實驗室基金項目“基于SemRep與SKOS的科技文獻語義知識組織應(yīng)用示范研究”資助。

隗玲,女,1981年生,博士研究生,研究方向:科學(xué)計量、知識發(fā)現(xiàn),E-mail:weiling@mail.las.ac.cn。

胡正銀,男,1979年生,博士,研究方向:知識組織、技術(shù)挖掘,E-mail: huzy@clas.ac.cn。

龐弘燊,男,1985年生,博士,研究方向:信息可視化、知識組織,E-mail: phs@szu.edu.cn。

覃筱楚,女,1988年生,碩士,研究方向:生物信息學(xué),E-mail:qin_xiaochu@gibh.ac.cn。

郭紅梅,女,1985年生,博士,館員,研究方向:文本挖掘、科學(xué)計量分析,E-mail:guohm@mail.las.ac.cn。

方曙,男,1957年生,博士,研究方向:科學(xué)計量、科技政策,E-mail:fangsh@clas.ac.cn。

2017-07-20)

猜你喜歡
三元組生物醫(yī)學(xué)賓語
基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
芻議“生物醫(yī)學(xué)作為文化”的研究進路——兼論《作為文化的生物醫(yī)學(xué)》
靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
連詞that引導(dǎo)的賓語從句
特征標三元組的本原誘導(dǎo)子
賓語從句及練習(xí)
關(guān)于余撓三元組的periodic-模
國外生物醫(yī)學(xué)文獻獲取的技術(shù)工具:述評與啟示
中考試題中的賓語從句
LED光源在生物醫(yī)學(xué)中的應(yīng)用分析
栾城县| 赣州市| 尼玛县| 高尔夫| 子长县| 阳东县| 齐河县| 温宿县| 石狮市| 仙居县| 怀柔区| 六枝特区| 南岸区| 沈阳市| 四会市| 博客| 响水县| 安化县| 华容县| 九龙坡区| 崇信县| 新沂市| 乳山市| 黄浦区| 许昌县| 临泉县| 固安县| 沧州市| 子长县| 威海市| 大安市| 玉溪市| 延津县| 囊谦县| 凌云县| 延边| 嘉定区| 广昌县| 济阳县| 丽水市| 合肥市|