中國人群先天性白內障突變譜的建立

2018-11-22 08:54曹宗富喻浴飛陳翠霞高華方陽菊華

中國計劃生育學雜志 2018年7期

曹宗富王雷喻浴飛陳翠霞高華方陽菊華馬旭*

1. 國家衛(wèi)生計生委科學技術研究所(北京，100081)：2. 國家人類遺傳資源中心：3.北京協(xié)和醫(yī)學院研究生院：4. 博奧生物有限公司：5. 福建醫(yī)科大學

先天性白內障是一組在出生時或兒童早期發(fā)生的白內障[1]，是一種嚴重的出生缺陷，是世界兒童期可治療性致盲的首要原因[2-5]。在精準醫(yī)學時代，可通過在孕期對胎兒進行致病突變檢測，實現(xiàn)出生缺陷干預。然而，先天性白內障具有明顯的遺傳異質性[6]。大量研究證實，先天性白內障致病基因包括α/β/γ晶體蛋白基因[7-13]、膜蛋白基因[14-17]、調節(jié)眼球發(fā)育的基因[18-20]、細胞骨架蛋白基因[21-22]等其他基因。同時，群體遺傳學研究發(fā)現(xiàn)，中國人群與歐洲、非洲、美洲等世界上其他人群相比，具有典型的東亞血統(tǒng)。先天性白內障相關的致病基因和變異在中國人群和世界人群之間頻率分布存有差異，以及中國人群先天性白內障突變譜尚不明確。本研究基于PubMed和CNKI知識庫，利用計算機文本挖掘技術，篩選先天性白內障相關文獻，提取有關先天性白內障基因、變異和人群信息，建立中國人群先天性白內障基因變異數(shù)據(jù)庫，描繪中國人群先天性白內障突變譜。

1 資料與方法

1.1 數(shù)據(jù)來源

PubMed和CNKI文獻知識庫。

1.2 研究方法

1.2.1從PubMed文獻知識庫中提取先天性白內障相關的基因和變異PubMed E-utilities為編程接口提供了與web搜索相同的結果。以“Congenital cataract”為關鍵詞檢索文獻摘要，提取相關的表型、基因和變異信息。在文本挖掘過程中，疾病表型信息和基因名稱基于字典的方法提取。選擇人類表型標準用語(HPO)[23]作為英文疾病名稱字典，選擇人類基因命名委員會(HGNC)[24]作為基因名稱字典。以“Chinese”作為文本挖掘時中國人的標識。變異信息則根據(jù)人類基因組變異協(xié)會的命名規(guī)則以正則表達式識別提取。當存在多對基因和變異關系時，基于語句水平的共現(xiàn)性建立關聯(lián)規(guī)則。該過程主要基于R VarfromPDB包的函數(shù)extract_pubmed實現(xiàn)。

1.2.2從CNKI文獻知識庫中提取先天性白內障相關的基因和變異以“先天性白內障”為關鍵詞，在CNKI頁面中進行檢索和批量下載。選擇中文人類表型標準用語(CHPO)作為英文疾病名稱的字典。選擇HGNC作為基因名稱的字典。同時，文本挖掘字典中加入少數(shù)民族名稱。與英文文本分詞不同：①中文文本不能采用空格為分隔符進行分詞；②中文和英文需要通過兩次分詞過程。第一次分詞過程中，變異信息需要單獨作為英文進行分詞，變異信息提取出來后再加入到字典中，進行第二次中文分詞，已經(jīng)加入字典的詞組將作為整體被分割，才可以把所有疾病表型、基因、變異、民族等信息一起提取出來，同時獲得每個信息的在一段文本中的位置信息。

利用jiebaR包的函數(shù)worker分割文本，以上所有表型、基因和變異字典里收錄的詞組會自動作為整體進行分割，字典里沒有出現(xiàn)的詞按照空格進行分割，分割完畢后利用DiGVaRCN包的函數(shù)coordinate_get獲得每個分詞的位置信息。位置信息包括該分詞在位置中的段落、段落中的句子、句子中的分詞等。利用R DiGVaRCN包的函數(shù)relation_resolve提取并解析疾病基因變異關系。根據(jù)疾病名稱、基因、變異等分詞的位置信息，基于句級共現(xiàn)性和分詞距離解析疾病基因變異關系。

1.2.3建立先天性白內障基因變異數(shù)據(jù)庫以人工方式對從PubMed和CNKI獲取的先天性白內障相關的表型、基因和變異進行逐個檢查，以家系或先證者為單位進行整理。在人工檢查過程中，根據(jù)表型信息，剔除合并其他表型或綜合征的先天性白內障相關文獻?；蛎Q按照HGNC進行標準化，變異采用HGVS的命名規(guī)則進行標準化，然后對兩種來源的信息進行整合，并對變異所在的外顯子或內含子信息進行注釋。

1.2.4建立中國人群先天性白內障突變譜對建立的先天性白內障基因變異數(shù)據(jù)庫，按照研究人群劃分為中國人群和非中國人群。在PubMed來源的研究中，標識了“Chinese”的研究視為中國人群，世界其他地區(qū)的研究或者沒有明確標識“Chinese”的人群則合并為非中國人群。來自于CNKI的所有研究均視為中國人群。對兩種人群在基因、外顯子或內含子、變異水平上分別計算變異頻率。

其中，i表示某個基因或者外顯子(內含子)；ni表示該基因或外顯子(內含子)上發(fā)生突變的家系或先證者數(shù)目；N表示所有家系或先證者的數(shù)目。

2 結果

2.1 先天性白內障基因變異數(shù)據(jù)庫的建立

在PubMed中，從750篇檢索的文獻中挑選出280篇先天性白內障文獻，其中115篇來自于中國人群的報道；從CNKI檢索的112篇文獻中挑選出12篇，全部為中國人群的報道。因此，292篇文獻中127篇來自于中國人群研究。在對這些文獻挖掘基礎上，對提取出來的表型、基因和變異進行了逐個人工檢查，建立了先天性白內障基因突變數(shù)據(jù)庫。這些研究共涉及538個先天性白內障先證者，其中208個先證者來自于中國人群相關研究，包括179個常染色體顯性遺傳家系、5個常染色體隱性遺傳的家系、21個散發(fā)病例，有3個家系沒有明確報告遺傳模式。在中國人群中，先天性白內障相關的169個變異分布在32個基因的60個外顯子或內含子可變剪切區(qū)域上面(表1)。

表1 從PubMed和CNKI上獲取的中國人群先天性白內障相關基因

2.2 先天性白內障突變譜

根據(jù)已建立的先天性白內障基因變異數(shù)據(jù)庫，對這些變異在基因、外顯子或內含子、變異水平分別進行匯總分析，進一步獲得先天性白內障在中國人群的突變譜。在基因水平，突變頻率在10%以上的基因包括GJA8、CRYGD和GJA3(表1)。在外顯子或內含子水平，3次以上突變的外顯子或內含子共有21個，累積突變頻率達到了74.5%(表2)，其中突變頻率最高的3個外顯子分別是GJA8的第二外顯子、GJA3的第二外顯子、CRYGD的第二外顯子，均在9%以上；還包含了2個內含子剪切區(qū)域，分別是CRYBA1基因的第三內含子和MIP基因的第三內含子。在突變水平，3次以上的突變共有7個，累積突變頻率僅為19.2%(表3)。

與世界上其他非中國人群比較發(fā)現(xiàn)，中國人群先天性白內障高頻突變的基因、高頻突變的外顯子(內含子)和高頻突變在分布上大致相似，但也存在一定的差異。而低頻突變的基因、低頻突變的外顯子(內含子)和罕見突變在分布上存在著巨大的差異(圖1)?；騀YCO1在巴基斯坦人和阿拉伯人中有報道[25]，突變頻率在中國人群之外的世界其他人群中占5.18%，但在中國人群先天性白內障先證者中沒有報道。同樣，還包括LONP1[26]、LIM2[27]、SIPA1L3[28]、TMEM114[29]等基因上的突變，在中國人群先天性白內障先證者中也沒有報道。

表2 中國人群先天性白內障先證者中高頻突變的基因外顯子或內含子

表3 中國人群先天性白內障先證者中的高頻突變

圖中顏色從深到淺對應突變頻率由高到低。黑色為在中國人群先天性白內障先證者中高頻突變的基因、外顯子(內含子)或突變。每個方格表示每個基因上、外顯子(內含子)上或突變的突變頻率。圖1 先天性白內障突變譜在中國人群與世界其他人群間差異

3 討論

本研究建立了一種計算機文本挖掘和人工檢查相結合的方法，從PubMed和CNKI中提取先天性白內障相關的基因、變異和人群信息，并建立了中國人群先天性白內障基因變異數(shù)據(jù)庫，在基因、外顯子(內含子)和變異水平上分別獲得了先天性白內障突變譜。該方法與傳統(tǒng)手工檢索方法相比，更加準確，效率更高[30-32]。傳統(tǒng)方法需要人工閱讀大量的文獻，從中提取表型和基因型相關信息進行整合，對某一種單基因病可能需要數(shù)周來完成且易出錯。計算機文本挖掘的參與，可在20min左右完成初步的信息提取工作,并建立信息間關聯(lián)；人工對提取的結構化數(shù)據(jù)進行檢查，效率也得到極大提升，最大可能地節(jié)省了人力，也減少人工數(shù)據(jù)編譯過程中出現(xiàn)的錯誤[33]。該研究不僅實現(xiàn)了基于PubMed英文文本挖掘，還實現(xiàn)了基于CNKI的中文文本挖掘，可以為基于單基因病臨床病歷的文本挖掘提供借鑒[34]。

本研究從127篇中國人群先天性白內障相關文獻中獲取了208個家系或先證者的樣本，盡管樣本量不夠大，但對中國人群先天性白內障仍具有一定的代表性，其突變譜可在一定程度上反映中國人群先天性白內障的遺傳基礎。同時，觀察了中國人群和世界其他人群先天性白內障突變譜之間差異，發(fā)現(xiàn)這些差異在基因、外顯子(內含子)和突變水平都存在，突變頻率越低差異越大。Mathieson等[35]研究發(fā)現(xiàn)，罕見變異在人群之間差異對突變譜有著巨大影響。精準醫(yī)學時代下，先天性白內障突變譜尤其是罕見變異的人群間差異，增加了相關遺傳檢測產(chǎn)品研究開發(fā)的復雜性。因此，了解到先天性白內障突變譜在中外人群之間的差異，對開發(fā)針對中國人群先天性白內障相關的遺傳檢測產(chǎn)品，具有較大的參考價值。如果采用全外顯子組測序或者所有致病基因靶向測序的方法，則可以完全避免差異對檢出率的影響；如果采用Sanger測序方法選擇高頻突變外顯子及兩側區(qū)域進行檢測，檢出率期望能夠達到74%以上；如果采用芯片方法對高頻突變位點進行檢測，檢出率將可能在20%以下，甚至更低。因此，前兩種方法都將是可行的，考慮到成本，可采用綜合性策略，即先基于高頻外顯子區(qū)域用Sanger測序進行初篩，未檢出病例再選擇使用新一代測序進行全外顯子組篩查。同時，該方法可為其它單基因病的中國人群突變譜獲得提供借鑒，為基于全外顯子/全基因組測序的臨床生物信息學分析流程優(yōu)化[36]、變異溯源和臨床解讀提供便利，為嬰幼兒和兒童期單基因病相關的出生缺陷早期預防和干預提供必要的參考依據(jù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡