国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文獻(xiàn)挖掘視角的組學(xué)研究脈絡(luò)梳理

2018-03-21 05:09:56,,,
關(guān)鍵詞:基因組學(xué)組學(xué)基因組

,,, ,

隨著科學(xué)研究的進(jìn)展,人們發(fā)現(xiàn)單純研究某一方向無法解釋全部生物醫(yī)學(xué)問題,科學(xué)家便提出從整體出發(fā)研究人類組織細(xì)胞結(jié)構(gòu)、基因、蛋白及其分子間相互的作用,通過整體分析反映人體組織器官功能和代謝的狀態(tài),因此便產(chǎn)生了“組學(xué)”的概念。從分子生物學(xué)角度,組學(xué)主要涵蓋基因組學(xué)、蛋白組學(xué)、代謝組學(xué)、轉(zhuǎn)錄組學(xué)、脂類組學(xué)、免疫組學(xué)、糖組學(xué)和 RNA組學(xué)等。Omics是組學(xué)的英文稱謂,其詞根“-ome”在英文中是指一些種類個(gè)體的系統(tǒng)集合。Genomics(基因組學(xué))是最早提出的組學(xué)類型,由美國科學(xué)家Thomas Roderick于1986年提出[1],之后其他類型的組學(xué)相繼出現(xiàn)。筆者通過查閱分析國內(nèi)外大量組學(xué)相關(guān)綜述后發(fā)現(xiàn),現(xiàn)階段的組學(xué)研究綜述都是關(guān)注某一種組學(xué)的最新進(jìn)展,缺少從宏觀角度分析多種組學(xué)的融合研究。就目前組學(xué)研究的態(tài)勢而言,多種組學(xué)技術(shù)融合已成為必然趨勢。因此,全面研究組學(xué)的整體發(fā)展趨勢和各類組學(xué)之間的脈絡(luò)關(guān)系,顯得十分重要。文本挖掘技術(shù)和信息計(jì)量學(xué)方法的發(fā)展為從海量的科研文獻(xiàn)中梳理組學(xué)研究脈絡(luò)提供了可能[2]。

文獻(xiàn)是科研成果的主要產(chǎn)出和表達(dá)形式,是由科研工作者對其創(chuàng)造性研究成果進(jìn)行理論分析和科學(xué)總結(jié)并公開發(fā)表的文體,也是醫(yī)學(xué)事業(yè)不斷發(fā)展的重要科技信息源,是記錄醫(yī)學(xué)科技進(jìn)步、重大發(fā)明和改革的歷史性文件[3]。文獻(xiàn)挖掘[4]是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)重要研究方向,其處理對象是文本類型的文獻(xiàn)數(shù)據(jù)。一般通過統(tǒng)計(jì)方法獲取所關(guān)注的文獻(xiàn),再使用自然語言處理方法從中抽取出特定的事實(shí)信息,并對內(nèi)容進(jìn)行分析,從非結(jié)構(gòu)化的數(shù)據(jù)中分析出隱藏的一些規(guī)律。文獻(xiàn)挖掘方法已在多個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,如生物學(xué)、醫(yī)藥學(xué)、生物醫(yī)藥學(xué)以及科學(xué)計(jì)量學(xué)等。文獻(xiàn)挖掘技術(shù)[5]主要包括信息檢索、實(shí)體識別和信息抽取。實(shí)體識別[6]旨在發(fā)現(xiàn)文獻(xiàn)中重要的實(shí)體,該技術(shù)中常見的方法為基于特征、基于詞典或者基于規(guī)則進(jìn)行實(shí)體識別。而信息抽取技術(shù)主要把文獻(xiàn)中含有的重要信息或者事實(shí)抽取出來,并用形式化的結(jié)構(gòu)表示,依據(jù)共現(xiàn)關(guān)系[7]和自然語言處理技術(shù)[8]進(jìn)行文本內(nèi)容關(guān)系的抽取。

文獻(xiàn)計(jì)量分析[9]有助于全面了解某一研究領(lǐng)域的國內(nèi)外文獻(xiàn)發(fā)表情況,目前以所有組學(xué)為對象的文獻(xiàn)計(jì)量分析少之又少。通過分析國內(nèi)外文獻(xiàn)發(fā)表情況,方便該領(lǐng)域研究人員了解組學(xué)的研究現(xiàn)狀及發(fā)展方向,有助于科研管理機(jī)構(gòu)在項(xiàng)目評審、資助中合理分配資源,有助于其科研選題、成果發(fā)表及選擇研究合作方并調(diào)整研究方向[10]。

本文擬利用文獻(xiàn)計(jì)量學(xué)方法,借助PubMed數(shù)據(jù)庫及相關(guān)文獻(xiàn)挖掘、分析方法對“組學(xué)(Omics)”相關(guān)英文文獻(xiàn)進(jìn)行統(tǒng)計(jì)和分析,探尋組學(xué)的研究軌跡,為研究人員更加深入系統(tǒng)地開展組學(xué)研究提供參考。

1 資料來源與方法

本文使用的數(shù)據(jù)集來自PubMed數(shù)據(jù)庫[11]。美國國立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)提供的The Entrez Programming Utilities(E-utilities)編程工具,是訪問NCBI Entrez查詢和PubMed數(shù)據(jù)庫的穩(wěn)定接口,可以實(shí)現(xiàn)PubMed數(shù)據(jù)庫記錄的批量下載。本文使用E-utilities中的Esearch和Efetch 2種工具獲取PubMed記錄,時(shí)間跨度為1896-2016年,共獲得27 040 819條記錄,包含所有的出版類型。本文關(guān)注的主題為“組學(xué)(Omics)”。組學(xué)是研究一些種類個(gè)體的系統(tǒng)集合的學(xué)科,如基因組是構(gòu)成生物體所有基因的組合,基因組學(xué)這門學(xué)科是研究這些基因以及這些基因間的關(guān)系,因此我們將組(Omes)與組學(xué)(Omics)同等對待。具有組學(xué)含義的單詞均有一個(gè)共同的特征,即以“-ome” “-omes”“-omic”或“-omics”結(jié)尾,故本文選取文獻(xiàn)的“title”或“abstract”為統(tǒng)計(jì)窗口,從中識別具備上述特征的單詞,在數(shù)據(jù)集中共識別出19 268個(gè)具備上述特征的單詞。通過刪除噪音單詞(如“some” “home”等),最后得到77個(gè)出現(xiàn)頻次不低于10次的“-Omics”單詞(表1),以供下一步分析。將上述77個(gè)“-Omics”單詞重新在原始數(shù)據(jù)的題目和摘要中用Python語言編寫的程序進(jìn)行匹配,27 040 819條原始數(shù)據(jù)中含有77個(gè)“-Omics”單詞中的任何一個(gè)的記為有效數(shù)據(jù),共得到346 977條記錄作為本文的數(shù)據(jù)集。

可視化分析采用VOSviewer,它是一款用來構(gòu)建和查看文獻(xiàn)計(jì)量圖譜的免費(fèi)文獻(xiàn)計(jì)量分析軟件,基于文獻(xiàn)的共引和共被引原理,可用于繪制各個(gè)知識領(lǐng)域的科學(xué)圖譜。將所有類型組學(xué)的共現(xiàn)數(shù)據(jù)經(jīng)過處理后導(dǎo)入VOSviewer進(jìn)行可視化,得到網(wǎng)絡(luò)可視化圖。圖中圓圈和標(biāo)簽代表關(guān)鍵詞,圓圈及標(biāo)簽大小代表其重要性的高低,擁有相同顏色的圓圈屬于同一個(gè)聚類[12]。

主題河是一種被證明為可有效反映文本之間的時(shí)間屬性的方法。在這種可視化方法中,時(shí)間被表示為從左往右的一條水平軸,然后用不同的顏色條帶代表不同的主題,條帶的寬度代表該主題在該時(shí)間的一個(gè)度量。這樣人們可以跟蹤任何一個(gè)主題在量上隨時(shí)間的變化,也能比較不同的主題在同一個(gè)時(shí)刻相對規(guī)模的大小[13]。

表1 出現(xiàn)頻次不低于10次的“-Omics”單詞

2 結(jié)果與分析

從上述數(shù)據(jù)集中篩選出關(guān)于組學(xué)的相關(guān)文獻(xiàn)共計(jì)346 977篇,包括期刊論文345 549篇(占99.59%)和綜述1 428篇(占0.41%)。

2.1 文獻(xiàn)年度變化趨勢

文獻(xiàn)的年度分布情況可以從一定程度上反映該領(lǐng)域的發(fā)展情況。分析文獻(xiàn)量與時(shí)間變化的關(guān)系可以反映研究主題的發(fā)展情況,可以大體揭示該主題的發(fā)展階段與規(guī)律。本文將組(-ome/-omes)與組學(xué)(-omic/-omics)同等對待,美國科學(xué)家Thomas Roderick于1986年最先提出的是Genomics(基因組學(xué)),而第一篇提到“基因組(genome)”的文獻(xiàn)則出現(xiàn)在1943年。1943-2016年全世界組學(xué)相關(guān)文獻(xiàn)發(fā)表情況如圖1所示。從1943年之后組學(xué)相關(guān)研究的發(fā)表量整體呈逐年遞增趨勢,從1999年的4 331篇迅速增長到2000年的5 288篇,到2016年文獻(xiàn)發(fā)表量已達(dá)40 590篇。

人類基因組計(jì)劃(Human Genome Project,HGP)由美國于1987年啟動, 2000年6月26日參加人類基因組工程項(xiàng)目的美國、英國、法國、德國、日本和中國等6國科學(xué)家共同宣布,人類基因組草圖的繪制工作已經(jīng)完成,后基因組時(shí)代來臨。組學(xué)領(lǐng)域的研究文獻(xiàn)呈現(xiàn)了井噴式的增長,已有越來越多的國內(nèi)外科學(xué)工作者投入到組學(xué)研究中,并獲得了大量的研究成果,組學(xué)已逐漸成為生物醫(yī)學(xué)研究領(lǐng)域的熱點(diǎn)之一。

圖1 組學(xué)研究論文發(fā)表情況

2.2 各類組學(xué)文獻(xiàn)情況

2000年之前組學(xué)研究類型較單一,之后各類組學(xué)研究相繼涌現(xiàn),并呈現(xiàn)出不同的變化。我們選取數(shù)據(jù)中論文總數(shù)排名前10的組學(xué)類型進(jìn)行比較,發(fā)現(xiàn)各類組學(xué)都呈現(xiàn)了逐年遞增的現(xiàn)象。其中基因組學(xué)的文獻(xiàn)發(fā)表量遙遙領(lǐng)先,蛋白質(zhì)組學(xué)和轉(zhuǎn)錄組學(xué)的文獻(xiàn)發(fā)表量緊隨其后。2000-2014年,蛋白質(zhì)組學(xué)的文獻(xiàn)發(fā)表量一直高于轉(zhuǎn)錄組學(xué),2014年之后轉(zhuǎn)錄組學(xué)的文獻(xiàn)發(fā)表量趕超了蛋白質(zhì)組學(xué)。原因在于,從2008年開始,第二代測序技術(shù)利用一系列高通量測序技術(shù)(high throughput sequencing)進(jìn)行大規(guī)模的基因組DNA或RNA測序,能夠快速準(zhǔn)確地獲得基因組編碼序列,滿足極短時(shí)間內(nèi)對基因組進(jìn)行高分辨率檢測的要求。隨著第二代測序技術(shù)高通量、高準(zhǔn)確率、低成本等優(yōu)點(diǎn)的實(shí)現(xiàn),轉(zhuǎn)錄組學(xué)測序技術(shù)也隨之得到了更廣泛的應(yīng)用[14]。因此,轉(zhuǎn)錄組學(xué)的關(guān)注度逐漸升高并且超過了蛋白質(zhì)組學(xué)的關(guān)注度。

2.3 各類組學(xué)共現(xiàn)情況

統(tǒng)計(jì)不同類型的“組學(xué)”之間在同一篇文獻(xiàn)的題目和摘要中出現(xiàn)的情況,便可形成多組學(xué)研究的相關(guān)關(guān)系。將多組學(xué)共現(xiàn)類型細(xì)分為在同一篇文獻(xiàn)中分別出現(xiàn)2種類型、3種類型、4種及4種以上類型,并進(jìn)行分類計(jì)量。1995年首次出現(xiàn)多組學(xué)共現(xiàn)的文獻(xiàn)。2種類型組學(xué)共現(xiàn)的文獻(xiàn)量一直處于遙遙領(lǐng)先的狀態(tài),3種類型組學(xué)共現(xiàn)和4種及4種以上組學(xué)類型共現(xiàn)的文獻(xiàn)量較2種類型組學(xué)共現(xiàn)的文獻(xiàn)量還有一些差距,但總體來說各種共現(xiàn)情況都隨著時(shí)間的增長呈現(xiàn)出逐年遞增的趨勢。

將多組學(xué)共現(xiàn)數(shù)據(jù)導(dǎo)入VOSviewer中,其結(jié)果以可視化圖譜的形式展示出來。如圖2所示,可以看出基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)是組學(xué)共現(xiàn)研究的熱點(diǎn),文獻(xiàn)數(shù)量居于前列。通過連線可以看出,基因組學(xué)與轉(zhuǎn)錄組學(xué)的共現(xiàn)文獻(xiàn)量最多,基因組學(xué)與蛋白質(zhì)組學(xué)的共現(xiàn)文獻(xiàn)量次之。各類組學(xué)之間都存在著錯綜復(fù)雜的關(guān)系。

研究結(jié)果表明,多組學(xué)的結(jié)合研究已成為組學(xué)研究領(lǐng)域的趨勢,整合多組學(xué)數(shù)據(jù)用于藥物重定位和個(gè)性化醫(yī)療越來越受到重視[15]。因此,相關(guān)領(lǐng)域科研人員未來要注意多組學(xué)類型的結(jié)合研究,從而促進(jìn)組學(xué)研究的進(jìn)一步發(fā)展。

圖2 所有類型組學(xué)共現(xiàn)情況

2.4 基因組學(xué)脈絡(luò)研究

“基因組學(xué)”為最早出現(xiàn)的組學(xué)類型,且與各類組學(xué)都有共現(xiàn)的情況,因此以“基因組學(xué)”為主脈絡(luò),展示其余各類組學(xué)與“基因組學(xué)”共現(xiàn)研究的相關(guān)情況,通過主題河圖進(jìn)行呈現(xiàn)。選取與“基因組學(xué)”共現(xiàn)文獻(xiàn)總量排名前15的組學(xué)類型,年份從出現(xiàn)多組學(xué)共現(xiàn)的第一篇文獻(xiàn)的1995年到2016年進(jìn)行研究(圖3)。圖3中河流的寬窄代表各類組學(xué)與基因組學(xué)共現(xiàn)的文獻(xiàn)數(shù)的比例,橫坐標(biāo)為年份的變化。

圖3 “基因組學(xué)”與其他各類組學(xué)共現(xiàn)論文數(shù)變化情況

2.4.1 穩(wěn)定型增長類型

最早與“基因組學(xué)”共現(xiàn)的是“蛋白質(zhì)組學(xué)”?!暗鞍踪|(zhì)組學(xué)”這個(gè)概念由Marc Wikins 1994年首次提出[16]。在1995年“基因組學(xué)”與其他類型組學(xué)共現(xiàn)的5篇論文中,4篇是“基因組學(xué)”與“蛋白質(zhì)組學(xué)”的共現(xiàn),“蛋白質(zhì)組學(xué)”與“基因組學(xué)”的共現(xiàn)論文數(shù)一直處于穩(wěn)定增長的趨勢。究其原因,一方面,從分層遞階結(jié)構(gòu)來說,蛋白質(zhì)系統(tǒng)的粒度較基因組系統(tǒng)粒度粗,蛋白質(zhì)系統(tǒng)數(shù)據(jù)處理的復(fù)雜度不會超過基因組系統(tǒng)數(shù)據(jù)處理的復(fù)雜度;另一方面,蛋白質(zhì)的功能性研究距離我們所期望的在細(xì)胞水平上研究分子生物學(xué)更近,或者說距離在實(shí)際應(yīng)用中所需要的功能研究更近,如在藥物基因組學(xué)中的關(guān)鍵蛋白質(zhì)組的尋找[17]。

2.4.2 井噴型增長類型

“轉(zhuǎn)錄組學(xué)”與“基因組學(xué)”的共現(xiàn)文獻(xiàn)量隨時(shí)間的變化呈井噴式增長,到2016年已成為與“基因組學(xué)”共現(xiàn)占比最大的基因類型。究其原因,一是轉(zhuǎn)錄組學(xué)是功能基因組學(xué)研究的重要組成部分,是一門在整體水平上研究細(xì)胞中所有基因轉(zhuǎn)錄及轉(zhuǎn)錄調(diào)控規(guī)律的學(xué)科[18-19];二是隨著新一代高通量基因測序技術(shù)運(yùn)用到轉(zhuǎn)錄組學(xué)研究之中,轉(zhuǎn)錄組學(xué)研究中提供的數(shù)據(jù)量呈現(xiàn)爆炸式的擴(kuò)增,拓寬了轉(zhuǎn)錄組學(xué)研究解決科學(xué)問題的范圍[14]。

“線粒體基因組學(xué)”與“基因組學(xué)”的共現(xiàn)論文數(shù)量從1995年到2014年一直處于緩慢增長態(tài)勢,然而到2015年共現(xiàn)文獻(xiàn)量呈現(xiàn)井噴式增長,成為2016年當(dāng)年排在“轉(zhuǎn)錄組學(xué)”之后的第二大共現(xiàn)組學(xué)類型。究其原因,是由于“線粒體基因組學(xué)”在2008年后隨著中國科研人員的加入,半翅目昆蟲線粒體基因組測序進(jìn)入了迸發(fā)階段,在2008-2015年共獲得了89種昆蟲的線粒體基因組,其中81種在中國完成測序。截至2015年5月,美國國立生物技術(shù)信息中心共收錄100種半翅目昆蟲的線粒體基因組,其中83個(gè)為全線粒體基因組,17個(gè)近似完整的線粒體基因組[20]。線粒體基因組的獲取完成在極大程度上推進(jìn)了線粒體基因組學(xué)與基因組學(xué)的共同研究。

3 結(jié)束語

文獻(xiàn)資料中涵蓋了大量重要信息,能夠從海量的文獻(xiàn)資料中快速挖掘出人們所需求的信息知識,是文獻(xiàn)挖掘技術(shù)日益受重視的主要原因。我國“文獻(xiàn)挖掘”多采取在數(shù)據(jù)庫中檢索所研究的主題對結(jié)果進(jìn)行分析的方式。本文采用獲取PubMed數(shù)據(jù)庫1896-2016年的全數(shù)據(jù)的方法,通過對所研究主題的詞根進(jìn)行識別挖掘,運(yùn)用社會網(wǎng)絡(luò)分析的方法和可視化技術(shù),從組學(xué)相關(guān)文獻(xiàn)的年度變化趨勢和共現(xiàn)情況方面進(jìn)行分析,為傳統(tǒng)的文獻(xiàn)挖掘提供了一種新的思路,為學(xué)者和研究人員創(chuàng)造了一個(gè)知識共享平臺。同時(shí)通過分析研究數(shù)據(jù),發(fā)現(xiàn)后基因組時(shí)代的到來把組學(xué)研究推向了高潮,無論是數(shù)量還是種類都出現(xiàn)了井噴式的增長。多類型組學(xué)的融合研究越來越受科研人員的關(guān)注,已成為未來組學(xué)研究的熱點(diǎn)趨勢。本文的不足在于只從英文文獻(xiàn)著手,研究方法還不夠完備,對多種類型的數(shù)據(jù)的處理與挖掘還不完善。

猜你喜歡
基因組學(xué)組學(xué)基因組
牛參考基因組中發(fā)現(xiàn)被忽視基因
基于基因組學(xué)數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
系統(tǒng)基因組學(xué)解碼反芻動物的演化
科學(xué)(2020年2期)2020-08-24 07:56:44
口腔代謝組學(xué)研究
基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
營養(yǎng)基因組學(xué)——我們可以吃得更健康
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
有趣的植物基因組
蛋白質(zhì)組學(xué)在結(jié)核桿菌研究中的應(yīng)用
齐河县| 宜君县| 理塘县| 城固县| 易门县| 许昌县| 海门市| 大姚县| 凌云县| 建平县| 宁乡县| 麻阳| 临武县| 江华| 阿拉善左旗| 新和县| 罗田县| 北流市| 吴川市| 水富县| 体育| 秦皇岛市| 肇州县| 历史| 祁连县| 佛坪县| 云梦县| 喀喇沁旗| 都匀市| 宝应县| 同心县| 梁山县| 女性| 淮阳县| 乌苏市| 安溪县| 瑞丽市| 海淀区| 孟连| 西城区| 福贡县|