国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科學(xué)計(jì)量方法的生物實(shí)體研究方案

2015-03-22 05:28:10,
關(guān)鍵詞:生物醫(yī)學(xué)科研人員實(shí)體

1 生物實(shí)體研究問題的提出

人類基因組計(jì)劃的提出和完成,全面改變了生命科學(xué)的面貌,開辟了基因組學(xué)發(fā)展的新紀(jì)元[1-2]??茖W(xué)家開始融合信息科學(xué)、計(jì)算機(jī)科學(xué)以及數(shù)學(xué)等學(xué)科的理論和技術(shù),整體研究一個(gè)生物系統(tǒng)中所有生物實(shí)體(Gene、Disease、Phenotype、Chemical Compound、Protein、Drug和Virus等)的構(gòu)成,以及特定條件下這些生物實(shí)體間的相互關(guān)系。這些研究對(duì)于揭示細(xì)胞內(nèi)和細(xì)胞間的作用機(jī)理、疾病標(biāo)靶基因的發(fā)現(xiàn)以及新藥的研制等具有重大意義。

隨著科技的不斷進(jìn)步及基因組學(xué)的迅速發(fā)展,生物醫(yī)學(xué)領(lǐng)域海量的新生物實(shí)體不斷被科研人員發(fā)現(xiàn)[3-4],與這些生物實(shí)體相關(guān)的知識(shí)形成了大量與人類健康密切相關(guān)的科研成果。

這些成果大都以論文形式發(fā)表,并被數(shù)字化成電子文獻(xiàn)。由于這些文獻(xiàn)都是非結(jié)構(gòu)化的自然語言,因此為了獲取研究所需的實(shí)體關(guān)系知識(shí),科研人員需要花費(fèi)大量的時(shí)間和精力來閱讀數(shù)量眾多的文獻(xiàn)。于是,一種新的需求應(yīng)運(yùn)而生,那就是如何從海量的生物文獻(xiàn)中迅速地找到生物實(shí)體之間可能存在的關(guān)系。

2 國內(nèi)外研究現(xiàn)狀

2.1 基于文獻(xiàn)搜索引擎的生物實(shí)體關(guān)系發(fā)現(xiàn)

文獻(xiàn)搜索引擎可以幫助科研人員解決部分問題。在PubMed中,我們以“diabetes[MeSH Major Topic], drug*, gene*”為檢索式查詢了討論糖尿病、基因和藥物3種生物實(shí)體關(guān)系的所有文獻(xiàn),返回3 473條摘要記錄。說明存在大量探討糖尿病、基因和藥物之間關(guān)系的文獻(xiàn),但靠人工閱讀無法從大規(guī)模的文獻(xiàn)記錄中迅速獲取相關(guān)知識(shí)。

2.2 基于數(shù)據(jù)挖掘技術(shù)的生物實(shí)體識(shí)別

近年來,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,批量文本的自動(dòng)化處理已成為現(xiàn)實(shí),為生物實(shí)體的挖掘提供了新的契機(jī)。不過就國內(nèi)外相關(guān)研究仍僅局限于對(duì)海量文獻(xiàn)中生物醫(yī)學(xué)實(shí)體的識(shí)別[5-6]。最早的生物醫(yī)學(xué)實(shí)體識(shí)別方式是基于字典,如Proux等人于1998年第一次應(yīng)用英語詞典對(duì)基因和蛋白質(zhì)進(jìn)行了識(shí)別[7]。

基于啟發(fā)式規(guī)則的方式是早期被廣泛使用的一種方法,F(xiàn)ukuda等最早利用基于規(guī)則的系統(tǒng)判定文獻(xiàn)中的蛋白質(zhì)名稱[8];Tsuruoka等采用啟發(fā)式規(guī)則以最小化相關(guān)術(shù)語的歧義性和變化性,實(shí)現(xiàn)了術(shù)語名稱的標(biāo)準(zhǔn)化,從而提高了查找字典的效率[9]。

基于機(jī)器學(xué)習(xí)的方式則是目前主流的方法,它主要利用統(tǒng)計(jì)方法從大量數(shù)據(jù)中估算相關(guān)參數(shù)和特征進(jìn)而建立識(shí)別模型,具有客觀、移植性好等特點(diǎn)[10]。

隨后,生物信息領(lǐng)域的科研人員開始嘗試以生物醫(yī)學(xué)實(shí)體共現(xiàn)的手段從大規(guī)模的生物文本中探測隱藏的關(guān)系,并取得了一定的效果[11-14]。這種方法假設(shè)同一篇文獻(xiàn)中出現(xiàn)的兩個(gè)生物醫(yī)學(xué)實(shí)體之間存在某種關(guān)系,如果兩個(gè)生物醫(yī)學(xué)實(shí)體同時(shí)出現(xiàn)于多篇文獻(xiàn)中,則二者之間存在關(guān)系的可信度增強(qiáng)。然而,這些研究僅局限于同種生物實(shí)體之間的關(guān)系(如蛋白質(zhì)—蛋白質(zhì))或兩種不同生物實(shí)體之間的關(guān)系(基因—蛋白質(zhì))。

2.3 基于知識(shí)庫的生物實(shí)體揭示

為了便于研究人員迅速獲取生物實(shí)體相關(guān)知識(shí),一些發(fā)達(dá)國家投入大量的人力、物力和財(cái)力,以人工標(biāo)注的方式構(gòu)建相關(guān)生物實(shí)體關(guān)系知識(shí)庫。Nucleic Acids Research (NAR)期刊在每年一度的特刊中會(huì)對(duì)全球所有高質(zhì)量的、有價(jià)值的生物實(shí)體關(guān)系知識(shí)庫進(jìn)行分類和描述,現(xiàn)已介紹1 552個(gè)數(shù)據(jù)庫[15],其他數(shù)據(jù)庫集合還包括MetaBase[16]和Bioinformatics Links Collection[17]等。由于這些知識(shí)庫中的知識(shí)大都以結(jié)構(gòu)化的方式存儲(chǔ),故在一定程度上滿足了科研人員快速獲取知識(shí)的需求。但隨之產(chǎn)生的問題是數(shù)據(jù)生產(chǎn)耗費(fèi)巨大,因而增長速度緩慢[18]。有研究表明,目前僅有20%的生物醫(yī)學(xué)知識(shí)以結(jié)構(gòu)化的形式存儲(chǔ)于生物實(shí)體關(guān)系知識(shí)庫中,剩余的80%則為非結(jié)構(gòu)化數(shù)據(jù),以自由文本的形式隱藏在科學(xué)文獻(xiàn)中[19-21],有待挖掘。

3 基于科學(xué)計(jì)量方法的生物實(shí)體評(píng)價(jià)研究方案

科學(xué)計(jì)量學(xué)關(guān)注的對(duì)象主要分為兩類:一類為宏觀特征,如作者、機(jī)構(gòu)、國家、期刊等,它們用于評(píng)價(jià)文獻(xiàn)的非內(nèi)容特征;另一類為中觀特征,如關(guān)鍵詞、題目和參考文獻(xiàn)等,主要用于文獻(xiàn)主題的分析和評(píng)價(jià)。事實(shí)上,科研文獻(xiàn)中還存在一種微觀特征,即概念實(shí)體,專指科研文獻(xiàn)中出現(xiàn)的某一事物的概念或?qū)ο螅缥墨I(xiàn)中所使用的某一理論的名稱、某一方法的名稱或本文所研究的生物實(shí)體。文獻(xiàn)中的概念實(shí)體對(duì)象也是科學(xué)計(jì)量學(xué)應(yīng)關(guān)注的一種文獻(xiàn)特征(圖1)。

由于概念實(shí)體隱藏在科研文獻(xiàn)中,而早期數(shù)據(jù)挖掘技術(shù)不成熟,主要依靠手工標(biāo)識(shí)的方式實(shí)現(xiàn)。因此方法的推廣性較差,相關(guān)研究也較少。如有學(xué)者以“研究理論”(theory)為對(duì)象,人工對(duì)信息科學(xué)研究和家庭治療研究領(lǐng)域文獻(xiàn)中使用的基本理論進(jìn)行標(biāo)識(shí),進(jìn)而分析這些理論被使用的情況[22-23]。雖然有關(guān)生物實(shí)體的研究已取得一些成果,但仍局限于生物實(shí)體的識(shí)別研究和基于共現(xiàn)關(guān)系的生物實(shí)體關(guān)系研究。因此,本文擬基于科學(xué)計(jì)量方法進(jìn)行生物實(shí)體評(píng)價(jià)研究,即選取科研文獻(xiàn)中出現(xiàn)的生物實(shí)體為研究對(duì)象,利用科學(xué)計(jì)量方法對(duì)其影響力進(jìn)行評(píng)估,以期對(duì)生物實(shí)體之間的關(guān)系進(jìn)行分類和預(yù)測,將其所代表的知識(shí)快速準(zhǔn)確地展現(xiàn)給科研人員,加速科研假說的生成,加快科學(xué)研究進(jìn)程。生物實(shí)體評(píng)價(jià)研究的具體方案如下。

3.1 生物實(shí)體的識(shí)別

科研文獻(xiàn)中生物實(shí)體的有效識(shí)別是實(shí)現(xiàn)生物實(shí)體研究的前提。傳統(tǒng)的生物實(shí)體識(shí)別方法包括基于字典、基于啟發(fā)式規(guī)則和基于機(jī)器學(xué)習(xí)等方法?;谧值涞淖R(shí)別方法受字典本身的限制,會(huì)產(chǎn)生一些假陽性和假陰性數(shù)據(jù),需引入一些簡單的規(guī)則來輔助;基于規(guī)則的識(shí)別方法由于需要人工處理,推廣性較差;基于機(jī)器學(xué)習(xí)的方法對(duì)訓(xùn)練語料的規(guī)模和質(zhì)量依賴性較大。故可結(jié)合3種方法開展生物實(shí)體識(shí)別:以機(jī)器學(xué)習(xí)方法為主線,將字典特征形式整合至機(jī)器學(xué)習(xí)方法的第一步(生物實(shí)體特征選擇),接著進(jìn)行機(jī)器學(xué)習(xí)的第二步(采用分類方法對(duì)生物實(shí)體進(jìn)行分類),最后將基于啟發(fā)式規(guī)則的方法融入機(jī)器學(xué)習(xí)方法的后期處理中。

3.2 基于“引用”關(guān)系的生物實(shí)體關(guān)系建模

我們基于引文分析理論提出了概念實(shí)體的“引用”關(guān)系,其實(shí)質(zhì)上是通過文獻(xiàn)之間的引用關(guān)系建立概念實(shí)體之間的聯(lián)系,即做出如下假設(shè):如果文獻(xiàn)P1引用了文獻(xiàn)P2(P1→P2),P1中提及了實(shí)體K1和K2,P2中提及了實(shí)體K3和K4,則認(rèn)為K1“引用”了K3和K4(K1→K3、K1→K4),K2“引用”了K3和K4(K2→K3、K2→K4)(圖2)。顯然,基于大數(shù)據(jù)建立的這種“引用”關(guān)系具有一定的必然性。

3.3 基于“引用”網(wǎng)絡(luò)的生物實(shí)體研究

與生物實(shí)體共現(xiàn)網(wǎng)絡(luò)研究相似,通過網(wǎng)絡(luò)直徑、最小路徑、密度和最大Component等網(wǎng)絡(luò)宏觀指標(biāo)可研究生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的拓?fù)涮卣?;通過K-core、Clique等網(wǎng)絡(luò)中觀指標(biāo)可挖掘生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu);通過中心度、PageRank等網(wǎng)絡(luò)微觀指標(biāo)可分析生物醫(yī)學(xué)實(shí)體之間的相互關(guān)系。此外,通過生物實(shí)體“引用”網(wǎng)絡(luò)還可以跟蹤生物實(shí)體所代表知識(shí)的流動(dòng)軌跡,探索生物醫(yī)學(xué)知識(shí)轉(zhuǎn)移和擴(kuò)散的規(guī)律。

我們在前期的研究中,基于上述假設(shè)構(gòu)建生物信息數(shù)據(jù)庫“引用”網(wǎng)絡(luò)[24]和生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)(Gene、Disease和Drug)[25]。對(duì)前一個(gè)網(wǎng)絡(luò)的拓?fù)涮卣骱椭髀窂椒治霭l(fā)現(xiàn),通過引文建立的生物醫(yī)學(xué)信息數(shù)據(jù)庫之間的關(guān)聯(lián)有助于探索數(shù)據(jù)庫的使用規(guī)律;對(duì)后一個(gè)網(wǎng)絡(luò)中生物醫(yī)學(xué)實(shí)體按照中心度指標(biāo)進(jìn)行排序,發(fā)現(xiàn)該方法能夠檢測出絕大多數(shù)在Comparative Toxicogenomic Database數(shù)據(jù)庫中手工注釋的生物醫(yī)學(xué)實(shí)體關(guān)系。

圖2 通過文獻(xiàn)引用建立的生物實(shí)體"引用"關(guān)系

4 總結(jié)

4.1 發(fā)展和完善科學(xué)計(jì)量學(xué)理論和實(shí)踐研究

科學(xué)計(jì)量學(xué)所關(guān)注科研文獻(xiàn)中的宏觀特征和中觀特征大都以題錄形式儲(chǔ)存于文獻(xiàn)數(shù)據(jù)庫,其所代表的均為文獻(xiàn)的外顯知識(shí),可免費(fèi)獲取。由于概念實(shí)體大都蘊(yùn)藏于文獻(xiàn)的全文之中,文獻(xiàn)的內(nèi)含知識(shí)只有通過文本挖掘方可獲取。此外,概念實(shí)體與文獻(xiàn)中觀特征最大的區(qū)別在于其專指性更強(qiáng)。對(duì)生物實(shí)體這一微觀特征對(duì)象的評(píng)價(jià)擴(kuò)展了科學(xué)計(jì)量學(xué)的內(nèi)涵,有利于該學(xué)科理論的進(jìn)一步發(fā)展和完善。

4.2 開辟知識(shí)管理研究的新視角

科學(xué)計(jì)量方法為生物實(shí)體等非結(jié)構(gòu)化數(shù)據(jù)提供了一種“自上而下(Top-down)”的管理方式,即從海量文本入手分析,一方面幫助生物醫(yī)學(xué)科研人員快速準(zhǔn)確地發(fā)現(xiàn)隱藏于文獻(xiàn)中的生物實(shí)體關(guān)系,通過合理假設(shè)、實(shí)驗(yàn)驗(yàn)證,大大節(jié)省知識(shí)發(fā)現(xiàn)的周期;另一方面對(duì)生物知識(shí)的流動(dòng)、轉(zhuǎn)移、擴(kuò)散和利用等規(guī)律進(jìn)行深入探索。因而,生物實(shí)體評(píng)價(jià)開辟了知識(shí)管理方式研究的全新視角,并幫助生物醫(yī)學(xué)科研人員迅速、準(zhǔn)確地獲取隱藏于海量科學(xué)文獻(xiàn)文本中的相關(guān)生物醫(yī)學(xué)知識(shí),加快了科研假說的提出,從而進(jìn)一步推動(dòng)生物醫(yī)學(xué)相關(guān)學(xué)科的發(fā)展。

猜你喜歡
生物醫(yī)學(xué)科研人員實(shí)體
芻議“生物醫(yī)學(xué)作為文化”的研究進(jìn)路——兼論《作為文化的生物醫(yī)學(xué)》
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項(xiàng)行動(dòng)
靈長類生物醫(yī)學(xué)前沿探索中的倫理思考
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
治療艾滋病,中國科研人員有了新發(fā)現(xiàn)
廣東公安科研人員風(fēng)采
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
國外生物醫(yī)學(xué)文獻(xiàn)獲取的技術(shù)工具:述評(píng)與啟示
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
共和县| 辽阳市| 顺平县| 砚山县| 公安县| 柳林县| 宜宾市| 兴安盟| 凯里市| 奈曼旗| 恩平市| 元谋县| 井陉县| 东光县| 黑河市| 凤阳县| 和平县| 贺州市| 北海市| 曲阜市| 长岭县| 河津市| 清河县| 锡林郭勒盟| 大丰市| 兴安盟| 比如县| 南靖县| 灵台县| 丹江口市| 凤城市| 栾川县| 清苑县| 邵阳市| 施甸县| 科尔| 建平县| 浮梁县| 峡江县| 海盐县| 平安县|