,
人類基因組計(jì)劃的提出和完成,全面改變了生命科學(xué)的面貌,開辟了基因組學(xué)發(fā)展的新紀(jì)元[1-2]??茖W(xué)家開始融合信息科學(xué)、計(jì)算機(jī)科學(xué)以及數(shù)學(xué)等學(xué)科的理論和技術(shù),整體研究一個(gè)生物系統(tǒng)中所有生物實(shí)體(Gene、Disease、Phenotype、Chemical Compound、Protein、Drug和Virus等)的構(gòu)成,以及特定條件下這些生物實(shí)體間的相互關(guān)系。這些研究對(duì)于揭示細(xì)胞內(nèi)和細(xì)胞間的作用機(jī)理、疾病標(biāo)靶基因的發(fā)現(xiàn)以及新藥的研制等具有重大意義。
隨著科技的不斷進(jìn)步及基因組學(xué)的迅速發(fā)展,生物醫(yī)學(xué)領(lǐng)域海量的新生物實(shí)體不斷被科研人員發(fā)現(xiàn)[3-4],與這些生物實(shí)體相關(guān)的知識(shí)形成了大量與人類健康密切相關(guān)的科研成果。
這些成果大都以論文形式發(fā)表,并被數(shù)字化成電子文獻(xiàn)。由于這些文獻(xiàn)都是非結(jié)構(gòu)化的自然語言,因此為了獲取研究所需的實(shí)體關(guān)系知識(shí),科研人員需要花費(fèi)大量的時(shí)間和精力來閱讀數(shù)量眾多的文獻(xiàn)。于是,一種新的需求應(yīng)運(yùn)而生,那就是如何從海量的生物文獻(xiàn)中迅速地找到生物實(shí)體之間可能存在的關(guān)系。
文獻(xiàn)搜索引擎可以幫助科研人員解決部分問題。在PubMed中,我們以“diabetes[MeSH Major Topic], drug*, gene*”為檢索式查詢了討論糖尿病、基因和藥物3種生物實(shí)體關(guān)系的所有文獻(xiàn),返回3 473條摘要記錄。說明存在大量探討糖尿病、基因和藥物之間關(guān)系的文獻(xiàn),但靠人工閱讀無法從大規(guī)模的文獻(xiàn)記錄中迅速獲取相關(guān)知識(shí)。
近年來,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,批量文本的自動(dòng)化處理已成為現(xiàn)實(shí),為生物實(shí)體的挖掘提供了新的契機(jī)。不過就國內(nèi)外相關(guān)研究仍僅局限于對(duì)海量文獻(xiàn)中生物醫(yī)學(xué)實(shí)體的識(shí)別[5-6]。最早的生物醫(yī)學(xué)實(shí)體識(shí)別方式是基于字典,如Proux等人于1998年第一次應(yīng)用英語詞典對(duì)基因和蛋白質(zhì)進(jìn)行了識(shí)別[7]。
基于啟發(fā)式規(guī)則的方式是早期被廣泛使用的一種方法,F(xiàn)ukuda等最早利用基于規(guī)則的系統(tǒng)判定文獻(xiàn)中的蛋白質(zhì)名稱[8];Tsuruoka等采用啟發(fā)式規(guī)則以最小化相關(guān)術(shù)語的歧義性和變化性,實(shí)現(xiàn)了術(shù)語名稱的標(biāo)準(zhǔn)化,從而提高了查找字典的效率[9]。
基于機(jī)器學(xué)習(xí)的方式則是目前主流的方法,它主要利用統(tǒng)計(jì)方法從大量數(shù)據(jù)中估算相關(guān)參數(shù)和特征進(jìn)而建立識(shí)別模型,具有客觀、移植性好等特點(diǎn)[10]。
隨后,生物信息領(lǐng)域的科研人員開始嘗試以生物醫(yī)學(xué)實(shí)體共現(xiàn)的手段從大規(guī)模的生物文本中探測隱藏的關(guān)系,并取得了一定的效果[11-14]。這種方法假設(shè)同一篇文獻(xiàn)中出現(xiàn)的兩個(gè)生物醫(yī)學(xué)實(shí)體之間存在某種關(guān)系,如果兩個(gè)生物醫(yī)學(xué)實(shí)體同時(shí)出現(xiàn)于多篇文獻(xiàn)中,則二者之間存在關(guān)系的可信度增強(qiáng)。然而,這些研究僅局限于同種生物實(shí)體之間的關(guān)系(如蛋白質(zhì)—蛋白質(zhì))或兩種不同生物實(shí)體之間的關(guān)系(基因—蛋白質(zhì))。
為了便于研究人員迅速獲取生物實(shí)體相關(guān)知識(shí),一些發(fā)達(dá)國家投入大量的人力、物力和財(cái)力,以人工標(biāo)注的方式構(gòu)建相關(guān)生物實(shí)體關(guān)系知識(shí)庫。Nucleic Acids Research (NAR)期刊在每年一度的特刊中會(huì)對(duì)全球所有高質(zhì)量的、有價(jià)值的生物實(shí)體關(guān)系知識(shí)庫進(jìn)行分類和描述,現(xiàn)已介紹1 552個(gè)數(shù)據(jù)庫[15],其他數(shù)據(jù)庫集合還包括MetaBase[16]和Bioinformatics Links Collection[17]等。由于這些知識(shí)庫中的知識(shí)大都以結(jié)構(gòu)化的方式存儲(chǔ),故在一定程度上滿足了科研人員快速獲取知識(shí)的需求。但隨之產(chǎn)生的問題是數(shù)據(jù)生產(chǎn)耗費(fèi)巨大,因而增長速度緩慢[18]。有研究表明,目前僅有20%的生物醫(yī)學(xué)知識(shí)以結(jié)構(gòu)化的形式存儲(chǔ)于生物實(shí)體關(guān)系知識(shí)庫中,剩余的80%則為非結(jié)構(gòu)化數(shù)據(jù),以自由文本的形式隱藏在科學(xué)文獻(xiàn)中[19-21],有待挖掘。
科學(xué)計(jì)量學(xué)關(guān)注的對(duì)象主要分為兩類:一類為宏觀特征,如作者、機(jī)構(gòu)、國家、期刊等,它們用于評(píng)價(jià)文獻(xiàn)的非內(nèi)容特征;另一類為中觀特征,如關(guān)鍵詞、題目和參考文獻(xiàn)等,主要用于文獻(xiàn)主題的分析和評(píng)價(jià)。事實(shí)上,科研文獻(xiàn)中還存在一種微觀特征,即概念實(shí)體,專指科研文獻(xiàn)中出現(xiàn)的某一事物的概念或?qū)ο螅缥墨I(xiàn)中所使用的某一理論的名稱、某一方法的名稱或本文所研究的生物實(shí)體。文獻(xiàn)中的概念實(shí)體對(duì)象也是科學(xué)計(jì)量學(xué)應(yīng)關(guān)注的一種文獻(xiàn)特征(圖1)。
由于概念實(shí)體隱藏在科研文獻(xiàn)中,而早期數(shù)據(jù)挖掘技術(shù)不成熟,主要依靠手工標(biāo)識(shí)的方式實(shí)現(xiàn)。因此方法的推廣性較差,相關(guān)研究也較少。如有學(xué)者以“研究理論”(theory)為對(duì)象,人工對(duì)信息科學(xué)研究和家庭治療研究領(lǐng)域文獻(xiàn)中使用的基本理論進(jìn)行標(biāo)識(shí),進(jìn)而分析這些理論被使用的情況[22-23]。雖然有關(guān)生物實(shí)體的研究已取得一些成果,但仍局限于生物實(shí)體的識(shí)別研究和基于共現(xiàn)關(guān)系的生物實(shí)體關(guān)系研究。因此,本文擬基于科學(xué)計(jì)量方法進(jìn)行生物實(shí)體評(píng)價(jià)研究,即選取科研文獻(xiàn)中出現(xiàn)的生物實(shí)體為研究對(duì)象,利用科學(xué)計(jì)量方法對(duì)其影響力進(jìn)行評(píng)估,以期對(duì)生物實(shí)體之間的關(guān)系進(jìn)行分類和預(yù)測,將其所代表的知識(shí)快速準(zhǔn)確地展現(xiàn)給科研人員,加速科研假說的生成,加快科學(xué)研究進(jìn)程。生物實(shí)體評(píng)價(jià)研究的具體方案如下。
科研文獻(xiàn)中生物實(shí)體的有效識(shí)別是實(shí)現(xiàn)生物實(shí)體研究的前提。傳統(tǒng)的生物實(shí)體識(shí)別方法包括基于字典、基于啟發(fā)式規(guī)則和基于機(jī)器學(xué)習(xí)等方法?;谧值涞淖R(shí)別方法受字典本身的限制,會(huì)產(chǎn)生一些假陽性和假陰性數(shù)據(jù),需引入一些簡單的規(guī)則來輔助;基于規(guī)則的識(shí)別方法由于需要人工處理,推廣性較差;基于機(jī)器學(xué)習(xí)的方法對(duì)訓(xùn)練語料的規(guī)模和質(zhì)量依賴性較大。故可結(jié)合3種方法開展生物實(shí)體識(shí)別:以機(jī)器學(xué)習(xí)方法為主線,將字典特征形式整合至機(jī)器學(xué)習(xí)方法的第一步(生物實(shí)體特征選擇),接著進(jìn)行機(jī)器學(xué)習(xí)的第二步(采用分類方法對(duì)生物實(shí)體進(jìn)行分類),最后將基于啟發(fā)式規(guī)則的方法融入機(jī)器學(xué)習(xí)方法的后期處理中。
我們基于引文分析理論提出了概念實(shí)體的“引用”關(guān)系,其實(shí)質(zhì)上是通過文獻(xiàn)之間的引用關(guān)系建立概念實(shí)體之間的聯(lián)系,即做出如下假設(shè):如果文獻(xiàn)P1引用了文獻(xiàn)P2(P1→P2),P1中提及了實(shí)體K1和K2,P2中提及了實(shí)體K3和K4,則認(rèn)為K1“引用”了K3和K4(K1→K3、K1→K4),K2“引用”了K3和K4(K2→K3、K2→K4)(圖2)。顯然,基于大數(shù)據(jù)建立的這種“引用”關(guān)系具有一定的必然性。
與生物實(shí)體共現(xiàn)網(wǎng)絡(luò)研究相似,通過網(wǎng)絡(luò)直徑、最小路徑、密度和最大Component等網(wǎng)絡(luò)宏觀指標(biāo)可研究生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的拓?fù)涮卣?;通過K-core、Clique等網(wǎng)絡(luò)中觀指標(biāo)可挖掘生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu);通過中心度、PageRank等網(wǎng)絡(luò)微觀指標(biāo)可分析生物醫(yī)學(xué)實(shí)體之間的相互關(guān)系。此外,通過生物實(shí)體“引用”網(wǎng)絡(luò)還可以跟蹤生物實(shí)體所代表知識(shí)的流動(dòng)軌跡,探索生物醫(yī)學(xué)知識(shí)轉(zhuǎn)移和擴(kuò)散的規(guī)律。
我們在前期的研究中,基于上述假設(shè)構(gòu)建生物信息數(shù)據(jù)庫“引用”網(wǎng)絡(luò)[24]和生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)(Gene、Disease和Drug)[25]。對(duì)前一個(gè)網(wǎng)絡(luò)的拓?fù)涮卣骱椭髀窂椒治霭l(fā)現(xiàn),通過引文建立的生物醫(yī)學(xué)信息數(shù)據(jù)庫之間的關(guān)聯(lián)有助于探索數(shù)據(jù)庫的使用規(guī)律;對(duì)后一個(gè)網(wǎng)絡(luò)中生物醫(yī)學(xué)實(shí)體按照中心度指標(biāo)進(jìn)行排序,發(fā)現(xiàn)該方法能夠檢測出絕大多數(shù)在Comparative Toxicogenomic Database數(shù)據(jù)庫中手工注釋的生物醫(yī)學(xué)實(shí)體關(guān)系。
圖2 通過文獻(xiàn)引用建立的生物實(shí)體"引用"關(guān)系
科學(xué)計(jì)量學(xué)所關(guān)注科研文獻(xiàn)中的宏觀特征和中觀特征大都以題錄形式儲(chǔ)存于文獻(xiàn)數(shù)據(jù)庫,其所代表的均為文獻(xiàn)的外顯知識(shí),可免費(fèi)獲取。由于概念實(shí)體大都蘊(yùn)藏于文獻(xiàn)的全文之中,文獻(xiàn)的內(nèi)含知識(shí)只有通過文本挖掘方可獲取。此外,概念實(shí)體與文獻(xiàn)中觀特征最大的區(qū)別在于其專指性更強(qiáng)。對(duì)生物實(shí)體這一微觀特征對(duì)象的評(píng)價(jià)擴(kuò)展了科學(xué)計(jì)量學(xué)的內(nèi)涵,有利于該學(xué)科理論的進(jìn)一步發(fā)展和完善。
科學(xué)計(jì)量方法為生物實(shí)體等非結(jié)構(gòu)化數(shù)據(jù)提供了一種“自上而下(Top-down)”的管理方式,即從海量文本入手分析,一方面幫助生物醫(yī)學(xué)科研人員快速準(zhǔn)確地發(fā)現(xiàn)隱藏于文獻(xiàn)中的生物實(shí)體關(guān)系,通過合理假設(shè)、實(shí)驗(yàn)驗(yàn)證,大大節(jié)省知識(shí)發(fā)現(xiàn)的周期;另一方面對(duì)生物知識(shí)的流動(dòng)、轉(zhuǎn)移、擴(kuò)散和利用等規(guī)律進(jìn)行深入探索。因而,生物實(shí)體評(píng)價(jià)開辟了知識(shí)管理方式研究的全新視角,并幫助生物醫(yī)學(xué)科研人員迅速、準(zhǔn)確地獲取隱藏于海量科學(xué)文獻(xiàn)文本中的相關(guān)生物醫(yī)學(xué)知識(shí),加快了科研假說的提出,從而進(jìn)一步推動(dòng)生物醫(yī)學(xué)相關(guān)學(xué)科的發(fā)展。
中華醫(yī)學(xué)圖書情報(bào)雜志2015年7期