国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

立足方法學(xué)基點(diǎn) 培育生物信息學(xué)素養(yǎng)

2023-01-26 13:33張曉曦李映紅
生物學(xué)雜志 2022年1期
關(guān)鍵詞:信息學(xué)代謝物生物學(xué)

李 勃,何 昊,張曉曦,李映紅,楊 丹

(1.重慶師范大學(xué) 生命科學(xué)學(xué)院,重慶 401331;2.重慶郵電大學(xué) 生物信息學(xué)院,重慶 400065)

以“人類基因組計(jì)劃”“人類蛋白質(zhì)圖譜”“人類細(xì)胞圖譜計(jì)劃”等為代表的重大成果的初步完成,標(biāo)志生命科學(xué)研究已步入“數(shù)據(jù)時(shí)代”[1-3]。隨著大數(shù)據(jù)與人工智能的興起和繁榮,數(shù)學(xué)和計(jì)算機(jī)等學(xué)科的研究方法不斷向生物學(xué)滲透,作為傳統(tǒng)實(shí)驗(yàn)學(xué)科的生物學(xué)呈現(xiàn)出學(xué)科交叉與融合的發(fā)展趨勢。因此,高校生物學(xué)人才培養(yǎng)也應(yīng)不斷更新現(xiàn)今的教育教學(xué)理念,緊跟時(shí)代節(jié)拍。

1 高校生物信息學(xué)教學(xué)現(xiàn)狀及問題表征

為提升生命科學(xué)相關(guān)專業(yè)本科生的專業(yè)素養(yǎng)和創(chuàng)新能力及學(xué)術(shù)競爭力,以重點(diǎn)大學(xué)為主的部分高校在相關(guān)院系開設(shè)生物信息學(xué)(或計(jì)算生物學(xué))等課程,學(xué)生通過學(xué)習(xí)可以掌握對海量生物數(shù)據(jù)進(jìn)行管理、整合、分析和建模的技能,從而獲得從數(shù)據(jù)中發(fā)現(xiàn)規(guī)律進(jìn)而解決生物學(xué)問題的能力。但從全國范圍來看,由于生物類專業(yè)學(xué)生的數(shù)理基礎(chǔ)參差不齊、師資力量相對匱乏以及學(xué)時(shí)較短等多方面原因,生物信息學(xué)(或計(jì)算生物學(xué))的教學(xué)依然比較薄弱,亟待補(bǔ)充和加強(qiáng)。

當(dāng)下的生物信息學(xué)教學(xué)應(yīng)當(dāng)給予學(xué)生適應(yīng)與改造未來信息化社會的核心素養(yǎng),而非知識的冗雜增加、重復(fù)填鴨。與此同時(shí),方法學(xué)作為生物信息學(xué)的本源性研究方法而存在,依據(jù)其可以衍生出生物信息學(xué)的基本知識、邏輯思維與學(xué)科觀念。教師們應(yīng)在長期的教學(xué)實(shí)踐中,著力以方法學(xué)為突破口,培養(yǎng)學(xué)生的學(xué)科素養(yǎng)[4]。為此,筆者結(jié)合多年來的生物信息學(xué)教學(xué)實(shí)踐,總結(jié)幾類代表性的生物信息學(xué)策略或方法,以期結(jié)合具體的實(shí)例剖析,使學(xué)生認(rèn)識到生物信息學(xué)策略或方法在生物學(xué)學(xué)習(xí)中的重要作用,逐步提升學(xué)生數(shù)理邏輯與生物信息學(xué)素養(yǎng),促進(jìn)學(xué)生專業(yè)知識的全面發(fā)展。

2 代表性的生物信息學(xué)策略或方法

2.1 試驗(yàn)-對照比較的方法

通過試驗(yàn)組-對照組的定性或定量比較來尋找兩者之間的差異,是自然科學(xué)最重要的研究邏輯之一,也是生物學(xué)中最常用研究策略。以圖 1(a)所示的轉(zhuǎn)錄組學(xué)研究為例,利用RNA測序等技術(shù)測定健康個(gè)體(對照組)和肝癌病患(實(shí)驗(yàn)組)的mRNA表達(dá)譜,通過逐一比較單個(gè)基因在兩組間的表達(dá)變化程度(或平均表達(dá)值是否具有顯著性差異),便可篩選到滿足特定條件的差異表達(dá)基因集(DEGs)。對該基因集進(jìn)行功能富集和網(wǎng)絡(luò)分析等,進(jìn)而可能揭示肝癌發(fā)生發(fā)展過程的重要分子機(jī)制和規(guī)律。再比如,某植物有野生型和突變型之分,兩者的葉片分別為綠色和黃色。若要探究為何突變型葉片為黃色,一種可能的策略是從基因水平上對兩者的基因組序列進(jìn)行比對,尋找該植物野生型和突變型基因序列中的差異部分,即可找到可能與葉綠素合成障礙有關(guān)的基因??梢灶A(yù)見,掌握并靈活運(yùn)用試驗(yàn)-對照比較的方法,有助于提升學(xué)生的實(shí)驗(yàn)分析技能,增強(qiáng)分析和解決生物學(xué)問題的能力。

2.2 距離與相似性的策略

距離是統(tǒng)計(jì)學(xué)中常用的一個(gè)概念,被用來衡量數(shù)學(xué)空間中兩個(gè)點(diǎn)(即長度相同的兩個(gè)向量)之間的遠(yuǎn)近。常用的度量指標(biāo)有歐氏距離、曼哈頓距離和切爾比雪夫距離等[5]。兩點(diǎn)之間距離越小,則兩向量間相似性越高;反之亦然。以生物學(xué)中考察兩個(gè)基因序列是否相似為例,除了計(jì)算序列的一致性外,還可借助兩等長序列間的Hamming距離來表征序列的相似性程度。如圖1(b)所示,序列1和2之間、1和3之間的Hamming距離分別是11和8,因此序列1和3的相似性更高。具有高度相似性的序列,可進(jìn)一步被推定為潛在的同源序列。顯然,通過距離與相似性的策略將抽象的基因序列之間的相似性問題轉(zhuǎn)化為具體的數(shù)學(xué)模型,能夠極大地幫助學(xué)生理解和解決研究對象間的相似性問題。

2.3 特征提取與特征選擇的策略

以基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白組學(xué)和代謝組學(xué)等為代表的高通量組學(xué)技術(shù)已成為生命科學(xué)研究中最主要的方法,在揭示復(fù)雜表型和疾病背后的分子機(jī)制等研究中發(fā)揮著舉足輕重的作用。組學(xué)數(shù)據(jù)通常“維度高、樣本少”(如考察100個(gè)病患的25 000個(gè)基因的表達(dá)水平等),這在統(tǒng)計(jì)分析中通常給研究者帶來挑戰(zhàn)。欲將高維度問題簡化求解,最科學(xué)的策略就是運(yùn)用特征提取或特征選擇,通過將高維問題變?yōu)榈途S問題進(jìn)而進(jìn)行統(tǒng)計(jì)分析和建模。

2.3.1 特征提取

特征提取(feature extraction)是機(jī)器學(xué)習(xí)中常用的數(shù)據(jù)處理方式之一,是指通過適當(dāng)?shù)淖儞Q把已有樣本的D個(gè)特征轉(zhuǎn)換為d(

2.3.2 特征選擇

特征選擇(feature selection)是基于某種特定的統(tǒng)計(jì)學(xué)準(zhǔn)則(如標(biāo)準(zhǔn)差、變化倍數(shù)等)對原始特征進(jìn)行過濾,保留變異程度大的特征,將原始的特征數(shù)降低,達(dá)到簡化數(shù)據(jù)集的目的[6]。它和特征提取欲達(dá)到的效果是一致的,即減少數(shù)據(jù)集的屬性(或特征)的數(shù)目。簡言之,拋棄大量的冗余(干擾)信息,獲取與研究對象密切相關(guān)的關(guān)鍵因素。如圖 1(c)所示,將前述代謝譜數(shù)據(jù)集的8個(gè)代謝物按照變異程度(標(biāo)準(zhǔn)差)或在病患與對照組中的豐度比例為準(zhǔn)則,保留變異程度最大的4個(gè)特征,使數(shù)據(jù)集縮減為只有4個(gè)代謝物的數(shù)據(jù)集,后續(xù)的數(shù)據(jù)分析和建模等問題得以高度簡化。

學(xué)習(xí)和掌握特征提取與特征選擇的方法,可以幫助學(xué)生解決原始數(shù)據(jù)龐大、雜亂的問題,有利于學(xué)生抓住研究對象的關(guān)鍵信息,也有助于數(shù)據(jù)的可視化分析與探索。

2.4 聚類分析的策略

聚類就是一種尋找數(shù)據(jù)之間內(nèi)在結(jié)構(gòu)的技術(shù),其目的是將研究對象按照特征屬性的相似程度聚成多個(gè)不同的類別,以便選擇特定類別進(jìn)行具體分析[5]。聚類分析可以幫助學(xué)生將生物樣本聚集成不同亞組,可用于后續(xù)分析(如尋找特定的基因表達(dá)模式等),也可以基于聚類過程進(jìn)行樣本質(zhì)量控制(即排除異常樣本)。以圖 1(d)為例,當(dāng)用血液中兩個(gè)蛋白的濃度作為變量(x軸和y軸)對所有樣本(包括6名肝細(xì)胞性肝癌患者、7名輕度肝硬化患者和6名健康人)進(jìn)行聚類時(shí),發(fā)現(xiàn)有個(gè)橙色標(biāo)記的輕度肝硬化患者與肝癌患者聚成一類,這提示該輕度肝硬化患者有異常(可能已經(jīng)發(fā)生惡化),若要實(shí)現(xiàn)精確分析則在后續(xù)的分析可以考慮將其從輕度肝硬化患者類別中移除。

2.5 分類預(yù)測的策略

分類預(yù)測也稱監(jiān)督性機(jī)器學(xué)習(xí),是指通過對樣本數(shù)據(jù)的輸入值和輸出值關(guān)聯(lián)性的學(xué)習(xí)或訓(xùn)練,獲得具有預(yù)測能力的分類模型,再利用該模型對未知標(biāo)簽的輸入值進(jìn)行輸出值預(yù)測[7],其過程如圖 1(e)所示。例如,研究者獲得一組包括多個(gè)對象在內(nèi)的基因表達(dá)譜數(shù)據(jù)集[其結(jié)構(gòu)類似于圖 1(a)的基因表達(dá)矩陣],將食道癌病人和健康對照的標(biāo)簽分別記為1和0。以這組已知數(shù)據(jù)集(即表達(dá)矩陣)為自變量X,以表型(0或1)為因變量y,經(jīng)過訓(xùn)練建立對應(yīng)的判別模型即y=f(X),其中y取值為0或1。待模型優(yōu)化后,將一未知標(biāo)簽的疑似患者A的基因表達(dá)值輸入模型,模型便會預(yù)測出A是否罹患食道癌(其中陽性結(jié)果尚需進(jìn)一步臨床確認(rèn))。

基于已知數(shù)據(jù)構(gòu)建分類預(yù)測模型是一種極為重要的研究方法,其在大規(guī)模疾病前期篩查、惡性疾病的早期診斷等諸多領(lǐng)域都發(fā)揮著越來越重要的作用。可以預(yù)見,掌握分類預(yù)測的策略,能夠幫助學(xué)生基于已知數(shù)據(jù)集建立分類模型,實(shí)現(xiàn)對未知對象表型等屬性或類別的預(yù)測。

2.6 數(shù)據(jù)整合再分析的策略

數(shù)據(jù)整合再分析主要是指將研究相同或相似問題的多組獨(dú)立研究的數(shù)據(jù)集(或各自的實(shí)驗(yàn)結(jié)果)進(jìn)行再統(tǒng)計(jì)分析(或綜合)從而得出更準(zhǔn)確結(jié)論的一類研究方法。該方法又可分為早期階段整合和晚期階段整合兩類:前者是指將多組獨(dú)立研究的數(shù)據(jù)集直接整合為大數(shù)據(jù)集后分析得出結(jié)論;后者是指將多組獨(dú)立研究數(shù)據(jù)集各自分析的結(jié)果進(jìn)行匯總(或借助于薈萃分析)而得出結(jié)論。以哮喘患者和健康人氣道上皮細(xì)胞間差異表達(dá)基因的鑒定為例,研究者通過檢索發(fā)現(xiàn)目前有3組符合條件的獨(dú)立實(shí)驗(yàn)和表達(dá)譜數(shù)據(jù),則可首先分別對3組研究的數(shù)據(jù)進(jìn)行單獨(dú)分析獲取3組差異表達(dá)基因集,然后通過鑒定共有的差異表達(dá)基因(或薈萃分析)獲得在哮喘患者和健康人之間穩(wěn)定差異表達(dá)的基因集,見圖 1(f)。Tautenhahn等[8]對3種不同的小鼠疼痛模型(包括炎癥引起的疼痛、急性熱導(dǎo)致的疼痛和自發(fā)性關(guān)節(jié)炎引起的疼痛)的代謝物譜進(jìn)行二次研究,在3組不同的疼痛模型的代謝組學(xué)成對研究中分別篩選到608、837和380個(gè)有差異的代謝物。通過綜合比較發(fā)現(xiàn)有3個(gè)共同的差異代謝物。進(jìn)一步的化學(xué)分析鑒定出其中一個(gè)是組胺,再分析的結(jié)果提示:組胺是介導(dǎo)疼痛共有分子機(jī)制的關(guān)鍵化學(xué)分子之一。顯然,這種研究思路可以推廣至各組學(xué)領(lǐng)域。此外,對文獻(xiàn)中實(shí)驗(yàn)結(jié)果的綜合分析也可采用該方法。總之,數(shù)據(jù)整合再分析可以幫助學(xué)生將研究相同或相似問題的多組獨(dú)立研究數(shù)據(jù)(或結(jié)果)整合起來,從統(tǒng)計(jì)學(xué)水平上得出更有說服力的結(jié)論。

2.7 數(shù)據(jù)庫與在線工具的策略

簡單地說,數(shù)據(jù)庫就是收集和存儲大量信息(包括數(shù)據(jù)、文本、圖像等)的一個(gè)電子倉庫,它可針對用戶進(jìn)行信息的整理、加工、發(fā)布和檢索,且大多數(shù)數(shù)據(jù)庫是通過互聯(lián)網(wǎng)進(jìn)行訪問的[9]。當(dāng)前,生物學(xué)數(shù)據(jù)庫已經(jīng)成為現(xiàn)代生命科學(xué)研究中最重要的戰(zhàn)略資源,從DNA序列的存儲比對到蛋白質(zhì)結(jié)構(gòu)的查詢和同源模建,甚至生物醫(yī)學(xué)文獻(xiàn)的收集與再挖掘,無一例外都需要數(shù)據(jù)庫的輔助和支持。

除了使用數(shù)據(jù)庫外,靈活運(yùn)用在線工具(或在線軟件)也是生命科學(xué)研究者應(yīng)對高通量生物學(xué)數(shù)據(jù)的一種解決方案。與本地化軟件相比,在線工具提供了一個(gè)更加方便的選擇,它的優(yōu)勢在于:(1)無操作系統(tǒng)依賴性,無論是Windows、Linux還是MAC OS等操作系統(tǒng),只要能夠接入互聯(lián)網(wǎng),則軟件均可通過網(wǎng)頁瀏覽器使用;(2)無須安裝和更新,對用戶的計(jì)算機(jī)硬件要求較低,甚至手機(jī)便攜式移動終端都可使用[10];(3)在生物學(xué)數(shù)據(jù)處理上對研究者編程技能要求較低。在線工具簡單易用,使學(xué)生充分發(fā)揮互聯(lián)網(wǎng)思維,能夠更輕松便捷地使用互聯(lián)網(wǎng)實(shí)現(xiàn)生物學(xué)數(shù)據(jù)的分析與生物學(xué)問題的解決。

3 結(jié)論與展望

隨著學(xué)科交叉與融合不斷深入,生物學(xué)數(shù)據(jù)急速和海量積累,這在人類科學(xué)研究史上是空前的。一方面數(shù)據(jù)量急劇增長,另一方面數(shù)據(jù)變得更加復(fù)雜和多樣化(如從簡單的觀察描述、單一的生理生化指標(biāo)向遺傳信息數(shù)據(jù)和高通量多組學(xué)數(shù)據(jù)的轉(zhuǎn)變)。繼續(xù)依靠單一傳統(tǒng)的生物學(xué)理論方法進(jìn)行研究已經(jīng)顯得力不從心,常常導(dǎo)致生命科學(xué)研究難以深入開展。因此,現(xiàn)代生物學(xué)研究迫切需要數(shù)學(xué)、物理、計(jì)算機(jī)、化學(xué)與工程學(xué)等非生物學(xué)學(xué)科研究方法的介入與交叉融合[11],而近年來生物信息學(xué)與計(jì)算生物學(xué)的蓬勃發(fā)展也正說明了這一點(diǎn)?,F(xiàn)代生命科學(xué)研究的不斷深入與繁榮對高素質(zhì)的生物學(xué)相關(guān)專業(yè)人才的培養(yǎng)也提出了新的更高要求。因而,迫切需要在夯實(shí)學(xué)生專業(yè)基礎(chǔ)知識和技能的同時(shí),加大對研究方法和策略(包括交叉學(xué)科研究方法)的訓(xùn)練,積極探索全方位育人模式,不斷增強(qiáng)生物學(xué)專業(yè)人才的培養(yǎng)質(zhì)量,全面提升學(xué)生的專業(yè)素養(yǎng)和未來競爭力。

猜你喜歡
信息學(xué)代謝物生物學(xué)
阿爾茨海默病血清代謝物的核磁共振氫譜技術(shù)分析
一株紅樹植物內(nèi)生真菌Pseudallescheria boydii L32的代謝產(chǎn)物*
丁酸梭菌的篩選、鑒定及生物學(xué)功能分析
谷稗的生物學(xué)特性和栽培技術(shù)
雞NRF1基因啟動子區(qū)生物信息學(xué)分析
生物信息學(xué)輔助研究乳腺癌轉(zhuǎn)移相關(guān)lncRNA進(jìn)展
環(huán)孢素A代謝物的研究概況Δ
PBL教學(xué)模式在結(jié)構(gòu)生物信息學(xué)教學(xué)中的應(yīng)用
初中生物學(xué)糾錯本的建立與使用
噻蟲嗪及其代謝物噻蟲胺在冬棗中的殘留動態(tài)研究
景洪市| 台南市| 德惠市| 句容市| 衡水市| 梁平县| 虎林市| 南木林县| 谷城县| 乌鲁木齐县| 乌拉特中旗| 兴安盟| 茌平县| 江永县| 长宁县| 陆良县| 海丰县| 尼木县| 探索| 尼勒克县| 呼和浩特市| 乳山市| 青州市| 华容县| 扶余县| 门头沟区| 松溪县| 山阴县| 高阳县| 蓬溪县| 泰和县| 双柏县| 阿拉善右旗| 陇南市| 万安县| 镇远县| 丰宁| 北川| 镇原县| 崇文区| 台湾省|