朱新宇, 魏官云, 施李麗
(1.南通大學(xué)生命科學(xué)學(xué)院,江蘇 南通 226019;2.南通大學(xué)醫(yī)學(xué)院,江蘇 南通 226001)
生物信息學(xué)是用數(shù)理和信息科學(xué)的理論和方法研究生命現(xiàn)象的一門交叉學(xué)科,具有前沿性和綜合性的學(xué)科特點(diǎn),其目的是從分子生物數(shù)據(jù)中發(fā)掘新的深層次的生物學(xué)知識。依據(jù)基因本體的知識劃分[1],基因的屬性可從3個方面描述,分子通路,分子功能和細(xì)胞學(xué)定位,如果考慮基因本身和其產(chǎn)物的結(jié)構(gòu),還應(yīng)該加上分子結(jié)構(gòu)這一屬性。除此之外,基因如同物種一樣,具有起源、變異、分化和死亡等特性,因此還應(yīng)該加入分子演化這一屬性。這樣,分子水平上的生物知識應(yīng)該劃分為分子通路、分子功能、細(xì)胞學(xué)定位、分子結(jié)構(gòu)和分子演化5類,生物信息學(xué)的實(shí)驗(yàn)內(nèi)容也應(yīng)該在這5個維度上進(jìn)行設(shè)計(jì)。進(jìn)化生物學(xué)家邁爾[2]認(rèn)為,生物學(xué)知識按其性質(zhì)可劃分為兩類,第1類回答“什么”和“怎樣”這樣的問題,第2類回答“為什么”的問題。分子通路、分子功能、細(xì)胞學(xué)定位和分子結(jié)構(gòu)屬于第1類,而分子演化則屬于第2類。那么,這兩類知識之間存在怎樣的聯(lián)系呢?進(jìn)化生物學(xué)家杜布贊斯基[3](Theodosius Dobzhansky)認(rèn)為“如果不從進(jìn)化的角度分析問題,生物學(xué)就變得無法理解(Nothing in biology makes sense except in the light of evolution)”。關(guān)于生物信息學(xué),也有一種類似的觀點(diǎn),認(rèn)為“如果不從進(jìn)化的角度分析問題,生物信息學(xué)就變得無法理解(Nothing in bioinformatics makes sense except in the light of evolution)”[4],支持這一觀點(diǎn)的證據(jù)是明顯的,比如,序列比對是最基本和最常用的生物信息學(xué)技術(shù),正確的序列比對是尋求序列間字符匹配的最大化和錯配的最小化的過程,這一原則背后是基于物種演化的假設(shè),即物種盡最大可能抵抗變異,保持物種的遺傳穩(wěn)定性;又如,常用的序列比對打分系統(tǒng)PAM矩陣(Point accepted mutation)基于實(shí)際觀察的進(jìn)化上已經(jīng)接受的序列間氨基酸位點(diǎn)的突變頻率;再如,蛋白質(zhì)三維結(jié)構(gòu)的同源建模的前提是必須在同一基因家族中存在已知的實(shí)驗(yàn)測定的蛋白質(zhì)三維結(jié)構(gòu)的成員。
生物信息學(xué)實(shí)驗(yàn)內(nèi)容涵蓋面廣,限于課時,在實(shí)際教學(xué)中容易造成“顧此失彼”的困擾以及由于實(shí)驗(yàn)內(nèi)容間缺乏關(guān)聯(lián)造成碎片化的難題。那么,如何解決這兩個問題呢?如果從生物信息學(xué)兩類知識劃分的角度出發(fā),將分子演化知識置于關(guān)鍵位置,其他知識置于從屬位置,就能建立實(shí)驗(yàn)內(nèi)容之間的內(nèi)在聯(lián)系,就能化解碎片化的難題。在科學(xué)研究實(shí)踐中,最好體現(xiàn)這種知識劃分,且使用生物信息學(xué)技術(shù)最為集中的研究領(lǐng)域是基因家族的分子演化。因此,在實(shí)驗(yàn)內(nèi)容的設(shè)計(jì)上取材于實(shí)際發(fā)生的代表性研究案例,優(yōu)化后用于課堂教學(xué),是一種可行的途徑。在教學(xué)模式上,采用混合式教學(xué),通過開發(fā)、豐富線下學(xué)習(xí)資源,盡可能覆蓋更多的知識維度[5-6],則可化解實(shí)驗(yàn)內(nèi)容“顧此失彼”的困擾。基于以上設(shè)想,在教學(xué)實(shí)踐中對生物信息學(xué)實(shí)驗(yàn)重新進(jìn)行設(shè)計(jì),以期提升本科生物信息學(xué)實(shí)驗(yàn)教學(xué)的質(zhì)量。
如前所述,在生物信息學(xué)的各知識維度中分子演化處于關(guān)鍵位置,據(jù)此,生物信息學(xué)實(shí)驗(yàn)設(shè)計(jì)為基礎(chǔ)生物信息實(shí)驗(yàn)、分子演化實(shí)驗(yàn)和延伸實(shí)驗(yàn)3個模塊(見圖1)?;A(chǔ)生物信息實(shí)驗(yàn)?zāi)K包含生物數(shù)據(jù)庫操作,序列比對及相關(guān)內(nèi)容,通過這一模塊的學(xué)習(xí),使學(xué)生掌握如何從生物數(shù)據(jù)庫中獲取分子數(shù)據(jù),理解技術(shù)背后的分子演化的原理。分子演化實(shí)驗(yàn)?zāi)K包含系統(tǒng)發(fā)育構(gòu)建,分子適應(yīng)及相關(guān)內(nèi)容,通過這一模塊的學(xué)習(xí),使學(xué)生理解系統(tǒng)發(fā)育樹的拓?fù)浣Y(jié)構(gòu)不僅代表生物演化的次序和時間,也能反映多基因家族演化過程中基因功能分化的式樣和動力。延伸模塊包含結(jié)構(gòu)、表達(dá)和其他分析,通過這一模塊學(xué)習(xí),使學(xué)生理解多基因家族的演化造成基因在結(jié)構(gòu)和功能上的歧異。每個教學(xué)模板中包含的“其他實(shí)驗(yàn)”由線上資源提供,用于輔助課堂教學(xué),不占用課時。
圖1 生物信息學(xué)實(shí)驗(yàn)教學(xué)模塊的設(shè)計(jì)
以“基于問題的學(xué)習(xí)(Problem based learning,PBL)”理論[7]指導(dǎo)生物信息學(xué)實(shí)驗(yàn)內(nèi)容的設(shè)計(jì)。這里選擇針對人類和動物的α-防御素基因家族的分子演化、結(jié)構(gòu)、功能等問題的代表性研究論文作為實(shí)驗(yàn)教學(xué)的素材,選擇α-防御素基因的理由是:①在人和動物基因組中,α-防御素基因家族成員在4~5個拷貝數(shù),數(shù)量適中[8],適合用于基因家族的分子演化課堂教學(xué);②人類基因組和轉(zhuǎn)錄組已經(jīng)完成測序,α-防御素基因的組織表達(dá)特征已經(jīng)得到充分研究,易于用來進(jìn)行基因結(jié)構(gòu)和表達(dá)分析的課堂教學(xué);③所有的人類α-防御素基因的蛋白質(zhì)產(chǎn)物的三維結(jié)構(gòu)已經(jīng)通過實(shí)驗(yàn)方法獲得,可用于蛋白質(zhì)同源建模和結(jié)構(gòu)比較的實(shí)驗(yàn)教學(xué);④人類和動物的α-防御素基因不同屬性的研究資料豐富,如組學(xué)數(shù)據(jù),可用于課堂教學(xué)和構(gòu)建線上教學(xué)資源。這些實(shí)際發(fā)生的科學(xué)研究經(jīng)過優(yōu)化,使之符合教學(xué)規(guī)范后用于實(shí)驗(yàn)教學(xué),包括在任務(wù)量上適合課時要求,在內(nèi)容上適合整體和單元教學(xué)設(shè)計(jì)的要求。
學(xué)生對完整的知識體系的掌握是能力提升的基礎(chǔ),線上學(xué)習(xí)資源的開發(fā)以及線上資源支持下的混合式教學(xué)模式是解決這一問題的有效途徑,為此,設(shè)計(jì)和開發(fā)了生物信息學(xué)微學(xué)習(xí)資源(通達(dá)生信微學(xué)習(xí))[6],使之盡可能覆蓋前述的5個維度生物信息學(xué)實(shí)驗(yàn)內(nèi)容。微學(xué)習(xí)資源提供了豐富的多維度的生物信息學(xué)知識和技能,這些短小、內(nèi)容廣泛的生物信息學(xué)微知識和微技能留給學(xué)生廣闊的建構(gòu)空間,使學(xué)生在課外學(xué)習(xí)中達(dá)成對完整知識體系的掌握。微學(xué)習(xí)資源也有助于提高課堂效率[9],采用微學(xué)習(xí)支持下的“個體轉(zhuǎn)換”混合式教學(xué)模式[10](見圖2),授課內(nèi)容只安排結(jié)構(gòu)良好的3個模塊的生物信息學(xué)實(shí)驗(yàn),學(xué)生了解和掌握這些知識和技能后就基本奠定了深入學(xué)習(xí)和擴(kuò)展其他生物信息學(xué)知識和技能的基礎(chǔ)。課前,教師將精心準(zhǔn)備的微學(xué)習(xí)內(nèi)容上傳到微學(xué)習(xí)平臺,學(xué)生通過自主在線學(xué)習(xí),并通過微測試和微討論,熟悉和了解基礎(chǔ)性知識;課中,學(xué)生在機(jī)房中利用在線資源輔助實(shí)驗(yàn)操作,互動交流,教師通過直接授課、個性化輔導(dǎo)等環(huán)節(jié)實(shí)現(xiàn)教學(xué)目標(biāo);課后,學(xué)生利用微學(xué)習(xí)資源鞏固、提高,實(shí)現(xiàn)對概念體系和實(shí)驗(yàn)技能的整體建構(gòu)。
圖2 “個體轉(zhuǎn)換”混合式教學(xué)模式[10]
按照3個實(shí)驗(yàn)教學(xué)模塊安排教學(xué)內(nèi)容和分配學(xué)時。每個模塊安排2組實(shí)驗(yàn),共設(shè)6組實(shí)驗(yàn),分配21學(xué)時,其中數(shù)據(jù)獲取3學(xué)時,序列比對與蛋白質(zhì)功能組件分析3學(xué)時,系統(tǒng)發(fā)育分析3學(xué)時,分子適應(yīng)分析3學(xué)時,結(jié)構(gòu)分析6學(xué)時,表達(dá)分析3學(xué)時。每個模塊中的“其他實(shí)驗(yàn)”由線上資源提供(通達(dá)生信微學(xué)習(xí)),線上資源由教師靈活使用,配合課堂教學(xué),或用于實(shí)驗(yàn)考核。
按照文獻(xiàn)[8]中提供的方法,以人類5個有功能的α-防御素基因[DEFA1(DEFA2),DEFA3,DEFA4,DEFA5,DEFA6]作為查詢序列(Query sequences),使用BLASTn程序從NCBI Refercnece RNA sequences(refseqrna)數(shù)據(jù)庫中鑒別其他3個分屬于不同科的靈長類物種(Pan troglodytes,黑猩猩;Hylobates moloch,長臂猿;Chlorocebussabaeus,綠猴)的α-防御素直系同源基因,使用雙向最優(yōu)擊中確定直系同源基因關(guān)系。
使用MEGAX軟件[11]中的序列比對程序muscle[12]進(jìn)行α-防御素蛋白的序列比對,然后使用PAL2 NAL程序[13]構(gòu)建密碼子比對。使用SMART平臺鑒別α-防御素蛋白的結(jié)構(gòu)域組織,然后手工鑒別和比較4個亞家族中蛋白質(zhì)序列之間關(guān)鍵氨基酸殘基替代的模體(motif)變化,并標(biāo)注在序列比對上。
使用MEGAX軟件[11]進(jìn)行進(jìn)化模型測試,構(gòu)建最大似然法系統(tǒng)發(fā)育樹,以小鼠的Defa1蛋白作為外類群(見圖3)。依據(jù)樹的拓?fù)浣Y(jié)構(gòu),共鑒別4個高度支持的亞家族,亞家族的劃分依照Das等[8]的方案。亞家族的分辨可能與人類的α-防御素基因的分子結(jié)構(gòu)、基因表達(dá)模式、分子通路等一系列基因?qū)傩陨系姆只推绠愂录嬖陉P(guān)聯(lián),這是3個實(shí)驗(yàn)教學(xué)模塊中“延伸實(shí)驗(yàn)”所涉及的實(shí)驗(yàn)內(nèi)容,也是基因家族分子演化研究中的重要內(nèi)容。
圖3 4個靈長類物種α-防御素蛋白的最大似然法系統(tǒng)發(fā)育樹
使用MEGAX軟件[11]進(jìn)行適應(yīng)演化分析,選擇“Codon-Based Z-test of selection”方法,分別測試“總體平均(Overall Average)”和“成對序列(In Sequence Pair)”下的負(fù)選擇、中性選擇和正選擇假設(shè)。使用PAML軟件工具包[14]中的CODEML程序探測α-防御素蛋白的負(fù)選擇、中性選擇和正選擇假設(shè),并標(biāo)注正選擇位點(diǎn)在蛋白質(zhì)序列比對上,這種標(biāo)注有助于學(xué)生理解序列中的特定區(qū)段中正選擇位點(diǎn)對α-防御素基因功能多樣性分化的意義。
使用Gene Structure Display Server(GSDS)Web服務(wù)器[15]分析α-防御素基因家族的基因結(jié)構(gòu)變異,著重分析和比較4個亞家族(見圖4)之間內(nèi)含子數(shù)量和相位的趨異模式,理解其對功能分化的含義。使用SWISS-MODEL[16])Web服務(wù)器(https:∥swissmodel.expasy.org/)預(yù)測取樣的靈長類α-防御素蛋白的折疊模式;使用DaliLite軟件[17]進(jìn)行成對結(jié)構(gòu)比對和結(jié)構(gòu)重疊分析;使用PBEQ-Solver軟件[18]進(jìn)行靜電勢分析;使用UCSF ChimeraX Web服務(wù)器[19](https:∥www.cgl.ucsf.edu/chimerax/)對蛋白結(jié)構(gòu)進(jìn)行可視化分析。
圖4 人類不同類型的α-防御素蛋白具有折疊相似性但有不同的荷電和表面氨基酸組成[8]
使用人類基因組組織特異性表達(dá)(RNA-Seq)數(shù)據(jù)[20],分析人類5個α-防御素基因在27個不同組織的表達(dá)豐度(FPKM,F(xiàn)ragments per Kilobase Million)差異,對照靈長類α-防御素基因家族的系統(tǒng)發(fā)育樹中的聚類關(guān)系,理解靈長類α-防御素基因在表達(dá)水平上功能分化的模式,學(xué)生可以發(fā)現(xiàn),DEFA1、DEFA3和DEFA4屬于一種表達(dá)模式,DEFA5和DEFA6屬于另一種模式,這種比較有助于學(xué)生理解系統(tǒng)發(fā)育分析的結(jié)果與表達(dá)分析結(jié)果既有一致性,也有差異性。使用NCBI表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus)[21]中的數(shù)據(jù)(訪問號GSE 83091),利用在線工具GEO2R(https:∥www.ncbi.nlm.nih.gov/geo/geo2r/)比較DEFA1和DEFA3在不同組織中差異表達(dá)[22]。
考核是檢驗(yàn)學(xué)習(xí)效果的重要環(huán)節(jié),也是能力培養(yǎng)的過程,多元化的過程考核是教改的主要方向,這種方式的考核將知識考核與能力考核相結(jié)合,從多個角度考核學(xué)生的綜合素質(zhì),證明是一種科學(xué)、有效的考核方式[23-24]。針對生物信息學(xué)的學(xué)科特點(diǎn),生物信息學(xué)實(shí)驗(yàn)教學(xué)從實(shí)驗(yàn)原理、單獨(dú)實(shí)驗(yàn)、課堂匯報(bào)和綜合實(shí)驗(yàn)4個環(huán)節(jié)進(jìn)行考核,4個環(huán)節(jié)貫穿教學(xué)的全過程,以培養(yǎng)能力為主對學(xué)生的學(xué)習(xí)效果進(jìn)行考核(見表1)。
表1 實(shí)驗(yàn)考核評價體系
由于生物信息學(xué)的交叉性、前沿性和綜合性的學(xué)科特點(diǎn),造成學(xué)科實(shí)驗(yàn)教學(xué)的抽象化、片段化和片面化等問題。基于生物信息學(xué)知識維度的劃分及不同維度之間的內(nèi)在聯(lián)系,將生物信息學(xué)設(shè)計(jì)為3個相互關(guān)聯(lián)的生物信息學(xué)實(shí)驗(yàn)?zāi)K,即基礎(chǔ)生物信息實(shí)驗(yàn),分子演化實(shí)驗(yàn)和延伸實(shí)驗(yàn)。其中分子演化實(shí)驗(yàn)是核心和基礎(chǔ),這種設(shè)計(jì)解決了生物信息實(shí)驗(yàn)的抽象化和片段問題。實(shí)驗(yàn)內(nèi)容取材于基因家族分子演化的代表性研究成果,這個領(lǐng)域的研究涉及的生物信息技術(shù)比較集中,幾乎覆蓋生物信息實(shí)驗(yàn)的各個維度,非常適合作為實(shí)驗(yàn)教學(xué)的參考樣本,這種基于問題的實(shí)驗(yàn)設(shè)計(jì)有利于培養(yǎng)學(xué)生的科學(xué)思維,并能有效減輕學(xué)生對生物信息學(xué)的認(rèn)知負(fù)擔(dān)。為了解決課時限制造成的生物信息實(shí)驗(yàn)片面化問題,通過開發(fā)微學(xué)習(xí)線上資源,采用線下和線上相結(jié)合的混合式教學(xué)模式,提高課堂效率,使學(xué)生掌握的生物信息實(shí)驗(yàn)技術(shù)更具有完整性和系統(tǒng)性。需要指出的是,開發(fā)微學(xué)習(xí)資源解決生物信息學(xué)實(shí)驗(yàn)片面化的問題是一項(xiàng)艱巨的任務(wù),如何使線上學(xué)習(xí)資源在內(nèi)容上的系統(tǒng)性和完整性,功能上的易用性和交互性以及學(xué)習(xí)評價上的科學(xué)性諸方面達(dá)到更為理想的狀態(tài)以支持學(xué)科教學(xué),還需要廣大同行付出更多的努力。