王金輝 趙冬梅 王逍冬
(河北農(nóng)業(yè)大學(xué)植物保護(hù)學(xué)院,河北保定 071000)
R語(yǔ)言的起源可以追溯到20世紀(jì)90年代,其初衷是向統(tǒng)計(jì)學(xué)家提供一款強(qiáng)大且專(zhuān)業(yè)的數(shù)據(jù)處理和統(tǒng)計(jì)分析工具[1]。S 語(yǔ)言是貝爾實(shí)驗(yàn)室的John Chambers 于1976 年開(kāi)發(fā)的一種用于數(shù)據(jù)分析和圖形表示的編程語(yǔ)言[2]。R 語(yǔ)言借鑒了S 語(yǔ)言的一些思想和語(yǔ)法結(jié)構(gòu),但是以開(kāi)源的方式進(jìn)行開(kāi)發(fā)和發(fā)布,這意味著任何人都可以查看、使用和修改R語(yǔ)言的源代碼,為R語(yǔ)言的快速發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),吸引了全球范圍內(nèi)的眾多開(kāi)發(fā)者和忠實(shí)用戶。在20 余年的發(fā)展中,R 語(yǔ)言經(jīng)歷了多次重要的改進(jìn)和版本更新,逐漸演化出了功能豐富且靈活的開(kāi)源編程語(yǔ)言環(huán)境。目前,R 語(yǔ)言積累了強(qiáng)大的統(tǒng)計(jì)分析功能、出色的數(shù)據(jù)可視化工具和豐富的專(zhuān)業(yè)擴(kuò)展包[3-7],已經(jīng)成為數(shù)據(jù)科學(xué)和研究領(lǐng)域不可或缺的工具之一,在專(zhuān)業(yè)統(tǒng)計(jì)、生物醫(yī)藥、農(nóng)林牧漁、環(huán)境生態(tài)、社會(huì)調(diào)查、金融服務(wù)和電商物流等諸多領(lǐng)域都有廣泛的應(yīng)用[8-11]。R 語(yǔ)言的成功主要得益于其強(qiáng)大的社區(qū)支持和不斷增長(zhǎng)的用戶基礎(chǔ)。
在信息化快速發(fā)展的背景下,許多高等院校將R 語(yǔ)言整合至教育體系,特別是在生物信息學(xué)教學(xué)方面[12-15]。例如,歐洲分子生物學(xué)實(shí)驗(yàn)室-歐洲生物信息研究所(EMBL-EBI)就提供了大量關(guān)于R 語(yǔ)言的標(biāo)準(zhǔn)化網(wǎng)絡(luò)公開(kāi)課程[16-19]。由于其通俗易懂的編程語(yǔ)法、強(qiáng)大的可擴(kuò)展性以及高水準(zhǔn)的數(shù)據(jù)可視化功能,R語(yǔ)言已經(jīng)成為醫(yī)學(xué)類(lèi)統(tǒng)計(jì)學(xué)、生命類(lèi)生物信息學(xué)和生物統(tǒng)計(jì)學(xué)教學(xué)中首選的統(tǒng)計(jì)分析軟件[20-24]。農(nóng)林高等院校也逐漸在傳統(tǒng)農(nóng)林學(xué)科專(zhuān)業(yè)教學(xué)中嘗試引入R語(yǔ)言[25-30]。在植物病理學(xué)專(zhuān)業(yè)教學(xué)中,對(duì)R 語(yǔ)言的應(yīng)用相對(duì)較少。本文結(jié)合植物病理學(xué)專(zhuān)業(yè)教學(xué)的體系結(jié)構(gòu)和專(zhuān)業(yè)特點(diǎn),梳理出了適合該專(zhuān)業(yè)與R 語(yǔ)言相結(jié)合的教學(xué)應(yīng)用場(chǎng)景,并且在近兩年的植物病理學(xué)專(zhuān)業(yè)課程中進(jìn)行了融合嘗試,積累了一定的教學(xué)經(jīng)驗(yàn),為提升植物病理學(xué)專(zhuān)業(yè)信息化教學(xué)質(zhì)量,推動(dòng)農(nóng)林專(zhuān)業(yè)的編程教學(xué)改革提供了思路和教學(xué)案例。
鑒于R 語(yǔ)言強(qiáng)大的數(shù)據(jù)統(tǒng)計(jì)分析內(nèi)核,比較直接的結(jié)合點(diǎn)是對(duì)專(zhuān)業(yè)實(shí)驗(yàn)課上生成的各類(lèi)型生物學(xué)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。普通植物病理學(xué)實(shí)驗(yàn)課通常包括植物病原菌物的形態(tài)學(xué)觀察、植物病理組織切片、植物病原的科赫氏法則驗(yàn)證、植物病害三角關(guān)系和農(nóng)作物品種的抗病性鑒定等教學(xué)實(shí)驗(yàn)。其中,有能夠產(chǎn)生觀測(cè)數(shù)據(jù)并且需要統(tǒng)計(jì)推斷的應(yīng)用場(chǎng)景,例如,病斑面積的測(cè)定和種子帶菌率的調(diào)查等。對(duì)于病斑面積、病斑直徑、病組織重量和病情指數(shù)這類(lèi)正態(tài)分布數(shù)據(jù),以及田間發(fā)病率、種子帶菌率的百分比數(shù)據(jù),都是植物病理學(xué)專(zhuān)業(yè)中常見(jiàn)和典型的觀測(cè)數(shù)據(jù)。
R 語(yǔ)言不局限于傳統(tǒng)數(shù)據(jù)的統(tǒng)計(jì)分析,在處理字符串?dāng)?shù)據(jù),如核酸序列、蛋白質(zhì)序列方面也表現(xiàn)得游刃有余。在植物病理學(xué)實(shí)驗(yàn)課中,通常會(huì)涉及植物病原菌分子鑒定的教學(xué)內(nèi)容,其中最重要的環(huán)節(jié)就是基于聚合酶鏈反應(yīng)(Polymerase Chain Reaction,PCR)產(chǎn)物測(cè)序獲得的保守基因序列構(gòu)建出系統(tǒng)發(fā)生樹(shù),從而完成對(duì)植物病原菌的系統(tǒng)分類(lèi)鑒定。在植物病理學(xué)專(zhuān)業(yè)的研究生培養(yǎng)課程中也有類(lèi)似的教學(xué)內(nèi)容,例如“植物病原菌的分子鑒定”的課堂演示中,就講授如何利用核酸序列或蛋白序列信息來(lái)計(jì)算出不同植物病原菌群體之間親緣關(guān)系的遠(yuǎn)近,在課后作業(yè)中也有類(lèi)似的練習(xí)。此類(lèi)教學(xué)場(chǎng)景完全可以利用R語(yǔ)言的擴(kuò)展軟件包,如Ape[31]和Adegenet[32]等,處理生物分子數(shù)據(jù),包括多序列的比對(duì)、進(jìn)化模型的擬合以及系統(tǒng)發(fā)生樹(shù)的可視化等整個(gè)分析流程。
在“植物病原細(xì)菌的人工接種方法”實(shí)驗(yàn)中,設(shè)計(jì)了分別用兩種不同的病原細(xì)菌人工接種馬鈴薯的塊莖,對(duì)所造成的軟腐病組織進(jìn)行稱(chēng)重,進(jìn)而比較出不同病原細(xì)菌在致病力上的差異。通過(guò)使用天平稱(chēng)重測(cè)量,學(xué)生會(huì)獲得兩組不少于16個(gè)生物學(xué)重復(fù)的稱(chēng)重?cái)?shù)據(jù),單位為g。這種稱(chēng)重?cái)?shù)據(jù)非常適合在R語(yǔ)言中進(jìn)行兩個(gè)樣本的學(xué)生t檢驗(yàn)。具體的R代碼如下。
在課堂上,教師會(huì)演示將組織稱(chēng)重?cái)?shù)據(jù)按照R語(yǔ)言輸入格式整理成數(shù)據(jù)框(dataframe);進(jìn)行探索性數(shù)據(jù)做圖,檢查組間數(shù)據(jù)離散程度以及是否存在潛在的離群值(outliers);檢驗(yàn)數(shù)據(jù)是否滿足正態(tài)分布和組間方差齊性的前提假設(shè);使用學(xué)生氏t檢驗(yàn)進(jìn)行組間均值的比較。分析結(jié)束后,教師會(huì)要求學(xué)生將兩組數(shù)據(jù)的均值(mean)、方差(sd)、組間比較的t統(tǒng)計(jì)量以及t檢驗(yàn)的P值寫(xiě)入實(shí)驗(yàn)報(bào)告。根據(jù)P值得出顯著水平結(jié)論,結(jié)合病菌種類(lèi)做出關(guān)于致病力差異的討論分析。
在“植物病原真菌的人工接種方法”實(shí)驗(yàn)中,還有用梨黑斑病菌人工接種梨果實(shí),放置于不同溫度的培養(yǎng)箱內(nèi)讓果實(shí)發(fā)病,然后對(duì)所造成的病斑直徑進(jìn)行測(cè)量,從而比較出不同環(huán)境條件下發(fā)病的速度快慢。通過(guò)使用直尺測(cè)量,學(xué)生會(huì)獲得3 組不少于12 個(gè)生物學(xué)重復(fù)的直徑數(shù)據(jù),單位為mm。這種多組的直徑測(cè)量數(shù)據(jù)非常適合在R語(yǔ)言中進(jìn)行方差分析(Analysis of variance,ANOVA)。具體的R代碼如下。
在課堂上,教師會(huì)演示將梨果病斑的直徑數(shù)據(jù)按照R 語(yǔ)言輸入格式整理成數(shù)據(jù)框;進(jìn)行探索性數(shù)據(jù)做圖,檢查組間數(shù)據(jù)離散程度以及是否有潛在離群值;檢驗(yàn)組間數(shù)據(jù)是否符合方差齊性;使用方差分析和圖基檢驗(yàn)進(jìn)行組間的多重比較。分析結(jié)束后,教師會(huì)要求學(xué)生將F檢的F統(tǒng)計(jì)量和P值,以及圖基檢驗(yàn)的矯正P值寫(xiě)入實(shí)驗(yàn)報(bào)告。根據(jù)組間比較的顯著水平得出結(jié)論,結(jié)合接種后的溫度差異做出關(guān)于環(huán)境條件影響發(fā)病快慢的討論分析。
“植物病原菌的分子鑒定”實(shí)驗(yàn)中,設(shè)計(jì)了基于單個(gè)保守基因位點(diǎn)的系統(tǒng)發(fā)生樹(shù)構(gòu)建環(huán)節(jié)。在獲得植物病原菌保守位點(diǎn)的PCR 產(chǎn)物測(cè)序序列后,在美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的nr 數(shù)據(jù)庫(kù)中檢索相似序列,下載可能的同源序列,進(jìn)行多序列的比對(duì)。將多序列比對(duì)結(jié)果以fasta格式讀入R語(yǔ)言環(huán)境。利用Ape和Adegenet軟件包中的功能即可實(shí)現(xiàn)鄰接法構(gòu)建系統(tǒng)發(fā)生樹(shù)。具體的R代碼如下。
在課堂上,教師會(huì)演示如何選擇合適的核酸或蛋白質(zhì)替代矩陣計(jì)算遺傳距離。學(xué)習(xí)使用鄰接法來(lái)構(gòu)建系統(tǒng)發(fā)生樹(shù),通常本科實(shí)驗(yàn)課會(huì)使用單個(gè)基因位點(diǎn)進(jìn)行系統(tǒng)發(fā)生樹(shù)的構(gòu)建(即基因樹(shù)),而研究生課程則會(huì)演示多位點(diǎn)的序列分析,即多位點(diǎn)串聯(lián)樹(shù)的構(gòu)建。教師會(huì)解釋如何計(jì)算系統(tǒng)發(fā)生樹(shù)的自展值,有助于評(píng)估樹(shù)的穩(wěn)定性和可信度。將構(gòu)建好的系統(tǒng)發(fā)生樹(shù)進(jìn)行可視化作圖,以清晰的呈現(xiàn)某個(gè)特定植物病原菌的分類(lèi)地位,并在分枝上標(biāo)注出自展值。通過(guò)使用R 語(yǔ)言,學(xué)生能夠?qū)?shí)驗(yàn)室產(chǎn)生的分子生物學(xué)數(shù)據(jù)轉(zhuǎn)化為可視化的系統(tǒng)發(fā)生樹(shù),更深刻地理解和解釋植物病原菌的系統(tǒng)分類(lèi)和群體間的親緣關(guān)系遠(yuǎn)近。
R 語(yǔ)言作為一種通用性的數(shù)據(jù)分析工具,可以在不同學(xué)科領(lǐng)域之間建立橋梁。將植物病理學(xué)專(zhuān)業(yè)教學(xué)與R 語(yǔ)言相結(jié)合,是農(nóng)林類(lèi)高校傳統(tǒng)專(zhuān)業(yè)迎來(lái)信息化改革的一次有益探索。不僅使學(xué)生獲得了實(shí)際數(shù)據(jù)處理和分析的關(guān)鍵技能,更重要的是,促使學(xué)生更深入地探索和理解植物病理學(xué)的專(zhuān)業(yè)理論知識(shí)。這種教學(xué)改革將在培養(yǎng)新一代植物病理學(xué)專(zhuān)業(yè)人才和推動(dòng)跨學(xué)科合作的發(fā)展方面發(fā)揮關(guān)鍵作用,為農(nóng)林學(xué)科的信息化升級(jí)注入新活力。
綜上,本文聚焦探討了R 語(yǔ)言在農(nóng)林高等院校植物病理學(xué)專(zhuān)業(yè)教學(xué)中的應(yīng)用場(chǎng)景,并總結(jié)了R 語(yǔ)言應(yīng)用于植物病理學(xué)專(zhuān)業(yè)教學(xué)的典型教學(xué)案例。新的教學(xué)模式不僅有助于學(xué)生獲得實(shí)際的數(shù)據(jù)處理和分析技能,還能夠深化學(xué)生對(duì)植物病理學(xué)專(zhuān)業(yè)理論知識(shí)的理解。本研究為提升植物病理學(xué)專(zhuān)業(yè)教學(xué)的信息化水平,以及農(nóng)林類(lèi)專(zhuān)業(yè)的編程教學(xué)改革提供了參考。