湯在祥
大數(shù)據(jù)背景下醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)的思考
湯在祥
(蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院,江蘇蘇州215006)
在現(xiàn)今大數(shù)據(jù)時(shí)代的背景下,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的發(fā)展以生命科研相關(guān)的數(shù)據(jù)信息為核心,無疑這對統(tǒng)計(jì)學(xué)這門工具學(xué)科產(chǎn)生了大量的需求。近年來,大數(shù)據(jù)所具有的數(shù)據(jù)特征使得部分傳統(tǒng)統(tǒng)計(jì)方法不再適用,迫切需要針對大數(shù)據(jù)的特征,以服務(wù)和滿足各領(lǐng)域需求為目標(biāo),不斷創(chuàng)新和發(fā)展數(shù)據(jù)分析方法與理論。在醫(yī)學(xué)統(tǒng)計(jì)學(xué)的教學(xué)過程中,迫切需要把新的統(tǒng)計(jì)學(xué)技術(shù)方法應(yīng)用于教學(xué)實(shí)踐,使得學(xué)生們能夠迅速適應(yīng)生命科學(xué)大數(shù)據(jù)的時(shí)代。
大數(shù)據(jù);醫(yī)學(xué)統(tǒng)計(jì)學(xué);統(tǒng)計(jì)方法
近年來,大數(shù)據(jù)已成為各個行業(yè)領(lǐng)域,包括醫(yī)學(xué)研究,健康醫(yī)療行業(yè)的熱門詞匯,醫(yī)學(xué)大數(shù)據(jù)孕育著巨大的價(jià)值,驅(qū)動著醫(yī)學(xué)科學(xué)的進(jìn)步。在醫(yī)學(xué)研究和醫(yī)療行業(yè),借助先進(jìn)的科學(xué)技術(shù)手段,以及創(chuàng)新的數(shù)據(jù)收集方式,已經(jīng)積累并正在迅速積累著大量的數(shù)據(jù),這些醫(yī)學(xué)大數(shù)據(jù)必將轉(zhuǎn)化為醫(yī)學(xué)科技進(jìn)步的巨大動力。然而在這一進(jìn)程中,統(tǒng)計(jì)學(xué)工具如何進(jìn)步,特別是醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)如何變革,如何在教學(xué)內(nèi)容教學(xué)方法上適應(yīng)醫(yī)學(xué)大數(shù)據(jù)的到來是醫(yī)學(xué)統(tǒng)計(jì)教學(xué)改革思考的重點(diǎn)。
大數(shù)據(jù)并不具備一個十分明確的概念,大數(shù)據(jù)起源于計(jì)算機(jī)和互聯(lián)網(wǎng)領(lǐng)域。在信息量逐步增多的情況下,使得計(jì)算機(jī)的存儲空間不足。另外,隨著新的數(shù)據(jù)收集和數(shù)據(jù)處理技術(shù)的產(chǎn)生,如大規(guī)模的測序分析技術(shù),在生物醫(yī)學(xué)的組學(xué)技術(shù),互聯(lián)網(wǎng)的搜索,智能手機(jī)的各種應(yīng)用,智能手環(huán)等,這些技術(shù)不僅能夠大規(guī)模地收集生產(chǎn)數(shù)據(jù),也能夠?qū)?fù)雜的數(shù)據(jù)進(jìn)行程序化處理,極大程度地提升了人們可處理的數(shù)據(jù)量。
在維基百科中,大數(shù)據(jù)被定義為所涉及的數(shù)據(jù)量巨大且復(fù)雜,以至于無法通過傳統(tǒng)的數(shù)據(jù)處理工具和手段將其整理為人類所能解讀的信息。目前,被普遍接受的大數(shù)據(jù)定義是3V定義,即Volume、Variety以及Velocity,即要求數(shù)據(jù)產(chǎn)生速度快,變量多,類型復(fù)雜,數(shù)據(jù)體量大,而且處理速度快[1]。后來,人們又增加了Veracity(真實(shí)性)及Value(有價(jià)值)兩個特性[2]。由以上的概念可以看出,大數(shù)據(jù)的定義并不嚴(yán)密。首先,對于“多大的數(shù)據(jù)量算是大數(shù)據(jù)”沒有清晰的定義;其次,“傳統(tǒng)工具和方法的處理能力”這個參照也不是一個明確的標(biāo)準(zhǔn),因?yàn)殡S著技術(shù)的不斷進(jìn)步和時(shí)間的變化,處理數(shù)據(jù)的能力會隨之提高,所謂現(xiàn)代工具也將成為傳統(tǒng)方法,再次,所謂數(shù)據(jù)產(chǎn)生的速度,體量,價(jià)值等都是相對的概念,不同的人從不同的角度都會有不同的認(rèn)識。盡管沒有關(guān)于大數(shù)據(jù)的明確概念,但對大數(shù)據(jù)所具備的特征已有一定的判斷,對大數(shù)據(jù)的認(rèn)識在不斷加深。
在醫(yī)學(xué)領(lǐng)域,醫(yī)學(xué)大數(shù)據(jù)包括:生物信息數(shù)據(jù)、醫(yī)療數(shù)據(jù)、衛(wèi)生數(shù)據(jù)、藥物數(shù)據(jù)、人類健康數(shù)據(jù)等,這些大數(shù)據(jù)的產(chǎn)生主要得益于下一代測序技術(shù)、生物信息學(xué),電子臨床工具發(fā)展,以及數(shù)字醫(yī)療的興起。特別是生物信息數(shù)據(jù),不僅僅來源于高通量的基因組和轉(zhuǎn)錄組測序,其他高通量組學(xué)數(shù)據(jù),例如單細(xì)胞表型數(shù)據(jù)、動態(tài)生物醫(yī)學(xué)圖像等數(shù)據(jù)量也正在急劇增長。生命科學(xué)的快速進(jìn)步,使得大數(shù)據(jù)貫穿從基礎(chǔ)研究到藥物開發(fā)到臨床診療到健康管理的所有環(huán)節(jié)?;谀壳吧镝t(yī)學(xué)大數(shù)據(jù)的現(xiàn)狀我們可以發(fā)現(xiàn),生物醫(yī)學(xué)大數(shù)據(jù)的研究正處于蓄勢待發(fā)狀態(tài),然而,適應(yīng)于生物醫(yī)學(xué)大數(shù)據(jù)的軟件平臺、大數(shù)據(jù)分析挖掘的統(tǒng)計(jì)方法等還不成熟,制約著生物大數(shù)據(jù)的開發(fā)和利用。一旦適應(yīng)與大數(shù)據(jù)的一整套統(tǒng)計(jì)策略獲得突破,生物醫(yī)學(xué)大數(shù)據(jù)將會全方位地支撐生物醫(yī)學(xué)研究的深入,進(jìn)而有助于對醫(yī)學(xué)現(xiàn)象的分析和預(yù)測,不僅有利于基礎(chǔ)研究的迅速進(jìn)展,更將有利于公共衛(wèi)生,醫(yī)療與醫(yī)藥開發(fā)等方面,大數(shù)據(jù)將以其自有的價(jià)值服務(wù)于廣泛生物醫(yī)學(xué)研究與應(yīng)用。
(一)假設(shè)驅(qū)動與數(shù)據(jù)驅(qū)動的思維模式
傳統(tǒng)統(tǒng)計(jì)研究過程包括統(tǒng)計(jì)設(shè)計(jì)、收集數(shù)據(jù)、整理數(shù)據(jù)和分析數(shù)據(jù)四個基本環(huán)節(jié)。統(tǒng)計(jì)推斷是數(shù)據(jù)分析的關(guān)鍵,而假設(shè)檢驗(yàn)是統(tǒng)計(jì)推斷的核心。以假設(shè)為基礎(chǔ)的研究可統(tǒng)稱為假設(shè)驅(qū)動型研究。假設(shè)驅(qū)動型研究有其特定的發(fā)展歷史背景。一般而言,某學(xué)科領(lǐng)域的初期研究一般是從大量的實(shí)驗(yàn)現(xiàn)象的觀測開始的。此時(shí),研究者對整個學(xué)科的認(rèn)識缺少系統(tǒng)全面的認(rèn)識,不同研究者只是在各自的研究角度發(fā)現(xiàn)各種自然現(xiàn)象,這些現(xiàn)象間很可能存在一致性,也可能存在沖突。不同的研究者似乎在盲人摸象,而各個研究者的認(rèn)識往往離所要認(rèn)識對象的本來面目可能相去甚遠(yuǎn)。這一時(shí)期的科學(xué)研究被稱為假設(shè)驅(qū)動型研究,即通過若干實(shí)驗(yàn)現(xiàn)象來驗(yàn)證某一個科學(xué)假設(shè)。此時(shí)期的研究非常強(qiáng)調(diào)對實(shí)驗(yàn)現(xiàn)象的客觀性描述,強(qiáng)調(diào)實(shí)證主義研究風(fēng)格。假設(shè)驅(qū)動是科學(xué)研究的一般模式,生物醫(yī)學(xué)研究當(dāng)前基本處在這一階段,適應(yīng)這一階段需求的統(tǒng)計(jì)學(xué)分析工具,也以此為基礎(chǔ)而誕生。
生命科學(xué)領(lǐng)域的數(shù)據(jù)驅(qū)動,是一個嶄新的命題,它涉及很多新的概念和術(shù)語,也催生了各種新的統(tǒng)計(jì)學(xué)方法。借助具有廣度和深度的生物醫(yī)學(xué)大數(shù)據(jù),人們能夠?qū)ι茖W(xué)中的各種現(xiàn)象重新認(rèn)識,在新的方向助力人類健康。隨著生物信息學(xué)技術(shù)的進(jìn)步,數(shù)據(jù)的體量和變量類型不斷增加,且可獲性越來越便利,又極大地促進(jìn)了數(shù)據(jù)收集技術(shù)和數(shù)據(jù)分析方法的發(fā)展,包括數(shù)據(jù)整個生命周期中涉及的所有技術(shù),如數(shù)據(jù)的收集、存儲、處理、分析等。
假設(shè)驅(qū)動和數(shù)據(jù)驅(qū)動,在本質(zhì)上有這顯然的不同,然而目前的醫(yī)學(xué)統(tǒng)計(jì)學(xué)的教科書基本上二十年沒有變化,與時(shí)俱進(jìn)的教學(xué)改革十分迫切。
在醫(yī)學(xué)統(tǒng)計(jì)的四個工作步驟中,研究設(shè)計(jì),數(shù)據(jù)收集,數(shù)據(jù)整理,數(shù)據(jù)分析還基本圍繞這假設(shè)驅(qū)動的框架,以假設(shè)為前提,設(shè)計(jì)研究方案,然后收集整理分析數(shù)據(jù)。統(tǒng)計(jì)學(xué)的基本步驟依然是我們執(zhí)行研究的綱領(lǐng),然而在內(nèi)涵上需要拓展與深化。在研究方案的制定上,要考慮到影響生命醫(yī)學(xué)現(xiàn)象的關(guān)鍵要素,也要考慮到相關(guān)聯(lián)的其他要素。在數(shù)據(jù)類型上,除了常規(guī)以數(shù)據(jù)形式記錄到的數(shù)據(jù)外,圖像,音頻,文本形式的數(shù)據(jù)也要納入思考。在數(shù)據(jù)收集上,要能夠借助先進(jìn)的電子化數(shù)據(jù)采集策略。在分析方法上,教科書上現(xiàn)有的統(tǒng)計(jì)分析方法,可能已經(jīng)捉襟見肘,需要介紹當(dāng)前流行的適用于大數(shù)據(jù)的統(tǒng)計(jì)分析新方法。無論我們面對的數(shù)據(jù)是已經(jīng)積累到的大數(shù)據(jù),還是將要收集的大數(shù)據(jù),要全面的建立大數(shù)據(jù)總體統(tǒng)計(jì)思維,而不再是基本“小樣本”的簡單考慮[3]。在現(xiàn)有的教材中,對大數(shù)據(jù)本身往往介紹得比較少,對大數(shù)據(jù)相關(guān)的統(tǒng)計(jì)學(xué)方法更鮮見介紹。而在大數(shù)據(jù)背景下,數(shù)據(jù)驅(qū)動的教學(xué)改進(jìn)方向,就是教學(xué)內(nèi)容以全數(shù)據(jù)模式為研究對象,強(qiáng)調(diào)對所有的數(shù)據(jù)進(jìn)行分析,而不僅僅是開展隨機(jī)抽樣;關(guān)注變量之間的相互關(guān)聯(lián),而不僅僅是強(qiáng)調(diào)因果推斷[4]??偟膩碚f,大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)教學(xué),首要改進(jìn)教材,要能夠突破固有思維限制,建立基于數(shù)據(jù)驅(qū)動的統(tǒng)計(jì)新思維[5]。
(二)課程與教學(xué)模式的設(shè)置
在醫(yī)學(xué)院校,本科階段的統(tǒng)計(jì)學(xué)課程多數(shù)以“醫(yī)學(xué)統(tǒng)計(jì)學(xué)”或“衛(wèi)生統(tǒng)計(jì)學(xué)”課程的形式出現(xiàn),在醫(yī)學(xué)院校的課程體系中,一般以專業(yè)基礎(chǔ)課的形式存在。教學(xué)內(nèi)容根據(jù)課時(shí)數(shù)的不一樣,一般覆蓋到相關(guān)回歸分析,或多元統(tǒng)計(jì)的內(nèi)容。在部分院校,建立了生物統(tǒng)計(jì)系,或預(yù)防醫(yī)學(xué)的專業(yè),統(tǒng)計(jì)相關(guān)課程一般會涉及專業(yè)基礎(chǔ)課程,專業(yè)基礎(chǔ)課程主要是指數(shù)學(xué)類的基礎(chǔ)理論課程(如高等代數(shù)、概率論和數(shù)理統(tǒng)計(jì)等)。作為專業(yè)基礎(chǔ),其課程設(shè)置一般是理論課和實(shí)驗(yàn)課的標(biāo)配形式,其課時(shí)數(shù)的配比一般為3:1。其教學(xué)模式一般采用的還是以理論教學(xué)為主,上機(jī)練習(xí)為輔,但是教師主要還是依托于教材,對相關(guān)理論和方法逐一進(jìn)行介紹,對涉及的公式和方法進(jìn)行演示。學(xué)生聽和記,真正理解的內(nèi)容并不多,真正付諸實(shí)際應(yīng)用的就更少了。在如此課程設(shè)置下,不同專業(yè)和不同年級的學(xué)生都對醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程形成了難學(xué),難懂,難通過考試的印象,學(xué)生對這門課程的學(xué)習(xí)不僅興趣不高,一旦遇到困難,容易對課程產(chǎn)生抵觸心理[6]。此外,現(xiàn)有的教學(xué)內(nèi)容也與大數(shù)據(jù)時(shí)代脫節(jié)。
大數(shù)據(jù)時(shí)代要求培養(yǎng)復(fù)合型人才,不僅對本身的專業(yè)精通,更要對統(tǒng)計(jì)學(xué)工具有深刻的認(rèn)識和了解。因此醫(yī)學(xué)統(tǒng)計(jì)學(xué)的教學(xué)課程和模式的設(shè)置,要從單一課程的講解,向復(fù)合型轉(zhuǎn)變。醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程的教學(xué)目標(biāo),不僅要讓同學(xué)具備基本的數(shù)據(jù)收集、處理和分析的能力,還要對統(tǒng)計(jì)學(xué)應(yīng)用領(lǐng)域的背景知識有一定的了解,讓學(xué)生熟悉了解海量數(shù)據(jù)信息的背景知識以及掌握深度開發(fā)和利用海量數(shù)據(jù)信息的分析方法。在課程設(shè)置上,需要對現(xiàn)有教學(xué)體系中的專業(yè)基礎(chǔ)課程重新進(jìn)行調(diào)整和設(shè)計(jì)。對于預(yù)防醫(yī)學(xué)專業(yè),醫(yī)學(xué)統(tǒng)計(jì)學(xué)作為專業(yè)基礎(chǔ)課,可以設(shè)置為兩門到三門課程,內(nèi)容覆蓋現(xiàn)有的基于假設(shè)驅(qū)動的統(tǒng)計(jì)學(xué)基本方法,加強(qiáng)復(fù)雜多元統(tǒng)計(jì),時(shí)間序列分析等課程內(nèi)容,增加機(jī)器學(xué)習(xí)或統(tǒng)計(jì)學(xué)習(xí)、模擬研究、數(shù)據(jù)挖掘、統(tǒng)計(jì)軟件等處理復(fù)雜大數(shù)據(jù)的方法的課程[7]。在教學(xué)模式上,全面地加強(qiáng)統(tǒng)計(jì)軟件的使用,甚至把軟件教學(xué)也作為單獨(dú)的課程,不僅介紹基本的統(tǒng)計(jì)學(xué)方法,更要介紹基于大數(shù)據(jù)的統(tǒng)計(jì)學(xué)新方法。通過這樣的課程和教學(xué)模式的設(shè)置,使得學(xué)生不僅很好地掌握基本的統(tǒng)計(jì)學(xué)方法,而且對大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué)有全面的認(rèn)知,通過不斷地教學(xué)講解和演示,培養(yǎng)醫(yī)學(xué)生的應(yīng)用能力和大數(shù)據(jù)思維。
(三)突破實(shí)踐教學(xué)環(huán)節(jié)薄弱點(diǎn)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)是一門工具學(xué)科,具有較強(qiáng)的實(shí)踐應(yīng)用性。盡管與過去相比,現(xiàn)有的專業(yè)教學(xué)體系中已經(jīng)增加了實(shí)踐教學(xué)環(huán)節(jié),或設(shè)置專門的在計(jì)算機(jī)房進(jìn)行授課的課程,或在課堂中進(jìn)行了統(tǒng)計(jì)軟件的實(shí)踐演示。然而,現(xiàn)有的實(shí)踐教學(xué)仍然是醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)體系中的薄弱環(huán)節(jié)。主要表型在三個方面:(1)實(shí)踐教學(xué)的思維模式,現(xiàn)有的實(shí)踐教學(xué)內(nèi)容并不是從數(shù)據(jù)自身出發(fā),而是從假設(shè)出發(fā),通過模型來說明假設(shè)的是否有統(tǒng)計(jì)學(xué)意義,這種思維方式與大數(shù)據(jù)背景下的數(shù)據(jù)驅(qū)動思想不相適應(yīng),因?yàn)閯?chuàng)造模型的目的是適應(yīng)數(shù)據(jù),而不是由假設(shè)驅(qū)動。在大數(shù)據(jù)背景下,以假設(shè)驅(qū)動為主的實(shí)踐教學(xué)模式已不適應(yīng)大數(shù)據(jù)時(shí)代的要求;(2)沒有重視數(shù)據(jù)整理的過程[8]。大數(shù)據(jù)時(shí)代收集到的數(shù)據(jù)往往是非結(jié)構(gòu)化數(shù)據(jù),變量類型復(fù)雜,已經(jīng)不是一般意義上的定性數(shù)據(jù)和定量數(shù)據(jù)兩種類型,此外還可能存在這大量缺失或異常值,如何對大規(guī)模的數(shù)據(jù)實(shí)施數(shù)據(jù)清理在過去的實(shí)踐教學(xué)中常常被忽視[9]。通過數(shù)據(jù)整理,獲得可分析的數(shù)據(jù),是處理大數(shù)據(jù)必備的能力;(3)現(xiàn)有的實(shí)踐教學(xué)中,醫(yī)學(xué)生課程主要講授的統(tǒng)計(jì)軟件是SPSS和SAS,盡管這兩種軟件功能強(qiáng)大,發(fā)展成熟,但是,大數(shù)據(jù)時(shí)代數(shù)據(jù)是海量的,變量類型是復(fù)雜的,傳統(tǒng)的教學(xué)軟件已無法便利地處理這些大數(shù)據(jù)[10]。
針對這些實(shí)踐教學(xué)的薄弱環(huán)節(jié),有必要進(jìn)行相關(guān)教學(xué)內(nèi)容的改進(jìn),在時(shí)間中培養(yǎng)大數(shù)據(jù)的統(tǒng)計(jì)思維,對常常忽視的數(shù)據(jù)清理教學(xué)環(huán)節(jié)要予以足夠的重視,設(shè)計(jì)相關(guān)的教學(xué)內(nèi)容。在軟件教學(xué)方面,要分配一定的學(xué)時(shí),講解新的統(tǒng)計(jì)軟件,如當(dāng)前流行的R軟件。R軟件是統(tǒng)計(jì)領(lǐng)域廣泛使用的開源軟件,R軟件包括了各種常用的數(shù)學(xué)計(jì)算、統(tǒng)計(jì)計(jì)算的函數(shù)和模型,更包括了大量新的適用于大數(shù)據(jù)分析的統(tǒng)計(jì)模型和分析方法,能靈活機(jī)動的進(jìn)行數(shù)據(jù)分析,甚至創(chuàng)造出符合需要的新的統(tǒng)計(jì)計(jì)算方法。在大數(shù)據(jù)背景下,與時(shí)俱進(jìn)地改革實(shí)踐教學(xué)內(nèi)容,突破當(dāng)前實(shí)踐教學(xué)的瓶頸,在掌握已有基本統(tǒng)計(jì)學(xué)基礎(chǔ)知識的基礎(chǔ)上,適應(yīng)大數(shù)據(jù)時(shí)代的要求十分必要。
大數(shù)據(jù)時(shí)代的來臨,無論是課程的理論內(nèi)容還是教學(xué)方法均通過不斷改革而實(shí)現(xiàn),醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)的最大的考驗(yàn)就是大數(shù)據(jù)背景下,如何訓(xùn)練培養(yǎng)學(xué)生的統(tǒng)計(jì)思維。在大數(shù)據(jù)時(shí)代,人們應(yīng)該關(guān)注數(shù)據(jù)的全面性,思維方式應(yīng)該從樣本思維轉(zhuǎn)向總體思維,因?yàn)殡S著現(xiàn)代互聯(lián)網(wǎng)技術(shù)和人工智能技術(shù)的發(fā)展,電子化的實(shí)時(shí)數(shù)據(jù)采集已經(jīng)成為可能,人們科學(xué)獲得海量的數(shù)據(jù),甚至是與之相關(guān)的所有數(shù)據(jù),并進(jìn)一步采用新的統(tǒng)計(jì)分析技術(shù)對數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)大數(shù)據(jù)背景下,生命醫(yī)學(xué)現(xiàn)象背后的數(shù)據(jù)關(guān)系和機(jī)制。這種采用全數(shù)據(jù)思維方式進(jìn)行思考問題、解決問題,可以帶來對生命醫(yī)學(xué)現(xiàn)象更全面的認(rèn)識,可以更清楚地發(fā)現(xiàn)樣本無法揭示的細(xì)節(jié)信息,更加立體、全面、系統(tǒng)地認(rèn)識總體狀況??梢姡髷?shù)據(jù)背景下的統(tǒng)計(jì)新思維首要的就是總體思維,要習(xí)慣于從更高更廣闊的角度思考問題[11]。
在統(tǒng)計(jì)推斷的技術(shù)方法上,傳統(tǒng)的統(tǒng)計(jì)推斷分析過程是以分布理論為基礎(chǔ),通過概率計(jì)算,對總體進(jìn)行推斷,通常是根據(jù)樣本特征去推斷總體特征,檢驗(yàn)?zāi)P偷募僭O(shè)?,F(xiàn)在,大數(shù)據(jù)的統(tǒng)計(jì)分析過程變成了以實(shí)際分布為基礎(chǔ),直接根據(jù)總體的特征進(jìn)行概率的判斷,大數(shù)據(jù)所處理的對象幾乎就是總體數(shù)據(jù),不強(qiáng)調(diào)根據(jù)分布理論進(jìn)行推斷。這里需要說明的是學(xué)習(xí)大數(shù)據(jù)的分析方法,不是否定現(xiàn)有統(tǒng)計(jì)教材的基本架構(gòu),教科書上的基本統(tǒng)計(jì)方法仍然是每一個學(xué)生必須掌握的內(nèi)容。
此外,在大數(shù)據(jù)時(shí)代,得益于計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的突破,大量的生物醫(yī)學(xué)數(shù)據(jù)能夠得到及時(shí)的儲存和分析。然而,海量信息避免不了數(shù)據(jù)點(diǎn)的不精確性,這就要求我們在處理數(shù)據(jù)時(shí),一方面要有容錯思維,即面對大數(shù)據(jù)時(shí),不再追求絕對的精準(zhǔn)性,適當(dāng)忽略微觀層面上的精確度,容許一定程度的錯誤與混雜[3];另一方面,要具備足夠的數(shù)據(jù)清洗能力,有效篩選目標(biāo)數(shù)據(jù),獲得精準(zhǔn)的統(tǒng)計(jì)分析結(jié)果,挖掘出大數(shù)據(jù)的正真價(jià)值[9]。
統(tǒng)計(jì)學(xué)是門工具學(xué)科,除了生物統(tǒng)計(jì)學(xué)相關(guān)專業(yè)的學(xué)生外,醫(yī)學(xué)生學(xué)習(xí)統(tǒng)計(jì)學(xué)的目的主要是應(yīng)用。因此,醫(yī)學(xué)統(tǒng)計(jì)學(xué)教學(xué)要圍繞滿足應(yīng)用這個主題來進(jìn)行。怎樣在大數(shù)據(jù)時(shí)代背景下培養(yǎng)出適應(yīng)醫(yī)學(xué)教學(xué)研究需求的醫(yī)學(xué)生?怎樣把當(dāng)下流行的大數(shù)據(jù)理念和處理技術(shù)與傳統(tǒng)的醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程教學(xué)有機(jī)的結(jié)合?如何以培養(yǎng)學(xué)生對高維醫(yī)學(xué)數(shù)據(jù)處理與分析的認(rèn)識,興趣和能力?這些都是我們在醫(yī)學(xué)統(tǒng)計(jì)學(xué)課程教學(xué)中不得不思考的問題。為適應(yīng)大數(shù)據(jù)時(shí)代的客觀要求,筆者對大數(shù)據(jù)背景下的教學(xué)改革的思考提出以下幾點(diǎn)想法。
(一)以鮮活的案例為基礎(chǔ),開展案例教學(xué)
當(dāng)前,絕大多數(shù)高校的教學(xué)一直采用傳統(tǒng)的教學(xué)模式,即教師圍繞學(xué)生,針對書本知識進(jìn)行教學(xué),這種教學(xué)模式存在以下三方面問題:(1)課堂教學(xué)以理論授課為主,書本知識體系更新較慢,學(xué)生興趣不高;(2)教學(xué)內(nèi)容與實(shí)踐結(jié)合不緊密,課程學(xué)習(xí)結(jié)束后,學(xué)生分析數(shù)據(jù)的能力仍然薄弱;(3)學(xué)生的創(chuàng)新能力沒有得到培養(yǎng)[6]。這種傳統(tǒng)的教學(xué)模式,顯然與大數(shù)據(jù)背景下的教學(xué)要求不相適應(yīng)。在生物醫(yī)學(xué)研究領(lǐng)域,有許多大數(shù)據(jù)的實(shí)際數(shù)據(jù)和案例,也有現(xiàn)成的軟件程序,借助鮮活的案例,不僅能夠調(diào)動學(xué)生的積極性和參與熱情,更能夠讓學(xué)生在案例中體會理解大數(shù)據(jù)的意義。
如在腫瘤基因組圖譜計(jì)劃(TCGA)的數(shù)據(jù)庫中,有近40余種癌癥的數(shù)據(jù),這些數(shù)據(jù)包括全基因組約2萬個基因的表達(dá)數(shù)據(jù)和臨床數(shù)據(jù),利用這樣一個變量類型相對單一的數(shù)據(jù),展示R軟件glmnet包中l(wèi)asso算法的應(yīng)用,必然引起學(xué)生的興趣,不僅掌握的軟件算法有應(yīng)用,而且對于大數(shù)據(jù)的處理分析也有了直觀的認(rèn)識和理解。這樣的鮮活案例,不僅有助于講解大數(shù)據(jù)的數(shù)據(jù)清理過程,軟件算法的含義,而且會激發(fā)學(xué)生不斷探索求新創(chuàng)新的熱情。以案例為中心的大數(shù)據(jù)教學(xué),不只是純粹的理論宣導(dǎo),而是強(qiáng)化大數(shù)據(jù)分析全過程的訓(xùn)練。
(二)以項(xiàng)目式為抓手,開展大數(shù)據(jù)分析訓(xùn)練
傳統(tǒng)的教學(xué)方法以老師講授為主,學(xué)生記背,兼有少量練習(xí)。這種模式在現(xiàn)代信息高度發(fā)達(dá)的社會環(huán)境顯然不能夠吸引學(xué)生主動參與學(xué)習(xí)的興趣和熱情。項(xiàng)目教學(xué)法就是教學(xué)改革的方向之一,項(xiàng)目教學(xué)法不僅有利于培養(yǎng)學(xué)生的綜合才能,而且能夠培養(yǎng)學(xué)生團(tuán)隊(duì)合作的精神[12]。大數(shù)據(jù)的整合分析常常不是一個人能夠獨(dú)立完成,更多時(shí)候需要計(jì)算機(jī)技術(shù),統(tǒng)計(jì)技術(shù),甚至圖像文本識別技術(shù)等多學(xué)科技術(shù)人員同理合作才能完成。以項(xiàng)目為抓手,在老師的指導(dǎo)下,將一個相對獨(dú)立的大數(shù)據(jù)分析項(xiàng)目交由學(xué)生自行組織的團(tuán)隊(duì),學(xué)生自行討論信息的收集、方案的設(shè)計(jì)、項(xiàng)目實(shí)施及最終評價(jià)。學(xué)生通過該項(xiàng)目的進(jìn)行,了解并把握大數(shù)據(jù)分析的整個過程,了解大數(shù)據(jù)產(chǎn)生,數(shù)據(jù)的清理,模型的應(yīng)用,研究設(shè)計(jì)的制定,軟件編程,報(bào)告的編寫等諸多方面。
項(xiàng)目教學(xué)法最顯著的特點(diǎn)是以項(xiàng)目為主線、教師為引導(dǎo)、學(xué)生為主體。注重理論與實(shí)踐相結(jié)合,注重多學(xué)科領(lǐng)域知識的整合,在項(xiàng)目式教學(xué)的過程中,學(xué)生通過各種途經(jīng)方法獲取信息和知識,學(xué)生是被允許、甚至是被期待去犯錯誤,讓學(xué)生自由探索大數(shù)據(jù)的奧秘,由此,他們變成了主動的學(xué)習(xí)者,并且得以培養(yǎng)團(tuán)隊(duì)技能。項(xiàng)目教學(xué)法的開展,需要完善的課程計(jì)劃、足夠的靈活度和一個可以開展團(tuán)隊(duì)協(xié)作,數(shù)據(jù)資源共享利用的環(huán)境[13]。
(三)創(chuàng)新實(shí)踐教學(xué)模式,加強(qiáng)實(shí)踐教學(xué)的開展
計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)迅速發(fā)展,在處理數(shù)據(jù)的時(shí)候,根據(jù)數(shù)據(jù)的特征創(chuàng)造出新的計(jì)算方法來滿足實(shí)際需要。當(dāng)前的實(shí)踐教學(xué)需要從傳統(tǒng)的假設(shè)驅(qū)動下的實(shí)踐教學(xué)轉(zhuǎn)變到數(shù)據(jù)驅(qū)動下的實(shí)踐教學(xué),構(gòu)造以課堂案例教學(xué)和課后項(xiàng)目式訓(xùn)練為主,校外實(shí)習(xí)和網(wǎng)絡(luò)學(xué)習(xí)并重的全面創(chuàng)新型實(shí)踐教學(xué)模式。在實(shí)踐教學(xué)的過程中,要強(qiáng)調(diào)統(tǒng)計(jì)學(xué)工具、計(jì)算機(jī)編程以及統(tǒng)計(jì)分析軟件的結(jié)合。目前,以R軟件為代表開源統(tǒng)計(jì)軟件顯示了強(qiáng)大的大數(shù)據(jù)分析能力,特別是其中有關(guān)高維大數(shù)據(jù)的部分,填補(bǔ)了其他軟件的不足。在實(shí)踐教學(xué)過程中,將計(jì)算機(jī)軟件的應(yīng)用與課堂的理論教學(xué)有機(jī)結(jié)合,項(xiàng)目式訓(xùn)練和實(shí)習(xí)實(shí)踐可以帶動學(xué)生了解和掌握整個大數(shù)據(jù)分析流程,激發(fā)學(xué)生學(xué)習(xí)的興趣,增強(qiáng)學(xué)生對大數(shù)據(jù)的理解,逐漸培養(yǎng)學(xué)生大數(shù)據(jù)觀。
實(shí)踐教學(xué)的關(guān)鍵環(huán)節(jié)是加強(qiáng)和規(guī)范統(tǒng)計(jì)軟件應(yīng)用,強(qiáng)化統(tǒng)計(jì)計(jì)算。在教學(xué)上能夠讓學(xué)生熟練掌握一款統(tǒng)計(jì)軟件的程序語言并進(jìn)行編程操作,那么學(xué)生在實(shí)踐當(dāng)中就能得心應(yīng)手地進(jìn)行數(shù)據(jù)的整理和分析。R軟件是免費(fèi)軟件,統(tǒng)計(jì)建模和統(tǒng)計(jì)計(jì)算功能強(qiáng)大,也是最新統(tǒng)計(jì)計(jì)算方法發(fā)布的主要平臺,非常有利于培養(yǎng)學(xué)生的編程能力和知識更新能力。當(dāng)然,實(shí)踐教學(xué)中也可以使用其他專業(yè)統(tǒng)計(jì)軟件,如Stata等。但總而言之,基于非編程的統(tǒng)計(jì)軟件,進(jìn)行統(tǒng)計(jì)方法講授的時(shí)代應(yīng)該結(jié)束。
回顧醫(yī)學(xué)統(tǒng)計(jì)學(xué)的發(fā)展歷史可以發(fā)現(xiàn),從小樣本的t檢驗(yàn),到多元分析,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的發(fā)展史實(shí)際上都是以實(shí)際需求為驅(qū)動,伴隨著需求和數(shù)據(jù)的改變逐步向前發(fā)展。在現(xiàn)今大數(shù)據(jù)時(shí)代的背景下,醫(yī)學(xué)統(tǒng)計(jì)學(xué)的發(fā)展以生命科研相關(guān)的數(shù)據(jù)信息為核心,無疑這對統(tǒng)計(jì)學(xué)這門工具學(xué)科產(chǎn)生了大量的需求。近年來,大數(shù)據(jù)所具有的數(shù)據(jù)特征使得部分傳統(tǒng)統(tǒng)計(jì)方法不再適用,迫切需要針對大數(shù)據(jù)的特征,以服務(wù)和滿足各領(lǐng)域需求為目標(biāo),不斷創(chuàng)新和發(fā)展數(shù)據(jù)分析方法與理論[13]。
[1]朱建平,李秋雅.大數(shù)據(jù)對大學(xué)教學(xué)的影響[J].中國大學(xué)教學(xué),2014(9):41-44.
[2]郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013
[3]和志英.大數(shù)據(jù)時(shí)代對統(tǒng)計(jì)學(xué)的影響[J].商務(wù)必讀,2016(10):153-154.
[4]邱東.大數(shù)據(jù)時(shí)代對統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):16-22.
[5]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014(1):10-15.
[6]陳秀芬.大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)課程教學(xué)改革的思考[J].高教學(xué)刊,2015(20):106-107.
[7]王想.大數(shù)據(jù)對統(tǒng)計(jì)學(xué)本科專業(yè)課程設(shè)置的影響分析[J].高教學(xué)刊,2016(5):199-202.
[8]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014(1):5-9.
[9]朱建平,張悅涵.大數(shù)據(jù)時(shí)代對傳統(tǒng)統(tǒng)計(jì)學(xué)變革的思考[J].統(tǒng)計(jì)研究,2016(2):3-9.
[10]薛艷.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)體系的改革[J].教育教學(xué)論壇,2015(4):110-111.
[11]馬雙鴿,劉蒙闋,周峙利,等.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展的若干問題[J].統(tǒng)計(jì)研究,2017(1):5-11.
[12]宗亞妹,李建啟.系列化項(xiàng)目教學(xué)的研究與實(shí)踐[J].中國大學(xué)教學(xué),2013(11):44-46.
[13]林江湧,魏農(nóng)建,段明明.項(xiàng)目教學(xué):應(yīng)用型教學(xué)模式的選擇[J].中國大學(xué)教學(xué),2010(10):33-35.
Thinking on Medical Statistics Teaching under the Background of Big Data
TANG Zai-xiang
(School of Public Health,Medical College,Suzhou University,Suzhou 215006,China)
Under the background of big data,the development of medical statistics takes life scientific research related data as the core,which no doubt causes a lot of demand in the statistical discipline.In recent years,the characteristics of the big data makes some traditional statistical methods no longer applicable,and there is urgent need for innovation and development of data analysis methods to aim to serve and meet requirements of different fields according to the characteristics of big data.In the process of teaching of medical statistics,the urgent need for the application of this new method of statistical techniques in teaching practice may make students quickly adapt to life science.
big data;medical statistics;statistical methods
G642.4
A
1009-4318(2017)03-0069-05
2017-06-30
國家自然科學(xué)基金資助(81573253;81773541)
湯在祥(1981-),男,江蘇揚(yáng)州人,蘇州大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院副教授,博士,主要從事生物統(tǒng)計(jì)學(xué)方面的研究。