劉尚輝,曹陽,霍妍,馬瑾,婁巖
(中國醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院,遼寧沈陽110001)
●課程建設(shè)
醫(yī)學(xué)院校大學(xué)生數(shù)據(jù)挖掘IT技能培養(yǎng)的研究與實踐
劉尚輝,曹陽,霍妍,馬瑾,婁巖*
(中國醫(yī)科大學(xué)公共基礎(chǔ)學(xué)院,遼寧沈陽110001)
在網(wǎng)絡(luò)、數(shù)字化信息迅速發(fā)展的今天,各行各業(yè)積累的數(shù)據(jù)越來越多,尤其在醫(yī)院的工作流程中積累了大量的醫(yī)學(xué)數(shù)據(jù)。毋庸置疑,我們已經(jīng)處在一個真正的大數(shù)據(jù)時代,如何跟上時代發(fā)展,培養(yǎng)出適應(yīng)時代需求的醫(yī)學(xué)人才,是醫(yī)學(xué)教育工作者面臨的問題。數(shù)據(jù)挖掘(Data Mining)就是從大量的實際數(shù)據(jù)中提取隱含信息和知識的新型學(xué)科,在醫(yī)學(xué)院校計算機(jī)課程中開設(shè)針對醫(yī)學(xué)數(shù)據(jù)的數(shù)據(jù)挖掘課程,能夠開發(fā)學(xué)生在大數(shù)據(jù)時代學(xué)習(xí)和工作中的潛能,培養(yǎng)高素質(zhì)的醫(yī)學(xué)人才。
醫(yī)學(xué)數(shù)據(jù)挖掘;計算機(jī)教育;教學(xué)研究
數(shù)據(jù)挖掘(Data Mining),也可被稱作是基于數(shù)據(jù)庫的知識,是指從存放在數(shù)據(jù)倉庫或其他信息庫中的、大量的數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程[1]。數(shù)據(jù)挖掘技術(shù)是近年來一個十分活躍的研究領(lǐng)域,他是在數(shù)據(jù)庫、人工智能、統(tǒng)計分析和模式識別等基礎(chǔ)上發(fā)展起來的一門獨立學(xué)科,主要技術(shù)有關(guān)聯(lián)規(guī)則、序列模式、分類/回歸分析、決策樹、聚類、神經(jīng)網(wǎng)絡(luò)、Web挖掘等等[2]。目前在制造、金融、醫(yī)療、市場等多個領(lǐng)域廣泛應(yīng)用。
國內(nèi)對數(shù)據(jù)挖掘的研究起步較晚,特別是在醫(yī)學(xué)領(lǐng)域開展的研究成果更少,目前面臨的問題是“數(shù)據(jù)海量,信息缺乏”。調(diào)查顯示,目前我國大部分醫(yī)院的管理信息系統(tǒng)中,80%以上只是簡單的數(shù)據(jù)查詢與基本計算功能,隱藏在這些數(shù)據(jù)中的潛在關(guān)聯(lián)與知識沒有被發(fā)現(xiàn)與利用,大量的醫(yī)學(xué)數(shù)據(jù)資料被浪費。
當(dāng)醫(yī)學(xué)數(shù)據(jù)的積累量足夠大的時候到來時,數(shù)據(jù)的迅速增加與數(shù)據(jù)分析方法的選擇和使用之間的矛盾就變得越來越突出,在已經(jīng)到來的大數(shù)據(jù)時代,我們能做些什么?如何在醫(yī)學(xué)教育領(lǐng)域有所作為是每個教育工作者要回答的問題。
國外數(shù)據(jù)挖掘技術(shù)的研究成果已經(jīng)廣泛應(yīng)用于各個領(lǐng)域,國內(nèi)許多的科研部門和高校先后開展了知識發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究,國內(nèi)綜合性大學(xué)基本都開展了數(shù)據(jù)挖掘的課程,但醫(yī)藥院校開展得比較少,計算機(jī)課程在醫(yī)學(xué)數(shù)據(jù)處理上很難滿足實際醫(yī)學(xué)問題的需求,我們的課程應(yīng)該教會學(xué)生管理信息,分析信息,挖掘信息潛在價值的IT技術(shù)本領(lǐng)。在醫(yī)學(xué)院校計算機(jī)課程中增加數(shù)據(jù)挖掘方面的內(nèi)容,不僅是學(xué)生實際工作的需求,更應(yīng)該是醫(yī)學(xué)院校增加關(guān)注與扶持的計算機(jī)課程教學(xué)內(nèi)容。
通過在醫(yī)學(xué)院校開設(shè)數(shù)據(jù)挖掘課程,學(xué)生在學(xué)習(xí)及工作過程中,可以將該技術(shù)應(yīng)用到醫(yī)學(xué)的許多領(lǐng)域。
1.基礎(chǔ)醫(yī)學(xué)領(lǐng)域的DNA序列分類、基因組測序數(shù)據(jù)分析等方面,基因微陣列的數(shù)據(jù)挖掘是基因數(shù)據(jù)分析的新方向,基因微陣列數(shù)據(jù)挖掘方法常用聚類分析方法[3],Olivier Tassy提出了一個數(shù)據(jù)挖掘預(yù)測系統(tǒng)Manteia,用于分析脊椎動物的基因與遺傳病的關(guān)系,這個數(shù)據(jù)挖掘系統(tǒng)是個綜合性的數(shù)據(jù)庫,同時為基因數(shù)據(jù)分析提供挖掘工具[4]。
2.疾病診治和預(yù)測,通過對與患者有關(guān)的大量醫(yī)學(xué)數(shù)據(jù)進(jìn)行挖掘處理,發(fā)現(xiàn)有意義的信息支持臨床決策。如病因分析中一項研究代謝病與生活方式的關(guān)系,通過DCIP算法挖掘出了生活方式中15個與代謝疾病相關(guān)的屬性,例如性別、飲酒、工作類型、睡眠等,而且其中80%的屬性被專家文獻(xiàn)證實[5]。
3.流行病學(xué)和醫(yī)學(xué)統(tǒng)計領(lǐng)域,如將決策樹、回歸和神經(jīng)網(wǎng)絡(luò)方法結(jié)合起來分析疾病死亡率的影響因素,從而彌補(bǔ)了神經(jīng)網(wǎng)絡(luò)方法輸出的結(jié)果難以理解的不足。
4.藥物分析、毒理學(xué)研究,數(shù)據(jù)挖掘廣泛應(yīng)用于藥物不良反應(yīng)監(jiān)測、藥物間作用等方面,主要技術(shù)有非比例分析、統(tǒng)計回歸、非監(jiān)督機(jī)器學(xué)習(xí)[6]。
5.影像分析,如通過收集大量患者的暴露劑量,對不同曝光劑量進(jìn)行“分類”挖掘,實現(xiàn)暴露劑量指標(biāo)的標(biāo)準(zhǔn)化。
6.醫(yī)院和衛(wèi)生事業(yè)管理領(lǐng)域,醫(yī)院信息系統(tǒng)提供了大量的信息資源,數(shù)據(jù)挖掘可以從中提取有價值的決策支持信息,為醫(yī)療保健政策的制定、衛(wèi)生資源的合理配置提供了參考。
理工類學(xué)生有一定的IT技術(shù)基礎(chǔ),課程內(nèi)容更偏重于理論知識和解決問題的算法研究;而醫(yī)學(xué)院校學(xué)生IT技術(shù)基礎(chǔ)薄弱,因此在教學(xué)上要偏重于醫(yī)學(xué)應(yīng)用的層面,在醫(yī)學(xué)應(yīng)用上來引導(dǎo)學(xué)生的學(xué)習(xí)與實踐。
1.醫(yī)學(xué)數(shù)據(jù)挖掘課程是對學(xué)生從事醫(yī)學(xué)研究有明確應(yīng)用意義的課程。這門新興的課程在教學(xué)內(nèi)容上要突出基本知識、挖掘方法的選擇、挖掘工具的使用及結(jié)果的分析評價等方面的講授。教會學(xué)生自我探索醫(yī)學(xué)信息中潛在的知識與規(guī)律、循證決策技能、科學(xué)推斷預(yù)測疾病發(fā)展趨勢等手段。
2.將數(shù)據(jù)挖掘技術(shù)與醫(yī)學(xué)具體問題相結(jié)合,首先總結(jié)出不同的醫(yī)學(xué)問題,教會學(xué)生對不同問題用不同的挖掘方法解決。如將決策樹、關(guān)聯(lián)分析等算法應(yīng)用于具體的醫(yī)學(xué)數(shù)據(jù)中,挖掘數(shù)據(jù)之間潛在的相互關(guān)系,相互依賴與規(guī)則。
3.本課程與其他醫(yī)學(xué)計算機(jī)課程不同,可以更直接、更深入的與醫(yī)學(xué)應(yīng)用結(jié)合,是醫(yī)學(xué)科研工作者應(yīng)該具備的數(shù)據(jù)建模,各種因素間潛在關(guān)系的深層次分析的手段與工具。
4.目前在實現(xiàn)醫(yī)院的科學(xué)化、信息化、數(shù)字化的管理形勢下,本課程可以借助醫(yī)院信息管理平臺,不斷提高學(xué)生對醫(yī)療管理信息的分析和預(yù)測的能力,為醫(yī)院的科學(xué)決策提供更多信息化的技術(shù)支持。
數(shù)據(jù)不能自動變成知識,數(shù)據(jù)中暗含的知識只有人設(shè)法發(fā)現(xiàn),讓學(xué)生找到大量的數(shù)據(jù)與找到有用的知識完全是兩回事。中國醫(yī)科大學(xué)已經(jīng)為本科生開設(shè)了4年的醫(yī)學(xué)數(shù)據(jù)挖掘課程,這里介紹一些教與學(xué)的做法。
1.課上典型案例展示與課下實訓(xùn)相結(jié)合的教學(xué)模式,既兼顧對數(shù)據(jù)挖掘的基本知識、基本方法和應(yīng)用軟件操作的多重訓(xùn)練,又突出實際醫(yī)學(xué)挖掘的應(yīng)用案例,強(qiáng)化教學(xué)中的實訓(xùn)演練。
2.實驗教學(xué)建設(shè)上,突出具有醫(yī)學(xué)知識背景的綜合性實驗內(nèi)容,培養(yǎng)學(xué)生的實踐能力與創(chuàng)新精神。例如:數(shù)據(jù)挖掘在疾病輔助診斷中的應(yīng)用等。
3.重視課程資源建設(shè),不斷補(bǔ)充、更新和優(yōu)化教學(xué)資源。如各種基礎(chǔ)醫(yī)學(xué)、臨床醫(yī)學(xué)、生物醫(yī)學(xué)等的數(shù)據(jù)資源收集,醫(yī)學(xué)案例資源是此課程成敗的關(guān)鍵。
4.項目驅(qū)動團(tuán)隊協(xié)作。學(xué)生按組上網(wǎng)檢索國內(nèi)外醫(yī)學(xué)數(shù)據(jù)庫、醫(yī)院課間實習(xí)收集病例、與醫(yī)院相關(guān)部門合作等方式獲取醫(yī)學(xué)實際數(shù)據(jù),制定項目計劃表,嚴(yán)格按照項目進(jìn)度完成實訓(xùn)內(nèi)容,最后師生一起驗收成果。
5.在教與學(xué)的過程中師生共同成長,培養(yǎng)青年教師主講醫(yī)學(xué)數(shù)據(jù)挖掘課程及從事該課程的相關(guān)研究,如青年教師與學(xué)生共同查閱文獻(xiàn)寫綜述論文,通過各種渠道一起收集教學(xué)數(shù)據(jù)資源,共同撰寫發(fā)表研究論文等等。
通過為醫(yī)學(xué)生開設(shè)數(shù)據(jù)挖掘課程,將計算機(jī)技術(shù)與醫(yī)學(xué)實際需要深入結(jié)合,收獲了將醫(yī)學(xué)數(shù)據(jù)轉(zhuǎn)化成知識的教學(xué)成果。學(xué)生掌握了發(fā)現(xiàn)數(shù)據(jù)中存在的知識,并預(yù)測未來發(fā)展趨勢的技術(shù)本領(lǐng)。教學(xué)中也遇到了一些問題,如在醫(yī)學(xué)數(shù)據(jù)采集、更新及清洗方面,由于工作量大存在一些困難,還有挖掘出的結(jié)果需要醫(yī)學(xué)驗證等問題。這些問題已經(jīng)作為我們今后的工作方向,由于醫(yī)學(xué)本身的特殊性,在該領(lǐng)域進(jìn)行探索研究必將取得可惜的收獲。
[1]李雄飛,董元方,李軍,等.?dāng)?shù)據(jù)挖掘與知識發(fā)現(xiàn).第2版[M].北京:高等教育出版社,2010:2-5.
[2]SOMANKP,等著.范明,牛常勇,譯.北數(shù)據(jù)挖掘基礎(chǔ)教程[M].北京:機(jī)械工業(yè)出版社,2009:1-25.
[3]Mercado C P,Byrum S,Beggs M L,et al.Impact of elevated plasma serotonin on global gene expression of murine megakaryocytes[J].PloS one,2013,8(8):e72580.
[4]Tassy O,PourquiéO.Manteia,a predictive data Mining system for vertebrate genes and its applications to human genetic diseases[J].Nucleic acids research,2013:gkt807.
[5]Huang Y C.The application ofdataMining to explore association rules between metabolic syndrome and lifestyles[J].The HIM journal,2013,4(6):44-49.
[6]Harpaz R,DuMouchelW,Shah N H,etal.Novel data-Miningmethodologies for adverse drug event discovery and analysis[J].Clinical Pharmacology&Therapeutics,2012,91(6):1010-1021.
Data m ining:Training IT skills for medical college students
Liu Shanghui,Cao Yang,Huo Yan,et al
(China Medical University public foundation college,Shenyang 110001,Liaoning,China)
data has been increasingly accumulated in today’s information society.In this big data era,the training ofmedical staff needs to keep up with the times.A new subject,datamining extract the hidden information from the huge quantity of data.Offering datamining class to students can bring them better job potentials.
Medical datamining;computer education;teaching and research
G642.3
A
1002-1701(2015)03-0042-02
2014-01
劉尚輝,女,碩士,副教授,研究方向:醫(yī)學(xué)高校計算機(jī)教育。
*通訊作者
10.3969/j.issn.1002-1701.2015.03.023