姜疆
由于傳統(tǒng)的機(jī)器學(xué)習(xí)算法大多是基于內(nèi)存的,而TB甚至PB級(jí)的海量數(shù)據(jù)又無法裝載進(jìn)計(jì)算機(jī)內(nèi)存,因此,現(xiàn)有的諸多算法不能處理大數(shù)據(jù)。如何使機(jī)器學(xué)習(xí)算法適應(yīng)大數(shù)據(jù)挖掘的要求,已經(jīng)成為產(chǎn)業(yè)界與學(xué)術(shù)界研究的主要方向。目前,采用深度學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行挖掘是比較熱門的方法,因?yàn)槠洳粌H能自動(dòng)對(duì)數(shù)據(jù)進(jìn)行快速處理,而且準(zhǔn)確度較高。
事件
“深度學(xué)習(xí)”應(yīng)用到醫(yī)學(xué)診斷
2017年,AI醫(yī)療領(lǐng)域備受資本市場關(guān)注,尤其是到2017年下半年,推想科技、圖瑪深維、匯醫(yī)慧影等企業(yè)都相繼完成了B輪融資。國內(nèi)高端醫(yī)療影像設(shè)備生產(chǎn)商聯(lián)影今年也注資3億元人民幣成立人工智能子公司進(jìn)軍醫(yī)療人工智能領(lǐng)域。此外,還有騰訊的“覓影”,阿里健康的“Doctor You”等都在醫(yī)學(xué)影像的智能輔助診斷系統(tǒng)上有所布局。
醫(yī)學(xué)診斷是機(jī)器深度學(xué)習(xí)技術(shù)應(yīng)用對(duì)接的重要領(lǐng)域之一。2017年,Nature報(bào)道了谷歌運(yùn)用深度學(xué)習(xí)技術(shù)(主要是卷積神經(jīng)網(wǎng)絡(luò))在該領(lǐng)域取得的新突破。谷歌通過分析眼球的視網(wǎng)膜圖像,可以預(yù)測一個(gè)人的血壓、年齡和吸煙狀況,而且初步研究表明,這項(xiàng)技術(shù)在防范心臟病發(fā)作上很有成效。深度學(xué)習(xí)技術(shù)正改變著生物醫(yī)療學(xué)家處理分析圖像的方式,甚至有助于發(fā)現(xiàn)從未觸及的現(xiàn)象,有望開辟一條新的研究道路。
此外,隨著數(shù)據(jù)庫技術(shù)的發(fā)展和中醫(yī)領(lǐng)域數(shù)據(jù)的暴漲,數(shù)據(jù)挖掘方法甚至開始引入到中醫(yī)藥研究上,產(chǎn)生了中醫(yī)數(shù)據(jù)挖掘。不同于傳統(tǒng)科學(xué)數(shù)據(jù),中醫(yī)藥數(shù)據(jù)有自己的特點(diǎn),中醫(yī)藥數(shù)據(jù)的特點(diǎn)主要包括:癥狀的模糊性、證候的多態(tài)性、證候與癥狀間的非線性、中醫(yī)藥數(shù)據(jù)的多維性以及挖掘的復(fù)雜性?;诖祟愄攸c(diǎn),傳統(tǒng)簡單的統(tǒng)計(jì)分析工具已經(jīng)不能滿足中醫(yī)現(xiàn)代化、信息化發(fā)展的根本需求。而中醫(yī)數(shù)據(jù)挖掘技術(shù)正適合于復(fù)雜多維的數(shù)據(jù)分析,運(yùn)用相應(yīng)的算法可以從海量的中醫(yī)藥數(shù)據(jù)中發(fā)現(xiàn)知識(shí)。
尤為值得重視的是,近年來,我國一些院校為進(jìn)一步促進(jìn)中醫(yī)領(lǐng)域的信息化、智能化發(fā)展,數(shù)據(jù)挖掘在中醫(yī)藥相關(guān)研究上越來越深入。比如江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院的一項(xiàng)研究著重對(duì)目前中醫(yī)數(shù)據(jù)挖掘的研究方向進(jìn)行了具體分析,除了改進(jìn)傳統(tǒng)挖掘算法的趨勢、擴(kuò)展經(jīng)典算法在中醫(yī)藥數(shù)據(jù)領(lǐng)域應(yīng)用的趨勢之外,還引進(jìn)了新的挖掘算法和技術(shù)。
華東理工大學(xué)學(xué)者以慢性胃炎患者中醫(yī)問診數(shù)據(jù)為研究樣本,從挖掘樣本特征之間關(guān)系和挖掘類別標(biāo)簽之間關(guān)系兩個(gè)角度出發(fā),采用二類相關(guān)和深度置信網(wǎng)絡(luò),或深度玻爾茲曼機(jī)模型的基于深度學(xué)習(xí)的多標(biāo)記學(xué)習(xí)法,分別建立深度學(xué)習(xí)和條件隨機(jī)場模型,對(duì)中醫(yī)慢性胃炎患者問診數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測,得到五個(gè)常見指標(biāo)下的實(shí)驗(yàn)結(jié)果符合中醫(yī)理論,明顯優(yōu)于其他常見方法。
背景
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)相互促進(jìn)
從海量的數(shù)據(jù)庫中挖掘信息的過程就稱之為數(shù)據(jù)挖掘。換句話說,在數(shù)據(jù)庫中的海量數(shù)據(jù)里找出隱含的、之前未知的有研究價(jià)值的信息的這一非平凡過程就是所謂數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘是一項(xiàng)探測大量數(shù)據(jù)的業(yè)務(wù)流程,而且是以發(fā)現(xiàn)有意義的模式(pattern)和規(guī)則(rule)為目的的。數(shù)據(jù)挖掘是基于機(jī)器學(xué)習(xí)、人工智能、模式識(shí)別等的一種決策支持過程,來智能分析企業(yè)數(shù)據(jù),做出歸納性預(yù)測,幫助決策者根據(jù)已挖掘出的潛在的模式?jīng)Q策出正確的方案。
數(shù)據(jù)挖掘是要構(gòu)造一個(gè)分類函數(shù)或模型(常稱作分類器),該函數(shù)是根據(jù)事物屬性、特點(diǎn)加以劃分,而且該函數(shù)或模型能把數(shù)據(jù)庫中的數(shù)據(jù)項(xiàng)映射到一個(gè)指定的分類類別,即分類功能;把整個(gè)數(shù)據(jù)庫劃分成不同的群組,并且規(guī)定同一群組內(nèi)數(shù)據(jù)盡量接近相同、不同的組群差別顯著,此為數(shù)據(jù)的聚類;關(guān)聯(lián)分析就是采用關(guān)聯(lián)規(guī)則和序列模式技術(shù)發(fā)現(xiàn)數(shù)據(jù)庫各值的相關(guān)性;數(shù)據(jù)的預(yù)測顧名思義,把握數(shù)據(jù)規(guī)律,做出合理推測;偏差的檢測是對(duì)少數(shù)的極端數(shù)據(jù)進(jìn)行分析,表明其內(nèi)在原因。
由于數(shù)據(jù)挖掘是一個(gè)復(fù)雜的迭代過程。通過在數(shù)據(jù)集上不斷地循環(huán)處理,最終得到有意義的知識(shí)或模式。這就要求我們充分利用計(jì)算機(jī)計(jì)算和存儲(chǔ)上的優(yōu)勢。數(shù)據(jù)挖掘算法中常用的有統(tǒng)計(jì)型算法和機(jī)器學(xué)習(xí)型算法兩類。前者常用相關(guān)性分析、聚類分析、概率和判別分析等進(jìn)行運(yùn)算;后者的特色是運(yùn)用了人工智能技術(shù),能在大量樣本集訓(xùn)練和學(xué)習(xí)后自動(dòng)找出運(yùn)算需要的參數(shù)和模式。
機(jī)器學(xué)習(xí)這門學(xué)科所關(guān)注的問題是:計(jì)算機(jī)程序如何隨著經(jīng)驗(yàn)積累自動(dòng)提高性能。這是卡內(nèi)基梅隆大學(xué)教授、美國《Machine Leaming》雜志、國際機(jī)器學(xué)習(xí)年度會(huì)議(ICML)創(chuàng)始人Tom Mitchell給出的一個(gè)能被廣泛接受的經(jīng)典定義。
機(jī)器學(xué)習(xí)算法應(yīng)用在歷史數(shù)據(jù)集上,通過訓(xùn)練來使計(jì)算機(jī)獲得智能。機(jī)器學(xué)習(xí)系統(tǒng)一般由環(huán)境、學(xué)習(xí)元、知識(shí)庫和執(zhí)行元四個(gè)部分組成。相應(yīng)的,傳統(tǒng)機(jī)器學(xué)習(xí)主要包括四個(gè)部分:對(duì)人類學(xué)習(xí)過程進(jìn)行理解與模擬;對(duì)人類用戶與計(jì)算機(jī)系統(tǒng)之間的語言接口進(jìn)行研究;問題自動(dòng)規(guī)劃能力設(shè)計(jì);設(shè)計(jì)能夠發(fā)現(xiàn)新事物的程序以實(shí)現(xiàn)機(jī)器學(xué)習(xí)目的。
專業(yè)人士指出,通過應(yīng)用機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘?qū)?shù)據(jù)的處理方法可以分為: 分類、回歸分析、關(guān)聯(lián)規(guī)則及聚類等(見表格),而且每種挖掘方法都可以通過不同的機(jī)器學(xué)習(xí)技術(shù)來實(shí)現(xiàn)。
然而傳統(tǒng)機(jī)器學(xué)習(xí)多在小數(shù)據(jù)環(huán)境下運(yùn)行,所依賴的機(jī)器學(xué)習(xí)算法難以支撐大數(shù)據(jù)學(xué)習(xí)?;诖?,為解決大數(shù)據(jù)問題,必須深入研究大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法問題。
在大數(shù)據(jù)環(huán)境下,機(jī)器學(xué)習(xí)算法的設(shè)計(jì)與實(shí)現(xiàn)涉及很多方面,包括分布式運(yùn)算、數(shù)據(jù)流技術(shù)、云技術(shù)等。機(jī)器學(xué)習(xí)算法通過與這些技術(shù)相結(jié)合,高效地處理數(shù)以億計(jì)的數(shù)據(jù)對(duì)象,并快速地訓(xùn)練出模型,從而獲取有價(jià)值的知識(shí)。機(jī)器學(xué)習(xí)技術(shù)已經(jīng)在推薦系統(tǒng)、智能語音識(shí)別、搜索引擎等企業(yè)級(jí)的數(shù)據(jù)挖掘中得到廣泛應(yīng)用。大數(shù)據(jù)發(fā)展和研究、關(guān)鍵技術(shù)、評(píng)定指標(biāo)對(duì)機(jī)器學(xué)習(xí)的方法研究工作提出了新的挑戰(zhàn)和要求
焦點(diǎn)
從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)需要算法支撐
機(jī)器學(xué)習(xí)無疑是當(dāng)前數(shù)據(jù)分析領(lǐng)域的一個(gè)熱點(diǎn)內(nèi)容。很多人在平時(shí)的工作中都或多或少會(huì)用到機(jī)器學(xué)習(xí)的算法。機(jī)器學(xué)習(xí)的算法很多,諸如K–均值算法、K近鄰算法、樸素貝葉斯、支持向量機(jī)等。然而,很多時(shí)候困惑人們的是,很多算法是一類算法,而有些算法又是從其他算法中延伸出來的。
機(jī)器學(xué)習(xí)型算法中人工神經(jīng)網(wǎng)絡(luò)方法被普遍運(yùn)用,它具有極好的數(shù)據(jù)處理能力和自組織學(xué)習(xí)能力,并且能準(zhǔn)確進(jìn)行識(shí)別,從而有助于分類問題中的數(shù)據(jù)處理。人工神經(jīng)網(wǎng)絡(luò)通過建構(gòu)模型而工作,其模型多樣,能滿足不同需求??傮w來看,人工神經(jīng)網(wǎng)絡(luò)模型精確度高、魯棒性好,具有較強(qiáng)描述能力,在應(yīng)用時(shí)可以無需專家支持。
遺傳算法可以利用生物進(jìn)化模型,引入選擇算子、變異算子、交換算子等,提高生物進(jìn)化群體的多樣化。信息論利用率失真理論可以對(duì)數(shù)據(jù)進(jìn)行壓縮和分析,將海量的數(shù)據(jù)集劃分到幾個(gè)簇中,然后根據(jù)率失真代價(jià)函數(shù)進(jìn)行優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)集分類。研究人員對(duì)神經(jīng)網(wǎng)絡(luò)的不斷研究,以此引出了深度學(xué)習(xí),可以說深度學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)的延伸。深度學(xué)習(xí)常常被誤會(huì)為一種機(jī)器學(xué)習(xí)模型,而實(shí)際上它是一個(gè)框架、一種思路。
經(jīng)研究表明,為能夠?qū)W習(xí)表達(dá)高階抽象的復(fù)雜函數(shù),解決模式識(shí)別、數(shù)據(jù)分類、聚類和語言理解等相關(guān)的人工智能任務(wù),需要融合深度學(xué)習(xí)。
相對(duì)淺結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)其優(yōu)勢為可以較好地實(shí)現(xiàn)高維復(fù)雜函數(shù)的表示;一個(gè)很重要的原因是引用深度學(xué)習(xí)是它的高精確度;不需要手動(dòng)提取特征,自動(dòng)提取特征;其采用分層進(jìn)行處理數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)每一層可以提取出輸入數(shù)據(jù)不同水平的特征。
啟示
深度學(xué)習(xí)還面臨多重考驗(yàn)
大數(shù)據(jù)時(shí)代改變了基于數(shù)理統(tǒng)計(jì)的傳統(tǒng)數(shù)據(jù)科學(xué),促進(jìn)了數(shù)據(jù)分析方法的創(chuàng)新,從機(jī)器學(xué)習(xí)和多層神經(jīng)網(wǎng)絡(luò)演化而來的深度學(xué)習(xí)是當(dāng)前大數(shù)據(jù)處理與分析的研究前沿。從機(jī)器學(xué)習(xí)到深度學(xué)習(xí),經(jīng)歷了早期的符號(hào)歸納機(jī)器學(xué)習(xí)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)和20世紀(jì)末開始的數(shù)據(jù)挖掘等幾十年的研究和實(shí)踐,發(fā)現(xiàn)深度學(xué)習(xí)可以挖掘大數(shù)據(jù)的潛在價(jià)值。
深度學(xué)習(xí)的優(yōu)點(diǎn)在于模型的表達(dá)能力強(qiáng),能夠處理具有高維稀疏特征的數(shù)據(jù),而大數(shù)據(jù)所面臨的挑戰(zhàn)亟待引入深度學(xué)習(xí)的思想、方法和技術(shù)進(jìn)行及時(shí)有效地解決。如何將深度學(xué)習(xí)應(yīng)用于大數(shù)據(jù)分析,發(fā)現(xiàn)數(shù)據(jù)背后的潛在價(jià)值成為業(yè)界關(guān)注的熱點(diǎn)。
北京航空航天大學(xué)軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室專家指出,有些深度學(xué)習(xí)算法是在原有某個(gè)深度學(xué)習(xí)算法的基礎(chǔ)上對(duì)其網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了調(diào)整而形成,例如堆疊自動(dòng)編碼器就是受深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)啟發(fā),將其中的受限玻爾茲曼機(jī)模型(Restricted Boltzmann Machine,RBM)替換為自動(dòng)編碼器(Auto Encoder,AE)而形成。
而有些深度學(xué)習(xí)算法則是結(jié)合了多種已有深度學(xué)習(xí)算法派生而來,例如堆疊卷積自動(dòng)編碼器就是在卷積網(wǎng)絡(luò)中采用了自動(dòng)編碼器AE而形成。在深度學(xué)習(xí)的整個(gè)發(fā)展過程中DBN、DBM(深度玻爾茲曼機(jī))、AE和CNN(卷積神經(jīng)網(wǎng)絡(luò))構(gòu)成了早期的基礎(chǔ)模型。后續(xù)的眾多研究則是在此基礎(chǔ)上提出或改進(jìn)的新的學(xué)習(xí)模型。
當(dāng)前深度學(xué)習(xí)的主要運(yùn)用集中于認(rèn)知類識(shí)別,如圖像識(shí)別、生物識(shí)別等,均為靜態(tài)決策,假若進(jìn)行更深一步的運(yùn)用,則是復(fù)雜和動(dòng)態(tài)決策。如股票預(yù)測,需根據(jù)時(shí)間變化來不斷預(yù)測何時(shí)買入賣出,以及多種因素和變量均會(huì)對(duì)決策產(chǎn)生影響。未來的發(fā)展可延伸至研究復(fù)雜動(dòng)態(tài)性多因素之間的關(guān)系,根據(jù)觀察環(huán)境甚至周圍相似個(gè)體做出更為準(zhǔn)確的預(yù)測。
IEEE互聯(lián)網(wǎng)安全領(lǐng)域?qū)<?、英國厄爾斯特大學(xué)計(jì)算機(jī)科學(xué)專業(yè)教授Kevin Curran認(rèn)為,醫(yī)療領(lǐng)域是目前深度學(xué)習(xí)和人工智能取得重要成果的關(guān)鍵領(lǐng)域之一。深度學(xué)習(xí)能夠探測未來個(gè)人健康的潛在風(fēng)險(xiǎn),它可以通過一系列健康大數(shù)據(jù)中尋找疾病的致病機(jī)理,從而實(shí)現(xiàn)在健康和疾病相關(guān)研究領(lǐng)域的重大突破。毫無疑問,這僅靠人工計(jì)算是永遠(yuǎn)不可能實(shí)現(xiàn)的。
最終,深度學(xué)習(xí)將迅速推進(jìn)科研進(jìn)度。憑借其強(qiáng)大的運(yùn)算性能及龐大的數(shù)據(jù)分析,科研人員可以產(chǎn)出更多研究碩果,有望在更短的時(shí)間內(nèi)實(shí)現(xiàn)對(duì)現(xiàn)有技術(shù)的重要突破。
不過,目前深度學(xué)習(xí)還是一門不成熟的框架,同樣存在著一些問題。諸如,局部最優(yōu)問題、內(nèi)存消耗大和計(jì)算復(fù)雜的問題、人腦機(jī)理許多沒應(yīng)用上的問題、設(shè)計(jì)模板可行性的問題,以及代價(jià)函數(shù)設(shè)計(jì)及整個(gè)網(wǎng)絡(luò)的設(shè)計(jì)等綜合問題。這些問題需要在將來的研究中解決,以便更加完善深度學(xué)習(xí),適應(yīng)大數(shù)據(jù)時(shí)代。