谷珊
摘 要:現(xiàn)如今我們正處于“云時(shí)代”的快速發(fā)展時(shí)期,大數(shù)據(jù)也逐漸受到了不同領(lǐng)域的關(guān)注。文章對(duì)當(dāng)前大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法進(jìn)行總體概述,通過研究其主要特點(diǎn),對(duì)其未來的發(fā)展趨勢(shì)進(jìn)行深入研究,從中提出幾點(diǎn)業(yè)內(nèi)人士密切關(guān)注的問題對(duì)其發(fā)展進(jìn)行分析,希望能夠?yàn)橄嚓P(guān)從業(yè)人員提供有價(jià)值的參考意見。
關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí)算法;趨勢(shì)
0 前言
大數(shù)據(jù)有著明顯的4V特點(diǎn),也即是價(jià)值密度低、數(shù)據(jù)容量大、數(shù)據(jù)類型多與數(shù)據(jù)處理速度快等。在過去,比較經(jīng)典的數(shù)據(jù)挖掘算法即是將機(jī)器學(xué)習(xí)算法基于數(shù)據(jù)集合進(jìn)行優(yōu)化,不過從當(dāng)前收集、檢索、存儲(chǔ)、共享、分析以及處理方面來看,這種傳統(tǒng)的機(jī)器學(xué)習(xí)方法已經(jīng)難以滿足在當(dāng)前大體量異構(gòu)數(shù)據(jù)中挖掘數(shù)據(jù)的需求[1]。對(duì)大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法進(jìn)行研究,也即是利用機(jī)器學(xué)習(xí)去挖掘當(dāng)前動(dòng)態(tài)復(fù)雜數(shù)據(jù)庫中存在的有價(jià)值的知識(shí)點(diǎn),有著非常重要的現(xiàn)實(shí)意義。
1 大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)的主要研究方向
在大數(shù)據(jù)環(huán)境下下,機(jī)器學(xué)習(xí)在發(fā)展過程中主要有兩個(gè)研究方向:其一是研究學(xué)習(xí)機(jī)制,將重點(diǎn)放在對(duì)人類學(xué)習(xí)機(jī)制的模擬進(jìn)行探索;其二是研究有效利用信息,將重點(diǎn)放在從大數(shù)據(jù)庫中發(fā)掘出有價(jià)值且可被認(rèn)知的潛在知識(shí)。對(duì)學(xué)習(xí)機(jī)制的研究主要來源于機(jī)器學(xué)習(xí)技術(shù),在當(dāng)前的大數(shù)據(jù)環(huán)境下,對(duì)數(shù)據(jù)進(jìn)行分析已成為當(dāng)前不同行業(yè)領(lǐng)域中重點(diǎn)關(guān)注對(duì)象,其中機(jī)器學(xué)習(xí)能夠從中更快的吸收知識(shí),使得機(jī)器學(xué)習(xí)能夠有效推動(dòng)機(jī)器技術(shù)的向前發(fā)展。在當(dāng)前的大數(shù)據(jù)環(huán)境下,如何采用有效地學(xué)習(xí)手段是目前機(jī)器學(xué)習(xí)的意義所在,機(jī)器學(xué)習(xí)也將會(huì)成為廣受推崇和普及的學(xué)習(xí)、服務(wù)技術(shù)。基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析工作,要如何去快速有效地處理大量的數(shù)據(jù)信息,是當(dāng)前機(jī)器學(xué)習(xí)的重點(diǎn)研究方向。
當(dāng)前大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的數(shù)量與類型都有著極大的變化與提升,且數(shù)據(jù)產(chǎn)生的速度也在不斷增長。此外,數(shù)據(jù)類型的推陳出新也使得分析難度進(jìn)一步遞增,例如文本情感的分析、圖像搜索與理解、圖像數(shù)據(jù)分析等。這樣一來,機(jī)器學(xué)習(xí)的研究方向以及學(xué)習(xí)方法都得到了進(jìn)一步延伸,呈現(xiàn)出多元化的特性[2]。比如合理采用半監(jiān)督學(xué)習(xí)的方式去改善訓(xùn)練數(shù)據(jù)的質(zhì)量以及在不同知識(shí)背景下的遷移學(xué)習(xí),都是當(dāng)前較為關(guān)注的重點(diǎn)課題。
除了上文所述之外,為進(jìn)一步促進(jìn)機(jī)器學(xué)習(xí)的效率,還應(yīng)解決一系列可擴(kuò)展的問題,也即是解決大數(shù)據(jù)的問題,此時(shí)就應(yīng)采用并行的方法,從這幾個(gè)方面對(duì)大數(shù)據(jù)進(jìn)行分析:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析能力、語義引擎以及數(shù)據(jù)質(zhì)量和管理。
現(xiàn)如今,人類活動(dòng)所產(chǎn)生的印刷材料已經(jīng)達(dá)到了200PB左右(1PB=210TB)的數(shù)據(jù)量,在歷史的長河中,人類所有說過話的信息量已達(dá)到5EB(1EB=210PB)。隨著科學(xué)技術(shù)的發(fā)展,個(gè)人PC的數(shù)據(jù)存儲(chǔ)量早就達(dá)到了TB級(jí)別,一些大型企業(yè)的數(shù)據(jù)總量更是高達(dá)EB級(jí)別。因此,不難看出我們生活所處的時(shí)代是一個(gè)大數(shù)據(jù)時(shí)代,圍繞我們生活的是龐大的數(shù)據(jù)量。
2 大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)算法的趨勢(shì)分析
眾多專家在研究過程中一致認(rèn)為,在今后的幾十年中,機(jī)器學(xué)習(xí)算法領(lǐng)域會(huì)存在以下幾點(diǎn)挑戰(zhàn),也正是其發(fā)展的趨勢(shì)所在。
(1)提升機(jī)器學(xué)習(xí)的泛化能力
這是機(jī)器學(xué)習(xí)的發(fā)展趨勢(shì),也是非常普遍的一個(gè)問題,有許多行業(yè)都渴望能進(jìn)一步提升機(jī)器學(xué)習(xí)的泛化能力。從目前來看,支持向量機(jī)有著泛化能力的最想技術(shù),其很好的結(jié)合了理論與實(shí)踐,是一種綜合性較好的學(xué)習(xí)方法,其產(chǎn)生起源于實(shí)踐到理論。
(2) 提升機(jī)器學(xué)習(xí)的速度
在不同領(lǐng)域的機(jī)器學(xué)習(xí)方面,如何有效提升機(jī)器學(xué)習(xí)的速度是大家高度關(guān)注的重點(diǎn),也是不斷足球的目標(biāo)。目前,人們更關(guān)心的是如何處理好機(jī)器學(xué)習(xí)速度測(cè)試與速度訓(xùn)練之間的關(guān)系,消除兩者間存在沖突。比如說K近鄰算法的測(cè)試速度通常較慢,然而其訓(xùn)練速度的方法卻非常快。
(3)提升機(jī)器學(xué)習(xí)的可理解性
同樣有許多領(lǐng)域都十分關(guān)注著機(jī)器學(xué)習(xí)可理解性的提升,比如在醫(yī)學(xué)的臨床治療領(lǐng)域,病人希望能夠了解采取這樣治療方案的原因。目前,機(jī)器學(xué)習(xí)在這方面的技術(shù)較為強(qiáng)大,例如集成學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)等。
(4)提升數(shù)據(jù)使用能力
以往的機(jī)器學(xué)習(xí)方法主要是針對(duì)已經(jīng)標(biāo)記的數(shù)據(jù)進(jìn)行學(xué)習(xí),然而隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及數(shù)據(jù)分析收集技術(shù)的逐步提升,許多領(lǐng)域都遭遇到了未標(biāo)記數(shù)據(jù)帶來的機(jī)器學(xué)習(xí)壓力,比如垃圾郵件以及醫(yī)學(xué)影像資料等[3]。此外,還有很多領(lǐng)域受到不一致、屬性缺失、噪聲信息量大等垃圾數(shù)據(jù)的干擾,這部分不平衡的數(shù)據(jù)經(jīng)常會(huì)影像數(shù)據(jù)的正常使用,比如在醫(yī)學(xué)方面的乳腺癌診治領(lǐng)域,其存在病人樣本數(shù)量遠(yuǎn)大于健康樣本數(shù)量,也就導(dǎo)致出現(xiàn)了新的問題,那就是要如何充分利用未標(biāo)記的數(shù)據(jù)信息,去正確處理好垃圾數(shù)據(jù)與不平衡數(shù)據(jù)的影響,從而提升數(shù)據(jù)的使用能力。
(5)提升處理敏感性代價(jià)問題的能力
在當(dāng)前的大數(shù)據(jù)環(huán)境下,機(jī)器學(xué)習(xí)算法的重點(diǎn)都放在了如何降低其錯(cuò)誤率的研究工作,然而各個(gè)行業(yè)與學(xué)科對(duì)發(fā)生錯(cuò)誤的代價(jià)容忍度是不同的,就算是同學(xué)科或者同行業(yè)內(nèi)對(duì)待差異化判斷所付出的代價(jià)也是有巨大差異的。例如,在醫(yī)學(xué)的癌癥診治領(lǐng)域,病人被誤診為健康和健康人被誤診為患癌,其所帶來的代價(jià)是不一樣的。同樣的道理還有,機(jī)器對(duì)小偷入室行竊行為的判斷,行竊行為被誤判為屋主回家和屋主回家備誤判為小偷行竊,兩者所付出的代價(jià)同樣是非常大的。
以往的機(jī)器學(xué)習(xí)算法基本都是基于代價(jià)同等去進(jìn)行考量的,而今后的發(fā)展過程中,應(yīng)該著重提升處理這種敏感性代價(jià)問題的能力,近些年,以及有許多相關(guān)領(lǐng)域的專家將醫(yī)學(xué)診斷分析法與信號(hào)相關(guān)理論引入到了機(jī)器學(xué)習(xí)算法當(dāng)中,相信在大數(shù)據(jù)環(huán)境下這方面的研究會(huì)有長足的進(jìn)步
3 結(jié)束語
綜上所述,在當(dāng)前的大數(shù)據(jù)環(huán)境下,由于信息數(shù)量的急速提升,以往單一的機(jī)器學(xué)習(xí)算法以及無法滿足當(dāng)今時(shí)代的需求,采用大規(guī)模并行機(jī)器學(xué)習(xí)算法能夠緊跟當(dāng)前大數(shù)據(jù)時(shí)代的發(fā)展變化,也是未來機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展趨勢(shì)與研究重點(diǎn),從而滿足人工智能化的發(fā)展需求。
參考文獻(xiàn)
[1] 王煒.大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)算法[J].信息系統(tǒng)工程,2016(7):133.
[2] 何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014(4):327-336.
[3] 王曉.大數(shù)據(jù)環(huán)境下機(jī)器學(xué)習(xí)算法趨勢(shì)研究[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2013(4):48-50.endprint