国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談大數(shù)據(jù)中的機(jī)器學(xué)習(xí)發(fā)展

2018-12-31 00:00:00周子航
大科技·D版 2018年11期

摘 要:隨著新興技術(shù)和所有相關(guān)設(shè)備的出現(xiàn),預(yù)計(jì)未來(lái)幾年將會(huì)產(chǎn)生大量數(shù)據(jù)并在可預(yù)見(jiàn)的未來(lái)繼續(xù)??沙掷m(xù)計(jì)算研究計(jì)算機(jī)工程師和科學(xué)家高效且有效地設(shè)計(jì)計(jì)算機(jī)和相關(guān)子系統(tǒng)的過(guò)程至關(guān)重要。然而,當(dāng)前的智能機(jī)器學(xué)習(xí)系統(tǒng)是性能驅(qū)動(dòng)的。隨著大型數(shù)據(jù)集中的學(xué)習(xí)任務(wù),網(wǎng)絡(luò)中隱藏節(jié)點(diǎn)的數(shù)量將因此顯著增加,最終導(dǎo)致計(jì)算復(fù)雜性的指數(shù)級(jí)地增長(zhǎng)。本文簡(jiǎn)要論述了大數(shù)據(jù)中機(jī)器學(xué)習(xí)的難點(diǎn),關(guān)鍵機(jī)制,和未來(lái)的大致發(fā)展。

關(guān)鍵詞:大數(shù)據(jù);機(jī)器學(xué)習(xí);可持續(xù)發(fā)展;效能

中圖分類(lèi)號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-7344(2018)33-0027-02

1 背景介紹

時(shí)至今日,計(jì)算機(jī)科學(xué)已經(jīng)對(duì)人類(lèi)科學(xué)和發(fā)展有了深遠(yuǎn)的影響。隨著新技術(shù)和伴隨而來(lái)的新型設(shè)備,預(yù)計(jì)將創(chuàng)建與人類(lèi)整個(gè)歷史中創(chuàng)建的數(shù)據(jù)一樣多的數(shù)據(jù)[1]。鑒于未來(lái)幾年至十幾年將產(chǎn)生,和存儲(chǔ)的數(shù)據(jù)量前所未有,現(xiàn)階段的大多數(shù)的技術(shù)行業(yè)面臨的一大挑戰(zhàn)是如何從中受益,從而促進(jìn)產(chǎn)業(yè)的持續(xù)發(fā)展。在過(guò)去十幾年中,作為一種人工智能技術(shù),機(jī)器學(xué)習(xí)已廣泛應(yīng)用于氣候?qū)W,地理信息學(xué),醫(yī)學(xué),金融和經(jīng)濟(jì)等眾多大型復(fù)雜數(shù)據(jù)密集領(lǐng)域[2~4]。然而,當(dāng)前基于智能機(jī)器學(xué)習(xí)的系統(tǒng)本身并不具有足夠的效率或可擴(kuò)展性來(lái)處理大量數(shù)據(jù)。比如,多年來(lái),已知大多數(shù)非參數(shù)和無(wú)模型方法需要高計(jì)算成本來(lái)找到整體最優(yōu)解。對(duì)于高維的數(shù)據(jù),它們良好的數(shù)據(jù)擬合能力不僅使他們更容易受到泛化問(wèn)題的影響,而且導(dǎo)致計(jì)算復(fù)雜性呈指數(shù)級(jí)別上升。因此,設(shè)計(jì)更精確的機(jī)器學(xué)習(xí)系統(tǒng)以滿足市場(chǎng)需求將導(dǎo)致由于增加的計(jì)算成本而導(dǎo)致更高的能量浪費(fèi)的可能性。

如今,更需要設(shè)計(jì)和開(kāi)發(fā)有效的機(jī)器學(xué)習(xí)模型,以應(yīng)對(duì)符合類(lèi)似能源相關(guān)計(jì)劃的未來(lái)需求。這種以能效為導(dǎo)向的數(shù)據(jù)建模對(duì)于許多數(shù)據(jù)缺乏的領(lǐng)域非常重要,因?yàn)樗鼈儠?huì)影響許多相關(guān)行業(yè)。開(kāi)發(fā)與設(shè)計(jì)人員應(yīng)關(guān)注最高性能和最低能耗,以擺脫傳統(tǒng)的“性能與能源使用”之間的權(quán)衡,并增加可用于節(jié)能建模的選項(xiàng)的數(shù)量和多樣性。然而,盡管我們需要為大型和復(fù)雜的數(shù)據(jù)密集型領(lǐng)域提供這種高效且可持續(xù)的數(shù)據(jù)建模方法,但據(jù)現(xiàn)有知識(shí),該領(lǐng)域僅提出了少數(shù)這些文獻(xiàn)[5~6]。

本文對(duì)現(xiàn)有的一些可持續(xù)和節(jié)能機(jī)器學(xué)習(xí)文獻(xiàn)進(jìn)行回顧,包括與各種需求和建議有關(guān)的理論,實(shí)證和實(shí)驗(yàn)研究。此文的目標(biāo)是為計(jì)算機(jī)科學(xué)和其他領(lǐng)域的工程師,科學(xué)家和研究人員引入新的視角,并為未來(lái)的研究工作提供路線圖。

2 來(lái)自大數(shù)據(jù)的挑戰(zhàn)

計(jì)算機(jī)科學(xué)領(lǐng)域通常是數(shù)據(jù)密集型的,其最終結(jié)果的質(zhì)量往往隨著可用數(shù)據(jù)的數(shù)量和質(zhì)量而提高。然而,當(dāng)前的智能機(jī)器學(xué)習(xí)系統(tǒng)在達(dá)到足夠的效率之前還有漫長(zhǎng)的道路要走,在許多情況下,這些數(shù)據(jù)中有越來(lái)越多的部分未被探索或者未充分利用。當(dāng)現(xiàn)有方法無(wú)法捕獲此類(lèi)數(shù)據(jù)時(shí),對(duì)我們的最終結(jié)果常常造成本質(zhì)的影響。當(dāng)過(guò)去的概念無(wú)法跟上變化時(shí),傳統(tǒng)和過(guò)去的經(jīng)驗(yàn)就不足以成為下一步做什么的指導(dǎo)。有效地理解和使用這些新的原始數(shù)據(jù)和信息對(duì)當(dāng)今的工程師和研究人員構(gòu)成了巨大的挑戰(zhàn)。為了更好地適應(yīng)新環(huán)境下大數(shù)據(jù)的產(chǎn)生和處理,更加優(yōu)化的算法,更加全面的考慮是必要的。

例如,最近的一些文獻(xiàn)可以說(shuō)明文獻(xiàn)中科學(xué)數(shù)據(jù)生成的巨大增長(zhǎng)。據(jù)估計(jì),在地理信息和氣候研究領(lǐng)域,目前有數(shù)千個(gè)無(wú)線傳感器,每天每個(gè)傳感器產(chǎn)生大約1GB字節(jié)的數(shù)據(jù)[7]。這種傳感器在以前從未有過(guò)的空間和時(shí)間維度上測(cè)量和記錄關(guān)于自然環(huán)境的信息。這些環(huán)境信息由傳感器通過(guò)其傳感設(shè)備收集,傳感設(shè)備連接到具有數(shù)字無(wú)線電通信的小型低功率計(jì)算機(jī)系統(tǒng)。傳感器節(jié)點(diǎn)將其自身組織成網(wǎng)絡(luò)以傳送,并且可能將收集的數(shù)據(jù)處理到基站,在基站中,傳感器節(jié)點(diǎn)可以通過(guò)網(wǎng)絡(luò)提供給用戶。這些傳感器每年產(chǎn)生的數(shù)據(jù),需要實(shí)時(shí)決定要分析的數(shù)據(jù)量,傳輸量以進(jìn)行進(jìn)一步分析[8]。

再例如在這些傳感器中,針對(duì)于大數(shù)據(jù)的算法是極其重要的。許多傳感器采用復(fù)雜算法將原始信號(hào)轉(zhuǎn)換為有意義的數(shù)據(jù)。當(dāng)大規(guī)模收集數(shù)據(jù)時(shí),人們不再手動(dòng)檢測(cè)和診斷傳感器故障。需要自動(dòng)數(shù)據(jù)清理方法,可以實(shí)時(shí)檢測(cè)和糾正傳感器故障。預(yù)測(cè)模型和因果模型都是生態(tài)科學(xué)和生態(tài)系統(tǒng)管理所必需的。生態(tài)模型的一個(gè)具有挑戰(zhàn)性的方面是需要同時(shí)考慮許多不同類(lèi)型的大數(shù)據(jù),這些數(shù)據(jù)在許多不同的空間和時(shí)間尺度上都是如此。

3 數(shù)據(jù)建模和有效機(jī)器學(xué)習(xí)的關(guān)鍵機(jī)制

考慮到大量數(shù)據(jù)涌入,絕對(duì)有必要改進(jìn)傳統(tǒng)計(jì)算/分析數(shù)據(jù)模型的設(shè)計(jì)和開(kāi)發(fā)方式。可持續(xù)數(shù)據(jù)建??梢远x為一種數(shù)據(jù)建模技術(shù),旨在通過(guò)以有效和高效的方式發(fā)現(xiàn)模式和相關(guān)性來(lái)理解其自身領(lǐng)域中的大量數(shù)據(jù)??沙掷m(xù)數(shù)據(jù)建模專注于以最小的計(jì)算成本實(shí)現(xiàn)最大的學(xué)習(xí)準(zhǔn)確性,以及大量數(shù)據(jù)的快速有效處理??沙掷m(xù)數(shù)據(jù)建模似乎是理想的,因?yàn)樗苋菀子行У靥幚泶罅繑?shù)據(jù),并且在許多情況下觀察到相關(guān)的成本降低。從更廣泛的角度來(lái)看,它需要在電子科學(xué)領(lǐng)域進(jìn)行數(shù)據(jù)建模革命。事實(shí)上,這些新設(shè)計(jì)的可持續(xù)數(shù)據(jù)模型將有效地應(yīng)對(duì)上述數(shù)據(jù)問(wèn)題,從而為各種電子科學(xué)領(lǐng)域帶來(lái)益處。[9~12]因此,在本節(jié)中,我們將討論和提供有關(guān)可持續(xù)數(shù)據(jù)建模的幾個(gè)關(guān)鍵機(jī)制。

(1)大數(shù)據(jù)計(jì)算系統(tǒng)的需求根據(jù)儲(chǔ)存系統(tǒng)的不同和如何分析數(shù)據(jù)的時(shí)間約束的不同,可以大致分為兩大類(lèi)[13]。第一類(lèi)是批量處理大量硬盤(pán)數(shù)據(jù)需要擺脫時(shí)間限制。第二類(lèi)是需要實(shí)時(shí)內(nèi)存數(shù)據(jù)的處理或者在很短的時(shí)間進(jìn)行內(nèi)存數(shù)據(jù)處理[14~15]。下一代計(jì)算大數(shù)據(jù)分析系統(tǒng)需要兩者的創(chuàng)新設(shè)計(jì)可以提供良好匹配的硬件和軟件大數(shù)據(jù)算法和底層計(jì)算和存儲(chǔ)資源。從這兩類(lèi)來(lái)看,近年來(lái)的GPU計(jì)算和分布式計(jì)算很好地迎合了這兩類(lèi)基本的需求。從而為大數(shù)據(jù)的建模和計(jì)算提供強(qiáng)有力的支持和支撐。

(2)淺層機(jī)器學(xué)習(xí)模型例如矢量機(jī)已經(jīng)大量被用于解決簡(jiǎn)單或者強(qiáng)約束的問(wèn)題。但是這些淺層機(jī)器學(xué)習(xí)模型有限的建模和表征能力并不能保證在復(fù)雜模型中的良好表現(xiàn),比如在處理自然語(yǔ)言的時(shí)候。2006年,深度學(xué)習(xí)模型在人工智能領(lǐng)域出現(xiàn)。其基本特點(diǎn)是利用多層信息處理模型來(lái)識(shí)別數(shù)據(jù)中存在的模式問(wèn)題。深度學(xué)習(xí)的主要優(yōu)點(diǎn)是提高了芯片處理能力和降低了計(jì)算硬件成本。并且由于新的云計(jì)算的出現(xiàn),深度學(xué)習(xí)必將在大數(shù)據(jù)的建模和處理問(wèn)題上為工程師和研究人員帶來(lái)更多的便利。

(3)可持續(xù)數(shù)據(jù)建模的關(guān)鍵成功要素之一是保持或改善其性能,同時(shí)顯著降低其計(jì)算成本。最近的數(shù)據(jù)建模研究表明,集成的方法已經(jīng)獲得了很大的普及,因?yàn)樗鼈兺ǔ1葐蝹€(gè)模型表現(xiàn)更好[16~17]。集成的方法使用多個(gè)模型來(lái)獲得比從任何模型獲得的更好的性能[17~18]。但是,它可能導(dǎo)致計(jì)算成本的顯著增加。如果模型處理大規(guī)模數(shù)據(jù),模型復(fù)雜性和計(jì)算要求將呈指數(shù)地增長(zhǎng)。這一項(xiàng)機(jī)制在整個(gè)大數(shù)據(jù)和機(jī)器學(xué)習(xí)的發(fā)展中至關(guān)重要。①大數(shù)據(jù)本身復(fù)雜性和容量的增長(zhǎng)必然導(dǎo)致更大的計(jì)算成本和模型復(fù)雜度。②計(jì)算成本和復(fù)雜度的增長(zhǎng)反過(guò)來(lái)刺激新技術(shù)和新設(shè)備的出現(xiàn)。從而形成良性循環(huán)。

4 結(jié) 論

在本文中,我們概述了可持續(xù)數(shù)據(jù)建模的當(dāng)前研究狀況。特別是,我們討論了大數(shù)據(jù)密集型領(lǐng)域的方面,包括:①模型能效,包含機(jī)器學(xué)習(xí)中的計(jì)算要求,可能的方法;以及;②數(shù)據(jù)密集型區(qū)域的結(jié)構(gòu)和設(shè)計(jì),包括數(shù)據(jù)模型和特征之間的關(guān)系。隨著電子科學(xué)數(shù)據(jù)的激增,可持續(xù)數(shù)據(jù)建模已經(jīng)被證明可以提供前進(jìn)的方法,因?yàn)樗子谔幚泶罅繑?shù)據(jù)。我們還可以設(shè)想,這種數(shù)據(jù)建模革命可以很容易地?cái)U(kuò)展到電子科學(xué)的各個(gè)領(lǐng)域。這些新設(shè)計(jì)的可持續(xù)數(shù)據(jù)模型不僅能夠應(yīng)對(duì)新興的大規(guī)模數(shù)據(jù)模式,而且還能夠最大限度地提高各種電子科學(xué)領(lǐng)域的回報(bào)。

參考文獻(xiàn)

[1]Koomey J G. Estimating total power consumption by servers in the US and the world[J]. 2007.

[2]蘇金樹(shù),張博鋒,徐 昕.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[D]. 2006.

[3]楊善林,倪志偉.機(jī)器學(xué)習(xí)與智能決策支持系統(tǒng)[J].北京:科學(xué)版社, 2004.

[4]何 清,李 寧,羅文娟,等.大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述[J].模式識(shí)別與人工智能,2014,27(4):327~336.

[5]Yoo P D,Ng J W P, Zomaya A Y. An energy-efficient kernel framework for large-scale data modeling and classification[C].Parallel and Distributed Processing Workshops and Phd Forum (IPDPSW),2011 IEEE International Symposium on. IEEE,2011: 404~408.

[6]Cheng H, Tan P N, Jin R. Efficient algorithm for localized support vector machine[J].IEEE Transactions on Knowledge and Data Engineering, 2010,22(4):537~549.

[7]Perera C, Zaslavsky A, Christen P, et al. Sensing as a service model for smart cities supported by internet of things[J].Transactions on Emerging Telecommunications Technologies, 2014, 25(1): 81~93.

[8]譚東寧,譚東漢.小樣本機(jī)器學(xué)習(xí)理論:統(tǒng)計(jì)學(xué)習(xí)理論[J].南京理工大學(xué)學(xué)報(bào):自然科學(xué)版,2001,25(1):108~112.

[9]Marwah M, Shah A, Bash C, et al. Using data mining to help design sustainable products[J].Computer, 2011, 44(8): 103~106.

[10]Sundaravaradan N,Patnaik D,Ramakrishnan N,et al.Discovering Life Cycle Assessment Trees from Impact Factor Databases[C].AAAI, 2011.

[11]Sundaravaradan N,Marwah M,Shah A,et al.Data mining approaches for life cycle assessment[C].Sustainable Systems and Technology (ISSST),2011 IEEE International Symposium on. IEEE,2011: 1~6.

[12]Patnaik D,Marwah M,Sharma R K,et al.Data mining for modeling chiller systems in data centers[C].International Symposium on Intelligent Data Analysis.Springer,Berlin, Heidelberg,2010:125~136.

[13]Baldominos Gómez A,Albacete García E,Saez Achaerandio Y,et al.A scalable machine learning online service for big data real-time analysis[J]. 2014.

[14]Huang H H,Liu H.Big data machine learning and graph analytics:Current state and future challenges[C].Big Data (Big Data),2014 IEEE International Conference on.IEEE,2014:16~17.

[15]Bifet A,Morales G D F.Big data stream learning with Samoa[C].2014 IEEE International Conference on Data Mining Workshop (ICDMW). IEEE,2014:1199~1202.

[16]Yang P,Hwa Yang Y,B Zhou B,et al.A review of ensemble methods in bioinformatics[J].Current Bioinformatics,2010,5(4):296~308.

[17]Opitz D,Maclin R. Popular ensemble methods:An empirical study[J]. Journal of artificial intelligence research,1999,11:169~198.

[18]Polikar R.Ensemble based systems in decision making[J]. IEEE Circuits and systems magazine,2006,6(3):21~45.

收稿日期:2018-10-17

大田县| 云安县| 贵南县| 科尔| 合作市| 镇远县| 霍山县| 于田县| 佳木斯市| 靖边县| 合川市| 康保县| 武宁县| 巫山县| 桑日县| 同德县| SHOW| 长泰县| 宝山区| 闻喜县| 汽车| 沙湾县| 蓬安县| 洪湖市| 洞头县| 大厂| 阳山县| 凌云县| 武汉市| 扎赉特旗| 大荔县| 抚顺县| 开阳县| 铁岭市| 淮阳县| 离岛区| 公主岭市| 平塘县| 连平县| 灵宝市| 蓝田县|