国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)算法的綜述

2019-04-25 17:15歐華杰
中國(guó)信息化 2019年4期
關(guān)鍵詞:決策樹聚類數(shù)據(jù)處理

歐華杰

機(jī)器學(xué)習(xí)是由模式識(shí)別、人工智能計(jì)算學(xué)習(xí)理論為基礎(chǔ)所轉(zhuǎn)變的一類計(jì)算機(jī)科學(xué)分支,此也為人工智能核心,被廣泛應(yīng)用至各相關(guān)領(lǐng)域中。據(jù)研究表明,多數(shù)狀態(tài)下,處理數(shù)據(jù)規(guī)模越大,機(jī)器學(xué)習(xí)模型效率越高。所以,機(jī)器學(xué)習(xí)為大數(shù)據(jù)智能分析主要方式。于大數(shù)據(jù)背景下,本文針對(duì)機(jī)器學(xué)習(xí)算法予以探討,提升數(shù)據(jù)處理價(jià)值。

一、機(jī)器學(xué)習(xí)算法概念及重要性

(一)機(jī)器學(xué)習(xí)算法概念

機(jī)器學(xué)習(xí)即Machine Learning,為一項(xiàng)多領(lǐng)域綜合學(xué)科,涉及算法復(fù)雜度理論、逼近論、統(tǒng)計(jì)學(xué)及概率論等多項(xiàng)理論。此學(xué)科將計(jì)算機(jī)如何模擬及實(shí)現(xiàn)人類學(xué)習(xí)行為作為主要研究?jī)?nèi)容,探究計(jì)算機(jī)獲取新知識(shí)、技能方式,將已存在知識(shí)結(jié)構(gòu)予以重新組織,實(shí)現(xiàn)自身性能不斷優(yōu)化。機(jī)器學(xué)習(xí)為人工智能核心,也為使計(jì)算機(jī)擁有智能的基本方式,現(xiàn)已逐漸應(yīng)用至與人工智能相關(guān)的各領(lǐng)域中,主要為綜合及歸納而并非演繹。

(二)機(jī)器學(xué)習(xí)算法重要性

機(jī)器學(xué)習(xí)為現(xiàn)階段大數(shù)據(jù)重要處理方式,可將多種優(yōu)勢(shì)予以結(jié)合,針對(duì)具體問(wèn)題選取最為適宜處理方式,如以2017年AlphaGO與柯潔所開展的圍棋比賽中,AlphaGO以3:0比分贏得比賽,此正為機(jī)器學(xué)習(xí)重要標(biāo)志。此算法可將人為因素所造成的局限性予以突破,借助深度學(xué)習(xí)、決策樹及神經(jīng)網(wǎng)絡(luò)等,將數(shù)據(jù)予以科學(xué)處理,并將數(shù)據(jù)運(yùn)算速度予以有效提升?,F(xiàn)階段統(tǒng)計(jì)調(diào)查、商業(yè)活動(dòng)及信息網(wǎng)絡(luò)等均會(huì)產(chǎn)生大量數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)處理手段已難以滿足此類數(shù)據(jù)處理需求,急需機(jī)器學(xué)習(xí)予以處理。

二、機(jī)器學(xué)習(xí)典型算法分析

(一)C4.5算法

C4.5算法為目前此領(lǐng)域中較為著名的一類算法,將基于Quinlan所設(shè)計(jì)的ID3算法予以優(yōu)化后得到的一種分類決策樹算法。決策樹為一項(xiàng)預(yù)測(cè)模型,為對(duì)象值、對(duì)象屬性二者間映射關(guān)系的表現(xiàn)方式,樹中各節(jié)點(diǎn)分別代表不同對(duì)象,各分叉路徑則為某項(xiàng)可能屬性值。由數(shù)據(jù)所構(gòu)成的決策樹機(jī)器學(xué)習(xí)方式即被稱作決策樹學(xué)習(xí),通常稱為決策樹。C4.5算法借助決策樹模型,針對(duì)不同數(shù)據(jù)以樹形結(jié)構(gòu)方式予以分類,于此基礎(chǔ)上,使計(jì)算機(jī)可針對(duì)數(shù)據(jù)開展智能處理、選擇,實(shí)現(xiàn)自我學(xué)習(xí)。

(二)K-MEANS算法

機(jī)器學(xué)習(xí)中數(shù)據(jù)相似度為一項(xiàng)重要概念,借助大量數(shù)據(jù)分析,找尋同原有數(shù)據(jù)具備高相似度的數(shù)據(jù)集合,為機(jī)器學(xué)習(xí)重要基礎(chǔ)。僅有將數(shù)據(jù)間相似度予以精準(zhǔn)分析,方可對(duì)計(jì)算機(jī)數(shù)據(jù)處理、自我學(xué)習(xí)效率予以保證。K-MEANS算法即將數(shù)據(jù)間相似度量為基礎(chǔ)的一類間接聚類方式,將n個(gè)對(duì)象結(jié)合自身屬性分至k個(gè)分割,k

(三)SVM支持向量機(jī)算法

針對(duì)大量數(shù)據(jù)處理、分析,除需對(duì)數(shù)據(jù)開展相應(yīng)分類外,也應(yīng)于此基礎(chǔ)上開展統(tǒng)計(jì)工作。此算法為一類監(jiān)督式學(xué)習(xí)方式,以統(tǒng)計(jì)學(xué)理論中VC維理論、結(jié)構(gòu)風(fēng)險(xiǎn)最小原理為基礎(chǔ),結(jié)合有限樣本信息于模型復(fù)雜性、學(xué)習(xí)能力間找尋最優(yōu)處理路徑,以獲取最佳泛化能力。支持向量機(jī)方式為近幾年所提出的數(shù)據(jù)算法,主要思想包括以下兩層面:一為針對(duì)線性可分狀態(tài)予以分析,而線性不可分狀態(tài)則借助非線性映射算法,實(shí)現(xiàn)樣本間轉(zhuǎn)化,即由低維輸入空間線性不可分變?yōu)楦呔S特征空間,實(shí)現(xiàn)線性可分;二為將結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論為基礎(chǔ),于特征空間中創(chuàng)建最優(yōu)分割平面,實(shí)現(xiàn)全局優(yōu)化。

三、機(jī)器學(xué)習(xí)算法于大數(shù)據(jù)處理中的主要方式

(一)數(shù)據(jù)并行算法

傳統(tǒng)數(shù)據(jù)處理方式難以充分滿足大數(shù)據(jù)處理需求,主要導(dǎo)致原因?yàn)楦鳈C(jī)器學(xué)習(xí)方式并未實(shí)現(xiàn)并行化數(shù)據(jù)處理,單獨(dú)數(shù)據(jù)處理難以自主實(shí)現(xiàn)大數(shù)據(jù)處置,為滿足大數(shù)據(jù)處理需求,聯(lián)合各數(shù)據(jù)處理機(jī)制,開展并行化運(yùn)轉(zhuǎn),方可實(shí)現(xiàn)大數(shù)據(jù)整體處置。此方式主要運(yùn)行理念即為將大數(shù)據(jù)行“碎片化”處理,拆分為可交由機(jī)器獨(dú)立處理的模塊,借助各數(shù)據(jù)綜合實(shí)現(xiàn)大數(shù)據(jù)整體掌握。如以圖像處理平臺(tái)為例,主要算法為并行算法,將各數(shù)據(jù)處理壓力不斷降低,提高數(shù)據(jù)運(yùn)算能力。并行算法需同分治算法及聚類算法等予以有效綜合,實(shí)現(xiàn)三類算法的有效融合,方可提升數(shù)據(jù)處理速度,也可于一定程度上保障機(jī)器學(xué)習(xí)精準(zhǔn)性。

(二)聚類算法

數(shù)據(jù)處理、數(shù)據(jù)挖掘中最為常用的一類算法便為聚類算法,于大數(shù)據(jù)處理中具備良好應(yīng)用成效。聚類算法首先將數(shù)據(jù)結(jié)合不同類型予以劃分,將大型數(shù)據(jù)劃分至多項(xiàng)子數(shù)據(jù)節(jié)點(diǎn)中。其次,針對(duì)所劃分完成的數(shù)據(jù)節(jié)點(diǎn)開展針對(duì)性處理,提升數(shù)據(jù)處理效率。此算法于機(jī)器學(xué)習(xí)中實(shí)際應(yīng)用途徑可分為三類:一為借助非迭代化數(shù)據(jù)擴(kuò)展方式,即通過(guò)模糊集理論,針對(duì)數(shù)據(jù)開展FCM均值聚類分析,將數(shù)據(jù)予以精準(zhǔn)分離;二為持續(xù)擴(kuò)充子集合方式,于空間層面提升數(shù)據(jù)集合精準(zhǔn)性;三為抽樣均值算法,有效提升數(shù)據(jù)處理效率。

(三)分治算法

分治算法于大數(shù)據(jù)處理領(lǐng)域而言,具備良好優(yōu)勢(shì),可被引用至并行運(yùn)算、分布式計(jì)算中。將大數(shù)據(jù)作為對(duì)象開展機(jī)器學(xué)習(xí),因樣本的數(shù)據(jù)差異將會(huì)對(duì)數(shù)據(jù)處理質(zhì)量造成一定影響,除會(huì)增加數(shù)據(jù)運(yùn)算量外,也會(huì)對(duì)機(jī)器學(xué)習(xí)效率形成制約,增加數(shù)據(jù)精準(zhǔn)分析難度,影響數(shù)據(jù)判斷質(zhì)量。而借助引用分治算法,可對(duì)原始樣本開展預(yù)處理,挑除冗余及無(wú)效數(shù)據(jù),提升原始樣本數(shù)據(jù)集合質(zhì)量。于此處理手段下,可明確機(jī)器學(xué)習(xí)目標(biāo)并降低學(xué)習(xí)難度,輔助機(jī)器生成準(zhǔn)確判斷。選取樣本數(shù)據(jù)集合時(shí),通常使用約減法及壓縮近鄰法等方式,數(shù)據(jù)處理原理即為尋找同大數(shù)據(jù)所相應(yīng)的最小數(shù)據(jù)集合,借助一系列測(cè)試對(duì)子集予以不斷優(yōu)化、完善。此時(shí),計(jì)算機(jī)所找尋數(shù)據(jù)樣本可表示全部樣本且具備高科學(xué)性,以此為開展數(shù)據(jù)判斷、決策提供參考。引入分治算法前,需具備滿足要求的置信范圍,于規(guī)定范圍內(nèi)開展數(shù)據(jù)剔除、數(shù)據(jù)篩選工作,如可利用Bag of Little Bootstraps,縮減因抽樣所導(dǎo)致的數(shù)據(jù)失誤,提升數(shù)據(jù)處理精準(zhǔn)性。

四、結(jié)束語(yǔ)

大數(shù)據(jù)為現(xiàn)階段研究熱點(diǎn),需配備科學(xué)、合理機(jī)器學(xué)習(xí)算法滿足社會(huì)需求,并提升數(shù)據(jù)處理效率。結(jié)合大數(shù)據(jù)特點(diǎn),借助聚類算法及分治算法等,增強(qiáng)數(shù)據(jù)處理?xiàng)l理性,降低數(shù)據(jù)分析、數(shù)據(jù)處理難度,增強(qiáng)機(jī)器學(xué)習(xí)能力。此外,為于大數(shù)據(jù)領(lǐng)域有所突破,還應(yīng)將傳統(tǒng)機(jī)器算法予以優(yōu)化升級(jí),全面提升數(shù)據(jù)處理能力。

猜你喜歡
決策樹聚類數(shù)據(jù)處理
電容式傳感系統(tǒng)數(shù)據(jù)處理電路的設(shè)計(jì)
基于ARCGIS 的三種數(shù)據(jù)處理方法的效率對(duì)比研究
基于模糊聚類和支持向量回歸的成績(jī)預(yù)測(cè)
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹集成分類算法設(shè)計(jì)
高層建筑沉降監(jiān)測(cè)數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
高層建筑沉降監(jiān)測(cè)數(shù)據(jù)處理中多元回歸分析方法的應(yīng)用研究
基于流形學(xué)習(xí)的自適應(yīng)反饋聚類中心確定方法
基于密度的自適應(yīng)搜索增量聚類法
決策樹學(xué)習(xí)的剪枝方法
視頻大數(shù)據(jù)處理的設(shè)計(jì)與應(yīng)用
徐闻县| 潢川县| 寻甸| 讷河市| 平山县| 瑞丽市| 资阳市| 福建省| 河北区| 吉水县| 梁平县| 乌海市| 双牌县| 谢通门县| 上饶县| 郴州市| 阆中市| 同心县| 蓬莱市| 衡南县| 即墨市| 罗源县| 东宁县| 本溪市| 卢龙县| 贺兰县| 寻甸| 镇巴县| 南宁市| 文化| 湘乡市| 天气| 吴江市| 武宣县| 白沙| 滨州市| 镇安县| 勃利县| 铁力市| 太湖县| 湖北省|