夏天
摘要:隨著智能化時代的到來,機(jī)器學(xué)習(xí)已成為一個熱門的研究領(lǐng)域。作為人工智能的核心技術(shù),機(jī)器學(xué)習(xí)涉及包括統(tǒng)計學(xué),概率論,算法復(fù)雜度等多個學(xué)科,以研究如何模仿和學(xué)習(xí)人類行為,通過機(jī)器的自我學(xué)習(xí)從而獲得整體的性能,甚至新知識、技能的自行優(yōu)化和探索。機(jī)器學(xué)習(xí)的本質(zhì)是模型的建立和算法的研究,能通過經(jīng)驗和大量的學(xué)習(xí)樣本自動優(yōu)化模型和算法標(biāo)準(zhǔn),不斷貼合實際發(fā)展,因此當(dāng)前主要應(yīng)用于智能機(jī)器人,數(shù)據(jù)挖掘,生物識別監(jiān)測,推薦算法等領(lǐng)域
關(guān)鍵詞:機(jī)器學(xué)習(xí)分類;算法相似性;應(yīng)用與發(fā)展
1概述
在經(jīng)典著作《機(jī)器學(xué)習(xí)》中對于該學(xué)科的認(rèn)知是“利用經(jīng)驗改善系統(tǒng)自身的性能?!边@種對經(jīng)驗的運用即人類的學(xué)習(xí)能力,通過工作的重復(fù)和疊加,形成系統(tǒng)性的模型,并在此基礎(chǔ)上持續(xù)優(yōu)化模型,使得后續(xù)工作執(zhí)行得更好。這種學(xué)習(xí)方式形成循環(huán)的反饋,促使系統(tǒng)獲得經(jīng)驗并改進(jìn)性能。
這樣的學(xué)習(xí)能力是否通過塑造模型和算法而搬遷至機(jī)器,也就是我們現(xiàn)在所說的計算機(jī)中?這便是機(jī)器學(xué)習(xí)的真正意義,而人工智能即是當(dāng)前研究的成果。
機(jī)器學(xué)習(xí)的研究需要以神經(jīng)網(wǎng)絡(luò),統(tǒng)計分類等統(tǒng)計學(xué),生物學(xué)為基礎(chǔ),讓機(jī)器模擬人類學(xué)習(xí)過程。對此需要輸入巨量的數(shù)據(jù)和學(xué)習(xí)樣本以形成人類所知的“經(jīng)驗”,不斷重復(fù)拆分、回歸、聚合,最終得到元素間的關(guān)系并可依此形成類似經(jīng)歷的判斷和預(yù)測。因此也應(yīng)用于數(shù)據(jù)挖掘,大數(shù)據(jù)處理等基于海量數(shù)據(jù)的預(yù)測。
機(jī)器學(xué)習(xí)的本質(zhì)在于數(shù)據(jù)的整合歸納,模型的建立和算法的改進(jìn)。在整個學(xué)習(xí)過程中,最基本的條件是持續(xù)的外界反饋,以某種方式形成的外界信息源,運用算法將獲取的外部信息加工成為“經(jīng)驗”,并儲備在內(nèi)在的數(shù)據(jù)庫里。數(shù)據(jù)庫根據(jù)建立的原則和規(guī)律提供執(zhí)行的行動,而行動過程中獲得的外界信息又成為了新的反饋來源,對下一次的行為提供新的指導(dǎo)信息。
2機(jī)器學(xué)習(xí)研究方法
當(dāng)前機(jī)器學(xué)習(xí)主要研究的問題包括四類:分類、回歸、聚類和規(guī)則抽取。
2.1分類
分類在機(jī)器學(xué)習(xí)中是基礎(chǔ)且重要的一步,通過指導(dǎo)性的學(xué)習(xí),告知每個數(shù)據(jù)樣本是歸屬于哪種類型,在這樣的訓(xùn)練下,機(jī)器掌握不同的分類函數(shù)/模型,當(dāng)有新的數(shù)據(jù)樣本出現(xiàn)時,能判斷其類別并映射至相應(yīng)的類別中。
2.2回歸
指的是數(shù)學(xué)里的一種分析方式,研究一組隨機(jī)變量和另一組隨機(jī)變量之間的關(guān)系。最簡單的一種回歸分析即為一元線性關(guān)系。機(jī)器學(xué)習(xí)研究的是標(biāo)識好的數(shù)據(jù)和已有的模型/函數(shù)之間的關(guān)系,能將新輸入未識別的樣本歸納到相關(guān)的模型中,因此,回歸的結(jié)果也是分類的一種依據(jù)或先提條件。但回歸與分類的不同在于回歸里研究的是實數(shù),而分類研究的是離散值。
2.3聚類
聚類的對象是沒有被標(biāo)注的數(shù)據(jù),只是雜亂的樣本,通過聚類對這些樣本進(jìn)行分類,這種分類是利用樣本間的關(guān)系。聚類的結(jié)果與分類不同的是,分類前已有分好的類別模型,但聚類出來的類別事先沒有被識別標(biāo)注,可將聚類的結(jié)果再次研究,創(chuàng)建新的分別和標(biāo)注。
2.4規(guī)則抽取
規(guī)則抽取是除了能識別新樣本的類別外,還對分析樣本間屬性的關(guān)系進(jìn)行統(tǒng)計分析。
3機(jī)器學(xué)習(xí)的算法
機(jī)器學(xué)習(xí)本質(zhì)研究的是算法,如何解決問題取決于算法的選擇。基于學(xué)習(xí)方法的算法分類為:
3.1監(jiān)督學(xué)習(xí)
通常運用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練中,監(jiān)督學(xué)習(xí)利用已進(jìn)行標(biāo)注或分類的數(shù)據(jù),訓(xùn)練對這些數(shù)據(jù)的理解和關(guān)系,輸出這些關(guān)系的模型,使得能做新輸入的未標(biāo)示樣本進(jìn)行預(yù)測。監(jiān)督學(xué)習(xí)強依賴于輸入的已分類信息,因為后續(xù)的預(yù)判都是依據(jù)此分類信息學(xué)習(xí)得到的結(jié)果。監(jiān)督學(xué)習(xí)通常用于分類和歸回問題的研究,且常用的模型為決策樹分析模型。
3.2非監(jiān)督學(xué)習(xí)
非監(jiān)督學(xué)習(xí)利用未標(biāo)注或分類的數(shù)據(jù)進(jìn)行訓(xùn)練,研究樣本的結(jié)構(gòu),輸出分類模型。其主要解決的問題的聚類和規(guī)則學(xué)習(xí)。通常使用的算法包括Apriori算法和k-means算法。
3.3半監(jiān)督學(xué)習(xí)
半監(jiān)督學(xué)習(xí)利用的是已標(biāo)注或分類的數(shù)據(jù)和未標(biāo)示數(shù)據(jù)的混合數(shù)據(jù),既要學(xué)習(xí)屬之間的結(jié)構(gòu)關(guān)系,也要輸出分類模型進(jìn)行預(yù)測。回歸和分類問題是主要研究對象,因其在三種學(xué)習(xí)中更為高效,在實際運用中更為普遍。
4機(jī)器學(xué)習(xí)實際應(yīng)用
機(jī)器學(xué)習(xí)當(dāng)前仍是較為新型的智能方面的科學(xué)技術(shù),在計算機(jī),互聯(lián)網(wǎng)領(lǐng)域應(yīng)用較為廣泛。主要應(yīng)用的領(lǐng)域和實際操作有:
1)人臉識別:在照片庫里識別出所有包含某一人的照片。該識別在手機(jī)、電腦等數(shù)碼產(chǎn)品中被普遍使用,作為管理工作。
2)語音識別:同樣是一個生物識別的實踐案例,識別用戶的話語和含義,明確用戶需求,比如蘋果自帶的Siri系統(tǒng)。
3)垃圾郵件識別:區(qū)分郵箱里收到的正常郵件和垃圾郵件。
4)推薦系統(tǒng):根據(jù)用戶過往的操作習(xí)慣,購買記錄等個人行為數(shù)據(jù),識別真正吸引用戶并愿意為此付費的類型和事物,并從該類別中挑選類似的事物,促進(jìn)用戶查閱,點擊,付費等行為。
5)股票交易:根據(jù)某只股票的所有價格波動等歷史數(shù)據(jù),預(yù)測對該股票當(dāng)前的操作行為,例如持倉,減倉,拋出等。
以上是較為主流的機(jī)器學(xué)習(xí)的實際使用領(lǐng)域。除此在數(shù)據(jù)挖掘,人工智能,規(guī)劃和問題解決等領(lǐng)域也有不同程度的使用。
5機(jī)器學(xué)習(xí)未來與發(fā)展
5.1非監(jiān)督學(xué)習(xí)
機(jī)器學(xué)習(xí)目前還未是一門成熟的學(xué)科,其研究的成本昂貴,在訓(xùn)練中所需的已標(biāo)識數(shù)據(jù)是經(jīng)人工處理而成,且需由專家進(jìn)行,因此要獲得大量的標(biāo)識樣不僅成本高,且難度大。也因此非監(jiān)督學(xué)習(xí),針對從無標(biāo)注的數(shù)據(jù)中學(xué)習(xí)將成為未來研究重點方向。
5.2模型尺寸上的優(yōu)化
當(dāng)前普遍使用的模型,尤其是自然語音處理的模型,大小均超過500M。如何能在小設(shè)備,比如移動設(shè)備上的使用是一種挑戰(zhàn)。移動設(shè)備一般對于存量、大小、功耗等都有一定限制,而模型的過大則成為了一大制約因素。若未來能將機(jī)器學(xué)習(xí)技術(shù)廣泛應(yīng)用于移動端,需通過兩方面的優(yōu)化來改善該未來:使用壓縮技術(shù)進(jìn)行模型壓縮,抑或改變算法以改變大小。
5.3智能化發(fā)展
將深度學(xué)習(xí)與知識,邏輯等人類思維模式結(jié)合,推進(jìn)人工智能的發(fā)展,獲得如人類一般的學(xué)習(xí)能力。將知識與數(shù)據(jù)整合,提高模型訓(xùn)練的速度和精度,使得人工智能更加貼近人的思維和決策方式。
5.4博弈機(jī)器學(xué)習(xí)
當(dāng)前深度學(xué)習(xí)的主要運用集中于認(rèn)知類識別,如圖像識別,生物識別等,均為靜態(tài)決策,假若進(jìn)行更深一步的運用,則是復(fù)雜和動態(tài)決策。如股票預(yù)測,需根據(jù)時間變化來不斷預(yù)測何時買入賣出,以及多種因素和變量會對決策產(chǎn)生影響。因此,未來的發(fā)展可延伸至研究復(fù)雜動態(tài)性多因素之間的關(guān)系,根據(jù)觀察環(huán)境甚至周圍相似個體做出更為準(zhǔn)確的預(yù)測。
6結(jié)論
機(jī)器學(xué)習(xí)是基于神經(jīng)網(wǎng)絡(luò),研究人工智能的核心技術(shù),主要通過監(jiān)督學(xué)習(xí),來解決分類、回歸、聚類和規(guī)則抽取四類主要問題,目前主要應(yīng)用的領(lǐng)域有專家系統(tǒng),圖像,生物識別,通過模型,分類器的學(xué)習(xí),對新事物做出判斷。但目前機(jī)器學(xué)習(xí)主要解決的問題是認(rèn)知性問題,在實際生產(chǎn)中,因環(huán)境,動態(tài)變化等制約,適用范圍仍較窄。
本文總結(jié)了機(jī)器學(xué)習(xí)當(dāng)前的技術(shù)和算法,總結(jié)了未來其方可發(fā)展和研究方向為以下幾方面:1)優(yōu)化當(dāng)前的學(xué)習(xí)方法,從模型和算法兩邊人手,發(fā)展使用未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,發(fā)展新的模型、硬件系統(tǒng)設(shè)計,提高效率和精準(zhǔn)度,降低學(xué)習(xí)成本。2)如何從靜態(tài)任務(wù)學(xué)習(xí)轉(zhuǎn)至動態(tài)、復(fù)雜角色任務(wù)。