機(jī)器學(xué)習(xí)研究思路和途徑的探討

2019-01-10 06:57陳皓桂偉

科技視界 2019年36期

陳皓　桂偉

【摘要】機(jī)器學(xué)習(xí)是機(jī)器人工程領(lǐng)域最活躍，最有潛力的方向之一。本文概述了機(jī)器學(xué)習(xí)當(dāng)前研究的方向：符號機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)、增強(qiáng)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)，梳理了各自的理論基礎(chǔ)。在此基礎(chǔ)上，以統(tǒng)計(jì)機(jī)器學(xué)習(xí)為重點(diǎn)，就其一致性、收斂性、推廣性以及構(gòu)造算法的原則四個核心方面進(jìn)行了綜述，最后提出幾點(diǎn)思考和建議。

【關(guān)鍵詞】機(jī)器人;機(jī)器學(xué)習(xí);計(jì)算機(jī)智能化

中圖分類號： TP181;TP242 文獻(xiàn)標(biāo)識碼： A 文章編號： 2095-2457（2019）36-0143-002

DOI：10.19694/j.cnki.issn2095-2457.2019.36.065

0 引言

計(jì)算機(jī)相比人腦而言在存儲、計(jì)算方面具有無與倫比的優(yōu)勢，然而，其是否可以具備一定智能，一直以來是科學(xué)家們、科幻小說家們致力研究、探索和想象的一片非常廣闊的領(lǐng)域。

計(jì)算機(jī)智能化的起步階段包含兩方面工作：一方面是將人類已有的知識或經(jīng)驗(yàn)“教”會計(jì)算機(jī)，從而使計(jì)算機(jī)成為某個領(lǐng)域的專家，其焦點(diǎn)在于知識庫和推理機(jī)兩方面，已經(jīng)有比較成功的案例;另一方面是從大量的數(shù)據(jù)、現(xiàn)象中，學(xué)習(xí)產(chǎn)生新的知識或經(jīng)驗(yàn)，這就是機(jī)器學(xué)習(xí)過程。后者比前者難，前者發(fā)展到一定程度會面臨同樣的問題。目前，機(jī)器學(xué)習(xí)已經(jīng)成為機(jī)器人工程、計(jì)算機(jī)領(lǐng)域最活躍，最有潛力的研究方向之一，受到了廣泛的關(guān)注。

1 機(jī)器學(xué)習(xí)概述

機(jī)器學(xué)習(xí)有四個關(guān)鍵要素：已知事實(shí)、學(xué)習(xí)方法、新的知識、預(yù)判未來。

機(jī)器學(xué)習(xí)當(dāng)前研究的方向：符號機(jī)器學(xué)習(xí)、集成機(jī)器學(xué)習(xí)、增強(qiáng)機(jī)器學(xué)習(xí)，統(tǒng)計(jì)機(jī)器學(xué)習(xí)。

1.1 符號機(jī)器學(xué)習(xí)

最早的符號機(jī)器學(xué)習(xí)是關(guān)于文法歸納的研究，給定一組語句實(shí)例，求出有關(guān)文法。傳統(tǒng)意義下，這類機(jī)器學(xué)習(xí)建模方法不建立在統(tǒng)計(jì)基礎(chǔ)上，不具備泛化能力。1967年，Gold證明了這類學(xué)習(xí)在理論上存在不可逾越的障礙。

隨著海量信息的出現(xiàn)，人們對簡約閱讀的需求增長，Samuel將這類機(jī)器學(xué)習(xí)演變?yōu)橐活惢诜枖?shù)據(jù)集合的約簡過程，將其賦予了新的含義。

兩類最重要的符號機(jī)器學(xué)習(xí)算法包括：覆蓋算法與分治算法。覆蓋算法有20世紀(jì)70年代末Michalski提出的AQ11算法;分治算法以Quinlan提出的決策樹算法ID3，及其后繼C4.5算法為代表，后者在前者的基礎(chǔ)上嵌入了統(tǒng)計(jì)方法以增強(qiáng)其泛化能力，大多數(shù)已開發(fā)的決策樹學(xué)習(xí)算法都是這兩種核心算法的變體。

1.2 集成機(jī)器學(xué)習(xí)

集成機(jī)器學(xué)習(xí)的依據(jù)是Hebb提出的神經(jīng)集合體假設(shè)，即集成多個分類器，使不同模型補(bǔ)充一個模型的不足。也就是設(shè)計(jì)一組分類器，其中每個分類器的設(shè)計(jì)更為簡單，而其組合可以獲得與單個分類器相同或者更好的泛化能力;另外，對于大多數(shù)情況，樣本集合很難滿足同分布的一致性條件，可以考慮設(shè)計(jì)多個分類器作為單個分類器的補(bǔ)充，增加其泛化能力。

1.3 增強(qiáng)機(jī)器學(xué)習(xí)

增強(qiáng)機(jī)器學(xué)習(xí)最早的思想體現(xiàn)在1948年Wiener著作的“控制論”中，逐漸發(fā)展成一類重要的研究課題——自適應(yīng)控制。

將自適應(yīng)控制的原理應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域，20世紀(jì)90年代初，Sutton將這類機(jī)器學(xué)習(xí)建立在Markov過程上，稱為增強(qiáng)機(jī)器學(xué)習(xí)方法。

1.4 統(tǒng)計(jì)機(jī)器學(xué)習(xí)

在輸入輸出之間的關(guān)系上反映問題空間的實(shí)際，而不需要對問題世界做物理解釋，這是“黑箱”原理。統(tǒng)計(jì)學(xué)習(xí)理論本質(zhì)上是“黑箱”原理的延續(xù)，其中數(shù)學(xué)方法是研究的焦點(diǎn)。

傳統(tǒng)的統(tǒng)計(jì)學(xué)要求樣本數(shù)據(jù)數(shù)目趨于無窮大，這實(shí)際上是一種不可達(dá)到的假設(shè)，現(xiàn)實(shí)世界中，可以獲取的樣本數(shù)目總是有限的。統(tǒng)計(jì)學(xué)系理論就是研究小樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論。機(jī)器學(xué)習(xí)過程，其描述隱含了三個方面的內(nèi)容：

1）一致。問題空間W必須和樣本空間Q性質(zhì)相同，才可以根據(jù)Q對W進(jìn)行推測和預(yù)判，體現(xiàn)在統(tǒng)計(jì)學(xué)意義上就是W中的元素滿足同分布的一致性條件。

2）劃分。正確預(yù)判的前提是正確地劃分。

3）泛化。判斷模型M的好壞不僅僅在于對樣本空間Q有好的判斷效果，更重要的是要對問題空間W有盡量準(zhǔn)確的預(yù)測效果，即好的推廣能力。

歷史上，機(jī)器學(xué)習(xí)基本是在經(jīng)驗(yàn)范疇內(nèi)進(jìn)行研究的，隨意性非常大。Internet的普及帶來海量數(shù)據(jù)現(xiàn)象，如何從大量數(shù)據(jù)中提取有用的信息和知識面臨巨大的需求空間，有力地推動了機(jī)器學(xué)習(xí)研究。

2 幾點(diǎn)思考

2.1 機(jī)器學(xué)習(xí)的前提

機(jī)器學(xué)習(xí)的根本目的是讓機(jī)器具備一定的智能，如何理解智能？

這里，需要區(qū)分一下智慧和知識，擁有知識不等于擁有智慧。人類智慧的基礎(chǔ)是基于規(guī)則的知識，還是基于直接感悟真理的修養(yǎng)？這是幾千年來沒有答案的一個年輕的哲學(xué)問題。目前機(jī)器學(xué)習(xí)研究只能限定在通過明晰推導(dǎo)過程所能獲得的知識領(lǐng)域。

Vapnik提出在有限數(shù)量信息的前提下推導(dǎo)知識的基本原則是：解決問題時要設(shè)法避免把解決一個更一般的問題作為其中間步驟。這一原則是顯然的，但是遵循到什么程度并非易事。統(tǒng)計(jì)學(xué)理論很大程度上遵循了這一原則，不需要建立物理模型而是直接通過數(shù)學(xué)模型尋找輸入輸出之間的“黑箱”關(guān)系;不需要先估計(jì)密度而是直接尋找待求的函數(shù)。那么，如果問題是“根據(jù)樣本尋找規(guī)律”，這一原則得到了很好的執(zhí)行;如果問題是“根據(jù)樣本尋找特定點(diǎn)上的取值”，則這一過程實(shí)際上還是先轉(zhuǎn)變成了一個更一般的“尋找待求函數(shù)”這一中間問題。如果不通過這一中間步驟，意味著通過“直覺”直接推導(dǎo)。然而，在20世紀(jì)30年代，K.Popper提出了區(qū)分真理論和假理論的準(zhǔn)則，一個理論可以被證實(shí)的必要條件是它存在被證偽的可能性。而通過感性的直覺方法所得出的理論“應(yīng)該”是不可證偽的，也就不能稱為一種科學(xué)理論。

目前的機(jī)器學(xué)習(xí)問題大多轉(zhuǎn)化成尋找待求函數(shù)的問題（符號機(jī)器學(xué)習(xí)除外），也就是說將所有問題轉(zhuǎn)化為數(shù)學(xué)問題進(jìn)行推導(dǎo)。機(jī)器學(xué)習(xí)研究的是轉(zhuǎn)化成數(shù)學(xué)問題之后的理論和算法，而第一步的物理世界到數(shù)學(xué)世界的轉(zhuǎn)化是否嚴(yán)格可信？

至此，本文梳理了機(jī)器學(xué)習(xí)的幾個大前提，質(zhì)疑這些前提則可能發(fā)展出來另一片廣闊的研究領(lǐng)域。事實(shí)上，統(tǒng)計(jì)學(xué)習(xí)理論就是質(zhì)疑“樣本數(shù)目趨于無窮大”這一前提發(fā)展起來的。

1）智能研究考慮的是知識，而非智慧。如果智慧基于感悟，現(xiàn)有的計(jì)算機(jī)硬件基礎(chǔ)和軟件結(jié)構(gòu)是否將面臨挑戰(zhàn)？生物計(jì)算機(jī)是否將成為下一代智能計(jì)算機(jī)的主體？

2）知識依賴于明晰的推導(dǎo)過程，而非感悟。如果通過直覺推導(dǎo)知識，如何避免不可證偽的問題？是否可以發(fā)展另一套關(guān)于科學(xué)或者哲學(xué)的理論？

3）基于數(shù)值的機(jī)器學(xué)習(xí)是將物理世界的問題轉(zhuǎn)換成數(shù)學(xué)問題再進(jìn)行研究，這個轉(zhuǎn)換過程如何保證不丟失關(guān)鍵信息？是否可以發(fā)展一套理論研究轉(zhuǎn)換以及其可信度保證問題？

4）是否存在并不適合轉(zhuǎn)換成數(shù)學(xué)問題研究的物理問題？符號機(jī)器學(xué)習(xí)是否有更廣闊的發(fā)展空間？

筆者認(rèn)為挑戰(zhàn)以上這些問題可能更適合東方或者中國人的思維方式，而且可以改變在西方陰影下亦步亦趨的現(xiàn)象。

不得不承認(rèn)的是，目前各種主客觀環(huán)境不利于這種挑戰(zhàn)。那么，研究人員在當(dāng)前環(huán)境下的努力方向是什么？

2.2 研究人員的努力方向

從當(dāng)前機(jī)器學(xué)習(xí)研究方向來看，主流以數(shù)學(xué)方法為主?！皵?shù)學(xué)不是萬能的，但是沒有數(shù)學(xué)是萬萬不能的?！痹跈C(jī)器學(xué)習(xí)領(lǐng)域內(nèi)要有所建樹，一定要有深厚的數(shù)學(xué)功底，不僅僅是學(xué)習(xí)理解現(xiàn)有的數(shù)學(xué)知識，更重要的是能靈活運(yùn)用各種原理和方法證明自己的算法或理論。因此，第一要務(wù)是強(qiáng)化數(shù)學(xué)功底。

在此基礎(chǔ)上，研究人員一定要明確自己的問題和目標(biāo)是什么。如前所述，問題是“找到規(guī)律”還是“得到給定點(diǎn)上的值”，是“基礎(chǔ)理論研究”還是“解決具體應(yīng)用問題”，明確問題將會更好地引導(dǎo)研究思路和途徑。值得強(qiáng)調(diào)的是，如果是解決具體的應(yīng)用問題，或許理論難度和創(chuàng)新思想相對而言要求稍低，卻更需要極其嚴(yán)謹(jǐn)細(xì)致的工作作風(fēng)。從問題出發(fā)，做了什么轉(zhuǎn)化，基于什么假設(shè)，采用什么算法，算法的前提是什么，是否符合真正的應(yīng)用需求，局限性在哪里，最終得出什么結(jié)論，每一個步驟都需要有明晰、嚴(yán)謹(jǐn)?shù)目茖W(xué)思路。

另外，在解決具體問題時，一個非研究性質(zhì)然而異常重要的方面是：如何用通俗易懂的語言向最終用戶描述以上各個方面的內(nèi)容，從而讓用戶接受其算法及相應(yīng)的系統(tǒng)。這一點(diǎn)往往被研究人員所忽視，認(rèn)為用戶們根本“不懂，不識貨”，事實(shí)上，能用淺顯易懂的語言向外行描述清楚其問題及機(jī)理體現(xiàn)了更高層次的研究水平，研究人員既要能深入，也要能淺出。況且，也只有深入了，才能正確概要地淺出。

【參考文獻(xiàn)】

[1]王玨，周志華，周傲英.機(jī)器學(xué)習(xí)及其應(yīng)用[M].北京：清華大學(xué)出版社，2006.

[2]閆友彪，陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J].計(jì)算機(jī)應(yīng)用研究，2004，21（7）：4-10.

[3]張潤，王永濱.機(jī)器學(xué)習(xí)及其算法和發(fā)展研究[J].中國傳媒大學(xué)學(xué)報(bào)（自然科學(xué)版），2016，23（2）.

[4]朱虎明，李佩焦，李成等.深度神經(jīng)網(wǎng)絡(luò)并行化研究綜述[J].計(jì)算機(jī)學(xué)報(bào)，2018，41（8）.

[5]王鋒，王艷娜，梁義濤等.基于KNN算法的小麥隱蔽性蟲害分類器設(shè)計(jì)[J].農(nóng)機(jī)化研究，2014，36（7）.

[6]呂利利，頡耀文，黃曉君等.基于CART決策樹分類的沙漠化信息提取方法研究[J].遙感技術(shù)與應(yīng)用，2017，32（3）.

[7]徐曌，張斌.基于約簡矩陣和C4.5決策樹的故障診斷方法[J].計(jì)算機(jī)技術(shù)與發(fā)展，2018（2）.

[8]孫志軍，薛磊，許陽明，等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究，2012，29（8）：2806-2810.

[9]LECUNY，BENGIOY，HINTONG.Deep learning.[J].Nature，2015，521（7553）：436-444.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

機(jī)器學(xué)習(xí)研究思路和途徑的探討