李廉
摘要:通過計(jì)算模型與物理模型和數(shù)學(xué)模型的比較,從方法論角度解釋了計(jì)算思維有別于實(shí)證思維和邏輯思維的不同之處。著重分析了學(xué)習(xí)模型的一些理論和方法特點(diǎn),針對(duì)大數(shù)據(jù)的應(yīng)用,探討學(xué)習(xí)模型在適用范圍、性能效率以及屬性特點(diǎn)等方法論方面的性質(zhì)。對(duì)于學(xué)習(xí)模型產(chǎn)生結(jié)論的PAC形式做了重點(diǎn)討論,這是計(jì)算思維所蘊(yùn)含的豐富礦藏,也是當(dāng)今創(chuàng)新的重要思想來源和技術(shù)動(dòng)力,需要在教學(xué)中予以充分的關(guān)注和啟發(fā)。
關(guān)鍵詞:計(jì)算模型;學(xué)習(xí)模型;PAC方式;歸納推理;關(guān)聯(lián)關(guān)系;大數(shù)據(jù)
隨著信息技術(shù)的快速發(fā)展,大數(shù)據(jù)、云計(jì)算、互聯(lián)網(wǎng)這些名詞已經(jīng)越來越頻繁地進(jìn)入我們的日常生活,并對(duì)整個(gè)社會(huì)結(jié)構(gòu)和運(yùn)行秩序產(chǎn)生了深刻的影響。這種情況也毫不例外地影響著計(jì)算機(jī)科學(xué)和工程的教學(xué)改革,其中對(duì)于這些科學(xué)與技術(shù)發(fā)展背后帶來的思維模式的特點(diǎn)顯得尤為突出和重要,培養(yǎng)計(jì)算思維能力是當(dāng)前計(jì)算機(jī)基礎(chǔ)課程改革的目標(biāo)。但是對(duì)于計(jì)算思維的內(nèi)涵究竟是什么,它與我們熟悉的實(shí)證思維和邏輯思維之間有什么不同,它的內(nèi)容和形式有什么特點(diǎn),仍然是一個(gè)需要繼續(xù)探討的問題。這些探討將進(jìn)一步理清計(jì)算思維的內(nèi)涵以及應(yīng)用范圍。本文通過計(jì)算模型與物理模型和數(shù)學(xué)模型的比較,解釋了計(jì)算思維有別于實(shí)證思維和邏輯思維的不同之處,從方法論角度論證了計(jì)算思維是并列于實(shí)證思維和邏輯思維的第三種科學(xué)思維模式。
一、物理模型與數(shù)學(xué)模型
分析問題和解決問題的第一步是對(duì)問題的抽象,抽象的過程是略去與問題無關(guān)的部分,而關(guān)注于問題的本質(zhì)。抽象最常見的結(jié)果是模型,一個(gè)適當(dāng)?shù)哪P头从沉藛栴}的因果關(guān)系或者數(shù)量關(guān)系。從而可以采用已有的理論或者技術(shù)來分析模型,解決其中的問題。這種建模的方法是所有科學(xué)研究中的通用的原則,根據(jù)模型的不同,一般分為物理模型和數(shù)學(xué)模型,物理模型通過模擬物理運(yùn)動(dòng)來揭示因果關(guān)系,數(shù)學(xué)模型通過數(shù)學(xué)方程來揭示邏輯關(guān)系。在現(xiàn)實(shí)的處理問題的方法中,由于計(jì)算機(jī)的出現(xiàn),人們似乎更加偏愛采用數(shù)學(xué)模型。
物理建模是抽取對(duì)象的本質(zhì)屬性,在實(shí)驗(yàn)室建立簡(jiǎn)化的系統(tǒng),研究物體在這個(gè)簡(jiǎn)化世界中的行為,以確定因果關(guān)系。伽利略著名的斜坡實(shí)驗(yàn)是自由落體的物理模型,通過斜坡稀釋了時(shí)間,使得觀察和比較成為可能。
數(shù)學(xué)建模是通過抽取本質(zhì)屬性,建立屬性之間的邏輯關(guān)系(數(shù)學(xué)關(guān)系),通常以方程的形式加以描述。借助方程解的形式來解釋自然現(xiàn)象或者社會(huì)現(xiàn)象。
無論是物理模型還是數(shù)學(xué)模型,都需要把問題理想化和簡(jiǎn)單化。面對(duì)自然現(xiàn)象和社會(huì)問題,各種因素的影響縱橫交錯(cuò),其中的關(guān)系也是錯(cuò)綜復(fù)雜,因此在抽象的過程中,一般需要預(yù)設(shè)結(jié)論,提出其中的因果關(guān)系假設(shè),并為此設(shè)計(jì)一個(gè)模型系統(tǒng),其中只有預(yù)設(shè)的因素而排除了其他因素,在這個(gè)簡(jiǎn)化的物理模型中,觀察因素之間的相互作用。在數(shù)學(xué)模型中,則通過簡(jiǎn)化的數(shù)量形式,建立相應(yīng)的數(shù)學(xué)方程,借助解的形式與性質(zhì)來獲取問題的解決。理論上說,任何建模的方法都不可能涵蓋所有的客觀因素,只能根據(jù)假設(shè),提煉部分因素進(jìn)行抽象,其中還不乏對(duì)于一些關(guān)系的理想化處理。
一般而言,物理模型和數(shù)學(xué)模型都屬于“確定性”模型,即通過模型得到的結(jié)論是完全確定的,因果關(guān)系是確定的,邏輯關(guān)系也是確定的,其結(jié)論具有非此即彼的性質(zhì)。即使對(duì)于統(tǒng)計(jì)模型(數(shù)學(xué)模型的一種),雖然結(jié)論具有某些不確定性,但是這種不確定性是建立在確定數(shù)學(xué)公理上的,它是一種由確定性導(dǎo)出的不確定性,本質(zhì)上仍然屬于邏輯關(guān)系。
所有這些模型以及其背后的依據(jù)和邏輯,已經(jīng)發(fā)展成為系統(tǒng)的方法,有建模的步驟和程式,模型的建構(gòu),以及如何從模型得到結(jié)論的準(zhǔn)則等。我們從小學(xué)到大學(xué)已經(jīng)被無數(shù)次訓(xùn)練,對(duì)于這些方法也是爛熟于胸,熟悉的似乎已經(jīng)是天經(jīng)地義,無可懷疑。但是大數(shù)據(jù)的出現(xiàn),對(duì)這一切都提出了嚴(yán)峻的挑戰(zhàn),為我們展示了一種嶄新的認(rèn)知世界的新方法和新觀點(diǎn)。在物理模型和數(shù)學(xué)模型之外,出現(xiàn)了新的模型形式和建模方法,這就是計(jì)算模型。
二、計(jì)算模型
由于信息技術(shù)的發(fā)展,人類獲取數(shù)據(jù)的能力較之過去有了飛速的進(jìn)步。現(xiàn)在每天都要產(chǎn)生數(shù)以E比特量的數(shù)據(jù),大量的數(shù)據(jù)帶給我們的不僅僅是量的增加,更重要的是帶來了一種新的認(rèn)知觀。這就是從觀察數(shù)據(jù)中獲取知識(shí)的新的途徑。
實(shí)際上,從人類認(rèn)知的歷史來看,最早了解自然規(guī)律的手段就是觀察和歸納,人類最早就是從數(shù)據(jù)中獲取知識(shí)的。只是到了17世紀(jì)之后,由伽利略等逐步開創(chuàng)了現(xiàn)代實(shí)證主義研究的手段,觀察研究就讓位于實(shí)驗(yàn)。除了少數(shù)無法進(jìn)行實(shí)驗(yàn)的學(xué)科(例如宇宙學(xué)),在絕大多數(shù)自然學(xué)科中,實(shí)驗(yàn)成為形成結(jié)論的標(biāo)準(zhǔn)手段,任何結(jié)論必須在實(shí)驗(yàn)室里面被驗(yàn)證,僅僅在自然界被觀察到是不夠的。在現(xiàn)代科學(xué)體系中,通過觀察獲取知識(shí)的方法被邊緣化,究其原因,還是因?yàn)檫^去的觀察手段比較落后,難以獲得大量數(shù)據(jù),而建立在小數(shù)據(jù)基礎(chǔ)上的分析,其結(jié)論往往是不準(zhǔn)確的,得到的結(jié)論也缺乏說服力。既然過去是受限于數(shù)據(jù)的不足,使得人們研究自然問題的方法主要依賴于實(shí)證主義的實(shí)驗(yàn)方法,那么現(xiàn)在隨著信息技術(shù)的發(fā)展,獲取數(shù)據(jù)的能力有了極大提高,進(jìn)入了大數(shù)據(jù)時(shí)代,我們是否可以重新回到先輩那里,采用觀察的方法來研究問題,獲取知識(shí)。特別是在人文科學(xué)和社會(huì)科學(xué)等無法采用實(shí)驗(yàn)方法研究的領(lǐng)域,通過觀察設(shè)備(傳感器)作用于各種自然現(xiàn)象,社會(huì)活動(dòng)和人類行為,產(chǎn)生了大量的數(shù)據(jù),分析和處理這些數(shù)據(jù),并且進(jìn)行歸納和提煉。人們研究科學(xué)又可以重新回到了觀察這個(gè)最原始和最基本的手段,但是這一次的回歸是螺旋式上升,從古代依靠人的感官來觀察現(xiàn)象,到現(xiàn)在依靠傳感器來觀察現(xiàn)象,數(shù)據(jù)的密度、廣度、準(zhǔn)確性和一致性已經(jīng)不能同日而語(yǔ)了,因此觀察這種研究手段在大數(shù)據(jù)時(shí)代煥發(fā)了新的生命力,成為新時(shí)代的新的科學(xué)研究方法。
《大數(shù)據(jù)時(shí)代》的作者舍恩伯格寫道:“大數(shù)據(jù)標(biāo)志著‘信息社會(huì)終于名副其實(shí)。我們所收集的所有數(shù)字信息現(xiàn)在都可以用新的方式加以利用。我們可以嘗試新的事物并開啟新的價(jià)值形式。但是,這需要一種新的思維方式,并將挑戰(zhàn)我們的社會(huì)機(jī)構(gòu),甚至挑戰(zhàn)我們的認(rèn)同感?!边@個(gè)新的認(rèn)同感是什么?由于大數(shù)據(jù)進(jìn)入我們的社會(huì)只有短短的歷史,現(xiàn)在還不能做出最終的結(jié)論。舍恩伯格繼續(xù)寫道:“大數(shù)據(jù)時(shí)代對(duì)我們的生活,以及與世界的交流方式都提出了挑戰(zhàn)。最驚人的是,社會(huì)需要放棄它對(duì)于因果關(guān)系的渴求,而只需關(guān)注關(guān)聯(lián)關(guān)系,也就是說,僅需要知道是什么,而不需要知道為什么。這就推翻了自古以來的慣例,而我們做決定和理解現(xiàn)實(shí)的最基本方式也將受到挑戰(zhàn)?!比绻岫鞑袼詾閷?shí),那么這種新的認(rèn)知觀和對(duì)于世界的新的解釋就是建立在關(guān)聯(lián)關(guān)系,而不是傳統(tǒng)物理學(xué)所強(qiáng)調(diào)的因果關(guān)系,或者數(shù)學(xué)所強(qiáng)調(diào)的邏輯關(guān)系。實(shí)際上,近期一些借助大數(shù)據(jù)得到的重大甚至具有里程碑意義的成果都說明,上述的預(yù)言正在成為一種新的世界觀和方法論,當(dāng)采用大數(shù)據(jù)的分析方法和處理手段來解決問題,或者當(dāng)采用關(guān)聯(lián)關(guān)系來解釋世界時(shí),我們得到了一系列對(duì)于世界的新認(rèn)知,極大地提高了我們認(rèn)識(shí)能力,也豐富了我們的知識(shí)體系。這些成果包括AlghaGo、語(yǔ)音識(shí)別、圖像判斷、自動(dòng)駕駛等領(lǐng)域。
現(xiàn)在我們回到方法論的問題上來。既然大數(shù)據(jù)提供了一種新的不同于物理學(xué)和數(shù)學(xué)的觀點(diǎn),自然也就帶來了研究問題的不同于物理學(xué)和數(shù)學(xué)的方法。這種方法是關(guān)注于現(xiàn)象之間的關(guān)聯(lián)關(guān)系而不是因果關(guān)系或者邏輯關(guān)系,因此必然要有與之相應(yīng)的新的理論、技術(shù)和工具。也就是說,我們不僅關(guān)心大數(shù)據(jù)給我們帶來的關(guān)聯(lián)關(guān)系的新視角,更加關(guān)心如何來獲取這種關(guān)聯(lián)關(guān)系,即計(jì)算模型和如何構(gòu)建計(jì)算模型的問題。
從計(jì)算機(jī)科學(xué)的角度,大致上可以分為三類模型,分別是指稱模型,算法模型和學(xué)習(xí)模型。第一類指稱模型包括各種文法系統(tǒng)、重寫系統(tǒng)以及演算系統(tǒng),主要是建立各種符號(hào)變換之間的層次關(guān)系、順序關(guān)系、或者替代關(guān)系,是計(jì)算或者系統(tǒng)形式化的抽象模型。第二類是算法模型,包括各種算法,其中既有確定算法,也有非確定算法,還包括近似算法、隨機(jī)算法以及演化算法等。算法構(gòu)成了計(jì)算機(jī)科學(xué)的主要組成部分,通過建立算法模型是計(jì)算機(jī)解決問題的常用途徑。第三類就是最近比較活躍的學(xué)習(xí)模型。實(shí)際上,指稱模型建立了符號(hào)之間的變換,嚴(yán)格說這些變換純粹是一種形式轉(zhuǎn)換,它只是被指稱所約定,并不關(guān)心這些符號(hào)之間是否有因果關(guān)系和邏輯關(guān)系,因此是一種關(guān)聯(lián)關(guān)系的建立。算法模型中有一類是經(jīng)過嚴(yán)格數(shù)學(xué)證明的,這類算法其輸入和輸出之間是有著邏輯關(guān)系的;但是也有一類算法,它的過程中有一些策略是依據(jù)實(shí)際情況變化的,是一種“就事論事”的方法,其結(jié)果的正確性不能邏輯上予以證明,這類算法的輸入和輸出之間是一種關(guān)聯(lián)而不是邏輯。指稱模型和算法模型已經(jīng)有了很多研究,不在本文的討論范圍,本文主要討論近年來隨著大數(shù)據(jù)一起受到重視的學(xué)習(xí)模型。
一個(gè)學(xué)習(xí)模型是一個(gè)結(jié)構(gòu)(裝置),連同一個(gè)算法,通過對(duì)于大量數(shù)據(jù)的訓(xùn)練或者分析輸出相應(yīng)的結(jié)論。常見的學(xué)習(xí)模型有支持向量機(jī)(SVM,Suppog Vector Machine)、人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Network)、聚類分析(CA,Cluster Analysis)、鄰近分類(kNN,k-NearestNeighbor)等。不同的模型有著不同的獲取結(jié)論的理論和方法。機(jī)器學(xué)習(xí)是利用學(xué)習(xí)模型獲取結(jié)論的過程。機(jī)器學(xué)習(xí)需要有一個(gè)預(yù)設(shè)的任務(wù)T,以及衡量指標(biāo)P,通過選取合適的模型和數(shù)據(jù)E,以P的要求完成任務(wù)T。這里數(shù)據(jù)E即包括觀察的數(shù)據(jù),也包括諸如規(guī)則和經(jīng)驗(yàn)這樣的先驗(yàn)知識(shí)。以二分類問題為例,二分類問題定義了一個(gè)目標(biāo)函數(shù)h:X→{0,1},其中X是所有實(shí)例的集合,h是一個(gè)客觀存在分類函數(shù)。數(shù)據(jù)被表示為特征的向量,所有的特征稱為數(shù)據(jù)的特征空間?,F(xiàn)假設(shè)我們有X的一部分?jǐn)?shù)據(jù),稱為樣例集合S。由于我們只有部分樣例,而沒有關(guān)于h的確切信息,因此事先并不知道h的準(zhǔn)確定義。學(xué)習(xí)問題就是選取合適的模型和算法,使得從這些樣例集合S得到一個(gè)函數(shù)g,g稱為期望函數(shù)。學(xué)習(xí)目標(biāo)就是獲取與h盡可能一致的期望函數(shù)g。一方面,顯然樣例個(gè)數(shù)越多,越可能接近這個(gè)函數(shù);另一方面,如果沒有所有的實(shí)例信息,僅憑不完整的部分信息,理論上是不可能確切地得到h。對(duì)于不同的任務(wù),需要選擇不同的學(xué)習(xí)模型,這樣才能達(dá)到快速高效完成任務(wù)的目標(biāo)。
機(jī)器學(xué)習(xí)是當(dāng)前計(jì)算機(jī)領(lǐng)域發(fā)展十分迅速的內(nèi)容,原來通過傳統(tǒng)數(shù)學(xué)或者物理的方法難以解決的問題,借助機(jī)器學(xué)習(xí)的方法獲得了突破性的進(jìn)展。
三、歸納學(xué)習(xí)與PAC原則
學(xué)習(xí)模型的目標(biāo)是從大量的數(shù)據(jù)中獲取結(jié)論,或者更具體的是獲取期望函數(shù)。因此從總體上講,學(xué)習(xí)模型是一種歸納學(xué)習(xí)的方式,盡管有些技術(shù)采用了分析學(xué)習(xí),但是絕大多數(shù)的應(yīng)用是以歸納學(xué)習(xí)為主。這是學(xué)習(xí)模型的本質(zhì)特征,僅從這一點(diǎn)就可以看出學(xué)習(xí)模型與物理模型和數(shù)學(xué)模型的不同。
從觀察數(shù)據(jù)中獲取結(jié)論,這種研究方式在古代就已有之。早期的人類主要是通過觀察自然現(xiàn)象歸納總結(jié)出相應(yīng)的認(rèn)識(shí),形成知識(shí)內(nèi)容和科學(xué)體系。但是由于觀察手段的簡(jiǎn)陋,數(shù)據(jù)量不足,只能從小數(shù)據(jù)中得到結(jié)論,這需要極大的智慧和運(yùn)氣,而且說服力不足,科學(xué)知識(shí)難以普及和應(yīng)用。因此在歷史的發(fā)展中,逐步被現(xiàn)代科學(xué)方法所邊緣化。隨著技術(shù)的進(jìn)步,現(xiàn)在我們具備了大量獲取數(shù)據(jù)的能力,無論是處理數(shù)據(jù)的能力還是分析數(shù)據(jù)的手段都有了過去無法想象的提升,從而通過歸納學(xué)習(xí)的方法再次進(jìn)入人們的視野,通過這種煥然一新的古老方法開辟一條新的獲取知識(shí)的途徑。但是在現(xiàn)代科學(xué)的背景下,使用學(xué)習(xí)模型進(jìn)行歸納學(xué)習(xí)需要回答以下的問題:
(1)從一個(gè)學(xué)習(xí)模型出發(fā),有多大把握學(xué)習(xí)到期望函數(shù)?
(2)學(xué)到的期望函數(shù)與目標(biāo)函數(shù)之間的誤差是多少?
(3)學(xué)習(xí)復(fù)雜度是多少?
(4)至少需要多少數(shù)據(jù)才能達(dá)到學(xué)習(xí)目標(biāo)?
(5)學(xué)習(xí)穩(wěn)定性如何,即如果換一組數(shù)據(jù)是否還能學(xué)到相同性能的期望函數(shù)?
只有回答了這些問題,學(xué)習(xí)模型作為一種方法論才具備科學(xué)的基礎(chǔ),獲取的結(jié)論才具有說服力。因此我們現(xiàn)在重提歸納學(xué)習(xí),并不是回到過去那種需要憑借天才的猜測(cè)和聯(lián)想的研究方法,而是在現(xiàn)代科學(xué)體系架構(gòu)下的,經(jīng)過嚴(yán)格證明和規(guī)范標(biāo)準(zhǔn)的新方法。這種方法與實(shí)驗(yàn)方法和推理方法都具有可重復(fù)性,可應(yīng)用性和可檢驗(yàn)性。
由于學(xué)習(xí)模型和機(jī)器學(xué)習(xí)的發(fā)展歷史不長(zhǎng),現(xiàn)在還無法深入回答上面的5個(gè)問題,但是學(xué)習(xí)理論已經(jīng)對(duì)這些問題做了很有意義的探索,至少對(duì)于其中的一部分有了較為清晰的答案。
學(xué)習(xí)模型的本質(zhì)是歸納學(xué)習(xí),通過部分?jǐn)?shù)據(jù)獲取結(jié)論,因此和所有歸納推理一樣,理論上得到的結(jié)論只能是相對(duì)正確。為了準(zhǔn)確刻畫這種相對(duì)正確性,學(xué)習(xí)模型引入了一個(gè)很重要的原則,即可能近似正確(PAC,ProbablyApproximate Correct)。它的定義是16]:
設(shè)L是一個(gè)學(xué)習(xí)模型,如果對(duì)于任意給定的0<δ,ε<1,L能夠以1—δ的概率獲取期望函數(shù)g,g與目標(biāo)函數(shù)h的誤差不超過ε。則稱L以PAC方式獲取函數(shù)h。
PAC方式有兩個(gè)不確定性,一個(gè)是獲取結(jié)論的不確定,一個(gè)是結(jié)論本身的不確定。這與我們熟悉的物理學(xué)通過實(shí)驗(yàn)獲取結(jié)論,或者數(shù)學(xué)通過推理獲取結(jié)論有本質(zhì)的區(qū)別。事實(shí)上,所有通過部分?jǐn)?shù)據(jù)獲取結(jié)論的歸納方法都具有PAC性質(zhì)。PAC方式是一種新的認(rèn)知世界的模式,它的不精確性可能不是缺點(diǎn),反而是一個(gè)優(yōu)點(diǎn)。對(duì)此舍恩伯格有精辟的論述:“當(dāng)我們掌握了大量新型數(shù)據(jù)時(shí),精確性就不那么重要了,我們同樣可以掌握事情的發(fā)展趨勢(shì)。大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性。然而,除了一開始會(huì)與我們的直覺相矛盾之外,接受數(shù)據(jù)的不精確和不完美,我們反而能夠更好地進(jìn)行預(yù)測(cè),也能夠更好地理解這個(gè)世界?!睆倪@段論述看出,無論采用確定的方式獲取結(jié)論還是以PAC方式獲取結(jié)論,都只是一個(gè)習(xí)慣問題,也許在大數(shù)據(jù)時(shí)代,我們需要逐步適應(yīng)使用PAC方式來思考問題和解決問題,這也構(gòu)成了計(jì)算思維的重要內(nèi)容。PAC方式拓寬了人類獲取知識(shí)的途徑,豐富了我們的科學(xué)體系和文化內(nèi)涵,并且與傳統(tǒng)的確定方式共同組成了人類認(rèn)知和理解世界的方法。
在上面關(guān)于PAC的定義中,δ和ε可以任意逼近0,當(dāng)兩者都等于0時(shí),就是確定性的算法和結(jié)論。作為物理發(fā)現(xiàn),要求δ和ε都非常小。對(duì)于一般地應(yīng)用而言,不需要如此苛刻的條件。一些行業(yè)規(guī)定了產(chǎn)品要求或者企業(yè)管理的標(biāo)準(zhǔn),基本上達(dá)到3σ就可以,也就是合格率(正確率)達(dá)到99.73%。就一般問題來說,達(dá)到2σ也能滿足要求,即置信度為95%。因此可以根據(jù)實(shí)際問題來設(shè)置δ和ε,使其符合應(yīng)用需要即可,這個(gè)性質(zhì)刻畫了學(xué)習(xí)模型的學(xué)習(xí)性能。
四、學(xué)習(xí)模型與大數(shù)據(jù)
學(xué)習(xí)模型分為許多類,每一類都有嚴(yán)格的結(jié)構(gòu)定義和相應(yīng)的算法描述。從方法論的角度,對(duì)于給定的任務(wù),選擇合適的學(xué)習(xí)模型和恰當(dāng)?shù)乃惴ǎ怪軌蛲瓿蓪W(xué)習(xí)任務(wù)。雖然這些模型和算法大多都有嚴(yán)格的證明和描述,但是學(xué)習(xí)模型的一個(gè)神奇之處就是當(dāng)啟動(dòng)學(xué)習(xí)過程后,可能完全不知道最后學(xué)出來結(jié)果是什么。我們只能從模型輸出結(jié)果來判斷是否達(dá)到要求,但是無法獲知其中的因果關(guān)系和邏輯關(guān)系。即使能夠得到模型最終的參數(shù),也無法得知這些參數(shù)究竟表示何種意義。就許多學(xué)習(xí)模型而言,相對(duì)于我們就是一個(gè)黑箱。一個(gè)典型的例子是AlphaGo,盡管其結(jié)構(gòu)和算法都是人們事先給定的,但是在通過大量的訓(xùn)練之后,已經(jīng)無法對(duì)它的行為進(jìn)行預(yù)測(cè)。這種不確定性正是學(xué)習(xí)模型的特殊之處,也是區(qū)別于物理模型和數(shù)學(xué)模型的分野。
學(xué)習(xí)模型是通過大量的數(shù)據(jù)進(jìn)行歸納來產(chǎn)生結(jié)論的,因此數(shù)據(jù)對(duì)于學(xué)習(xí)模型來說是根本性的。作為方法論的描述,對(duì)于數(shù)據(jù)采集、儲(chǔ)存、清洗和處理都有很多理論和技術(shù),也開發(fā)了一些工具。同時(shí)對(duì)于如何選擇學(xué)習(xí)模型也有了一些準(zhǔn)則和經(jīng)驗(yàn),這些都構(gòu)成了學(xué)習(xí)模型方法論方面的內(nèi)容,根據(jù)這些方法,人們可以根據(jù)任務(wù)要求,通過學(xué)習(xí)模型的建模和運(yùn)行,達(dá)到解決問題的目標(biāo)。比如說,下面這個(gè)定理就描述了對(duì)于具體的任務(wù),需要多少數(shù)據(jù)就可以產(chǎn)生期望的結(jié)論:
定理(Blumer et al,1989):設(shè)X是實(shí)例的集合,S是樣例的集合,h是目標(biāo)函數(shù),如果:
(1)S與X具有相同的分布;
(2)h是一個(gè)二分類函數(shù);
(3)h在算法A的假設(shè)空間中;
那么,對(duì)于任意給定的δ和ε,當(dāng)數(shù)據(jù)量N滿足
由于篇幅限制,這里不討論該定理的推導(dǎo)和一些符號(hào)的含義。另外前面提到的學(xué)習(xí)復(fù)雜度問題,學(xué)習(xí)穩(wěn)定性問題,以及學(xué)習(xí)可靠性問題都是學(xué)習(xí)方法的理論基礎(chǔ),我們也不再討論。只是說明,在一定條件下,對(duì)于通過學(xué)習(xí)模型得到期望的函數(shù)已經(jīng)有了一些較為深刻的結(jié)果。比如該定理就明確指出為了完成學(xué)習(xí)任務(wù)所需要的數(shù)據(jù)量。這個(gè)量依賴于給定的精度要求δ和ε,并且與學(xué)習(xí)模型的假設(shè)空間的VC維數(shù)有關(guān)。盡管這些結(jié)果仍是初步的,但是足可以說明在大數(shù)據(jù)時(shí)代,人們對(duì)于學(xué)習(xí)模型和歸納學(xué)習(xí)的理解已經(jīng)遠(yuǎn)遠(yuǎn)超越了古代,大數(shù)據(jù)學(xué)習(xí)是在現(xiàn)代科學(xué)的起點(diǎn)上發(fā)展這一古老的理論和技術(shù)。
學(xué)習(xí)模型表現(xiàn)出一些良好的性質(zhì),它是通過大數(shù)據(jù)來獲取對(duì)于規(guī)律的認(rèn)知;通過數(shù)據(jù)交互的方式,逐步加細(xì)認(rèn)知精度;以及學(xué)習(xí)結(jié)果可以任意逼近需要的精度。相比于物理模型和數(shù)學(xué)模型,學(xué)習(xí)模型不需要精確分析或者實(shí)驗(yàn)室工作,建模成本較低或者可以分解成本。同時(shí)學(xué)習(xí)模型可以充分利用已有的案例和經(jīng)驗(yàn)進(jìn)行歸納,這在資源利用和解題思路上是合理的。最后,學(xué)習(xí)模型通過計(jì)算機(jī)運(yùn)行,因此模型的可維護(hù)性好,修改模型也較為容易。
五、教學(xué)啟示和結(jié)論
計(jì)算模型,特別是學(xué)習(xí)模型,為我們提供了新的認(rèn)識(shí)世界和理解世界的方法。舍恩伯格認(rèn)為,在大數(shù)據(jù)時(shí)代,這些新的分析工具和思路為我們提供了一系列新的視野和有用的預(yù)測(cè),我們看到了很多以前不曾注意到的聯(lián)系,還掌握了以前無法理解的復(fù)雜技術(shù)和社會(huì)動(dòng)態(tài)。但最重要的是,通過探求“是什么”而不是“為什么”,關(guān)聯(lián)關(guān)系幫助我們更好地了解了這個(gè)世界。關(guān)聯(lián)關(guān)系很有用,不僅僅是因?yàn)樗転槲覀兲峁┬碌囊暯牵姨峁┑囊暯嵌己芮逦?。而我們一旦把因果關(guān)系考慮進(jìn)來,這些視角就有可能被蒙蔽掉。關(guān)聯(lián)關(guān)系是學(xué)習(xí)模型的精髓,正像因果關(guān)系之如物理模型,邏輯關(guān)系之如數(shù)學(xué)模型。因此從教學(xué)的角度也為我們提出了新的問題:
(1)正確把握計(jì)算思維的內(nèi)涵和核心概念。上面的討論可以看出,僅僅從方法論的角度,計(jì)算思維的內(nèi)容已經(jīng)具有了廣泛的新穎性和特色性。而且對(duì)于我們認(rèn)識(shí)社會(huì)和自然的觀點(diǎn)與方法也帶來深刻的啟蒙。
(2)建立基于大數(shù)據(jù)的分析方法和認(rèn)知手段。大數(shù)據(jù)給當(dāng)今社會(huì)帶來的影響僅是開始,今后會(huì)越來越深刻,而且將融入社會(huì)的方方面面,因此通過學(xué)習(xí)模型來處理問題,并且通曉它的基本原理和技術(shù)是十分必要的。
(3)克服對(duì)于物理模型和數(shù)學(xué)模型的依賴性,培養(yǎng)計(jì)算模型的意識(shí)和能力。加強(qiáng)學(xué)生在這方面的訓(xùn)練實(shí)有必要,特別是養(yǎng)成借助學(xué)習(xí)模型解決問題的能力。
(4)處理好應(yīng)用能力與思維意識(shí)的關(guān)系,建立和養(yǎng)成PAC方式解決問題的習(xí)慣。革新思維意識(shí),提升應(yīng)用能力。通過對(duì)于計(jì)算模型的理解與學(xué)習(xí),掌握好機(jī)器學(xué)習(xí)這一有效技術(shù),從新的視角分析和解決復(fù)雜問題,培養(yǎng)真正的創(chuàng)新競(jìng)爭(zhēng)力。
最后,我們提出三點(diǎn)作為本文的結(jié)論:
(1)計(jì)算思維不僅僅是對(duì)于已有方法和技術(shù)的詮釋,更是蘊(yùn)含新方法和新技術(shù)的豐富礦藏。通過學(xué)習(xí)模型來分析和解決問題就是一個(gè)廣闊的嶄新領(lǐng)域,由于機(jī)器學(xué)習(xí)本質(zhì)上是通過觀察來獲取結(jié)論,獲取的結(jié)論具有某些不確定性,這正是學(xué)習(xí)模型與物理模型和數(shù)學(xué)模型的不同之處,也是學(xué)習(xí)模型的引人入勝之處。正如舍恩伯格所說,這種不確定性不是表示學(xué)習(xí)模型不如物理模型和數(shù)學(xué)模型,而是說明大數(shù)據(jù)提供了一種新的認(rèn)知世界的模式。
(2)學(xué)習(xí)模型并不排斥傳統(tǒng)的物理學(xué)和數(shù)學(xué)的研究模式,相反,學(xué)習(xí)模型建立的關(guān)聯(lián)關(guān)系可以為因果關(guān)系和邏輯關(guān)系的研究提供佐證和啟示。巴拉巴西(Albert-Laszlo Barabfisi)在《爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維》一書中,對(duì)此有深刻的闡述:“關(guān)聯(lián)關(guān)系分析本身意義重大,同時(shí)它也為研究因果關(guān)系奠定了基礎(chǔ)。通過找出可能相關(guān)的事物,我們可以在此基礎(chǔ)上進(jìn)行進(jìn)一步的因果關(guān)系分析,如果存在因果關(guān)系的話,我們?cè)龠M(jìn)一步找出原因。這種便捷的機(jī)制通過嚴(yán)格的實(shí)驗(yàn)降低了因果分析的成本。我們也可以從相互聯(lián)系中找到一些重要的變量,這些變量可以用到驗(yàn)證因果關(guān)系的實(shí)驗(yàn)。”
(3)因此在教學(xué)上,要通過案例引導(dǎo)學(xué)生關(guān)注大數(shù)據(jù)給我們帶來的影響,這種影響不僅表現(xiàn)在一些日常行為分析、商品推銷、服務(wù)推送方面,更重要的是表現(xiàn)在對(duì)于世界認(rèn)識(shí)的方法和手段。這些內(nèi)容極大地開拓了理解世界和考慮問題的思維空間,可以解決以前無法解決的問題,達(dá)到以前無法想象的新的技術(shù)高度。就像汽車自動(dòng)駕駛、語(yǔ)音識(shí)別技術(shù)、AlphaGo給我們帶來的震撼一樣。
[責(zé)任編輯:余大品]