張 怡
隨著計(jì)算機(jī)科學(xué)技術(shù)和互聯(lián)網(wǎng)的發(fā)展,利用數(shù)據(jù)進(jìn)行科學(xué)研究已經(jīng)成為常態(tài),而其中數(shù)據(jù)歸納更是最重要的方法之一。盡管在技術(shù)上數(shù)據(jù)歸納已經(jīng)出現(xiàn)大量文獻(xiàn),但在哲學(xué)上對(duì)數(shù)據(jù)歸納進(jìn)行系統(tǒng)研究仍然存在著較大的空間。本文力圖從哲學(xué)角度對(duì)此作一些探索。
從邏輯上說,歸納推理面臨的最大難點(diǎn)是眾所周知的休謨問題。為了解決休謨問題,學(xué)術(shù)界曾經(jīng)沿著兩條路線展開。一條是通過附加前提把歸納論證轉(zhuǎn)化為演繹論證。因?yàn)閺慕?jīng)驗(yàn)上用以往歸納推理的成功來論證歸納方法的合理性是行不通的,所以只有讓歸納推理的前提得到完善才能有效避免歸納論證的質(zhì)疑。另一條是通過概率推理給出一個(gè)高概率論證。在科學(xué)研究中歸納推理是不可避免的,只要我們能夠?qū)w納方法給出一個(gè)高概率說明,那么歸納論證是可辯護(hù)的。但是,第一條路徑依賴于附加前提的正確性,因而又陷入關(guān)于歸納推理合理性的循環(huán)論證。后一條路徑由于涉及概率本質(zhì)的主觀性和客觀性之爭(zhēng),也是困難重重。20世紀(jì)中葉,卡爾納普試圖把兩者結(jié)合起來,從概率的角度重建歸納推理的邏輯體系。
卡爾納普的基本思路就是要像弗雷格形式化處理演繹系統(tǒng)那樣,為歸納建立一個(gè)形式化的概率系統(tǒng)。他認(rèn)為,演繹邏輯是L-語言蘊(yùn)涵的理論,推理過程中結(jié)論通常是蘊(yùn)涵在前提之中。歸納邏輯則是部分L-語言蘊(yùn)涵的理論,只要我們能夠找到合理的路徑說明被推演出的命題是邏輯地包含在前提之中,并且能夠從概率上計(jì)算出來,那么歸納論證就是可辯護(hù)的。為了形式化處理上的嚴(yán)謹(jǐn),卡爾納普構(gòu)造了一個(gè)無限語言條件下的正則函數(shù)系統(tǒng)m來定量化地處理歸納推理中的確證度。當(dāng)科學(xué)語句以概率的描述方式出現(xiàn)時(shí),正則函數(shù)系統(tǒng)M就是在[0,1]范圍內(nèi)變化的一個(gè)數(shù)值函數(shù)。于是,卡爾納普按照以下規(guī)則進(jìn)行構(gòu)造①R. Carnap, “On Inductive Logic”, Philosophy of Science, Vol. 12, No. 2, 1945, pp. 72—97.:
(1)將語言LN中狀態(tài)描述賦以任意正實(shí)數(shù)的值,它的和為1。
(2)對(duì)于LN中其他語句j,它的值m(j)如下確定:
(a) 如果j非L-假,m(j)就是在j范圍內(nèi)這些狀態(tài)描述m-值的和。
(b) 如果j為L-假,那么它的值就是零,m(j)=0。
(c) 對(duì)于任意一對(duì)語句e,h,只要e非L-假,那么C(h,e)=m(h,e)/m(e)。
這里,卡爾納普得到了學(xué)術(shù)界熟知的確證度概率公式,即C(h,e)=f(h,e)/f(e)。他這樣處理的目的無非是為了解決兩個(gè)相關(guān)的基本問題:一個(gè)是把歸納仍然看作兩個(gè)命題之間的語言推演問題;另一個(gè)是認(rèn)為歸納的概率值僅僅取決于語句之間的邏輯關(guān)系,而與經(jīng)驗(yàn)無關(guān)??柤{普認(rèn)為,在這樣一個(gè)邏輯框架下,“歸納推理的形式使我們有可能對(duì)休謨的主題給出滿意的答案”②R. Carnap, Logical Foundations of Probability, Chicago: The University of Chicago Press, 1966, p. xv.。
卡爾納普在具體處理時(shí)把歸納劃分成兩類:一類是“概率1=確證度”;另一類是“概率2=相對(duì)頻率”。概率1是一個(gè)邏輯概念,它表示兩個(gè)語句或者兩個(gè)命題之間的邏輯關(guān)系,也就是確證度的概念,其核心要義就是認(rèn)知主體對(duì)某一數(shù)據(jù)實(shí)體所做假設(shè)的置信程度。概率2含義在科學(xué)研究中,特別是在統(tǒng)計(jì)中經(jīng)常使用,它表示我們可以通過經(jīng)驗(yàn)的方式對(duì)事件的發(fā)生加以確證。他提出:“擬概述的歸納邏輯系統(tǒng)適用于有限語言系統(tǒng)LN(N=1,2,3,等)的無限序列和無限語言系統(tǒng)L∞。L∞指的是個(gè)體的無限域,由個(gè)體常量a1,a2,等(或‘a(chǎn)’‘b’等)指定,而LN僅僅包含了N個(gè)個(gè)體的有限域,它由個(gè)體常量a1,a2,……,aN等指定。個(gè)體變量x1,x2,(或者x,y等)僅是發(fā)生在這些語言系統(tǒng)上的變量?!雹賀. Carnap, “On Inductive Logic”.在這樣一個(gè)邏輯語言系統(tǒng)上,符號(hào)C(h,e)可以表示為基于證據(jù)e的假說h的確證度。例如,證據(jù)e是芝加哥的人口數(shù)為300萬,200萬人是黑頭發(fā)的。假設(shè)某人p是芝加哥人(h),那么通過兩個(gè)語句的數(shù)值關(guān)系可以得到p是黑頭發(fā)的確證度是3/2,在這里h是被證據(jù)e所蘊(yùn)含??梢姡瑲w納的邏輯意義與語句的具體經(jīng)驗(yàn)意義沒有關(guān)系,而僅僅與語句的先驗(yàn)概率有關(guān)。因此,歸納邏輯中的確證度C(h,e)可以看作是假說h被證據(jù)e蘊(yùn)涵地給出。在卡爾納普的歸納邏輯體系中,科學(xué)語言的邏輯語句被轉(zhuǎn)換成一串?dāng)?shù)值符號(hào),通過對(duì)數(shù)值符號(hào)的形式化分析,并把先驗(yàn)概率指派到那些可能的符號(hào)串上,通過運(yùn)算就可以預(yù)測(cè)事件發(fā)生的概率。卡爾納普歸納邏輯系統(tǒng)事實(shí)上開創(chuàng)了數(shù)據(jù)歸納的先河。
但是,卡爾納普處理歸納邏輯面臨一個(gè)技術(shù)性困難。他是將科學(xué)語言的邏輯語句轉(zhuǎn)換為一串?dāng)?shù)值符號(hào),并且要求歸納的形式化語言與觀察語言相對(duì)應(yīng)。因此,LN中其他語句j的先驗(yàn)概率就會(huì)依賴于經(jīng)驗(yàn)語句的概率,也就是說包括m(h,e)和m(e)在內(nèi)的概率分布會(huì)完全依賴于描述對(duì)象的科學(xué)語言。這樣,當(dāng)描述對(duì)象的歸納語言越來越充分,歸納推理過程中所得到的確證度C(h,e)就會(huì)越來越偏離符號(hào)序列(數(shù)據(jù)),從而最終完全依賴于科學(xué)語言的語境。由于卡爾納普的歸納邏輯的概率系統(tǒng)與科學(xué)內(nèi)容的語義之間發(fā)生了必然的關(guān)聯(lián),從而休謨問題仍然得不到解決。美國人工智能的先驅(qū)者索洛莫洛夫(R. Solomonoff)認(rèn)為卡爾納普歸納邏輯的形式化處理很有意義,但是處理符號(hào)m(h,e)和m(e)的概率分布方法有問題,計(jì)算的方法在數(shù)據(jù)處理中操作性也不強(qiáng)。如果我們能夠直接從數(shù)據(jù)中獲得概率分布,而不用去考慮數(shù)據(jù)的各種理論或科學(xué)的語義解釋,那么卡爾納普留下的問題就可以解決。
當(dāng)我們?cè)诳茖W(xué)研究中利用計(jì)算機(jī)進(jìn)行歸納推理時(shí),科學(xué)觀察總是可以表達(dá)為一系列二進(jìn)制的數(shù)碼形式。不管這些數(shù)據(jù)是連續(xù)的還是離散的,它在歸納過程中都能夠被理解為一個(gè)符號(hào)序列的外推形式。申農(nóng)(C. E. Shannon)曾經(jīng)在1951年發(fā)表了題為“印刷英語的預(yù)測(cè)與熵”的一篇文章中提出,對(duì)于一個(gè)英語語句來講,比如,“Today, we ar□”,當(dāng)我們知道了前面一些語詞時(shí),方塊“□”中應(yīng)該打印什么?原則上,它可能是26個(gè)字母中的任意一個(gè)。但是,通過對(duì)后續(xù)字母的先驗(yàn)概率分析,比如文本的統(tǒng)計(jì),可以算出e是最可能的字母。申農(nóng)的信息論方法可以推廣到0,1的二元數(shù)碼序列上。比如,對(duì)于{0,1,00,01,11,000,……}這樣一個(gè)字符串,我們要預(yù)測(cè)隨之而來的0與1的三位數(shù)組合是可以通過字符串概率來計(jì)算的。當(dāng)經(jīng)驗(yàn)現(xiàn)象轉(zhuǎn)化為二元數(shù)碼形式時(shí),雖然進(jìn)行歸納要比上述例子復(fù)雜一些,但是仍然可以進(jìn)行概率計(jì)算而無需考慮它們的語義內(nèi)容。索洛莫洛夫認(rèn)為:“我們相信,對(duì)符號(hào)序列使用當(dāng)前的外推方法將產(chǎn)生與真實(shí)世界中的概率值相對(duì)應(yīng)的概率值,而且,以這種方式獲得的真實(shí)事件的概率值將在很大程度上獨(dú)立于符號(hào)和它們表征事件之間所設(shè)計(jì)的對(duì)應(yīng)關(guān)系的性質(zhì)?!雹賀. Solomonoff, “A Formal Theory of Inductive Inference: Part I”, Information and Control, Vol. 7, No. 1, 1964, p. v.二進(jìn)制數(shù)碼形式的數(shù)據(jù)歸納之所以可以進(jìn)行概率計(jì)算,主要原因之一是二進(jìn)制數(shù)碼存在著前綴碼特征。所以,數(shù)據(jù)歸納就是利用二元數(shù)碼的前綴復(fù)雜性特征通過計(jì)算機(jī)遞歸操作進(jìn)行推理的方法。在形態(tài)上它可以歸為三個(gè)類型:“第一個(gè)是推斷字符串和/或數(shù)字的序列;第二個(gè)是推斷一組無序的字符串和/或數(shù)字;第三個(gè)是推斷一組無序的元素對(duì),這些元素可能是字符串 和/或數(shù)字。”②R. Solomonoff, “Three Kinds of Probabilistic Induction”, Computer Journal, Vol. 51, No. 5, 2008, pp. 566—570.受算法信息理論的支配,數(shù)據(jù)歸納的哲學(xué)特征可以具體化為以下幾個(gè)方面。
第一,多重解釋原理的數(shù)字化。多重解釋原理是古希臘晚期哲學(xué)家伊壁鳩魯重要的思想遺產(chǎn)。他在給匹索克勒的信中提到:對(duì)于研究自然來講,“如果一切都按照多重原因的方法來解釋,那么一旦我們適當(dāng)?shù)乜紤]了關(guān)于它們的合理說法,一切都會(huì)順利地進(jìn)行,并且符合現(xiàn)象。但是,每當(dāng)我們承認(rèn)一個(gè),卻又拒絕另一個(gè)與現(xiàn)象同樣一致的論點(diǎn)時(shí),很顯然我們完全放棄了對(duì)自然的研究從而陷入了神話之中”③Diogenes Laertius, Lives of the Eminent Philosophers, Book 10 (86,87,88), Pamela Mensch (trans.), Oxford: Oxford University Press, 2018.。伊壁鳩魯?shù)亩嘀亟忉屧硪酝皇且环N哲學(xué)理念,但在數(shù)據(jù)歸納中它卻成了計(jì)算的一個(gè)必要條件。當(dāng)經(jīng)驗(yàn)命題或科學(xué)觀察陳述轉(zhuǎn)化為二元數(shù)碼的數(shù)據(jù)形式時(shí),由于二元字符串存在著許多不同的組合,它的假說空間一定是多重的。出現(xiàn)的任何一種數(shù)據(jù)假說都是可能的,因此對(duì)它們的歸納操作必須滿足無差別原理。比如,一個(gè)字符串X=(0,1,00,01,……),我們通過前面已知的符號(hào)想了解未來的符號(hào)是什么。很顯然,000是其中的一個(gè)選項(xiàng),但是100011也是選項(xiàng),只是它們表達(dá)了不同的假說。通常對(duì)于一個(gè)n位的字符串Xn={0,1},不同的長度Xi(i<n)和Xj(j<n)本身就意味著不同的描述。從算法概率演算的角度講,只要我們對(duì)某一事件發(fā)生的條件不能夠做到充分了解,那么按照無差別原則或者不充分推理原則,不同的結(jié)論都是平權(quán)的。無差別原理的平權(quán)思想意味著凡是與數(shù)據(jù)一致的解決方案都是有意義的,從算法概率處理的角度把它們?nèi)苛粝隆?shù)據(jù)歸納的這一特征實(shí)際上是伊壁鳩魯多重解釋原理的數(shù)字化,它讓有意義的二元數(shù)碼形式都置于數(shù)據(jù)歸納條件下,成為數(shù)據(jù)歸納的無差別原理。
第二,奧卡姆剃刀原理的量化計(jì)算。奧卡姆剃刀原理通常也被稱為簡單性原理。在算法信息理論產(chǎn)生以前,它在科學(xué)推理過程中也僅僅是一個(gè)啟發(fā)性的哲學(xué)理念,并無定量形式。波普爾曾經(jīng)對(duì)奧卡姆剃刀原理給予負(fù)面評(píng)價(jià)。他認(rèn)為簡單性觀念一直在無批判地使用,好像簡單性是什么,為什么應(yīng)該是有價(jià)值的是理所當(dāng)然的。他明確地講:簡單性“這個(gè)概念尚未精確地加以確定”,因此“我不賦予‘簡單性’這個(gè)詞絲毫重要性”①波珀:《科學(xué)發(fā)現(xiàn)的邏輯》,查汝強(qiáng)、邱仁宗譯,北京:科學(xué)出版社1986年版,第111頁。。因?yàn)?,可證偽性可以替代它。但是,在數(shù)據(jù)歸納過程中,對(duì)于字符串Xn={0,1}存在著許多描述。假設(shè),di是Xn的第i個(gè)描述,整個(gè)di的二元數(shù)碼長度為Li,那么,根據(jù)0,1的隨機(jī)分布,通過貝葉斯定律計(jì)算整個(gè)字符串的概率分布就有:2-L(si),整體的概率為P(x)=。很顯然這個(gè)公式表示了二元數(shù)碼長度最短者具有高概率,直觀上這是奧卡姆剃刀原理的直接表現(xiàn)。所以,澳大利亞國立大學(xué)的著名教授赫特(M. Hutter)認(rèn)為,自從索洛莫洛夫、柯爾莫哥洛夫(Kolmogorov)和柴亭(G. J. Chaitin)建立算法復(fù)雜性理論以來,奧卡姆剃刀原理有了定量的表述。②Tor Lattimore & Marcus Hutter, “No Free Lunch versus Occam’s Razor in Supervised Learning”, in David L. Dowe (ed.), Algorithmic Probability and Friends: Bayesian Prediction and Artificial Intelligence, Berlin: Springer, 2013, p. 223.
第三,算法信息的復(fù)雜性。在數(shù)據(jù)歸納過程中,我們可以看到二元字符串長度最短者具有高概率性質(zhì),奧卡姆剃刀原理可以量化。但是,奧卡姆剃刀量化的合理性依賴于用二元數(shù)碼表征經(jīng)驗(yàn)命題時(shí)是否存在著這樣一個(gè)普遍的屬性。在數(shù)據(jù)歸納中,我們一般是用一個(gè)有限的二進(jìn)制字符串來描述一個(gè)給定的對(duì)象,如果一個(gè)對(duì)象至少存在一個(gè)簡短的描述,那么稱它為“簡單”的;如果它的所有描述都很長,那么稱它為“復(fù)雜”的。假如存在著一個(gè)最短的描述,那么從信息傳遞的代價(jià)上講它是最優(yōu)的??聽柲缏宸蛟诓恢浪髀迥宸蚬ぷ鞯那闆r下,從數(shù)學(xué)上獨(dú)立地處理了算法的復(fù)雜性問題。他證明了“對(duì)于一個(gè)任意已知x的客體y的‘相對(duì)復(fù)雜性’可以定義為用于從x獲得y的‘程序’P的最小長度L(P)”③Kolmogorov, “Three Approaches to the Quantitative Definition of Information”, in A. N. Shiryayev (ed.), Selected Works of A. N. Kolmogorov, Volume III, Information Theory and the Theory of Algorithms,Dordrecht: Springer,1993, pp. 184—193.??聽柲缏宸虻墓ぷ鞅砻鳎灰覀儼呀?jīng)驗(yàn)命題轉(zhuǎn)化為二元數(shù)碼形式,那么一定存在著一個(gè)最短的數(shù)碼描述形式。索洛莫洛夫是從算法概率理論,而柴亭從算法隨機(jī)性上證明了理論上最短的數(shù)碼描述形式是存在的,只是操作上存在困難。算法信息的復(fù)雜性表明數(shù)據(jù)歸納有著扎實(shí)的數(shù)學(xué)哲學(xué)根基。
哲學(xué)上數(shù)據(jù)歸納的合理性在一定程度上依賴于對(duì)休謨問題的解決力度。休謨?cè)陉U述歸納問題時(shí),提出這樣一些基本觀點(diǎn)。從邏輯屬性上看,歸納是一種概然的邏輯推理,而概然推理是建立于我們經(jīng)驗(yàn)過的那些對(duì)象與我們沒有經(jīng)驗(yàn)過的那些對(duì)象相互類似的假設(shè)上。從歸納過程看,歸納推理包含著對(duì)未曾經(jīng)驗(yàn)過的對(duì)象的預(yù)判,但是,“不可能有理證性的論證來證明:我們所沒有經(jīng)驗(yàn)過的例子類似于我們所經(jīng)驗(yàn)過的例子”①休謨:《人性論》上冊(cè),關(guān)文運(yùn)譯,北京:商務(wù)印書館1996年版,第107頁。。從人性論上講,人類的經(jīng)驗(yàn)總是有限的,我們只能假設(shè)卻永遠(yuǎn)不能證明,我們所經(jīng)驗(yàn)過的那些對(duì)象必然類似于我們所未曾經(jīng)驗(yàn)過的對(duì)象。所以在休謨看來,“任何對(duì)象單就其自身而論,都不含有任何東西,能夠給予我們以一個(gè)理由去推得一個(gè)超出它本身以外的結(jié)論;第二,即使在我們觀察到一些對(duì)象的常見的或恒常的結(jié)合以后,我們也沒有理由得出超過我們所經(jīng)驗(yàn)到的那些對(duì)象以外的有關(guān)任何對(duì)象的任何推論”②同上書,第161頁。。因?yàn)閷?duì)象之間的關(guān)系與觀念之間的關(guān)系是不同的,期望利用對(duì)象之間的關(guān)系來達(dá)到有關(guān)觀念之間關(guān)系的解釋是不可能的。但是,當(dāng)經(jīng)驗(yàn)命題轉(zhuǎn)化為二元數(shù)碼序列時(shí),休謨問題的解決出現(xiàn)了重大轉(zhuǎn)機(jī)。
數(shù)據(jù)歸納對(duì)休謨問題的解決方案是將歸納的邏輯屬性轉(zhuǎn)化為歸納的數(shù)學(xué)計(jì)算。因?yàn)閺挠邢迶?shù)據(jù)作為命題前提進(jìn)行邏輯推斷必然得到的邏輯結(jié)論超越了前提的知識(shí)范圍,所以在數(shù)據(jù)歸納過程中尋求數(shù)據(jù)命題之間的邏輯關(guān)系是不可取的。如果數(shù)據(jù)歸納是一個(gè)二元數(shù)碼的計(jì)算問題,那么歸納推理的邏輯過程就轉(zhuǎn)化為計(jì)算機(jī)的遞歸操作,同時(shí)人類的經(jīng)驗(yàn)的有限性也相應(yīng)地成為一個(gè)誤差問題。只要是計(jì)算機(jī)的遞歸操作符合邱奇—圖靈命題,也就是說,二元數(shù)碼的數(shù)據(jù)處于一個(gè)能行可計(jì)算的條件下,那么這個(gè)誤差隨著數(shù)據(jù)量的增加呈現(xiàn)收斂狀態(tài),甚至是出現(xiàn)趨零情況,那么休謨問題可以解決。索洛莫洛夫在晚年曾經(jīng)問柯爾莫哥洛夫的弟子萊昂納德·萊維(L. Levin),為什么柯爾莫哥洛夫沒有能夠從柯氏復(fù)雜性中直接發(fā)現(xiàn)數(shù)據(jù)歸納中的普遍概率分布,萊維的回答是,當(dāng)時(shí)他們認(rèn)為歸納不是個(gè)數(shù)學(xué)問題。③R. Solomonoff, “The Universal Distribution and Machine Learning”, The Computer Journal, Vol. 46, No. 6, 2003, p. 2.從索洛莫洛夫與萊維的對(duì)話中我們可以看到,在人工智能領(lǐng)域里,數(shù)據(jù)歸納現(xiàn)在被看成一個(gè)數(shù)學(xué)計(jì)算問題而不是一個(gè)邏輯問題。
如果休謨問題是一個(gè)計(jì)算問題,那么從有限數(shù)據(jù)作為命題前提到結(jié)論的得出必然依賴于貝葉斯定律的遞歸操作,而貝葉斯定律的運(yùn)用又會(huì)涉及先驗(yàn)概率的確定問題。所以,在數(shù)據(jù)歸納的計(jì)算處理過程中,休謨問題的解決就轉(zhuǎn)化為先驗(yàn)概率的確定問題。為了解決這個(gè)問題,歸納算法概率的先驅(qū)者在數(shù)據(jù)歸納的算法處理上尋求二進(jìn)制的編碼方法。索洛莫洛夫最初希望找到一個(gè)近似的概率分布,它和實(shí)際概率分布幾乎一致。于是,他“用數(shù)據(jù)字符串的最短描述長度和它可能的延續(xù)體來定義這個(gè)字符串的先驗(yàn)概率”①R. Solomonoff, “Inductive Inference Theory: A Unified Approach to Problems in Pattern Recognition and Artificial Intelligence”, in Proceedings of the Fourth International Joint Conference on Artificial Intelligence, Tbilisi, Georgia, U. S. S. R. 1975, pp. 274—280.。這個(gè)想法雖然很好,但有時(shí)面臨著誤差的發(fā)散現(xiàn)象,而萊昂納德·萊維則用前綴碼特性解決了這個(gè)問題。根據(jù)二進(jìn)制編碼的克拉夫特不等式,由前綴碼特性可以得到通用的先驗(yàn)概率分布。比如,對(duì)于特定圖靈機(jī)M來說,s是描述經(jīng)驗(yàn)對(duì)象的字符串,si是第i個(gè)字符輸入串,它的長度為L(si)位,那么隨機(jī)二進(jìn)制輸入是si的概率正好是2-L(si)。如果x是某個(gè)特定程序的輸出,那么輸出是x的概率是所有si的求和,即PM(x)= Σi2-L(si)。對(duì)于這個(gè)公式從直觀上可以看到,s不僅僅被視為抽象的二進(jìn)制字符串,而且也是表示真實(shí)世界的字符串。同時(shí),“具有短的和/或數(shù)字的‘描述’……的字符串賦有高的先驗(yàn)概率。具有長的和/或有些描述的字符串賦有小的先驗(yàn)概率”②R. Solomonoff, “A Formal Theory of Inductive Inference: Part I”.。也就是說,在數(shù)據(jù)的二元的數(shù)碼表達(dá)中最簡單的假說具有最短的描述,而且存在著一個(gè)通用的先驗(yàn)概率,它與觀察數(shù)據(jù)的語義無關(guān)。二元數(shù)碼中先驗(yàn)概率的存在的確是一個(gè)重要發(fā)現(xiàn),它解決了貝葉斯定律遞歸操作的可計(jì)算問題。加拿大滑鐵盧大學(xué)李明教授認(rèn)為,“后來許多數(shù)據(jù)歸納推理模型和原理都可以看作是算法概率理論的可計(jì)算近似”③Ming Li & Paul Vitányi, An Introduction to Kolmogorov Complexity and Its Applications, New York: Springer, 1993, p. 290.。
盡管先驗(yàn)概率的發(fā)現(xiàn)在解決休謨問題的途徑上邁出了關(guān)鍵的一步,但是在經(jīng)驗(yàn)命題轉(zhuǎn)化為二元數(shù)碼的數(shù)據(jù)形式時(shí),由于二元字符串會(huì)存在著許多不同的組合,計(jì)算機(jī)的遞歸操作還是面臨著何時(shí)可以判斷最終獲得了具有最短的二元代碼的“描述”問題。對(duì)于這個(gè)問題,柴亭認(rèn)為,一個(gè)由二元數(shù)碼構(gòu)成的形式化系統(tǒng),計(jì)算機(jī)自身是無法判斷何時(shí)可以中止遞歸操作。比如,對(duì)于一個(gè)二元數(shù)碼系列S,如果可以通過歸納找到P是S最短形式的程序,只要是可以進(jìn)行歸納,P就不是隨機(jī)性,那么一定存在著另一個(gè)程序P′比P短,它可以產(chǎn)生P。這樣就存在著一個(gè)算法程序,“從P′計(jì)算P,從P計(jì)算S”,它可以實(shí)現(xiàn)產(chǎn)生S。這個(gè)算法程序盡管比P′稍稍多幾位,但是卻說明了P不是最簡的程序。①G. J. Chaitin, Information, Randomness & Incompleteness: Papers on Algorithmic Information Theory, New York: World Scientific Publishing Co Pte Ltd, 1990, p. 17.柴亭的工作揭示了二元數(shù)碼的數(shù)據(jù)歸納存在著不完備性。哥德爾曾經(jīng)提出,一個(gè)完備的形式化系統(tǒng),任何相容的形式體系都不能用于證明它本身的相容性。圖靈也據(jù)此提出了一個(gè)本質(zhì)上自洽的計(jì)算系統(tǒng)一定存在著不可計(jì)算性,“停機(jī)問題”就是哥德爾定律的自然延伸。數(shù)據(jù)歸納體系中同樣存在著類似的問題,任何最簡的程序都是隨機(jī)性的,因此不可能編出一個(gè)程序自主判斷數(shù)碼的最短性。這樣,在休謨問題轉(zhuǎn)化為數(shù)學(xué)計(jì)算的過程中,一方面算法概率理論表明數(shù)據(jù)歸納存在著一個(gè)普遍的先驗(yàn)概率,最短的二元數(shù)碼長度具有高概率屬性,另一方面,計(jì)算機(jī)的遞歸操作由于形式系統(tǒng)存在著不完備性,因此又無法判定二元數(shù)碼長度何時(shí)為最短。所以,休謨問題本質(zhì)上是一個(gè)形式系統(tǒng)的完備性問題。
如果說數(shù)據(jù)歸納中的休謨問題本質(zhì)上是一個(gè)形式系統(tǒng)的完備性問題,那么休謨問題的哲學(xué)評(píng)價(jià)就變成一個(gè)如何理解數(shù)據(jù)歸納中存在著不完備性的哲學(xué)問題。
在理論層面上,數(shù)據(jù)歸納存在著不完備性意味著用二元數(shù)碼的形式系統(tǒng)處理歸納的理論體系是相容的,至少這個(gè)形式系統(tǒng)在具有前綴碼條件下具有數(shù)學(xué)意義上的科學(xué)性。事實(shí)上,索洛莫洛夫就用算法概率理論解決了“古德曼綠藍(lán)悖論”的新歸納問題。②R. Solomonoff, Does Algorithmic Probability Solve the Problem of Induction?, Oxbridge Research, P. O. B. 400404, Cambridge, Mass. 02140, 1997.所以,數(shù)據(jù)歸納過程中出現(xiàn)的不完備性與哥德爾不完備性定律、圖靈“停機(jī)問題”一樣,是一個(gè)關(guān)于形式化科學(xué)知識(shí)的限度問題。在經(jīng)驗(yàn)世界中,只要人類利用計(jì)算機(jī)去研究真實(shí)現(xiàn)象,那么這種研究一旦轉(zhuǎn)化為數(shù)據(jù)形式就會(huì)存在某種不可計(jì)算性的問題。這種現(xiàn)象并不是說經(jīng)驗(yàn)世界本身存在著關(guān)于可知和不可知的限度問題,而是形式化的模型世界存在著限度問題。于是,我們利用計(jì)算機(jī)進(jìn)行數(shù)據(jù)歸納就存在著方法論上的兩難困境:一方面,我們不得不利用計(jì)算機(jī)來處理大量數(shù)據(jù);另一方面,只要我們對(duì)數(shù)據(jù)進(jìn)行歸納處理,更進(jìn)一步說,處理形式化的經(jīng)驗(yàn)世界,又必然存在著不可計(jì)算性現(xiàn)象。這樣一個(gè)困境意味著數(shù)據(jù)歸納中休謨問題的解決還存在著一個(gè)操作上的合理性問題。
實(shí)踐中的任何一個(gè)歸納問題在被轉(zhuǎn)化為計(jì)算機(jī)處理時(shí),總是通過特定的預(yù)測(cè)模型來進(jìn)行的。美國著名經(jīng)濟(jì)學(xué)家和復(fù)雜系統(tǒng)思想家布萊恩·阿瑟(W. B. Arthur)在解決“埃爾法羅爾問題”(The El Farol Problem)時(shí)通過計(jì)算機(jī)實(shí)驗(yàn)得出一個(gè)基本結(jié)論:只要在預(yù)測(cè)模型合理的條件下,計(jì)算機(jī)操作時(shí)間足夠長,那么歸納的結(jié)果就會(huì)趨于一個(gè)理性的閥值。①W. B. Arthur,“ Inductive Reasoning and Bounded Rationality: The El Farol Problem”, in W. B. Arthur, Complexity and the Economy, Oxford: Oxford University Press, 2015, pp. 30—38.也就是說,在實(shí)踐中數(shù)據(jù)歸納的合理性就是指合理地解決預(yù)測(cè)模型下計(jì)算機(jī)的遞歸操作。所謂遞歸操作,就是在給予任意序列的數(shù)據(jù)情況下尋求一個(gè)合理的、輸出最短而又可以產(chǎn)生此數(shù)據(jù)的程序,它是一個(gè)半計(jì)算的理論問題。盡管布萊恩·阿瑟的實(shí)驗(yàn)結(jié)果是客觀的,但是計(jì)算機(jī)操作中休謨問題的核心困難并不是能否作出歸納推斷,而是依據(jù)已知的二元數(shù)碼能否判斷未來二元數(shù)碼命題的真假。這里既涉及對(duì)數(shù)據(jù)歸納推理和數(shù)據(jù)歸納解釋的本質(zhì)理解,也涉及對(duì)算法概率的處理究竟持客觀主義哲學(xué)立場(chǎng)還是持主觀主義哲學(xué)立場(chǎng)的問題。
卡爾納普曾經(jīng)提出:“從一個(gè)樣本到另一個(gè)樣本的推斷被稱為預(yù)言推斷”,預(yù)言推斷在邏輯上必須依賴于前一個(gè)樣本的確證度,因此“預(yù)言推斷是最重要的歸納推斷”②R. Carnap, Logical Foundations of Probability, pp. 85—86.。按照卡爾納普的這個(gè)想法,索洛莫洛夫認(rèn)為,在二元數(shù)碼的數(shù)據(jù)處理中,“借助于歸納推理,我的意思是指一個(gè)過程,它包含了對(duì)許多現(xiàn)象的觀察和一般規(guī)律的公式化,這些規(guī)律描述了所有觀察事例中那些特殊部分之間的關(guān)系。當(dāng)一般規(guī)律被發(fā)現(xiàn)了,就可以利用已經(jīng)被觀察到的那部分?jǐn)?shù)據(jù)來預(yù)測(cè)同一類現(xiàn)象中那些未被觀察到的部分。歸納推理的通常形式是預(yù)言”③R. Solomonoff, “The Mechanization of Linguistic Learning”, Proceedings of the Second International Congress on Cybernetics, Namur, Belgium, 1958, pp. 180—193.。比如,假設(shè)x是一個(gè)長度|x| =n的有限二元字符串,y是未來的數(shù)據(jù)字符串,那么在特定的圖靈機(jī)條件下從概率理論上講,緊隨x的未來二元數(shù)據(jù)字符串為1而不是為0的概率應(yīng)該是:p(x1)/p(x0)+p(x1)。這樣,通過不斷遞歸計(jì)算,整個(gè)未來數(shù)據(jù)字符串的概率應(yīng)該收斂為:P(y|x)=P(xy)/p(x)。索洛莫洛夫的這個(gè)想法得到谷歌旗下深思(DeepMind)公司高級(jí)研究員哈特(M. Hutter)的支持。哈特明確地講:在數(shù)據(jù)推理中,“歸納法就是從過去預(yù)測(cè)未來的過程,或者更準(zhǔn)確地說,是在過去的數(shù)據(jù)中尋找規(guī)則并使用這些規(guī)則來猜測(cè)未來數(shù)據(jù)的過程”,所以,“歸納法也可以被更廣泛地理解為包括對(duì)某些給定數(shù)據(jù)得出結(jié)論的過程,甚至包括預(yù)測(cè)未來的過程”④M. Hutter, “New Error Bounds for Solomonoff Prediction”, Journal of Computer and System Sciences, 2001, pp. 653—667.。算法概率理論就是通過后繼數(shù)據(jù)提升先驗(yàn)概率的可靠性,從而增強(qiáng)對(duì)某一數(shù)據(jù)實(shí)體所作假設(shè)的置信程度。這種觀點(diǎn)本質(zhì)上是對(duì)數(shù)據(jù)歸納持主觀主義的哲學(xué)立場(chǎng)。索洛莫洛夫明確講:“在ALP中,主觀性發(fā)生在‘參照物’的選擇上——通用圖靈機(jī)或通用計(jì)算語言”,“很明顯算法概率的主觀性是必然特征,它保證智能系統(tǒng)把過去的經(jīng)驗(yàn)合并到解決未來問題的技術(shù)中去”①R. Solomonoff, “Algorithmic Probability—Its Discovery—Its Properties and Application to Strong AI”, in Hector Zenil (ed.),Randomness Through Computation: Some Answers, More Questions, New York: World Scientific Publishing Co. Pte. Ltd, 2011, p. 153.。從現(xiàn)代人工智能理論的發(fā)展來看,對(duì)數(shù)據(jù)的概率處理持主觀主義的哲學(xué)立場(chǎng)也許更加有利于實(shí)踐中對(duì)休謨問題的合理性解決。
基于概率的主觀主義哲學(xué)立場(chǎng),二元數(shù)碼的概率計(jì)算中貝葉斯定律的運(yùn)用實(shí)際上就是在數(shù)據(jù)D中把所有的可能假說H構(gòu)成一個(gè)樣本空間,并且假設(shè)其中至少有一個(gè)假說Hi為真。如果我們知道先驗(yàn)概率P(Hi),那么通過條件概率P(D| Hi)可以算出數(shù)據(jù)D的后驗(yàn)概率P(Hi|D)。事實(shí)上,如果歸納推理僅僅停留在這一步,那么后驗(yàn)概率總是邏輯地被條件概率所蘊(yùn)含,這樣休謨歸納問題是得不到解決的。但是,貝葉斯定律的目的是解決從所觀察的數(shù)據(jù)中推測(cè)未來發(fā)生的數(shù)據(jù),并且不斷進(jìn)行遞歸操作。所以,在歸納推理中貝葉斯定律應(yīng)該是一個(gè)連續(xù)應(yīng)用的過程,后驗(yàn)概率在隨之而來的經(jīng)驗(yàn)判斷中不斷地得到確證度的提升??梢娫跀?shù)據(jù)的遞歸操作中運(yùn)用貝葉斯定律進(jìn)行歸納推理的過程,實(shí)際上蘊(yùn)含著對(duì)未來的一種預(yù)言。從這個(gè)意義上講,數(shù)據(jù)歸納如果不考慮主觀信念的變化,那么它只能是一種歸納推斷;如果數(shù)據(jù)歸納包含著主觀信念的變化,那么它應(yīng)該是包含著預(yù)言的歸納推理。這樣,在包含著數(shù)據(jù)預(yù)言的歸納推理中,休謨問題在實(shí)踐中只是一個(gè)計(jì)算機(jī)遞歸操作的誤差問題。只要這個(gè)誤差趨于收斂狀態(tài),休謨問題解決的實(shí)踐合理性就是可以理解的。
從算法概率理論對(duì)休謨問題的解決中我們可以看到,數(shù)據(jù)歸納提出了科學(xué)解釋的新的基本要求。在傳統(tǒng)的科學(xué)哲學(xué)理論體系中,盡管科學(xué)解釋的模型很多,但是共同的要求是被解釋語句能夠通過解釋語句之間的邏輯關(guān)系得到必然性的說明,從而讓人們更加明白或者理解。然而在數(shù)據(jù)歸納推理中,由于研究對(duì)象通過二進(jìn)制語言的映射轉(zhuǎn)化為形式化語言,因此當(dāng)我們直接面對(duì)數(shù)據(jù)時(shí)如何讓數(shù)據(jù)更加明白或者能夠理解就成為一個(gè)新的解釋問題。在數(shù)據(jù)沒有轉(zhuǎn)化為二元數(shù)碼前,如果它存在著一個(gè)先驗(yàn)概率的前提,那么通過演繹數(shù)據(jù)能夠得到很好的解釋。但是,科學(xué)研究常常面臨的是海量數(shù)據(jù)。在海量數(shù)據(jù)面前,數(shù)據(jù)的先驗(yàn)前提或者先驗(yàn)命題不能預(yù)先知道,或者根本就不存在,數(shù)據(jù)演繹解釋就無法進(jìn)行。當(dāng)數(shù)據(jù)轉(zhuǎn)化為二元數(shù)碼形式后,由于前綴碼導(dǎo)致先驗(yàn)概率的存在,理論上可以進(jìn)行數(shù)據(jù)的歸納解釋。當(dāng)然,這種解釋同時(shí)又受制于二元數(shù)碼的不完備性。所以,澳大利亞計(jì)算機(jī)科學(xué)家和物理學(xué)家華萊士(C. S. Wallace)講:“我們可以這樣來看一組數(shù)據(jù)的解釋,即在已知一組相對(duì)小的前提下,數(shù)據(jù)并非出乎意料。‘并非出乎意料’,我們的意思是前提要么暗示數(shù)據(jù)命題,或者更普遍地說,暗示接近數(shù)據(jù)?!雹贑. S. Wallace, Statistical and Inductive Inference by Minimum Message Length, New York: Springer, 2005, p. 14.數(shù)據(jù)歸納推理中的數(shù)據(jù)解釋就是對(duì)研究的數(shù)據(jù)給出一個(gè)或者更多的新的前提,然后通過計(jì)算機(jī)的遞歸操作不斷地去證明這些新的前提暗示或者暗示接近數(shù)據(jù)。
在計(jì)算機(jī)的遞歸操作中,由于經(jīng)驗(yàn)命題都轉(zhuǎn)化為二進(jìn)制語言,因而數(shù)據(jù)歸納解釋只能通過數(shù)據(jù)編碼位之間的概率關(guān)系以及長度來進(jìn)行。假設(shè)一個(gè)二元字符串是基于特定假說H和編碼方式D構(gòu)成,P(H)是假說H的先驗(yàn)概率;P(D| H)是已知假說H條件下的數(shù)據(jù)概率;P(H| D)是已知數(shù)據(jù)D條件下的后驗(yàn)概率;P(D)是數(shù)據(jù)的邊際概率;那么數(shù)據(jù)產(chǎn)生的概率為:P(H| D)=P(H∧ D)/P(D)。根據(jù)貝葉斯定律:P(H∧ D)/P(D)=P(H)P(D| H)/P(D),這樣,所謂在數(shù)據(jù)歸納中選擇最可能的后驗(yàn)假說就是選擇先驗(yàn)假說H使得P(H| D)最大。根據(jù)申農(nóng)的信息理論,選擇先驗(yàn)假說H使得P(H| D)最大等價(jià)于選擇先驗(yàn)假說H使得-[logP(H)+ log(D| H)]最小。這個(gè)信息量告訴我們,并非單一的P(H)或者P(D| H)的對(duì)數(shù)值最小,而是要求兩者之和最小。由此我們可以把數(shù)據(jù)體的信息解釋包括兩部分。第一個(gè)是解釋所有從歸納導(dǎo)出前提的那些陳述,包括這些前提中假設(shè)的數(shù)量的數(shù)值。這部分利用前綴碼特性往往可以構(gòu)造成一個(gè)近似遞歸函數(shù)來得到解釋。第二個(gè)是解釋數(shù)據(jù)所有細(xì)節(jié)的陳述,而這些細(xì)節(jié)往往又不能從歸納前提和其他已知的、可接受的、沒有問題的前提的組合中演繹出來。這部分可以從近似遞歸函數(shù)中得到的先驗(yàn)概率進(jìn)行外推。一般來講,一個(gè)數(shù)據(jù)形式比另一個(gè)數(shù)據(jù)形式要好意味著前者蘊(yùn)含的信息量更大。在申農(nóng)的信息論中,信息量是用編碼位長度來定義的。所以,按照申農(nóng)的信息量含義,最短長度的數(shù)據(jù)應(yīng)該是最可能的數(shù)據(jù)形式。這樣我們能夠從信息論上作出哲學(xué)判斷,對(duì)數(shù)據(jù)最好的歸納解釋就是給出最短的解釋信息,從數(shù)據(jù)中得出的最佳歸納推理就是最短解釋信息中使用的推理。換句話講,解釋信息的長短性是對(duì)數(shù)據(jù)歸納解釋能力的衡量。
從上面數(shù)據(jù)歸納的哲學(xué)分析中,我們可以看到休謨問題在實(shí)踐層面上是計(jì)算機(jī)操作過程中半計(jì)算的合理性問題,技術(shù)上反映的是算法能否不斷優(yōu)化的哲學(xué)問題。但是,算法優(yōu)化面臨著“沒有免費(fèi)的午餐”定律(no-free-lunch theorem,簡稱NFL定律)的認(rèn)識(shí)論制約。美國著名的計(jì)算機(jī)科學(xué)家D. H.伍爾伯特(D. H. Wolpert)和他的合作者麥克雷迪(W. G. Macready)在1995年和1997年相繼發(fā)表了兩篇關(guān)于NFL定律的奠基性文章,并在2006年的文獻(xiàn)中作了更加通俗的解釋。他們認(rèn)為:“對(duì)于靜態(tài)的和依賴于時(shí)間的優(yōu)化問題,任意一對(duì)算法在所有可能問題中的平均性能是相同的。這尤其意味著,在某些優(yōu)化問題集上,如果一些算法A1的性能優(yōu)于另一些算法A2的性能,那么對(duì)于所有其他優(yōu)化問題集也是如此”①D. H. Wolpert & W. G. Macready, “No Free Lunch Theorems for Optimization”,IEEE Transactions on Evolutionary Computation, Vol. 1, 1997, pp. 67—82.,“除非你能在看到任何數(shù)據(jù)d之前有先驗(yàn)的條件,生成數(shù)據(jù)d的(函數(shù))f是你最喜歡的算法,是比其他算法性能更好的算法之一,否則你不能保證這個(gè)算法比純粹的隨機(jī)猜測(cè)的算法性能更好”①D. H. Wolpert, “The Bayesian and Computational Learning Theories”, in L. Nadel (ed.), Encyclopedia of Cognitive Science, Hoboken NJ: Wiley, 2006, pp. 4—5.。 NFL定律實(shí)際上從認(rèn)識(shí)論上進(jìn)一步揭示了數(shù)據(jù)的歸納推理,特別是在大數(shù)據(jù)條件下只有針對(duì)特定形式的數(shù)據(jù)作出了正確的先驗(yàn)假設(shè),數(shù)據(jù)歸納推理才是正確的。哈特與他的合作者曾經(jīng)證明,在二元數(shù)碼存在著前綴碼條件下,由于存在著普遍先驗(yàn)概率,“沒有免費(fèi)的午餐”定律在算法概率的歸納推理中不成立。但是,在大數(shù)據(jù)條件下,特別是在眾多因素纏繞的情況下,二元數(shù)碼的歸納推理面臨的數(shù)據(jù)可能并不存在著一個(gè)前綴碼特征。即使利用華萊士的最小信息長度原理或者里薩寧(J. Rissanen)的最小描述長度的統(tǒng)計(jì)方法也無法徹底做到萬無一失的推理,因?yàn)閿?shù)據(jù)假說的簡單性和數(shù)據(jù)編碼的擬合優(yōu)度之間有一個(gè)平衡。所以,在大數(shù)據(jù)條件下如果不存在著前綴碼條件,認(rèn)識(shí)論上由于存在著NFL定律,數(shù)據(jù)歸納事實(shí)上并不存在著一個(gè)普遍的方法論準(zhǔn)則,它可以解決所有函數(shù)類型的歸納推理。通俗一點(diǎn)講,在海量數(shù)據(jù)面前,數(shù)據(jù)歸納只能做到一事一議。在這種條件下,數(shù)據(jù)歸納推理如果輔以數(shù)據(jù)溯因推理可能更加有效。
當(dāng)然,受到“沒有免費(fèi)的午餐”定律的影響,數(shù)據(jù)歸納還存在著其他一些開放性的問題。比如,二進(jìn)制字符串是否能夠正確地表征經(jīng)驗(yàn)對(duì)象。這里至少包含著兩個(gè)相互關(guān)聯(lián)的基本問題:一個(gè)是數(shù)據(jù)的語法與語義的關(guān)系問題;另一個(gè)是柯爾莫哥洛夫算法復(fù)雜性與概率公理問題。對(duì)于第一個(gè)問題,索洛莫洛夫就講過:“映射技術(shù)尤其糟糕,它忽略了重要的真實(shí)世界信息。每當(dāng)我們?yōu)檎降姆治龊皖A(yù)測(cè)制定一個(gè)真實(shí)世界的問題時(shí),幾乎總是需要省略信息。這是因?yàn)槲覀兊氖澜绶浅?fù)雜,包含了大量的信息。”②R. Solomonoff, “Inductive Inference Research Status Spring 1967”, RTB 154, Rockford Research, Inc. 140 1/2 Mt. Auburn St., Cambridge, Mass. 02138, July 1967.所以,數(shù)據(jù)的歸納推理可能繞不開語義問題。對(duì)于第二個(gè)問題,D-S證據(jù)理論的創(chuàng)始人之一謝弗(G. Shafer)提出,當(dāng)在不確定性數(shù)據(jù)的概率推理中要考慮語義時(shí),伊壁鳩魯?shù)亩嘀亟忉屍綑?quán)思想不可取,置信概率具有非加和屬性。③G. Shafer,“ Non-Additive Probabilities in the Work of Bernoulli and Lambert”, in R. R. Yager & Liping Liu(eds.) Classic Works of the Dempster-Shafer Theory of Belief Functions, New York: Springer, 2008, pp. 117—181.也就是說,柯爾莫哥洛夫概率的第三公理是不成立的。盡管這些問題已經(jīng)超出算法信息理論的范圍,但是從科學(xué)方法論上合理地解決這些問題,數(shù)據(jù)歸納的實(shí)踐合理性將得到更加有效的提升。