王文平 朱春浩
(武漢船舶職業(yè)技術(shù)學(xué)院公共課部,湖北武漢 430050)
設(shè)有n個數(shù)a1,a2,…,an,要找一個數(shù)x反映這組數(shù)的總的情況,我們希望x和這n個數(shù)的偏差x-a1,x-a2,…,x-an在總體上說來盡可能地小。
對于二維情形,已知兩點(x1,y1),(x2,y2)可確定一條直線y=a+bx,這只需將兩點坐標(biāo)代入直線方程,解出a,b即可。將兩點推廣到n個點(x1,y1),(x2,y2),…,(xn,yn),如何確定線性回歸直線呢?
1805年,法國數(shù)學(xué)家勒讓德在研究天文學(xué)和測地學(xué)處理數(shù)據(jù)時最先發(fā)明最小二乘法,但因不為世人所知而默默無聞。高斯使用的最小二乘法的方法發(fā)表于1809年他的著作《天體運動論》中,后來高斯等數(shù)學(xué)家對最小二乘法進行了大量的理論研究和應(yīng)用,在統(tǒng)計學(xué)中發(fā)揮著重要的作用,是十九世紀(jì)統(tǒng)計學(xué)的“中心主題”。正如美國統(tǒng)計史學(xué)家斯蒂格勒(S.M.Stigler)所說:“最小二乘法之于數(shù)理統(tǒng)計學(xué)猶于微積分之于數(shù)學(xué)”[1]。
勒讓德(A.M.Legendre,1752-1833)是法國軍事學(xué)校的教授,曾任多屆政府委員,后來成了多科工藝學(xué)校的總監(jiān),直至1833年逝世。他一直保持熱情而有規(guī)律的數(shù)學(xué)研究工作,由于解決了許多類型的的問題,其名字常存于許多定理之中。數(shù)學(xué)史家克萊因(M.Kline,1908-1992)認為勒讓德之所以名列拉格朗日(J.L.Lagrange,1736-1813)、拉普拉斯、蒙日(G.Monge,1746-1818)之后,是因為其工作不如這三人深刻。盡管勒讓德的工作引起許多重要理論的產(chǎn)生,但這只是在他的研究成果被更強有力的思想接受后才實現(xiàn)的,最小二乘法就是一個典型實例。
最小二乘法最早出現(xiàn)在勒讓德1805年發(fā)表的論著《計算彗星軌道的新方法》附錄中。該附錄占據(jù)了這本80頁小冊子的最后9頁,在前面關(guān)于衛(wèi)星軌道計算的討論中沒有涉及最小二乘法,可以推測他當(dāng)時感到這一方法尚不成熟。勒讓德在該書72-75頁描述了最小二乘法的思想、具體做法及其優(yōu)點。以引進這種方法的理由為開端:“所研究的大多數(shù)問題都是由觀測值來確定其結(jié)果,但這幾乎總產(chǎn)生形如E=a+bx+cy+fz+…方程的方程組,其中a,b,c,f,… 是已知系數(shù),它們從一個方程到另一個方程是有變動的。x,y,z,…是未知的,它們必須根據(jù)將每個方程E化為0或很小的量來確定”[2]。用現(xiàn)代術(shù)語可描述為,一個n未知量m個方程的線性方程組(m>n),
尋找“最佳”近似解,以使所有Ej都變小。勒讓德認為:“賦予誤差的平方和為極小,則意味著在這些誤差間建立了一種均衡性,它阻止了極端情形所施加的過分影響。這非常好地適用于揭示最接近真實情形的系統(tǒng)狀態(tài)”[3]。
為了確定誤差平方的最小值,勒讓德運用了微積分工具。即為使平方和
在xi變動時有最小值,則它對xi的偏導(dǎo)數(shù)必為0。由此得如下線性方程組
這樣,就得到一含有n個未知量n個方程的線性方程組,用“現(xiàn)成的方法”是可以解出的。
關(guān)于最小二乘法的優(yōu)點,勒讓德指出以下幾條:
(1)通常的算術(shù)平均值是其特例。即n=1,aj1=-1時,令bj=aj0,則誤差的平方和為
對其求關(guān)于X的偏導(dǎo)數(shù),則使此和極小的方程是
它正是m個觀測值的算術(shù)平均值。
(2)如果觀測值全部嚴(yán)格符合某一方程組的要求,則此解必是最小二乘法的解。
(3)如果舍棄或增加觀測值,則修改所得方程組即可。
勒讓德的成功在于他從一個新的角度來看待這個問題,不像其前輩那樣致力于找出幾個方程(個數(shù)等于未知數(shù)的個數(shù))再去求解,而是考慮誤差在整體上的平衡。從某種意義講,最小二乘法是一個處理觀測值的純粹代數(shù)方法。要將其應(yīng)用于統(tǒng)計推斷問題就需要考慮觀測值的誤差,確定誤差分布的函數(shù)形式。
德國慕尼黑博物館的高斯(C.F.Gauss,1777-1855)油畫像下寫有:“他的思想深入數(shù)字、空間、自然的最深秘密,他測量星體的路徑及地球的形狀和自然力,他推動了數(shù)學(xué)的進展直到下個世紀(jì)。”的確,高斯是“能以九霄云外的高度按照某種觀點掌握星空和深奧數(shù)學(xué)的天才?!庇烧龖B(tài)分布的導(dǎo)出可對高斯創(chuàng)造性思維略見一斑。
1809年,高斯發(fā)表論著《天體運動理論》。在該書末尾,他寫了一節(jié)有關(guān)“數(shù)據(jù)結(jié)合”的問題,以極其簡單的手法導(dǎo)出誤差分布——正態(tài)分布,并用最小二乘法加以驗證。關(guān)于最小二乘法,高斯宣稱自1795年以來他一直使用這個原理。這立刻引起了勒讓德的強烈反擊,他提醒說科學(xué)發(fā)現(xiàn)的優(yōu)先權(quán)只能以出版物確定,并嚴(yán)斥高斯剽竊了他人的發(fā)明。他們間的爭執(zhí)延續(xù)了多年,因而,這兩位數(shù)學(xué)家之間關(guān)于優(yōu)先權(quán)的爭論,在數(shù)學(xué)史上的知名度僅次于牛頓和萊布尼茲之間關(guān)于微積分發(fā)明權(quán)的爭論?,F(xiàn)在一般認為,二人各自獨立地發(fā)明了最小二乘法,盡管早在10年前,高斯就使用這個原理,但第一個用文字形式發(fā)表的是勒讓德。高斯較之于勒讓德把最小二乘法推進得更遠,他由誤差函數(shù)推導(dǎo)出這個方法并詳盡闡述了最小二乘法的理論依據(jù)。
其推導(dǎo)過程如下[4]:
設(shè)誤差密度函數(shù)為f(x),真值為x,n個獨立測定值為x1,x2,…,xn,由于觀測是相互獨立的,因而這些誤差出現(xiàn)的概率為
再對此式求導(dǎo)
即正態(tài)分布 N(0,σ2)。
這樣可知(x1,x2,…,xn)的誤差密度函數(shù)為
要使此式達到極大值,必須選取x1,x2,…,xn之值而使表達式達極小值。于是,可得x1,x2,…,xn的最小二乘法估計。
在推證過程中,高斯創(chuàng)新之處:用逆向思維來思考這個問題,即先承認算術(shù)平均值是所求的估計,即“如果在相同的環(huán)境和相等的管理下對任一個量經(jīng)由多次直接觀測確定,則這些觀測的算術(shù)平均值是最希望要的值”。這是高斯大膽采用了人們千百年來的實際經(jīng)驗,實為高斯之獨創(chuàng)性思維。這也正如他所說:“數(shù)學(xué),要有靈感,必須接觸現(xiàn)實世界”。
最小二乘法在十九世紀(jì)初發(fā)明后,很快得到歐洲一些國家的天文學(xué)家和測地學(xué)家的廣泛關(guān)注。據(jù)不完全統(tǒng)計,自1805年至1864年的60年間,有關(guān)最小二乘法的研究論文達256篇,一些百科全書包括1837年出版的大不列顛百科全書第7版,亦收入有關(guān)方法的介紹。同時,誤差的分布是“正態(tài)”的,也立刻得到天文學(xué)家的關(guān)注及大量經(jīng)驗的支持。如貝塞爾(F.W.Bessel,1784-1846)對幾百顆星球作了三組觀測,并比較了按照正態(tài)規(guī)律在給定范圍內(nèi)的理論誤差值和實際值,對比表明它們非常接近一致[5]。拉普拉斯在1810年也給出了正態(tài)規(guī)律的一個新的理論推導(dǎo)并寫入其《分析概率論》中。正態(tài)分布作為一種統(tǒng)計模型,在十九世紀(jì)極為流行,一些學(xué)者甚至把十九世紀(jì)的數(shù)理統(tǒng)計學(xué)稱為正態(tài)分布的統(tǒng)治時代。在其影響下,最小二乘法也脫出測量數(shù)據(jù)意義之外而發(fā)展成為一個包羅極大,應(yīng)用極其廣泛的統(tǒng)計模型。到二十世紀(jì)正態(tài)小樣本理論充分發(fā)展后,高斯研究成果的影響更加顯著。
綜上可知,勒讓德和高斯發(fā)現(xiàn)最小二乘法是從不同的角度入手的:一個是為解線性方程組,一個是尋找誤差函數(shù);一個用的是整體思維,考慮方程組的均衡性,一個用的是逆向思維,首先接受經(jīng)驗事實;一個是純代數(shù)方法,一個致力于應(yīng)用。相比而言,高斯不愧為數(shù)學(xué)王子,他把最小二乘法推進得更遠、更深刻,這極大地推動了數(shù)理統(tǒng)計學(xué)的發(fā)展[6]。
1 H.O.Lancaster.Encyclopedia of Statistical Science[M].New York:John Wiley and Sons Inc,1988.
2 R.A.Plackett.The Discovery of the Method of Least Squares[J].Biometrika,1972(59):239-251.
3 S.M.Stigler.The History of Statistics[M].Cambridge:Havard University Press,1986.
4 W.C.Waterhouse.Gauss’s First Argument for Least Squares[J].Archive for History of Exact Science,1991(41):41-52.
5 J.K.Victor著,李文林譯.數(shù)學(xué)史通論[M].北京:高等教育出版社,2004.
6 賈小勇等.最小二乘法的創(chuàng)立及其思想方法[J].西北大學(xué)學(xué)報(自然科學(xué)版),2006(3):507-511.
7 于忠義.高斯與觀測誤差分布的發(fā)現(xiàn)[J].統(tǒng)計與信息論壇,2006(6):28-30.
8 朱春浩.簡明概率論學(xué)術(shù)史綱要[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報,2010(5):103-107.
9 朱春浩.概率論思想方法的歷史研究[M].四川:電子科技大學(xué)出版社,2007.
10 朱春浩.最小一乘法與最小二乘法:歷史與差異[J].統(tǒng)計與決策,2007(6):9-10.
11 朱春浩.正態(tài)分布與統(tǒng)計學(xué)的關(guān)系史研究[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報,2010(6):117-122.
12 朱春浩.極大似然估計:蘭伯特與丹尼爾·伯努利[J].武漢船舶職業(yè)技術(shù)學(xué)院學(xué)報,2011(1):105-110.