楊展銘
【摘 要】 線性回歸引發(fā)了作者對(duì)數(shù)據(jù)分析的思考,原來數(shù)學(xué)與實(shí)際生活的聯(lián)系如此密切。盡管數(shù)學(xué)的對(duì)象是純由邏輯混亂和創(chuàng)造力產(chǎn)生的,但在生活中到處都可以發(fā)現(xiàn)數(shù)學(xué)模型對(duì)我們的影響。在如今的大數(shù)據(jù)時(shí)代下,對(duì)數(shù)學(xué)的學(xué)習(xí)帶領(lǐng)著我進(jìn)入一個(gè)廣闊而又奇妙的世界。
【關(guān) 鍵 詞】 線性回歸;數(shù)學(xué);模型;教學(xué)
很多人認(rèn)為數(shù)學(xué)是一門嚴(yán)格的一成不變的課程,任何事情都不能脫離事實(shí)。人類的大腦不斷地創(chuàng)造著數(shù)學(xué)思想和獨(dú)立于我們世界的迷人的新世界。某一維中的對(duì)象是如何消失在另一維中的,任何兩點(diǎn)之間怎么總能找到一個(gè)新的點(diǎn),數(shù)是怎樣運(yùn)算的,方程是怎樣解出的,坐標(biāo)如何產(chǎn)生圖像,如何用無窮解題,公式如何生成——所有這些似乎都具有一種奇妙的性質(zhì)。正是這種奇妙和它對(duì)智力的挑戰(zhàn)讓我感受到了數(shù)學(xué)的趣味,帶領(lǐng)著我去不斷探究它的魅力。
線性回歸模型進(jìn)行的是輸出值的預(yù)測(cè)問題,那么如果因變量不是連續(xù)變量甚至不是數(shù)值呢?我查閱了資料后發(fā)現(xiàn)廣義線性模型中還有一種回歸叫作Logistic回歸,logistic回歸(Logistic regression)與線性回歸實(shí)際上有很多相同之處,最大的區(qū)別就在于他們的因變量不同。logistic回歸分析,主要在流行病學(xué)中應(yīng)用較多,比較常用的情形是探索某疾病的危險(xiǎn)因素,根據(jù)危險(xiǎn)因素預(yù)測(cè)某疾病發(fā)生的概率等等。例如,想探討胃癌發(fā)生的危險(xiǎn)因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,為兩分類變量,自變量就可以包括很多了,如年齡、性別、飲食習(xí)慣、幽門螺桿菌感染等。自變量既可以是連續(xù)的,也可以是分類的。通過logistic回歸分析,就可以大致了解到底哪些因素是危險(xiǎn)因素。
考慮二分類Logistic回歸,假設(shè)輸出標(biāo)記y屬于0或1,而線性回歸模型產(chǎn)生的預(yù)測(cè)值是一個(gè)實(shí)值,需要將它轉(zhuǎn)化為0或1。在Logistic回歸模型中,使用的轉(zhuǎn)化函數(shù)是sigmoid函數(shù),如下圖所示:
回歸的實(shí)質(zhì)是發(fā)生概率除以沒有發(fā)生概率再取對(duì)數(shù)。就是這個(gè)不太煩瑣的變換改變了取值區(qū)間的矛盾和因變量自變量間的曲線關(guān)系。究其原因,是發(fā)生和未發(fā)生的概率成為了比值 ,這個(gè)比值就是一個(gè)緩沖,將取值范圍擴(kuò)大,再進(jìn)行對(duì)數(shù)變換,整個(gè)因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關(guān)系,這是根據(jù)大量實(shí)踐而總結(jié)。所以,Logistic回歸從根本上解決因變量要不是連續(xù)變量怎么辦的問題。還有,Logistic應(yīng)用廣泛的原因是許多現(xiàn)實(shí)問題跟它的模型吻合。例如一件事情是否發(fā)生跟其他數(shù)值型自變量的關(guān)系。Logistic回歸是直接對(duì)分類可能性進(jìn)行建模,無須事先假設(shè)數(shù)據(jù)分布,這樣就避免了假設(shè)分布不準(zhǔn)確性所帶來的問題。
線性回歸引發(fā)了我對(duì)數(shù)據(jù)分析的思考,原來數(shù)學(xué)與實(shí)際生活的聯(lián)系如此密切。在如今的大數(shù)據(jù)時(shí)代下,對(duì)數(shù)學(xué)的學(xué)習(xí)帶領(lǐng)著我進(jìn)入一個(gè)廣闊而又奇妙的世界。
【參考文獻(xiàn)】
[1] 李元章,何春雄. 線性回歸模型應(yīng)用及判別[M]. 廣州:華南理工大學(xué)出版社,2016.
[2] 威廉·巴里. 線性回歸分析基礎(chǔ)[M]. 上海:格致出版社,2011.
[3] 姜阿麗. Logistic回歸模型原理介紹及實(shí)例分析[J]. 福建質(zhì)量管理,2017(8).endprint