曹桃云 郭影玲
貝葉斯統(tǒng)計(jì)中先驗(yàn)分布的教學(xué)研究
曹桃云 郭影玲
(廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,廣東 廣州 510320)
貝葉斯統(tǒng)計(jì)是統(tǒng)計(jì)學(xué)的一個重要分支,近幾十年來貝葉斯統(tǒng)計(jì)迅速發(fā)展,在實(shí)際問題中獲得廣泛應(yīng)用,如何選取先驗(yàn)分布是貝葉斯統(tǒng)計(jì)的一個主要問題。文章對貝葉斯統(tǒng)計(jì)教學(xué)中的四種先驗(yàn)分布:利用邊緣分布的第二型極大似然方法確定先驗(yàn)、利用邊緣分布的矩方法確定先驗(yàn)、無信息先驗(yàn)、共軛先驗(yàn),分別從基本思想、求解步驟、應(yīng)用舉例、使用對比四個環(huán)節(jié)進(jìn)行梳理,以加深學(xué)生對幾種先驗(yàn)分布的理解,培養(yǎng)學(xué)生運(yùn)用貝葉斯統(tǒng)計(jì)解決實(shí)際問題的能力。
貝葉斯統(tǒng)計(jì);先驗(yàn)分布;教學(xué)研究
貝葉斯公式盡管從形式上看是條件概率的一個推論,但包含的歸納推理思想意義深遠(yuǎn)。學(xué)者們把貝葉斯公式發(fā)展成為一種統(tǒng)計(jì)推斷的系統(tǒng)理論方法,形成貝葉斯方法。由貝葉斯方法獲得的統(tǒng)計(jì)推斷的全部結(jié)果構(gòu)成了貝葉斯統(tǒng)計(jì)[1,2]。貝葉斯統(tǒng)計(jì)作為統(tǒng)計(jì)學(xué)的一個重要分支,目前已被廣泛應(yīng)用在機(jī)器學(xué)習(xí)等領(lǐng)域[3,4]。
貝葉斯統(tǒng)計(jì)將統(tǒng)計(jì)推斷問題中的未知參數(shù)視為在參數(shù)空間內(nèi)取值的一個隨機(jī)變量,通過賦予隨機(jī)變量先驗(yàn)信息,獲得觀測數(shù)據(jù)后綜合考慮總體信息和樣本信息進(jìn)行后驗(yàn)分布的計(jì)算并完成估計(jì)和檢驗(yàn)。一般的先驗(yàn)信息來自經(jīng)驗(yàn)和歷史資料,由于先驗(yàn)信息的使用,使貝葉斯統(tǒng)計(jì)進(jìn)行統(tǒng)計(jì)推斷的準(zhǔn)確性更高,合理選取先驗(yàn)分布是貝葉斯統(tǒng)計(jì)的一個主要問題[1]。本文對教學(xué)中的四種先驗(yàn)分布:利用邊緣分布的第二型極大似然方法確定先驗(yàn)、利用邊緣分布的矩方法確定先驗(yàn)、無信息先驗(yàn)、共軛先驗(yàn),分別從基本思想、求解步驟、應(yīng)用舉例、使用對比四個環(huán)節(jié)進(jìn)行梳理,以加深學(xué)生對幾種先驗(yàn)分布的理解,培養(yǎng)學(xué)生運(yùn)用貝葉斯統(tǒng)計(jì)解決問題的能力。
先驗(yàn)分布是指在抽取樣本之前對參數(shù)的認(rèn)識,進(jìn)一步可理解為在得到觀測數(shù)據(jù)前關(guān)于參數(shù)的可能值的所有信息和信念[1,2]。本文用()表示參數(shù)的先驗(yàn)分布概率函數(shù),以下簡稱()為參數(shù)的先驗(yàn)分布。先驗(yàn)分布()的核是指略去()表達(dá)式中和參數(shù)無關(guān)的因子,只留下與參數(shù)有關(guān)的。如參數(shù)來自伽瑪分布,在均已知時,則有先驗(yàn)分布()為,為伽瑪函數(shù)。其中的符號表示正比于,則先驗(yàn)分布()的核為。下文中涉及的核均指此意。若隨機(jī)變量有概率函數(shù),的先驗(yàn)分布為(),則為連續(xù)型隨機(jī)變量時隨機(jī)變量的邊緣分布,在為離散型隨機(jī)變量時隨機(jī)變量的邊緣分布。在先驗(yàn)分布()中含有未知超參數(shù)λ時(超參數(shù)可以是參數(shù)向量),由于先驗(yàn)分布()和超參數(shù)λ有關(guān),有,此時的邊緣分布也與超參數(shù)λ有關(guān),有。
基于邊緣分布的矩方法確定先驗(yàn)分布的基本思想是:首先將邊緣分布的一些矩表示成超參數(shù)的函數(shù),得到方程或方程組;接著將方程或方程組中的邊緣分布的矩用相應(yīng)的樣本矩替代,得到以超參數(shù)為變量的方程或方程組;最后解方程或方程組。類似經(jīng)典統(tǒng)計(jì)中的矩估計(jì)思想,此時邊緣分布()的矩相當(dāng)于總體矩,用相應(yīng)的樣本矩替代,建立方程或方程組,通過求解給出超參數(shù)的估計(jì)。將解出的超參數(shù)帶入先驗(yàn)分布中確定先驗(yàn)分布。
教學(xué)中為方便學(xué)生的對比學(xué)習(xí),歸納了四種先驗(yàn)分布的求解步驟。
利用邊緣分布的第二型極大似然確定先驗(yàn)分布的求解步驟:
(1)寫出參數(shù)分布中包含的超參數(shù)的對數(shù)似然函數(shù);
(2)求解對數(shù)似然函數(shù)的最值給出超參數(shù);
(3)帶入超參數(shù)確定先驗(yàn)分布。
利用邊緣分布的矩方法確定先驗(yàn)分布的求解步驟:
(1)計(jì)算樣本分布的期望、方差;
(2)計(jì)算邊緣密度的期望、方差;
(3)建立方程或方程組,求出超參數(shù);
(4)帶入超參數(shù)確定先驗(yàn)分布。
無信息先驗(yàn)的求解步驟:
(1)寫出參數(shù)的對數(shù)似然函數(shù);
(2)計(jì)算Fisher信息矩陣;
(3)給出參數(shù)的無信息先驗(yàn)。
共軛先驗(yàn)的求解步驟:
(1)寫出參數(shù)的似然函數(shù)的核;
(2)選擇與似然函數(shù)具有同類核的先驗(yàn)分布作為共軛先驗(yàn)分布。
下面通過舉例進(jìn)一步展示先驗(yàn)分布的應(yīng)用。
第二型極大似然方法確定先驗(yàn)分布的計(jì)算如下:
(3)在已知時的先驗(yàn)分布為伽瑪分布。
矩方法確定先驗(yàn)分布計(jì)算如下:
(3)給出參數(shù)的無信息先驗(yàn)
(2)選擇與似然函數(shù)具有同類核的先驗(yàn)分布作為共軛先驗(yàn)分布
表1 常用的共軛先驗(yàn)分布
對于四種先驗(yàn)分布,表2給出了各自的使用條件。其中的利用邊緣分布的第二型極大似然方法確定先驗(yàn)和利用邊緣分布的矩方法確定先驗(yàn),這兩種先驗(yàn)的使用條件一樣,都是通過給出超參數(shù)估計(jì)確定先驗(yàn)分布。無信息先驗(yàn)是連經(jīng)典統(tǒng)計(jì)學(xué)家也認(rèn)為是客觀的,可以接受的,被認(rèn)為是貝葉斯統(tǒng)計(jì)研究中最成功的的部分[1],文獻(xiàn)[5]中使用了無信息先驗(yàn)并和經(jīng)典統(tǒng)計(jì)中的最大似然估計(jì)、矩估計(jì)等方法做了比較,結(jié)論是無信息先驗(yàn)下的貝葉斯估計(jì)具有優(yōu)勢。共軛先驗(yàn)具有計(jì)算方便且易于解釋的優(yōu)勢,文獻(xiàn)[3]中在模型的隨機(jī)誤差項(xiàng)服從正態(tài)分布的假定下,使用了正態(tài)分布的均值的共軛先驗(yàn)分布和方差的共軛先驗(yàn)分布,也是將貝葉斯方法融入集成學(xué)習(xí)中。實(shí)際應(yīng)用中,應(yīng)根據(jù)條件和需要選取先驗(yàn)以高效地進(jìn)行統(tǒng)計(jì)推斷。
表2 四種先驗(yàn)分布的使用條件
為了調(diào)動學(xué)生動手、動腦、動心,教師讓學(xué)生收集數(shù)據(jù),如調(diào)查大學(xué)生的睡眠問題(或每日運(yùn)動量等問題),關(guān)注大學(xué)生群體中充足睡眠者所占的比例P,作為比例P的似然函數(shù)是二項(xiàng)分布,可以寫為L(P)=Ps(1-p)n-s,其中的L(P)=Ps(1-p)n-s分別代表充足睡眠的學(xué)生數(shù)和調(diào)查的所有學(xué)生數(shù),根據(jù)表1可知,比例的共軛先驗(yàn)分布是貝塔分布Beta(a, b)。課上借助相關(guān)研究[2,6]的資料,如調(diào)查了30名學(xué)生,其中12名可以保證8小時的充分睡眠,而其它18名學(xué)生的睡眠時間則不足8小時,并假設(shè)50%分位數(shù)對應(yīng)的比例值為0.3,90%分位數(shù)對應(yīng)的比例值為0.5,運(yùn)用統(tǒng)計(jì)軟件R編寫的代碼如下,得到先驗(yàn)和后驗(yàn)的圖形對比。圖1展示的先驗(yàn)和后驗(yàn)的圖形對比說明,后驗(yàn)分布綜合了先驗(yàn)分布和抽樣信息,利用了更多信息,因此后驗(yàn)分布更集中。
library(LearnBayes)
library(ggplot2)
quantile2=list(p=0.9,x=0.5)
quantile1=list(p=0.5,x=0.3)
Beta.prior<-beta.select(quantile1,quantile2)
a<-Beta.prior[1]
b<-Beta.prior[2]
print(c(a,b))
s=12;f=18
ggplot(data.frame(x = c(0, 1)), aes(x = x)) + stat_function (fun = dbeta,
args = list(shape1 = a, shape2 = b), geom = "area",
fill = "blue", alpha = 0.3, colour = "blue", lwd = 1) + stat_function(fun = dbeta,
args = list(shape1 = s + a, shape2 = f + b),
geom = "area", fill = "red", alpha = 0.3, colour = "red", lwd = 1) +
annotate("text", x = 0.25, y = 3, label = "prior") + annotate("text", x = 0.37, y = 5.3, label = "posterior")
圖1 先驗(yàn)和后驗(yàn)的圖形對比
形象直觀的圖形讓學(xué)生感受到有趣,通過引導(dǎo)和訓(xùn)練,一是收集數(shù)據(jù)動手編程可以激發(fā)學(xué)生的興趣,二是加深學(xué)生對所學(xué)知識的理解運(yùn)用,三有助于培養(yǎng)學(xué)生分析問題和解決問題的能力。
貝葉斯統(tǒng)計(jì)作為“全球九大開拓性新興科技領(lǐng)域”之一,對未來科技的發(fā)展具有重要的意義。貝葉斯統(tǒng)計(jì)作為統(tǒng)計(jì)學(xué)的專業(yè)課程,普遍開設(shè)在大三和研究生二年級,如何獲得良好的教學(xué)效果,讓學(xué)生能夠?qū)W以致用,對這門課程的教學(xué)提出了高要求。文章對課程中先驗(yàn)分布的選取進(jìn)行了探討,針對如何選取先驗(yàn)分布,從基本思想、求解步驟、應(yīng)用舉例、使用對比四個環(huán)節(jié)對教學(xué)中的四種先驗(yàn)分布:利用邊緣分布的第二型極大似然方法確定先驗(yàn)、利用邊緣分布的矩方法確定先驗(yàn)、無信息先驗(yàn)、共軛先驗(yàn)進(jìn)行梳理,旨在加深學(xué)生對四種先驗(yàn)分布的理解,重點(diǎn)培養(yǎng)學(xué)生運(yùn)用貝葉斯統(tǒng)計(jì)解決問題的能力。
[1]韋來生. 貝葉斯統(tǒng)計(jì)[M]. 北京: 高等教育出版社,2016.
[2] 韓明. 貝葉斯統(tǒng)計(jì)學(xué)及其應(yīng)用[M]. 上海: 同濟(jì)大學(xué)出版社,2015.
[3] CHIPMAN H A, GEORGE E I, MCCULLOCH R E. BART: Bayesian additive regression trees[J]. Annals of applied statistics, 2010, 4(1): 266-298.
[4] LINERO A R. Bayesian regression trees for high dimensional prediction and variable selection[J]. Journal of the American Statistical Association, 2018, 113(522): 626-636.
[5] 張文清,錢夕元. 非對稱三參數(shù)廣義誤差分布的參數(shù)估計(jì)及應(yīng)用[J]. 華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2021(3): 411-418.
[6] 豆瓣. 貝葉斯集錦(4): 貝葉斯統(tǒng)計(jì)基礎(chǔ)[EB/OL]. https://site.douban.com/182577/widget/notes/10567181/note/294041203/,2013-8-9
Teaching Research on Prior Distribution in Bayesian Statistics
Bayesian statistics is an important branch of statistics. Bayesian statistics has developed rapidly in recent decades and has been widely used in practical problems. How to select a prior distribution is a major problem in Bayesian statistics. The article combs four kinds of prior distributions in teaching: determining a prior by using the second type maximum likelihood method of marginal distribution, determining a prior by using the moment method of marginal distribution, determining a prior, a prior without information, and a conjugate prior from four aspects: basic ideas, solving steps, application examples, and use comparison, so as to deepen students' understanding of several prior distributions, cultivating students' ability to solve practical problems by using Bayesian statistics.
Bayesian statistics; prior distribution; teaching research
G642
A
1008-1151(2022)12-0124-04
2022-09-09
曹桃云(1968-),女,廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院副教授,博士,碩士研究生導(dǎo)師,研究方向?yàn)榻y(tǒng)計(jì)機(jī)器學(xué)習(xí)、貝葉斯統(tǒng)計(jì)教學(xué)研究;郭影玲(1991-),女,供職于廣東財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,碩士,研究方向?yàn)槊佬g(shù)視覺傳達(dá)設(shè)計(jì)、高等教育研究。