国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

隱馬爾可夫多元線性回歸模型及其貝葉斯估計(jì)

2019-04-22 11:22劉鶴飛
統(tǒng)計(jì)與決策 2019年6期
關(guān)鍵詞:馬爾可夫后驗(yàn)先驗(yàn)

劉鶴飛

(曲靖師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,云南 曲靖 655011)

0 引言

回歸模型是最經(jīng)典的統(tǒng)計(jì)學(xué)模型,其廣泛應(yīng)用于經(jīng)濟(jì)學(xué)、管理學(xué)、心理學(xué)、教育學(xué)、醫(yī)學(xué)等領(lǐng)域。從最簡(jiǎn)單的一元線性回歸到多元線性回歸,再到非線性回歸、廣義線性回歸,眾多研究者對(duì)回歸模型進(jìn)行了深入的研究、探索和各種改進(jìn)。

隱馬爾可夫模型是一種基于隨機(jī)過(guò)程的統(tǒng)計(jì)模型。近年來(lái),隱馬爾可夫模型在各個(gè)領(lǐng)域都得到了廣泛的應(yīng)用和發(fā)展。在經(jīng)濟(jì)管理領(lǐng)域,利用隱馬爾可夫模型處理異質(zhì)面板數(shù)據(jù),在生物醫(yī)學(xué)領(lǐng)域,利用隱馬爾可夫模型對(duì)DNA序列的分布進(jìn)行推斷[1];在人工智能領(lǐng)域,利用隱馬爾可夫模型進(jìn)行語(yǔ)音識(shí)別[2]、圖像處理等。

隱馬爾可夫模型是由兩個(gè)隨機(jī)過(guò)程構(gòu)成[3]。一個(gè)是狀態(tài)轉(zhuǎn)移序列,它是一條單純的馬爾可夫鏈,另一條是與狀態(tài)對(duì)應(yīng)的觀測(cè)序列。在實(shí)際問(wèn)題中,我們只能看到觀測(cè)變量的集合,無(wú)法看到觀測(cè)狀態(tài)序列的集合。隱馬爾可夫模型的研究?jī)?nèi)容就是根據(jù)可觀測(cè)的序列集合去推斷不可觀測(cè)的狀態(tài)轉(zhuǎn)移特征以及每個(gè)狀態(tài)下的分布信息[4]。

本文將隱馬爾可夫模型與回歸模型相結(jié)合,提出隱馬爾可夫回歸模型的概念。這種模型在許多領(lǐng)域都有實(shí)際的應(yīng)用,例如,在經(jīng)濟(jì)領(lǐng)域,由于股票指數(shù)與經(jīng)濟(jì)增速、CPI指數(shù)、銀行利率等指標(biāo)都有線性相關(guān)關(guān)系,并且可以建立這幾個(gè)自變量與因變量(股票價(jià)格指數(shù))之間的多元線性回歸模型。但是,股票市場(chǎng)處于牛市和熊市的不同狀態(tài)時(shí),因變量和自變量之間的回歸關(guān)系是不同的。此外,不同狀態(tài)之間也是可以相互轉(zhuǎn)化的,研究者還想了解不同的狀態(tài)之間相互轉(zhuǎn)化的關(guān)系。隱馬爾可夫多元線性回歸模型就是研究不同狀態(tài)之間的相互轉(zhuǎn)化規(guī)律以及每個(gè)狀態(tài)下因變量和自變量之間回歸關(guān)系的模型。

本文將以多元線性回歸模型為例,詳細(xì)介紹隱馬爾可夫多元線性回歸模型的數(shù)學(xué)定義,推導(dǎo)用貝葉斯方法對(duì)模型的參數(shù)進(jìn)行估計(jì)的理論過(guò)程。最后利用MCMC算法模擬參數(shù)的后驗(yàn),用后驗(yàn)均值作為參數(shù)的估計(jì)值,并與模型參數(shù)的真值進(jìn)行比較,檢驗(yàn)該方法估計(jì)的可靠性。

1 模型描述

假設(shè)隱狀態(tài)的轉(zhuǎn)移過(guò)程滿足以下馬爾可夫鏈的條件:

其中u=1,2,…,K;s=1,2,…,K;t=2,3,…,T。

這里,aus是從前一個(gè)時(shí)間點(diǎn)的隱狀態(tài)u向后一個(gè)時(shí)間點(diǎn)的隱狀態(tài)s的轉(zhuǎn)移概率。我們稱所有可能的隱狀態(tài)轉(zhuǎn)移概率構(gòu)成的矩陣為隱狀態(tài)轉(zhuǎn)移概率矩陣,記為:

在給定隱狀態(tài)的條件下,描述自變量與因變量關(guān)系的多元線性回歸模型定義為:

其中,β是P維回歸系數(shù)向量,εk是模型的誤差,且:

2 貝葉斯推斷原理

將隱狀態(tài)轉(zhuǎn)移概率矩陣記為A;將多元線性回歸模型中的參數(shù)(βk,)記為θ;將隱狀態(tài)向量記為Z。則該模型的貝葉斯推斷問(wèn)題為,其中D=(Y,X)。

馬爾可夫鏈蒙特卡洛算法模擬過(guò)程的具體步驟如下:

(1)更新隱狀態(tài)Z;

(2)更新潛變量A;

(3)更新模型參數(shù)θ。

其中,更新模型參數(shù)θ又可以分為兩小步:

(1)更新正態(tài)分布的方差;

(2)更新多元線性回歸系數(shù)βk。

每一步更新參數(shù),都是借助于Gibbs抽樣[6]和MH算法[7]。這需要對(duì)每個(gè)參數(shù)設(shè)定其先驗(yàn)分布,并推導(dǎo)出后驗(yàn)分布。

3 先驗(yàn)分布

貝葉斯理論認(rèn)為,每一個(gè)參數(shù)都是一個(gè)隨機(jī)變量[8]。因此,在進(jìn)行貝葉斯推斷時(shí),必須事先為每一個(gè)參數(shù)都選擇一個(gè)合適的先驗(yàn)分布。Robert[9]在研究隱馬爾可夫正態(tài)模型時(shí),選擇對(duì)稱的狄尼克萊分布作為轉(zhuǎn)移概率矩陣每一行的先驗(yàn)分布。Minka[10]在研究線性回歸模型參數(shù)的貝葉斯估計(jì)時(shí),選擇多元正態(tài)分布和倒伽瑪分布作為線性回歸模型參數(shù)的先驗(yàn)分布。借鑒以上經(jīng)驗(yàn),本文為模型中所有參數(shù)選擇的先驗(yàn)分布如下:

其中,Ak表示轉(zhuǎn)移概率矩陣的第k行,D表示狄尼克萊分布,α是狄尼克萊分布的超參數(shù);μ0k,Λ0k是多元正態(tài)分布中的超參數(shù),Inv-Gamma表示倒伽瑪分布,是倒伽瑪分布中的超參數(shù)。

4 后驗(yàn)推斷

貝葉斯后驗(yàn)推斷的主要任務(wù)是利用樣本的觀測(cè)信息和參數(shù)的先驗(yàn)信息推導(dǎo)出參數(shù)的后驗(yàn)信息[11]。對(duì)于本文的隱馬爾可夫多元線性回歸模型來(lái)說(shuō),即也就是要根據(jù)觀測(cè)變量集合和模型參數(shù)的先驗(yàn)分布去推斷模型的隱狀態(tài)、概率轉(zhuǎn)移矩陣、多元回歸模型的參數(shù)。其中,轉(zhuǎn)移概率矩陣A、多元回歸模型的系數(shù)β是隱馬爾可夫多元線性回歸模型中的參數(shù),是需要進(jìn)行估計(jì)的對(duì)象。由于這個(gè)分布的復(fù)雜性,本文使用了MCMC方法來(lái)進(jìn)行后驗(yàn)?zāi)M,用后驗(yàn)均值作為相關(guān)參數(shù)的估計(jì)。這就需要相關(guān)參數(shù)的全條件后驗(yàn)分布。

其中,πk是在轉(zhuǎn)移概率矩陣A的作用下,隱狀態(tài)達(dá)到穩(wěn)定時(shí),隱狀態(tài)k的穩(wěn)定概率;是觀測(cè)變量在隱狀態(tài)k下的似然函數(shù)。

下面推導(dǎo)在隱狀態(tài)確定的條件下,多元線性回歸模型參數(shù)(βk,)的全條件后驗(yàn)分布。

記所有隱狀態(tài)為k的觀測(cè)數(shù)據(jù)集合為Dk,所有隱狀態(tài)為k的因變量集合記為Yk,所有隱狀態(tài)為k的自變量的集合為Xk。

在此記法下,Yk的似然函數(shù)可以表示為:

根據(jù)條件概率的計(jì)算公式可得:

于是,可以把參數(shù)(βk,的后驗(yàn)分布看成一個(gè)多元正態(tài)分布和一個(gè)倒伽瑪分布的乘積,它的具體形式為:

為簡(jiǎn)單起見(jiàn),可將該后驗(yàn)分布看成如下兩部分:

則βk和這兩個(gè)參數(shù)的后驗(yàn)分布分別為N,即參數(shù)為μn和的多元正態(tài)分布和參數(shù)為an和bn的倒伽瑪分布。其中:

5 實(shí)證模擬

為了檢驗(yàn)上文所推導(dǎo)的模型參數(shù)的貝葉斯估計(jì)方法,這里將事先給定模型參數(shù)A和θ的真實(shí)值。根據(jù)概率轉(zhuǎn)移矩陣A生成一個(gè)隱狀態(tài)序列集合,再根據(jù)每個(gè)觀測(cè)點(diǎn)的隱狀態(tài)取值和對(duì)應(yīng)于該隱狀態(tài)的多元線性模型參數(shù)的值,生成每一個(gè)觀測(cè)時(shí)間點(diǎn)的觀測(cè)向量。然后利用所有的觀測(cè)變量集合,根據(jù)所推導(dǎo)的后驗(yàn)分布,用MCMC算法對(duì)模型的參數(shù)進(jìn)行后驗(yàn)?zāi)M。取后驗(yàn)均值作為模型中參數(shù)的估計(jì)值。最后將參數(shù)的貝葉斯估計(jì)結(jié)果與事先給定的真實(shí)值進(jìn)行比較,觀察估計(jì)的效果。

取隱狀態(tài)的個(gè)數(shù)K=2,則隱狀態(tài)的概率轉(zhuǎn)移矩陣是一個(gè)二階方陣,令:

設(shè)每個(gè)隱狀態(tài)下的多元線性回歸模型都有3個(gè)自變量,具體為:

模型中,取觀測(cè)時(shí)間點(diǎn)總數(shù)T=200,則生成的觀測(cè)變量集合是一個(gè)4×200的二維數(shù)組。先驗(yàn)分布中超參數(shù)的取值分別為:,其中I3表示三階單位矩陣

使用MCMC算法進(jìn)行后驗(yàn)?zāi)M時(shí),取迭代總次數(shù)為5000,去掉前面3000次的迭代結(jié)果,用后面2000次的后驗(yàn)均值作為參數(shù)的估計(jì)。各參數(shù)的真實(shí)值與估計(jì)值如表1所示。

表1 模型參數(shù)的真值與估計(jì)值

6 結(jié)論

本文介紹了隱馬爾可夫線性回歸模型,推導(dǎo)了隱馬爾可夫多元線性回歸模型參數(shù)的貝葉斯估計(jì)方法。并且通過(guò)實(shí)證模擬,將模型參數(shù)的貝葉斯估計(jì)結(jié)果與事先設(shè)定的模型參數(shù)的真實(shí)值進(jìn)行比較,發(fā)現(xiàn)估計(jì)效果良好,這說(shuō)明本文給出的模型參數(shù)的貝葉斯估計(jì)方法是可靠的??梢杂秒[馬爾可夫多元線性回歸模型來(lái)研究含有多個(gè)狀態(tài)的自變量與因變量的關(guān)系模型,分析不同狀態(tài)之間的轉(zhuǎn)化關(guān)系,以及每個(gè)狀態(tài)下多個(gè)自變量與因變量之間的線性回歸關(guān)系。

本文僅以簡(jiǎn)單的多元線性回歸模型為例介紹了隱馬爾可夫線性回歸模型,未來(lái)還可以研究隱馬爾可夫非線性回歸模型等更復(fù)雜的模型。此外,還可以研究隱狀態(tài)個(gè)數(shù)未知情形下的隱馬爾可夫回歸模型,利用貝葉斯因子、可逆跳躍MCMC算法等方法對(duì)隱狀態(tài)個(gè)數(shù)進(jìn)行模型選擇。

猜你喜歡
馬爾可夫后驗(yàn)先驗(yàn)
BOP2試驗(yàn)設(shè)計(jì)方法的先驗(yàn)敏感性分析研究*
一類傳輸問(wèn)題的自適應(yīng)FEM-BEM方法
一種考慮先驗(yàn)信息可靠性的新算法
面向電力系統(tǒng)的繼電保護(hù)故障建模研究
基于馬爾可夫鏈共享單車高校投放研究
基于馬爾可夫鏈共享單車高校投放研究
基于馬爾科夫算法對(duì)預(yù)測(cè)窗戶狀態(tài)模型的研究
事業(yè)單位財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)建模及分析
一種基于最大后驗(yàn)框架的聚類分析多基線干涉SAR高度重建算法
先驗(yàn)的風(fēng)
玛纳斯县| 邯郸县| 丹棱县| 织金县| 三门县| 怀柔区| 思南县| 阿尔山市| 安岳县| 龙泉市| 周至县| 抚松县| 若尔盖县| 突泉县| 阳江市| 五寨县| 内乡县| 科尔| 金堂县| 蓬溪县| 曲阜市| 金华市| 大名县| 永德县| 漯河市| 磴口县| 成都市| 伽师县| 南靖县| 贵德县| 砀山县| 揭阳市| 西藏| 庆安县| 双牌县| 桑日县| 抚松县| 建湖县| 黄浦区| 武穴市| 南昌县|