(Be-Nb)模型下的二行動(dòng)線性決策的抽樣信息期望值

2011-10-24 06:34:44王燕飛

統(tǒng)計(jì)與決策 2011年4期

關(guān)鍵詞：決策問(wèn)題二項(xiàng)分布期望值

王燕飛

（吉林化工學(xué)院理學(xué)院，吉林 132022）

(Be-Nb)模型下的二行動(dòng)線性決策的抽樣信息期望值

王燕飛

（吉林化工學(xué)院理學(xué)院，吉林 132022）

二行動(dòng)線性決策問(wèn)題是一類(lèi)比較普遍的決策問(wèn)題。文章討論了兩類(lèi)貝塔分布共軛于負(fù)二項(xiàng)分布的決策模型下的二行動(dòng)線性決策問(wèn)題的抽樣信息期望值的計(jì)算定理。

（Be-Nb）模型；二行動(dòng)線性決策；抽樣信息期望值；完全信息

0 引言

在企業(yè)經(jīng)營(yíng)過(guò)程中，做出有利于提高經(jīng)濟(jì)效益的決策對(duì)于企業(yè)的發(fā)展是至關(guān)重要的，甚至關(guān)及生死存亡。二行動(dòng)線性決策問(wèn)題是最為常見(jiàn)的決策問(wèn)題。對(duì)于決策者來(lái)說(shuō)，通過(guò)抽樣等手段，可以獲得信息以接近完全信息，從而選取最優(yōu)決策，獲得最大利益。但抽樣耗時(shí)、費(fèi)力，那么我們有必要推斷抽樣的價(jià)值，即抽樣信息期望值（EVSI）。就此問(wèn)題，文獻(xiàn)[1][2]研究了正態(tài)分布共軛于正態(tài)分布決策模型下的。文獻(xiàn)[3]討論了分布共軛于普哇松分布模型下的。文獻(xiàn)[4]給出了倒分布共軛于指數(shù)分布模型下的EVSI。文獻(xiàn)[5]得出了倒分布共軛于分布模型下的。文獻(xiàn)[6]得出了貝塔分布共軛于幾何分布模型下的。負(fù)二項(xiàng)分布又名帕斯卡（Pascal）分布，應(yīng)用廣泛。比如醫(yī)學(xué)中的聚集性疾病，保險(xiǎn)精算中的非同質(zhì)性人群的索賠次數(shù)，可靠性分析中的導(dǎo)彈飛行試驗(yàn)數(shù)量等，均服從負(fù)二項(xiàng)分布，具有一定的研究?jī)r(jià)值。事實(shí)上，幾何分布是負(fù)二項(xiàng)分布的特例。本文介紹了對(duì)于文獻(xiàn)[6]中更一般的情況，研究了在二行動(dòng)線性決策問(wèn)題中，兩類(lèi)貝塔分布共軛于負(fù)二項(xiàng)分布的決策模型（即(Be-Nb)模型Ⅰ和(Be-Nb)模型Ⅱ）下的的計(jì)算定理。

1 二行動(dòng)線性決策模型

二行動(dòng)線性決策模型，即行動(dòng)a只有二個(gè)：a1，a2；狀態(tài)θ可以是離散或者連續(xù)的；收益函數(shù)對(duì)每個(gè)行動(dòng)都是狀態(tài)參數(shù)的線性函數(shù)。即收益函數(shù)

不妨設(shè) m1>m2，b10。若 m1

利用收益函數(shù)分別計(jì)算a1,a2的先驗(yàn)期望收益值，由平衡點(diǎn)(2)，得：

E1-E2=(m1-m2)(Eθ-θ0),根據(jù)先驗(yàn)期望準(zhǔn)則，由 m1>m2，有：

(1)當(dāng) Eθ≤θ0時(shí)，a2為最優(yōu)行動(dòng)；(2)當(dāng) Eθ>θ0時(shí)，a1為最優(yōu)行動(dòng)。 (3)

由公式，ai的損失函數(shù) L(θ,ai)=maxQ(θ，a)-Q（θ，ai）及(2)，有：

2 （Be-N b）模型下的EVSI的理論分析

2.1 抽樣信息期望值（EVSI）

抽樣信息期望值為先驗(yàn)與后驗(yàn)期望值的差。

其中，a'為先驗(yàn)期望準(zhǔn)則下的最優(yōu)行動(dòng)，δ'（x）為后驗(yàn)期望準(zhǔn)則下的最優(yōu)決策函數(shù)。L為損失函數(shù)，由此可見(jiàn)，EVSI是在抽樣前后使用最優(yōu)行動(dòng)(或最優(yōu)決策函數(shù))而使決策者蒙受期望損失的減少量或者由于抽樣給決策者帶來(lái)的增益。即抽樣帶給決策者的價(jià)值。

2.2 (Be-Nb)模型

負(fù)二項(xiàng)分布有兩種形式：設(shè)伯努力試驗(yàn)中，θ為每次試驗(yàn)成功的概率。

(Ⅰ)X 為恰好成功 r次時(shí)的試驗(yàn)總數(shù)，則 P(X=x|θ)＝θr(1-θ)x-r，(x=r,r+1，…)；

(Ⅱ)X 為 r次成功前失敗的次數(shù)，則 P(X=x|θ)＝θr(1-θ)x，(x=0，1，2，…)。

我們將其分別記為 Nb(r,θ)Ⅰ型和 Nb(r,θ)Ⅱ型。相應(yīng)的決策模型記為(Be-Nb)模型Ⅰ和(Be-Nb)模型Ⅱ。下面我們只討論第一種形式，對(duì)于第二種形式同理可得。

(Be-Nb)模型Ⅰ：設(shè)總體X服從負(fù)二項(xiàng)分布Nb(r,θ)Ⅰ型，即 P(X=x|θ)＝θr(1-θ)x-r，(x=r,r+1，…)。 θ 的共軛先驗(yàn)分布為Be(α，β)。

2.2 (Be-Nb)模型Ⅰ下的先驗(yàn) EVPI=EθL(θ，a')，其中 a'為先驗(yàn)期望準(zhǔn)則下的最優(yōu)行動(dòng)

2.3（Be-Nb）模型Ⅰ下的后驗(yàn)EVPI期望值

(1)最優(yōu)決策函數(shù)δ'(x)

利用收益函數(shù)（1）分別計(jì)算a1,a2的后驗(yàn)期望收益值，及式(2)，有：-=(m1-m2)(E(θ|t)-θ0)。根據(jù)后驗(yàn)期望準(zhǔn)則，由m1>m2，得：(1)當(dāng) E(θ|t)≤θ0時(shí)，a2為最優(yōu)行動(dòng)；(2)當(dāng) E(θ|t)>θ0時(shí)，a為最優(yōu)行動(dòng)。E(θ|x)==θ0時(shí)，a1與 a2等效。故取x0=-α-β，其作用等同于平衡點(diǎn)。

(2)后驗(yàn) EVPI＝E(θ|x)L(θ,δ'(x))。求法同先驗(yàn) EVPI，得: