向緒言, 劉麗芳
(湖南文理學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院, 湖南 常德, 415000)
EM方法的一種修正及應(yīng)用
向緒言, 劉麗芳
(湖南文理學(xué)院 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院, 湖南 常德, 415000)
針對(duì)刪失數(shù)據(jù)的參數(shù)估計(jì)問(wèn)題, 給出了EM方法的一種修正. 對(duì)Poisson過(guò)程情形, 理論上證明由該方法得到的估計(jì)是無(wú)偏估計(jì), 并給出了相應(yīng)的置信區(qū)間;對(duì)一般情形, 通過(guò)該方法在計(jì)算神經(jīng)科學(xué)解碼研究中的應(yīng)用舉例, 說(shuō)明該方法得到的估計(jì)比通常EM方法得到的估計(jì)好.
刪失數(shù)據(jù);EM;修正EM
極大似然估計(jì)(Maximum Likelihood Estimate,即MLE)是一種常用的點(diǎn)估計(jì),在總體分布形式復(fù)雜時(shí), 不可能找到顯示解, 這時(shí)需要用更復(fù)雜的方法——EM(Expectation Maximization)方法. 然而在樣本數(shù)據(jù)具有刪失的情況下, 用通常的EM方法會(huì)失敗. 例如:在計(jì)算神經(jīng)科學(xué)的解碼研究中[1-3], 需要利用神經(jīng)元的已知反應(yīng)提取相應(yīng)刺激的參數(shù)信息,實(shí)驗(yàn)中, 用固定的時(shí)間窗口觀測(cè)并記錄神經(jīng)元的spike發(fā)放(fire)時(shí)間, 由于實(shí)驗(yàn)本身限制, 時(shí)間窗口通常很小, 所以得到的ISIs(Interspike intervals, 即spikes時(shí)間間隔)是刪失數(shù)據(jù). 這樣, 由通常的EM方法得到刺激的估計(jì)與實(shí)際刺激誤差很大, 于是給出了針對(duì)這種刪失數(shù)據(jù)的一種修正EM方法. 對(duì)Poisson過(guò)程情形, 理論上證明由該方法得到的估計(jì)是無(wú)偏估計(jì), 并給出相應(yīng)的置信區(qū)間;對(duì)一般情形,通過(guò)該方法在計(jì)算神經(jīng)科學(xué)解碼研究中的應(yīng)用舉例,說(shuō)明該方法得到的估計(jì)比通常EM方法得到的估計(jì)好.
1.1 MLE
根據(jù)p( x| Θ)的不同, 其求解的難易程度不同.例如, p( x| Θ)是單個(gè)的正態(tài)分布, Θ=(μ, σ2)時(shí)很容易求解. 然而, 有許多這樣的問(wèn)題, 我們不可能得到其顯示解, 于是需要用到更復(fù)雜的技巧——EM方法.
1.2 EM方法
當(dāng)樣本數(shù)據(jù)不完全或有缺失時(shí), EM算法是求解極大似然估計(jì)的常用方法. 仍然假設(shè)X是一些分布的樣本數(shù)據(jù), 此時(shí)X是不完全數(shù)據(jù). 記其完全數(shù)據(jù)集為Z( X, Y), 聯(lián)合密度函數(shù)為:
1.3 混合分布的EM方法
考慮如下混合密度參數(shù)模型:
解碼是計(jì)算神經(jīng)科學(xué)中的重要方面, 其目的是利用神經(jīng)元的已知反應(yīng)(response)提取相應(yīng)刺激(stimulus)的參數(shù)信息, 因?yàn)閷?duì)于給定的神經(jīng)元, 接受不同的刺激, 其反應(yīng)也不同;而神經(jīng)元的反應(yīng)表現(xiàn)在spikes變化上, 包括spikes的發(fā)放頻率(firing rate)和spikes之間的時(shí)間間隔(Interspike intervals, ISIs).一項(xiàng)重要的研究工作就是根據(jù)神經(jīng)元的ISIs序列估計(jì)其密度函數(shù)的參數(shù)(通常與輸入的刺激有關(guān)). 具體做法是:
實(shí)驗(yàn)中, 用固定的時(shí)間窗口T觀測(cè)并記錄神經(jīng)元每個(gè)spike發(fā)放的時(shí)間, 得到ISIs序列{ti, τi, σi} (圖1, {τi},{σi}是不完整數(shù)據(jù)), 稱(chēng)為刪失數(shù)據(jù). 由于實(shí)驗(yàn)本身限制, 時(shí)間窗口通常很小, 所以由EM方法得到刺激的估計(jì)與刺激真值誤差很大.
圖1 刪失數(shù)據(jù)
圖2 來(lái)自Poisson過(guò)程的刪失數(shù)據(jù)
用500 ms的時(shí)間窗口截取1 438個(gè)trial, 共產(chǎn)生3 000個(gè)ISIs, 其中, 規(guī)則數(shù)據(jù)1 676個(gè), 截?cái)鄶?shù)據(jù)1 324個(gè), 超過(guò)25%的trials(362個(gè))只有1個(gè)spike(圖3). 頻率直方圖見(jiàn)圖4.
圖3 模擬產(chǎn)生的前50個(gè)trials
按通常的EM方法求得MLE為:
圖4 頻率直方圖
由式(11)、(12)、(13)和圖4易知:用通常的EM方法失敗, 而修正EM方法成功.
[1] Feng J F. Computational Neuroscience—A Comprehensive Approach[M]. London FL: Chapman and Hall Press, 2003: 341-366.
[2] Feng J F, Ding M. Decoding spikes in a spiking neural network[J]. Journal of Physics A: Math and Gen, 2004, 37:5713-5727.
[3] Tuckwell H C. Introduction to Theoretical Neurobiology [M]. Cambridge: Cambridge University Press, 1988:191-246.
[4] Lehmann E, Casella G. Theory of Point Estimation[M]. Berlin: Springer, 1999: 109-128.
[5] 茆詩(shī)松, 王靜龍, 濮曉龍. 高等數(shù)理統(tǒng)計(jì)[M]. 北京: 高等教育出版社, 1999: 428-443.
[6] 何聲武, 謝盛榮, 程依民. 隨機(jī)過(guò)程[M]. 北京: 中國(guó)統(tǒng)計(jì)出版社, 1997: 34-50.
A correction for EM method and its application
XIANG Xu-yan, LIU Li-fang
(College of Mathematics and Computing Science, Hunan University of Arts and Science, Changde 415000, China)
For parameter’s estimate with censored data, a correction for EM method is proposed. In the case of Poisson process, we prove in theory that the estimate obtained by this method is unbiased. The corresponding confidence interval is given. Generally, examples which the method for decoding is unable in neuroscience to show that the estimate obtained by this method is better than maximum likelihood estimate, are included.
censored data; EM; EM with correction
O 211.67
:A
1672-6146(2010)04-0003-04
10.3969/j.issn.1672-6146.2010.04.002
2010-09-10
國(guó)家自然科學(xué)基金(10871064); 湖南省自然科學(xué)基金(09JJ6016); 湖南省教育廳優(yōu)秀青年項(xiàng)目(10B073)
向緒言(1975-), 男, 博士, 副教授, 研究方向?yàn)殡S機(jī)過(guò)程及生物信息.