王濤 張衛(wèi)華 蒲亦非
本文將DDPG算法中使用的Ornstein-Uhlenbeck (OU) 噪聲整數(shù)階微分模型推廣為分?jǐn)?shù)階OU噪聲模型,使得噪聲的產(chǎn)生不僅和前一步的噪聲有關(guān)而且和前K步產(chǎn)生的噪聲都有關(guān)聯(lián).通過(guò)在gym慣性環(huán)境下對(duì)比基于分?jǐn)?shù)階OU噪聲的DDPG和TD3算法和原始的DDPG和TD3算法,我們發(fā)現(xiàn)基于分?jǐn)?shù)階微積分的OU噪聲相比于原始的OU噪聲能在更大范圍內(nèi)震蕩,使用分?jǐn)?shù)階OU噪聲的算法在慣性環(huán)境下具有更好的探索能力,收斂得更快.
DDPG算法; TD3算法; 分?jǐn)?shù)階微積分; OU噪聲; 強(qiáng)化學(xué)習(xí)
TP39A2023.022001
收稿日期: 2022-03-26
基金項(xiàng)目: 四川省科技計(jì)劃(2022YFQ0047)
作者簡(jiǎn)介: 王濤(1997-), 男,? 碩士研究生, 四川資陽(yáng)人, 研究方向?yàn)榉謹(jǐn)?shù)階微積分與強(qiáng)化學(xué)習(xí). E-mail: 2647877536@qq.com
通訊作者: 張衛(wèi)華. E-mail: zhangweihua@scu.edu.cn
An improved Ornstein-Uhlenbeck exploration noise based on fractional order calculus for reinforcement learning environments with momentum
WANG Tao, ZHANG Wei-Hua, PU Yi-Fei
(College of Computer Science, Sichuan University, Chengdu 610065, China)
In this paper, the integer-order Ornstein-Uhlenbeck (OU) noise model used in the deep deterministic policy gradient (DDPG) algorithm is extended to the fractional-order OU noise model, and the generated noise is not only related to the noise of the previous step but also related to the noise generated in the previous K steps in the proposed model.The DDPG algorithm and twin delayed deep deterministic(TD3) algorithm using the fractional-order OU noise model were compared with the original DDPG algorithm and TD3 algorithm in the gym inertial environment. We found that, compared with the original OU noise, the fractional-order OU noise can oscillate in a wider range, and the algorithm using the fractional-order OU noise had better exploration ability and faster convergence in inertial environment.
Deep deterministic policy gradient; Twin delayed deep deterministic; Fractional calculus; Ornstein-Uhlenbeck process; Reinforcement learning
1 引 言
深度Q網(wǎng)絡(luò)(DQN)[1]的提出開(kāi)創(chuàng)了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合的先例,DQN算法直接使用了深度神經(jīng)網(wǎng)絡(luò)來(lái)擬合強(qiáng)化學(xué)習(xí)中的Q(s,a) 函數(shù),并根據(jù)貪心策略選擇下一步需要執(zhí)行的動(dòng)作,這一工作使得算法在Atari游戲上達(dá)到了近似人類玩家的水平.
基于DQN的工作,后續(xù)還有人還提出了DDQN[2],Dueling DQN[3],Rainbow DQN[4]等工作,這些工作極大地改進(jìn)了基于值函數(shù)估計(jì)類算法的效果.不過(guò),這些工作的動(dòng)作空間都是離散的,智能體每次只能選擇有限的幾個(gè)動(dòng)作.然而,在實(shí)際的應(yīng)用場(chǎng)景下,更多的是需要強(qiáng)化學(xué)習(xí)算法處理連續(xù)控制任務(wù).比如無(wú)人機(jī)追逃控制[5],飛行器高度控制[6],機(jī)械臂軌跡規(guī)劃[7,8],無(wú)人機(jī)航跡規(guī)劃[9]等.
對(duì)于連續(xù)控制任務(wù)則無(wú)法直接使用DQN系列的算法,研究人員參考DQN系列算法值函數(shù)估計(jì)的思想,提出了DDPG算法[10],在DDPG算法的基礎(chǔ)上又提出了改進(jìn)的TD3算法[11]、SAC算法[12]和D4PG算法[13].這些算法的提出彌補(bǔ)了基于值函數(shù)估計(jì)算法在連續(xù)空間任務(wù)的空白,但是卻有著探索能力差的問(wèn)題,尤其是DDPG算法,由于算法每次輸出一個(gè)確定性的動(dòng)作而不是像PPO[14]這樣的基于策略梯度的算法一樣輸出一個(gè)正態(tài)分布,探索能力會(huì)很差.
DDPG系列算法在實(shí)際連續(xù)控制任務(wù)中的使用往往會(huì)受到算法探索能力不足的影響,對(duì)于一些需要探索的任務(wù),直接使用DDPG系列算法效果并不好.本文結(jié)合分?jǐn)?shù)階微積分理論,對(duì)整數(shù)階OU過(guò)程進(jìn)行分?jǐn)?shù)階推廣,使得噪聲的產(chǎn)生能夠和前K步相關(guān)聯(lián).實(shí)驗(yàn)表明,本文提出的分?jǐn)?shù)階推廣OU噪聲模型產(chǎn)生的噪聲能夠在慣性控制環(huán)境下促進(jìn)DDPG和TD3算法的探索,加快算法收斂,有利于算法在實(shí)際控制環(huán)境中的應(yīng)用.
2 相關(guān)工作
2.1 DDPG算法
DQN及其衍生算法很好地解決了離散動(dòng)作空間的強(qiáng)化學(xué)習(xí)任務(wù),但是卻無(wú)法處理連續(xù)動(dòng)作空間的任務(wù),如果強(qiáng)行使用這一系列的算法需要對(duì)動(dòng)作空間進(jìn)行離散化,而離散化又會(huì)面臨離散動(dòng)作過(guò)多的問(wèn)題.DDPG算法的作者認(rèn)為DQN很好地解決了過(guò)去一直不看好的使用神經(jīng)網(wǎng)絡(luò)擬合Q(s,a)函數(shù)的問(wèn)題,于是在DDPG中借鑒了DQN的離線訓(xùn)練和目標(biāo)Q網(wǎng)絡(luò)的思想.
對(duì)于離散動(dòng)作空間的控制,獲得了Q(s,a)函數(shù)后可以使用ε-greedy策略選取動(dòng)作,但是在連續(xù)空間使用這樣的策略卻是幾乎不可能的事情,為了進(jìn)行動(dòng)作選取,DDPG算法借鑒了DPG算法的actor-critic思想,使用策略梯度更新actor,使用貝爾曼等式來(lái)更新critic.
由于DDPG的動(dòng)作選取是一個(gè)確定性策略,而不是輸出一個(gè)策略分布,在連續(xù)控制問(wèn)題上會(huì)面臨探索不足的問(wèn)題,文章作者提出了使用Uhlenbeck-Ornstein過(guò)程產(chǎn)生的噪聲來(lái)輔助探索.
OU噪聲在慣性環(huán)境下的探索能力要強(qiáng)于正態(tài)噪聲,但是,我們發(fā)現(xiàn)通過(guò)對(duì)OU過(guò)程進(jìn)行分?jǐn)?shù)階推廣產(chǎn)生的分?jǐn)?shù)階OU噪聲在慣性環(huán)境下甚至具有更好的探索能力,能夠使得離線更新的算法更快地收斂.
2.2 TD3算法
DDPG算法已經(jīng)能夠解決很多連續(xù)控制問(wèn)題,但是除了探索能力不足之外還有錯(cuò)誤估計(jì)的問(wèn)題,也就是critic會(huì)高估某個(gè)狀態(tài)的Q值,這種估計(jì)誤差又會(huì)進(jìn)一步地放大,最終影響算法的表現(xiàn).
TD3算法參考了double-Qlearning[15]的雙critic的思想,使用裁剪雙Q學(xué)習(xí)的技巧,也就是通過(guò)對(duì)兩個(gè)critic的值取最小值來(lái)解決算法高估狀態(tài)帶來(lái)的偏差,雖然這樣可能會(huì)帶來(lái)低估的問(wèn)題,但是相比于高估狀態(tài)帶來(lái)的后果,低估的問(wèn)題是可以接受的.
TD3的作者認(rèn)為,如果算法對(duì)狀態(tài)價(jià)值的估計(jì)不準(zhǔn)確會(huì)導(dǎo)致策略網(wǎng)絡(luò)表現(xiàn)不佳,而較差的策略網(wǎng)絡(luò)又會(huì)進(jìn)一步導(dǎo)致價(jià)值估計(jì)不準(zhǔn)從而導(dǎo)致算法性能不佳.為了解決這個(gè)問(wèn)題,TD3提出了延遲策略更新(Delayed Policy Update)的技巧,也就是讓critic的更新頻率高于策略網(wǎng)絡(luò)的更新頻率,通過(guò)首先減少critic的估計(jì)誤差然后再訓(xùn)練策略網(wǎng)絡(luò)的思想提高算法的性能.
DDPG這樣的確定性策略算法每次只輸出一個(gè)確定性的動(dòng)作而不是動(dòng)作分布,這樣的算法很容易受到critic估計(jì)的誤差的影響而導(dǎo)致算法性能下降,為了解決這個(gè)問(wèn)題,TD3借鑒了SARSA算法[16]的思想,首先對(duì)動(dòng)作增加噪聲,然后再進(jìn)行裁剪,使得算法不容易受到critic的誤差影響.
TD3算法很好地解決了DDPG算法值函數(shù)估計(jì)的問(wèn)題,但是并沒(méi)有根本上解決DDPG探索不足的問(wèn)題,文章使用的獨(dú)立正態(tài)噪聲能夠一定程度上解決探索問(wèn)題,但是在慣性環(huán)境下,獨(dú)立的正態(tài)噪聲的探索能力仍然不足,本文提出的分?jǐn)?shù)階OU噪聲能夠促進(jìn)算法在慣性環(huán)境下更好地探索收斂得更快.
2.3 分?jǐn)?shù)階微積分
分?jǐn)?shù)階微積分是傳統(tǒng)的整數(shù)階微積分的推廣,和整數(shù)階微積分相比,分?jǐn)?shù)階微積分更加具有一般性.分?jǐn)?shù)階微積分有多種定義形式,研究中一般使用Grnwald-Letnikov[17],Riemann-Liouville[18]和Caputo[19]定義式.分?jǐn)?shù)階微積分具有非局部特性和長(zhǎng)時(shí)記憶性,使用分?jǐn)?shù)階微積分推廣的模型相比于整數(shù)階的數(shù)學(xué)模型在圖像處理和信號(hào)處理[20-22]中往往具有更好的效果.
由于Riemann-Liouville和Caputo定義式是積分形式不易離散化,文章使用G-L定義式來(lái)推廣OU噪聲.離散形式的函數(shù)f(x)的v階導(dǎo)數(shù)的G-L定義式如式(1).
算法1首先初始化全局的長(zhǎng)度為K 的數(shù)組x用于存放生成的噪聲,由于初始時(shí)刻x中并沒(méi)有保存歷史數(shù)據(jù),初始化設(shè)定為從標(biāo)準(zhǔn)正態(tài)分布中采樣.長(zhǎng)度為K 的數(shù)組mask用于存放分?jǐn)?shù)階權(quán)重模板,初始化為0.計(jì)算出權(quán)重模板后根據(jù)式(9)計(jì)算下一個(gè)噪聲并存入當(dāng)前index指向的位置.其中,maskx表示權(quán)重模板和歷史噪聲進(jìn)行卷積,N表示對(duì)標(biāo)準(zhǔn)正態(tài)分布進(jìn)行采樣x[t]表示上一次的噪聲數(shù)據(jù).最后對(duì)index進(jìn)行更新重復(fù)利用數(shù)組x.
4 實(shí)驗(yàn)與分析
分?jǐn)?shù)階OU噪聲是一種探索策略,為了測(cè)試這種噪聲的探索能力,本文選擇了離線策略(off-policy)連續(xù)控制的經(jīng)典算法DDPG以及基于DDPG的改進(jìn)算法TD3進(jìn)行實(shí)驗(yàn).需要注意的是,我們不選擇PPO這樣的在線(on-policy)算法是因?yàn)樘剿鞑呗院陀?xùn)練策略差異很大的時(shí)候在線算法根本不能訓(xùn)練.
為了證明分?jǐn)?shù)階OU噪聲在具有慣性的環(huán)境下能夠使得算法更好地探索,本文選擇了gym強(qiáng)化學(xué)習(xí)環(huán)境中的經(jīng)典控制游戲Pendulum-v0和Mountain Car Continuous-v0以及box2d的Lunar Lander Continuous-v2.Pendulum-v0任務(wù)要求將一根自然垂下的鐘擺立起來(lái),環(huán)境的輸入狀態(tài)是鐘擺的角度和角速度,環(huán)境的動(dòng)作是驅(qū)動(dòng)鐘擺旋轉(zhuǎn)的力矩大小.Lunar Lander Continious-v2的任務(wù)是控制著陸器的火箭噴口的方向和力道使得著陸器著陸,消耗的能量越少越好.Mountan Car Continuous-v0則是控制一輛動(dòng)力不足的小車?yán)脩T性沖上山坡.這個(gè)環(huán)境是三個(gè)環(huán)境中最需要探索的一個(gè)環(huán)境.如果探索得不好,算法將學(xué)不到任何關(guān)于環(huán)境的有用知識(shí),算法控制的小車將會(huì)在原點(diǎn)不斷地徘徊.
由于DDPG算法性能一般,選擇Pendulum-v0環(huán)境進(jìn)行對(duì)比實(shí)驗(yàn)即可.圖1是選取k=3,v=0.75,sigma=0.2的分?jǐn)?shù)階OU噪聲和sigma=0.2的原始OU噪聲隨機(jī)選取5個(gè)種子運(yùn)行10萬(wàn)次的結(jié)果.曲線比較平滑是因?yàn)閳D1中是對(duì)模型進(jìn)行無(wú)噪聲評(píng)估的數(shù)據(jù),不是原始的訓(xùn)練數(shù)據(jù),下同.
圖1展示了在Pendulumn-v0 環(huán)境下的對(duì)比實(shí)驗(yàn),由于環(huán)境本身比較簡(jiǎn)單,使用分?jǐn)?shù)階OU噪聲的DDPG智能體和使用原始OU噪聲的智能體表現(xiàn)沒(méi)有明顯的差異.
TD3算法選擇在LunarLanderContinuous-v2和MountainCarContinuous-v2作為對(duì)比環(huán)境.TD3算法在LularLanderContinuous-v2上隨機(jī)選取5個(gè)種子運(yùn)行50萬(wàn)次的數(shù)據(jù)如圖2.實(shí)驗(yàn)選取sigma=1.2,theta=0.15,k=3,v=0.75的分?jǐn)?shù)階OU噪聲,sigma=0.2的OU噪聲和sigma=0.2的原始正態(tài)噪聲進(jìn)行對(duì)比實(shí)驗(yàn).
圖2展示了在LunarLanderContinuous-v2環(huán)境下的結(jié)果,相比于Pendulum-v0,該環(huán)境要復(fù)雜許多,智能體需要更多的探索.從結(jié)果可以看出,使用分?jǐn)?shù)階OU噪聲的TD3智能體表現(xiàn)超過(guò)了使用OU噪聲和原始正態(tài)噪聲的智能體,算法收斂得更快.
TD3算法在MountainCarContinuous-v2上隨機(jī)選取5個(gè)種子運(yùn)行30萬(wàn)次的結(jié)果如圖3所示.實(shí)驗(yàn)選取k=3,v=0.75,sigma=0.6的分?jǐn)?shù)階OU噪聲和sigma=0.6的原始OU噪聲以及sigma=0.6的原始正態(tài)噪聲進(jìn)行對(duì)比實(shí)驗(yàn).
圖3展示了在MountainCarContinuous-v0環(huán)境下的對(duì)比結(jié)果.該環(huán)境是三個(gè)環(huán)境中最難的一個(gè),需要最多的探索.從圖3中我們可以看到,使用正態(tài)噪聲的TD3智能體在很長(zhǎng)時(shí)間內(nèi)幾乎學(xué)不到任何知識(shí),獲得的獎(jiǎng)勵(lì)一直接近0.而使用分?jǐn)?shù)階OU噪聲和原始OU噪聲的智能體則表現(xiàn)得更好更多.可以看出,基于分?jǐn)?shù)階微積分的OU噪聲能夠在具有慣性的環(huán)境中更好地鼓勵(lì)強(qiáng)化學(xué)習(xí)智能體進(jìn)行探索并更快地學(xué)習(xí).
為了探究分?jǐn)?shù)階OU噪聲、OU噪聲和正態(tài)噪聲在慣性環(huán)境下的探索能力區(qū)別的原因,本文生成了sigma=0.6的三種噪聲如圖4a~4c.
分析三種噪聲可以發(fā)現(xiàn):正態(tài)噪聲圍繞原點(diǎn)在正負(fù)兩個(gè)方向上分布,且靠近原點(diǎn)的噪聲點(diǎn)要多于遠(yuǎn)離原點(diǎn)的噪聲點(diǎn).這表明,如果將正態(tài)噪聲應(yīng)用在動(dòng)作空間上,算法會(huì)大量地探索輸出動(dòng)作附近正負(fù)兩個(gè)方向的動(dòng)作空間,但是對(duì)于偏遠(yuǎn)處動(dòng)作則很少探索到.
由微分方程可見(jiàn),OU噪聲是一種前后相關(guān)的帶有回歸性質(zhì)的噪聲,也就是說(shuō)噪聲偏離原點(diǎn)越多,下一個(gè)噪聲就越有可能回歸到原點(diǎn).同時(shí)也要注意到,OU噪聲雖然會(huì)回歸到原點(diǎn),但是在較長(zhǎng)的時(shí)間段內(nèi)都是在同一個(gè)方向探索.這就決定了使用OU噪聲的算法能夠在預(yù)測(cè)動(dòng)作的某一個(gè)方向進(jìn)行很好地探索,但是對(duì)于另一個(gè)方向卻容易出現(xiàn)欠缺探索的問(wèn)題.
對(duì)于分?jǐn)?shù)階OU噪聲,綜合上述圖的分析可以發(fā)現(xiàn),分?jǐn)?shù)階OU噪聲不僅具有類似于OU噪聲的前后相關(guān)和回歸性質(zhì),還克服了OU噪聲容易只探索一個(gè)方向的問(wèn)題.分?jǐn)?shù)階OU噪聲圍繞原點(diǎn)進(jìn)行大范圍的且前后相關(guān)的探索的性質(zhì)就決定了使用分?jǐn)?shù)階OU噪聲的算法能夠在預(yù)測(cè)動(dòng)作的兩側(cè)進(jìn)行足夠的探索,在具有慣性的環(huán)境下表現(xiàn)得更好.
5 結(jié) 論
本文將DDPG算法中使用的基于Ornstein-Uhlenbeck過(guò)程的OU噪聲進(jìn)行分?jǐn)?shù)階推廣得到探索能力更強(qiáng)的分?jǐn)?shù)階OU噪聲.通過(guò)在Pendulum-v0、LunarLanderContinuous-v2以及MountainCarContinuous-v0環(huán)境下進(jìn)行對(duì)比實(shí)驗(yàn),我們發(fā)現(xiàn)基于Ornstein-Uhlenbeck過(guò)程的OU噪聲使得DDPG和TD3算法在慣性環(huán)境下比正態(tài)噪聲具有更好探索能力.而基于分?jǐn)?shù)階微積分的推廣Ornstein-Uhlenbeck過(guò)程的分?jǐn)?shù)階OU噪聲,在使得DDPG和TD3算法在慣性環(huán)境下更好地探索.這一點(diǎn)上做得比原始OU噪聲更好,且使用分?jǐn)?shù)階OU噪聲的TD3算法在慣性環(huán)境下能夠更好地探索從而更快地學(xué)習(xí).
本文還通過(guò)分析分?jǐn)?shù)階OU噪聲、原始OU噪聲和正態(tài)噪聲的采樣點(diǎn)構(gòu)成的曲線得出了分?jǐn)?shù)階OU噪聲在慣性環(huán)境下探索的更好的原因是分?jǐn)?shù)階OU噪聲能夠圍繞原點(diǎn)進(jìn)行自相關(guān)的、大范圍的探索.
參考文獻(xiàn):
[1] Volodymyr M, Koray K, David S, et al. Human-level control through deep reinforcement learning [J].Nature, 2015, 518: 529.
[2] Hasselt H V, Guez A, Silver D. Deep reinforcement learning with double Q-learning [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 2094.
[3] Wang Z, Schaul T, Hessel M, et al. Dueling network architectures for deep reinforcement learning[C]//International Conference on Machine Learning. SAN DIEGO, CA: JMLR, 2016: 2939.
[4] Hessel M, Modayil J, Van Hasselt H, et al. Rainbow: combining improvements in deep reinforcement learning [C]//Thirty-second AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 3215.
[5] 符小衛(wèi), 徐哲, 王輝. 基于DDPG的無(wú)人機(jī)追捕任務(wù)泛化策略設(shè)計(jì)[J]. 西北工業(yè)大學(xué)學(xué)報(bào), 2022, 40: 9.
[6] 劉安林, 時(shí)正華. 基于DDPG策略的四旋翼飛行器目標(biāo)高度控制[J]. 陜西科技大學(xué)學(xué)報(bào), 2021, 39: 7.
[7] 張浩博, 仲志丹, 喬棟豪, 等. DDPG優(yōu)化算法的機(jī)械臂軌跡規(guī)劃[J]. 組合機(jī)床與自動(dòng)化加工技術(shù), 2021, 12: 37.
[8] 張良安, 唐鍇, 李鵬飛, 等. 基于復(fù)合擺線軌跡的四足機(jī)器人穩(wěn)定性分析[J]. 江蘇大學(xué)學(xué)報(bào): 自然科學(xué)版,? 2022, 43: 62.
[9] 高敬鵬, 胡欣瑜, 江志燁. 改進(jìn)DDPG無(wú)人機(jī)航跡規(guī)劃算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58: 264.
[10] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J/OL]. [2022-01-28].https://arxiv.org/abs/1509.02971.
[11] Fujimoto S, Hoof H, Meger D. Addressing function approximation error in actor-critic methods[C]//International Conference on Machine Learning. San Diego, CA: JMLR, 2018: 2587.
[12] Haarnoja T, Zhou A, Abbeel P, et al. Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor [C]//International Conference on Machine Learning. San Diego, CA: JMLR, 2018: 2976.
[13] Barth-Maron G, Hoffman M W, Budden D, et al. Distributed distributional deterministic policy gradients[C]//Proceedings of the 6th International Conference on Learning Representations.La Jolla, CA: OpenReview.net, 2018.
[14] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms [EB/OL]. https://arxiv.org/abs/1707.06347.
[15] Hasselt H. Double Q-learning [C]//Proceedings of the 23rd International Conference on Neural Information Processing Systems. La Jolla, CA: NIPS, 2010.
[16] Sutton R S, Barto A G. Introduction to reinforcement learning [M]. Cambridge: MIT Press, 1998.
[17] Oldham K B, Spanier J. The fractional calculus: integrations and differentiations of arbitrary order[M]. New York: Academic press, 1974: 47.
[18] Samko S G, Kilbas A A, Marichev O I. Fractional integrals and derivatives: theory and applications[M]. Yverdon-les-Bains, Switzerland: Gordon and Breach Science Publishers, 1993: 28.
[19] Podlubny I. Fractional differential equations: an introduction to fractional derivatives, fractional differential equations, to methods of their solution and some of their applications [M]. San Diego: Elsevier Science & Technology, 1998: 41.
[20] 蒲亦非. 將分?jǐn)?shù)階微分演算引入數(shù)字圖像處理[J]. 四川大學(xué)學(xué)報(bào): 工程科學(xué)版, 2007, 39: 9.
[21] 彭朝霞, 蒲亦非. 基于分?jǐn)?shù)階微分的卷積神經(jīng)網(wǎng)絡(luò)人臉識(shí)別[J]. 四川大學(xué)學(xué)報(bào):自然科學(xué)版, 2022, 59: 35.
[22] 蒲亦非, 余波, 袁曉. 類腦計(jì)算的基礎(chǔ)元件:從憶阻元到分憶抗元[J]. 四川大學(xué)學(xué)報(bào):自然科學(xué)版, 2020, 57: 8.
[23] Uhlenbeck G E, Ornstein L S. On the theory of the brownian motion[J]. Phys Rev, 1930, 5: 823.
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年2期