周江衛(wèi),關(guān)亞兵,白萬民,劉白林
(1.西安工業(yè)大學(xué) 新型網(wǎng)絡(luò)與檢測(cè)控制國家地方聯(lián)合工程實(shí)驗(yàn)室,西安 710021;2.西安工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710021)
強(qiáng)化學(xué)習(xí)作為一種可以做出連續(xù)決策的機(jī)器學(xué)習(xí)方法,以試錯(cuò)的機(jī)制與環(huán)境不斷進(jìn)行交互,通過最大化累積獎(jiǎng)勵(lì)來選擇最優(yōu)策略[1-3]。強(qiáng)化學(xué)習(xí)是目前機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一,已經(jīng)在工業(yè)制造、機(jī)器人控制、優(yōu)化調(diào)度等領(lǐng)域中取得良好的應(yīng)用。
Deep Mind團(tuán)隊(duì)創(chuàng)新性地將具有感知能力的深度學(xué)習(xí)和具有決策能力的強(qiáng)化學(xué)習(xí)結(jié)合,形成一種全新的算法,深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[4-6]。文獻(xiàn)[7-8]通過引入經(jīng)驗(yàn)回放機(jī)制打破了深度強(qiáng)化學(xué)習(xí)方法訓(xùn)練過程中樣本之間的相關(guān)性,解決了網(wǎng)絡(luò)訓(xùn)練難收斂問題。但是經(jīng)驗(yàn)回放機(jī)制只是對(duì)樣本同等頻率的回放[9],沒有考慮樣本的重要程度,使得網(wǎng)絡(luò)的訓(xùn)練過程是十分漫長的。文獻(xiàn)[10]提出了優(yōu)先經(jīng)驗(yàn)回放策略,利用樣本誤差(Temporal Difierence Error,TD_error)[11]作為優(yōu)先級(jí),主動(dòng)選擇對(duì)訓(xùn)練促進(jìn)作用大的樣本[12]。但該方法每次更新網(wǎng)絡(luò)權(quán)重之前,都要計(jì)算經(jīng)驗(yàn)池中所有樣本的TD_error,導(dǎo)致算法額外開銷大、時(shí)間復(fù)雜度高。
針對(duì)此問題,本文提出一種新型的二次采樣機(jī)制,在避免每次訓(xùn)練之前更新所有樣本的TD_error的情況下,通過提高TD_error值較大樣本的回放頻率,加快算法學(xué)習(xí)過程。并將本文所提出的方法應(yīng)用于OpenAI平臺(tái)[13]的Gym游戲,選用經(jīng)典的控制游戲汽車爬山(Mountain Car)和太空入侵者(Space Invader),驗(yàn)證本文所提出方法的可行性。
深度Q網(wǎng)絡(luò)(DeepQ-Network,DQN)直接從高維的輸入學(xué)習(xí)控制策略,使用帶參數(shù)θ的Q(st,at;θ)神經(jīng)網(wǎng)絡(luò)逼近值函數(shù),緩解了用非線性函數(shù)逼近器表示值函數(shù)時(shí)算法不穩(wěn)定的現(xiàn)象。深度Q網(wǎng)絡(luò)方法使用兩個(gè)網(wǎng)絡(luò)來分別表示當(dāng)前函數(shù)和目標(biāo)函數(shù),其中,采用實(shí)時(shí)方式更新當(dāng)前網(wǎng)絡(luò)參數(shù)θ,而目標(biāo)值網(wǎng)絡(luò)參數(shù)θ-則在L步后通過復(fù)制當(dāng)前值網(wǎng)絡(luò)參數(shù)θ得到。在每一個(gè)時(shí)間步t,通過不斷減小目標(biāo)函數(shù)和當(dāng)前值函數(shù)之間的均方誤差來更新參數(shù)θ。損失函數(shù)為
Q(st-1,at-1;θt))2]。
(1)
進(jìn)一步得到
Q(st-1,at-1;θt))θt(st-1,at-1θt),
(2)
θt+1=θt+?θtL(θt)。
(3)
深度Q網(wǎng)絡(luò)使用離策略,即通過貪心策略at+1=maxaQ(st,a;θ)估計(jì)最優(yōu)Q值,選擇動(dòng)作采用ε-貪心方法:以1-ε的概率隨機(jī)選擇動(dòng)作。
經(jīng)驗(yàn)回放機(jī)制(Experience Replay)[14]使用固定大小的緩沖區(qū)存放過去的樣本,將從環(huán)境中探索的每一個(gè)時(shí)間步的樣本et=(st,at,rt,st+1)存儲(chǔ)到經(jīng)驗(yàn)池中,從經(jīng)驗(yàn)池中以隨機(jī)的方式選取小批量樣本計(jì)算損失函數(shù)并更新網(wǎng)絡(luò)參數(shù),Agent可以在線地存儲(chǔ)和使用與環(huán)境交互得到的樣本。Agent采用隨機(jī)采樣,每個(gè)時(shí)間步等概率地抽取小批量樣本進(jìn)行訓(xùn)練,雖然經(jīng)驗(yàn)回放機(jī)制打破了樣本之間的相關(guān)性,使得訓(xùn)練過程更易于收斂,提高了數(shù)據(jù)利用率。然而,隨機(jī)化策略只是簡單地使用等概率地方式對(duì)經(jīng)驗(yàn)池中的樣本進(jìn)行采樣,沒有考慮樣本的重要程度。事實(shí)上,經(jīng)驗(yàn)池中的樣本對(duì)神經(jīng)網(wǎng)絡(luò)的參數(shù)訓(xùn)練的作用是有所不同的,有些樣本會(huì)產(chǎn)生較大的作用,有些則反之。然而隨機(jī)采樣機(jī)制并沒有區(qū)分樣本的重要程度。使得訓(xùn)練的效率并不高,訓(xùn)練過程周期較長。然而,具有大的獎(jiǎng)勵(lì)值的、嘗試成功的樣本是更有價(jià)值的。如果能根據(jù)樣本的重要性有側(cè)重的進(jìn)行回放,增加重要樣本的回放頻率,效果可以更好。
想要對(duì)樣本進(jìn)行有側(cè)重地回放,評(píng)價(jià)樣本的重要性就成了一個(gè)重要的問題。但是樣本的重要性又不可能直接訪問得到,比較合理的替代量是采用樣本的時(shí)間差誤差(TD_error,temporal-difference errorδ) 來表示重要性。在大多數(shù)強(qiáng)化學(xué)習(xí)算法中,TD_error通常用于更新動(dòng)作值函數(shù)Q(st,at),TD_error的值間接地反映了Agent從經(jīng)驗(yàn)中學(xué)到的程度,TD_error的絕對(duì)值越大,網(wǎng)絡(luò)權(quán)重更新的幅度越大。在這種情況下,具有較高TD_error的經(jīng)驗(yàn)更有可能具有較高的學(xué)習(xí)價(jià)值并與嘗試成功的經(jīng)驗(yàn)相關(guān)聯(lián)[15-16]。此外,TD_error負(fù)值較大的經(jīng)驗(yàn)是Agent學(xué)習(xí)不好的經(jīng)驗(yàn)。更多重播這些經(jīng)驗(yàn)將有助于Agent逐漸意識(shí)到錯(cuò)誤行為的真實(shí)后果,也可以避免犯同樣的錯(cuò)誤,改善整體表現(xiàn)。因此,表現(xiàn)不好的經(jīng)驗(yàn)也是具有很高的學(xué)習(xí)價(jià)值 。而且,算法中已經(jīng)計(jì)算了TD_error。所以在本文中,選擇TD_error的絕對(duì)值作為樣本優(yōu)劣性評(píng)價(jià)指標(biāo)。在樣本回放的過程中,樣本TD_error的絕對(duì)值越大,該樣本回放的概率就越大,回放的次數(shù)也會(huì)越多。時(shí)間差分誤差TD_error的計(jì)算方法為
δi=rt+γmaxatQ(st,at;θ-)-Q(st-1,at-1;θ)。
(4)
為了對(duì)樣本有側(cè)重地回放,縮短訓(xùn)練周期,本文采用二次采樣替代均勻隨機(jī)采樣機(jī)制,主要步驟為
① 把環(huán)境新產(chǎn)生的樣本加入每次迭代更新的小批量樣本,保證該樣本至少訓(xùn)練一次,從而最大限度地減少過擬合的可能;
② 從經(jīng)驗(yàn)池DN中從隨機(jī)抽取批量的樣本,使用分層采樣,把隨機(jī)抽取的樣本進(jìn)行分層,分為M-1層,且1≤j≤M-1。其中,j為層數(shù),M為批處理樣本的個(gè)數(shù);
③ 根據(jù)每層中樣本的采樣概率,從每層中抽取一個(gè)樣本。使用分層采樣,從每層中根據(jù)采樣概率選擇樣本。這樣便于根據(jù)樣本采樣概率進(jìn)行采樣,同時(shí)可以保證最終抽取的樣本不會(huì)出現(xiàn)重復(fù),豐富訓(xùn)練樣本的多樣性。樣本的采樣概率P(i)為
wi=|δi|+ε,
(5)
(6)
其中:|δi|表示TD_error的絕對(duì)值,P(i)為樣本i的采樣概率,指數(shù)σ用于控制優(yōu)先級(jí)使用程度,也就是決定優(yōu)先級(jí)所占比例,其取值范圍是[0,1]。ε是一個(gè)極小的正數(shù),目的是為了防止在TD_error逼近0的情況下,樣本的采樣概率逼近0。文獻(xiàn)[17]證明式(6)可使得采樣概率之間的差值更大,Agent也能從以往的樣本中更多的學(xué)習(xí)到獎(jiǎng)勵(lì)最大的狀態(tài)轉(zhuǎn)移,更快地找到最優(yōu)策略。從每層中根據(jù)采樣概率采樣,可使具備較大|δi|的樣本以更大的概率被回放,|δi|小的樣本以小概率被回放。同時(shí),在Q網(wǎng)絡(luò)更新時(shí),把最新產(chǎn)生的樣本加入每次迭代更新的訓(xùn)練樣本中,這樣可以保證該樣本至少被訓(xùn)練一次,從而保證了樣本的多樣性,最大程度地防止出現(xiàn)過擬合的問題。二次采樣機(jī)制在每次迭代更新抽取樣本的過程中,避免了更新經(jīng)驗(yàn)池中所有樣本的TD_error,僅僅需要更新第一次采集的樣本的TD_error。減小了計(jì)算量,降低的算法時(shí)間復(fù)雜度。本文將上述采樣機(jī)制應(yīng)用于深度Q網(wǎng)絡(luò),構(gòu)建了一個(gè)基于二次采樣的深度Q網(wǎng)絡(luò)(SubSampling DeepQNetwork,SS-DQN),SS-DQN的總體結(jié)構(gòu)如圖1所示。
圖1 SS-DQN方法的總體結(jié)構(gòu)
本文將二次采樣機(jī)制應(yīng)用到深度Q網(wǎng)絡(luò),構(gòu)建一種二次采樣的深度Q學(xué)習(xí)方法,其計(jì)算步驟如下:
2) 重復(fù)(對(duì)每個(gè)回合episode);
3) 初始化環(huán)境,得到初始狀態(tài)st;
4) 重復(fù)(對(duì)于回合中的每一個(gè)時(shí)間步);
5) 以ε-貪婪策略隨機(jī)選擇一個(gè)動(dòng)作at,或則at=argmaxaQ(st,at;θ);
6) 執(zhí)行動(dòng)作at后,觀察環(huán)境得到新狀態(tài)at+1和獎(jiǎng)賞值rt;
7) 將(st,at,rt,st+1)作為一個(gè)樣本存儲(chǔ)于經(jīng)驗(yàn)池DN,DM;
8) 從DN中隨機(jī)采樣(M-1)*k個(gè)樣本,均分成M-1份;
9) 重復(fù)(對(duì)M-1份中的每一份樣本集Mi);
10) 重復(fù)(對(duì)于每一份樣本集Mi中的每一個(gè)樣本);
11) 計(jì)算Mi中樣本Mij的TD_error:δij=rt+γmaxat)Q(st,at;θ-)-Q(st-1),at-1);θ);
12) 計(jì)算Mi中樣本Mij的重要性采樣權(quán)重wij=|δij|+ε;
13) 計(jì)算Mi中樣本Mij的采樣概率:
14) 根據(jù)采樣概率P(Mij),從Mi中選擇一個(gè)樣本放入DM;
15) 計(jì)算Q網(wǎng)絡(luò)標(biāo)簽
16) 用DM中的樣本計(jì)算損失函數(shù)yt-Q(st,at;θ))2來更新網(wǎng)絡(luò)參數(shù)θ;
在算法中,7)~13)步是二次采樣的過程:① 把新產(chǎn)生的樣本放入DM,保證該樣本至少被訓(xùn)練一次,從而最大限度地減小過擬合的可能;② 把從DN中采集的(M-1)*k個(gè)樣本均分為M-1份,計(jì)算每層中每個(gè)樣本的采樣概率,③ 在每層中根據(jù)采樣概率選擇一個(gè)樣本放入DM中。在14步中,每層中所有樣本的采樣概率累加等于1,在(0,1]之間選一個(gè)隨機(jī)數(shù)random,接下來遍歷每層中所有樣本的優(yōu)先級(jí),統(tǒng)計(jì)遍歷到的樣本優(yōu)先級(jí)之和,如果大于隨機(jī)數(shù)random,則選擇該樣本。在15步中,用經(jīng)驗(yàn)池DM中的樣本去更新神經(jīng)網(wǎng)絡(luò)的參數(shù)。
為驗(yàn)證改進(jìn)算法的有效性,實(shí)驗(yàn)在ubuntu18.04系統(tǒng)下,OpenAI Gym 強(qiáng)化學(xué)習(xí)工具包和Tensorflow-GPU 1.4平臺(tái)下搭建仿真環(huán)境,編程語言采用Python3.6,神經(jīng)網(wǎng)絡(luò)的優(yōu)化器為RMSprop,其動(dòng)量參數(shù)為0.95,隱藏層使用的激活函數(shù)為ReLU。實(shí)驗(yàn)主要有3個(gè)目的:① 比較SS-DNQ和DQN算法的性能;② 在SS-DQN算法下,分析決定優(yōu)先級(jí)重要性參數(shù)σ取不同值的效果;③ 驗(yàn)證每層中樣本的個(gè)數(shù)對(duì)SS-DQN算法性能的影響,找出效果較佳的值。
實(shí)驗(yàn)針對(duì)經(jīng)典控制問題Mountain Car驗(yàn)證SS-DQN算法的性能,實(shí)驗(yàn)所用Mountain Car場(chǎng)景如圖2所示。圖2中,汽車位于兩座“山”之間,即帶有坡面的谷底。目標(biāo)駛向右側(cè)的山峰,到達(dá)右側(cè)山峰的最高處(旗子位置)。汽車的引擎強(qiáng)度不足以單程通過山峰。因此,成功的唯一方法是來回驅(qū)動(dòng)以建立動(dòng)力。汽車有三個(gè)離散的動(dòng)作:分別是向左推、向右推、不推。在每個(gè)情節(jié)開始時(shí),賦予汽車一個(gè)隨機(jī)的的初始狀態(tài),再進(jìn)行訓(xùn)練。當(dāng)汽車達(dá)到目標(biāo)(旗子)位置或者每個(gè)情節(jié)的時(shí)間步大于8 000時(shí),該情節(jié)結(jié)束,并開始一個(gè)新的情節(jié)。設(shè)定小車能爬到右邊的山峰拿到旗子,給定一個(gè)+10的獎(jiǎng)勵(lì),當(dāng)小車沒有爬到右側(cè)的山峰拿到旗子給一個(gè) -1的獎(jiǎng)勵(lì)值。加大獎(jiǎng)勵(lì)差異有助于小車更快的學(xué)習(xí)到正確獲得旗子的策略[18]。設(shè)定的其它重要參數(shù)見表1。
圖2 Mountain Car場(chǎng)景示意
表1 Mountain Car場(chǎng)景下實(shí)驗(yàn)參數(shù)
在實(shí)驗(yàn)過程中,為避免偶然性,每種情況都被單獨(dú)執(zhí)行10次,求出均值。在Mountain Car場(chǎng)景下將DQN算法、SS-DQN算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖3所示。每個(gè)實(shí)驗(yàn)執(zhí)行1 000個(gè)獨(dú)立情節(jié),橫坐標(biāo)代表情節(jié)數(shù),縱坐標(biāo)代表訓(xùn)練所用時(shí)間步。
圖3 二次采樣與隨機(jī)采樣在DQN算法上的對(duì)比
從圖3中訓(xùn)練所用時(shí)間步可以發(fā)現(xiàn),在前200個(gè)情節(jié),DQN和SS-DQN所有時(shí)間步基本相同。但是,在200個(gè)情節(jié)后,SS-DQN所用時(shí)間步明顯少于DQN。曲線的斜率代表每個(gè)情節(jié)所用時(shí)間步,200個(gè)情節(jié)以后,SS-DQN曲線的斜率小于DQN曲線的斜率,SS-DQN每個(gè)情節(jié)所用時(shí)間步約是DQN的5倍。在每個(gè)情節(jié)中,SS-DQN能用較少的時(shí)間步到達(dá)山頂,拿到旗子。
圖4是在每層中樣本數(shù)量不變的情況下,指數(shù)σ取不同值的算法效果對(duì)比圖。
圖4 不同指數(shù)σ在DQN算法上的對(duì)比
從圖4可以觀察出,σ為0.5和0.7的曲線相互交織在一起,基本上是重合的。在前200個(gè)情節(jié)內(nèi),三條曲線都出現(xiàn)了波動(dòng),說明SS-DQN未學(xué)習(xí)到最優(yōu)策略,收斂性較差。在200情節(jié)以后,σ為0.6的曲線未再出現(xiàn)較大波動(dòng),同時(shí),σ為0.5和0.7的曲線偶爾還會(huì)出現(xiàn)波動(dòng)。并且,訓(xùn)練相同的情節(jié),指數(shù)σ取值為0.6時(shí),所用總的時(shí)間步最少。指數(shù)σ決定了優(yōu)先級(jí)所占比例,指數(shù)σ越大,優(yōu)先級(jí)所占比例越大。在進(jìn)行第二次采樣的過程中,指數(shù)σ越大,每層中TD_error大的樣本,被采樣的概率就會(huì)增大。而TD_error小的樣本被采樣的概率就減??;指數(shù)σ越小,每層中TD_error大的樣本,被采樣的概率就會(huì)減小。而TD_error小的樣本被采樣的概率就增大;為了保證每次迭代更新網(wǎng)絡(luò)參數(shù)時(shí),采集的訓(xùn)練樣本的多樣性,需要采集的訓(xùn)練樣本中TD_error大的樣本和TD_error小的樣本有一個(gè)合適的比例。雖然TD_error大的樣本對(duì)agent訓(xùn)練有更大的促進(jìn)作用,但是訓(xùn)練樣本的多樣性也是影響agent訓(xùn)練效果的一個(gè)重要因素。實(shí)驗(yàn)結(jié)果表明指數(shù)σ取值為0.6時(shí),訓(xùn)練的網(wǎng)絡(luò)收斂速度快,學(xué)習(xí)時(shí)間短。
表2是在指數(shù)σ保持不變的情況下,比較每層中樣本數(shù)量對(duì)算法性能的影響。通過表2分析可以得到,當(dāng)每層中樣本的數(shù)量為15的時(shí)候,效果比較理想,SS-DQN算法能更快收斂,找到最優(yōu)策略。每層中樣本的數(shù)量增大時(shí),由于二次采樣是根據(jù)采樣概率從每層中選擇一個(gè)樣本,這樣可能導(dǎo)致優(yōu)先級(jí)高的樣本更多地回放,優(yōu)先級(jí)低的樣本幾乎不被回放;其次,在初始深度Q網(wǎng)絡(luò)沒有訓(xùn)練好的情況下,TD_error估計(jì)誤差較大,使得樣本的優(yōu)先級(jí)計(jì)算不準(zhǔn)確,導(dǎo)致無法保證樣本的多樣性,使得訓(xùn)練易出現(xiàn)過擬合。
表2 在不同采樣數(shù)量下運(yùn)行1 000個(gè)情節(jié)所用時(shí)間步
本實(shí)驗(yàn)采用Play Atari 2600游戲中的SpaceInvader作為實(shí)驗(yàn)環(huán)境。SpaceInvader環(huán)境是控制一架能在水平線上的飛機(jī),擊落在畫面中的敵方飛機(jī)。如果我方的飛機(jī)被對(duì)方子彈打中,該游戲結(jié)束。
在Gym包中,由于各個(gè)游戲所獲得的獎(jiǎng)勵(lì)值差異較大,這會(huì)影響到最終網(wǎng)絡(luò)輸出的Q值,進(jìn)一步影響動(dòng)作的選擇,為了縮小Q值的范圍,對(duì)實(shí)驗(yàn)中每一步的獎(jiǎng)勵(lì)值進(jìn)行歸一化處理,所有大于1的獎(jiǎng)勵(lì)值設(shè)為1,所有小于-1的獎(jiǎng)勵(lì)值設(shè)為-1,處于[-1,1]之間的獎(jiǎng)勵(lì)值不變。Gym提供的Atari 2600游戲圖像大小是210×160×3。為了方便圖像處理,將圖像像素預(yù)處理為84×84的灰度圖像,并以處理過以后的4幅圖像作為網(wǎng)絡(luò)的輸入。在實(shí)驗(yàn)中,ε-貪婪策略的參數(shù)從1下降到0.1,其他一些參數(shù)的設(shè)置見表3
表3 SpaceInvader下實(shí)驗(yàn)參數(shù)
在實(shí)驗(yàn)過程中,為了避免偶然性,每種情況都被單獨(dú)執(zhí)行10次,求出均值。在SpaceInvaders場(chǎng)景下將DQN算法、SS-DQN算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖5所示。每個(gè)實(shí)驗(yàn)執(zhí)行2000個(gè)獨(dú)立情節(jié),橫坐標(biāo)是情節(jié)數(shù),縱坐標(biāo)是訓(xùn)練累積獎(jiǎng)勵(lì)值。
圖5 SpaceInvaders游戲上二次采樣與隨機(jī)采樣在DQN算法上的對(duì)比
從圖5中SpaceInvaders游戲的累積獎(jiǎng)賞圖可以發(fā)現(xiàn),在前800個(gè)情節(jié),SS-DQN和DQN算法使得SpaceInvaders游戲獲得獎(jiǎng)勵(lì)值差別不大,但是在800個(gè)情節(jié)以后,SS-DQN算法的所得累積獎(jiǎng)勵(lì)值高于DQN算法。值得注意的是,SS-DQN算法在每次訓(xùn)練更新樣本的時(shí),通過采樣概率選擇信息量高的樣本,使得SS-DQN算法收斂速度快于DQN,效果自然優(yōu)與DQN算法。
1) 本文針對(duì)DQN算法中隨機(jī)采樣機(jī)制未考慮樣本的重要性,無法有側(cè)重地進(jìn)行回放的問題。提出了一種基于二次采樣機(jī)制的DQN方法SS-DQN,SS-DQN可以使得agent選擇價(jià)值更好的樣本訓(xùn)練Q網(wǎng)絡(luò)。在OpenAI Gym提供的Mountain Car強(qiáng)化學(xué)習(xí)環(huán)境下,對(duì)比DQN、SS-DQN訓(xùn)練所用時(shí)間步,同時(shí)在SpaceInvaders場(chǎng)景下,對(duì)比DQN、SS-DQN在相同的情節(jié)下獲得的累積獎(jiǎng)勵(lì)。為了學(xué)習(xí)到更佳的策略,縮短訓(xùn)練周期,同時(shí)詳細(xì)分析了決定優(yōu)先級(jí)重要性指數(shù)σ 、每層中樣本數(shù)量這兩個(gè)參數(shù)對(duì)算法性能的影響,并進(jìn)行實(shí)驗(yàn),對(duì)這兩個(gè)參數(shù)的取值分別進(jìn)行了對(duì)比。
2) Mountain Car實(shí)驗(yàn)結(jié)果表明SS-DQN可采用較少時(shí)間步得出最佳策略。SpaceInvaders實(shí)驗(yàn)結(jié)果表明,SS-DQN可更快的學(xué)習(xí)到最佳策略。
3) 文中SS-DQN方法提高了訓(xùn)練效率,但是穩(wěn)定性需要進(jìn)一步提升??梢圆捎媒?jīng)驗(yàn)來協(xié)助訓(xùn)練出模型初始參數(shù)。