張文旭,馬磊,王曉東
(西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)
基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究
張文旭,馬磊,王曉東
(西南交通大學(xué) 電氣工程學(xué)院,四川 成都610031)
本文針對多智能體強(qiáng)化學(xué)習(xí)中存在的通信和計(jì)算資源消耗大等問題,提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層方面的研究。在智能體與環(huán)境的交互過程中,算法基于事件驅(qū)動(dòng)的思想,根據(jù)智能體觀測信息的變化率設(shè)計(jì)觸發(fā)函數(shù),使學(xué)習(xí)過程中的通信和學(xué)習(xí)時(shí)機(jī)無需實(shí)時(shí)或按周期地進(jìn)行,故在相同時(shí)間內(nèi)可以降低數(shù)據(jù)傳輸和計(jì)算次數(shù)。另外,分析了該算法的計(jì)算資源消耗,以及對算法收斂性進(jìn)行了論證。最后,仿真實(shí)驗(yàn)說明了該算法可以在學(xué)習(xí)過程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解了通信和計(jì)算資源消耗。
事件驅(qū)動(dòng);多智能體;強(qiáng)化學(xué)習(xí);分布式馬爾科夫決策過程;收斂性
近年來,基于事件驅(qū)動(dòng)的方法在多智能體研究中得到廣泛關(guān)注[1-3]。在事件驅(qū)動(dòng)的思想中,智能體可以根據(jù)測量誤差間歇性的更新狀態(tài),減少通信次數(shù)和計(jì)算量。文獻(xiàn)[4]首次在多智能體系統(tǒng)的協(xié)作中運(yùn)用事件驅(qū)動(dòng)的策略,并設(shè)計(jì)了基于事件驅(qū)動(dòng)機(jī)制的狀態(tài)反饋控制器。隨后,文獻(xiàn)[5-7]將基于事件驅(qū)動(dòng)的控制器擴(kuò)展到非線性系統(tǒng),以及復(fù)雜網(wǎng)絡(luò)等領(lǐng)域。但是,目前事件驅(qū)動(dòng)與強(qiáng)化學(xué)習(xí)的結(jié)合還相對不足[8-9],并主要集中在對多智能體的控制器設(shè)計(jì)上,較少有學(xué)者關(guān)注其在學(xué)習(xí)策略層的應(yīng)用。在現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)算法中,由于智能體攜帶的通信設(shè)備和微處理器性能有限,其學(xué)習(xí)過程中通常存在兩個(gè)問題:1)智能體間的信息交互需占用較大的通信帶寬;2)在學(xué)習(xí)的試錯(cuò)和迭代過程中,消耗了大量的計(jì)算資源。以上問題都將減少智能體的工作時(shí)間,或增加設(shè)計(jì)上的復(fù)雜性。本文區(qū)別于傳統(tǒng)的多智能體學(xué)習(xí)算法,側(cè)重于事件驅(qū)動(dòng)在多智能體學(xué)習(xí)策略層的研究,首先從自觸發(fā)和聯(lián)合觸發(fā)兩個(gè)方面定義觸發(fā)函數(shù),然后在分布式馬爾可夫模型中設(shè)計(jì)了基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,最后對算法的收斂性進(jìn)行了論證。
1.1 分布式馬爾可夫模型
1.2Q-學(xué)習(xí)
文獻(xiàn)[11]提出了一類通過引入期望的延時(shí)回報(bào),求解無完全信息的MDPs類問題的方法,稱為Q-學(xué)習(xí)(Q-learning)。Q-學(xué)習(xí)是一種模型無關(guān)的強(qiáng)化學(xué)習(xí)方法,通過對狀態(tài)-動(dòng)作對的值函數(shù)進(jìn)行估計(jì),以求得最優(yōu)策略。Q-學(xué)習(xí)算法的基本形式如下:
Q*(s,a)=R(s,a)+γ∑s′∈SP(s,a,s′)maxQ*(s′,a′)
式中:Q*(s,a)表示智能體在狀態(tài)s下采用動(dòng)作a所獲得的獎(jiǎng)賞折扣總和;γ為折扣因子;P(s,a,s′)表示概率函數(shù);最優(yōu)策略為智能體在狀態(tài)s下選用Q值最大的策略。Q-學(xué)習(xí)存在的最大問題為,智能體需要通過試錯(cuò)的方式找到最優(yōu)策略,這樣的方式使得Q-學(xué)習(xí)需要考慮所有的可能策略,從而需要消耗大量計(jì)算資源。
在事件驅(qū)動(dòng)思想中,智能體把從環(huán)境中得到的觀測誤差作為重要的評(píng)判標(biāo)準(zhǔn),當(dāng)它超過一個(gè)預(yù)設(shè)的閾值時(shí)事件被觸發(fā),智能體更新狀態(tài)并計(jì)算聯(lián)合策略,而事件觸發(fā)的關(guān)鍵在于對觸發(fā)函數(shù)的設(shè)計(jì)。
2.1 自事件觸發(fā)設(shè)計(jì)
DEC-MDPs模型中,每一個(gè)智能體通過獨(dú)立的觀測獲取局部信息,然后廣播到全隊(duì),所以每一個(gè)智能體首先需要自觸發(fā)設(shè)計(jì)。在時(shí)刻t,當(dāng)每一個(gè)智能體觀測結(jié)束后,其根據(jù)上一刻觀測與當(dāng)前觀測的變化率,進(jìn)行一次自觸發(fā)過程,智能體用自觸發(fā)方式來判斷是否需要廣播自身的觀測信息。智能體i從t-1時(shí)刻到t時(shí)刻的觀測變化率定義為
式中:oi(t)為在t時(shí)刻的觀測值。定義0 2.2 聯(lián)合事件觸發(fā)設(shè)計(jì) 聯(lián)合事件觸發(fā)的對象是智能體團(tuán)隊(duì),考慮的是一個(gè)聯(lián)合觀測的變化情況。假設(shè)在時(shí)刻t智能體團(tuán)隊(duì)獲得當(dāng)前的聯(lián)合觀測O(t)=(O1(t),O2(t),…,On(t))。此時(shí),智能體團(tuán)隊(duì)從t-1時(shí)刻到t時(shí)刻的聯(lián)合觀測變化率定義為 式中:p=1/n為ei(t)的分布律,令 定義0 自事件觸發(fā)和聯(lián)合事件觸發(fā)的區(qū)別在于: 1)自事件觸發(fā)的對象是單個(gè)智能體,對應(yīng)的事件由智能體自身的觀測變化率所觸發(fā),觸發(fā)后的行動(dòng)為進(jìn)行廣播式通信,自事件觸發(fā)的目的是為了減少通信資源消耗;而聯(lián)合事件觸發(fā)針對的是智能體團(tuán)隊(duì)的聯(lián)合觀測變化率,觸發(fā)后的行動(dòng)是計(jì)算聯(lián)合策略,目的在于減少計(jì)算資源消耗。 2)當(dāng)單個(gè)智能體的觀測發(fā)生變化時(shí),并不一定導(dǎo)致團(tuán)隊(duì)的聯(lián)合觀測變化率發(fā)生較大改變。即當(dāng)環(huán)境整體發(fā)生變化時(shí),雖然每一個(gè)智能體的觀測都發(fā)生了變化,但對聯(lián)合觀測而言,所有智能體在兩個(gè)時(shí)刻的變化率相對無變化,所以制定的聯(lián)合策略可能無明顯變化,此時(shí)也認(rèn)為智能體團(tuán)隊(duì)不需要被觸發(fā)。比如在機(jī)器人足球問題中,t-1時(shí)刻機(jī)器人團(tuán)隊(duì)的聯(lián)合策略為,機(jī)器人A帶球行動(dòng)且其他隊(duì)友跑位行動(dòng)。到t時(shí)刻后,機(jī)器人A和其他機(jī)器人的觀測(雙方機(jī)器人的站位和距離)都發(fā)生了較大變化,機(jī)器人團(tuán)隊(duì)在通過廣播通信獲得全局觀測信息后,根據(jù)觀測信息進(jìn)行判斷,兩個(gè)時(shí)刻雙方機(jī)器人的相對站位和相對距離可能無大變化。此時(shí),如果團(tuán)隊(duì)計(jì)算新的聯(lián)合策略,也將是機(jī)器人A帶球且其他隊(duì)友跑位,與t-1時(shí)刻的聯(lián)合策略相同。所以,認(rèn)為團(tuán)隊(duì)在t時(shí)刻無需計(jì)算新的聯(lián)合策略,可以直接使用上一刻的策略。圖1為事件觸發(fā)流程圖。 圖1 事件觸發(fā)流程圖Fig.1 The flow chart of event-triggered 本節(jié)介紹了基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法,以及對事件驅(qū)動(dòng)下計(jì)算資源消耗進(jìn)行了分析,同時(shí)對算法的收斂性進(jìn)行了論證。 3.1 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)設(shè)計(jì) 在完全通信情況下,DEC-MDPs被簡化為M-MDPs模型,所以直接考慮基于事件驅(qū)動(dòng)的多智能體馬爾可夫模型(event-triggered M-MDPs),其由一個(gè)六元組〈I,{S},{Ai},P,R,e〉構(gòu)成,其中e表示事件觸發(fā)函數(shù),當(dāng)團(tuán)隊(duì)的觸發(fā)函數(shù)大于閾值時(shí),團(tuán)隊(duì)被觸發(fā)并執(zhí)行聯(lián)合行動(dòng)策略,同時(shí)發(fā)生狀態(tài)轉(zhuǎn)移,轉(zhuǎn)移函數(shù)為P={st+1|st,a,e}?;谑录?qū)動(dòng)的強(qiáng)化學(xué)習(xí)過程不同于經(jīng)典的強(qiáng)化學(xué)習(xí),如圖2所示,智能體需要首先根據(jù)觸發(fā)函數(shù)來判斷事件是否被觸發(fā),如果被觸發(fā)才執(zhí)行一個(gè)聯(lián)合行動(dòng)并影響環(huán)境。 圖2 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)框架Fig.2 The frame of reinforcement learning with event-triggered 對于任意一個(gè)策略和下一個(gè)狀態(tài),在狀態(tài)s的值和后繼狀態(tài)值之間存在如下關(guān)系: (a)傳統(tǒng)的Q-學(xué)習(xí) (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)圖3 兩種方式回溯圖Fig.3 The backtracking of two methods 根據(jù)貝爾曼迭代,Q值逐漸收斂到一個(gè)最優(yōu)Q值,在傳統(tǒng)的強(qiáng)化學(xué)習(xí)中,每一個(gè)學(xué)習(xí)步智能體都需要通過查表方式找到最大的Q值,其迭代表達(dá)式為 事件驅(qū)動(dòng)的思路則不同,當(dāng)智能體沒有被觸發(fā)情況下,將直接選用上一個(gè)Q值作為當(dāng)前的Q值,在基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)中,Q值迭代過程可以表示為 式中k表示上次觸發(fā)時(shí)刻和當(dāng)前時(shí)刻的差值。 3.2 計(jì)算資源消耗 對于基于事件驅(qū)動(dòng)的決策樹,在智能體不被驅(qū)動(dòng)的樹層中,下一刻狀態(tài)將直接等于當(dāng)前狀態(tài),即st+1=st,狀態(tài)轉(zhuǎn)移概率為 3.3 算法收斂性分析 智能體每次的策略評(píng)估,即策略迭代,都是從前一個(gè)策略的值函數(shù)開始。在事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)中,智能體只有在觀測信息變化情況下,才更新信念空間并進(jìn)行策略評(píng)估,否則直接使用上一時(shí)刻的策略。假設(shè)在t時(shí)刻,智能體沒有被事件所觸發(fā),那么智能體在t時(shí)刻不參與式(9)的迭代,直接使用t-1時(shí)刻迭代后的Q值。此時(shí),在達(dá)到最優(yōu)策略的過程中,Q值的迭代計(jì)算過程由每一時(shí)刻都計(jì)算,減少為事件觸發(fā)時(shí)刻才計(jì)算。 如圖4(a)和式(10)所示,Q值從初始到收斂至最優(yōu)Q*的過程,是一個(gè)漸進(jìn)收斂的過程,Q值通過迭代,從t-1時(shí)間到t時(shí)刻逐漸接近最優(yōu);如圖4(b)和式(11)所示,在智能體不被驅(qū)動(dòng)的情況下,Q值不進(jìn)行迭代,在t-1時(shí)刻直接使用t時(shí)刻的Q值,減少了Q值的迭代計(jì)算。 (a)經(jīng)典的Q-學(xué)習(xí)策略迭代 (b)基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)策略迭代圖4 兩種方式策略迭代Fig.4 Policy iteration of two methods 推論1 基于事件驅(qū)動(dòng)的Q-學(xué)習(xí)算法,不會(huì)影響算法的收斂性。 1)對所有的U1和U2∈F0,對所有的x∈χ, 2)對所有的U和V∈F0,對所有的x∈χ, Ft(x)(‖v*-V‖ 式中:當(dāng)t→時(shí),λt以概率1收斂到0。 3)對所有的k>0,當(dāng)t→時(shí)收斂到0。 4)當(dāng)t→時(shí),存在0≤γ<1對所有的x∈X有 Gt(x)δt(x)+Ft(x)‖v*-Vt‖ 在滿足條件1)和2)的情況下,雖然基于事件驅(qū)動(dòng)的動(dòng)作序列T中有相同的動(dòng)作Tk=Tk+1,但仍然滿足李普西斯條件,所以不會(huì)影響Q-學(xué)習(xí)的收斂,證畢。 考慮一個(gè)多智能體覆蓋問題,2個(gè)智能體隨機(jī)出現(xiàn)在一個(gè)大小為10×10的格子世界中,如圖5所示。每一個(gè)智能體都有上下左右4個(gè)行動(dòng),且觀測范圍為自身周圍一圈共8個(gè)格子,觀測到的格子分為“沒走過”“走過”和“障礙物”3個(gè)狀態(tài),分別對應(yīng)著30、-5和-10的回報(bào)值,世界的邊界對智能體作為障礙物;且每一個(gè)智能體可以進(jìn)行廣播式通信。在這個(gè)場景中,每一個(gè)智能體獲得的是一個(gè)局部觀測,當(dāng)它們進(jìn)行廣播通信后,對于整個(gè)世界,獲得的仍然是一個(gè)局部的觀測。但考慮到對整個(gè)世界的全局觀測需要極大的計(jì)算量,所以實(shí)驗(yàn)設(shè)定每一時(shí)刻當(dāng)兩個(gè)智能體通信后,所獲得的信息對它們而言是一個(gè)全局觀測。 智能體團(tuán)隊(duì)的任務(wù)為盡快走完所有的格子,即完成對格子世界的覆蓋,當(dāng)走過的格子超過90%以上,認(rèn)為此次覆蓋任務(wù)成功,當(dāng)智能體在1 000步仍不能完成90%的覆蓋時(shí),認(rèn)為此次任務(wù)失敗。其中定義學(xué)習(xí)率為0.6,折扣因子為0.2。 圖5 多智能體覆蓋問題Fig.5 The coverage problem of multi-agent 圖6比較了事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)任務(wù)成功率,可以看出兩種算法成功率一致,但是由于Q值迭代次數(shù)減少,使得事件驅(qū)動(dòng)Q-學(xué)習(xí)的收斂速度變慢。 圖6 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的成功率Fig.6 The success rate of event-triggered Q and classical Q 圖7說明了聯(lián)合觸發(fā)函數(shù)與算法收斂速度的關(guān)系,可以看出聯(lián)合觸發(fā)函數(shù)選取越小,算法收斂性越慢。因?yàn)槁?lián)合觸發(fā)函數(shù)越小,事件觸發(fā)的次數(shù)就越少,從而導(dǎo)致Q值迭代次數(shù)減少,收斂速度變慢。 圖7 聯(lián)合觸發(fā)函數(shù)與收斂速度Fig.7 The joint event-triggered function and convergence speed 在學(xué)習(xí)過程中,智能體團(tuán)隊(duì)在每一步需要遍歷Q值數(shù)量為(38×4)2≈229.3次,由表1可以看出,隨著學(xué)習(xí)步數(shù)的增加,事件驅(qū)動(dòng)將大量減小Q值的遍歷次數(shù),繼而減少計(jì)算資源占用,相比較傳統(tǒng)的Q-學(xué)習(xí)存在明顯的優(yōu)勢。 表1 事件驅(qū)動(dòng)傳統(tǒng)Q-學(xué)習(xí)遍歷次數(shù) Table 1 The number of traverse of event-triggered and classicalQ 步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少總遍歷次數(shù)50≈229.3×50≈229.3×42≈232.3100≈229.3×100≈229.3×79≈233.6200≈229.3×200≈229.3×153≈234.9300≈229.3×300≈229.3×221≈235.6500≈229.3×500≈229.3×386≈236.2 表2比較了在一次成功的任務(wù)中,事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)的通信次數(shù)??梢钥闯?,事件驅(qū)動(dòng)減少了智能體間的通信次數(shù)。同時(shí)與表1比較,可以看出自事件觸發(fā)和聯(lián)合事件觸發(fā)次數(shù)的區(qū)別。 表2 事件驅(qū)動(dòng)與傳統(tǒng)Q-學(xué)習(xí)通信次數(shù) Table 2 The number of communication of event-triggered and classicalQ 步數(shù)Q-學(xué)習(xí)事件驅(qū)動(dòng)Q-學(xué)習(xí)減少通信次數(shù)50504551001008911200200172283003002584250050041090 本文提出了一種基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)算法,側(cè)重于多智能體在學(xué)習(xí)策略層的事件驅(qū)動(dòng)研究。智能體在與環(huán)境的交互中,可以根據(jù)觀測的變化來觸發(fā)通信和學(xué)習(xí)過程。在相同時(shí)間內(nèi),采用事件驅(qū)動(dòng)可以降低數(shù)據(jù)傳輸次數(shù),節(jié)約通信資源;同時(shí),智能體不需要每一時(shí)刻進(jìn)行試錯(cuò)和迭代,進(jìn)而減少計(jì)算資源。最后,對算法的收斂性進(jìn)行了論證,仿真結(jié)果表明事件驅(qū)動(dòng)可以在學(xué)習(xí)過程中減少一定的通信次數(shù)和策略遍歷次數(shù),進(jìn)而緩解通信和計(jì)算資源消耗。進(jìn)一步工作主要基于現(xiàn)有的研究,將事件驅(qū)動(dòng)的思想應(yīng)用于不同類的強(qiáng)化學(xué)習(xí)方法中,并結(jié)合事件驅(qū)動(dòng)的特點(diǎn)設(shè)計(jì)更合理的觸發(fā)函數(shù)。 [1]ZHU Wei, JIANG ZhongPing, FENG Gang. Event-based consensus of multi-agent systems with general linear models[J]. Automatica, 2014, 50(2): 552-558. [2]FAN Yuan, FENG Gang, WANG Yong, et al. Distributed event-triggered control of multi-agent systems with combinational measurements[J]. Automatica, 2013, 49(2): 671-675. [3]WANG Xiaofeng, LEMMON M D. Event-triggering in distributed networked control systems[J]. IEEE transactions on automatic control, 2011, 56(3): 586-601. [4]TABUADA P. Event-triggered real-time scheduling of stabilizing control tasks[J]. IEEE transactions on automatic control, 2007, 52(9): 1680-1685. [5]ZOU Lei, WANG Zidong, GAO Huijun, et al. Event-triggered state estimation for complex networks with mixed time delays via sampled data information: the continuous-time case[J]. IEEE transactions on cybernetics, 2015, 45(12): 2804-2815. [6]SAHOO A, XU Hao, JAGANNATHAN S. Adaptive neural network-based event-triggered control of single-input single-output nonlinear discrete-time systems[J]. IEEE transactions on neural networks and learning systems, 2016, 27(1): 151-164. [7]HU Wenfeng, LIU Lu, FENG Gang. Consensus of linear multi-agent systems by distributed event-triggered strategy[J]. IEEE transactions on cybernetics, 2016, 46(1): 148-157. [8]ZHONG Xiangnan, NI Zhen, HE Haibo, et al. Event-triggered reinforcement learning approach for unknown nonlinear continuous-time system[C]//Proceedings of 2014 International Joint Conference on Neural Networks. Beijing, China, 2014: 3677-3684. [9]XU Hao, JAGANNATHAN S. Near optimal event-triggered control of nonlinear continuous-time systems using input and output data[C]//Proceedings of the 11th World Congress on Intelligent Control and Automation. Shenyang, China, 2014: 1799-1804. [10]BERNSTEIN D S, GIVAN R, IMMERMAN N, et al. The complexity of decentralized control of Markov decision processes[J]. Mathematics of operations research, 2002, 27(4): 819-840. [11]WATKINS C J C H, DAYAN P.Q-learning[J]. Machine learning, 1992, 8(3/4): 279-292. Reinforcement learning for event-triggered multi-agent systems ZHANG Wenxu, MA Lei, WANG Xiaodong (School of Electrical Engineering,Southwest Jiaotong University, Chengdu 610031, China) Focusing on the existing multi-agent reinforcement learning problems such as huge consumption of communication and calculation, a novel event-triggered multi-agent reinforcement learning algorithm was presented. The algorithm focused on an event-triggered idea at the strategic level of multi-agent learning. In particular, during the interactive process between agents and the learning environment, the communication and learning were triggered through the change rate of observation.Using an appropriate event-triggered design, the discontinuous threshold was employed, and thus real-time or periodical communication and learning can be avoided, and the number of communications and calculations were reduced within the same time. Moreover, the consumption of computing resource and the convergence of the proposed algorithm were analyzed and proven. Finally, the simulation results show that the number of communications and traversals were reduced in learning, thus saving the computing and communication resources. event-triggered; multi-agent; reinforcement learning;decentralized Markov decision processes;convergence 張文旭,男,1985年生,博士研究生,主要研究方向?yàn)槎嘀悄荏w系統(tǒng)、機(jī)器學(xué)習(xí)。發(fā)表論文4篇,其中被EI檢索4篇。 馬磊,男,1972年生,教授,博士,主要研究方向?yàn)榭刂评碚摷捌湓跈C(jī)器人、新能源和軌道交通系統(tǒng)中的應(yīng)用等。主持國內(nèi)外項(xiàng)目14項(xiàng),發(fā)表論文40余篇,其中被EI檢索37篇。 王曉東,男,1992年生,碩士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)。獲得國家發(fā)明型專利3項(xiàng),發(fā)表論文4篇。 10.11992/tis.201604008 http://kns.cnki.net/kcms/detail/23.1538.TP.20170301.1147.002.html 2016-04-05. 日期:2017-03-01. 國家自然科學(xué)基金青年項(xiàng)目(61304166). 張文旭.Email: wenxu_zhang@163.com. TP181 A 1673-4785(2017)01-0082-06 張文旭,馬磊,王曉東. 基于事件驅(qū)動(dòng)的多智能體強(qiáng)化學(xué)習(xí)研究[J]. 智能系統(tǒng)學(xué)報(bào), 2017, 12(1): 82-87. 英文引用格式:ZHANG Wenxu, MA Lei, WANG Xiaodong. Reinforcement learning for event-triggered multi-agent systems[J]. CAAI transactions on intelligent systems, 2017, 12(1): 82-87.3 基于事件驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)
4 仿真結(jié)果及分析
5 結(jié)束語