国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多智能體強(qiáng)化學(xué)習(xí)的社交網(wǎng)絡(luò)輿情增強(qiáng)一致性方法

2022-12-04 07:29:08謝光強(qiáng)許浩然陳廣福
關(guān)鍵詞:差分輿情一致性

謝光強(qiáng),許浩然,李 楊,陳廣福

(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 廣東 廣州 510006)

隨著無(wú)線通信網(wǎng)絡(luò)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,人們能夠快速地和大規(guī)模群體進(jìn)行實(shí)時(shí)觀點(diǎn)交換,其中,社會(huì)網(wǎng)絡(luò)團(tuán)體決策(Social Network Group Decision Making,SNGDM)正快速成為解釋人類行為的關(guān)鍵工具[1-3],為學(xué)術(shù)和工程領(lǐng)域帶來(lái)了潛在的價(jià)值,如:供應(yīng)商選擇[4]、公眾輿情管理[5-7]、政治選舉[8-10]、市場(chǎng)[11]等。SNGDM中包含了一組可以表達(dá)自身觀點(diǎn)的人(智能體),這些智能體能夠和其鄰居進(jìn)行交流并以選擇最優(yōu)候選解為目標(biāo)。觀點(diǎn)(Opinion)是影響和定義行為最關(guān)鍵的因素之一[12-13]。每個(gè)智能體通過(guò)考慮其鄰居的觀點(diǎn)來(lái)對(duì)自身觀點(diǎn)進(jìn)行修正,以此達(dá)到一致、兩極化、分裂的穩(wěn)定結(jié)構(gòu),這種過(guò)程被稱為觀點(diǎn)演化,又稱輿情動(dòng)力學(xué)(Opinion Dynamics)[12]。

在SNGDM中最具有挑戰(zhàn)性的問(wèn)題是所有智能體達(dá)成觀點(diǎn)上的全面一致性[12,14-16]。同時(shí),在輿情動(dòng)力學(xué)中,網(wǎng)絡(luò)拓?fù)浔硎局悄荏w間的交互規(guī)則,對(duì)輿情的演化起著重要的作用[17-18]。由于社交網(wǎng)絡(luò)拓?fù)渲谐34嬖谙∈璧木W(wǎng)絡(luò)連接,因此達(dá)成全面的一致性更為復(fù)雜,相關(guān)研究仍然處于初期[1]。目前,大部分上述研究?jī)H考慮了智能體與具有相似觀點(diǎn)的鄰居之間的一跳連接,而忽略了設(shè)計(jì)更為高效的通信交流方式,以更好地在大規(guī)模場(chǎng)景下增強(qiáng)一致性。此類問(wèn)題可以通過(guò)多智能體強(qiáng)化學(xué)習(xí)(Multi-agent Reinforcement Learning,MARL)來(lái)解決,該方法正成為一種在線解決動(dòng)態(tài)復(fù)雜問(wèn)題的強(qiáng)大技術(shù)手段[19-20]。例如,Shou等[21]提出了一種平均場(chǎng)表演者?評(píng)論者的MARL算法來(lái)解決在競(jìng)爭(zhēng)場(chǎng)景下多駕駛員重定位的問(wèn)題。Sun等[22]通過(guò)多智能體決定性策略梯度方法來(lái)解決合作場(chǎng)景下電壓控制問(wèn)題。

但目前鮮有學(xué)者將MARL的優(yōu)勢(shì)融入到社交網(wǎng)絡(luò)增強(qiáng)輿情一致性的研究中,因此本文提出了一種全新的基于MARL的智能感知模型COEIP(Consensus Opinion Enhancement with Intelligent Perception),通過(guò)分布式的手段增強(qiáng)系統(tǒng)的輿情一致性。具體來(lái)說(shuō),在社交網(wǎng)絡(luò)下輿情動(dòng)力學(xué)模型的馬爾科夫決策過(guò)程中,由于各智能體感知范圍有限,在每個(gè)時(shí)刻感知到的鄰居數(shù)量不定,進(jìn)而導(dǎo)致各智能體獲取的鄰居狀態(tài)信息不定長(zhǎng)。因此本文設(shè)計(jì)了基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的模型來(lái)構(gòu)建智能體的感知模型,使智能體具備鄰域選擇的能力;接著通過(guò)差分獎(jiǎng)勵(lì)的思想設(shè)計(jì)了具有3類不同輿情動(dòng)力學(xué)場(chǎng)景目標(biāo)的獎(jiǎng)勵(lì)函數(shù),并使用基于策略梯度的多智能體探索與協(xié)同更新算法來(lái)高效訓(xùn)練智能體的感知模型,使智能體具備多目標(biāo)權(quán)衡的鄰域選擇能力。大量仿真驗(yàn)證了本文提出的COEIP方法和差分獎(jiǎng)勵(lì)函數(shù)的有效性。同時(shí)在與3類傳統(tǒng)方法的對(duì)比中驗(yàn)證了本方法可以有效增強(qiáng)所有智能體之間的意見(jiàn)一致性,即減少社交網(wǎng)絡(luò)最終穩(wěn)定時(shí)形成的簇的數(shù)量,具有一定的優(yōu)越性。

1 基于MARL的增強(qiáng)輿情一致性方法

1.1 社交網(wǎng)絡(luò)輿情動(dòng)力學(xué)

社交網(wǎng)絡(luò)中的輿情動(dòng)力學(xué)模型刻畫(huà)了擁有各自觀點(diǎn)的智能體在既定的融合規(guī)則下與其鄰居進(jìn)行觀點(diǎn)演化的過(guò)程,本文針對(duì)具有時(shí)變切換拓?fù)涞碾x散多智能體系統(tǒng)[12]進(jìn)行研究。

(1) 輿情動(dòng)力學(xué)模型的環(huán)境:考慮系統(tǒng)中的一組智能體V={1,2,···,i,···,n} ,其中每一個(gè)智能體i∈V均能夠在離散時(shí)刻k∈{0,1,2,···}與其鄰居進(jìn)行輿情觀點(diǎn)的通信交流。整個(gè)多智能體系統(tǒng)在時(shí)刻k的通信網(wǎng)絡(luò)拓?fù)涫褂脽o(wú)向圖G(k)={V,E(k)}來(lái)表示,其中一條邊(i,j)∈E(k)為 從智能體i到j(luò)的通信流。

(2) 輿情動(dòng)力學(xué)模型演化的融合規(guī)則:2個(gè)智能體Vi和Vj如 果滿足|xi(k)?xj(k)|

根據(jù)式(1) 的定義,一個(gè)智能體永遠(yuǎn)是其自身的鄰居,用|Ni(k)|表示鄰居的數(shù)量。接著,智能體同步根據(jù)式(2) 的動(dòng)力學(xué)模型進(jìn)行輿情觀點(diǎn)的演化。

式(2) 所定義的輿情動(dòng)力學(xué)的融合規(guī)則表明,每個(gè)智能體通過(guò)計(jì)算可信任鄰居觀點(diǎn)的平均值來(lái)更新自身的觀點(diǎn)。

(3) 輿情觀點(diǎn)的表示形式:在系統(tǒng)中的每一個(gè)智能體Vi∈V在時(shí)刻k針對(duì)同一個(gè)問(wèn)題均持有一個(gè)實(shí)數(shù)輿情觀點(diǎn)值xi(k)。 定義系統(tǒng)在時(shí)刻k整體的輿情值為矩陣X(k)=[x1(k),x2(k),···,xn(k)]T。因此,動(dòng)力學(xué)模型(2) 可以重寫(xiě)為式(3) 的矩陣形式。

式中:L(k)=[lij(k)]矩陣為網(wǎng)絡(luò)的通信拓?fù)潢P(guān)系,元素lij(k)的定義為

在傳統(tǒng)輿情動(dòng)力學(xué)模型(3) 的演化過(guò)程中,輿情觀點(diǎn)的一致和網(wǎng)絡(luò)通信拓?fù)溆兄o密的聯(lián)系,但傳統(tǒng)模型中代表網(wǎng)絡(luò)通信拓?fù)涞腖(k)矩陣是根據(jù)鄰居的定義(1) 計(jì)算得來(lái)的,過(guò)于單一,忽視了智能體在輿情演化過(guò)程中的辨別能力和自主選擇能力,進(jìn)而導(dǎo)致了系統(tǒng)最終穩(wěn)定時(shí)分裂為多個(gè)簇。因此,本文旨在賦予智能體更為智能的感知能力,讓智能體通過(guò)綜合考量感知到的局部鄰居輿情值,自適應(yīng)地選擇利于達(dá)成一致的鄰居做輿情演化,從而達(dá)到增強(qiáng)系統(tǒng)整體一致性的效果。

1.2 馬爾科夫決策過(guò)程

馬爾科夫決策過(guò)程(Markov Decision Processes,MDPs)是MARL中系統(tǒng)建模分析的基礎(chǔ)。根據(jù)上節(jié)的分析,擴(kuò)展了Zhang等[23]提出的MARL下的馬爾科夫決策過(guò)程,通過(guò)式(5) 所示的五元組來(lái)定義本文針對(duì)社交網(wǎng)絡(luò)下輿情動(dòng)力學(xué)模型的馬爾科夫決策過(guò)程。

如圖1所示,本文定義的馬爾科夫決策過(guò)程的運(yùn)作流程可以表述為:在時(shí)刻k,每個(gè)智能體i根據(jù)通信拓?fù)銰(k) 獲取全局狀態(tài)s(k) 中的局部觀測(cè)狀態(tài)si(k),并根據(jù)自身的策略函數(shù) πθi做出自身的動(dòng)作ai(k),進(jìn)而轉(zhuǎn)移到新的狀態(tài)si(k+1), 同時(shí)智能體i根據(jù)獎(jiǎng)勵(lì)函數(shù)Ri獲得即時(shí)獎(jiǎng)勵(lì)ri(k),如此往復(fù),智能體在與環(huán)境交互的過(guò)程中不斷學(xué)習(xí)調(diào)整策略函數(shù)πθi(ai(k)|si(k))來(lái)最大化未來(lái)的期望累計(jì)回報(bào),如式(6)所示。

圖1 社交網(wǎng)絡(luò)下輿情動(dòng)力學(xué)模型的馬爾科夫決策過(guò)程示意圖Fig.1 Markov decision processes in social network

接下來(lái)針對(duì)智能體i的策略進(jìn)行建模。由于在輿情一致性演化過(guò)程中每個(gè)智能體感知到的鄰居數(shù)不確定,且決策時(shí)需對(duì)每個(gè)局部鄰居進(jìn)行評(píng)判,因此本文采用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)解決局部感知輸入不定長(zhǎng)和決策不定長(zhǎng)的問(wèn)題。由于循環(huán)神經(jīng)網(wǎng)絡(luò)是一種按時(shí)間序列進(jìn)行分析的模型,智能體還需要將感知到的所有鄰居的整體上下文信息綜合起來(lái)做判斷。故本文設(shè)計(jì)了基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中BGRU(Bidirectional Gated Recurrent Unit)[24]的決策網(wǎng)絡(luò)模型,如圖2所示。

圖2 基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的決策模型示意圖Fig.2 Decision making model based on BGRU

在該網(wǎng)絡(luò)模型中,輸入為智能體i所有鄰居的狀態(tài)值集合{xj(k):j∈Ni(k)},即所有鄰居的輿情觀點(diǎn)值經(jīng)過(guò)BGRU網(wǎng)絡(luò)后,通過(guò)全連接層和Sigmoid激活函數(shù)輸出針對(duì)每一個(gè)鄰居觀點(diǎn)值的動(dòng)作,動(dòng)作ai(k)表示選擇每個(gè)鄰居的概率。那么,動(dòng)作ai(k)的維度與輸入狀態(tài)集合的維度是一致的,即維度均為 [Ni(k),1]。同時(shí),為了讓智能體具有探索能力以提高學(xué)習(xí)過(guò)程的魯棒性,在最后動(dòng)作的全連接層權(quán)重處增加了標(biāo)準(zhǔn)正態(tài)分布N的噪聲。最終該模型輸出的動(dòng)作為選取每個(gè)鄰居的概率,其值所屬范圍為( 0,1)。規(guī)定智能體i選取某個(gè)鄰居j的概率用i表示,如果>0.5,則認(rèn)為智能體i選 取j作為輿情演化的依據(jù)。最終,將所有大于0.5的鄰居匯總為式(7) 所示的集合,即經(jīng)過(guò)決策模型后選取的新鄰居集合。

作為一種以目標(biāo)為導(dǎo)向的智能方法,強(qiáng)化學(xué)習(xí)中的目標(biāo)通常采用累計(jì)獎(jiǎng)勵(lì)來(lái)表示,因此獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)對(duì)智能體能力的學(xué)習(xí)起著至關(guān)重要的作用[25-26]。同時(shí),獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)需要綜合考量指標(biāo)系數(shù)和可學(xué)習(xí)力之間的平衡[27-28]。因此本文在文獻(xiàn)的基礎(chǔ)上,設(shè)計(jì)了輿情動(dòng)力學(xué)環(huán)境下的差分獎(jiǎng)勵(lì)(Difference Reward)函數(shù)式。

式中:s(k) 為 全局狀態(tài),s?i(k)為全局狀態(tài)去除智能體i狀態(tài)后的剩余狀態(tài),g(·)函數(shù)為輿情動(dòng)力學(xué)環(huán)境中的量化目標(biāo)。那么,式(8) 所示的差分獎(jiǎng)勵(lì)函數(shù)能夠更具區(qū)分度地表征智能體i對(duì)于特定目標(biāo)g(·)的貢獻(xiàn)度。為此,本文歸納出了3類輿情動(dòng)力學(xué)場(chǎng)景中的目標(biāo),并通過(guò)加權(quán)組合的方式表示。

式中:g1(·)、g2(·)和g3(·) 分別為3類不同的目標(biāo);α 、β 和γ分別為3類不同目標(biāo)的加權(quán)系數(shù)。需要注意的是,式(8) 中的g(s(k))和g(s?i(k))均使用式(9) 來(lái)計(jì)算,這兩者的區(qū)別只在于傳入狀態(tài)值不同。同時(shí),為了方便表述,在下文的獎(jiǎng)勵(lì)函數(shù)中用s(k)表示抽象的全局狀態(tài)輸入?yún)?shù),實(shí)際計(jì)算中會(huì)發(fā)生變化。

(1)g1(·)目標(biāo):旨在讓智能體學(xué)會(huì)提高收斂效率,該目標(biāo)采用CD(Consensus Degree)表示,CD通過(guò)系統(tǒng)中所有智能體輿情觀點(diǎn)值的標(biāo)準(zhǔn)差來(lái)量化收斂程度,同時(shí)為了讓智能體能夠快速收斂,在標(biāo)準(zhǔn)差的基礎(chǔ)上減去每一步的時(shí)間懲罰,即

式中:X(k) 為在k時(shí)刻全局狀態(tài)s(k)中的智能體整體輿情值列表, s td(·)為標(biāo)準(zhǔn)差操作。那么,該量化目標(biāo)的取值范圍為[ 0,+∞),該值越接近0表示系統(tǒng)的收斂性能越好。

(2)g2(·)目標(biāo):旨在讓智能體學(xué)會(huì)提高系統(tǒng)的連通密度,該目標(biāo)采用Graph Density(GD)表示,GD通過(guò)系統(tǒng)網(wǎng)絡(luò)拓?fù)涞拿芏葋?lái)量化連通密度,即

(3)g3(·)目標(biāo):旨在讓智能體學(xué)會(huì)降低系統(tǒng)的通信代價(jià),該目標(biāo)采用Neighbor Degree(ND)表示,ND通過(guò)系統(tǒng)中智能體的平均鄰居度[29]來(lái)量化通信代價(jià),即

式中:dj(k)為 智能體j在時(shí)刻k時(shí)的出度數(shù),dnn,i(k)為智能體i選擇鄰居的平均出度數(shù)。那么,該量化目標(biāo)的取值范圍為 [ 0,1],該值越小表示系統(tǒng)的通信代價(jià)越低,當(dāng)該值為1 /(n?1)時(shí),表示此時(shí)系統(tǒng)處在最優(yōu)的通信拓?fù)?,即平均每個(gè)智能體選擇了一個(gè)鄰居作為輿情動(dòng)力學(xué)演化的基準(zhǔn)。

值得注意的是,g2(·) 目 標(biāo)與g3(·)目標(biāo)存在明顯的對(duì)立關(guān)系,即通信代價(jià)越高,連通密度越大,反之亦然。在智能體學(xué)習(xí)過(guò)程中可以通過(guò)調(diào)整權(quán)重 β 和γ 的值來(lái)權(quán)衡不同目標(biāo)之間的影響。

1.3 基于策略梯度的MARL算法

基于策略梯度(Policy Gradient)的強(qiáng)化學(xué)習(xí)算法將智能體策略參數(shù)化,通過(guò)最大化期望累計(jì)回報(bào)來(lái)直接優(yōu)化自身策略[30]。該方法能夠有效地優(yōu)化智能體探索過(guò)程中的迭代策略,而且可以解決動(dòng)作空間連續(xù)等問(wèn)題。本節(jié)在狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)函數(shù)的建模分析基礎(chǔ)上,給出了完整的智能體探索和學(xué)習(xí)自身策略πθi的算法,如下所示。

為了方便后文的推導(dǎo),使用 τi表示智能體i在環(huán)境中運(yùn)行的一組狀態(tài)/動(dòng)作序列(si(0),ai(0),···,si(H),ai(H)), 其中H為該序列的長(zhǎng)度。本算法屬于分布式運(yùn)行、集中式訓(xùn)練的模式,主要包含“多智能體探索階段”和“更新策略階段”兩部分,下面將分別詳細(xì)介紹各自的運(yùn)作流程。

多智能體探索階段:如算法中的(3) ~(14) 所示,每個(gè)智能體i在環(huán)境探索過(guò)程中,只根據(jù)式(1) 獲取其感知半徑內(nèi)鄰域的狀態(tài)值si(k)。接著通過(guò)如圖2所示的基于BGRU的決策網(wǎng)絡(luò)模型計(jì)算智能體i選取每個(gè)鄰居的概率動(dòng)作,進(jìn)而通過(guò)式(7) 得到新的鄰域N︿i(k)。同時(shí),為了讓智能體能夠根據(jù)episode變化自動(dòng)調(diào)節(jié)不同目標(biāo)的獎(jiǎng)勵(lì),給出了式(14) 的獎(jiǎng)勵(lì)目標(biāo)切換方案。

那么,根據(jù)式(14) 的獎(jiǎng)勵(lì)目標(biāo)切換方案以及式(8) 和式(9) 所定義的差分獎(jiǎng)勵(lì)函數(shù),即可計(jì)算出每一個(gè)時(shí)刻智能體所獲取到的差分獎(jiǎng)勵(lì)ri(k)。值得注意的是,式(14) 僅給出了獎(jiǎng)勵(lì)目標(biāo)切換的一個(gè)案例,在實(shí)驗(yàn)部分將詳細(xì)分析不同目標(biāo)切換下的效果。

為了能夠在“更新策略階段”有效地學(xué)習(xí)更新智能體的策略參數(shù),在本階段中每個(gè)智能體在最長(zhǎng)時(shí)間跨度為T的探索基礎(chǔ)上,將每一步的局部感知狀態(tài)si(k)、 局部動(dòng)作ai(k)、 即時(shí)獎(jiǎng)勵(lì)ri(k),按時(shí)間順序存儲(chǔ)進(jìn)經(jīng)驗(yàn)緩沖池D中。在每一回合結(jié)束時(shí),通過(guò)均勻隨機(jī)采樣,從D中選取B個(gè)智能體的軌跡進(jìn)行學(xué)習(xí)。

更新策略階段:如算法中的(15) ~(17) 所示,在每一回合結(jié)束時(shí),通過(guò)均勻隨機(jī)采樣,從D中選取B個(gè)智能體的估計(jì)進(jìn)行學(xué)習(xí)。在更新策略參數(shù)時(shí),通過(guò)狀態(tài)/動(dòng)作序列進(jìn)一步將強(qiáng)化學(xué)習(xí)中的目標(biāo)函數(shù)(式(6) )簡(jiǎn)化為

那么,針對(duì)目標(biāo)函數(shù)U(θ),通過(guò)梯度下降方法求出U(θ)的 梯度?θ∑U(θ) 為

從式(17) 的梯度可以發(fā)現(xiàn),最終求出的U(θ)的梯度中包含P(τi|θi)和 ?θlnP(τi|θi)Ri(τi)這兩部分,由于P(τi|θi) 為 軌跡Ti出現(xiàn)的概率,那么該梯度可以等價(jià)理解為求 ?θlnP(τi|θi)Ri(τi)的期望。因此,可以通過(guò)采樣m條軌跡的經(jīng)驗(yàn)以平均逼近的方式估算該梯度,即

此時(shí),式(18) 所求出的梯度可以直觀地理解為算法將提高出現(xiàn)高獎(jiǎng)勵(lì)回報(bào)軌跡的概率,降低出現(xiàn)低回報(bào)軌跡的概率。接著,對(duì)式(18) 中唯一的不確定量?θlnP(τi|θi)進(jìn)行求解

在式(19) 的推導(dǎo)過(guò)程中,狀態(tài)動(dòng)作轉(zhuǎn)移概率P(si(k+1)|si(k),ai(k))為式(3) 所示的系統(tǒng)動(dòng)力學(xué)模型,在推導(dǎo)過(guò)程中由于不存在策略參數(shù)θ,故可以直接刪去。因此,策略梯度可以整理為

式中:ζ 為學(xué)習(xí)率。

通過(guò)以上算法流程,智能體能夠在輿情動(dòng)力學(xué)演化的環(huán)境中學(xué)習(xí)到在保持較低通信代價(jià)的前提下促進(jìn)輿情觀點(diǎn)一致的策略。值得注意的是,在本文的研究背景中,每個(gè)智能體在演化的過(guò)程中需要進(jìn)行時(shí)間的同步,同時(shí)智能體感知到的狀態(tài)、做出的動(dòng)作都是局部的,這有利于模型的部署和擴(kuò)展。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

本文實(shí)驗(yàn)通過(guò)Python3.6.2構(gòu)建了輿情動(dòng)力學(xué)的仿真環(huán)境,使用PyTorch1.6.0搭建了智能體基于BGRU的策略梯度網(wǎng)絡(luò)。實(shí)驗(yàn)中涉及的相關(guān)參數(shù)如表1所示。值得注意的是,在2.2中首先驗(yàn)證了n=5時(shí)COEIP模型的有效性,然后將COEIP模型泛化至n=100的場(chǎng)景下,并與3個(gè)傳統(tǒng)模型進(jìn)行了對(duì)比驗(yàn)證。在所有實(shí)驗(yàn)中,式(1)的智能體感知半徑rc設(shè)置為1[31],系統(tǒng)一致性穩(wěn)定的判斷閾值設(shè)置為0 .01。同時(shí)智能體的初始輿情狀態(tài)在指定范圍內(nèi)均勻分布[31],其中n=5 的實(shí)驗(yàn)中初始輿情狀態(tài)范圍為[ 0,10],n=100的實(shí)驗(yàn)中包含初始范圍[ 0,4]和[0,10]的兩組實(shí)驗(yàn)。

表1 實(shí)驗(yàn)參數(shù)設(shè)定Table 1 Parameter setting of simulations

2.2 實(shí)驗(yàn)結(jié)果與分析

為了全面分析本文所提出的算法和模型,除了使用CD、GD和ND 3個(gè)指標(biāo)外,本文還采用了代數(shù)連通度AC(Algebraic Connectivity)[32]和邊連通度EC(Edge Connectivity)[33]兩個(gè)指標(biāo),它們分別表示系統(tǒng)的連通程度和網(wǎng)絡(luò)魯棒性。在圖3~5中驗(yàn)證了單獨(dú)使用某個(gè)目標(biāo)獎(jiǎng)勵(lì)時(shí)模型的有效性。

圖3展示了單獨(dú)使用目標(biāo)1的差分獎(jiǎng)勵(lì)函數(shù)后的效果,即 α =1;β=0;γ=0。目標(biāo)1旨在提高收斂效率,即輿情觀點(diǎn)值的方差趨向于0,從圖3可以看出AC在0.2左右,CD逐漸穩(wěn)定在0,而其他指標(biāo)收斂穩(wěn)定的地方都大于0.5,說(shuō)明系統(tǒng)保持了一定連通性,讓輿情觀點(diǎn)值收斂變快,但穩(wěn)定的地方不明確。

圖3 僅使用目標(biāo)1差分獎(jiǎng)勵(lì)函數(shù)時(shí)的指標(biāo)曲線Fig.3 Indicator curve with difference reward function (g 1(·))

圖4展示了單獨(dú)使用目標(biāo)2的差分獎(jiǎng)勵(lì)函數(shù)后的效果,即 α =0;β=1;γ=0。目標(biāo)2旨在提高系統(tǒng)的連通密度,即GD、ND和EC趨向于1,可以發(fā)現(xiàn)所有指標(biāo)均按預(yù)期收斂穩(wěn)定,即CD逐漸變小且穩(wěn)定在最低位,GD、ND和EC都向1收斂穩(wěn)定。

圖4 僅使用目標(biāo)2差分獎(jiǎng)勵(lì)函數(shù)時(shí)的指標(biāo)曲線Fig.4 Indicator curve with difference reward function (g 2(·))

圖5展示了單獨(dú)使用目標(biāo)3的差分獎(jiǎng)勵(lì)函數(shù)后的效果,即 α =0;β=0;γ=1。目標(biāo)3旨在降低系統(tǒng)的通信代價(jià),即GD、ND和EC趨向于1 /(n?1)??梢园l(fā)現(xiàn),最終只有GD趨向于期望值,而ND和EC均低于理想值。且大約500回合后,通過(guò)AC和CD可以發(fā)現(xiàn)系統(tǒng)已斷開(kāi)連接,已形成多個(gè)簇。

圖5 僅使用目標(biāo)3差分獎(jiǎng)勵(lì)函數(shù)時(shí)的指標(biāo)曲線Fig.5 Indicator curve with difference reward function (g 3(·))

從圖3~5的實(shí)驗(yàn)仿真可以總結(jié)出,智能體能夠根據(jù)給定目標(biāo)的獎(jiǎng)勵(lì)函數(shù)使用Policy Gradient算法優(yōu)化自己的決策能力,但單個(gè)目標(biāo)所設(shè)定的獎(jiǎng)勵(lì)存在一定的局限性。

因此,下面將采用漸進(jìn)學(xué)習(xí)的思想,先讓智能體學(xué)習(xí)較為簡(jiǎn)單的策略,然后不斷疊加更多的目標(biāo)獎(jiǎng)勵(lì)。以式(14) 的獎(jiǎng)勵(lì)目標(biāo)切換為例,給出了其對(duì)應(yīng)的指標(biāo)曲線,如圖6所示,其中橫坐標(biāo)為回合數(shù),縱坐標(biāo)為目標(biāo)值。

從圖6可以發(fā)現(xiàn)指標(biāo)曲線中有明顯的分界線,且分界線與目標(biāo)切換點(diǎn)是帶有一定的滯后性的,但總體上呈現(xiàn)一致性的特點(diǎn)。同時(shí)可以看出混合使用目標(biāo)2和3,即在800回合后,各個(gè)指標(biāo)趨向穩(wěn)定的值可以理解為強(qiáng)化學(xué)習(xí)對(duì)兩個(gè)目標(biāo)的權(quán)衡。因此,可以總結(jié)為:通過(guò)漸進(jìn)學(xué)習(xí)混合目標(biāo)獎(jiǎng)勵(lì)可以自適應(yīng)學(xué)習(xí)到更好的組合策略,達(dá)到各目標(biāo)間的權(quán)衡。

圖6 漸進(jìn)學(xué)習(xí)混合目標(biāo)差分獎(jiǎng)勵(lì)函數(shù)時(shí)的指標(biāo)曲線Fig.6 Indicator curve of progressive learning with mixed difference reward function

最后,通過(guò)系統(tǒng)穩(wěn)定時(shí)的收斂簇?cái)?shù)、收斂步長(zhǎng)這兩類指標(biāo)來(lái)衡量模型的效果,其中收斂簇?cái)?shù)用來(lái)衡量模型增強(qiáng)一致性的效果,收斂步長(zhǎng)用來(lái)衡量模型的運(yùn)行步數(shù)。同時(shí)將本文所提出的COEIP模型和傳統(tǒng)的三類模型進(jìn)行了綜合對(duì)比實(shí)驗(yàn)分析,其中包含有經(jīng)典的HK模型[31]、基于共同鄰居規(guī)則(Common-Neighbor Rule,CNR)模型[34]和基于組壓力(Group Pressure,GP)模型[35]。由于本文研究的目標(biāo)是增強(qiáng)一致性,換言之希望以更短的收斂步長(zhǎng)收斂至更少的簇?cái)?shù)。為了控制變量,CNR和GP模型中相關(guān)的參數(shù)統(tǒng)一設(shè)置為β =0,m=1和pi=λ=0.5。

實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)如表2所示。該實(shí)驗(yàn)場(chǎng)景有100個(gè)智能體,這些智能體的輿情值分別均勻分布于[0,4]和[0,10]范圍內(nèi),分別對(duì)應(yīng)實(shí)驗(yàn)編號(hào)1和2。通過(guò)表2的數(shù)據(jù)可以發(fā)現(xiàn):在較小的[ 0,4]初始范圍內(nèi),3類傳統(tǒng)方法和COEIP均可以收斂至一個(gè)簇,但COEIP可以在更短的步數(shù)內(nèi)收斂;在較大的 [0,10]初始范圍內(nèi),傳統(tǒng)的HK、CNR和GP模型均會(huì)出現(xiàn)輿情觀點(diǎn)分裂的情況,最終分別收斂至5、2、4個(gè)簇,而COEIP可以在更短的步長(zhǎng)內(nèi)穩(wěn)定至1個(gè)簇。

表2 對(duì)比實(shí)驗(yàn)的統(tǒng)計(jì)數(shù)據(jù)Table 2 Statistics of comparison simulations

因此,可以總結(jié)為:COEIP模型通過(guò)選擇適當(dāng)?shù)泥従舆M(jìn)行輿情演化,可以有效地調(diào)和智能體間相互矛盾的觀點(diǎn)。

3 總結(jié)

本文研究了社交網(wǎng)絡(luò)領(lǐng)域下輿情動(dòng)力學(xué)增強(qiáng)一致性的問(wèn)題,提出了一種基于多智能體強(qiáng)化學(xué)習(xí)的智能感知模型。在輿情動(dòng)力學(xué)場(chǎng)景下的馬爾科夫決策過(guò)程中,首先設(shè)計(jì)了基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)建立智能體的決策模型,接著根據(jù)輿情動(dòng)力學(xué)場(chǎng)景中的3類目標(biāo)設(shè)計(jì)了對(duì)應(yīng)的差分獎(jiǎng)勵(lì)函數(shù)。最后通過(guò)基于策略梯度的多智能體探索和協(xié)同更新算法讓智能體在彼此交互的過(guò)程中能夠自適應(yīng)地學(xué)習(xí)到高效的鄰域選擇策略。實(shí)驗(yàn)結(jié)果驗(yàn)證了COEIP能夠讓智能體決策具備多目標(biāo)權(quán)衡的能力,在社交網(wǎng)絡(luò)輿情動(dòng)力學(xué)中能夠高效地調(diào)和系統(tǒng)中差異較大的觀點(diǎn),以減少系統(tǒng)收斂穩(wěn)定時(shí)簇的數(shù)量,從而促進(jìn)系統(tǒng)一致性。未來(lái)將在本文的基礎(chǔ)上繼續(xù)研究社交網(wǎng)絡(luò)中具有注意力機(jī)制的增強(qiáng)一致性方法,并驗(yàn)證該方法在現(xiàn)實(shí)場(chǎng)景中的有效性和泛化能力。

猜你喜歡
差分輿情一致性
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
數(shù)列與差分
IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
輿情
輿情
輿情
基于事件觸發(fā)的多智能體輸入飽和一致性控制
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
相對(duì)差分單項(xiàng)測(cè)距△DOR
太空探索(2014年1期)2014-07-10 13:41:50
新巴尔虎左旗| 宁明县| 屯留县| 肇源县| 营山县| 齐河县| 民和| 贵港市| 昆山市| 府谷县| 广德县| 阳春市| 工布江达县| 松溪县| 神农架林区| 隆化县| 萝北县| 金坛市| 集安市| 收藏| 边坝县| 贺州市| 云霄县| 英超| 元阳县| 婺源县| 枣强县| 开远市| 浦县| 康保县| 龙州县| 洪泽县| 且末县| 宜春市| 宜宾县| 罗城| 灵石县| 德庆县| 安仁县| 灵山县| 临颍县|