国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于復(fù)合策略的社會(huì)學(xué)習(xí)模型

2015-12-19 09:16劉坤坤魏新江方愛(ài)麗
關(guān)鍵詞:貝葉斯信念概率

劉坤坤,魏新江,方愛(ài)麗

(魯東大學(xué)數(shù)學(xué)與統(tǒng)計(jì)科學(xué)學(xué)院,山東 煙臺(tái)264025)

0 引言

在日常生活中,人們對(duì)于各類經(jīng)濟(jì)、社會(huì)、文化事件都會(huì)有自己的信念(或觀點(diǎn))。由于信念(或觀點(diǎn))在很大程度上影響著人們的行為與決策,因此研究信念(或觀點(diǎn))的形成與演化是一個(gè)具有重要意義的課題。每個(gè)個(gè)體都可能從社會(huì)網(wǎng)絡(luò)中獲取其他個(gè)體的觀點(diǎn),還可能接收到反映事件潛在狀態(tài)的外界信號(hào),并在此基礎(chǔ)上更新自己的信念,新的信念再次融入社會(huì)網(wǎng)絡(luò)中,如此不斷學(xué)習(xí)、更新,推動(dòng)整個(gè)群體信念的動(dòng)態(tài)演化。這種個(gè)體通過(guò)交流與互動(dòng)調(diào)整自己信念的過(guò)程就稱為社會(huì)學(xué)習(xí)。

社會(huì)學(xué)習(xí)理論[1]是由美國(guó)心理學(xué)家阿爾伯特·班杜拉于1976年提出的,到目前為止,已經(jīng)應(yīng)用到社會(huì)學(xué)之外的眾多領(lǐng)域。對(duì)于許多社會(huì)問(wèn)題人們往往想獲取一個(gè)統(tǒng)一的最佳答案,在當(dāng)今大數(shù)據(jù)的網(wǎng)絡(luò)時(shí)代,與這些問(wèn)題相關(guān)的信息往往分散在巨大的社會(huì)網(wǎng)絡(luò)中,社會(huì)學(xué)習(xí)的目的就在于通過(guò)個(gè)體之間的相互作用使得分散的信息得以整合[2-8],最終在這些社會(huì)問(wèn)題上達(dá)成共識(shí)。

社會(huì)學(xué)習(xí)的研究一般是以具體的模型為導(dǎo)向,在不同的問(wèn)題上所建立的模型也有所區(qū)別,比較常見(jiàn)的兩種模型,一是基于貝葉斯法則的社會(huì)學(xué)習(xí),二是基于鄰居信念的社會(huì)學(xué)習(xí)。

基于貝葉斯學(xué)習(xí)的經(jīng)典研究有很多,從序列社會(huì)學(xué)習(xí)模型[9-10]到社會(huì)網(wǎng)絡(luò)模型[11-14],基于貝葉斯法則的學(xué)習(xí)策略在現(xiàn)實(shí)生活中的應(yīng)用越來(lái)越廣泛。然而,在很多情況下,每個(gè)個(gè)體僅能夠知道很少的其他個(gè)體(比如朋友、同事或者家人)的觀點(diǎn),甚至可能僅僅掌握自己的經(jīng)驗(yàn)。這種有限的觀察力,加上由整個(gè)網(wǎng)絡(luò)上分散信息所產(chǎn)生的觀點(diǎn)與觀點(diǎn)之間復(fù)雜的相互作用,使得個(gè)體無(wú)法以貝葉斯方式學(xué)習(xí)別人的觀點(diǎn)。另外,基于貝葉斯法則的社會(huì)學(xué)習(xí)需要掌握網(wǎng)絡(luò)結(jié)構(gòu)的完整信息,因此計(jì)算的復(fù)雜程度相當(dāng)大。實(shí)際上,人們做決策時(shí),并不一定會(huì)理性地遵循貝葉斯法則,也有可能采取從眾或接受朋友的影響?;卩従有拍畹母虏呗裕跏嫉慕?jīng)典研究是DeGroot于1974年提出的模型[15],結(jié)果發(fā)現(xiàn),在適當(dāng)?shù)臈l件下群體信念能夠收斂到一致,但是卻不一定收斂到真實(shí)信念。人們還就基于鄰居信念的社會(huì)學(xué)習(xí)做了后續(xù)研究[16-19]。Golub和Jackson在DeGroot模型基礎(chǔ)上進(jìn)行研究,得到進(jìn)一步的結(jié)論:當(dāng)網(wǎng)絡(luò)規(guī)模無(wú)限增長(zhǎng)時(shí),如果社會(huì)中不存在有影響力過(guò)大的個(gè)體,那么這種漸近一致的信念將收斂到真實(shí)信念[20]。雖然基于鄰居信念的更新策略建模比較簡(jiǎn)單計(jì)算也不復(fù)雜,但是不能保證個(gè)體的信念一定收斂到真實(shí)信念,即使能夠收斂到真實(shí)信念也必須滿足網(wǎng)絡(luò)是無(wú)限增長(zhǎng)等特定的條件,這就限制了基于鄰居信念的更新策略在社會(huì)網(wǎng)絡(luò)中的普遍使用。

由此可見(jiàn),單獨(dú)使用基于貝葉斯法則的更新策略或者基于鄰居信念的更新策略,都存在著一定的問(wèn)題,所以我們考慮在社會(huì)學(xué)習(xí)策略中將二者結(jié)合起來(lái)。2012年,Jadbabaie等[21]在研究社會(huì)網(wǎng)絡(luò)中個(gè)體信念更新過(guò)程中,個(gè)體的信念更新將由個(gè)體自己的信念和其鄰居的信念共同決定,其中個(gè)體自己的信念由貝葉斯法則更新,理論結(jié)果表明如果滿足網(wǎng)絡(luò)是強(qiáng)聯(lián)通的等條件,那么所有個(gè)體最終能夠達(dá)到漸近學(xué)習(xí)。他們還進(jìn)一步說(shuō)明,在強(qiáng)連通的社會(huì)網(wǎng)絡(luò)中,社會(huì)交流可以整合出全局的基本狀態(tài)信息,這種信息整合能夠避免使用貝葉斯法則更新帶來(lái)的計(jì)算成本,并且這個(gè)模型可以在有限規(guī)模的網(wǎng)絡(luò)中使用,網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和個(gè)體的影響力程度都不能阻礙社會(huì)學(xué)習(xí),這就避免了單獨(dú)使用上述任何一種策略帶來(lái)的問(wèn)題。Ali Jadbabaie等所使用的模型,要求每一時(shí)刻的信念更新時(shí)個(gè)體自己的信念必須由貝葉斯法則進(jìn)行更新,個(gè)體與鄰居之間必須要交流,但是考慮實(shí)際情況社會(huì)個(gè)體不一定每次都要采取貝葉斯法則更新。本文考慮社會(huì)個(gè)體的異質(zhì)性和復(fù)雜性,提出了一種復(fù)合策略。個(gè)體在更新信念的過(guò)程中,每一時(shí)刻個(gè)體依據(jù)一定的概率選擇兩種策略之一進(jìn)行自己的信念更新,或者采用貝葉斯更新策略,或者根據(jù)社會(huì)網(wǎng)絡(luò)中鄰居信念來(lái)更新的策略,而在下一時(shí)刻,個(gè)體還要依概率選擇兩種策略之一進(jìn)行信念更新,并且每個(gè)個(gè)體的策略選擇概率是不同的,這就體現(xiàn)了個(gè)體的多樣性和復(fù)雜性,與實(shí)際社會(huì)中個(gè)體的動(dòng)力學(xué)行為相符,在此基礎(chǔ)上建立的模型與Ali Jadbabaie的模型相比更能體現(xiàn)出個(gè)體的主觀選擇性。這種基于復(fù)合策略的社會(huì)學(xué)習(xí)模型能夠更好地體現(xiàn)社會(huì)網(wǎng)絡(luò)中個(gè)體的復(fù)雜行為,更好地展現(xiàn)社會(huì)個(gè)體的信念學(xué)習(xí)過(guò)程。

1 模型

1.1 預(yù)備知識(shí)

社會(huì)網(wǎng)絡(luò)可抽象為圖G= (N ,E),其中N= {1,2 ,…,n}為社會(huì)網(wǎng)絡(luò)中所有個(gè)體的集合,E為個(gè)體之間相互作用構(gòu)成的邊集合。個(gè)體之間相互作用的權(quán)重矩陣記為Q=(qiij)n×n,qij代表個(gè)體i與個(gè)體j之間的相互作用權(quán)重,對(duì)?i,滿足若個(gè)體i和個(gè)體j之間有直接的相互作用,則qij>0,就稱個(gè)體i與個(gè)體j互為鄰居,若個(gè)體i和個(gè)體j之間沒(méi)有直接相互作用,則qij=0,個(gè)體i的所有鄰居的集合記為Ni={j|qij>0}。

所有可能的狀態(tài)的集合記為Θ={θ1,θ2,…,θK},其中潛在的真實(shí)狀態(tài)θ*∈Θ。個(gè)體i在t時(shí)刻對(duì)狀態(tài)θk的信念表示為Pi,t(θk),初始信念為 Pi,0(θk)。個(gè)體所接收到的信號(hào)集合為st={s1,t,s2,t,…,sn,t}∈S1×S2×…×Sn≡S,是根據(jù)似然函數(shù)P(st|θ)產(chǎn)生,其中si,t∈Si表示個(gè)體i在t時(shí)刻觀察到的信號(hào),Si表示個(gè)體i的信號(hào)空間。Pi(·|θ)為P(st|θ)的第i個(gè)邊緣分布,稱為個(gè)體i的信號(hào)結(jié)構(gòu)。這里假設(shè)每個(gè)個(gè)體的信號(hào)結(jié)構(gòu)都是已知的。

1.2 更新策略

1)基于貝葉斯法則的更新策略:個(gè)體i在t+1時(shí)刻接收到信號(hào)si,t+1,對(duì)于狀態(tài)θk的信念按照下列貝葉斯法則更新:

2)基于鄰居信念的更新策略:由于網(wǎng)絡(luò)中個(gè)體之間的相互影響,每一時(shí)刻,個(gè)體都會(huì)綜合鄰居的信念對(duì)自己的信念進(jìn)行更新,個(gè)體i基于鄰居信念的更新策略公式為

其中,權(quán)重值qij也可理解為個(gè)體i對(duì)個(gè)體j的信任度,特別地,當(dāng)i=j(luò)時(shí),qii為個(gè)體i的自信度。

在社會(huì)網(wǎng)絡(luò)中,個(gè)體并不一定完全理性,也不一定完全非理性,因此個(gè)體進(jìn)行信念更新時(shí),并不一定都采取基于貝葉斯法則的更新策略,也不一定都采用基于鄰居信念的更新策略,可能有的個(gè)體采用貝葉斯更新,有的個(gè)體采用基于鄰居信念更新,我們提出一種復(fù)合策略模型,定義一個(gè)個(gè)體策略選擇概率αi,根據(jù)個(gè)體的異質(zhì)性,假定每個(gè)個(gè)體的策略選擇概率αi是不相同的,社會(huì)網(wǎng)絡(luò)中的個(gè)體會(huì)以概率αi選擇貝葉斯更新策略,以概率1-αi選擇基于鄰居信念的更新策略,即在t+1時(shí)刻個(gè)體i的信念更新復(fù)合策略為

1.3 定義及命題

定義2 等價(jià)觀測(cè)狀態(tài):若個(gè)體i在狀態(tài)θm和θn的條件下的信號(hào)結(jié)構(gòu)相同,即Pi(·|θm)=Pi(·|θn),則稱個(gè)體i不能識(shí)別狀態(tài)θm和θn,狀態(tài)θm和θn為個(gè)體i的等價(jià)觀測(cè)狀態(tài)。

假如所有個(gè)體對(duì)狀態(tài)空間Θ={θ1,θ2,…,θK}中某兩個(gè)狀態(tài)等價(jià)觀測(cè),那么所有的信號(hào)失去了對(duì)這兩個(gè)狀態(tài)的辨別能力,個(gè)體也就失去了接收到信號(hào)的意義,所以本文假設(shè)不存在對(duì)所有個(gè)體來(lái)說(shuō)都等價(jià)觀測(cè)的狀態(tài)。命題1 假設(shè)真實(shí)狀態(tài)為θ*

1)策略選擇概率αi:0<αi≤1

2)社會(huì)網(wǎng)絡(luò)中至少有一個(gè)個(gè)體對(duì)真實(shí)狀態(tài)的信念為正,即?i∈N,使Pi,0(θ*)>0

3)不存在對(duì)所有個(gè)體來(lái)說(shuō)都等價(jià)觀測(cè)的狀態(tài)

在上述的條件下,按照復(fù)合策略法則(3)進(jìn)行信念更新,則所有個(gè)體都能達(dá)到漸近學(xué)習(xí)。

圖1 含有5個(gè)個(gè)體的社會(huì)網(wǎng)絡(luò)Fig.1 A social network with 5agents

2 仿真

在仿真實(shí)驗(yàn)中,設(shè)定若每個(gè)個(gè)體對(duì)于真實(shí)狀態(tài)的信念滿足Pi,t(θ*)>0.999 9,則認(rèn)為所有個(gè)體達(dá)到了漸近學(xué)習(xí),時(shí)刻t為達(dá)到漸近學(xué)習(xí)的時(shí)間。以圖1所示社會(huì)網(wǎng)絡(luò)為例,N={1,2,3,4,5} ,狀態(tài)空間Θ= {θ1, θ2},假定θ1為真實(shí)狀態(tài),每個(gè)個(gè)體所接收到的信號(hào)是相互獨(dú)立的,為簡(jiǎn)單起見(jiàn),假設(shè)個(gè)體的信號(hào)空間相同,都為Si= {s1,s2,s3,s4},個(gè)體的信號(hào)結(jié)構(gòu)也相同,設(shè)為

給定每個(gè)個(gè)體的初始信念為

假設(shè)個(gè)體之間相互作用的權(quán)重在它和其鄰居之間平均分配,若個(gè)體i鄰居的數(shù)目為di,即它的度數(shù)為di,計(jì)算權(quán)重時(shí)要加上個(gè)體本身,則個(gè)體i與其鄰居相互作用的權(quán)重值如圖1個(gè)體1鄰居數(shù)為4,它的度數(shù)d1=4,它及其鄰居相互作用的權(quán)重值q1j全部等于,在每次更新的過(guò)程中,權(quán)重值保持不變。同理得到所有個(gè)體之間的相互作用權(quán)重,從而相互作用權(quán)重矩陣Q為

為了體現(xiàn)個(gè)體的異質(zhì)性,以及觀察策略選擇概率對(duì)于社會(huì)個(gè)體的影響,對(duì)于策略選擇概率αi選擇4種不同的取值范圍,對(duì)上述實(shí)例利用復(fù)合策略法則(3)進(jìn)行信念更新,得到仿真結(jié)果如圖2所示。

圖2 在不同的策略選擇概率下,社會(huì)個(gè)體信念的演化圖Fig.2 The evolution of social individuals′beliefs under different strategy selection probabilities

從上述仿真結(jié)果可以看出:1)在滿足命題1條件下,所有個(gè)體對(duì)真實(shí)狀態(tài)的信念最終都能收斂到1,即所有個(gè)體都達(dá)到了漸近學(xué)習(xí),從而整個(gè)社會(huì)也就達(dá)到了漸近學(xué)習(xí);2)當(dāng)策略選擇概率在不同的取值范圍時(shí),整個(gè)社會(huì)達(dá)到漸近學(xué)習(xí)的時(shí)間不同。

為了體現(xiàn)策略選擇概率對(duì)于學(xué)習(xí)速率的影響,對(duì)策略選擇概率所處的范圍進(jìn)行劃分,分別對(duì)處于不同取值范圍策略選擇概率下的學(xué)習(xí)時(shí)間取了500次實(shí)驗(yàn)平均,結(jié)果如表1所示。

表1 策略選擇概率在不同的取值范圍下,個(gè)體達(dá)到漸近學(xué)習(xí)的時(shí)間Tab.1 Individuals′asymptotic learning time under different ranges of strategy selection probabilities

從表1可以直觀地看出,每個(gè)個(gè)體的策略選擇概率αi取值越小,即選擇基于貝葉斯法則更新策略的個(gè)體較少時(shí),雖然最后也能達(dá)到漸近學(xué)習(xí),但是所花的時(shí)間比較長(zhǎng);每個(gè)個(gè)體的策略選擇概率αi取值越大,即選擇基于貝葉斯法則更新策略的個(gè)體較多時(shí),學(xué)習(xí)的速度是最快的。也就是說(shuō)策略選擇概率與學(xué)習(xí)時(shí)間呈負(fù)相關(guān)關(guān)系。

3 結(jié)論

人類的社會(huì)學(xué)習(xí),是在復(fù)雜的社會(huì)環(huán)境中進(jìn)行的,考慮社會(huì)網(wǎng)絡(luò)的復(fù)雜性以及個(gè)體的異質(zhì)性,我們采用復(fù)合策略去研究個(gè)體的社會(huì)學(xué)習(xí),才與人類動(dòng)力學(xué)行為相符。本文將基于貝葉斯法則的更新策略和基于鄰居信念的更新策略結(jié)合起來(lái),讓每個(gè)個(gè)體合理選擇策略,既能發(fā)揮個(gè)體的主觀能動(dòng)性,又能與外界環(huán)境相交流,研究結(jié)果發(fā)現(xiàn),滿足一定條件時(shí),社會(huì)網(wǎng)絡(luò)中的每個(gè)個(gè)體都能夠達(dá)到漸近學(xué)習(xí),并且每個(gè)個(gè)體的策略選擇概率取值越大,漸近學(xué)習(xí)的速度也越快。

基于復(fù)合策略的信念更新,更加符合人們?cè)诂F(xiàn)實(shí)生活中所進(jìn)行的學(xué)習(xí),跟單一策略相比較,得到結(jié)果更確切且更加符合人們的認(rèn)知。但是還有些問(wèn)題有待于繼續(xù)探討:1)本文只是選擇雙策略進(jìn)行研究,是否還可以加入其他策略有待于進(jìn)一步研究;2)個(gè)體之間相互作用的權(quán)重值,在每次信念更新時(shí),是保持不變的,但在實(shí)際生活中由于每次信念更新之后,個(gè)體會(huì)對(duì)鄰居又加強(qiáng)了了解,所以在分配權(quán)重的時(shí)候可能會(huì)發(fā)生相應(yīng)的變化,這也是下一步需要考慮的問(wèn)題;3)本文仿真實(shí)驗(yàn)中,假定是不存在頑固個(gè)體或者是具有較大影響力的個(gè)體,對(duì)于這些個(gè)體的存在是否能影響到社會(huì)網(wǎng)絡(luò)中個(gè)體達(dá)到漸近學(xué)習(xí),以及即使達(dá)到漸近學(xué)習(xí)是否又影響到學(xué)習(xí)的速率,這也是以后將要研究的問(wèn)題;4)文中采取的只是以無(wú)向網(wǎng)絡(luò)為例,對(duì)于含有較少個(gè)體的網(wǎng)絡(luò)做了初步的研究,其中社會(huì)個(gè)體是可以達(dá)到漸近學(xué)習(xí)的,進(jìn)一步地,有向社會(huì)網(wǎng)絡(luò)中的社會(huì)學(xué)習(xí)問(wèn)題也亟需探討。

[1] Albert B.Social learning Theory[M].London:Prentice Hall,1976.

[2] Lee I.On the convergence of informational cascades[J].The Journal of Economic Theory,1993,61(2):395-411.

[3] Tsitsiklis J N,Athans M.Convergence and asymptotic agreement in distributed decision probl-ems[C].IEEE Transactions on Automatic Control,1984,29(8):690-696.

[4] Feddersen T,Pesendorfer W.Voting behavior and information aggregation in elections with private information[J].Econometrica,1997,65(5):1029-1058.

[5] Foster A,Rosenzweig M.Learning by doing and learning from others:human capital and technical change in agriculture[J].The Journal of Political Economy,1995,103(6):1176-1209.

[6] Celen B,Kariv S.Observational learning under imperfect information[J].Games and Economic Behavior,2004,47(1):72-86.

[7] Borkar V,Varaiya P.Asymptotic agreement in distributed estimation[C].IEEE Transactions on Automatic Control,1982,27:650-655.

[8] Udry C,Conley T.Social learning through networks:the adoption of new agricultural technologies in ghana[J].American Journal of Agricultural Economics,2001,83(3):668-673.

[9] Banerjee A.A simple model of herd behavior[J].The Quarterly Journal of Economics,1992,107(3):797-817.

[10]Smith L,S?rensen P.Pathological outcomes of observational learning[J].Econometrica,2000,68(2):371-398.

[11]Gale D,Kariv S.Bayesian learning in social networks[J].Games and Economic Behavior,2003,45(2):329-346.

[12]Banerjee A,F(xiàn)udenberg D.Word-of-mouth learning[J].Games and Economic Behavior,2004,46(1):1-22

[13]Celen B,Kariv S.An experimental test of observational learning under imperfect information[J].Economic Theory,2005,26(3):677-699.

[14]Montrey M R,Shultz T R.Evolution of social learning strategies[C].2010IEEE 9th International Conference on Development and learning,Ann Arbor,MI,USA,2010:95-100.

[15]DeGroot M H.Reaching a consensus[J].Journal of the American Statistical Association,1974,69(345):118-121.

[16]Ellision Glenn,F(xiàn)udenberg D.Rules of thumb for social iearning[J].The Journal of Political Economy,1993,101(4):612-643.

[17]Ellision Glenn,F(xiàn)udenberg D.Word-of-mouth communication and social learning[J].Quarterly Journal of Economics,1995,110(1):93-125.

[18]Bala V,Goyal S.Learning from neighbors[J].Review of Economic Studies,1998,65(3):595-621.

[19]Bala V,Goyal S.Conformism and diversity under social learning[J].Economic Theory,2001,17(1):101-120.

[20]Golub B,Jackson M.Naive learning in social networks and the wisdom of crowds[J].American Economic Journal:Microeconomics,2010,2(1):112-149.

[21]Jadbabaie A,Molavi P,Sandroni A,et al.Non-Bayesian social learning[J].Games and Economic Behavior,2012,76(1):210-225.

猜你喜歡
貝葉斯信念概率
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
為了信念
發(fā)光的信念
信念
貝葉斯公式及其應(yīng)用
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說(shuō)話人識(shí)別方法