基于演化博弈的地鐵施工人員不安全行為動態(tài)懲罰策略優(yōu)化

2022-06-14 09:13:46陳赟劉慧琳

科學技術(shù)與工程 2022年13期

陳赟，劉慧琳

(長沙理工大學交通運輸工程學院，長沙 410114)

地鐵施工具有施工難度大、環(huán)境復(fù)雜等特點，導致地鐵施工事故時有發(fā)生[1-2]，帶來人員傷亡及財產(chǎn)損失。根據(jù)近年地鐵施工安全事故調(diào)查報告及文獻統(tǒng)計，發(fā)現(xiàn)人的不安全行為引發(fā)安全事故比例高達95.38%[3]。因此，對人的不安全行為進行管控是提高施工現(xiàn)場安全管理水平，減少事故發(fā)生的有效途徑。

近年來，國內(nèi)外學者針對地鐵施工人員不安全行為進行深入剖析，如影響因子、傳播機理、干預(yù)措施等方面。張勇等[4]、Yu等[5]分別利用解釋結(jié)構(gòu)模型、系統(tǒng)動力學從外界環(huán)境及個體角度對不安全行為影響因素進行分析，確定關(guān)鍵因素；來延肖等[6]、Wang等[7]利用結(jié)構(gòu)方程模型探究人的安全態(tài)度以及家庭、工作壓力與不安全行為之間的作用關(guān)系；石娟等[8]發(fā)現(xiàn)工人群體之間會相互模仿不安全行為，利用SEIMR傳播模型模擬不安全行為在群體中的傳播過程；Cao等[9]對不安全行為傳播規(guī)律進行探索，發(fā)現(xiàn)外部干預(yù)可以減少不安全行為的傳播；陳赟等[10]分別從干預(yù)層面和干預(yù)類別對不安全行為進行動態(tài)仿真，發(fā)現(xiàn)從施工人員個體層面進行干預(yù)影響程度最大。以上研究從不同角度對施工人員不安全行為進行探析，并提出管控策略。而施工人員在既得利益與自身安全之間往往無法做出正確選擇，導致對不安全行為的管控難以實施，從施工人員的行為動機角度對不安全行為進行探究也至關(guān)重要。通過博弈方法對施工安全管理的研究大多聚焦于政府、企業(yè)、地方監(jiān)管[11]等方式，而內(nèi)部監(jiān)管的研究相對較少。在實際的施工過程中，安全管理人員有責任對施工人員進行安全監(jiān)管[12]，施工人員與安全管理人員之間存在一定的利益動機，故兩類群體之間的行為選擇可看作一個博弈的過程[13]。且現(xiàn)有研究都采用靜態(tài)懲罰策略[14]對不安全行為進行管控，沒有從動態(tài)視角分析策略對不安全行為控制的有效性。

基于此，現(xiàn)從地鐵施工人員和安全管理人員雙方的“成本-收益”角度出發(fā)，構(gòu)建以地鐵施工人員與安全管理人員為主體的演化博弈模型，探究博弈雙方的策略選擇與行為演變過程，并利用系統(tǒng)動力學(systematic dynamics，SD)模型對兩方博弈模型進行仿真模擬，分析靜態(tài)及動態(tài)懲罰制度下不安全行為狀態(tài)的轉(zhuǎn)變，進而通過有效的懲罰手段，提高施工人員對安全施工的重視度，從而減少不安全的發(fā)生。

1 安全管理人員與施工人員的演化博弈模型

1.1 模型構(gòu)建及相關(guān)假設(shè)

在構(gòu)建不安全行為檢查博弈模型之前，需要對不安全行為檢查實際情況做一些假設(shè)，以此來簡化演化博弈分析，對演化博弈做出如下假設(shè)。

(1)博弈主體。假定博弈主體只包括地鐵施工人員和安全管理人員，且均為有限理性參與方，在信息不對稱的條件下進行反復(fù)博弈，為追求自身利益最大化，尋找最佳策略。

(2)不安全行為是指在施工過程中，違反現(xiàn)場安全管理準則，可能導致事故發(fā)生的不正確作業(yè)習慣。

(3)假設(shè)在日常行為管理監(jiān)督下，地鐵施工人員與安全管理人員雙方策略抽象為{安全行為，不安全行為}，{檢查，不檢查}。

1.2 博弈雙方行為策略

不同的策略對應(yīng)不同的收益成本，其中相關(guān)參數(shù)含義如表1所示。

假設(shè)x為選擇安全行為的施工人員在群體中所占比例，y為選擇檢查策略的安全人員在群體中所占比例，其中0≤x，y≤1。

結(jié)合不同行為發(fā)生在群體中所占的比例，可以得到地鐵施工人員和安全管理人員相應(yīng)的收益矩陣，如表2所示。

表1 模型參數(shù)定義Table 1 Definition of model parameters

表2 博弈雙方的收益矩陣Table 2 Income matrix of metro construction personnel and safety management personnel

1.3 模型分析

S1=y(R1-C1)+(1-y)(R1-C1)

=R1-C1

(1)

S2=y(R2-fL-C3)+(1-y)(R2-fL)

=R2-fL-yC3

(2)

=x(R1-C1)+(1-x)(R2-fL-yC3)

(3)

T1=x(-C2)+(1-x)(C3-C2)

=C3(1-x)-C2

(4)

T2=xR3+(1-x)(R3-fLk)

=R3+(x-1)fLk

(5)

=y[C3(1-x)-C2+(1-y)×

[R3+(x-1)fLk]

(6)

在演化博弈的過程中，作為有限理性的博弈雙方，雙方可以學習和模仿上個時間段獲取更高利益的行為策略。根據(jù)式(1)～式(6)，可得到雙方復(fù)制動態(tài)方程式為

(R2-fL-yC3)]

(7)

[R3+(x-1)fLk]}

(8)

1.4 演化博弈均衡點穩(wěn)定性分析

可通過雅克比矩陣鑒定均衡解是否穩(wěn)定[15]，為此，通過前文求得雅可比矩陣A如式(9)所示。

根據(jù)局部均衡解穩(wěn)定分析法的判斷準則，當均衡解對應(yīng)的DetJ>0且TrJ<0時，則這個均衡解為演化穩(wěn)定策略(evolutionary stable strategy，ESS)，即博弈模型處于穩(wěn)定狀態(tài)[15]。對以上5個均衡解代入矩陣中進行求解，由于參數(shù)較多，均衡解表達式過于復(fù)雜，所以穩(wěn)定性難以確定。

2 系統(tǒng)動力學模型構(gòu)建與仿真

為進一步研究博弈模型行為的演化機理，利用系統(tǒng)動力學，以地鐵施工人員與現(xiàn)場安全管理人員雙方選擇不同策略時的復(fù)制動態(tài)方程為基礎(chǔ)，構(gòu)建地鐵施工人員不安全行為演化博弈SD模型，模擬仿真系統(tǒng)變化時對雙方策略選擇演變過程的影響。

2.1 SD模型反饋圖構(gòu)建

根據(jù)上述地鐵施工人員不安全行為博弈模型分析，利用Vensim PLE 6.3對其建立SD模型，構(gòu)建的SD模型由施工人員選擇安全行為占群體比例及安全管理人員進行檢查占群體比例2個水平變量，施工人員的安全行為變化率和安全管理人員檢查變化率2個速度變量，以及C1、C2等15個輔助變量構(gòu)成。SD模型如圖1所示。

2.2 SD模型初始仿真分析

根據(jù)文獻[16]以及實際情況對相關(guān)參數(shù)進行賦值，設(shè)置初始參數(shù)為：initial time=0，final time=100，time step=0.031 25，units for time：week。設(shè)置15個輔助變量的初始值置：C1=3，C2=1，C3=4，R1=5，R2=4，R3=1，L=5，f=0.2，k=0.6?；谇拔姆治龅玫降淖兞筷P(guān)系[式(1)～式(8)]確定SD模型中流率公式及其涉及的中間變量。

(9)

圖1 施工人員不安全行為演化博弈系統(tǒng)動力學模型Fig.1 Dynamic model of evolutionary game system for unsafe behavior of construction workers

2.2.1 初始仿真

初始階段，博弈雙方采用均衡解，將5個均衡解輸入Vensim PLE 軟件，進行數(shù)據(jù)仿真，其結(jié)果如圖2所示。

圖2 博弈雙方行為仿真結(jié)果Fig.2 Simulation results of behaviors of both parties in the game

當雙方采取純策略A時，安全管理人員選擇“不檢查”時，而地鐵施工人員作為有限理性人，出于對自身利益的考慮，其最佳策略是進行“不安全行為”，維持現(xiàn)狀不變；當博弈雙方采取純策略B時，即所有的施工人員選擇“不安全行為”，管理人員選擇“檢查”策略，也就是說即便施工人員先前還處于一種不利地位，在沒有通過學習而選擇新策略之前，雙方策略選擇還處于穩(wěn)定狀態(tài)，純策略C同理；當博弈雙方采取純策略D時，安全管理人員選擇“檢查”時，施工人員考慮到自身利益，同時還要承擔起相應(yīng)的安全責任，最佳策略是選擇“安全行為”。

2.2.2 純策略穩(wěn)定性仿真

下面對某個體更改策略后系統(tǒng)的最終穩(wěn)定狀態(tài)進行分析。以純策略均衡解A為例進行驗證，將安全管理人員檢查的比例由y=0調(diào)整為y=0.05再次進行仿真，結(jié)果如圖3所示。

圖3 純策略A(y→0.05)仿真結(jié)果Fig.3 Simulation results of pure strategy A(y→0.05)

安全管理人員中某個體改變策略后，原均衡狀態(tài)就會發(fā)生改變，安全管理人員檢查概率由0向1發(fā)生轉(zhuǎn)變，雙方策略由A逐步演化至B。發(fā)生該情況的原因可能是，當安全管理人員中的某個個體改變策略后，檢查發(fā)現(xiàn)了地鐵施工人員不安全，對其進行懲罰獲得了更高的收益，則該群體中的其他個體開始模仿該行為，從而導致安全管理人員的檢查趨勢不斷加強，最后演變?yōu)閳D3的狀態(tài)。則初始均衡解A不穩(wěn)定。同理，可得到其他3個純策略解都不是演化穩(wěn)定均衡解。

2.2.3 混合策略穩(wěn)定性仿真

由圖2得到混合策略均衡解E也是一種相對穩(wěn)定的狀態(tài)。同樣，對策略微小改變，再次進行模擬，結(jié)果如圖4所示。線呈振蕩趨勢，表明安全管理人員檢查與施工人員不安全行為的策略選擇是不斷震蕩變化且沒有收斂的，雙方采取不是均衡值時，另一方會依據(jù)對方的策略來調(diào)整自己的策略，隨著博弈時間和博弈次數(shù)的增加，雙方策略變動較大，系統(tǒng)穩(wěn)定存在不確定性。

仿真結(jié)果表明，混合策略以及純策略的均衡點具有不穩(wěn)定性，只有任意一方的策略選擇發(fā)生微小變化，原策略會趨向于其余策略穩(wěn)定，則不存在穩(wěn)定策略，說明施工人員的策略選擇具有波動性。

圖4 混合策略E(y→0.2)仿真結(jié)果Fig.4 Simulation results of mixed strategy E(y→0.2)

3 不安全行為檢查系統(tǒng)的穩(wěn)定性控制與優(yōu)化

根據(jù)上述博弈結(jié)果分析中可知，5個策略都處于不穩(wěn)定狀態(tài)，在這個波動狀態(tài)下，安全管理人員難以合理地對施工人員不安全行為檢查，不安全行為難以得到及時有效的控制。因此，有必要對如何穩(wěn)定該博弈系統(tǒng)的控制策略進行研究。

3.1 一般懲罰策略

研究安全管理人員的懲罰力度對施工人員不安全行為的影響，通過改變系統(tǒng)中對施工人員不安全行為的懲罰力度，將對施工人員的懲罰力度C3=4改變?yōu)镃3=5、C3=6，初始策略選擇設(shè)定為x=0.5，y=0.5，圖5(a)、圖5(b)分別表示在對施工人員不同懲罰力度下，安全管理人員和施工人員的策略選擇。

從圖5(a)、圖5(b)的仿真結(jié)果可知，增大對不安全行為的懲罰力度，安全管理人員的檢查概率以及施工人員的安全行為概率上升，上升的幅度也更大，且存在有規(guī)律的波動性?？梢园l(fā)現(xiàn)，僅提高懲罰力度，可以增加地鐵施工人員安全行為的概率，谷值和峰值均有提高，但是該策略只在短期內(nèi)有效，施工人員會因為懲罰力度的增大而選擇安全行為，但這種情形不能得到維持，隨著時間的增長，博弈雙方的行為選擇還是存在一定的波動性，這使得管理人員做出錯誤的預(yù)計，從而錯誤選擇策略，而過于嚴厲的懲罰力度引發(fā)施工人員的報復(fù)行為，可能導致安全偏離行為的發(fā)生[17]，在制定與實施懲罰制度時存在局部限制性。

圖5 一般懲罰情景下博弈雙方行為仿真結(jié)果Fig.5 Simulation results of behaviors of both players in the game under general punishment scenario

3.2 動態(tài)懲罰策略

在對施工人員不安全行為的懲罰C3為固定值的基礎(chǔ)上，懲罰力度的增大確實可以使施工人員選擇安全策略的概率上升，但是博弈雙方的策略選擇仍處于頻繁波動的狀態(tài)，施工人員不安全行為沒有被有效地約束。僅通過提高懲罰力度來減少不安全行為不可行，因此需要為安全管理人員找到一個更加合理有效的懲罰策略，同時避免博弈演化過程的波動性。

因此，采用動態(tài)懲罰函數(shù)，設(shè)置不安全行為懲罰程度隨著不安全行為比率的上升而提高，當施工人員選擇不安全行為時，增大事故發(fā)生的可能性，而事故的嚴重程度也會增大。所以，認為施工人員的不安全行為概率與事故嚴重程度存在正相關(guān)關(guān)系，則可以表示事故的嚴重程度。因此，假設(shè)施工人員受到的懲罰由原來的常數(shù)C3變?yōu)閯討B(tài)懲罰C3=c3(1-x)，引入中間變量c3，c3表示罰款的最高標準，設(shè)置初始值C3=4(1-x)，保留其他參數(shù)與上述靜態(tài)懲罰策略一致。設(shè)置雙方策略選擇的初始值為：(x,y)=(0.5,0.5)、(x,y)=(0.2,0.8)，對著兩種情景進行仿真，結(jié)果如圖6(a)、圖6(b)所示，可以發(fā)現(xiàn)，在動態(tài)懲罰下，即使雙方在不同的初始策略下，演化博弈不斷變化，最終結(jié)果都穩(wěn)定在(0.36，0.39)，較好地抑制了雙方博弈中的不斷波動，使兩方策略收斂于一點。

通過仿真結(jié)果可知，在動態(tài)懲罰策略下，該演化模型最終穩(wěn)定于均衡解x*=(0.36,0.39)中，將均衡解帶入博弈模型中進行進一步驗證，若兩者結(jié)果相同，則證明此解是有效的。

將C3=4替換為C3=c3(1-x)，得到新的復(fù)制動態(tài)方程為

(10)

令[F′(x),F′(y)]=0, 0≤x,y≤1，得到該方程組的5個均衡解為：A(0,0)，B(0,1)，C(1,0)，D(1,1)，E(0.36,0.39)。

將A～E帶入新復(fù)制動態(tài)方程的雅可比矩陣，由表3可知，E點滿足ESS穩(wěn)定性條件，表明E點是系統(tǒng)的穩(wěn)定性解。

圖6 動態(tài)懲罰策略仿真結(jié)果Fig.6 Simulation results of dynamic punishment strategy

表3 管理人員與施工人員演化博弈均衡點穩(wěn)定性判定Table 3 Stability judgment of equilibrium point of evolutionary game between managers and constructors

3.3 優(yōu)化動態(tài)懲罰策略

綜上所述，在動態(tài)懲罰策略下，可以降低博弈策略選擇的波動性，從而達到穩(wěn)定。上述分析結(jié)果表示雖然動態(tài)懲罰策略可以使博弈模型達到均衡狀態(tài)，但在實際施工中，僅有36%的施工人員選擇安全行為概率及39%的安全管理人員會對施工人員進行檢查，并不是理想中的最優(yōu)穩(wěn)定策略，因此需要對動態(tài)懲罰策略進行優(yōu)化，將安全管理人員對進行不安全行為的施工人員的罰款與兩者選擇概率和進行安全行為的成本相聯(lián)系。優(yōu)化動態(tài)懲罰方案為C3=c3(1-x)+C1/y，其中c3代表相應(yīng)的懲罰系數(shù)，設(shè)置為4，參數(shù)保持與前文一致。

在優(yōu)化的動態(tài)懲罰情況下進行仿真，考慮初始策略(x,y)=(0.5,0.5)、(x,y)=(0.2,0.8)，仿真結(jié)果如圖7(a)、圖7(b)所示。

由仿真結(jié)果可得，博弈的演化過程大致收斂于P(1，0)，說明優(yōu)化動態(tài)懲罰方案對系統(tǒng)進行了優(yōu)化，可以有效地抑制雙方策略的波動，提供了最優(yōu)穩(wěn)定策略，此時雙方博弈的策略選擇達到了理想狀態(tài)，即安全管理人員以較小的比率對其檢查管理，同時地鐵施工人員會遵守正確操作準則。將優(yōu)化動態(tài)懲罰機制代入博弈模型進行驗證，解得雅克比矩陣B為

(11)

代入P(1，0)求得特征值λ1=-18、λ2=-2，λ1<0，λ2<0。

因此，P(1，0)是該模型的穩(wěn)定策略，驗證結(jié)果與仿真結(jié)果吻合。在優(yōu)化的動態(tài)懲罰下，博弈雙方行為選擇達到了穩(wěn)定，施工人員幾乎都選擇安全行為作為最優(yōu)策略，有效地減少了不安全行為的發(fā)生。

圖7 優(yōu)化動態(tài)懲罰策略仿真結(jié)果Fig.7 Simulation results of optimizing dynamic punishment strategy

4 結(jié)論

(1)施工人員與安全管理人員在一般條件下無法達到穩(wěn)定的均衡解，單純地加大懲罰力度只能在短期內(nèi)有效地減少不安全行為的發(fā)生，但博弈雙方的行為依然不斷上下波動，且幅度增大，導致安全管理人員在后期對施工人員的管理更加困難，由于雙方的行為選擇是不斷循環(huán)且進化的，地鐵施工人員容易找到管理中的漏洞，在此條件下，管理人員應(yīng)對懲罰制度及時調(diào)整，為減少不安全行為提供有力的管理。

(2)引入動態(tài)懲罰后并對其進行優(yōu)化后，安全管理人員可以將罰款金額與不安全行為比例及不安全行為收益掛鉤，施工人員與安全管理人員的不穩(wěn)定狀態(tài)得到抑制，達到穩(wěn)定狀態(tài)，為安全管理人員實現(xiàn)有效檢查提供了最優(yōu)的策略選擇，以較小的比率對其監(jiān)督管理可以有效防止不安全行為的發(fā)生。

(3)以上結(jié)果為地鐵施工人員的安全管理機制的設(shè)計與應(yīng)用提供了思路，提供了重要理論和實踐意義，模型參數(shù)設(shè)定基于文獻參考與專家咨詢得到，與現(xiàn)實可能存在差異，未來將基于實際現(xiàn)場數(shù)據(jù)進行仿真研究，以得到更具有說服力的結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡