蘇 雪,徐 勇,樊旭嬌
(河北工業(yè)大學理學院,天津 300401)
企業(yè)合作創(chuàng)新是企業(yè)間的一種聯合創(chuàng)新行為,能夠為企業(yè)的技術學習、知識創(chuàng)造提供有效途徑[1]。合作創(chuàng)新行為作為一種重要的技術創(chuàng)新模式,已受到學術界和企業(yè)界的廣泛關注[2-4]。
創(chuàng)新是企業(yè)家的根本職能,企業(yè)創(chuàng)新活動的動力來源于對壟斷利潤及超額利潤的追逐。企業(yè)合作創(chuàng)新追求的目標是純收益最大化,有些企業(yè)為達目的,往往會采取投機行為,即利用合作企業(yè)的創(chuàng)新成果,但不把自己的成果分享給別人。這一行為將導致博弈演化過程中出現囚徒困境現象。若想跳出囚徒困境,讓所有企業(yè)全部參與合作創(chuàng)新,就需要施加控制,如:政府實施獎勵政策[5]、通過控制一個企業(yè)的行為而影響整個創(chuàng)新網絡博弈的演化。
將企業(yè)視為節(jié)點,企業(yè)之間的博弈關系用邊的連接表示,形成一個企業(yè)創(chuàng)新網絡。那么,企業(yè)創(chuàng)新演化博弈問題就轉化成創(chuàng)新網絡演化博弈問題。企業(yè)的策略選擇,取決于企業(yè)對合作創(chuàng)新帶來的純收益的預期。每個時刻,企業(yè)對比自身及鄰居的收益情況,決定下一時刻應對其它企業(yè)的最優(yōu)策略以及最優(yōu)博弈網絡結構。在實際應用中,博弈企業(yè)往往結合其他企業(yè)以往時刻的策略和收益進行策略選擇,為實現收益最大化,可能選擇不同的博弈對手或拋棄部分博弈對手,導致網絡結構發(fā)生改變。本文假設企業(yè)在切換網絡結構的情況下根據博弈企業(yè)前τ個時刻的信息更新策略。
網絡圖上的演化博弈稱為網絡演化博弈[6],圖中的點表示博弈參與人,圖的邊表示博弈關系。近年來,網絡演化博弈受到廣泛關注。但由于網絡演化博弈的復雜性以及可利用工具的局限性,有關企業(yè)創(chuàng)新網絡演化博弈的文獻鳳毛麟角。程代展教授將普通矩陣乘積推廣到任意維數兩個矩陣乘積,并保留普通矩陣乘積的性質,提出了矩陣半張量積理論[7]。半張量積作為有效工具,可將博弈動態(tài)系統(tǒng)轉化為相應的代數形式[8-9]。這種方法已成功應用到了布爾網絡[10-12]、多值邏輯網絡[13-15]、多層網絡演化博弈[16]、電網的需求和控制[17-18]以及帶有破產機制的網絡演化博弈中[19-20]。
通過企業(yè)合作創(chuàng)新博弈,企業(yè)能夠做出最大化自身利益的決策:參與合作創(chuàng)新或不參與合作創(chuàng)新、與哪個企業(yè)進行合作創(chuàng)新等。與傳統(tǒng)地利用計算機實驗模擬和微分方程分析企業(yè)創(chuàng)新博弈演化相比[21-22],通過半張量積理論將博弈過程代數化,企業(yè)可更加直觀、簡捷地觀察自身在博弈中的處境,并根據博弈局勢及時決定下一時刻的最佳博弈策略。同時政府可通過分析博弈演化趨勢,設計合適的控制,從而使得所有企業(yè)實現合作創(chuàng)新。
基于以上分析,本文通過半張量積方法研究切換拓撲企業(yè)創(chuàng)新時滯演化博弈。首先,建立切換網絡企業(yè)創(chuàng)新時滯演化博弈模型,利用半張量積將博弈中的企業(yè)收益、策略演化以及網絡的切換分別代數公式化,得到切換拓撲企業(yè)局勢演化過程的代數表達式,基于代數表達式分析博弈的局勢演化特征;其次,設計控制輸入,給出企業(yè)全部參與合作創(chuàng)新的充要條件,得到自由控制序列;最后,舉例驗證以上方法和結論在切換拓撲企業(yè)創(chuàng)新時滯演化博弈分析中的可行性。
首先列出本文用到的相關符號、定義及基本性質。
1)Mm×n表示m×n實矩陣集合;
3)Coli(M)表示矩陣M的第i列,Col(M)表示矩陣M的列集合;
5)Vr(A)=(a1,1,a1,2,…,a1,n,…,am,1,am,2,…,am,n)T表示矩陣A的行展開。
定義1[7]設A∈Mm×n,B∈Mp×q,l=lcm{n,p}為n與p的最小公倍數,那么,A與B的半張量積定義為
定義2[6]設M∈Mp×s,N∈Mq×s,它們的Khatri-Rao積記為M*N,定義為
命題1[7]設X∈Rm,Y∈Rn是兩個列向量,那么有
W[m,n]XY=YX
其中,W[m,n]=δmn[1,m+1,2m+1,…,(n-1)m+1,2,m+2,…,(n-1)m+2,…,m,2m,…,nm]稱為mn×mn換位矩陣。
命題2[23]定義恢復因子
命題3[6]設X∈Δp,Y∈Δq,定義兩個啞矩陣分別稱為“前保持操作”和“后保持操作”:
則
命題4[6]1)設列向量X∈Rt×1,A∈Rm×n,則有
2)設X∈Δk,有
X2=Mr,kX
(1)
式(1)中
稱為降冪矩陣。
(2)
式(2)中xi∈Δk,i=1,2,…,n。
引理2[11]考慮一個k值邏輯網絡
x(t+1)=Lx(t)
(3)
Ne=Trace(L)
2)長度為s的極限環(huán)的個數記為Cs,有
其中,ρ(s)代表s的真因子的集合,s的真因子是正整數且k
下面給出博弈論的相關定義。
定義3[6]一個正規(guī)有限博弈由以下3個要素組成:
1)n個玩家N={1,2,…,n};
3)玩家i的支付函數pi,i=1,2,…,n。
如果博弈在確定的策略更新規(guī)則下重復進行,就稱其為演化博弈。
定義4[6]一個網絡演化博弈由3個要素組成,記為((N,E),G,Π):
1)(N,E)代表一個網絡圖;
2)G稱為基本網絡博弈,當(i,j)∈E是網絡的一條邊時,i與j重復進行基本博弈;
3)Π稱為策略更新規(guī)則。
本文主要考慮切換拓撲企業(yè)創(chuàng)新時滯演化博弈。其中,切換拓撲是指不同時間點企業(yè)之間的博弈關系網不同,企業(yè)根據收益和策略的選擇調整參與博弈的網絡。時滯是指企業(yè)會根據鄰居及自身前τ個時刻的策略和收益信息來選擇下一時刻的博弈策略。
切換拓撲企業(yè)創(chuàng)新時滯演化博弈,包含以下4個部分:
1)企業(yè)創(chuàng)新網絡集M:={1,2,…,m},每個網絡的拓撲結構都是一個連通無向圖 (N,εz),其中N:={1,2,…,n}為企業(yè)集,εz:={(i,j),i,j∈N}是邊集,表示企業(yè)i和j在網絡z上存在博弈關系,z∈M;
2)企業(yè)創(chuàng)新基本網絡演化博弈:如果(i,j)∈εz,那么t時刻,在網絡z上企業(yè)i和企業(yè)j分別以策略xi(t)和xj(t)進行基本網絡演化博弈,xi(t),xj(t)∈S0={1,2};
3)企業(yè)的策略更新:假設t時刻所有企業(yè)在網絡z上進行博弈,策略更新表示為
xi(t+1)=fi,z(xi(t-τ+1),xi(t-τ+2),…,xi(t),xj(t-τ+1),xj(t-τ+2),…,xj(t)|j∈Ni,z)
(4)
式(4)中xj(t)∈S0是玩家j在t,t=0,1,2,…時刻的策略,Ni,z是企業(yè)i在網絡z上的鄰居集合,j∈Ni,z當且僅當 (i,j)∈εz,i∈N,z∈M;
4)企業(yè)創(chuàng)新博弈網絡的切換:設所有企業(yè)t時刻博弈的網絡記為z(t),網絡的切換為
z(t)=g(x(0),x(1),…,x(t))
(5)
表1 企業(yè)創(chuàng)新博弈的基本收益矩陣Tab.1 The basic benefit matrix of enterprise innovation game
由表1看出收益矩陣是對稱的。
本文計算博弈網絡上企業(yè)的總收益, 那么t時刻在網絡z上企業(yè)i的收益函數為
(6)
式(6)中pij(xi(t),xj(t))是t時刻在網絡z上,企業(yè)i與企業(yè)j分別以策略xi(t)和xj(t)博弈的收益,Ni,z表示網絡z上企業(yè)i的鄰居企業(yè)集合。
考慮到企業(yè)進行博弈時,都期望自身收益最高,所以本文采用時間并聯型短視最優(yōu)響應的策略更新規(guī)則:站在企業(yè)i的立場上,企業(yè)i認為其他企業(yè)下一時刻的策略選擇和上一時刻一樣,企業(yè)下一時刻的策略選擇是對付其他企業(yè)上一時刻最好的策略。設其他企業(yè)在t時刻的策略局勢為S-i(t),有
xi(t+1):=argmaxxi(t)∈S0pi(xi(t),S-i(t))
(7)
當企業(yè)有超過一個最優(yōu)響應策略時,選擇下標最小的策略作為下一時刻的策略。比如策略si,sj∈S0滿足式(7),如果有i>j,那么企業(yè)i選擇策略sj作為下一時刻的策略, 即xi(t+1)=sj。
企業(yè)的合作創(chuàng)新博弈是一個持續(xù)演化的動態(tài)過程,下面將切換拓撲企業(yè)創(chuàng)新時滯演化博弈過程代數公式化。
為了方便表示,定義如下符號表示向量
(8)
式(8)中yi(t)∈Δ2τ,y(t)∈Δ2nτ,y-i(t)∈Δ2(n-1)τ。
2.2.1 博弈收益代數公式化
由表1得收益矩陣
在網絡z上企業(yè)i的收益函數就可表示為
(9)
2.2.2 最優(yōu)策略演化的代數公式化
將Mpi,z分成 2(n-1)τ塊
Mpi,z=[Blk1(Mpi,z),Blk2(Mpi,z),…,Blk2(n-1)τ(Mpi,z)]
Colξi,l,z(Blkl(Mpi,z))≥Colξ(Blkl(Mpi,z)),?ξ=1,2
令Li=[Li,1,Li,2,…,Li,m],有
xi(t+1)=Liz(t)y(t)
(10)
2.2.3 網絡切換的代數公式化
企業(yè)已選出在每種網絡結構下對付其他企業(yè)最好的策略,這時企業(yè)需要根據所選策略預估同樣的策略在不同博弈網絡上的收益,然后決定下一時刻想要參加的博弈網絡?;谄髽I(yè)采用的短視最優(yōu)響應的策略更新規(guī)則,企業(yè)在t+1時刻的預估收益為
(11)
設行指標ζj滿足
Rowζj(V)≥Rowζ(V),?ζ=1,2,…,m
令Lz=δm[ζ1,ζ2,…,ζ2nτ],得到企業(yè)博弈網絡切換的代數表達形式
z(t)=Lzy(t)
(12)
2.2.4 博弈過程的代數公式化
綜合以上幾步,得到切換拓撲τ時滯企業(yè)創(chuàng)新網絡演化博弈的代數表達式
(13)
(14)
y(t+1)=Lyz(t)y(t)
(15)
y(t+1)=Lyz(t)y(t)=LyLzy(t)y(t)=LyLzMr,2nτy(t)=Ly(t)
(16)
式(16)中L=LyLzMr,2nτ。
企業(yè)博弈的演化特征可通過式(16)體現,L是企業(yè)策略局勢演化的狀態(tài)轉移矩陣,蘊含了企業(yè)策略演化的信息。因此,博弈的演化過程與式(16)所示的代數形式等價?;诖?,本文通過研究L的性質來分析博弈的演化特征,例如:博弈局勢演化的均衡,包括不動點和極限環(huán)。如果博弈過程收斂到一個不動點,表示所有企業(yè)都采取同樣的策略并保持不變,極限環(huán)表示企業(yè)的策略選擇是呈周期性改變的。
在這一部分,研究切換拓撲企業(yè)創(chuàng)新時滯演化博弈的策略優(yōu)化問題。目標是設計合理的自由控制序列使得所有企業(yè)全部參與合作創(chuàng)新。不失一般性,把第一個企業(yè)視為偽玩家作為控制輸入。 通過式(10)得到網絡z上帶有控制的最優(yōu)策略演化的代數表達
(17)
yj(t+1)=xj(t-τ+2)xj(t-τ+3)…xj(t+1)
(18)
h(t+1)=y2(t+1)y3(t+1)…yn(t+1)=(Ly2*Ly3*…*Lyn)u(t)h(t)=Luu(t)h(t)
(19)
式(19)中Lu=(Ly2*Ly3*…*Lyn)。
對式(19)變形,得h(t+1)=LuW[2(n-1)τ,2τ]h(t)u(t)=Lhh(t)u(t),其中Lh=LuW[2(n-1)τ,2τ]。則對?t∈Z+,有
h(t+1)=Lhh(t)u(t)=LhLhh(t-1)u(t-1)u(t)=(Lh)th(1)u(1)u(2)…u(t)
(20)
基于式(20),得到下面的定理。
(21)
如果式(21)成立,使得所有企業(yè)全部參與合作創(chuàng)新的自由控制序列可設計為
(22)
那么式(21)成立。
同時對?t>T有
這一部分,以產品零部件生產企業(yè)創(chuàng)新網絡演化博弈為例,來展示如何應用上述方法和結論研究其博弈過程。
考慮如下切換拓撲企業(yè)創(chuàng)新時滯演化博弈:
1)產品零部件生產企業(yè)創(chuàng)新博弈網絡集M={1,2,3},每個網絡圖都是一個連通無向圖 (N,εz),其中N={1,2,3}是3種產品零部件生產企業(yè),εz是網絡z上的邊集,其中ε1={(1,2),(2,3)},ε2={(1,2),(1,3)},ε3={(1,2),(1,3),(2,3)};
2)基本收益矩陣如表2所示:
3)企業(yè)遵循短視最優(yōu)響應的策略更新規(guī)則;
4)博弈網絡的切換依賴于當前時刻每種局勢下最優(yōu)策略在每個網絡上的收益。
圖1 企業(yè)創(chuàng)新博弈結構圖Fig.1 The structure of enterprise innovation game
表2 基本收益矩陣Tab.2 Fundamental return matrix
假設3種企業(yè)規(guī)模相當,且τ=2。首先解決博弈動態(tài)的代數表達式問題。
第1步:計算每個創(chuàng)新網絡上各企業(yè)博弈收益結構矩陣,得
Mp1,1=Mp2,2=Mp3,2= [2 2.5 2 2.5 2 2.5 2 2.5 1 0 1 0 1 0 1 0 2 2.5 2 2.5 2 2.5 2 2.5 1 0 1 0 1 0 1 0];
Mp1,2=Mp1,3=Mp2,1=Mp2,3=Mp3,3
=[4 5 3 2.5 4 5 3 2.5 3 2.5 2 0 3 2.5 2 0 4 5 3 2.5 4 5 3 2.5 3 2.5 2 0 3 2.5 2 0];
Mp3,1= [2 2.5 1 0 2 2.5 1 0 2 2.5 1 0 2 2.5 1 0 2 2.5 1 0 2 2.5 1 0 2 2.5 1 0 2 2.5 1 0]。
第2步:在企業(yè)所有可能的策略局勢下選取使得自身收益最大的策略作為下一時刻的策略。計算得
第3步:在同樣的策略下,選擇收益最大的博弈網絡作為下一時刻參與博弈的網絡。計算得Lz=δ3[3 3 3…3 3 3],即所有的企業(yè)最后將會在網絡3上進行博弈。
第4步:得到切換拓撲下τ=2時滯的企業(yè)創(chuàng)新演化博弈的代數表達:y(t+1)=Ly(t),其中
L=δ64[22 4 22 4 13 11 13 11 22 4 22 4 13 11 13 11 49 35 49 35 41 43 41 43 49 35 49 35 41 43 41 43
22 4 22 4 13 11 13 11 22 4 22 4 13 11 13 11 49 35 49 35 41 43 41 43 49 35 49 35 41 43 41 43]。
為了觀察博弈的演化特征,當k≥1時,計算得
L2k=δ64[43 4 43 4 13 22 13 22 43 4 43 4 13 22 13 22 49 22 49 22 22 22 22 22 49 22 49 22 22 22 22 22
22 4 22 4 13 11 13 11 22 4 22 4 13 11 13 11 49 22 49 22 22 22 22 22 49 22 49 22 22 22 22 22]
L2k+1=δ64[22 4 22 4 13 43 13 43 22 4 22 4 13 43 13 43 49 43 49 43 43 43 43 43 49 43 49 43 43 43 43 43
43 44 34 13 11 13 11 43 44 34 13 11 13 11 49 22 49 43 43 43 43 43 49 43 49 43 43 43 43 43]
對比兩個矩陣,可以看出博弈局勢的演化有3個不動點和1個極限環(huán):
實際上,(1)中的不動點是博弈的一個納什均衡,在此局勢下任何人都不愿意改變自己的策略,因為任何人改變策略都會導致收益減少,然而,這個納什均衡不是一個最優(yōu)的狀態(tài)。下面我們研究如何通過控制使得所有企業(yè)全部參與合作創(chuàng)新,即博弈演化收斂到最優(yōu)狀態(tài)。把第一個企業(yè)視為控制輸入,得到帶有控制的時滯演化博弈代數表達式
h(t+1)=Luu(t)h(t)
(23)
其中
Lu=δ16[6 4 6 4 13 11 13 11 6 4 6 4 13 11 13 11 13 13 9 11 9 11 13 13 9 11 9 11
6 4 6 4 13 11 13 11 6 4 6 4 13 11 13 11 13 13 9 11 9 11 13 13 9 11 9 11]
變形h(t+1)=Lhh(t)u(t),計算
Lh=δ16[6 1 6 1 4 3 4 3 6 1 6 1 4 3 4 3 13 9 13 9 11 11 11 11 13 9 13 9 11 11 11 11
6 1 6 1 4 3 4 3 6 1 6 1 4 3 4 3 13 9 13 9 11 11 11 11 13 9 13 9 11 11 11 11]
上述分析表示,如果偽玩家選擇策略2并保持不變,博弈從任意局勢開始都將收斂到參與合作創(chuàng)新狀態(tài),并保持此局勢不變。
本文首先建立了企業(yè)合作創(chuàng)新網絡演化博弈模型,并考慮切換拓撲和時滯兩個因素,使得博弈過程更加直觀,切合實際。其次,利用半張量積方法,將切換拓撲下企業(yè)創(chuàng)新時滯演化博弈過程轉化為代數演化方程,得到能夠反映出每一次博弈演化特征的局勢轉移矩陣。然后選擇偽玩家,將其視為控制輸入,通過博弈控制系統(tǒng)的代數空間表達式給出了所有企業(yè)全部參與合作創(chuàng)新的充要條件,得到合適的自由控制序列。最后,仿真分析驗證了方法和結論的有效性。
本文給出的方法和結果可以廣泛應用于實際生活中,如:人工智能與硬件終端的合作、螞蟻金服和銀行之間的互聯網金融的合作升級改造、華為和英特爾合作完善物聯網連接功能等。