李 睿,王 錚,2
(1.華東師范大學(xué)地理信息科學(xué)教育部重點(diǎn)實驗室,上海200241;2.中國科學(xué)院科技政策與管理科學(xué)研究所,北京100080)
基于自主體的模擬是一種非常流行的模擬方法,在許多學(xué)科中得到了廣泛的應(yīng)用。能夠使用該方法進(jìn)行模擬的事物存在3個主要原則[1]:
1)存在大量能夠相互作用或者與環(huán)境作用的客體;
2)客體是自主運(yùn)行的,不允許對其行為進(jìn)行中央或“自上而下”的控制;
3)能夠?qū)腕w相互作用的結(jié)果進(jìn)行數(shù)值計算。
Tesfatsion(2001)認(rèn)為現(xiàn)代經(jīng)濟(jì)系統(tǒng)是一個復(fù)雜自適應(yīng)系統(tǒng),它由分散的、在不同市場環(huán)境中相互作用的自主體集合組成,并且具有自主創(chuàng)新能力[2]。這表明現(xiàn)代經(jīng)濟(jì)系統(tǒng)存在使用自主體模擬的理論基礎(chǔ),因此本文采用經(jīng)濟(jì)學(xué)領(lǐng)域的自主體模擬方法——ACE(Agent-based Computational Economics)方法,對以企業(yè)為基礎(chǔ)經(jīng)濟(jì)系統(tǒng)進(jìn)行了演化的實驗?zāi)M。
Wang,Dai(2010)基于自主體的建模,將知識產(chǎn)權(quán)保護(hù)制度作為考察企業(yè)對不同環(huán)境反應(yīng)的制度因素,研究了研發(fā)政策對高科技創(chuàng)業(yè)企業(yè)發(fā)展的影響[3];顧高翔,王錚,姚梓璇(2013)將中國劃分為362個有創(chuàng)新能力的資本組織,通過比較不同的金融政策,對經(jīng)濟(jì)危機(jī)發(fā)生的原因和解決經(jīng)濟(jì)危機(jī)的辦法進(jìn)行了探究[4];Bures(2014)在NetLogo平臺上構(gòu)建了一個包含消費(fèi)者自主體,工廠自主體,采礦自主體和運(yùn)輸自主體的經(jīng)濟(jì)系統(tǒng),通過研究該系統(tǒng)隨時間的變化規(guī)律探究ACE的有效性和合理性[5];Monett(2016)同樣在NetLogo平臺上構(gòu)建了一個包含存款者自主體,借款者自主體,銀行自主體的經(jīng)濟(jì)系統(tǒng),并通過設(shè)置不同的參數(shù)研究不同情景下銀行破產(chǎn)的可能性[6];Kouwenberg(2015)建立了美國住房市場的自主體模型,發(fā)現(xiàn)該模型比標(biāo)準(zhǔn)模型能夠更好地預(yù)測美國住房市場的價格變化[7];Chen(2017)以鄱陽湖生態(tài)經(jīng)濟(jì)區(qū)為研究對象,構(gòu)建了一個生態(tài)產(chǎn)業(yè)鏈的自主體模型,該模型不僅討論了企業(yè)與政府之間的博弈關(guān)系,而且分析了產(chǎn)業(yè)鏈中企業(yè)之間利益關(guān)系的演化規(guī)律[8];Tang(2015)建立自主體模型研究不同CET(Carbon Emissions Trading)計劃的影響,從而找到最適合中國的CET計劃,實驗結(jié)論認(rèn)為該模型是一種有效的政策制定和分析工具[9]。但是在上文提及的研究中,自主體都不具有實時的智能性,只能通過事先定義的數(shù)學(xué)表達(dá)式表達(dá)偏好和產(chǎn)生行為,對環(huán)境變化反應(yīng)的自適應(yīng)能力不足。這對于一個復(fù)雜的經(jīng)濟(jì)系統(tǒng)來說,自主體個體判斷往往會出現(xiàn)偏差。
隨著信息化社會的發(fā)展,越來越多的高新技術(shù)產(chǎn)業(yè)在推動社會經(jīng)濟(jì)的發(fā)展中起到了至關(guān)重要的作用。產(chǎn)業(yè)的發(fā)展模式,技術(shù)的進(jìn)步速度,規(guī)模的擴(kuò)張程度和高新技術(shù)的研發(fā)方式都成為了需要關(guān)注的問題。本文根據(jù)這些特點(diǎn),構(gòu)建了一個由高新技術(shù)企業(yè)驅(qū)動的經(jīng)濟(jì)系統(tǒng),并采用ACE方法分析企業(yè)行為和技術(shù)發(fā)展,研究其在不同企業(yè)和經(jīng)濟(jì)形勢下的變化路徑。
本文的經(jīng)濟(jì)系統(tǒng)模型主要參考了Zhang(2003)[10],戴霄曄(2007)[11]和Wang,Dai(2010)[3]的工作。在他們的工作中,企業(yè)在模擬過程中無法動態(tài)分配其研發(fā)投入的比例。戴霄曄(2007)[11]和Wang,Dai(2010)[3]使用回歸分析的方法,得到了最優(yōu)創(chuàng)新投入比,但依舊是一個固定數(shù)值,無法動態(tài)變化。因此,本文把研究重心放在了如何使自主體智能地調(diào)整研發(fā)投入比例之上。
本文采取的人工智能算法DQN是AlphaGo的前身。2016年Deepmind將MCTS(蒙特卡洛樹搜索)與DQN結(jié)合,開發(fā)出了AlphaGo的初代版本。本文認(rèn)為企業(yè)進(jìn)行正確的決策行為就像是AlphaGo在下一步勝率最高的棋。
本研究將企業(yè)個體定義為自主體。為了模擬自主體間相互作用的強(qiáng)弱,將自主體劃分為不同的“區(qū)域群組”,“區(qū)域群組”內(nèi)自主體的行為模式更多地受到本群組成員的影響,存在著較為緊密的一致性(比如相似的創(chuàng)新研發(fā)策略),而受到其他群組自主體的影響較微弱,不同群組自主體的行為方式也存在差異。在現(xiàn)實世界中,企業(yè)的行為模式也會因為區(qū)域差異的不同而不同,區(qū)域尺度可以是市際,省際甚至國際。企業(yè)群便以區(qū)域為組織形式存在,區(qū)域便對應(yīng)本研究中的“區(qū)域群組”,同區(qū)域內(nèi)的企業(yè)互相影響,存在較高的相似性,而不同區(qū)域的企業(yè)則存在較大的不同。每一期模擬中,對于每一個企業(yè)自主體,存在4個階段:創(chuàng)業(yè)行為,生產(chǎn)行為,市場行為和創(chuàng)新行為。
設(shè)每個企業(yè)自主體在模擬的開始階段,如果處于未創(chuàng)業(yè)狀態(tài),則該企業(yè)在第t期的創(chuàng)業(yè)概率為:
(1)
式(1)中,Pri,j,t是第i組第j個企業(yè)在第t期的創(chuàng)業(yè)概率,Ki,j,t是第i組第j個企業(yè)在第t期的資本存量,ai,j,t是第i組第j個企業(yè)在第t期的企業(yè)存在年限,P0是初始基本創(chuàng)業(yè)概率。公式(1)認(rèn)為,企業(yè)的創(chuàng)業(yè)行為會受到組內(nèi)其他企業(yè)之前創(chuàng)業(yè)結(jié)果的影響。當(dāng)組內(nèi)有較多的企業(yè)發(fā)展較好(企業(yè)存在時平均每年的資本較高),在這種情況下,其他企業(yè)(自主體)則更樂意去創(chuàng)業(yè),創(chuàng)業(yè)概率較大。
若一個企業(yè)已經(jīng)創(chuàng)業(yè)成功,則會開始籌集資本投入生產(chǎn),本經(jīng)濟(jì)系統(tǒng)的生產(chǎn)函數(shù)以Cobb-Douglas函數(shù)形式定義:
Yi,j,t=hi,j,tKi,j,tα(α<1)
(2)
式(2)中,Yi,j,t是第i組第j個企業(yè)在第t期制造的產(chǎn)品量,hi,j,t是第i組第j個企業(yè)在第t期的生產(chǎn)技術(shù)水平,Ki,j,t是第i組第j個企業(yè)在第t期的資本存量,α是資本彈性指數(shù)。
企業(yè)在制造產(chǎn)品之后,將產(chǎn)品投入市場,各企業(yè)制造的產(chǎn)品之和是市場總體供給,產(chǎn)品的市場價格由市場供需和市場供給共同決定,將企業(yè)在這一過程中獲得的利潤定義為:
πi,j,t=PtYi,j,t-cYi,j,t
(3)
式(3)中,πi,j,t是第i組第j個企業(yè)在第t期的利潤,Pt是第t期的產(chǎn)品市場價格,Yi,j,t是第i組第j個企業(yè)在第t期制造的產(chǎn)品量,c是產(chǎn)品成本系數(shù)。
企業(yè)在創(chuàng)業(yè)成功后,開始制造產(chǎn)品,而每一期的市場供需現(xiàn)狀決定了該期的產(chǎn)品價格。第t期的產(chǎn)品價格定義為:
(4)
式(4)中,Pt是第t期的產(chǎn)品價格,Dt是第t期的市場需求,St是第t期的市場供給。
市場供給St定義為第t期市場中每個企業(yè)制造的產(chǎn)品Yi,j,t的總和:
(5)
市場需求Dt定義為:
Dt+1=Dt*(1+gt+bt+εt)
(6)
式(6)中,gt是衰減函數(shù),bt是周期函數(shù),εt是隨機(jī)擾動項,共同反映了隨著時間的進(jìn)行,市場需求的增長率在生產(chǎn)周期內(nèi)逐漸衰減的規(guī)律:
(7)
(8)
εt∈U(-0.02,0.02)
(9)
企業(yè)創(chuàng)業(yè)后,就會研發(fā),導(dǎo)致創(chuàng)新。這里的經(jīng)濟(jì)系統(tǒng)定義了兩種創(chuàng)新行為:自主創(chuàng)新和模仿創(chuàng)新。研發(fā)行為的規(guī)則定義為:
當(dāng)πi,j,t>0時,
INi,j,t+1=INi,j,t+m*n*πi,j,t
(10)
IMi,j,t+1=IMi,j,t+(1-m)*n*πi,j,t
(11)
Ki,j,t+1=(1-d)Ki,j,t+(1-n)πi,j,t
(12)
當(dāng)πi,j,t≤0時,
Ki,j,t+1=(1-d)Ki,j,t+πi,j,t
(13)
其中,INi,j,t是第i組第j個企業(yè)在第t期投入自主創(chuàng)新研發(fā)的資本,IMi,j,t是第i組第j個企業(yè)在第t期投入模仿創(chuàng)新研發(fā)的資本,n是本期投入創(chuàng)新研發(fā)的總資本占本期獲得利潤的比例,m是本期投入自主創(chuàng)新研發(fā)的資本占本期投入創(chuàng)新研發(fā)的總資本的比例,d是資本折舊系數(shù)。
創(chuàng)新研發(fā)資本的不停投入,最終量變引起質(zhì)變,獲得技術(shù)進(jìn)步,這一過程的規(guī)則定義為:
當(dāng)INi,j,t≥f(Ki,j,t)時,
(14)
(15)
INi,j,t+1=INi,j,t-f(Ki,j,t)
(16)
當(dāng)IMi,j,t≥g(Ki,j,t)時,
(17)
IMi,j,t+1=IMi,j,t-g(Ki,j,t)
(18)
創(chuàng)新研發(fā)獲得技術(shù)進(jìn)步的閾值準(zhǔn)則取作:
f(K)=βK3
(19)
g(K)=μK3
(20)
其中,β是自主創(chuàng)新研發(fā)的難度系數(shù),μ是模仿創(chuàng)新研發(fā)的難度系數(shù)。
另外,當(dāng)企業(yè)的資本存量過小時,企業(yè)將破產(chǎn),資本歸零,保留當(dāng)前技術(shù)水平,在后期的模擬中仍有機(jī)會重新創(chuàng)業(yè)。
此處,將定義一個特殊的企業(yè)自主體,該企業(yè)在每期模擬中的基本研發(fā)行為模式遵從上文的模型,但是該企業(yè)能夠根據(jù)下文的人工智能算法DQN評估在每期模擬中如何分配獲得的利潤,對企業(yè)自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n進(jìn)行自適應(yīng)調(diào)整。一共有9種可能的政策行為情景:
1)企業(yè)自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n不變;
2)提高企業(yè)自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n;
3)提高企業(yè)自主創(chuàng)新研發(fā)比例m,企業(yè)投入研發(fā)比例n不變;
4)企業(yè)自主創(chuàng)新研發(fā)比例m不變,提高企業(yè)投入研發(fā)比例n;
5)降低企業(yè)自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n;
6)降低企業(yè)自主創(chuàng)新研發(fā)比例m,企業(yè)投入研發(fā)比例n不變;
7)企業(yè)自主創(chuàng)新研發(fā)比例m不變,降低企業(yè)投入研發(fā)比例n;
8)提高企業(yè)自主創(chuàng)新研發(fā)比例m,降低企業(yè)投入研發(fā)比例n;
9)降低企業(yè)自主創(chuàng)新研發(fā)比例m,提高企業(yè)投入研發(fā)比例n。
其中,由于現(xiàn)實中企業(yè)創(chuàng)新研發(fā)策略存在延續(xù)性,不可能在短時間內(nèi)大幅度改變,因此將提高和降低m,n的規(guī)則定義為:
mt+1=mt+(1-mt)*0.1
(21)
mt+1=mt*0.9
(22)
nt+1=nt+(1-nt)*0.1
(23)
nt+1=nt*0.9
(24)
其中,式(21)和(23)是提高m、n的規(guī)則,提高的幅度分別是模擬創(chuàng)新研發(fā)比例(1-m)和企業(yè)投入再生產(chǎn)比例(1-n)的10%;公式(22)和(24)是降低m、n的規(guī)則,降低的幅度分別是自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n的10%。
該企業(yè)可以通過以上9種方式調(diào)整m和n,滿足自身偏好的同時適應(yīng)環(huán)境,而如何進(jìn)行有效且智能的調(diào)整是本文的重點(diǎn)研究內(nèi)容。
自主體的一個特點(diǎn)是自適應(yīng)學(xué)習(xí)。調(diào)整自主體或者說指導(dǎo)自主體從環(huán)境中學(xué)習(xí)知識的算法,稱之為強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。自主體的自適應(yīng)學(xué)習(xí)需要強(qiáng)化學(xué)習(xí)的幫助,DQN(Deep Q-Network)算法就是這么一種強(qiáng)化學(xué)習(xí)算法,它最為經(jīng)典的前身,是Watkins提出的Q學(xué)習(xí)(Q-learning)算法[12]。算法偽代碼如表1所示。
表1 Q學(xué)習(xí)算法偽代碼Tab.1 Pseudo code for Q-learning
在程序段1中,首先定義一個函數(shù)Q(s,a),該函數(shù)能夠根據(jù)當(dāng)前狀態(tài)s評估自主體各種可能的行為a。然后在環(huán)境探索過程中,自主體會選擇一個行為at,at有ε的概率選擇隨機(jī)行為,否則就是選擇使Q(s,a)取值最大的行為at。此時,自主體執(zhí)行at并轉(zhuǎn)移到下一狀態(tài)st+1,同時得到回報r,最后根據(jù)公式Q(st,at)=Q(st,at)+α[r+γmaxaQ(st+1,a)-Q(st,at)]更新Q(s,a)。可見,Q學(xué)習(xí)算法主要是通過自主體大量地探索環(huán)境,獲得能夠指導(dǎo)自身行為的Q(s,a),從而適應(yīng)環(huán)境。但是在Q學(xué)習(xí)算法中,狀態(tài)和行為空間離散且維數(shù)不高,此時可使用Q(s,a)儲存每個狀態(tài)行為對(s,a)的Q值,而當(dāng)狀態(tài)和行為空間高維連續(xù)時,Q(s,a)的存儲是一個難題。當(dāng)前最通用的做法是把Q(s,a)的更新問題變成一個函數(shù)擬合問題,相近的狀態(tài)得到相近的輸出行為。
2013年,人工智能研究團(tuán)隊DeepMind提出了DQN(Deep Q-Network)算法,將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合起來訓(xùn)練自主體,利用深度神經(jīng)網(wǎng)絡(luò)的泛化能力存儲Q(s,a),使得自主體可以直接根據(jù)屏幕像素點(diǎn)輸出游戲動作。該算法在Atari 2600游戲中取得了驚人的效果:在參與實驗的7個Atari 2600游戲中,自主體有6個游戲超越了之前所有的強(qiáng)化學(xué)習(xí)方法,并且有3個游戲超過了專家級別的人類玩家[13]。本文會將企業(yè)自主體的各項狀態(tài)值以及市場條件等作為DQN的觀察值輸入,輸出得到當(dāng)前市場環(huán)境下最符合企業(yè)偏好的決策行為,同時進(jìn)行強(qiáng)化學(xué)習(xí)。通過這種學(xué)習(xí),企業(yè)自主體會在經(jīng)濟(jì)實際運(yùn)行中評估自己的行為,例如它對創(chuàng)新的效應(yīng)行為。2013版本DQN算法的偽代碼如表2所示,這個算法模型,刻畫了企業(yè)自主體的自適應(yīng)創(chuàng)新行為。
表2 2013版本DQN算法偽代碼Tab.2 DQN pseudo code (ver. 2013)
2015年,DeepMind更進(jìn)一步,在DQN的基礎(chǔ)上提出了帶有目標(biāo)Q函數(shù)的DQN,提升了自主體適應(yīng)環(huán)境的速度和準(zhǔn)確度[14]。
在2015版本DQN的基礎(chǔ)上進(jìn)行改進(jìn)的方法主要有Hasselt等提出的Double DQN[15],Schaul等提出的Prioritized Replay[16]和Wang等提出的Dueling Network[17]。本文采用了Double DQN,該算法訓(xùn)練兩個Q網(wǎng)絡(luò),一個負(fù)責(zé)選擇行為,另一個負(fù)責(zé)評估行為,隨后兩個Q網(wǎng)絡(luò)交替進(jìn)行更新,可以部分消除Q學(xué)習(xí)中經(jīng)常出現(xiàn)的過優(yōu)化[18]。
本文使用Python實現(xiàn)上述經(jīng)濟(jì)系統(tǒng)模型及DQN。主函數(shù)的代碼如表3所示。
首先,初始化經(jīng)濟(jì)系統(tǒng)模型作為自主體運(yùn)行環(huán)境env,再初始化作為自適應(yīng)學(xué)習(xí)行為的DQN模型agent。隨后進(jìn)入兩個循環(huán),第1個循環(huán)是模擬次數(shù)EPISODE,第2個循環(huán)是每次模擬的模擬期數(shù)STEP。在每次模擬開始時,都要根據(jù)經(jīng)濟(jì)環(huán)境對自主體可觀察的狀態(tài)state進(jìn)行初始化,該狀態(tài)包含了表3中的12個觀察指標(biāo)。在模擬周期中,自主體首先根據(jù)自身狀態(tài)得到其認(rèn)為最優(yōu)的行為action,隨后自主體執(zhí)行該行為,環(huán)境也隨之發(fā)生變化,同時返回自主體下一期可觀察的狀態(tài)next_state,回報函數(shù)值reward,以及判斷模擬周期是否結(jié)束(期數(shù)到200期或者企業(yè)自主體破產(chǎn))的邏輯值done。DQN模型就根據(jù)自主體本期可觀察的狀態(tài)state,行為action,回報函數(shù)值reward,下一期可觀察的狀態(tài)next_state,判斷模擬周期結(jié)束與否的邏輯值done,以及當(dāng)前模擬次數(shù)episode進(jìn)行自適應(yīng)學(xué)習(xí)。最后,將本期可觀察的狀態(tài)state賦值為下一期可觀察的狀態(tài)next_state,并判斷當(dāng)前模擬周期是否結(jié)束,若不結(jié)束,繼續(xù)進(jìn)行下一期的模擬,若結(jié)束,則重新開始一次新的模擬周期。
表3 Python主函數(shù)代碼Tab.3 The Python main function code
首先,在經(jīng)濟(jì)系統(tǒng)模型中存在著大量的外生參數(shù),類似的,在DQN中存在著大量的超參數(shù)(超參數(shù)是開始機(jī)器學(xué)習(xí)過程之前設(shè)置值的參數(shù)),這些參數(shù)的初始設(shè)置對于模型的正常運(yùn)行有著重要的作用。經(jīng)濟(jì)系統(tǒng)模型和DQN的參數(shù)初始值設(shè)定見表4和表5。表4的經(jīng)濟(jì)系統(tǒng)模型參數(shù)還是主要參考了Zhang等[10]和戴霄曄等[11]的工作,表5的DQN超參數(shù)則是根據(jù)深度強(qiáng)化學(xué)習(xí)原則調(diào)整得到的運(yùn)行結(jié)果較好的參數(shù)。
表4 經(jīng)濟(jì)系統(tǒng)模型參數(shù)確定Tab.4 Parameter determination of economic system model
表5 DQN超參數(shù)確定Tab.5 Determination of DQN hyper parameter
根據(jù)表5,本文的DQN模型構(gòu)建了2個6層的神經(jīng)網(wǎng)絡(luò),每層擁有神經(jīng)元60個。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率為0.9,回放樣本庫大小為50 000,并且每次從中隨機(jī)選擇2 000個樣本進(jìn)行訓(xùn)練。企業(yè)自主體的初始隨機(jī)選擇率為0.5,隨著訓(xùn)練的進(jìn)行,逐漸下降到0.1。DQN一共進(jìn)行4 000次模擬,每次模擬的模擬期數(shù)均為200期,以此探索和熟悉經(jīng)濟(jì)系統(tǒng)的環(huán)境。另外,神經(jīng)網(wǎng)絡(luò)層與層之間激活函數(shù)的選擇能夠顯著地影響信息在層之間的傳遞,從而影響訓(xùn)練優(yōu)化的效率,需要慎重選擇,常見的激活函數(shù)有Sigmoid,Tanh等。本文選擇ReLU(Rectified Linear Unit)激活函數(shù),該激活函數(shù)的優(yōu)點(diǎn)在于避免了神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中容易出現(xiàn)的梯度爆炸和梯度消失問題,活躍狀態(tài)的稀疏性更符合仿生學(xué)原理[19]。ReLU激活函數(shù)的數(shù)學(xué)表達(dá)式為:
表6 企業(yè)自主體觀察指標(biāo)Tab.6 The observation indicators of enterprise agent
f(x)=max(0,x)
(25)
另外,在每期模擬中,企業(yè)自主體通過12個能夠被自己觀察到的指標(biāo)對環(huán)境進(jìn)行了解(與之相反的,諸如其他企業(yè)自主體的資本,技術(shù)等指標(biāo)屬于商業(yè)機(jī)密,是無法被觀察到的),指標(biāo)的定義及公式出處見表6。
根據(jù)表6,企業(yè)自主體通過觀察自己的內(nèi)部信息(指標(biāo)1-8),群組信息(指標(biāo)9),以及整個經(jīng)濟(jì)系統(tǒng)的信息(指標(biāo)10-12),對調(diào)整自主創(chuàng)新研發(fā)比例和投入研發(fā)比例的行為進(jìn)行自適應(yīng)學(xué)習(xí)。
對于一個企業(yè)而言,決定它未來行為的不僅僅是當(dāng)前環(huán)境和企業(yè)自身的狀態(tài),還有企業(yè)的個性。企業(yè)的個性與回報函數(shù)的設(shè)置有關(guān),本文定義了三種企業(yè)個性,分別是:重視資本和利潤,重視技術(shù)水平以及重視三者。設(shè)置不同企業(yè)個性的意義在于,通過觀察不同個性的企業(yè)對環(huán)境反應(yīng)的不同,能夠?qū)Σ煌髽I(yè)偏好對企業(yè)決策的具體影響進(jìn)行研究分析。而不同的企業(yè)個性可以通過模型表達(dá),對應(yīng)的回報函數(shù)分別為:
(26)
(27)
(28)
其中,一旦企業(yè)破產(chǎn),回報都會設(shè)置為-100,這是對企業(yè)的一個極大的懲罰回報,因此企業(yè)會盡可能地避開極具破產(chǎn)風(fēng)險的行為,從而在剩下的行為中選擇符合自身性格特點(diǎn)且回報最大化的行為。
定義參與行為訓(xùn)練的特殊企業(yè)為“實驗企業(yè)”。將實驗企業(yè)的創(chuàng)業(yè)初始技術(shù)水平設(shè)置為平均值0.25(所有企業(yè)的創(chuàng)業(yè)初始技術(shù)水平滿足分布h0∈(U(0,1))2),創(chuàng)業(yè)初始資本設(shè)置為組平均值K0i(群組內(nèi)企業(yè)的創(chuàng)業(yè)初始資本滿足分布Ki,j,0∈(1+U(-0.05,0.05))K0i)??梢钥吹?,這是一個初始條件很普通的企業(yè),并且模擬過程中實驗企業(yè)一旦破產(chǎn),不可重新創(chuàng)業(yè)。
為了保證模擬結(jié)果的穩(wěn)定性,一共進(jìn)行了1000次模擬,并對每期模擬中實驗企業(yè)的資本,技術(shù),產(chǎn)量和利潤在組內(nèi)的排名進(jìn)行記錄,取平均值,以此衡量該企業(yè)對本經(jīng)濟(jì)系統(tǒng)環(huán)境的適應(yīng)程度,其中為了使平均值能夠反映出破產(chǎn)帶來的不良影響,實驗企業(yè)一旦破產(chǎn),本期的各項排名就定義為100,可見,組內(nèi)平均排名是實驗企業(yè)的模擬表現(xiàn)和破產(chǎn)表現(xiàn)的共同反映。
3.3.1 普通實驗企業(yè)
首先,將沒有使用DQN進(jìn)行自適應(yīng)學(xué)習(xí)的實驗企業(yè)定義為“普通實驗企業(yè)”(即企業(yè)自主創(chuàng)新研發(fā)比例m和企業(yè)投入研發(fā)比例n始終不變)。普通實驗企業(yè)的表現(xiàn)見圖1,其中橫軸為模擬期數(shù),縱軸為組內(nèi)排名。
圖1 普通實驗企業(yè)各項指標(biāo)組內(nèi)排名變化Fig.1 The change of indicators’ rank of common experimental enterprise in its group
可以看到,普通實驗企業(yè)在前10期模擬中的盈利表現(xiàn)不佳,由于這一階段環(huán)境中大量的企業(yè)開始創(chuàng)業(yè),產(chǎn)量大幅增加,使得產(chǎn)品的市場價格迅速下降,而普通實驗企業(yè)又缺乏有效的調(diào)整措施,因此這一階段普通實驗企業(yè)的利潤經(jīng)常處于負(fù)值狀態(tài),故排名甚至比處于未創(chuàng)業(yè)狀態(tài)的企業(yè)還低(未創(chuàng)業(yè)的企業(yè)該期利潤為0)。在第10期至第20期之間,普通實驗企業(yè)對創(chuàng)新研發(fā)的投入收到了成效,技術(shù)水平進(jìn)步很快,并帶動了利潤的提升。但是在第20期至第40期之間,由于存在模仿創(chuàng)新機(jī)制,其他企業(yè)能夠快速地提升自身技術(shù)水平,普通實驗企業(yè)的技術(shù)優(yōu)勢不復(fù)存在,并且普通實驗企業(yè)的初始技術(shù)水平并不是頂尖的,在此期間存在著部分技術(shù)水平高過普通實驗企業(yè)的新創(chuàng)業(yè)企業(yè)。隨著技術(shù)水平的逐漸落后,普通實驗企業(yè)的資本與產(chǎn)量排名也漸漸落后,并且在第40期左右,普通實驗企業(yè)破產(chǎn)的次數(shù)大增,所以四項指標(biāo)的排名均靠后。只有在極少量的模擬中,普通實驗企業(yè)可以堅持到第50期之后仍然沒有破產(chǎn)。
可見,普通實驗企業(yè)由于缺乏調(diào)整措施,并且不存在初始資本與技術(shù)優(yōu)勢,所以在模擬初期的破產(chǎn)風(fēng)險極高,這與現(xiàn)實中能夠通過調(diào)整自身創(chuàng)新研發(fā)投入策略的真實企業(yè)相差甚遠(yuǎn)。
接下來,本文將訓(xùn)練完成的DQN自適應(yīng)實驗企業(yè)進(jìn)行行為決策,由于企業(yè)個性的不同,最終企業(yè)的行為模式也大不相同。
3.3.2 重視資本和利潤的實驗企業(yè)
重視資本和利潤的實驗企業(yè)根據(jù)公式(26)的回報值進(jìn)行自適應(yīng)學(xué)習(xí),其各項指標(biāo)排名表現(xiàn)見圖2,其中橫軸為模擬期數(shù),縱軸為組內(nèi)排名。研發(fā)投入比例的變化見圖3,其中橫軸為模擬期數(shù),縱軸為比例值。
圖2 重視資本和利潤的實驗企業(yè)各項指標(biāo)組內(nèi)排名變化Fig.2 The change of indicators’ rank of experimental enterprise that values capital and profit in its group
圖3 重視資本和利潤的實驗企業(yè)研發(fā)投入比例變化Fig.3 The change of the proportion of R&D investment of experimental enterprise that values capital and profit in its group
可以看到,變化曲線存在和普通實驗企業(yè)相似的地方,即在前20期模擬中,隨著產(chǎn)品市場價格的下降,實驗企業(yè)的利潤排名不可避免地下降,但是實驗企業(yè)迅速地調(diào)整了企業(yè)投入研發(fā)比例,將更多的利潤投入擴(kuò)大再生產(chǎn)中,從而提高了產(chǎn)量,實驗企業(yè)得以迅速擺脫破產(chǎn)危機(jī),代價便是這段時期實驗企業(yè)的技術(shù)水平進(jìn)步有限。在第20期與第60期之間,實驗企業(yè)進(jìn)入了一個發(fā)展的黃金期,尤其是資本,產(chǎn)量和利潤排名迅速升至組前列,技術(shù)水平也隨著研發(fā)投入的累積得以進(jìn)步。在第60期之后,由于實驗企業(yè)資本的巨大體量,技術(shù)上的進(jìn)步與組內(nèi)其他企業(yè)相比較慢,并且模擬中的這一時期存在一定的破產(chǎn)現(xiàn)象,平均排名逐漸下降,再加上該企業(yè)更加重視當(dāng)前的資本和利潤,故實驗企業(yè)選擇繼續(xù)降低企業(yè)投入研發(fā)比例,但是選擇增加企業(yè)自主創(chuàng)新研發(fā)比例,因為自主創(chuàng)新研發(fā)的資本消耗比模仿創(chuàng)新研發(fā)的少,更容易推動技術(shù)進(jìn)步。
3.3.3 重視技術(shù)水平的實驗企業(yè)
重視技術(shù)水平的實驗企業(yè)根據(jù)公式(27)的回報值進(jìn)行自適應(yīng)學(xué)習(xí),其各項指標(biāo)排名表現(xiàn)見圖4,其中橫軸為模擬期數(shù),縱軸為組內(nèi)排名。研發(fā)投入比例的變化見圖5,其中橫軸為模擬期數(shù),縱軸為比例值。
圖4 重視技術(shù)水平的實驗企業(yè)各項指標(biāo)組內(nèi)排名變化Fig.4 The change of indicators’ rank of experimental enterprise that values technology in its group
圖5 重視技術(shù)水平的實驗企業(yè)研發(fā)投入比例變化Fig.5 The change of the proportion of R&D investment of experimental enterprise that values technology in its group
該實驗企業(yè)在模擬前60期的表現(xiàn)與重視資本和利潤的實驗企業(yè)極為相似,但是在第60期之后,實驗企業(yè)的表現(xiàn)不佳,破產(chǎn)出現(xiàn)的次數(shù)大增,因此各項指標(biāo)排名快速下降,可以看到造成這一區(qū)別的是:雖然面臨著后期大增的破產(chǎn)風(fēng)險,重視技術(shù)水平的實驗企業(yè)沒有快速調(diào)整企業(yè)投入研發(fā)比例,而是逐步調(diào)低且始終保持在0.3以上,并且與重視資本和利潤的實驗企業(yè)相比,重視技術(shù)水平的實驗企業(yè)把更多的利潤投入到模仿創(chuàng)新研發(fā)中,因為一旦模仿創(chuàng)新研發(fā)成功,對技術(shù)水平的提升是巨大的,這符合實驗企業(yè)的回報函數(shù)激勵??傮w上看,由于通過投資創(chuàng)新研發(fā)引導(dǎo)技術(shù)進(jìn)步這一過程存在滯后性,并且回報函數(shù)并沒有重視資本存量,所以該企業(yè)對破產(chǎn)風(fēng)險的控制不夠好。
3.3.4 重視三者的實驗企業(yè)
重視三者的實驗企業(yè)根據(jù)公式(28)的回報值進(jìn)行自適應(yīng)學(xué)習(xí),其項指標(biāo)排名表現(xiàn)見圖6,其中橫軸為模擬期數(shù),縱軸為組內(nèi)排名。研發(fā)投入比例的變化見圖7,其中橫軸為模擬期數(shù),縱軸為比例值。
圖7 重視三者的實驗企業(yè)研發(fā)投入比例變化Fig.7 The change of the proportion of R&D investment of experimental enterprise that values all of three indicators in its group
雖然重視三者的實驗企業(yè)資本,產(chǎn)量,利潤排名變化和重視技術(shù)水平的實驗企業(yè)類似,但是其技術(shù)的平均排名表現(xiàn)更好,第200期仍維持在第40名左右,說明其技術(shù)水平更高,且破產(chǎn)出現(xiàn)的次數(shù)較少,但依然存在。
實驗企業(yè)自始至終保持著較高的企業(yè)投入研發(fā)比例,大部分時間在0.6以上,并且自主創(chuàng)新和模仿創(chuàng)新在不同的時期交替占據(jù)主要地位,反應(yīng)了實驗企業(yè)不同時期對企業(yè)創(chuàng)新的需求。根據(jù)較高的企業(yè)投入研發(fā)比例,可以分析得出該實驗企業(yè)對資本和利潤與技術(shù)之間關(guān)系的理解,即實驗企業(yè)認(rèn)為技術(shù)的進(jìn)步可以促進(jìn)資本和利潤的增長,資本和利潤的增長也可以反過來保障技術(shù)的進(jìn)步,這與回報函數(shù)的設(shè)置相吻合。
3.3.5 數(shù)值變化
由于組內(nèi)排名只能分析該種類型的實驗企業(yè)相對于組內(nèi)其他企業(yè)的表現(xiàn)情況,無法對比不同類型實驗企業(yè)表現(xiàn)情況的優(yōu)劣。因此仍需記錄實驗企業(yè)具體數(shù)值的變化,橫向分析三種類型實驗企業(yè)的發(fā)展變化。對三種類型實驗企業(yè)1 000次模擬的各項指標(biāo)數(shù)值變化的平均值進(jìn)行記錄和分析,定義實驗企業(yè)破產(chǎn)后的指標(biāo)數(shù)值為0。各項指標(biāo)的數(shù)值變化見圖8,其中橫軸為模擬期數(shù),縱軸為各項指標(biāo)在模擬中得到的數(shù)值。
圖8 3種類型實驗企業(yè)各項指標(biāo)數(shù)值變化Fig.8 The change of indicators of three types of experimental enterprise
從圖8的a、c、d可以看出,資本,產(chǎn)量,利潤這3個指標(biāo)之間的相關(guān)性很強(qiáng),只要資本增長的速度穩(wěn)定,產(chǎn)量和利潤就可以穩(wěn)定增長。而資本增長的速度一旦發(fā)生變化,如資本曲線在第160期和第180期斜率的變化,對利潤的影響較大,利潤曲線會出現(xiàn)明顯的波動。這3個指標(biāo)的整體表現(xiàn):重視資本和利潤的實驗企業(yè) > 重視技術(shù)水平的實驗企業(yè)>重視三者的實驗企業(yè)。但是從圖8b技術(shù)指標(biāo)的表現(xiàn)看,重視三者的實驗企業(yè)遠(yuǎn)遠(yuǎn)好于另外兩種實驗企業(yè),重視技術(shù)水平的實驗企業(yè)在中期的表現(xiàn)優(yōu)于重視資本和利潤的實驗企業(yè),但是由于其對資本指標(biāo)的重視程度不夠,模擬時后期破產(chǎn)的次數(shù)很多,所以其后期的表現(xiàn)不如重視資本和利潤的實驗企業(yè)。
本文利用實驗企業(yè)自主體模型探索了一個經(jīng)濟(jì)系統(tǒng)環(huán)境,但是存在著DQN訓(xùn)練時間不足,超參數(shù)設(shè)置不盡完美等問題(比如,擊敗柯潔的AlphaGo版本——AlphaGo Master有40層神經(jīng)網(wǎng)絡(luò),使用4塊TPU進(jìn)行了長達(dá)數(shù)十天的訓(xùn)練,下一場圍棋就需要耗費(fèi)3 000美元電費(fèi),可見只有類似Google這種資本與人力條件充沛的公司才能全面引導(dǎo)相應(yīng)算法的開發(fā)項目,但我們依舊可以借助DQN等具備自適應(yīng)學(xué)習(xí)能力的算法對經(jīng)濟(jì)領(lǐng)域進(jìn)行探索性研究),所以仍然存在著一定的破產(chǎn)風(fēng)險,并拉低了實驗企業(yè)自主體的組內(nèi)排名。盡管如此,我們還是可以明顯地看出其表現(xiàn)遠(yuǎn)遠(yuǎn)勝過普通的實驗企業(yè)自主體,模擬發(fā)現(xiàn)了:企業(yè)自主體的確可以通過探索一個企業(yè)創(chuàng)業(yè)創(chuàng)新經(jīng)濟(jì)系統(tǒng),從而獲得一定的智能性,為企業(yè)創(chuàng)業(yè)創(chuàng)新提供決策依據(jù)。
根據(jù)實驗企業(yè)自主體的各種表現(xiàn),包括指標(biāo)組內(nèi)排名和數(shù)值變化,可以得出以下結(jié)論:
1)無論哪種類型的企業(yè)自主體,在創(chuàng)業(yè)初期,都必須降低研發(fā)投入比例,將更多的資本投入擴(kuò)大再生產(chǎn)中,這一舉措極大地降低了普通企業(yè)自主體在創(chuàng)業(yè)初期面臨的破產(chǎn)風(fēng)險,但是由于模型缺少博弈機(jī)制(類似AlphaGo訓(xùn)練中的自我對弈機(jī)制),企業(yè)自主體的大局觀還有所欠缺。
2)重視資本和利潤的企業(yè)自主體的回報函數(shù)決定了其決策會在資本和利潤與破產(chǎn)風(fēng)險之間權(quán)衡,由于其更多地考慮資本和利潤,因此破產(chǎn)風(fēng)險最小,但是該種企業(yè)自主體并沒有在技術(shù)進(jìn)步與資本和利潤的提升之間建立強(qiáng)烈的聯(lián)系,模擬期間企業(yè)研發(fā)投入始終在下調(diào)。
3)重視技術(shù)水平的企業(yè)自主體則是在技術(shù)水平與破產(chǎn)風(fēng)險之間進(jìn)行權(quán)衡,因為對創(chuàng)新研發(fā)的投資并不能立刻帶來資本的提升,存在滯后性,并且自主創(chuàng)新研發(fā)有50%的可能性失敗,所以其破產(chǎn)風(fēng)險較大。
4)重視三者的企業(yè)自主體同時考慮到了資本、利潤和技術(shù)水平,并在技術(shù)進(jìn)步與資本和利潤的提升之間建立起一定的聯(lián)系,對創(chuàng)新研發(fā)的投資是最多的,技術(shù)水平也是最高的,但是其資本,產(chǎn)量,利潤這三個指標(biāo)的表現(xiàn)不如另外兩種企業(yè)自主體。