国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于XGBoost算法的機會型創(chuàng)業(yè)預測研究

2023-03-13 05:32:48陳成夢黃永春吳商碩錢春琳
科技進步與對策 2023年5期
關鍵詞:機會個體預測

陳成夢,黃永春,2,吳商碩,錢春琳

(1.河海大學 商學院,江蘇 南京 211100;2.河海大學 社會科學研究院,江蘇 南京 210098)

0 引言

我國持續(xù)推進“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”戰(zhàn)略,旨在緩解新常態(tài)下的經(jīng)濟下行壓力,促進更高質量、更加充分的就業(yè)[1]。中共二十大報告提出,完善中國特色現(xiàn)代企業(yè)制度,弘揚企業(yè)家精神,加快建設世界一流企業(yè)。近年來,我國各級政府制定并出臺了一系列鼓勵創(chuàng)新創(chuàng)業(yè)的政策文件,因而全民創(chuàng)新創(chuàng)業(yè)熱情和積極性被空前激發(fā)。創(chuàng)業(yè)模式逐漸從生存型創(chuàng)業(yè)向機會型創(chuàng)業(yè)轉變,中國的機會型創(chuàng)業(yè)活動蓬勃發(fā)展。《全球創(chuàng)業(yè)觀察(GEM)2017/2018中國報告》顯示,中國機會型創(chuàng)業(yè)占創(chuàng)業(yè)活動的比例超過60%,較2002年的40%有較大提升,但與發(fā)達國家仍然存在一定差距。與難以找到工作、被迫進行創(chuàng)業(yè)的生存型創(chuàng)業(yè)不同,機會型創(chuàng)業(yè)由潛在商業(yè)機會驅動,具有較強的成長意向和較高的技術含量,可以催生更多就業(yè)機會,創(chuàng)造更高的經(jīng)濟收益,改善經(jīng)濟結構[2-3]。特別是在當前面臨日趨復雜嚴峻的國際環(huán)境以及全球新冠肺炎疫情沖擊的情況下,機會型創(chuàng)業(yè)有利于驅動中國從效率驅動型經(jīng)濟體向創(chuàng)新驅動型經(jīng)濟體轉型,跨越中等收入陷阱,實現(xiàn)經(jīng)濟強國目標[4]。因此,如何有效甄別機會型創(chuàng)業(yè)、針對性培育機會型創(chuàng)業(yè)具有重要意義。

Shane等[5]指出,要加強以機會為中心的創(chuàng)業(yè)研究,包括機會的來源,發(fā)現(xiàn)、評估和利用機會的過程以及個人?,F(xiàn)有研究發(fā)現(xiàn),機會型創(chuàng)業(yè)受創(chuàng)業(yè)自我效能、受教育水平、社會資本等個人因素[6],社會精英家庭、人力殘缺家庭等家庭因素[7],經(jīng)濟自由度、政府規(guī)模、腐敗和稅收政策等外部社會環(huán)境的影響[8-9]。雖然學者提出了機會型創(chuàng)業(yè)的一些影響因素,但相對零散。單一分析框架無法充分解釋機會型創(chuàng)業(yè),忽視機會型創(chuàng)業(yè)者的心理特征和動機可能難以揭示機會型創(chuàng)業(yè)背后真正的驅動因素。計劃行為理論作為社會心理學領域具有重要影響力的行為預測理論,可以有效預測創(chuàng)業(yè)意向及后續(xù)創(chuàng)業(yè)行為,為機會型創(chuàng)業(yè)這種經(jīng)過理性思考判斷而作出的行為決策提供較為全面有力的理論解釋框架。

創(chuàng)業(yè)活動是一個復雜的社會問題,受非線性網(wǎng)絡反饋系統(tǒng)的動態(tài)特性影響[10],因而很難預測。與此同時,傳統(tǒng)回歸方法的顯著性水平受樣本量影響,回歸系數(shù)受測量尺度影響,因而難以有效評估影響因素的貢獻,關于影響因素的相對重要性仍存在爭議[11]。機會型創(chuàng)業(yè)涉及的特征變量較多,各變量與機會型創(chuàng)業(yè)之間不僅僅局限于單一的線性關系,可能存在較為復雜的非線性關系[12]。從方法層面看,現(xiàn)有關于機會型創(chuàng)業(yè)的文獻多基于傳統(tǒng)計量方法研究變量間的關系問題,使用單一模型進行實證檢驗,沒有引入人工智能算法,造成實證結果片面化,難以實現(xiàn)全面檢驗和有效預測。隨著大數(shù)據(jù)時代的到來和計算機信息技術的發(fā)展,人工智能算法在越來越多的研究和應用領域日益受到關注,但對創(chuàng)業(yè)的關注相對較少。Obschonka等[13]認為,盡管存在一定挑戰(zhàn),人工智能和大數(shù)據(jù)正在顛覆與創(chuàng)業(yè)相關的工業(yè)、商業(yè)管理和創(chuàng)新等領域,并提出將人工智能與機會型創(chuàng)業(yè)相結合,關注這一新型創(chuàng)業(yè)研究及應用。作為人工智能領域的核心方法之一,機器學習算法在統(tǒng)計學理論基礎上,讓機器模擬人類進行自我學習并從海量信息中深度挖掘隱藏規(guī)律和信息,可以很好地擬合非線性關系,檢測輸入數(shù)據(jù)中交互的模糊性,適用于處理變量間較為復雜的關系(Gerasimovic等,2018;彭玉芳等,2022)。機器學習算法已逐漸運用在競爭力評價(張虎等,2016)、人才甄選(劉昕等,2019)、專利分類(Liu等,2020)、GDP增長預測(Yoon,2021)等方面。近幾年,創(chuàng)業(yè)學者開始使用機器學習算法研究創(chuàng)業(yè)問題。例如,Koumbarakis等(2022)使用XGBoost、隨機森林、支持向量機等機器學習算法預測新企業(yè)孕育結果。因此,XGBoost等機器學習算法可以預測個體是否進行機會型創(chuàng)業(yè)并區(qū)分不同影響因素的重要性,為傳統(tǒng)計量方法難以解決的預測和重要性判別問題提供支撐。

基于此,本文基于計劃行為理論,從主觀規(guī)范、行為態(tài)度、知覺行為控制3個方面,選擇成就導向、風險承擔、媒體宣傳、公眾認可、創(chuàng)業(yè)自我效能、機會識別和關系感知,并結合年齡、受教育水平、性別、家庭規(guī)模和家庭收入5個人口統(tǒng)計學特征共12個特征變量,以2018年全球創(chuàng)業(yè)觀察數(shù)據(jù)庫中等收入國家的個體數(shù)據(jù)為研究樣本,基于XGBoost算法構建機會型創(chuàng)業(yè)預測模型并識別關鍵影響因素。在此基礎上,基于準確率、精確率、召回率和F1值4個評估指標,將預測結果與支持向量機、隨機森林和邏輯回歸3種機器學習算法進行對比。研究可為政府和外部投資者有效識別潛在的機會型創(chuàng)業(yè),政府針對性培育機會型創(chuàng)業(yè)者,個體積極從事機會型創(chuàng)業(yè)活動提供理論指導和實踐參考,進而有利于推動中國跨越中等收入陷阱,向創(chuàng)新驅動型經(jīng)濟體轉型,促進經(jīng)濟高質量發(fā)展。

1 理論基礎與文獻回顧

計劃行為理論認為,個體有目的、有計劃的行為受意向支配,從事某一行為的意向受主觀規(guī)范、行為態(tài)度和知覺行為控制影響[14]。計劃行為理論作為社會心理學領域具有重要影響力的理論,也被廣泛應用于商業(yè)和管理領域,用于解釋和預測意向與行為(Armitage等, 2001)。計劃行為理論被應用于創(chuàng)業(yè)意向和創(chuàng)業(yè)行為研究主要體現(xiàn)在3個方面:第一,直接探討主觀規(guī)范、行為態(tài)度和知覺行為控制對創(chuàng)業(yè)意向的影響。例如,基于計劃行為理論,聚焦不同群體,探究行為態(tài)度、主觀規(guī)范和知覺行為控制對農(nóng)民工返鄉(xiāng)創(chuàng)業(yè)意向(熊智偉等,2011)、大學生創(chuàng)業(yè)意向(Al-Jubari等,2019)、學術創(chuàng)業(yè)意向(茅路灑等,2022)的影響。第二,探討行為態(tài)度、主觀規(guī)范和知覺行為控制通過創(chuàng)業(yè)意向的中介作用對創(chuàng)業(yè)行為的影響。例如,王季等[15]構建學術創(chuàng)業(yè)意愿形成和學術創(chuàng)業(yè)行為轉化的兩階段整合模型,發(fā)現(xiàn)學術創(chuàng)業(yè)意愿受行為態(tài)度、主觀規(guī)范和知覺行為控制影響,在情境和個人因素的調節(jié)作用下可以轉化為實際創(chuàng)業(yè)行為。第三,將重點放在實際的創(chuàng)業(yè)行為上,利用計劃行為理論直接預測創(chuàng)業(yè)行為,而不是創(chuàng)業(yè)意向。以往實證研究大多聚焦創(chuàng)業(yè)意向,而忽視了對實際創(chuàng)業(yè)行為的研究。Souitaris等[16]指出,創(chuàng)業(yè)意向與創(chuàng)業(yè)行為之間存在一定距離和時間差,具有創(chuàng)業(yè)意向的個體不一定會產(chǎn)生創(chuàng)業(yè)行為;Dézsi-Benyovszki等[17]基于計劃行為理論,從行為態(tài)度、主觀規(guī)范和知覺行為控制3個方面實證分析羅馬尼亞早期創(chuàng)業(yè)行為和內(nèi)部創(chuàng)業(yè)行為以及二者間的差異,以測試計劃行為理論在預測創(chuàng)業(yè)行為方面的適用性;朱亞麗等[18]從行為態(tài)度、主觀規(guī)范和知覺行為控制3個方面對員工內(nèi)部創(chuàng)業(yè)行為進行組態(tài)分析;Shabir等[19]發(fā)現(xiàn),行為態(tài)度、主觀規(guī)范和知覺行為控制對沙特阿拉伯早期創(chuàng)業(yè)活動具有顯著正向影響。

將計劃行為理論納入研究的創(chuàng)業(yè)學者認為,建立、發(fā)展企業(yè)以及與創(chuàng)業(yè)相關的其它行為都是有計劃的行為[20]。個體是理性經(jīng)濟人,機會型創(chuàng)業(yè)是經(jīng)過理性思考判斷、有目的和計劃的行為決策,因而計劃行為理論適合作為本研究的理論指導框架。參考Dézsi-Benyovszki等[17]、朱亞麗等[18]、Shabir等[19]利用計劃行為理論直接預測創(chuàng)業(yè)行為的做法,本研究進一步聚焦機會型創(chuàng)業(yè)行為,從主觀規(guī)范、行為態(tài)度和知覺行為控制3個方面對個體是否進行機會型創(chuàng)業(yè)這一問題進行理論分析。

首先,行為態(tài)度是指個人對某一特定行為的結果進行評估而產(chǎn)生的積極或消極評價[14]。針對機會型創(chuàng)業(yè)的行為態(tài)度可以分為成就導向和風險承擔兩個方面[18]。機會型創(chuàng)業(yè)更多受價值實現(xiàn)和自由獨立驅動,而不是生活所迫。具有高成就導向的個體更加注重獲得社會尊重與社會地位,因而更愿意從事機會型創(chuàng)業(yè)活動。創(chuàng)業(yè)作為一種高壓力、多挑戰(zhàn)、重負荷的活動,使個體面臨諸多風險與不確定性,尤其是機會型創(chuàng)業(yè)[21]。失敗恐懼會阻礙創(chuàng)業(yè)活動,因此,當個體對創(chuàng)業(yè)失敗風險持積極樂觀態(tài)度、勇于面對創(chuàng)業(yè)活動的高風險性與高不確定性時,會更積極參與機會型創(chuàng)業(yè)活動[22]。其次,主觀規(guī)范是指個體在綜合各種社會壓力等外部環(huán)境因素后產(chǎn)生的主觀認知[14]。社會規(guī)范是客觀存在的,而個體對社會規(guī)范的感知是主觀構建的。公眾認可和媒體關注等社會規(guī)范對創(chuàng)業(yè)活動的約束力和影響力甚至超過某些正式制度因素[23]。當創(chuàng)業(yè)被認為是一種理想的職業(yè)選擇且被媒體廣泛宣傳報道時,個體感受到良好的創(chuàng)業(yè)氛圍和創(chuàng)業(yè)合法性,進而有利于資源獲取和知識共享,降低創(chuàng)業(yè)進入門檻和退出壁壘[24],從而激發(fā)機會型創(chuàng)業(yè)行為。最后,知覺行為控制是指個體感知到對特定行為掌控的難易程度[25],主要包括自我效能和感知可控兩個方面[26]。創(chuàng)業(yè)自我效能是指個體對自己完成任務和發(fā)揮作用以取得創(chuàng)業(yè)成果能力的信心[27]。具有高創(chuàng)業(yè)自我效能的個體相信自己具有創(chuàng)業(yè)所需的能力和經(jīng)驗,成為創(chuàng)業(yè)者的意愿更強,更有可能進行機會型創(chuàng)業(yè)。創(chuàng)業(yè)感知可控是指個體感知到對創(chuàng)業(yè)機會、創(chuàng)業(yè)關系等具有一定控制能力[18]。創(chuàng)業(yè)機會感知是一種重要創(chuàng)業(yè)能力和開始創(chuàng)業(yè)活動的關鍵因素(DeTienne等,2007),識別到高價值商業(yè)機會的個體更有可能參與機會型創(chuàng)業(yè)活動。當感知到一定創(chuàng)業(yè)關系支持時,個體可以與外部利益相關者建立更牢固的情感契約和信任,集聚、整合和利用稀缺、有價值的創(chuàng)業(yè)信息和創(chuàng)業(yè)資源,從而提高機會型創(chuàng)業(yè)的合法性,為機會型創(chuàng)業(yè)活動提供支持(Svendsen等,2004)。

2 研究設計

2.1 研究方法

機器學習主要包括監(jiān)督學習、無監(jiān)督學習和強化學習,其中,監(jiān)督學習探究輸入數(shù)據(jù)與目標結果間的關系,因而采用監(jiān)督學習方法研究機會型創(chuàng)業(yè)問題。集成學習不是單獨的機器學習方法,而是通過構建并結合多個機器學習器完成任務。Boosting方法通過分步迭代構建模型,各個預測函數(shù)順序生成,在每一步迭代時構建弱分類器,從而彌補已有模型的不足(王重仁等,2019)。

XGBoost全稱為eXtreme Gradient Boosting,是由陳天奇(2014)提出的基于Boosting集成學習算法的極端提升樹模型。其基本思想是通過不斷進行特征變量分裂生成樹,每生成一棵樹,都重新學習一個新函數(shù),擬合上次預測的殘差,從而不斷提高學習質量[28]。XGBoost算法適用于機會型創(chuàng)業(yè)預測研究,主要體現(xiàn)在3個方面:首先,個人是否進行機會型創(chuàng)業(yè)本質上屬于一個二分類問題,該算法可以處理是否進行機會型創(chuàng)業(yè)這一分類問題。其次,XGBoost算法具有良好的性能,是對GBDT算法的一種改進,以CART作為基分類器,還可支持線性分類器,其損失函數(shù)采用二階泰勒展開,同時用到一階和二階導數(shù),為控制復雜度,在目標函數(shù)中加入正則項,支持列抽樣,可以降低過擬合,減少計算,具有靈活性強、精度高、運算效率高等優(yōu)點。因此,該算法可以處理機會型創(chuàng)業(yè)變量間的復雜關系和大規(guī)模數(shù)據(jù),提高機會型創(chuàng)業(yè)的預測效果和運行效率[29]。最后,XGBoost算法可以評估自變量的相對重要性,反映自變量對機會型創(chuàng)業(yè)影響的大小。

2.2 數(shù)據(jù)來源

全球創(chuàng)業(yè)觀察(Global Entrepreneurship Monitor,GEM)由美國百森商學院與英國倫敦商學院發(fā)起,是研究創(chuàng)業(yè)者特質、創(chuàng)業(yè)環(huán)境、創(chuàng)業(yè)行為等全球創(chuàng)業(yè)問題的權威數(shù)據(jù)來源[30],包括成年人口調查數(shù)據(jù)庫(Adult Population Survey,APS)和國家專家調查數(shù)據(jù)庫(National Expert Survey,NES)。由于GEM的完整數(shù)據(jù)集在數(shù)據(jù)收集3年后才對公眾開放,因而本文基于2018年APS數(shù)據(jù)庫獲取數(shù)據(jù)。該數(shù)據(jù)庫能夠反映個體創(chuàng)業(yè)特點、動機和抱負以及社會對創(chuàng)業(yè)的態(tài)度等信息。同時,全球競爭力報告將國家收入組劃分為低等收入國家、中等收入國家和高等收入國家3種類型。為使研究結論對中國等中等收入國家有借鑒意義,控制國家層面特征,確保案例總體之間具有充分的同質性[31]。因而,本文選取包括中國在內(nèi)的中等收入國家作為研究樣本,使用2018年APS數(shù)據(jù)庫個體層面數(shù)據(jù),剔除數(shù)據(jù)缺失的樣本,最終獲得12 829條個體數(shù)據(jù)。

2.3 評價指標

進行機會型創(chuàng)業(yè)的個體為主要研究人群,將其定義為正類。本文具體采用準確率、精確率、召回率和F1值4個評價指標衡量模型預測效果,通過混淆矩陣對4個評價指標進行計算,TP和TN分別表示對進行機會型創(chuàng)業(yè)樣本和不進行機會型創(chuàng)業(yè)樣本預測正確的樣本數(shù),F(xiàn)N和FP分別表示對進行機會型創(chuàng)業(yè)樣本和不進行機會型創(chuàng)業(yè)樣本預測錯誤的樣本數(shù),混淆矩陣如表1所示。

表1 混淆矩陣Tab.1 Confusion matrix

準確率表示預測正確的樣本占總樣本的比例,計算公式如下:

(1)

精確率表示對進行機會型創(chuàng)業(yè)預測正確的樣本占被預測為進行機會型創(chuàng)業(yè)樣本的比例,計算公式如下:

(2)

召回率表示對進行機會型創(chuàng)業(yè)預測正確的樣本占實際進行機會型創(chuàng)業(yè)樣本的比例,計算公式如下:

(3)

在某些情況下,精確率和召回率會產(chǎn)生矛盾。為綜合評判模型的預測能力,使用F1值進行判定,F(xiàn)1是精確率和召回率的調和均值,即精確率與召回率乘積的兩倍除以兩者之和,其值越大,說明模型的預測能力越強,具體公式如下:

(4)

2.4 特征指標

本文主要借鑒朱亞麗等[18]關于員工內(nèi)部創(chuàng)業(yè)行為的研究框架,參考鄭馨等[23]、Ajzen[26]的研究,在行為態(tài)度層面選擇成就導向和風險承擔兩個特征指標,在知覺行為控制層面選擇創(chuàng)業(yè)自我效能、機會識別和關系感知3個特征指標,在主觀規(guī)范層面選擇媒體宣傳和公眾認可兩個特征指標,在行為層面選擇機會型創(chuàng)業(yè)特征指標。此外,性別、年齡等人口統(tǒng)計學特征是影響創(chuàng)業(yè)動機和行為的其它個人因素(Wood等, 1989)。因此,參考Dézsi-Benyovszki等[17]、Shabir等[19]的研究,選擇年齡、受教育水平、性別、家庭規(guī)模和家庭收入5個人口統(tǒng)計學特征指標,具體解釋如表2所示。

表2 特征指標及說明Tab.2 Characteristic indexes and description

考慮到變量可能存在共線性問題,從而影響預測效果,同時由于研究數(shù)據(jù)中存在非連續(xù)型變量,因而參考王言等[28]的研究,采用Spearman相關分析和方差膨脹因子(Variance Inflation Factor,VIF)兩種方法進行檢驗。結果顯示,各變量間的相關系數(shù)均小于0.6,各變量的VIF值及均值都小于3,說明不存在嚴重的共線性問題。

3 模型構建與效果對比

本文基礎數(shù)據(jù)共12 829個樣本,其中進行機會型創(chuàng)業(yè)的樣本有1 744個,不進行機會型創(chuàng)業(yè)的樣本有11 085個,樣本不平衡問題明顯。在樣本存在明顯不平衡的情況下,常見的機器學習算法絕大多數(shù)都不能很好地工作,模型對少數(shù)樣本的敏感性降低,預測效果受到嚴重影響(Kuhn等,2013)。進行機會型創(chuàng)業(yè)與不進行機會型創(chuàng)業(yè)的樣本數(shù)相差過大,可能導致在模型學習過程中,對不進行機會型創(chuàng)業(yè)的人群特征學習充分而對進行機會型創(chuàng)業(yè)的人群特征學習不夠,在識別機會型創(chuàng)業(yè)者時不準確,從而導致分類預測效果欠佳。因此,本文參考吳翌琳等(2021)的研究,采用過采樣方法,復用進行機會型創(chuàng)業(yè)的樣本4次,得到共計19 805個樣本進行建模分析。為更好地檢驗分類模型的預測能力,對樣本進行多組實驗,觀察擬合效果,最終確定將樣本數(shù)按7∶3的比例隨機拆分為訓練集和測試集,確保有足夠的數(shù)據(jù)量訓練模型。

3.1 XGBoost算法結果

3.1.1 參數(shù)設置

XGBoost算法主要包括控制宏觀函數(shù)的通用參數(shù)、控制booster細節(jié)的Booster參數(shù)和控制訓練目標的學習目標參數(shù)3類參數(shù),具體涉及幾十個參數(shù)(曹睿等,2021)。建模的一個關鍵因素在于選擇適當?shù)膮?shù),為提高模型性能,本文基于XGBoost算法構建機會型創(chuàng)業(yè)預測模型并對參數(shù)進行優(yōu)化調整,模型主要參數(shù)設置及說明如表3所示。

表3 基于XGBoost算法的參數(shù)設置Tab.3 Parameter settings based on XGBoost algorithm

3.1.2 運行結果

使用Python軟件,利用訓練集建立XGBoost模型,進而得到測試集的混淆矩陣,如表4所示。實際進行機會型創(chuàng)業(yè)的樣本共2 591人,其中,2 487人被模型判定為進行機會型創(chuàng)業(yè),104人被誤判為不進行機會型創(chuàng)業(yè)。實際不進行機會型創(chuàng)業(yè)的樣本共3 351人,其中,2 799人被模型判定為不進行機會型創(chuàng)業(yè),552人被誤判為進行機會型創(chuàng)業(yè)。通過計算得到模型的準確率為(2 487+2 799)/(2 591+3 351)=89.0%,表明XGBoost算法具有較高的準確率。從進行機會型創(chuàng)業(yè)的類別看,根據(jù)混淆矩陣計算模型的召回率為2 487/(2 487+104)=96.0%,表明XGBoost算法對實際進行機會型創(chuàng)業(yè)的人挖掘能力很強,挖掘率達到96.0%。精確率為2 487/(2 487+552)=81.8%,表明在被判定為進行機會型創(chuàng)業(yè)的人群中存在18.2%的人不進行機會型創(chuàng)業(yè)。根據(jù)精確率和召回率,得到F1值為2×96.0%×81.8%/(96.0%+81.8%)=88.3%??傮w來看,XGBoost算法在精確率、準確率、召回率和F1值4個評價指標上都達到較高水平,對機會型創(chuàng)業(yè)具有較好的預測效果。

表4 基于XGBoost算法的混淆矩陣Tab.4 Confusion matrix based on XGBoost algorithm

在此基礎上,根據(jù)真陽性率(True Positive Rate,TPR)和假陽性率(False Positive Rate,F(xiàn)PR)的值,進一步繪制ROC曲線(Receiver Operating Characteristic Curve)。其中,縱軸是真陽性率,橫軸是假陽性率,把不同的點連成曲線,如圖1所示。AUC(Area Under Curve)為ROC曲線下方與坐標軸圍成的面積,通過計算AUC值為0.94,大于0.85的閾值,說明XGBoost算法對機會型創(chuàng)業(yè)的預測效果較好。

圖1 基于XGBoost算法的ROC曲線Fig.1 ROC curve based on XGBoost algorithm

3.2 對比分析

機器學習算法具有較強的領域適用性和效果良好的運算結果,本文選擇邏輯回歸、支持向量機、隨機森林3種機器學習算法與XGBoost算法進行對比,從而比較不同算法對機會型創(chuàng)業(yè)的預測效果。表5結果顯示,邏輯回歸算法的準確率為69.3%,支持向量機算法的準確率為72.8%,隨機森林算法的準確率為77.8%,XGBoost算法的準確率為89.0%,XGBoost算法最優(yōu),其次是隨機森林算法和支持向量機算法,最后是邏輯回歸算法。從召回率、精確率和F1值看,也呈現(xiàn)較一致的結果。這可能是因為,邏輯回歸是一種廣義的線性回歸模型,本質上是一個線性模型加上Sigmoid函數(shù),服從伯努利分布,因而預測效果相對較差。這表明機會型創(chuàng)業(yè)具有較為復雜的非線性關系,使用基于非線性關系的模型可以獲得較好的預測效果。其它幾種機器學習方法可用于解決非線性問題,且不局限于某種分布[32],更適用于大數(shù)據(jù)下機會型創(chuàng)業(yè)的預測問題。在建模過程中,支持向量機算法可以解決非線性的二分類問題,對變量間的非線性關系進行一定程度的擬合,其準確率、精確率、召回率和F1值均比邏輯回歸高,但預測效果仍有待提高。從理論上看,集成分類器的性能總體上優(yōu)于絕大多數(shù)單一分類器,基于集成學習的XGBoost算法和隨機森林算法預測效果較好。隨機森林算法基于Bagging集成學習算法,采用隨機方式建立一片森林,基于所有樹的分類結果進行綜合判別分類,可以處理高維度數(shù)據(jù),模型抗噪聲能力強、泛化能力較強且訓練速度快[33]。在機會型創(chuàng)業(yè)預測上,XGBoost使用梯度提升框架,比邏輯回歸、支持向量機、隨機森林3種算法的預測效果更好,4個評價指標均為最優(yōu)。這與Koumbarakis等(2022)的研究一致,相較于其它幾種算法,XGBoost算法在預測新企業(yè)孕育結果方面表現(xiàn)最佳。這也表明本文構建的影響因素框架是有效的,基于計劃行為理論和人口統(tǒng)計學特征深入挖掘影響因素可以較好地預測個體是否進行機會型創(chuàng)業(yè)。在此基礎上,本文進行五折交叉驗證,將樣本隨機均等劃分為5個數(shù)據(jù)集,輪流選取其中4個數(shù)據(jù)集作為訓練集,剩下的一個數(shù)據(jù)集作為測試集,依次進行迭代,并計算平均值。以準確率為例,XGBoost算法的平均準確率達到88.6%,比隨機森林算法的平均準確率高出約10%,比支持向量機算法的平均準確率高出約17%,比邏輯回歸算法的平均準確率高出約20%,再次驗證了XGBoost算法在預測機會型創(chuàng)業(yè)方面的良好效果。

表5 4種算法結果對比Tab.5 Comparison of the results of the four algorithms

3.3 重要性排序

通過比較XGBoost、邏輯回歸、支持向量機、隨機森林幾種機器學習算法,發(fā)現(xiàn)XGBoost算法對機會型創(chuàng)業(yè)具有良好的預測效果。同時,XGBoost算法可以通過數(shù)據(jù)分類回歸得到各特征變量的重要性大小。重要性本質上是指某個變量在迭代構建決策樹過程中被選擇的次數(shù)占所有自變量被選擇總次數(shù)的比例,所有特征變量的重要性之和為1[29]。因此,本文基于XGBoost算法評估各特征變量的重要性,結果如表6所示。結果顯示,機會型創(chuàng)業(yè)影響因素框架中的12個特征變量對機會型創(chuàng)業(yè)預測都具有作用,重要性最高的前3名分別為創(chuàng)業(yè)自我效能(0.250)、機會識別(0.097)和關系感知(0.081)。由此可見,創(chuàng)業(yè)自我效能在預測機會型創(chuàng)業(yè)時發(fā)揮最重要的作用,機會識別和關系感知也相當重要。

表6 變量重要性評估結果Tab.6 Assessment results of variable importance

首先,創(chuàng)業(yè)過程充滿挫折,需要創(chuàng)業(yè)者具備極高的心理素質,創(chuàng)業(yè)自我效能體現(xiàn)了創(chuàng)業(yè)者克服創(chuàng)業(yè)困難取得創(chuàng)業(yè)成功的信念(周鍵等,2019)。即使創(chuàng)業(yè)活動帶來的經(jīng)濟效益可預期,個體也不一定選擇創(chuàng)業(yè),而是首先評估自己是否有能力進行創(chuàng)業(yè)并實現(xiàn)創(chuàng)業(yè)目標[34]。因而,創(chuàng)業(yè)自我效能是創(chuàng)業(yè)開始的重要因素,能夠很好地預測機會型創(chuàng)業(yè)。例如,李彥宏在硅谷工作數(shù)年后,懷揣巨大的創(chuàng)業(yè)信心回到國內(nèi),憑借廣泛的資訊、豐富的經(jīng)歷和開闊的視野,最終成功創(chuàng)立百度。李彥宏也提到,在面臨戰(zhàn)略機遇期和攻堅期時,創(chuàng)業(yè)者要樹立自信心,堅持不斷創(chuàng)新,堅定信仰,不跟風、不動搖。其次,創(chuàng)業(yè)本質上是由機會識別及相關活動和職能共同構成的(谷晨等,2019)。機會前瞻意識較強的個體可以基于個體偏好和外部環(huán)境敏銳識別創(chuàng)業(yè)機會,進而從事機會型創(chuàng)業(yè)活動。例如,馬云在創(chuàng)建阿里巴巴時,發(fā)現(xiàn)中小企業(yè)在互聯(lián)網(wǎng)消費市場占據(jù)巨大份額且急需互聯(lián)網(wǎng)銷售平臺的商業(yè)機會,進而開創(chuàng)了B2B的電子商務模式。最后,在轉型經(jīng)濟國家,法律、法規(guī)等正式制度還不完善,因而個人社會關系等顯得尤為重要[35]。當個體感知到創(chuàng)業(yè)關系支持時,更容易集聚、整合和利用創(chuàng)業(yè)資源,進而從事機會型創(chuàng)業(yè)活動。例如,馬云積極擴展創(chuàng)業(yè)關系網(wǎng)絡,組建“十八羅漢”創(chuàng)業(yè)團隊,積極爭取軟銀和雅虎的投資資金支持,成就了阿里巴巴商業(yè)帝國。

值得注意的是,在5個人口統(tǒng)計學特征變量中,家庭收入最為重要,其次為年齡,而性別、受教育水平和家庭規(guī)模在判別機會型創(chuàng)業(yè)時發(fā)揮的作用較小。這說明機會型創(chuàng)業(yè)在初期往往難以獲得廣泛的外部資金支持,風險投資等外部資金占比較低,而個人的家庭收入往往成為機會型創(chuàng)業(yè)初始階段的重要資金來源[6]。創(chuàng)業(yè)自我效能、機會識別和關系感知作為知覺行為控制的3個具體維度,體現(xiàn)了知覺行為控制對機會型創(chuàng)業(yè)的重要影響。此外,已有研究強調社會規(guī)范對創(chuàng)業(yè)行為活動的重要作用,但在本文研究中,除人口統(tǒng)計學特征變量外,媒體宣傳和公眾認可作為主觀規(guī)范的兩個具體維度,在計劃行為理論框架下對機會型創(chuàng)業(yè)的影響最弱,這與已有研究有相似之處。Autio等[36]運用計劃行為理論分析芬蘭、瑞典、美國和英國大學生創(chuàng)業(yè)意向的影響因素發(fā)現(xiàn),知覺行為控制是最重要的影響因素,而主觀規(guī)范的影響最弱。

4 研究結論與啟示

4.1 研究結論

本文將機器學習算法引入機會型創(chuàng)業(yè)領域,基于計劃行為理論,從主觀規(guī)范、行為態(tài)度、知覺行為控制3個方面,并結合年齡、受教育水平、性別、家庭規(guī)模和家庭收入5個人口統(tǒng)計學特征選擇12個特征變量。以2018年全球創(chuàng)業(yè)觀察數(shù)據(jù)庫的中等收入國家個體數(shù)據(jù)為研究樣本,使用Python軟件,運用XGBoost算法預測機會型創(chuàng)業(yè)并甄別關鍵影響因素。研究發(fā)現(xiàn),基于準確率(89.0%)、精確率(81.8%)、召回率(96.0% )和F1值(88.3%)4個評估指標,XGBoost算法的預測效果較好,通過ROC曲線進一步計算AUC值為0.94,可以較好地反映機會型創(chuàng)業(yè)與各影響因素之間的非線性關系。XGBoost算法基于梯度提升框架,通過集成學習組成一個強學習器,利用決策樹集成優(yōu)勢對龐大的創(chuàng)業(yè)數(shù)據(jù)進行非線性擬合,能夠更加快速準確地解決機會型創(chuàng)業(yè)預測等科學問題,優(yōu)于支持向量機、隨機森林和邏輯回歸算法,五折交叉驗證也證明XGBoost算法具有較好的預測效果。此外,基于XGBoost算法評估12個特征變量的重要性發(fā)現(xiàn),創(chuàng)業(yè)自我效能、機會識別和關系感知是影響機會型創(chuàng)業(yè)的重要因素,說明知覺行為控制對機會型創(chuàng)業(yè)具有重要影響,而性別等人口統(tǒng)計學特征影響較小。

4.2 研究貢獻

基于計劃行為理論和人口統(tǒng)計學特征,通過多種影響因素的組合,使用XGBoost等機器學習算法預測機會型創(chuàng)業(yè),本文研究貢獻如下:

(1)拓展了計劃行為理論的適用邊界。計劃行為理論作為社會心理學領域具有重要影響力的理論,已被廣泛應用于行為和意向研究中。創(chuàng)業(yè)領域學者也運用計劃行為理論研究創(chuàng)業(yè)意向和行為,但在機會型創(chuàng)業(yè)領域應用有限。同時,現(xiàn)有研究從個體、家庭和環(huán)境層面提出機會型創(chuàng)業(yè)的影響因素,相對比較零散,對于個人為什么進行機會型創(chuàng)業(yè)有待進一步探究。本文響應Shane等[5]加強機會型創(chuàng)業(yè)研究的號召,應用計劃行為理論并結合人口統(tǒng)計學特征,剖析機會型創(chuàng)業(yè)的影響因素,構建包含主觀規(guī)范、行為態(tài)度、知覺行為控制和人口統(tǒng)計學特征的整合性研究框架。這彌補了以往機會型創(chuàng)業(yè)研究缺乏系統(tǒng)性的不足,提高了對機會型創(chuàng)業(yè)復雜性的解釋力,驗證了計劃行為理論在解釋機會型創(chuàng)業(yè)上的適用性,為機會型創(chuàng)業(yè)研究提供了可行的理論切入點。

(2)擴展了機器學習算法在創(chuàng)業(yè)領域的應用?,F(xiàn)有關于機會型創(chuàng)業(yè)的研究主要運用傳統(tǒng)實證方法研究關系型問題,而自變量與機會型創(chuàng)業(yè)之間并不一定呈線性關系,可能存在復雜的非線性關系,因此難以實現(xiàn)有效預測,而且關于影響因素的相對重要性仍存在爭議。本文回應了Obschonka等[16]將人工智能與機會型創(chuàng)業(yè)結合的觀點,進行計算機科學與創(chuàng)業(yè)領域的學科交叉,關注這一新型創(chuàng)業(yè)領域。本文將機器學習方法應用到機會型創(chuàng)業(yè)預測中,構建個體是否參與機會型創(chuàng)業(yè)的預測模型。對比分析發(fā)現(xiàn),XGBoost算法對機會型創(chuàng)業(yè)的預測效果最好,可以檢測輸入數(shù)據(jù)中變量交互的模糊性和非線性效應,擴展了機器學習方法在創(chuàng)業(yè)領域的應用,彌補了傳統(tǒng)計量分析方法的不足。此外,XGBoost算法還可以度量影響因素的重要性,豐富了創(chuàng)業(yè)研究中的優(yōu)勢分析方法(Arin等,2015)。

4.3 實踐啟示

有效的預測方法作為一種支持系統(tǒng),有利于政府和外部投資者識別潛在的機會型創(chuàng)業(yè),有利于政府針對性培育機會型創(chuàng)業(yè),并指導個體從事機會型創(chuàng)業(yè)活動。針對本文研究結論,從以下方面提出實踐啟示:

(1)為政府和外部投資者有效甄別機會型創(chuàng)業(yè)提供科學方法。XGBoost等機器學習算法可以對機會型創(chuàng)業(yè)進行預測,在精確率、準確率、召回率和F1值4個方面都達到較高水平,預測效果較好。因此,政府可利用XGBoost算法挖掘潛在的機會型創(chuàng)業(yè),從而將資源更多地分配給潛在的機會型創(chuàng)業(yè)者,以促進機會型創(chuàng)業(yè)實踐。同時,風險投資、天使投資等外部投資者可以基于XGBoost算法識別潛在的機會型創(chuàng)業(yè),從而降低選擇成本,進行有效的創(chuàng)業(yè)投資。

(2)為政府針對性培育機會型創(chuàng)業(yè)提供實踐參考。本文利用XGBoost算法評估機會型創(chuàng)業(yè)各特征變量的重要性,發(fā)現(xiàn)創(chuàng)業(yè)自我效能、機會識別和關系感知是影響個體進行機會型創(chuàng)業(yè)的重要因素。因此,政府要加快營造有利于機會型創(chuàng)業(yè)的社會環(huán)境,不斷優(yōu)化創(chuàng)業(yè)生態(tài)系統(tǒng),完善創(chuàng)業(yè)教育體系,加大創(chuàng)業(yè)資金支持,營造寬容失敗的創(chuàng)業(yè)氛圍,搭建創(chuàng)業(yè)服務咨詢與交流協(xié)作平臺,為個體進行機會型創(chuàng)業(yè)創(chuàng)造條件。

(3)為個體積極從事機會型創(chuàng)業(yè)活動提供實踐啟示。對于個人而言,要特別注重提升個體創(chuàng)業(yè)自我效能、增強個體創(chuàng)業(yè)關系感知、提高個體創(chuàng)業(yè)機會識別能力。個體不僅要加強創(chuàng)業(yè)技能和理論知識學習,增強創(chuàng)業(yè)自信心,而且要注重創(chuàng)業(yè)關系的積累,積極與創(chuàng)業(yè)者進行交流互動,努力撬動社會資源支持。此外,個體要擅于尋找和發(fā)現(xiàn)創(chuàng)業(yè)機會,提高對創(chuàng)業(yè)機會的警覺性,積極識別創(chuàng)業(yè)機會進而轉化為機會型創(chuàng)業(yè)行為。

4.4 研究不足與展望

本研究存在一定不足,未來可以從兩個方面加以改進和完善。一方面,不同算法模型具有不同預測效果,只能逼近模型的最優(yōu)效果,只有不斷納入更多數(shù)據(jù)維度,并進行特征變量選擇,才能提高模型的預測效果。創(chuàng)業(yè)是一項復雜且具有不確定性的活動,受限于數(shù)據(jù)的可得性,本文選擇的變量有限,與現(xiàn)實情況仍存在一定差距。未來可基于其它視角和數(shù)據(jù)庫,從多角度、多因素有效預測機會型創(chuàng)業(yè),從而為政策制定提供更為全面科學的理論指導和實踐參考。另一方面,機器學習領域發(fā)展較快,新的算法模型不斷涌現(xiàn),未來可以融合其它算法進一步完善機會型創(chuàng)業(yè)預測模型及其應用,提升研究結論的準確性和指導力。

猜你喜歡
機會個體預測
無可預測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預測卷(A卷)
選修2-2期中考試預測卷(B卷)
給進步一個機會
海峽姐妹(2020年3期)2020-04-21 09:27:40
關注個體防護裝備
勞動保護(2019年7期)2019-08-27 00:41:02
最后的機會
NBA特刊(2018年17期)2018-11-24 02:45:44
給彼此多一次相愛的機會
海峽姐妹(2018年6期)2018-06-26 07:27:20
沒機會下手
不必預測未來,只需把握現(xiàn)在
個體反思機制的缺失與救贖
學習月刊(2015年22期)2015-07-09 03:40:48
万宁市| 卓资县| 宿松县| 新巴尔虎右旗| 阳朔县| 大埔县| 图们市| 泾源县| 青州市| 岚皋县| 福鼎市| 凭祥市| 五峰| 烟台市| 湖北省| 南岸区| 华池县| 无为县| 伊宁市| 醴陵市| 余姚市| 平乡县| 清苑县| 泽普县| 炎陵县| 保德县| 陕西省| 东明县| 穆棱市| 新宾| 安宁市| 抚远县| 那曲县| 徐水县| 祁门县| 建始县| 迭部县| 平谷区| 漠河县| 宿松县| 宁武县|