葉春明,趙圣文,楊秀紅,劉海韻
(1.煙臺(tái)市國(guó)民體質(zhì)監(jiān)測(cè)中心,山東 煙臺(tái) 264003;2.濱州醫(yī)學(xué)院 公共衛(wèi)生與管理學(xué)院,山東 煙臺(tái) 264003;3.濱州醫(yī)學(xué)院 臨床醫(yī)學(xué)院,山東 煙臺(tái) 264003;4.煙臺(tái)市疾病預(yù)防控制中心,山東 煙臺(tái) 264003)
2019年12月,湖北省武漢市發(fā)現(xiàn)多起由未知病毒感染的肺炎病例,后被證實(shí)為新型冠狀病毒感染引起的新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19,以下簡(jiǎn)稱“新冠肺炎”)[1],隨后疫情迅速向全國(guó)各地傳播引起全世界的關(guān)注[2-3]。我國(guó)青少年體育運(yùn)動(dòng)學(xué)校普遍實(shí)行訓(xùn)練、文化教育、食宿“三集中”管理模式,具有人員高度聚集、以集體活動(dòng)為主的特殊性,分析青少年運(yùn)動(dòng)員防控疫情應(yīng)對(duì)能力狀況及其影響因素,并探索適用于青少年運(yùn)動(dòng)員疫情應(yīng)對(duì)能力快速準(zhǔn)確分類的有效方法,既可以針對(duì)性制訂居家學(xué)習(xí)計(jì)劃,更能為復(fù)學(xué)復(fù)訓(xùn)后相關(guān)部門(mén)做好疫情防控措施提供依據(jù)。
用于疾病影響因素分析的廣義線性回歸模型如線性回歸、泊松回歸、Logistic回歸等對(duì)于特征變量間的復(fù)雜非線性關(guān)系處理能力有限[3-4],同時(shí),由于疫情突發(fā)時(shí)期的防控資源有限,與影響因素的可解釋性分析相比,對(duì)高危人群的快速識(shí)別對(duì)于提高科學(xué)決策質(zhì)量而言具有更重要的現(xiàn)實(shí)意義。機(jī)器學(xué)習(xí)在疾病識(shí)別、分類及影響因素分析中已經(jīng)被廣泛應(yīng)用[5-8],且目前已應(yīng)用于新冠肺炎發(fā)病預(yù)測(cè)、分類及藥物療效領(lǐng)域,并顯示出極大的優(yōu)越性[9-12]。為了解決樣本數(shù)據(jù)有限、非線性及高維度模式識(shí)別問(wèn)題,本研究采用BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)和多元自適應(yīng)回歸樣條3種機(jī)器學(xué)習(xí)算法進(jìn)行建模分類和預(yù)測(cè),并與經(jīng)典的 Logistic回歸進(jìn)行對(duì)比,為疫情下青少年運(yùn)動(dòng)員應(yīng)對(duì)能力快速準(zhǔn)確分類提供新的思路。
隨機(jī)選取山東省煙臺(tái)市6所體育運(yùn)動(dòng)訓(xùn)練學(xué)校,依據(jù)日常訓(xùn)練項(xiàng)目采用隨機(jī)整群抽樣方法抽取 1 699名7~17歲青少年運(yùn)動(dòng)員,于2020年2月17-21日開(kāi)展調(diào)查,回收有效問(wèn)卷1 699份。
利用“問(wèn)卷星”在線調(diào)查平臺(tái)開(kāi)展調(diào)查。調(diào)查問(wèn)卷共45個(gè)題項(xiàng),主要內(nèi)容包括:(1)基本情況(4項(xiàng)),包括地區(qū)、性別、年齡、訓(xùn)練項(xiàng)目等;(2)新冠肺炎防護(hù)知識(shí)(14項(xiàng)),包括臨床癥狀、傳播途徑、潛伏期、密切接觸者定義、預(yù)防措施等;(3)防護(hù)行為(27項(xiàng)),包括疫情發(fā)生后采取的各種應(yīng)對(duì)措施、訓(xùn)練計(jì)劃執(zhí)行情況以及心理焦慮狀況等,其中焦慮狀況測(cè)量來(lái)自焦慮自評(píng)量表(SAS)[13]。應(yīng)對(duì)能力包括防護(hù)知識(shí)和防護(hù)行為兩部分各50分,總分為100分。
由統(tǒng)一培訓(xùn)合格的教練員作為質(zhì)控員,并配備工作指導(dǎo)手冊(cè),質(zhì)控員負(fù)責(zé)告知調(diào)查對(duì)象注意事項(xiàng),監(jiān)督調(diào)查對(duì)象獨(dú)立完成問(wèn)卷,提醒家長(zhǎng)不得對(duì)答案進(jìn)行輔導(dǎo)或暗示。
1)問(wèn)卷信效度檢驗(yàn)。(1)信度分析采用內(nèi)部一致性系數(shù)法,分別計(jì)算 Spearman-Brown分半系數(shù)和Cronbach'sα系數(shù)作為信度評(píng)價(jià)。(2)結(jié)構(gòu)效度檢驗(yàn)采用探索性因子分析,以因子載荷度>0.50作為問(wèn)卷題項(xiàng)的剔除條件,選擇最大方差法進(jìn)行因子旋轉(zhuǎn),計(jì)算KMO值并進(jìn)行Bartlett球形檢驗(yàn)。
2)對(duì)不同地區(qū)、性別、年齡段、學(xué)段及訓(xùn)練項(xiàng)目之間的應(yīng)對(duì)能力得分利用T檢驗(yàn)或F檢驗(yàn)進(jìn)行單因素分析。
3)采用 kmeans( )函數(shù)進(jìn)行 K-means動(dòng)態(tài)聚類分析,將應(yīng)對(duì)能力分為高級(jí)響應(yīng)與低級(jí)響應(yīng)兩個(gè)級(jí)別。
4)以響應(yīng)級(jí)別為二分類因變量,以地區(qū)、性別、實(shí)際年齡、學(xué)段和訓(xùn)練項(xiàng)目為影響因素,采用randomForest函數(shù)包的randomForest( )函數(shù)建立隨機(jī)森林模型,其中,通過(guò)which.min( )函數(shù)優(yōu)化決策樹(shù)數(shù)量,通過(guò)tuneRF( )函數(shù)優(yōu)化每棵樹(shù)引入的自變量個(gè)數(shù),通過(guò)importance( )函數(shù)計(jì)算Gini不純度下降值(MDG)用于度量各類影響因素的重要性。
以應(yīng)對(duì)能力響應(yīng)級(jí)別為目標(biāo)變量,以差異有統(tǒng)計(jì)學(xué)意義的影響因素為輸入特征,建立 BP神經(jīng)網(wǎng)絡(luò)(BPN)、支持向量機(jī)(SVM)與多元自適應(yīng)回歸樣條(MARS)3種機(jī)器學(xué)習(xí)模型,采用混淆矩陣評(píng)價(jià)模型預(yù)測(cè)準(zhǔn)度,采用曲線下方面積即AUC值(AUC)以及靈敏度和特異度評(píng)價(jià)模型分類性能,并與 Logistic回歸模型進(jìn)行對(duì)比分析。采用10折交叉驗(yàn)證法訓(xùn)練模型,即按9︰1的比例將總樣本隨機(jī)分為10份,輪流將其中9份用于訓(xùn)練建模(訓(xùn)練集),1份用于模型預(yù)測(cè)效果評(píng)價(jià)(測(cè)試集)。
1)BPN模型:采用AMORE函數(shù)包的newff( )函數(shù),利用經(jīng)驗(yàn)公式估計(jì)隱含層神經(jīng)元個(gè)數(shù)(其中,a表示輸入特征變量個(gè)數(shù),b表示目標(biāo)變量個(gè)數(shù),m表示隱含層神經(jīng)元個(gè)數(shù))[14],建立單隱含層和雙隱含層神經(jīng)網(wǎng)絡(luò);輸入層和輸出層均選擇雙曲正切傳遞函數(shù),采用含有動(dòng)量的自適應(yīng)梯度下降法修正連接權(quán)重;神經(jīng)元學(xué)習(xí)率為0.01,動(dòng)量參數(shù)為0.01。
2)SVM模型:采用e1071函數(shù)包的svm( )函數(shù),分別采用線性、多項(xiàng)式、徑向基以及 sigmoid核函數(shù)用于訓(xùn)練模型;采用tune.svm( )函數(shù)優(yōu)化模型參數(shù)。
3)MARS模型:采用earth函數(shù)包的earth( )函數(shù),分別建立沒(méi)有交互項(xiàng)的加法模型和存在最多2個(gè)交互項(xiàng)的乘法模型;每個(gè)輸入特征僅使用1次鉸鏈函數(shù)。
4)采用glm( )函數(shù)建立二元Logistic回歸模型。
問(wèn)卷信效度檢驗(yàn)采用SPSS 22.0進(jìn)行分析,采用R version 3.6.2進(jìn)行建模;計(jì)量資料以±s表示,檢驗(yàn)水平α為0.05。
信度分析顯示,問(wèn)卷總體的Cronbach'sα系數(shù)為0.71,分半系數(shù)為 0.76,提示問(wèn)卷內(nèi)部一致性較好。結(jié)構(gòu)效度檢驗(yàn)結(jié)果顯示,KMO值為 0.89>0.80,且通過(guò) Bartlett球形檢驗(yàn)(χ2=3955.48,P<0.05),說(shuō)明問(wèn)卷的結(jié)構(gòu)效度良好,適合進(jìn)一步進(jìn)行因子分析;問(wèn)卷所有題項(xiàng)共分為4個(gè)因子(見(jiàn)表1),共刪除9個(gè)因子載荷量<0.50的題項(xiàng),余下36個(gè)題項(xiàng)與因子對(duì)應(yīng)關(guān)系良好,共同性均>0.40,旋轉(zhuǎn)后因子載荷量絕對(duì)值位于0.67~0.84之間,累積方差解釋率為56.63%>40.00%,滿足結(jié)構(gòu)效度的判斷標(biāo)準(zhǔn)[15]。綜上分析,本次調(diào)查問(wèn)卷具有較好的信效度,可用于進(jìn)一步數(shù)據(jù)分析。
表1 調(diào)查問(wèn)卷探索性因子分析結(jié)果
共調(diào)查1 699例青少年運(yùn)動(dòng)員,其中男性953例(56.09%),女性 746 例(43.91%);平均年齡(13.78±2.48)歲,其中男性(14.04±2.40)歲,女性(13.45±2.55)歲;家庭常住地為城市 809例(47.62%),農(nóng)村 890例(52.38%);學(xué)段為小學(xué)374例(22.01%),初中1 325例(77.99%);訓(xùn)練項(xiàng)目為田徑181例(10.65%),游泳215例(12.65%)、球類 396 例(23.31%)、射擊 160 例(9.42%)、水上運(yùn)動(dòng)124例(7.30%)、重競(jìng)技477例(28.08%)和其他146例(8.59%)。
青少年運(yùn)動(dòng)員疫情防護(hù)知識(shí)得分及格率為54.00%,其中,對(duì)新冠病毒的存活條件正答率最高(84.34%),對(duì)預(yù)防病毒感染的方法正答率最低(37.90%);防護(hù)行為得分及格率為68.51%,其中,能夠做到戴口罩的比例最高(98.47%),能夠努力完成訓(xùn)練計(jì)劃的比例最低(27.25%)(見(jiàn)表2)。
表2 青少年運(yùn)動(dòng)員對(duì)新冠肺炎疫情應(yīng)對(duì)能力狀況 %
分析顯示,青少年運(yùn)動(dòng)員疫情相關(guān)防護(hù)信息第一獲取途徑為父母,占 40.61%;第二為教練員,占36.20%;第三為電視,占34.26%(見(jiàn)表3)。
表3 青少年運(yùn)動(dòng)員防護(hù)信息的主要獲取途徑 %
青少年運(yùn)動(dòng)員應(yīng)對(duì)疫情的總得分為(65.12±15.90)分,得分及格率為65.98%。單因素分析顯示,不同地區(qū)、性別、年齡段、學(xué)段及訓(xùn)練項(xiàng)目之間的應(yīng)對(duì)能力得分差異均具有統(tǒng)計(jì)學(xué)意義(P<0.05)(見(jiàn)表4)。
表4 不同類別青少年運(yùn)動(dòng)員疫情應(yīng)對(duì)能力得分比較
聚類結(jié)果顯示,應(yīng)對(duì)能力分為1 009例高級(jí)響應(yīng)組(中心點(diǎn)值為75.81)和690例低級(jí)響應(yīng)組(中心點(diǎn)值為49.50),兩組間得分差異具有統(tǒng)計(jì)學(xué)意義(t=54.40,P<0.05)。MDG分析結(jié)果顯示,年齡導(dǎo)致的Gini不純度的降低最大(下降值為47.14),其他依次為訓(xùn)練項(xiàng)目(42.27)、地區(qū)(26.80)、性別(13.89)及學(xué)段(10.42)(如圖 1所示)。
圖1 基于MDG分析的應(yīng)對(duì)能力各類影響因素重要性排序
10折交叉驗(yàn)證結(jié)果顯示,5-3-2-1結(jié)構(gòu)BPN、基于徑向基核函數(shù)的SVM以及加法MARS模型的預(yù)測(cè)準(zhǔn)確率最佳,其總體準(zhǔn)確率區(qū)間維持在70.52%~84.26%,其中BPN模型的單次準(zhǔn)確率最高,為84.26%;SVM的平均準(zhǔn)確率最高,為80.32%,其次為 MARS和 BPN,平均準(zhǔn)確率分別為 78.94%和77.94%,較Logistic分別提升7.15%、5.32%和3.98%(見(jiàn)表 5)。
表5 各分類模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率 %
SVM模型AUC值最高,其次為BPN和MARS,較Logistic分別提升11.95%、10.35%和5.92%;MARS模型靈敏度最高,其次為SVM和BPN,較Logistic分別提升12.24%、7.08%和5.52%;BPN模型特異度最高,其次為SVM和MARS,較Logistic分別提升62.11%、55.82%和22.24%(見(jiàn)表6)。
表6 各分類模型在測(cè)試集上的分類性能對(duì)比 %
采用BPN模型在最好(根據(jù)表4單因素分析結(jié)果,得分最高的各類因素組合)和最壞(得分最低的各類因素組合)輸入特征水平下的預(yù)測(cè)結(jié)果顯示,居住地為城市、性別為女性、最小年齡、學(xué)段為小學(xué)、訓(xùn)練項(xiàng)目為游泳的運(yùn)動(dòng)員,與農(nóng)村、男性、最高年齡、初中、重競(jìng)技運(yùn)動(dòng)員相比,被預(yù)測(cè)為高級(jí)響應(yīng)級(jí)別的概率更高(見(jiàn)表 7)。
表7 基于BPN模型的不同輸入特征水平組合下的分類預(yù)測(cè)1)
青少年運(yùn)動(dòng)員新冠肺炎疫情防控知識(shí)正答率不及2/3,得分及格率僅為54%,提示參與調(diào)查的青少年運(yùn)動(dòng)員對(duì)疫情防護(hù)知識(shí)有一定的了解,但總體上了解不夠全面,尤其對(duì)于病毒傳播途徑以及具體預(yù)防措施的了解較差。面對(duì)疫情的發(fā)生,將近1/2的運(yùn)動(dòng)員無(wú)法克服緊張和恐慌心理,將近3/4的運(yùn)動(dòng)員無(wú)法完成訓(xùn)練計(jì)劃。調(diào)查顯示,青少年運(yùn)動(dòng)員疫情防護(hù)信息第一來(lái)源主要是父母和教練員告知,占55.15%;其次是通過(guò)電視和網(wǎng)絡(luò),占37.55%;而來(lái)自于衛(wèi)生部門(mén)和學(xué)校的直接宣傳引導(dǎo)僅占 3.71%。專業(yè)機(jī)構(gòu)的統(tǒng)一教育和講解明顯缺乏,容易導(dǎo)致認(rèn)知和情緒承受力、應(yīng)激能力有限的青少年運(yùn)動(dòng)員難以判斷相關(guān)知識(shí)的真實(shí)性。
根據(jù)青少年運(yùn)動(dòng)員疫情應(yīng)對(duì)能力影響因素的重要性排序,年齡是影響應(yīng)對(duì)能力的首要因素,統(tǒng)計(jì)顯示,10歲及以下運(yùn)動(dòng)員得分明顯高于10歲以上,這與陸小英[16]和王悅[17]等的調(diào)查分析結(jié)果相類似,即與高年齡青少年相比,低年齡兒童的思維同一性更高,行為服從性更好,焦慮和抑郁情緒更低;訓(xùn)練項(xiàng)目是應(yīng)對(duì)能力的第2位影響因素,游泳運(yùn)動(dòng)員的得分最高,其次為球類和射擊;地區(qū)是第3位影響因素,城市運(yùn)動(dòng)員得分明顯高于農(nóng)村地區(qū)運(yùn)動(dòng)員,體現(xiàn)出突發(fā)公共衛(wèi)生事件應(yīng)對(duì)能力在地區(qū)間的差異性[18-19];此外,不同性別和學(xué)段之間的得分雖有明顯差異,但對(duì)于應(yīng)對(duì)能力的重要性較低。
通過(guò)建模測(cè)試發(fā)現(xiàn),3種機(jī)器學(xué)習(xí)模型對(duì)青少年運(yùn)動(dòng)員的應(yīng)對(duì)能力分類預(yù)測(cè)性能優(yōu)于經(jīng)典的 Logistic回歸模型,對(duì)疫情應(yīng)對(duì)能力的模擬具有可行性。其中,基于徑向基核函數(shù)的 SVM模型平均準(zhǔn)確度最高;MARS的靈敏度最高,即擅長(zhǎng)發(fā)現(xiàn)高級(jí)疫情應(yīng)對(duì)能力的運(yùn)動(dòng)員;而B(niǎo)PN的特異度最高,即擅長(zhǎng)發(fā)現(xiàn)低級(jí)應(yīng)對(duì)能力的運(yùn)動(dòng)員,提示出每種學(xué)習(xí)算法具有不同的優(yōu)缺點(diǎn),應(yīng)該根據(jù)算法的特點(diǎn)以及研究目的去合理選擇,達(dá)到分類效果最優(yōu),幫助解決實(shí)際問(wèn)題。疫情期間,對(duì)于青少年運(yùn)動(dòng)員關(guān)于突發(fā)公共衛(wèi)生事件處理能力及應(yīng)激能力的培養(yǎng),我們更應(yīng)關(guān)注缺乏應(yīng)激響應(yīng)的群體[20],根據(jù)3種機(jī)器學(xué)習(xí)模型的性能表現(xiàn),本研究最終選取特異度最高的 BPN模型用于正確識(shí)別疫情應(yīng)對(duì)能力較弱的青少年運(yùn)動(dòng)員。BPN網(wǎng)絡(luò)模型的學(xué)習(xí)過(guò)程就是根據(jù)外界提供的訓(xùn)練樣本進(jìn)行不斷的學(xué)習(xí),改變網(wǎng)絡(luò)神經(jīng)元的連接權(quán)重,使網(wǎng)絡(luò)具備疫情防控專家或決策者的經(jīng)驗(yàn)和知識(shí),能夠判斷和歸納出青少年運(yùn)動(dòng)員群體差異與其疫情應(yīng)對(duì)能力之間的映射關(guān)系,并能通過(guò)學(xué)習(xí)新的樣本群體特征,不斷改善自身預(yù)測(cè)性能,具有較強(qiáng)的學(xué)習(xí)、聯(lián)想、識(shí)別、容錯(cuò)及泛化能力[21]。以煙臺(tái)市為例,依據(jù) BPN模型對(duì)調(diào)查對(duì)象的快速識(shí)別結(jié)果,學(xué)校與衛(wèi)生部門(mén)的干預(yù)指導(dǎo)策略應(yīng)更傾向于應(yīng)對(duì)能力相對(duì)更弱的農(nóng)村家庭、初中以上、年齡相對(duì)較大的男性重競(jìng)技等運(yùn)動(dòng)項(xiàng)目運(yùn)動(dòng)員。