王曉燕,李曉萌,陳 虎,張揚(yáng)鴿,高 捷,張慶麗,彭燕梅,穆立娟,孟召學(xué),王 琳,陳芳芳,涂燕暉
(1.首都兒科研究所附屬兒童醫(yī)院保健科,北京 100020;2.南京未來網(wǎng)絡(luò)產(chǎn)業(yè)創(chuàng)新有限公司,江蘇 南京 210000;3.清華大學(xué)附屬北京市垂楊柳醫(yī)院兒科,北京 100022;4.北京市石景山區(qū)婦幼保健院兒童保健科,北京 100040;5.北京市懷柔區(qū)婦幼保健院兒童保健科,北京 101400;6.北京市房山區(qū)婦幼保健院兒童保健科,北京 102400;7.北京市通州區(qū)婦幼保健院兒童保健科,北京 101100)
兒童應(yīng)該是消費(fèi)品質(zhì)量問題的重點(diǎn)保護(hù)對象。隨著科學(xué)技術(shù)的發(fā)展,消費(fèi)品的功能和結(jié)構(gòu)日益復(fù)雜,其中各種化學(xué)物質(zhì)包括揮發(fā)性的有機(jī)溶劑,如苯、二甲苯、乙酸乙酯等,以及可遷移的重金屬如鉛、鎘、砷等可能給人體帶來急性中毒、化學(xué)灼傷、過敏[1]等損害,也可因長期低劑量暴露增加患病風(fēng)險(xiǎn)[2],甚至影響兒童的行為發(fā)育[3]。消費(fèi)品中的有毒有害物質(zhì)對于人體的暴露途徑一般包括經(jīng)呼吸道吸入、經(jīng)皮膚接觸和經(jīng)口攝入3 種。兒童相對于成年人自我防護(hù)意識差,更容易發(fā)生經(jīng)手接觸、經(jīng)口啃咬物品的行為,且通常較為隱匿,但卻是兒童重金屬中毒的重要危險(xiǎn)途徑[4]。因此,為減少兒童因消費(fèi)品暴露而導(dǎo)致急性、亞臨床、慢性或延遲的不良健康影響,有必要對兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為進(jìn)行風(fēng)險(xiǎn)預(yù)測,以幫助醫(yī)生和家長進(jìn)行評估并采取預(yù)防措施。
傳統(tǒng)行為心理學(xué)的分析是基于統(tǒng)計(jì)學(xué)展開的,解釋性好,但重復(fù)和預(yù)測性差。深度學(xué)習(xí)算法預(yù)測性能好,但其解釋性差。而機(jī)器學(xué)習(xí)(machine learning,ML)正好兼具可解釋性和預(yù)測性都較好的優(yōu)勢,在心理行為分析領(lǐng)域已得到推廣和應(yīng)用。本研究采用基于機(jī)器學(xué)習(xí)的最大梯度提升算法(extreme gradient boosting,XGBoost)、隨機(jī)森林(random forest)、決策樹(decision tree)、邏輯回歸(Logistic regression)、貝葉斯網(wǎng)絡(luò)(Bayesian network)和支持向量機(jī)(support vector machine,SVM)6 種算法構(gòu)建預(yù)測模型,這6 種算法均可以預(yù)測兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為,并且定量給出群體風(fēng)險(xiǎn)因素的貢獻(xiàn)值。
本研究以2019 年12 月至2020 年11 月在北京市6所醫(yī)療機(jī)構(gòu)兒童保健科就診的1 803 例兒童為研究對象。納入標(biāo)準(zhǔn):參加常規(guī)體檢的兒童;其本人或者監(jiān)護(hù)人能正確回答調(diào)查問卷有關(guān)問題。排除標(biāo)準(zhǔn):有重大疾病史、先天性疾病者;監(jiān)護(hù)人不能進(jìn)行正常交流者。根據(jù)兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為分為有啃咬行為組(n=617)和無啃咬行為組(n=1 186)。本研究方案已獲得首都兒科研究所倫理委員會(huì)批準(zhǔn)(倫理批號SHERLL2019005),所有研究對象的監(jiān)護(hù)人均簽署知情同意書。
采取問卷調(diào)查兒童主要照顧者關(guān)于兒童的社會(huì)人口學(xué)信息(年齡、性別、民族、居住地、受教育水平等),8 類兒童玩具和文具消費(fèi)品(軟塑料玩具、塑料拼插玩具、塑料玩具、含有涂層玩具、金屬玩具、地墊、書寫筆和橡皮)的使用行為和習(xí)慣,主要照顧者的社會(huì)人口學(xué)信息,對兒童的陪伴程度,對化學(xué)物質(zhì)知識內(nèi)容的了解、接受培訓(xùn)和關(guān)注程度等。
調(diào)查問卷的設(shè)計(jì)經(jīng)過兒童保健專業(yè)、流行病學(xué)專業(yè)人員審核,并采取預(yù)調(diào)查進(jìn)行校驗(yàn);調(diào)查過程中由經(jīng)過培訓(xùn)的醫(yī)務(wù)人員作為調(diào)查員,對參與調(diào)查的家長進(jìn)行統(tǒng)一問詢;采用EpiData 錄入軟件對數(shù)據(jù)進(jìn)行雙錄入。共發(fā)放問卷1 824 份,回收1 824 份,問卷回收率100%。最終用于分析的樣本數(shù)為1 803 份,問卷有效率為98.8%。
采用SPSS 20.0 軟件進(jìn)行統(tǒng)計(jì)分析,符合正態(tài)分布的計(jì)量資料如年齡等用均數(shù)±標(biāo)準(zhǔn)差(±s)表示,組間比較采用t檢驗(yàn);計(jì)數(shù)資料以頻數(shù)和構(gòu)成比(%)表示,組間比較采用χ2檢驗(yàn)。以兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為作為因變量,以啃咬行為影響因素的單因素分析篩選出的指標(biāo)為自變量,應(yīng)用SPSS Modeler18.0 和6 種機(jī)器學(xué)習(xí)算法完成各個(gè)影響因素的重要性的量化分析,并采用多因素Logistic 回歸分析篩選關(guān)聯(lián)指標(biāo),以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
應(yīng)用Python 3.6 分析,加載sklearn、XGBoost、shap、imblearn 和matpltlib 等第三方模塊,完成兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為的預(yù)測。從1 803 例樣本中隨機(jī)無放回抽取20%作為測試集,測試集其中正樣本84 個(gè),負(fù)樣本281 個(gè)。余下的1 438 例樣本采用Borderline-SMOTE2 進(jìn)行上采樣算法,最終得到正負(fù)樣本均為1 101 個(gè)且比例1:1 的訓(xùn)練集,以提高正樣本的查準(zhǔn)率,且增強(qiáng)算法模型的泛化能力和效度。6 種機(jī)器學(xué)習(xí)模型進(jìn)行200 次獨(dú)立的實(shí)驗(yàn),獲得一個(gè)定性評估指標(biāo)ROC 曲線和定量評估指標(biāo)曲線下面積Carea under curve,AUC、靈敏度、特異度。使用單因素ANOVA 檢驗(yàn)比較6 種機(jī)器學(xué)習(xí)算法的性能,確定預(yù)測效度最高的算法,以P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
最終獲得有效問卷1 803 份,1 803 例兒童中男925 例(51.3%),女878 例(48.7%),年齡1 個(gè)月~12.80 歲,平均年齡(3.89±3.35)歲。
單因素分析顯示,兒童的年齡和受教育水平,主要照顧者的身份、年齡、受教育水平、職業(yè)、對兒童的陪伴程度、對化學(xué)物質(zhì)知識了解程度、接受化學(xué)物質(zhì)知識內(nèi)容培訓(xùn)的程度、選購兒童消費(fèi)品時(shí)對化學(xué)物質(zhì)的關(guān)注程度,父親職業(yè)和母親職業(yè)共12 個(gè)特征與兒童使用消費(fèi)品時(shí)發(fā)生啃咬行為有關(guān),P<0.05,見表1。
表1 有啃咬行為組與無啃咬行為組的特征比較[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]
表1 有啃咬行為組與無啃咬行為組的特征比較[±s,n(%)]Table 1 The characteristics of object mouthing behaviors group and non-object mouthing behaviors group[±s,n(%)]
特征兒童年齡(歲)兒童受教育水平散居托幼機(jī)構(gòu)小學(xué)主要照顧者年齡(歲)主要照顧者父母祖父母保姆其他主要照顧者受教育水平小學(xué)及中學(xué)大專及本科碩士及以上主要照顧者職業(yè)未就業(yè)事業(yè)單位專業(yè)技術(shù)人員商業(yè)服務(wù)業(yè)人員技術(shù)工種人員合計(jì)3.89±3.35有啃咬行為組(n=617)1.96±2.49無啃咬行為組(n=1 186)4.89±3.30 χ2/t 21.171 314.384 P<0.001<0.001 952 443 408 43.24±13.33 504(52.94)63(14.22)50(12.25)43.29±13.77 448(47.06)380(85.78)358(87.75)43.21±13.09 21.171 13.549<0.001 0.004 1 098 670 29 6 342(31.15)261(38.96)13(44.83)1(16.67)756(68.85)409(61.04)16(55.17)5(83.33)7.332 0.026 753 918 132 284(37.72)294(32.03)39(29.55)469(62.28)624(67.97)93(70.45)23.296<0.001 836 290 230 105 342 333(39.83)88(30.34)72(31.30)32(30.48)92(26.90)503(60.17)202(69.66)158(68.70)73(69.52)250(73.10)
續(xù)表1
2.3.1 構(gòu)建6 種機(jī)器學(xué)習(xí)模型的流圖
構(gòu)建6 種機(jī)器學(xué)習(xí)模型的流圖見圖1。
圖1 構(gòu)建6 種機(jī)器學(xué)習(xí)模型的流圖Fig.1 The flow graph to construct 6 machine learning models
2.3.2 基于ROC 曲線的各模型預(yù)測性能比較
將XGBoost、隨機(jī)森林、Logistic 回歸、貝葉斯網(wǎng)絡(luò)和SVM 模型在測試集中進(jìn)行內(nèi)部驗(yàn)證。AUC 的算法優(yōu)劣排序?yàn)椋篨GBoost>隨機(jī)森林>Logistic 回歸>決策樹>貝葉斯網(wǎng)絡(luò)>SVM,見圖2。
圖2 各模型在測試集的ROC 曲線分析Fig.2 ROC curves of 6 models in the test set
2.3.3 基于定量標(biāo)準(zhǔn)的模型選擇
共進(jìn)行200 次實(shí)驗(yàn),每個(gè)算法可以得到200 個(gè)混淆矩陣,均值見圖3?;贏UC 比較各模型預(yù)測能力差異具有統(tǒng)計(jì)學(xué)意義(F=2 749.701,P<0.001),LSD 多重比較排序:XGBoost>隨機(jī)森林>Logistic回歸>決策樹>貝葉斯網(wǎng)絡(luò)>SVM,見表2。
表2 各模型預(yù)測能力比較(±s)Table 2 Comparison of the predictive ability of each model(±s)
表2 各模型預(yù)測能力比較(±s)Table 2 Comparison of the predictive ability of each model(±s)
標(biāo)準(zhǔn)AUC準(zhǔn)確度靈敏度特異度XGBoost 0.939±0.012 0.891±0.015 0.771±0.012 0.928±0.015 SVM 0.772±0.026 0.796±0.012 0.233±0.015 0.969±0.017隨機(jī)森林0.935±0.010 0.883±0.015 0.833±0.015 0.898±0.014 Logistic 回歸0.921±0.013 0.855±0.019 0.879±0.020 0.847±0.018決策樹0.911±0.014 0.866±0.020 0.838±0.021 0.874±0.018貝葉斯網(wǎng)絡(luò)0.893±0.015 0.780±0.013 0.870±0.015 0.751±0.017
圖3 平均混淆矩陣Fig.3 Average confusion matrix
2.4.1 基于SPSS Modeler 影響因素分析
SPSS Modeler18.1 結(jié)合XGBoost 等機(jī)器學(xué)習(xí)算法可以量化各影響因素重要性。為了進(jìn)一步考察6種算法集成篩查影響因素的效果,將各算法的量化結(jié)果進(jìn)行均值聚合,得到各影響因素重要性比例的均值,分別為兒童年齡(34.33%)、主要照顧者陪伴程度(20.33%)、主要照顧者對化學(xué)物質(zhì)知識了解程度(20.17%),見表3。
2.4.2 多因素Logistic 回歸影響因素分析
Logistic 回歸模型結(jié)果見表4。綜合表3 和表4 結(jié)果,最終確定兒童年齡(OR=0.721,95%CI=0.683~0.761)和受教育水平(小學(xué):OR=0.244,95%CI=0.170~0.352;托幼機(jī)構(gòu):OR=0.171,95%CI=0.124~0.235)、主要照顧者對化學(xué)物質(zhì)知識了解程度(了解一點(diǎn):OR=0.679,95%CI=0.466~0.990;大部分了解:OR=0.519,95%CI=0.325~0.830;非常熟悉:OR=0.262,95%CI=0.093~0.739)、主要照顧者陪伴兒童的程度(經(jīng)常陪伴:OR=0.471,95%CI=0.347~0.639;偶爾或基本不陪伴:OR=0.214,95%CI=0.144~0.318)、母親職業(yè)(商業(yè)服務(wù)業(yè)人員:OR=0.479,95%CI=0.234~0.980;事業(yè)單位:OR=0.403,95%CI=0.231~0.705;技術(shù)工種人員:OR=0.432,95%CI=0.249~0.750)是發(fā)生啃咬行為的主要影響因素(P<0.05)。
表3 啃咬行為影響因素的重要性聚合*Table 3 Aggregation of the importance factors influencing object mouthing behaviors
表4 啃咬行為影響因素的Logistic 回歸分析Table 4 The Logistic regression analysis of influencing factors of object mouthing behaviors
傳統(tǒng)心理行為學(xué)的分析大多是基于統(tǒng)計(jì)學(xué)展開的,強(qiáng)調(diào)對行為的解釋,而對行為的預(yù)測不夠重視。引入以預(yù)測為目標(biāo)的機(jī)器學(xué)習(xí)可以提供新的思路和研究方法。Yarkoni 等[5]認(rèn)為心理學(xué)工作者如果更強(qiáng)調(diào)預(yù)測,可以有助于理論模型的發(fā)展,從長遠(yuǎn)看很有可能幫助解釋行為的成因。其次是傳統(tǒng)心理學(xué)分析存在“可重復(fù)性危機(jī)”[6-8]。除了采用更加嚴(yán)謹(jǐn)研究設(shè)計(jì)和恰當(dāng)統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析和解讀外,從探索數(shù)據(jù)規(guī)律和趨勢,運(yùn)用機(jī)器學(xué)習(xí)算法為研究的可復(fù)制性提供更大可能性[9]。本研究結(jié)合兒童的社會(huì)人口學(xué)信息、玩具和文具消費(fèi)品的使用情況、化學(xué)物質(zhì)知識普及情況等信息,應(yīng)用基于機(jī)器學(xué)習(xí)的XGBoost、隨機(jī)森林、Logistic 回歸、貝葉斯網(wǎng)絡(luò)和SVM 算法構(gòu)建預(yù)測模型,比較對兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為的預(yù)測價(jià)值,在AUC、靈敏度和特異度方面表現(xiàn)良好,對兒童行為研究和風(fēng)險(xiǎn)預(yù)測有實(shí)際的意義。
機(jī)器學(xué)習(xí)是統(tǒng)計(jì)學(xué)、人工智能和計(jì)算機(jī)科學(xué)交叉的應(yīng)用領(lǐng)域,選擇正確的機(jī)器學(xué)習(xí)算法并不容易。研究者需要結(jié)合已獲得的數(shù)據(jù)的數(shù)量、類型和質(zhì)量等方面綜合考慮,通過對各算法之間進(jìn)行比較,選出合適且滿足研究需求的算法,最終提高大多數(shù)問題的預(yù)測準(zhǔn)確性[10]。Moon 等人[11]以分類決策樹為分析方法,以青少年受欺凌為指標(biāo),確定最佳危險(xiǎn)因素和保護(hù)因素。Sauer 等人[12]通過隨機(jī)森林算法完成了正念練習(xí)者和非正念練習(xí)者的分類。Sajjadiani 等人[13]從申請者的工作申請文件中發(fā)展可解釋變量,包括工作經(jīng)驗(yàn)、任期歷史等,然后使用貝葉斯網(wǎng)絡(luò)、Logistic 回歸、隨機(jī)森林和K 最近鄰等算法建立比較模型,最終確定貝葉斯網(wǎng)絡(luò)模型預(yù)測申請者未來的工作表現(xiàn)和離職意向的準(zhǔn)確度最高。有研究顯示XGBoost 算法的計(jì)算效果甚至可以媲美需要耗費(fèi)大量計(jì)算資源的深度神經(jīng)網(wǎng)絡(luò)[14]。本研究結(jié)果也提示對于兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為的預(yù)測效能,XGBoost優(yōu)于隨機(jī)森林、Logistic 回歸、決策樹、貝葉斯網(wǎng)絡(luò)和SVM 模型。
本次調(diào)查結(jié)果顯示不同年齡和受教育水平下,兒童啃咬消費(fèi)品的行為均有發(fā)生。但隨著年齡增大、接受集體教育機(jī)會(huì)增多,啃咬的情況逐漸減少。一項(xiàng)薈萃分析顯示,在3 個(gè)月至6 歲的兒童中,發(fā)生啃咬物品的頻率最高的是6~23 個(gè)月的嬰幼兒[15],與本研究結(jié)果相似。因此低年齡仍然是健康教育的重點(diǎn)實(shí)施對象。家庭養(yǎng)育環(huán)境對兒童早期心理行為發(fā)展的影響是多方面的。良好的家庭養(yǎng)育環(huán)境有助于兒童早期認(rèn)知、社會(huì)情感、人格發(fā)展、和行為能力的發(fā)展[16]。本研究中主要照顧者對化學(xué)物質(zhì)知識的了解程度影響兒童使用消費(fèi)品時(shí)是否發(fā)生啃咬行為。兒童普遍缺乏自我保護(hù)意識,對化學(xué)物質(zhì)的知識知之甚少,因此提升家長的安全意識和知識可間接影響孩子的行為習(xí)慣,可降低兒童以及家庭面臨的安全風(fēng)險(xiǎn)。主要照顧者每天或經(jīng)常陪伴及母親未就業(yè)的情況下兒童啃咬行為的發(fā)生率反而增高,可能的原因是一方面照顧者監(jiān)管兒童使用消費(fèi)品的頻率越高,則發(fā)現(xiàn)兒童不良行為的概率越大;另一方面,照顧者每天陪伴兒童的時(shí)期多為嬰幼兒期,而這也同時(shí)是兒童發(fā)生啃咬物品行為的高峰時(shí)期。同樣,事業(yè)單位、商業(yè)服務(wù)業(yè)人員和技術(shù)工種人員的母親因工作原因缺少時(shí)間和精力與孩子在一起,也影響了她們對兒童不良行為的關(guān)注。
在后續(xù)研究中,可增大樣本量并擴(kuò)增風(fēng)險(xiǎn)因素,例如兒童使用消費(fèi)品時(shí)的異常動(dòng)作和情緒,主要照顧者的親子互動(dòng)行為和心理因素以增強(qiáng)算法模型的預(yù)測效度和篩查出其他潛在的高風(fēng)險(xiǎn)因素。