卜曉鷗 王 耀 杜亞雯 王 沛
機(jī)器學(xué)習(xí)在發(fā)展性閱讀障礙兒童早期篩查中的應(yīng)用*
卜曉鷗 王 耀 杜亞雯 王 沛
(華東師范大學(xué)教育學(xué)部特殊教育學(xué)系, 上海 200062)
發(fā)展性閱讀障礙嚴(yán)重影響兒童的學(xué)業(yè)成就、心理健康和社會(huì)適應(yīng)能力。近年來, 機(jī)器學(xué)習(xí)因其強(qiáng)大的數(shù)據(jù)處理和挖掘能力逐漸被應(yīng)用到閱讀障礙兒童的早期篩查中, 在標(biāo)準(zhǔn)化心理教育測(cè)試、眼動(dòng)追蹤、游戲測(cè)試、腦成像等多個(gè)領(lǐng)域積累了較為豐富的成果, 獲得了更加精準(zhǔn)高效、靈活可靠的分類結(jié)果。然而, 機(jī)器學(xué)習(xí)在對(duì)象選取、數(shù)據(jù)采集、轉(zhuǎn)化潛力和安全隱私等方面仍存在局限性。未來研究需要重點(diǎn)關(guān)注學(xué)齡前閱讀障礙兒童的早期篩查系統(tǒng)的科學(xué)性, 同時(shí)積極構(gòu)建多模態(tài)數(shù)據(jù)庫、在多種算法中尋找最佳算法以獲取最優(yōu)參數(shù), 最終實(shí)現(xiàn)臨床實(shí)踐中的廣泛使用。
發(fā)展性閱讀障礙, 機(jī)器學(xué)習(xí), 早期篩查, 兒童
發(fā)展性閱讀障礙(Developmental dyslexia, DD)是一種極其復(fù)雜的神經(jīng)發(fā)育性障礙, 其核心特征是盡管個(gè)體的智力正常, 視、聽覺功能完好, 但是仍然表現(xiàn)出持續(xù)的閱讀、拼寫和寫作困難(Kaisar, 2020)。閱讀障礙在不同的語言和文化中的發(fā)生率約為5%~15% (Tamboer et al., 2016), 并且存在代際傳遞現(xiàn)象(Zahia et al., 2020)。目前, 兒童通常于2年級(jí)或更高年級(jí)在掌握閱讀技能的過程中才有可能被識(shí)別出存在閱讀障礙(Sanfilippo et al., 2020)。在經(jīng)濟(jì)發(fā)展落后的國(guó)家, 貧困兒童發(fā)現(xiàn)存在閱讀障礙的年齡更晚(Ballester et al., 2021)。此時(shí)往往已經(jīng)錯(cuò)過了最佳的干預(yù)窗口期, 即幼兒園至1年級(jí)大腦可塑性增強(qiáng)的早期階段(Fox et al., 2010)。大量研究已然發(fā)現(xiàn), 患有閱讀障礙的兒童會(huì)深陷學(xué)習(xí)成績(jī)低下、自我效能感降低和學(xué)習(xí)動(dòng)力不足的惡性循環(huán)中(Burns et al., 2022), 甚至出現(xiàn)極高的輟學(xué)率和心理健康問題(Livingston et al., 2018)。如果此類兒童未能得到及時(shí)的識(shí)別和干預(yù), 閱讀障礙的負(fù)面影響可能會(huì)從童年早期一直持續(xù)至成年期(Farah et al., 2021)。因此, 進(jìn)行高效的早期篩查, 提供有效的早期干預(yù), 對(duì)于閱讀障礙兒童的發(fā)展具有關(guān)鍵性意義。
迄今為止, 閱讀障礙的篩查主要借助于標(biāo)準(zhǔn)化心理教育測(cè)試(Lee et al., 2022)、眼動(dòng)追蹤(Prabha & Bhargavi, 2019)、網(wǎng)絡(luò)/手機(jī)游戲(Borleffs et al., 2018)以及腦成像技術(shù)(Usman et al., 2021)等手段。標(biāo)準(zhǔn)化心理教育測(cè)試通常采用智商?成就差異模式(IQ?achievement discrepancy) (Fletcher et al., 2019)、干預(yù)?應(yīng)答模式(response to intervention, RTI) (Miciak et al., 2014)、優(yōu)勢(shì)與弱勢(shì)模式(pattern of strengths and weaknesses, PSW) (Hale et al., 2010)來評(píng)估和量化個(gè)體的智力、語音加工、閱讀技能和詞匯發(fā)展等認(rèn)知能力, 進(jìn)而達(dá)到識(shí)別閱讀障礙者的目的(Miciak & Fletcher, 2020)。就眼動(dòng)追蹤技術(shù)的應(yīng)用而言, 研究者通過記錄閱讀過程中的眼動(dòng)特征來區(qū)分閱讀障礙兒童和非閱讀障礙兒童, 這些特征包括注視/回視時(shí)間和次數(shù)、眼跳幅度和次數(shù)、眨眼頻率和次數(shù)以及雙眼協(xié)調(diào)性等(Hmimdi et al., 2021)。也有研究者以游戲化的形式生成具體的語音測(cè)試或認(rèn)知測(cè)試, 開發(fā)基于網(wǎng)絡(luò)技術(shù)的電子學(xué)習(xí)系統(tǒng)和手機(jī)游戲(例如, Deslixate和GraphoGame), 旨在通過教育游戲識(shí)別閱讀障礙兒童(Larco et al., 2021; Ojanen et al., 2015)。隨著認(rèn)知神經(jīng)技術(shù)的發(fā)展, 越來越多的研究使用腦成像技術(shù)獲取大腦的結(jié)構(gòu)、形態(tài)、功能激活和幾何特性, 利用組間均值差異來區(qū)分閱讀障礙兒童和典型發(fā)展兒童(Livingston et al., 2018; Sihvonen et al., 2021; Yang et al., 2021)。
然而, 閱讀障礙兒童的癥狀具有巨大的個(gè)體差異性, 比如不同的病源因素會(huì)導(dǎo)致不同的閱讀障礙亞類型(Aaron et al., 1999)。加之傳統(tǒng)的閱讀障礙檢測(cè)技術(shù)低效耗時(shí), 敏感性和特異性指標(biāo)不明確, 難以滿足大規(guī)模并快速篩查閱讀障礙兒童的需求(Usman et al., 2021)。更重要的是, 閱讀障礙與多種神經(jīng)、行為和環(huán)境因素有關(guān), 這些因素以復(fù)雜的方式相互作用導(dǎo)致了閱讀障礙(Catts et al., 2017; McGrath et al., 2020)。因此, 僅憑單一因素或少數(shù)因素結(jié)合無法完成對(duì)閱讀障礙患者的精確診斷(Catts & Petscher, 2022), 即使是傳統(tǒng)的多因素方法也無法涵蓋所有可能的因素和關(guān)系(Walda et al., 2022)。研究復(fù)雜系統(tǒng)的一種相對(duì)新穎有效的方法是機(jī)器學(xué)習(xí)(Kaisar, 2020)。機(jī)器學(xué)習(xí)(Machine Learning, ML)是使用計(jì)算機(jī)算法讓機(jī)器從大量經(jīng)驗(yàn)數(shù)據(jù)中學(xué)習(xí)規(guī)律, 自動(dòng)識(shí)別模式以做出預(yù)測(cè)或決策(Gilvary et al., 2020)。近年來,因其能夠提供更高的檢測(cè)精度和更好的預(yù)測(cè)結(jié)果, 一些研究者們開始嘗試應(yīng)用機(jī)器學(xué)習(xí)來提高閱讀障礙篩查的精度與敏感性。為此, 本研究通過整合機(jī)器學(xué)習(xí)在閱讀障礙篩查中的最新進(jìn)展、主要應(yīng)用范圍、未來可能的發(fā)展方向, 旨在廓清閱讀障礙的機(jī)器學(xué)習(xí)研究可能的發(fā)展路徑與發(fā)展思路。
我們對(duì)2016年以來用于分類和識(shí)別閱讀障礙的機(jī)器學(xué)習(xí)方法的研究進(jìn)行文獻(xiàn)搜索, 使用的數(shù)據(jù)庫包括Web of Science、Elsevier Science Direct、EBSCO和PubMed。檢索關(guān)鍵詞為“Dyslexia/Reading Disability” AND “Identification/ Screening/Detection/Recognition/Prediction/Diagnosis” AND “Machine Learning/Deep Learning/Artificial Intelligence” AND “Child/Children/ Preschool”??紤]到機(jī)器學(xué)習(xí)技術(shù)的飛速發(fā)展和迭代, 并且第一篇中文閱讀障礙的機(jī)器學(xué)習(xí)研究發(fā)表于2016年, 因此文獻(xiàn)檢索的日期范圍設(shè)定為2016年1月1日~ 2022年10月1日。文獻(xiàn)納入標(biāo)準(zhǔn)為: (1)文獻(xiàn)為英文實(shí)證期刊論文和會(huì)議論文, 全文可得并包含明確的研究問題、方法和結(jié)論, 研究結(jié)論有翔實(shí)的數(shù)據(jù)支撐; (2)研究對(duì)象為18歲以下的兒童, 設(shè)置典型發(fā)展對(duì)照組和閱讀障礙組。閱讀障礙兒童無其他共病(如計(jì)算障礙、書寫障礙、自閉癥等)。(3)文獻(xiàn)使用/組合使用機(jī)器學(xué)習(xí)方法篩查閱讀障礙。我們依據(jù)上述標(biāo)準(zhǔn)進(jìn)行獨(dú)立篩查, 最后確定納入本次系統(tǒng)綜述的文獻(xiàn)數(shù)量為25篇(見表1)。圖1和圖2分別展示了文獻(xiàn)篩選流程和文獻(xiàn)檢索完成后的文獻(xiàn)年度分布情況。
基于機(jī)器學(xué)習(xí)的閱讀障礙篩查的第一步是使用相應(yīng)的技術(shù)手段獲取數(shù)據(jù)。
圖1 文獻(xiàn)篩選流程圖
圖2 文獻(xiàn)檢索完成后的文獻(xiàn)年度分布
標(biāo)準(zhǔn)化心理教育測(cè)試為機(jī)器學(xué)習(xí)的模型構(gòu)建提供了最早、最廣泛的證據(jù)。其所提供的數(shù)據(jù)顯示了閱讀障礙患者明顯的行為表現(xiàn), 主要包括閱讀、語音加工、工作記憶、視聽辨別等。Chen等人(2017)使用荷蘭版的McArthur-Bates溝通發(fā)展量表(N-CDI)測(cè)量了476名17~35個(gè)月的典型發(fā)展兒童的早期詞匯發(fā)展能力, 使用機(jī)器學(xué)習(xí)算法預(yù)測(cè)具有閱讀障礙家庭風(fēng)險(xiǎn)的兒童。Shamir等人(2019)采用自行開發(fā)的閱讀障礙簡(jiǎn)短篩查工具(Zippy 6)測(cè)量了125名兒童(6~14歲, 其中閱讀障礙兒童81名)的認(rèn)知能力和語音能力, 并使用機(jī)器學(xué)習(xí)算法區(qū)分閱讀障礙兒童和典型發(fā)展兒童。Tolami等人(2021)收集了54名8~11歲兒童(29名閱讀障礙兒童)的語言樣本, 使用計(jì)算語言學(xué)方法提取拼寫和語法錯(cuò)誤、詞匯多樣性、語法復(fù)雜性指數(shù)和可讀性等閱讀障礙的差異特征, 利用機(jī)器學(xué)習(xí)模型診斷閱讀障礙。在中文閱讀障礙研究中, Wang和Bi (2022)收集了399名7~13歲閱讀障礙兒童的認(rèn)知測(cè)試集, 在測(cè)量閱讀流暢性、閱讀準(zhǔn)確率、語音意識(shí)、語素意識(shí)、快速命名和正字法意識(shí)的基礎(chǔ)上, 使用深度學(xué)習(xí)模型預(yù)測(cè)中文閱讀障礙兒童的癥候。Lee等人(2022)采集了1015名7~13歲的兒童(454名閱讀障礙兒童)的漢字字符數(shù)據(jù)集, 采用多種算法對(duì)漢字的反應(yīng)特征(如筆畫、字素、音調(diào)等)、字符結(jié)構(gòu)、回答特征(如正字法、語音詞根等)、個(gè)人特征等分類變量進(jìn)行了機(jī)器學(xué)習(xí), 最終基于漢字字符的結(jié)構(gòu)、書寫正確率、詞匯地位、筆畫、音調(diào)、年級(jí)等核心特征構(gòu)建了中文閱讀障礙篩查模型。
值得注意的是, 眼動(dòng)特征已經(jīng)成為基于機(jī)器學(xué)習(xí)進(jìn)行閱讀障礙分類的常用指標(biāo), 它與機(jī)器學(xué)習(xí)的結(jié)合提供了認(rèn)知過程的細(xì)粒度信息(Raatikainen et al., 2021), 可作為閱讀障礙的高精度篩查工具。Bhargavi和Prabha (2020)收集了185名9~10歲兒童(97名閱讀障礙兒童)的眼動(dòng)特征集用以建立閱讀障礙的預(yù)測(cè)模型, 在此基礎(chǔ)上采用多種機(jī)器學(xué)習(xí)算法提高預(yù)測(cè)精度, 發(fā)現(xiàn)具有較高準(zhǔn)確率的最佳特征集是平均注視次數(shù)、平均注視時(shí)間、平均眼跳時(shí)間、總眼跳運(yùn)動(dòng)次數(shù)和平均注視次數(shù)。Ileri等人(2022)記錄了33名9~10歲兒童(20名閱讀障礙兒童)在閱讀文本時(shí)的眼電圖(electrooculography, EOG)信號(hào), 通過機(jī)器學(xué)習(xí)分析了不同類型的眼球運(yùn)動(dòng)規(guī)律, 以此來篩查閱讀障礙者。
隨著智能移動(dòng)設(shè)備的日益普及, 基于網(wǎng)絡(luò)/手機(jī)游戲的數(shù)據(jù)收集技術(shù)擁有了廣泛的用戶基礎(chǔ)。當(dāng)前, 研究者已經(jīng)開發(fā)了各種支持、檢測(cè)和治療閱讀障礙的應(yīng)用程序和游戲(Ahmad et al., 2022)。游戲化設(shè)計(jì)大多以語言能力、知覺加工、工作記憶、執(zhí)行功能、閱讀技能等為測(cè)量?jī)?nèi)容, 在形式上通過豐富的游戲元素來吸引和激勵(lì)用戶。Rello等人(2020)設(shè)計(jì)了一款用于測(cè)查行為和認(rèn)知缺陷的在線游戲來收集3644名7~17歲用戶(其中包括392名閱讀障礙患者)的數(shù)據(jù), 從而建立了一個(gè)用于篩查閱讀障礙的機(jī)器學(xué)習(xí)模型。Rauschenberger等人(2022)通過網(wǎng)頁游戲“MusVis”收集了313名兒童(7~12歲, 其中包括116名閱讀障礙兒童)玩游戲的節(jié)奏和頻率, 在此基礎(chǔ)上利用機(jī)器學(xué)習(xí)進(jìn)行模型訓(xùn)練和預(yù)測(cè)。
閱讀障礙的本質(zhì)特征是大腦解剖結(jié)構(gòu)中微妙的空間分布變化(Richlan et al., 2013; Tamboer et al., 2016; Vandermosten et al., 2012)。基于功能性磁共振成像(fMRI)、腦磁圖(MEG)、腦電圖(EEG)、正電子發(fā)射掃描(PET)等技術(shù)獲取的大腦成像數(shù)據(jù)為閱讀障礙的機(jī)器學(xué)習(xí)分類提供了客觀證據(jù)(Da Silva et al., 2021; Ortiz et al., 2020; Thiede et al., 2020)。fMRI的數(shù)據(jù)大多關(guān)注的是與語言和詞匯決策相關(guān)的大腦區(qū)域, 探究個(gè)體在閱讀任務(wù)期間大腦激活的功能差異(Chimeno et al., 2014)。Zahia等人(2020)收集了55名9至12歲西班牙兒童(其中包括18名閱讀障礙)的fMRI結(jié)構(gòu)像, 使用深度學(xué)習(xí)算法對(duì)閱讀障礙兒童進(jìn)行自動(dòng)識(shí)別。Da Silva等人(2021)從巴西說葡萄牙語的32名8~12歲兒童(16名閱讀障礙兒童)中收集高分辨率的T1-w圖像, 使用深度學(xué)習(xí)算法對(duì)視覺表征的重要區(qū)域進(jìn)行分類。EEG能夠在保持時(shí)間和頻域的情況下記錄高時(shí)間分辨率的大腦信號(hào), 反映兒童認(rèn)知處理過程中的大腦功能狀態(tài), 為閱讀障礙的早期診斷提供有效特征。研究者大多關(guān)注EEG信號(hào)的5個(gè)波段, 即delta, theta, alpha, beta和gamma (Ortiz et al., 2020), 通過腦電圖通道之間的相位同步探究大腦的連通性, 然后提取鑒別特征用于閱讀障礙的識(shí)別。Zainuddin等人(2019)采集了7~12歲的10名中度閱讀障礙兒童、10名重度閱讀障礙兒童和10名對(duì)照組兒童的EEG信號(hào), 通過寫作任務(wù)以K最鄰近(KNN)和極限學(xué)習(xí)機(jī)(ELM)來篩查閱讀障礙。Formoso等人(2021)采集了7~8歲的48名兒童(16名閱讀障礙)的EEG信號(hào), 測(cè)量通道之間的相位同步, 以揭示聽覺處理過程中激活的腦功能網(wǎng)絡(luò)。然后, 使用矢量量化無監(jiān)督學(xué)習(xí)和貝葉斯算法相結(jié)合的方法提取鑒別特征, 用于閱讀障礙的鑒別。在中文閱讀障礙研究中, Cui等人(2016)采用結(jié)構(gòu)磁共振成像(MRI)和擴(kuò)散張量成像(DTI)收集了61名10~14歲學(xué)齡兒童(其中28名閱讀障礙兒童)的3D T1-w圖像(MPRAGE), 使用機(jī)器學(xué)習(xí)算法將閱讀障礙兒童與典型發(fā)展兒童區(qū)分開來。
表1 機(jī)器學(xué)習(xí)在發(fā)展性閱讀障礙兒童早期篩查中的應(yīng)用
注: 國(guó)家以第一作者所在國(guó)家為準(zhǔn), 算法/方法采用重點(diǎn)研究算法, 評(píng)價(jià)指標(biāo)采用最佳算法的最優(yōu)參數(shù)。
TD/CD/TDR/TYP/TR/CG/HC/non: 典型發(fā)展兒童; DG/DD/DYS/DA/RD: 閱讀障礙兒童; PDS (poor dyslexic subject): 差閱讀障礙兒童; CDS (capable dyslexic subject): 有能力的閱讀障礙兒童; FR (family risk): 有閱讀障礙家庭風(fēng)險(xiǎn)兒童; SAC (school-aged children): 學(xué)齡兒童; MVR: 單目視覺兒童(無閱讀障礙); av (Average): 平均年齡; N-CDI: 荷蘭版的McArthur-Bates溝通發(fā)展量表; SVM (Support Vector Machines): 支持向量機(jī); KNN (K-Nearest Neighbors): K最近鄰; LR (Logistic Regression): 邏輯回歸; CNN (Convolutional Neural Network): 卷積神經(jīng)網(wǎng)絡(luò); RF (Random Forest): 隨機(jī)森林; ET (Extra Trees): 極限森林; NB (Na?ve Bayes): 樸素貝葉斯; DT (Decision Tree): 決策樹; ANN (Artificial Neural Network): 人工神經(jīng)網(wǎng)絡(luò); BT (Boosted Trees): 提升樹; GA-BPNN: 遺傳算法?反向傳播神經(jīng)網(wǎng)絡(luò); SVM?PSO: 粒子群算法優(yōu)化支持向量機(jī); GB (Gradient Boosting): 梯度提升; ELM (Extreme Learning Machine): 極限學(xué)習(xí)機(jī); LSTM (Long-Short Term Memory neural networks): 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò); MLP (Multilayer Perceptron Neural Network Model): 多層感知機(jī)。
如今, 越來越多的研究者開始不局限于某種單一模態(tài)的數(shù)據(jù)收集, 他們將量表、行為、影像等數(shù)據(jù)進(jìn)行整合, 試圖提高閱讀障礙篩查及其生物標(biāo)志物檢測(cè)的準(zhǔn)確性。納入分析的25篇文獻(xiàn)中使用的數(shù)據(jù)類型占比如下: 標(biāo)準(zhǔn)化心理教育測(cè)試和眼動(dòng)特征數(shù)據(jù)各為28%, 其次是游戲測(cè)試數(shù)據(jù)為16%, MRI數(shù)據(jù)為12%, fMRI數(shù)據(jù)和EEG數(shù)據(jù)各為8%。
數(shù)據(jù)預(yù)處理的主要目的是使算法能夠從數(shù)據(jù)集中提取最相關(guān)的可解釋特征(Usman et al., 2021)。對(duì)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法, 預(yù)處理的第一步是將數(shù)據(jù)轉(zhuǎn)換為定量(數(shù)字)或定性(文本類別)格式。也有一些量表或行為數(shù)據(jù)采用手動(dòng)預(yù)處理方式, 如請(qǐng)專家將數(shù)據(jù)標(biāo)記為無閱讀障礙組和閱讀障礙組(Khan et al., 2018)。在腦成像研究中, 研究者直接收集的數(shù)據(jù)通常是高維度多變量的數(shù)據(jù)。以64個(gè)通道的EEG數(shù)據(jù)為例, 即使在一個(gè)通道上計(jì)算得到一個(gè)指標(biāo), 則至少得到64個(gè)特征值。當(dāng)特征值數(shù)量大于樣本數(shù)量, 使用機(jī)器學(xué)習(xí)容易造成過擬合問題以及降低訓(xùn)練和預(yù)測(cè)速率。因此, 需要將高維度的特征降低到低維度的特征, 加快后續(xù)機(jī)器學(xué)習(xí)的分類和訓(xùn)練。例如, EEG信號(hào)預(yù)處理中常采用主成分分析(Principal Components Analysis, PCA)剔除數(shù)據(jù)次要成分的維度, 做到數(shù)據(jù)的降維(Ahire et al., 2022)。此外, 腦成像數(shù)據(jù)還可以使用不同類型的軟件工具包進(jìn)行預(yù)處理。如fMRI圖像可使用matlab的SPM工具箱自動(dòng)分割出不同的組織類型, 提高數(shù)據(jù)預(yù)處理時(shí)像素和體素的可比性(Zahia et al., 2020); 或者使用FreeSurfer圖像分析套件提取可靠的皮層體積和厚度(Plonski et al., 2017)。
預(yù)處理完成的下一步是特征選擇和提取, 目的是從原始特征中生成最相關(guān)、信息量最大的特征(Abd Rahman et al., 2020), 形成分類所需的數(shù)據(jù)集。標(biāo)準(zhǔn)化心理教育測(cè)試可選擇的特征一般有問卷/認(rèn)知測(cè)試分?jǐn)?shù)、書寫數(shù)據(jù)、語音數(shù)據(jù)等。眼動(dòng)數(shù)據(jù)通常使用統(tǒng)計(jì)度量、基于離散和基于速度的算法選擇特征, 使用主成分分析法(Principal Component Analysis, PCA)提取特征。fMRI數(shù)據(jù)的特征提取是從腦組織屬性中提取大腦皮層屬性特征, 常見的特征有: 皮層厚度、體積信息、各向異性分?jǐn)?shù)和激活模式等。在EEG數(shù)據(jù)中, 一般使用傅里葉變換和小波變換提取信號(hào)的時(shí)間和頻率信息。另外, 最近出現(xiàn)了一些新的特征提取方法, 如深度學(xué)習(xí)通過構(gòu)造不同的網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)從數(shù)據(jù)中進(jìn)行特征提取, 具有良好的穩(wěn)健性和較強(qiáng)的高維數(shù)據(jù)處理能力。例如, 在Ileri等人(2022)的研究中, 卷積神經(jīng)網(wǎng)絡(luò)(CNN)提供了輸入的分段EOG信號(hào)的自動(dòng)分類, 無需手動(dòng)提取特征。表2總結(jié)了納入分析的25篇文獻(xiàn)中的特征類型。
在特征提取與選擇完成之后, 研究者便可以利用機(jī)器學(xué)習(xí)進(jìn)行模型訓(xùn)練與分類。機(jī)器學(xué)習(xí)大致分為兩種類型: 無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)用于在不使用任何輸出數(shù)據(jù)的情況下查找輸入數(shù)據(jù)中的模式, 而監(jiān)督學(xué)習(xí)主要用于預(yù)測(cè)未來事件(Russell & Norvig, 2010)。在監(jiān)督學(xué)習(xí)中, 訓(xùn)練模型的目的是從標(biāo)記的數(shù)據(jù)學(xué)習(xí)所有權(quán)重和偏差的理想值。近年來的研究一般使用監(jiān)督學(xué)習(xí)算法探究閱讀障礙患者和典型發(fā)展人群的分類問題。常見的算法有: 支持向量機(jī)(Support Vector Machines, SVM)、決策樹(Decision Tree, DT)、隨機(jī)森林(Random Forest, RF)、線性回歸(Linear Regression, Linear-R)、邏輯回歸(Logistic Regression, LR)、線性判別分析(Linear Discriminant Analysis, -LDA)、樸素貝葉斯(Na?ve Bayes)、K最近鄰(K-Nearest Neighbors, KNN)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)等。在訓(xùn)練模型前, 通常要將整個(gè)數(shù)據(jù)集分為測(cè)試集(testing set)和訓(xùn)練集(training set)?,F(xiàn)有關(guān)于閱讀障礙的機(jī)器學(xué)習(xí)的研究大多使用K折交叉驗(yàn)證(K-fold cross-validation), 將數(shù)據(jù)集分成K等份, 其中K?1份用于訓(xùn)練集, 1份用于測(cè)試集, 以K次測(cè)試結(jié)果的平均值作為最終的性能評(píng)估結(jié)果。例如, Plonski等人(2017)采用10倍交叉驗(yàn)證法, AlGhamdi (2022)采用5倍交叉驗(yàn)證法和20倍交叉驗(yàn)證法。當(dāng)樣本量較小時(shí), 一些研究者也會(huì)選用K折交叉驗(yàn)證的特殊形式——留一法(Leave-one-out cross-validation)構(gòu)建模型和評(píng)估分類結(jié)果(Cui et al., 2016; Asvestopoulou et al., 2019).
表2 機(jī)器學(xué)習(xí)在發(fā)展性閱讀障礙兒童早期篩查中的特征類型
閱讀障礙的識(shí)別問題在本質(zhì)上是二元分類問題, 即區(qū)分用戶是否為閱讀障礙者。SVM的原理是從解決線性二分類問題出發(fā), 可以為超高維且特征空間稀疏的數(shù)據(jù)提供良好的性能。因此, SVM成為閱讀障礙研究中應(yīng)用得最為廣泛的算法。Shamir等人(2019)采用SVM算法對(duì)基于標(biāo)準(zhǔn)化測(cè)試和zippy 6篩選測(cè)試的閱讀評(píng)估數(shù)據(jù)進(jìn)行分類, 獲得了75%的特異性和靈敏度。Prabha和Bhargavi (2019)提出一種粒子群算法優(yōu)化支持向量機(jī)(SVM-PSO)模型用于從眼動(dòng)特征中提取閱讀障礙的生物標(biāo)記物。與線性支持向量機(jī)(Linear SVM )模型相比, 該模型的預(yù)測(cè)準(zhǔn)確率達(dá)到了95%。此外, 研究者將SVM混合其他算法來識(shí)別閱讀障礙兒童。例如, 使用RF選擇最重要的特征作為SVM的輸入, 模型達(dá)到了89.7%的準(zhǔn)確率和84.8%的召回率(Raatikainen et al., 2021)。
對(duì)于大數(shù)據(jù)間的復(fù)雜規(guī)律的挖掘來說, 深度學(xué)習(xí)的出現(xiàn)解決了這一難題。深度學(xué)習(xí)算法具有更多的層次結(jié)果, 因此對(duì)事物的建模或抽象表現(xiàn)能力更強(qiáng), 也能模擬更復(fù)雜的模型。ANN是深度學(xué)習(xí)的基礎(chǔ), 它模擬了大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能, 在不確定的識(shí)別(如語音識(shí)別、圖像識(shí)別)中尤其有效(Lucchiari et al., 2014)。Ahmad等人(2022)使用ANN模型對(duì)綜合游戲數(shù)據(jù)進(jìn)行分類, 獲得了95%的檢測(cè)準(zhǔn)確率。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展, 深度學(xué)習(xí)從淺層的ANN中衍生出來。其中, CNN是用于閱讀障礙分類的最受歡迎的深度學(xué)習(xí)模型(Usman et al., 2021)。Da Silva等人(2021)選取兩種網(wǎng)絡(luò)可視化技術(shù)在CNN輸入層中學(xué)習(xí)高級(jí)特征, 僅從腦成像數(shù)據(jù)(fMRI)就對(duì)閱讀障礙兒童的大腦狀態(tài)進(jìn)行了精準(zhǔn)分類, 達(dá)到94.8%的準(zhǔn)確率。不僅如此, 研究者提出一種新的基于EOG信號(hào)的CNN方法來識(shí)別閱讀障礙。Latifoglu等人(2021)通過閱讀時(shí)的跳線和返回眼球運(yùn)動(dòng)來篩查和跟蹤閱讀障礙兒童。他們使用二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)模型對(duì)這些頻譜圖圖像進(jìn)行分類, 獲得了99%的準(zhǔn)確率、100%的靈敏度、98.18%的特異性和98.94%的F分?jǐn)?shù)。Ileri等人(2022)從水平和垂直通道記錄EOG信號(hào), 應(yīng)用一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)對(duì)這兩個(gè)通道的信號(hào)進(jìn)行分類, 準(zhǔn)確率分別為98.70%和80.94%。
事實(shí)上, 沒有任何一種算法能夠成為適用于所有數(shù)據(jù)集的最佳算法。算法的選擇受到問題性質(zhì)、數(shù)據(jù)集特征和數(shù)量、數(shù)據(jù)格式、訓(xùn)練和預(yù)測(cè)時(shí)間、存儲(chǔ)需求等多種因素的影響。因此, 研究者越來越傾向于在多種算法中尋找最佳算法以獲取最優(yōu)參數(shù)。研究的整體趨勢(shì)為從單一的傳統(tǒng)機(jī)器學(xué)習(xí)算法走向深度學(xué)習(xí)算法(Deep neural network, DNN)以及比較多種不同類型的算法。Tolami等人(2021)以語言特征為分類指標(biāo), 構(gòu)建了NB, KNN, SVM, LR, DT和MLP模型, 其中屬于深度學(xué)習(xí)的MLP算法的最高分類準(zhǔn)確率達(dá)到93.33%。在中文閱讀障礙的研究中, Lee等人(2022)以漢字字符和個(gè)人特征為分類指標(biāo), 運(yùn)用NB、KNN、SVM、DT、LR和ANN分別構(gòu)建模型, 發(fā)現(xiàn)這6種算法都可以將閱讀障礙兒童與典型發(fā)展兒童區(qū)分開來。其中, SVM獲得了80.0%的最高準(zhǔn)確率。
基于納入分析的25篇文獻(xiàn), 算法的使用頻次占比統(tǒng)計(jì)如下: SVM占比為27.3%, 其次是KNN和LR各占12.7%, CNN和RF各占9.1%, NB和DT各占5.5%, ANN占比為3.6%, BT、GA-BPNN、GB、ELM、LSTM、MLP、RUSBoosted和ET各占1.8%。
閱讀障礙的結(jié)局變量均為二元分類變量, 對(duì)于二分類結(jié)果的評(píng)估首先需要對(duì)于不同樣本分類的分類結(jié)果進(jìn)行4類劃分: 真陽性(True Positive, TP)、真陰性(True Negative, TN)、假陽性(False Positive, FP)、假陰性(False Negative, FN)。接著, 根據(jù)數(shù)據(jù)的類別劃分定義評(píng)估指標(biāo)。對(duì)于二分類問題, 最常用的評(píng)估指標(biāo)是整體準(zhǔn)確率。但是, 準(zhǔn)確率只能體現(xiàn)正(陽性)、負(fù)(陰性)類樣本合計(jì)的正確識(shí)別數(shù)占總樣本數(shù)的比例。在實(shí)際應(yīng)用中, 尤其是臨床篩查中往往會(huì)出現(xiàn)數(shù)據(jù)中的正負(fù)樣本量比例過大的問題。針對(duì)這些不平衡數(shù)據(jù)的分類問題, 需要采用多個(gè)指標(biāo)對(duì)分類模型進(jìn)行性能評(píng)估。其他常用的評(píng)估指標(biāo)有: 靈敏度(Sensitivity)、特異性(Specificity)、精度(Precision)召回率(Recall)、F1分?jǐn)?shù)(F1 score)、Kappa系數(shù)、AUROC曲線與P-R曲線、陽性預(yù)測(cè)值(Positive Predictive Value, PV+)與陰性預(yù)測(cè)值(Negative Predictive Value, PV?)等。基于納入分析的25篇文獻(xiàn), 機(jī)器學(xué)習(xí)模型的評(píng)估性能(以準(zhǔn)確率為參考)總結(jié)如下: 標(biāo)準(zhǔn)化心理教育測(cè)試在68%~94.1%之間; 眼動(dòng)追蹤測(cè)試在81.25%~99%之間; 游戲測(cè)試在74% ~ 99.9%之間; 基于EEG捕獲的腦成像數(shù)據(jù)在89% ~ 90%之間; 基于fMRI捕獲的腦成像數(shù)據(jù)在65% ~ 94.83%之間。
機(jī)器學(xué)習(xí)最主要的優(yōu)勢(shì)在于模型的靈活度, 即可以擬合相當(dāng)復(fù)雜的多項(xiàng)交互關(guān)系或者非線性關(guān)系, 由此產(chǎn)生令人矚目的預(yù)測(cè)準(zhǔn)確性。特別是研究涉及到預(yù)測(cè)性問題, 如預(yù)測(cè)微博用戶的自殺風(fēng)險(xiǎn)、抑郁癥的易感人群等, 機(jī)器學(xué)習(xí)的統(tǒng)計(jì)效果尤其突出。
基于機(jī)器學(xué)習(xí)有助于發(fā)現(xiàn)閱讀障礙的預(yù)測(cè)因素, 我們可以有效檢出具有閱讀障礙風(fēng)險(xiǎn)的兒童對(duì)其進(jìn)行及時(shí)干預(yù), 從而降低兒童識(shí)字后甚至成年后閱讀失敗的可能性。例如, Tamboer等人(2016)借助MRI技術(shù)構(gòu)建SVM預(yù)測(cè)模型, 發(fā)現(xiàn)最可靠的分類體素位于左側(cè)枕葉梭狀回(Left Occipital Fusiform Gyrus, LOFG)、右側(cè)枕葉梭狀回(Right Occipital Fusiform Gyrus, ROFG)和左側(cè)頂下小葉(Left Inferior Parietal Lobule, LIPL), 敏感性達(dá)到82%, 特異性達(dá)到78%。因此, 這些腦區(qū)是與閱讀、拼寫和語音相關(guān)的閱讀障礙類型的潛在生物標(biāo)志物。Prabha和Bhargavi (2019)基于SVM-PSO構(gòu)建的預(yù)測(cè)模型顯示, 平均注視次數(shù)、平均注視時(shí)間、平均掃視時(shí)間、總掃視次數(shù)和平均注視次數(shù)等眼動(dòng)特征可以作為兒童閱讀障礙的風(fēng)險(xiǎn)預(yù)測(cè)指標(biāo)。該模型預(yù)測(cè)的準(zhǔn)確率高達(dá)95%。Formoso等人(2021)收集兒童的EEG信號(hào), 通過腦電通道之間的相位同步來表示腦區(qū)之間的連通性。研究結(jié)果顯示在16 Hz的刺激下, alpha和beta波段的辨別能力最強(qiáng), AUC值達(dá)到0.95。在中文閱讀障礙的研究中, Wang和Bi (2022)構(gòu)建了基于遺傳算法?反向傳播神經(jīng)網(wǎng)絡(luò)模型(GA-BPNN)的中文閱讀障礙預(yù)測(cè)模型, 發(fā)現(xiàn)閱讀準(zhǔn)確性是預(yù)測(cè)漢語閱讀困難兒童的最強(qiáng)因素, 語音意識(shí)、假字準(zhǔn)確率、語素意識(shí)、閱讀流暢性、快速數(shù)字命名和非字符反應(yīng)時(shí)間對(duì)預(yù)測(cè)也具有重要貢獻(xiàn)?;诩{入本次系統(tǒng)綜述的文獻(xiàn), 最具預(yù)測(cè)性的特征總結(jié)詳見表3。
閱讀障礙兒童的傳統(tǒng)篩查主要通過專業(yè)的醫(yī)療機(jī)構(gòu)和科研機(jī)構(gòu)進(jìn)行, 方法以標(biāo)準(zhǔn)化心理教育測(cè)試結(jié)合兒童外在行為和家長(zhǎng)報(bào)告為主。雖然近年來眼動(dòng)追蹤和腦成像技術(shù)為閱讀障礙篩查提供了更加客觀的技術(shù)支持, 但通過這些復(fù)雜的測(cè)量工具來對(duì)每一個(gè)閱讀障礙患者進(jìn)行大范圍識(shí)別幾乎是不可能的。同時(shí), 這些測(cè)量工具還存在著價(jià)格昂貴、耗時(shí)長(zhǎng)、普及性差、就診渠道窄等弊端。為此, 機(jī)器學(xué)習(xí)被用來輔助臨床篩查和自動(dòng)化識(shí)別, 不僅可以納入大量客觀分類指標(biāo)提高準(zhǔn)確率, 而且方便快捷, 降低等待成本。
Asvestopoulou等人(2019)開發(fā)了一款閱讀障礙的篩查工具DysLexML, 通過眼動(dòng)追蹤記錄兒童默讀期間的注視點(diǎn), 應(yīng)用LSVM構(gòu)建篩查模型, 準(zhǔn)確率達(dá)到97%。值得一提的是, DysLexML在存在噪聲的情況下依然具有良好的穩(wěn)健性和準(zhǔn)確率。因此, DysLexML可以覆蓋更多數(shù)量和更多樣化的人群, 為在控制較少、規(guī)模較大的環(huán)境中(如幼兒園)開發(fā)廉價(jià)的眼動(dòng)篩查工具奠定了基礎(chǔ)。
以往研究認(rèn)為, 閱讀障礙與虛擬Hebb- Williams迷宮任務(wù)的表現(xiàn)相關(guān), 但是通過實(shí)時(shí)觀察任務(wù)表現(xiàn)來對(duì)閱讀障礙兒童進(jìn)行分類尚不可行(Gabel et al., 2021)。Yu等人(2022)基于機(jī)器學(xué)習(xí)算法開創(chuàng)性地根據(jù)迷宮任務(wù)的表現(xiàn)預(yù)測(cè)閱讀能力, 實(shí)現(xiàn)以閱讀風(fēng)險(xiǎn)的百分比形式實(shí)時(shí)反饋閱讀成績(jī)。他們以虛擬迷宮數(shù)據(jù)、閱讀水平和個(gè)人特征為指標(biāo), 利用RUSBoosted樹算法(RUSBoosted Trees algorithm)構(gòu)建的模型分類準(zhǔn)確率達(dá)到70%以上。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和電子產(chǎn)品的普及, 以在線評(píng)估平臺(tái)或應(yīng)用程序初步篩查閱讀障礙的方式逐漸流行起來。研究者開發(fā)了一款分析真實(shí)環(huán)境下音頻信號(hào)的應(yīng)用程序Dystech, 他們發(fā)現(xiàn)與適當(dāng)?shù)囊纛l信號(hào)處理相關(guān)的機(jī)器學(xué)習(xí)算法可以提取出人類專家無法獲取的模式, 篩查準(zhǔn)確率達(dá)到80%(Radford et al., 2021)。Rauschenberger等人(2022)設(shè)計(jì)了一款語言獨(dú)立游戲MusVis, 使用RF和額外樹(Extra trees, ET)對(duì)收集到的游戲數(shù)據(jù)進(jìn)行訓(xùn)練, 德語和西班牙語閱讀障礙的分類準(zhǔn)確率分別達(dá)到74%和69%。
人們普遍認(rèn)為閱讀障礙具有遺傳基礎(chǔ)(約70%) (蘇萌萌等, 2012; Galaburda et al., 2006)。即使部分有家庭風(fēng)險(xiǎn)的兒童沒有出現(xiàn)閱讀障礙, 但是他們?cè)谄磳?、非單詞閱讀和閱讀理解等任務(wù)上的表現(xiàn)仍然比典型發(fā)展兒童要差(Lyytinen et al., 2005)。在早期發(fā)現(xiàn)具有高風(fēng)險(xiǎn)的閱讀障礙的兒童將使早期預(yù)防和干預(yù)成為可能。這種早期預(yù)測(cè)功能可通過訓(xùn)練機(jī)器學(xué)習(xí)預(yù)測(cè)模型來實(shí)現(xiàn)。Skeide等人(2016)認(rèn)為與識(shí)字相關(guān)的重要腦區(qū)的神經(jīng)可塑性可能受到遺傳變異的調(diào)控, 從而預(yù)先限制了兒童的讀寫能力。為此, 他們采集了4~8年級(jí)兒童和幼兒園~1年級(jí)兒童的灰/白質(zhì)體積以及與識(shí)字相關(guān)的基因信息, 利用LSVM構(gòu)建了閱讀障礙的預(yù)測(cè)模型, 其準(zhǔn)確率分別達(dá)到了73%和75%。Chen等人(2017)根據(jù)詞匯發(fā)展量表分析了17~35個(gè)月的兒童的詞匯總量和詞匯類別的群體水平差異, 使用SVM來對(duì)家庭風(fēng)險(xiǎn)的閱讀障礙兒童和典型發(fā)展兒童進(jìn)行分類。研究結(jié)果顯示風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確率為68%, 敏感性為70%, 特異性為67%, 表明通過機(jī)器學(xué)習(xí)可以在識(shí)字前的早期階段區(qū)分出有家庭風(fēng)險(xiǎn)的閱讀障礙兒童和典型發(fā)展兒童。這個(gè)階段有家庭風(fēng)險(xiǎn)的閱讀障礙兒童的顳頂葉和顳枕葉區(qū)域已經(jīng)顯示出功能和結(jié)構(gòu)上的改變, 并且類似于閱讀障礙患者中觀察到的變化(Hosseini et al., 2013; Kraft et al., 2015)。
表3 機(jī)器學(xué)習(xí)在發(fā)展性閱讀障礙兒童早期篩查中最具預(yù)測(cè)性的特征
近年來, 機(jī)器學(xué)習(xí)在閱讀障礙及其生物標(biāo)志物檢測(cè)中的應(yīng)用越來越受到研究者的青睞, 其優(yōu)勢(shì)主要體現(xiàn)在以下三個(gè)方面。第一, 機(jī)器學(xué)習(xí)可以識(shí)別變量之間復(fù)雜的非線性關(guān)系, 提供對(duì)閱讀障礙更加精準(zhǔn)的篩查與發(fā)展性預(yù)測(cè)。閱讀障礙是多種因素相互作用的結(jié)果(Morris et al., 1998), 傳統(tǒng)的統(tǒng)計(jì)學(xué)方法(如邏輯回歸)所確定的單個(gè)或多個(gè)預(yù)測(cè)因子存在預(yù)測(cè)能力弱或是無法體現(xiàn)因子間的交互作用的缺點(diǎn), 不能對(duì)數(shù)據(jù)進(jìn)行充分挖掘。機(jī)器學(xué)習(xí)則更適合分析閱讀障礙這一類結(jié)構(gòu)復(fù)雜問題。以反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)為例, BPNN作為人類大腦工作機(jī)制的模擬, 不僅可以處理模糊映射關(guān)系, 還可以識(shí)別變量之間復(fù)雜的非線性關(guān)系(Lyu & Zhang, 2019)。無論是在字母語言還是漢語中, 通過采集與閱讀相關(guān)的認(rèn)知測(cè)試或語音測(cè)試數(shù)據(jù), BPNN模型皆可有效篩查出閱讀障礙兒童(Wang & Bi, 2022)。第二, 與人為識(shí)別閱讀障礙的方式相比, 機(jī)器學(xué)習(xí)一方面避免了主觀理解偏差的影響, 另一方面能夠自動(dòng)化重復(fù)的任務(wù), 在更短的時(shí)間內(nèi)分析更多的數(shù)據(jù), 實(shí)現(xiàn)比人工算法更高的準(zhǔn)確性和可重復(fù)性。第三, 機(jī)器學(xué)習(xí)具備強(qiáng)大的高維數(shù)據(jù)處理能力, 可從腦成像數(shù)據(jù)中提取出額外的、關(guān)鍵性的區(qū)辨性信息, 檢測(cè)到人眼無法觀測(cè)到的可能反映重要病理生理機(jī)制的微小成像的異常。大腦功能和發(fā)育的差異是閱讀障礙風(fēng)險(xiǎn)的早期跡象。隨著年齡增長(zhǎng), 突觸的快速形成使得兒童大腦的激活模式發(fā)生變化, 但除非嚴(yán)重受傷或病危, 大腦結(jié)構(gòu)從童年到成年保持不變。因此, 高維的腦成像數(shù)據(jù)可為閱讀障礙的識(shí)別提供更準(zhǔn)確的結(jié)果。例如, Da Silva等人(2021)從大腦成像對(duì)發(fā)展性閱讀障礙兒童進(jìn)行了94.8%的準(zhǔn)確分類, 同時(shí)利用特征可視化技術(shù)(CAM)和基于梯度的特征可視化技術(shù)(Grad-CAM)在卷積神經(jīng)網(wǎng)絡(luò)層負(fù)責(zé)學(xué)習(xí)高級(jí)特征, 提供了閱讀障礙兒童和典型發(fā)展兒童在閱讀的策略控制和注意過程中相關(guān)的大腦區(qū)域的可視化圖像。這種在切片水平上對(duì)大腦狀態(tài)的預(yù)測(cè), 以及隨后生成的與分類相關(guān)的更細(xì)粒度的特征信息可以提高模型的可解釋性。
首先, 缺少對(duì)最佳干預(yù)期的被試群體研究。閱讀障礙具有可遺傳性, 68%的同卵雙胞胎和高達(dá)40%~60%的一級(jí)親屬之間共同患有閱讀障礙(Vogler et al., 1985)。幾個(gè)閱讀障礙的候選基因, 如ROBO1, DCDC2, DYX1C1, KIAA0319, 已經(jīng)證實(shí)在兒童的大腦發(fā)育中發(fā)揮著重要作用(Galaburda et al., 2006)。兒童大腦可塑性增強(qiáng)的早期階段處于幼兒園至小學(xué)1年級(jí)期間, 是閱讀障礙早期干預(yù)的最佳時(shí)期(Fox et al., 2010)。研究發(fā)現(xiàn), 對(duì)幼兒園和1年級(jí)的高危閱讀障礙兒童進(jìn)行有效干預(yù)的效果(平均效應(yīng)量為0.31~0.84)遠(yuǎn)高于2年級(jí)和3年級(jí)的高危閱讀障礙兒童(平均效應(yīng)量為0.23~0.27) (Wanzek & Vaughn, 2007)。為此, 在最佳干預(yù)期之前對(duì)閱讀障礙兒童, 尤其是對(duì)有家庭風(fēng)險(xiǎn)的閱讀障礙兒童進(jìn)行精準(zhǔn)的早期識(shí)別至關(guān)重要。遺憾的是, 基于上述回顧的所有文獻(xiàn), 僅有一項(xiàng)機(jī)器學(xué)習(xí)的閱讀障礙研究的被試年齡較小(17~35個(gè)月), 其余研究中被試年齡段在6~17歲之間, 兒童識(shí)字前(3~7歲)這一階段的研究幾乎是空白2筆者注:Skeide等人(2016)的研究共141名被試, 其中20名被試年齡為5~6歲。這20名被試在5~6之間進(jìn)行MRI掃描, 約1.7年后的7~9歲左右進(jìn)行識(shí)字能力評(píng)估, 因此在此處未納入3~7歲的范疇。。未來研究需要在兒童識(shí)字前廣泛收集他們及一級(jí)親屬的相關(guān)數(shù)據(jù), 關(guān)注遺傳和環(huán)境中可能的風(fēng)險(xiǎn)因素, 建立多模態(tài)數(shù)據(jù)庫, 借助機(jī)器學(xué)習(xí)的強(qiáng)大分類功能篩選閱讀障礙兒童并確立較為穩(wěn)定的行為/生物標(biāo)記物, 最終搭建方便、快捷、精準(zhǔn)、科學(xué)的早期篩查系統(tǒng)。
其次, 機(jī)器學(xué)習(xí)研究中采集的數(shù)據(jù)質(zhì)量參差不齊, 采集標(biāo)準(zhǔn)不統(tǒng)一, 數(shù)據(jù)樣本不足?;跈C(jī)器學(xué)習(xí)的閱讀障礙數(shù)據(jù)庫采集呈現(xiàn)單一數(shù)據(jù)庫到多方數(shù)據(jù)庫、單一模態(tài)到多模態(tài)的趨勢(shì)。由于數(shù)據(jù)庫來自不同的實(shí)驗(yàn)室和不同的人群, 采集標(biāo)準(zhǔn)尚未統(tǒng)一, 數(shù)據(jù)分布的特征不同, 大量的數(shù)據(jù)不兼容、結(jié)構(gòu)復(fù)雜。因此有必要建立標(biāo)準(zhǔn)化異構(gòu)數(shù)據(jù)庫, 提高模型所需的計(jì)算力, 避免資源浪費(fèi)。采集標(biāo)準(zhǔn)不統(tǒng)一的現(xiàn)象尤其充斥于閱讀障礙兒童的腦成像數(shù)據(jù)庫。一方面, 成像設(shè)備型號(hào)、參數(shù)不統(tǒng)一會(huì)對(duì)數(shù)據(jù)質(zhì)量產(chǎn)生一定影響。由于缺乏權(quán)威、固定的標(biāo)準(zhǔn), 腦成像的可重復(fù)性得不到一致認(rèn)可。另一方面, 分類的準(zhǔn)確率在很大程度上取決于樣本量大小。相較于問卷、行為數(shù)據(jù), 各課題組公開/非公開的閱讀障礙相關(guān)數(shù)據(jù)庫中腦成像數(shù)據(jù)量較少。用小樣本訓(xùn)練的模型很容易陷入對(duì)小樣本的過擬合以及對(duì)目標(biāo)任務(wù)的欠擬合。針對(duì)以上問題, 首先可以通過國(guó)際合作建立數(shù)據(jù)采集以及數(shù)據(jù)共享的統(tǒng)一標(biāo)準(zhǔn)的平臺(tái), 實(shí)現(xiàn)腦成像數(shù)據(jù)的可重復(fù)性應(yīng)用。其次, 可以通過增多訓(xùn)練數(shù)據(jù)、縮小模型需要搜索的空間和優(yōu)化搜索最優(yōu)模型的過程等方式進(jìn)行補(bǔ)救。
再者, 暫時(shí)無法在臨床實(shí)踐中達(dá)到高轉(zhuǎn)化力并得到更廣泛的使用。雖然大量的研究發(fā)現(xiàn)大腦形態(tài)、眼球運(yùn)動(dòng)和正常聽覺系統(tǒng)中檢測(cè)到的變化可以作為閱讀障礙識(shí)別的神經(jīng)生物標(biāo)記物, 但傳統(tǒng)門診對(duì)于閱讀障礙的篩查依舊以標(biāo)準(zhǔn)化心理教育測(cè)試(行為標(biāo)記)為主。這是由于標(biāo)準(zhǔn)化心理教育測(cè)試具有測(cè)驗(yàn)內(nèi)容有代表性、標(biāo)準(zhǔn)化程度高、信效度高和使用方便經(jīng)濟(jì)等優(yōu)點(diǎn)。機(jī)器學(xué)習(xí)目前尚不具備臨床轉(zhuǎn)化的必備條件。首先, 訓(xùn)練數(shù)據(jù)欠缺代表性。實(shí)驗(yàn)數(shù)據(jù)通常是在控制實(shí)驗(yàn)無關(guān)變量的前提下尋求對(duì)典型樣本的估計(jì), 但如果我們的目的是是創(chuàng)建可推廣的預(yù)測(cè)算法, 樣本需囊括實(shí)際生活中大量的個(gè)體化病例。其次, 機(jī)器學(xué)習(xí)模型可解釋性和透明度低。存在“算法黑箱”, 輸入的數(shù)據(jù)和輸出答案之間存在不可觀察的空間, 甚至開發(fā)人員都不能完全理解算法運(yùn)作的具體細(xì)節(jié)。再者, 機(jī)器學(xué)習(xí)的性能指標(biāo)不具備臨床適用性, 如F1分?jǐn)?shù)、召回率可能無法適用于臨床環(huán)境, 很難被臨床醫(yī)生和研究人員理解。最后, 干預(yù)方法的驗(yàn)證研究不足。閱讀障礙的早期篩查的最終目的是為了給兒童提供行之有效的早期干預(yù)。但是, 目前僅有兩項(xiàng)研究將機(jī)器學(xué)習(xí)與閱讀障礙干預(yù)聯(lián)系起來(Atkar & Jayaraju, 2021; Oliaee et al., 2022)。之前對(duì)基于機(jī)器學(xué)習(xí)的閱讀障礙的EEG研究主要是通過腦電圖的組間差異(特別是單個(gè)頻段的功率)來區(qū)分閱讀障礙兒童和典型發(fā)展兒童。Oliaee等人(2022)開創(chuàng)性地對(duì)特定治療計(jì)劃前后的閱讀障礙兒童進(jìn)行分類, 為評(píng)估閱讀障礙治療方案的有效性提供了新的方法。他們利用PCA和序列前向選擇(Sequential Floating Forward Selection, SFFS)算法, 從記錄的腦電圖信號(hào)中提取出最優(yōu)特征子集, 發(fā)現(xiàn)閱讀障礙兒童在接受經(jīng)顱直流電刺激(Transcranial Direct Current Stimulation, tDCS)治療和認(rèn)知訓(xùn)練前后的腦電信號(hào)在不同區(qū)域的頻譜和相位相關(guān)特征上發(fā)生了顯著變化, 最具識(shí)別力的特征子集的分類準(zhǔn)確率達(dá)到92%。Atkar和Jayaraju (2021)使用一種深度學(xué)習(xí)?無監(jiān)督學(xué)習(xí)的生成對(duì)抗網(wǎng)絡(luò)模型(Generative Adversarial Networks, GAN)生成兩個(gè)或三個(gè)字母的印地語單詞的原始音頻數(shù)據(jù), 使用生成的數(shù)據(jù)建立MelGAN系統(tǒng)。該系統(tǒng)通過讓閱讀障礙兒童重復(fù)單詞的正確發(fā)音來加快恢復(fù)過程, 旨在為教師提供一個(gè)有效的輔助工具。雖然使用機(jī)器學(xué)習(xí)評(píng)估干預(yù)效果以及輔助創(chuàng)建干預(yù)工具開始走進(jìn)研究人員的視野, 但它們的實(shí)用性和可驗(yàn)證性仍有待進(jìn)一步提高。
最后, 被試的數(shù)據(jù)安全和隱私保護(hù)受到威脅。機(jī)器學(xué)習(xí)模型訓(xùn)練需要大量數(shù)據(jù), 但數(shù)據(jù)庫往往包含大量隱私數(shù)據(jù), 如個(gè)人身份信息、家庭信息等。如何低成本且高效地防止隱私泄漏變得極為重要。Usman和Muniyandi (2020)構(gòu)建了一種基于CNN模型和余數(shù)模型(RNS)進(jìn)行閱讀障礙安全分類的方法。他們利用RNS的特殊模塊集開發(fā)了一個(gè)像素?比特流編碼器, 在使用級(jí)聯(lián)CNN進(jìn)行分類之前對(duì)訓(xùn)練集和測(cè)試集中MRI數(shù)據(jù)的每個(gè)像素的7位二進(jìn)制值進(jìn)行加密, 再使用加密測(cè)試數(shù)據(jù)集預(yù)測(cè)閱讀障礙兒童。此外, 在數(shù)據(jù)共享之前制定知情同意、倫理審核同樣有利于防止?jié)撛诘臄?shù)據(jù)濫用。
綜上所述, 機(jī)器學(xué)習(xí)已被逐漸應(yīng)用于閱讀障礙的早期篩查中。數(shù)據(jù)采集方式從單一模態(tài)向多模態(tài)的異構(gòu)數(shù)據(jù)轉(zhuǎn)變, 并使用多種模型驗(yàn)證最佳分類效果, 分類性能在67%~100%之間。當(dāng)前使用最多的機(jī)器學(xué)習(xí)算法是SVM, 未來深度學(xué)習(xí)有望為閱讀障礙實(shí)現(xiàn)更高的分類性能。在應(yīng)用中, 閱讀障礙的機(jī)器學(xué)習(xí)研究仍存在樣本量少、臨床實(shí)踐率低、多模態(tài)數(shù)據(jù)結(jié)合不足、分類性能有待提高等問題。并且, 缺少對(duì)最佳干預(yù)期的兒童群體研究, 沒有真正實(shí)現(xiàn)閱讀障礙兒童的早期篩查。未來的研究首先應(yīng)重點(diǎn)關(guān)注學(xué)齡前兒童的風(fēng)險(xiǎn)識(shí)別, 著眼于閱讀障礙的早期篩查的標(biāo)記物研究。其次, 由于閱讀障礙并不特定于某個(gè)地區(qū)、語言和文化, 因此需要開發(fā)獨(dú)立于語言的數(shù)據(jù)收集方法以建立統(tǒng)一標(biāo)準(zhǔn)的閱讀障礙數(shù)據(jù)庫。最后, 未來的研究需要采集多個(gè)來源數(shù)據(jù)(如量表、行為、腦成像等)、混合多種模型以及考慮多模態(tài)的深度學(xué)習(xí)框架提高機(jī)器學(xué)習(xí)的預(yù)測(cè)力, 不斷優(yōu)化構(gòu)建的閱讀障礙篩查模型, 最終實(shí)現(xiàn)臨床實(shí)踐中的廣泛使用。
*為納入系統(tǒng)分析的文獻(xiàn)
蘇萌萌, 張玉平, 史冰潔, 舒華. (2012). 發(fā)展性閱讀障礙的遺傳關(guān)聯(lián)分析.,(8), 1259?1267.
Aaron, P. G., Joshi, M., & Williams, K. A. (1999). Not all reading disabilities are alike.,(2), 120?137. https://doi.org/10.1177/002221949903200203
Abd Rahman, R., Omar, K., Noah, S. A. M., Danuri, M. S. N. M., & Al-Garadi, M. A. (2020). Application of machine learning methods in mental health detection: A systematic review.,, 183952?183964. https://doi.org/10.1109/ ACCESS. 2020.3029154
Ahire, N., Awale, R. N., Patnaik, S., & Wagh, A. (2022). A comprehensive review of machine learning approaches for dyslexia diagnosis.,, 13557?13577. https://doi.org/10.1007/s11042-022-13939-0
*Ahmad, N., Rehman, M. B., El Hassan, H. M., Ahmad, I., & Rashid, M. (2022). An efficient machine learning-based feature optimization model for the detection of dyslexia.,, 8491753. https://doi.org/10.1155/2022/8491753
*AlGhamdi, A. S. (2022). Novel ensemble model recommendation approach for the detection of dyslexia.,, 1337. https://doi.org/10.3390/children9091337
*Asvestopoulou, T., Manousaki, V., Psistakis, A., Smyrnakis, I., Andreadakis, V., Aslanides, I. M., & Papadopouli, M. (2019). DysLexML: Screening tool for dyslexia using machine learning.https://doi.org/10.48550/arXiv. 1903.06274
Atkar, G., & Jayaraju, P. (2021). Speech synthesis using generative adversarial network for improving readability of Hindi words to recuperate from dyslexia.,(15), 9353?9362. https://doi.org/ 10.1007/s00521-021-05695-3
Ballester, P. L., da Silva, L. T., Marcon, M., Esper, N. B., Frey, B. N., Buchweitz, A., & Meneguzzi, F. (2021). Predicting brain age at slice level: Convolutional neural networks and consequences for interpretability.,, 598518. https://doi.org/10.3389/ fpsyt.2021.598518
*Bhargavi, R., & Prabha, A. J. (2020). Predictive model for dyslexia from fixations and saccadic eye movement events.,(5), 105538. https://doi.org/10.1016/j.cmpb.2020.105538
Borleffs, E., Glatz, T. K., Daulay, D. A., Richardson, U., Zwarts, F., & Maassen, B. A. M. (2018). GraphoGame SI: The development of a technology-enhanced literacy learning tool for standard Indonesian.,(4), 595?613. https:// doi.org/10.1007/s10212-017-0354-9
Burns, M. K., VanDerHeyden, A. M., Duesenberg-Marshall, M. D., Romero, M. E., Stevens, M. A., Izumi, J. T., & McCollom, E. M. (2022). Decision accuracy of commonly used dyslexia screeners among students who are potentially at-risk for reading difficulties.. Advance online publication. https:// doi.org/10.1177/07319487221096684
Catts, H. W., McIlraith, A., Bridges, M. S., & Nielsen, D. C. (2017). Viewing a phonological deficit within a multifactorial model of dyslexia.,(3), 613?629. https://doi.org/10.1007/s11145-016-9692-2
Catts, H. W., & Petscher, Y. (2022). A cumulative risk and resilience model of dyslexia.,(3), 171?184. https://doi.org/10.1177/ 00222194211037062
*Chen, A., Wijnen, F., Koster, C., & Schnack, H. (2017). Individualized early prediction of familial risk of dyslexia: A study of infant vocabulary development.,, 156. https://doi.org/10.3389/fpsyg.2017. 00156
Chimeno, Y. G., Zapirain, B. G., Prieto, I. S., & Fernandez- Ruanova, B. (2014). Automatic classification of dyslexic children by applying machine learning to fMRI images.,(6), 2995? 3002. https://doi.org/10.3233/BME-141120
*Cui, Z. X., Xia, Z. C., Su, M. M., Shu, H., & Gong, G. L. (2016). Disrupted white matter connectivity underlying developmental dyslexia: A machine learning approach.,(4), 1443?1458. https://doi.org/ 10.1002/hbm.23112
*Da Silva, L. T., Esper, N. B., Ruiz, D. D., Meneguzzi, F., & Buchweitz, A. (2021). Visual explanation for identification of the brain bases for developmental dyslexia on fMRI data.,, 584659. https://doi.org/10.3389/fncom.2021.594659
Farah, R., Ionta, S., & Horowitz-Kraus, T. (2021). Neuro- behavioral correlates of executive dysfunctions in dyslexia over development from childhood to adulthood.,, 708863. https://doi.org/10.3389/fpsyg. 2021.708863
Fletcher, J. M., Lyon, G. R., Fuchs, L. S., & Barnes, M. A. (2019).(2nd ed). The Guilford Press.
*Formoso, M. A., Ortiz, A., Martinez-Murcia, F. J., Gallego, N., & Luque, J. L. (2021). Detecting phase-synchrony connectivity anomalies in EEG signals. Application to dyslexia diagnosis.,(21), 7061. https://doi.org/ 10.3390/s21217061
Fox, S. E., Levitt, P., & Nelson, C. A. (2010). How the timing and quality of early experiences influence the development of brain architecture.,(1), 28?40. https://doi.org/10.1111/j.1467-8624.2009. 01380.x
Gabel, L. A., Voss, K., Johnson, E., Lindstrom, E. R., Truong, D. T., Murray, E. M., … Gruen, J. R. (2021). Identifying dyslexia: Link between maze learning and dyslexia susceptibility gene, DCDC2, in young children.,(2), 116?133. https://doi.org/ 10.1159/000516667
Galaburda, A. M., LoTurco, J., Ramus, F., Fitch, R. H., & Rosen, G. D. (2006). From genes to behavior in developmental dyslexia.,(10), 1213?1217. https://doi.org/10.1038/nn1772
Gilvary, C., Elkhader, J., Madhukar, N., Henchcliffe, C., Goncalves, M. D., & Elemento, O. (2020). A machine learning and network framework to discover new indications for small molecules.,(8), e1008098. https://doi.org/10.1371/journal.pcbi.1008098
Hale, J., Alfonso, V., Berninger, V., Bracken, B., Christo, C., Clark, E., …Yalof, J. (2010). Critical issues in response- to-intervention, comprehensive evaluation, and specific learning disabilities identification and intervention: An expert white paper consensus.,(3), 223?236. https://doi.org/10.1177/ 073194871003300310
*Hmimdi, A., Ward, L. M., Palpanas, T., & Kapoula, Z. (2021). Predicting dyslexia and reading speed in adolescents from eye movements in reading and non-reading tasks: A machine learning approach.,(10), 1337. https://doi.org/10.3390/brainsci11101337
Hosseini, S. M. H., Black, J. M., Soriano, T., Bugescu, N., Martinez, R., Raman, M. M., … Hoeft, F. (2013). Topological properties of large-scale structural brain networks in children with familial risk for reading difficulties.,, 260?274. https://doi.org/ 10.1016/j.neuroimage.2013.01.013
*Ileri, R., Latifoglu, F., & Demirci, E. (2022). A novel approach for detection of dyslexia using convolutional neural network with EOG signals.,(11), 3041?3055. https:// doi.org/10.1007/s11517-022-02656-3
Kaisar, S. (2020). Developmental dyslexia detection using machine learning techniques: A survey.,(3), 181?184. https://doi.org/10.1016/j.icte.2020.05.006
Khan, R. U., Lee, J., & Yin, B. O. (2018). Machine learning and dyslexia: Diagnostic and classification system (DCS) for kids with learning disabilities.,(3), 97?100.
Kraft, I., Cafiero, R., Schaadt, G., Brauer, J., Neef, N. E., Mueller, B., … Skeide, M. A. (2015). Cortical differences in preliterate children at familiar risk of dyslexia are similar to those observed in dyslexic readers.,(9), e378. https://doi.org/10.1093/brain/awv036
Larco, A., Carrillo, J., Chicaiza, N., Yanez, C., & Luján- Mora, S. (2021). Moving beyond limitations: Designing the Helpdys App for children with dyslexia in rural areas.,, 7801. https://doi.org/10.3390/su13137081
*Latifoglu, F., Ileri, R., & Demirci, E. (2021). Assessment of dyslexic children with EOG signals: Determining retrieving words/re-reading and skipping lines using convolutional neural networks.,, 110721. https://doi.org/10.1016/j.chaos.2021.110721
*Lee, S. M. K., Liu, H. W., & Tong, S. X. (2022). Identifying chinese children with dyslexia using machine learning with character dictation.. https://doi.org/10.1080/10888438.2022.2088373.
Livingston, E. M., Siegel, L. S., & Ribary, U. (2018). Developmental dyslexia: Emotional impact and consequences.,(2), 107?135. https://doi.org/10.1080/19404158.2018.1479975
Lucchiari, C., Folgieri, R., & Pravettoni, G. (2014). Fuzzy cognitive maps: A tool to improve diagnostic decisions.,(4), 289?293. https://doi.org/10.1515/ dx-2014-0026
Lyu, J., & Zhang, J. (2019). BP neural network prediction model for suicide attempt among Chinese rural residents.,, 465?473. https:// doi.org/10.1016/j.jad.2018.12.111
Lyytinen, P., Eklund, K., & Lyytinen, H. (2005). Language development and literacy skills in late-talking toddlers with and without familial risk for dyslexia.,(2), 166?192. https://doi.org/10.1007/s11881- 005-0010-y
McGrath, L. M., Peterson, R. L., & Pennington, B. F. (2020). The multiple deficit model: Progress, problems, and prospects.,(1), 7?13. https://doi.org/10.1080/10888438.2019.1706180
Miciak, J., & Fletcher, J. M. (2020). The critical role of instructional response for identifying dyslexia and other learning disabilities.,(5), 343?353. https://doi.org/10.1177/0022219420906801
Miciak, J., Stuebing, K. K., Vaughn, S., Roberts, G., Barth, A. E., & Fletcher, J. M. (2014). Cognitive attributes of adequate and inadequate responders to reading intervention in middle school.,(4), 407?427. https://doi.org/10.17105/SPR-13-0052.1
Morris, R. D., Stuebing, K. K., Fletcher, J. M., Shaywitz, S. E., Lyon, G. R., Shankweiler, D. P., … Shaywitz, B. A. (1998). Subtypes of reading disability: Variability around a phonological core.,(3), 347?373. https://doi.org/10.1037/0022-0663.90.3.347
Ojanen, E., Ronimus, M., Ahonen, T., Chansa-Kabali, T., February, P., Jere-Folotiya, J., … Lyytinen, H. (2015). GraphoGame — A catalyst for multi-level promotion of literacy in diverse contexts.,, 671. https://doi.org/10.3389/fpsyg.2015.00671
Oliaee, A., Mohebbi, M., Shirani, S., & Rostami, R. (2022). Extraction of discriminative features from EEG signals of dyslexic children; before and after the treatment.,(6), 1249?1259. https:// doi.org/10.1007/s11571-022-09794-2.
Ortiz, A., Martinez-Murcia, F. J., Luque, J. L., Gimenez, A., Morales-Ortega, R., & Ortega, J. (2020). Dyslexia diagnosis by EEG temporal and spectral descriptors: An anomaly detection approach.,(7). 2050029. https://doi.org/10.1142/ S012906572050029X
*Plonski, P., Gradkowski, W., Altarelli, I., Monzalvo, K., van Ermingen-Marbach, M., Grande, M., … Jednorog, K. (2017). Multi-parameter machine learning approach to the neuroanatomical basis of developmental dyslexia.,(2), 900?908. https://doi.org/10.1002/ hbm.23426
*Prabha, A. J., & Bhargavi, R. (2019). Prediction of dyslexia from eye movements using machine learning.(2), 814?823. https://doi.org/ 10.1080/03772063.2019.1622461
Raatikainen, P., Hautala, J., Loberg, O., K?rkk?inen, T., Lepp?nen, P., & Nieminen, P. (2021). Detection of developmental dyslexia with machine learning using eye movement data.,, 100087. https://doi.org/10. 1016/j.array.2021.100087
*Radford, J., Richard, G., Richard, H., & Serrurier, M. (2021, February).Proceedings of the 14th International Joint Conference on Biomedical Engineering Systems and Technologies?HEALTHINF (pp. 58?66), Electr Network. https://doi.org/10.5220/0010196000580066
*Rauschenberger, M., Baeza-Yates, R., & Rello, L. (2022). A universal screening tool for dyslexia by a web-game and machine learning.,628634. https://doi.org/10.3389/fcomp.2021.628634
*Rello, L., Baeza-Yates, R., Ali, A., Bigham, J. P., & Serra, M. (2020). Predicting risk of dyslexia with an online gamified test.,(12), e0241687. https:// doi.org/10.1371/journal.pone.0241687
Richlan, F., Kronbichler, M., & Wimmer, H. (2013). Structural abnormalities in the dyslexic brain: A meta- analysis of voxel-based morphometry studies.,(11), 3055?3065. https://doi.org/ 10.1002/hbm.22127
Russell, S. J., & Norvig, P. (2010).. Hoboken, NJ: Prentice Hall.
Sanfilippo, J., Ness, M., Petscher, Y., Rappaport, L., Zuckerman, B., & Gaab, N. (2020). Reintroducing dyslexia: Early identification and implications for pediatric practice.,(1), e20193046. https:// doi.org/10.1542/peds.2019-3046
*Shamir, N., Zivan, M., & Horowitz‐Kraus, T. (2019). Six‐minute screening test can provide valid information about the skills that underlie childhood reading and cognitive abilities.,(7), 1278?1284. https://doi.org/10.1111/apa.14680
Sihvonen, A. J., Virtala, P., Thiede, A., Laasonen, M., & Kujala, T. (2021). Structural white matter connectometry of reading and dyslexia.,118411. https://doi.org/10.1016/j.neuroimage.2021.118411
*Skeide, M. A., Kraft, I., Mueller, B., Schaadt, G., Neef, N. E., Brauer, J., … Friederici, A. D. (2016). NRSN1 associated grey matter volume of the visual word form area reveals dyslexia before school.,, 2792?2803. https://doi.org/10.1093/brain/aww153
Tamboer, P., Vorst, H. C. M., Ghebreab, S., & Scholte, H. S. (2016). Machine learning and dyslexia: Classification of individual structural neuro-imaging scans of students with and without dyslexia.,, 508?514. https://doi.org/10.1016/j.nicl.2016.03.014
Thiede, A., Glerean, E., Kujala, T., & Parkkonen, L. (2020). Atypical MEG inter-subject correlation during listening to continuous natural speech in dyslexia.,, 116799. https://doi.org/10.1016/j.neuroimage.2020.116799
*Tolami, F. A., Khorasani, M., Kahani, M., Yazdi, S. A. A., & Ghalenoei, M. A. (2021, October).. 11th International Conference on Computer Engineering and Knowledge (ICCKE) (pp. 393?398), Mashad, Iran. https:// doi.org/10.1109/ICCKE54056.2021.9721446
Usman, O. L., & Muniyandi, R. C. (2020). CryptoDL: Predicting dyslexia biomarkers from encrypted neuroimaging dataset using energy-efficient residue number system and deep convolutional neural network.,(5), 836. https://doi.org/10.3390/sym12050836
Usman, O. L., Muniyandi, R. C., Omar, K., & Mohamad, M. (2021). Advance machine learning methods for dyslexia biomarker detection: A review of implementation details and challenges.,, 36879?36897. https:// doi.org/10.1109/ACCESS.2021.3062709
*Vajs, I., Kovic, V., Papic, T., Savic, A. M., & Jankovic, M. M. (2022). Spatiotemporal eye-tracking feature set for improved recognition of dyslexic reading patterns in children.,(13), 4900. https://doi.org/10.3390/ s22134900
Vandermosten, M., Boets, B., Wouters, J., & Ghesquiere, P. (2012). A qualitative and quantitative review of diffusion tensor imaging studies in reading and dyslexia.,(6), 1532?1552. https:// doi.org/10.1016/j.neubiorev.2012.04.002
Vogler, G. P., Defries, J. C., & Decker, S. N. (1985). Family history as an indictor of risk for reading disability.,(10), 616?618. https:// doi.org/10.1177/002221948401701009
Walda, S., Hasselman, F., & Bosman, A. (2022). Identifying determinants of dyslexia: An ultimate attempt using machine learning.,, 869352. https://doi.org/10.3389/fpsyg.2022.869352
*Wang, R., & Bi, H. Y. (2022). A predictive model for chinese children with developmental dyslexia ? Based on a genetic algorithm optimized back-propagation neural network.,, 115949. https://doi.org/10.1016/j.eswa.2021.115949
Wanzek, J., & Vaughn, S. (2007). Research-based implications from extensive early reading interventions.,(4), 541?561. https://doi.org/ 10.1080/02796015.2007.12087917
Yang, X., Zhang, J., Lv, Y., Wang, F., Ding, G., Zhang, M., … Song, Y. (2021). Failure of resting-state frontal- occipital connectivity in linking visual perception with reading fluency in Chinese children with developmental dyslexia.,, 117911. https://doi.org/10. 1016/j.neuroimage.2021.117911
*Yu, Y. C., Shyntassov, K., Zewge, A., & Gabel, L. (2022, March).. 56th Annual Conference on Information Sciences and Systems (pp. 177?181), Electr Network. https://doi.org/ 10.1109/CISS53076.2022.9751182
*Zahia, S., Garcia-Zapirain, B., Saralegui, I., & Fernandez- Ruanova, B. (2020). Dyslexia detection using 3D convolutional neural networks and functional magnetic resonance imaging.,, 105726. https://doi.org/10.1016/j.cmpb.2020.105726
*Zainuddin, A. Z. A., Mansor, W., Lee, K. Y., & Mahmoodin, Z. (2019, July).. Annual International Conference of the IEEE Engineering in Medicine and Biology Society (pp. 4513?4516), Berlin, Germany. https://doi.org/10.1109/EMBC.2019.8857569
Application of machine learning in early screening of children with dyslexia
BU Xiaoou, WANG Yao, DU Yawen, WANG Pei
(Department of Special Education, Faculty of Education, East China Normal University, Shanghai 200062, China)
Developmental dyslexia is the most prevalent form of specific learning disorder with a neurobiological basis that not only restricts an individual's academic achievement and career development, but also negatively affects an individual's psychological and social adjustment substantially. Recently, machine learning has been gradually applied to the early screening of children with dyslexia due to its powerful data processing and mining capabilities, accumulating richer results in various aspects such as standardized psychoeducational testing, eye tracking, game testing and brain imaging. However, machine learning still has limitations in terms of participant selection, data collection, transformation potential, security and privacy. Future researches need to focus on the early identification of pre-school children with dyslexia, construct multimodal data, and find the best classifier among multiple classifiers to obtain optimal parameters, which will eventually achieve widespread use in clinical practice.
dyslexia, machine learning, early screening, children
2022-11-08
* “華東師范大學(xué)幸福之花‘音樂畫的腦智機(jī)制及促進(jìn)兒童藝術(shù)教育發(fā)展的實(shí)踐進(jìn)路’”資助。
王沛, E-mail: wangpei1970@163.com
R395