顧 昕 毛夢琪 馬淑風(fēng) 陳森宇
(1. 華東師范大學(xué)教育學(xué)部教育心理學(xué)系,上海 200062;2. 曼徹斯特大學(xué)健康科學(xué)學(xué)院,曼徹斯特 M13 9PL )
教育實證研究強調(diào)數(shù)據(jù)證據(jù),研究者根據(jù)理論提出假設(shè)、設(shè)計實驗、收集數(shù)據(jù)、分析數(shù)據(jù),得到支持或反對研究假設(shè)的結(jié)論。但是傳統(tǒng)數(shù)據(jù)分析方法在處理復(fù)雜、多元、動態(tài)的教育實證研究數(shù)據(jù)時面臨諸多挑戰(zhàn)。首先,隨著教育研究問題的復(fù)雜化,研究對象通常是包含多個維度、多個層次的復(fù)雜建構(gòu),傳統(tǒng)方法如方差分析、回歸分析等已無法滿足教育數(shù)據(jù)分析的實際需求。其次,統(tǒng)計分析是基于概率的推斷,具有不確定性。傳統(tǒng)方法得到的研究結(jié)論通常表述的是差異的顯著性或影響的大小、方向等,例如“不同家庭教養(yǎng)方式下的子女學(xué)業(yè)成績有顯著差異”“父母受教育程度越高,其子女學(xué)業(yè)成績越高”,這些研究結(jié)論并未體現(xiàn)數(shù)據(jù)證據(jù)的不確定性。再次,傳統(tǒng)分析流程要求預(yù)先設(shè)置被試抽樣、觀測變量、樣本容量等,得到的數(shù)據(jù)證據(jù)不可累積和更新。然而,教育是通過教師和學(xué)生的互動來實現(xiàn)的,學(xué)生的發(fā)展是動態(tài)的,教育數(shù)據(jù)是過程性的,模型建構(gòu)是不斷變化的。動態(tài)的教育數(shù)據(jù)分析需要證據(jù)的積累與更新,需要研究結(jié)果的實時反饋。那么,是否有統(tǒng)計分析方法能夠處理以上問題呢?
Almond等(2015)針對教育評估中證據(jù)推理的復(fù)雜性(complexity)、不確定性(uncertainty)與動態(tài)性(dynamic)問題,提出采用基于概率推理的貝葉斯網(wǎng)絡(luò)(Bayesian network)方法。概率無處不在,它允許我們從不確定和不完整的數(shù)據(jù)證據(jù)中做出復(fù)雜的統(tǒng)計推論。對于多維度、多層次的教育數(shù)據(jù),變量間的關(guān)系錯綜復(fù)雜,概率推理計算困難。例如在評估學(xué)生英語的聽說讀寫能力時,寫作與聽力水平依賴于閱讀能力,但是又影響著口語能力。同時,英語能力也受到學(xué)生溝通交流能力的影響,所以要評估或預(yù)測學(xué)生的聽力水平必須考慮其他能力的高低。一種簡單的處理方法是畫出變量關(guān)系的網(wǎng)絡(luò)圖(如圖1所示),網(wǎng)絡(luò)圖中的節(jié)點(node)表示變量,其連線(edge)表示變量間的依賴關(guān)系,箭頭指出的變量為“原因”變量,箭頭指向的變量為“結(jié)果”變量。這類網(wǎng)絡(luò)模型反映了變量間的因果關(guān)系,并能夠以貝葉斯的方式(即隨著新數(shù)據(jù)的收集而更新)表示復(fù)雜且不斷變化的信息狀態(tài)。圖靈獎獲得者Judea Pearl(1988)推廣了這類網(wǎng)絡(luò)模型,并稱之為貝葉斯網(wǎng)絡(luò)。
圖1 貝葉斯網(wǎng)絡(luò)示例(Almond等, 2015)
貝葉斯網(wǎng)絡(luò)使用圖形表達(dá)變量間的復(fù)雜關(guān)系(圖1),變量關(guān)系既可以根據(jù)理論設(shè)定,也可以由數(shù)據(jù)信息給出。從這一點來說,貝葉斯網(wǎng)絡(luò)模型同教育與心理學(xué)實證數(shù)據(jù)分析常用的路徑分析模型與結(jié)構(gòu)方程模型(侯杰泰等, 2004)十分相似。然而貝葉斯網(wǎng)絡(luò)和其他使用類似圖形結(jié)構(gòu)的模型之間存在幾點區(qū)別。首先,貝葉斯網(wǎng)絡(luò)無需假定變量間的線性關(guān)系,特別適用類別變量的非線性關(guān)系建模(Gupta &Kim, 2008)。其次,貝葉斯網(wǎng)絡(luò)依據(jù)概率來報告變量狀態(tài),適合診斷與預(yù)測(Sinharay, 2006)。更重要的是,貝葉斯網(wǎng)絡(luò)能夠隨著數(shù)據(jù)的收集而更新(Reichenberg, 2018),這意味著,數(shù)據(jù)證據(jù)可以積累或改變。研究者可以得到更多的數(shù)據(jù)證據(jù)支持研究理論,也可能有新的數(shù)據(jù)證據(jù)反對研究理論。數(shù)據(jù)證據(jù)的更新不依賴于實驗設(shè)計,模型中任意變量數(shù)值的改變都將對整個模型產(chǎn)生影響。
目前貝葉斯網(wǎng)絡(luò)已廣泛應(yīng)用于各個研究領(lǐng)域,包括計算機科學(xué)、統(tǒng)計學(xué)、認(rèn)知科學(xué)、心理學(xué)、教育學(xué)等。在教育學(xué)領(lǐng)域,貝葉斯網(wǎng)絡(luò)的應(yīng)用主要涉及:(1)學(xué)生發(fā)展的動態(tài)監(jiān)測,García等(2007)使用貝葉斯網(wǎng)絡(luò)診斷并監(jiān)測學(xué)生的學(xué)習(xí)風(fēng)格;Carmona等(2008)設(shè)計動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建學(xué)生學(xué)習(xí)風(fēng)格模型;Sabourin等(2013)利用動態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建自主學(xué)習(xí)的早期預(yù)測模型。(2)不同維度的數(shù)據(jù)證據(jù)整合,Belland等(2017)將貝葉斯網(wǎng)絡(luò)用于STEM教育中的認(rèn)知數(shù)據(jù)證據(jù)整合;De Klerk等(2015)利用貝葉斯網(wǎng)絡(luò)對教育心理學(xué)數(shù)據(jù)測量做了系統(tǒng)性評估。(3)復(fù)雜研究問題的模型構(gòu)建,Pietro等(2015)在高等教育研究中使用貝葉斯網(wǎng)絡(luò)評估教師表現(xiàn),同時考慮內(nèi)部績效指標(biāo)以及學(xué)生需求、期望、滿意度等外部指標(biāo);Xenos (2004)在開放與遠(yuǎn)程教育中使用貝葉斯網(wǎng)絡(luò)評價學(xué)生表現(xiàn),構(gòu)建了多變量關(guān)系的復(fù)雜模型;Mouri等(2016)使用貝葉斯網(wǎng)絡(luò)預(yù)測大學(xué)生學(xué)業(yè)成績。(4)在教育與心理測量領(lǐng)域的應(yīng)用,Reichenberg (2018)綜述了教育與心理測量中使用貝葉斯網(wǎng)絡(luò)的文獻(xiàn),并關(guān)注其應(yīng)用;Almond等(2015)展望了貝葉斯網(wǎng)絡(luò)在教育測評中的應(yīng)用。在國內(nèi)的教育實證研究中,同樣出現(xiàn)了許多貝葉斯網(wǎng)絡(luò)的應(yīng)用研究,主要集中在教育評價(張曉勇等, 2012; 柳炳祥等, 2018; 張戈輝, 2018),認(rèn)知診斷與自適應(yīng)學(xué)習(xí)(宋麗紅, 2016; 閆志勇等, 2002)等領(lǐng)域。但是,目前還未見有文章從教育實證研究的角度介紹貝葉斯網(wǎng)絡(luò)的方法與應(yīng)用,也未見有研究系統(tǒng)地論述貝葉斯網(wǎng)絡(luò)方法與模型在教育實證研究中的特征與優(yōu)勢。
本文論述教育數(shù)據(jù)分析的貝葉斯網(wǎng)絡(luò)方法與模型,闡述貝葉斯網(wǎng)絡(luò)與傳統(tǒng)實證研究方法在研究范式、數(shù)據(jù)分析、統(tǒng)計模型等方面的不同與優(yōu)勢,介紹貝葉斯網(wǎng)絡(luò)的基本算法與實現(xiàn)軟件,結(jié)合具體的教育實證研究案例展示貝葉斯網(wǎng)絡(luò)方法的應(yīng)用。
貝葉斯網(wǎng)絡(luò)是一種以概率方式描述變量之間關(guān)系的圖模型(Pinto等, 2009),由有向無環(huán)圖(directed acyclic graph, DAG)和條件概率表(conditional probability table, CPT)兩部分組成。其中DAG中的節(jié)點表示變量,節(jié)點間的有向連線表示變量間的因果關(guān)系。若兩個節(jié)點間以一個單箭頭連接在一起,則箭頭指出的是父節(jié)點(parent node),表示“原因”;箭頭指向的是子節(jié)點(child node),表示“結(jié)果”。例如圖1中,閱讀指向?qū)懽鳎虼碎喿x為寫作的父節(jié)點,寫作為閱讀的子節(jié)點。
貝葉斯網(wǎng)絡(luò)使用條件概率表儲存所有節(jié)點在其父節(jié)點下的條件概率,若無任何父節(jié)點則儲存其邊緣概率(即不依賴于其他節(jié)點變量的概率)。需要注意的是,任意一個變量在給定父節(jié)點的情況下都獨立于它的非子節(jié)點,這有助于變量的評估與預(yù)測。例如在圖1英語測試中,給定閱讀能力時,聽力與寫作能力是獨立的,在評估寫作能力時,我們僅需考慮寫作在閱讀和交流能力下的條件概率。根據(jù)貝葉斯網(wǎng)絡(luò)的鏈?zhǔn)椒▌t,所有變量的聯(lián)合概率分布可以簡化為每個節(jié)點關(guān)于其父節(jié)點的條件概率的乘積。每個節(jié)點的邊緣概率等于每個節(jié)點的條件概率乘以其父節(jié)點的條件概率直至最上方的父節(jié)點的邊緣概率(即最終的“原因”)。以英語能力測試為例,將測試結(jié)果簡化為兩個狀態(tài):高分或低分(記為1或0),圖2展示了其中交流、寫作、閱讀三個能力變量間的網(wǎng)絡(luò)結(jié)構(gòu)模型。用P(寫作)表示寫作得高分的概率,P(閱讀)表示閱讀得高分的概率,P(交流)表示交流得高分的概率。此外,交流是閱讀的父節(jié)點,交流得高分的學(xué)生在閱讀上能得高分的概率表示為P(閱讀|交流)。同樣地,交流和閱讀都得高分的學(xué)生在寫作上能得高分的概率表示為P(寫作|閱讀,交流)。那么,可以從圖中變量間的依賴關(guān)系推出P(閱讀)=P(閱讀|交流)×P(交流)以及P(寫作)=P(寫作|閱讀,交流)×P(閱讀|交流)×P(交流)。在收集到學(xué)生三項能力測驗表現(xiàn)后,可得交流能力的邊緣概率并計算出閱讀、寫作能力的條件概率表,建立完整的貝葉斯網(wǎng)絡(luò)模型。
圖2 貝葉斯網(wǎng)絡(luò)推理示例
貝葉斯網(wǎng)絡(luò)可以進(jìn)行因果推理(causal inference),目標(biāo)變量在給定其他變量狀態(tài)時的概率作為推理依據(jù)。具體地,目標(biāo)變量及其父節(jié)點、子節(jié)點和子節(jié)點的其他父節(jié)點共同組成了該變量的馬爾可夫毯(Markov Blanket),提供所有的概率依賴信息。利用這些概率信息,貝葉斯網(wǎng)絡(luò)可以實現(xiàn)從原因到結(jié)果的推理,從結(jié)果到原因的推理,同一結(jié)果不同原因的關(guān)聯(lián)推理,以及包含以上三種的混合推理等。在英語測試的例子中,當(dāng)數(shù)據(jù)更新學(xué)生交流和閱讀的表現(xiàn)后,可預(yù)測其寫作能力高的概率(原因到結(jié)果);當(dāng)知道學(xué)生的寫作和閱讀表現(xiàn)后,可反推其交流能力高的概率(從結(jié)果到原因);當(dāng)知道學(xué)生的寫作表現(xiàn)后,可推理交流和閱讀的關(guān)系(關(guān)聯(lián)推理)。對因果推理感興趣的讀者可參考Pearl(2009)。
貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中的變量依賴或獨立關(guān)系可以從圖的角度進(jìn)一步討論。在網(wǎng)絡(luò)圖DAG中,d分離(d-separation)提供了一種方法快速確定任意一對變量之間是否條件獨立(Pearl, 1988; Geiger, Verma& Pearl, 1990)??紤]三個節(jié)點A,B和C,A和B通過C間接連接的情況有三種:匯連(converging connection)、順連(serial connection)、分連(diverging connection),如圖3所示。匯連結(jié)構(gòu)也被稱為V結(jié)構(gòu),變量C能夠誘發(fā)A和B之間的信息流動,A和B之間邊緣獨立,但以C為條件時,A和B之間條件依賴。這種結(jié)構(gòu)類似回歸模型,如家庭環(huán)境A與學(xué)校環(huán)境B共同影響學(xué)生行為C,家庭環(huán)境和學(xué)校環(huán)境邊緣獨立,但當(dāng)考慮學(xué)生因素時,條件依賴。在順連和分連結(jié)構(gòu)中,變量C將阻塞A和B之間的信息流動,A和B之間邊緣依賴,但以C為條件時,A和B之間條件獨立。順連結(jié)構(gòu)類似中介模型,如家庭社會經(jīng)濟地位A通過子女社會文化觀C間接影響子女的創(chuàng)造力B,家庭社會經(jīng)濟地位與子女創(chuàng)造力相關(guān),但在子女社會文化觀不變時,家庭社會經(jīng)濟地位和子女創(chuàng)造力條件獨立。分連結(jié)構(gòu)又稱為共同原因模型,如教育雙減政策C提升了教師滿意度A與家長滿意度B。
圖3 節(jié)點之間的三種基本結(jié)構(gòu)
前文介紹了貝葉斯網(wǎng)絡(luò)模型與方法,本節(jié)具體討論貝葉斯網(wǎng)絡(luò)相較于傳統(tǒng)方法的優(yōu)勢,能解決哪些傳統(tǒng)方法不能解決或不能很好解決的問題。
隨著人工智能、大數(shù)據(jù)分析的發(fā)展,國內(nèi)外研究者開始關(guān)注數(shù)據(jù)驅(qū)動的教育學(xué)研究(Kurilovas,2020; 孟志遠(yuǎn)等, 2017; 楊現(xiàn)民等; 2020),但也有學(xué)者重申理論驅(qū)動的教育研究的重要性(Huang & Hew,2018; 楊向東, 2014)。理論驅(qū)動的分析流程是“研究問題—提出假設(shè)—設(shè)計實驗—收集分析數(shù)據(jù)—驗證假設(shè)”,研究者需要理論構(gòu)建模型,表達(dá)變量間的關(guān)系。數(shù)據(jù)驅(qū)動的分析流程是“研究問題—收集分析數(shù)據(jù)—得出結(jié)論”,研究者直接根據(jù)獲得的所有數(shù)據(jù)信息構(gòu)建模型,省去了研究假設(shè)與實驗設(shè)計。
下面以農(nóng)村地區(qū)學(xué)生學(xué)業(yè)困難的影響因素為例(Mandinach, 2012),具體說明兩種傳統(tǒng)分析路徑的差異與缺點,并闡述融合理論與數(shù)據(jù)驅(qū)動的貝葉斯網(wǎng)絡(luò)方法的優(yōu)點。理論驅(qū)動分析方法首先根據(jù)研究問題提出研究假設(shè),影響學(xué)業(yè)困難的因素有家庭狀況、健康狀況、不良行為等。再確定抽樣對象、樣本容量及觀測變量,包括因變量學(xué)習(xí)成績,自變量家庭收入、醫(yī)療記錄、違紀(jì)頻率等。隨后收集數(shù)據(jù),使用線性回歸模型分析以上自變量是否對學(xué)習(xí)成績有顯著的影響及影響大小,驗證研究假設(shè)。這一分析流程存在兩個缺陷。首先,理論假設(shè)可能忽略某些對學(xué)業(yè)困難有顯著影響的重要變量,如班主任管教方式,一旦確定研究設(shè)計、收集數(shù)據(jù)后無法增加新的觀測變量。其次,需要事先設(shè)定樣本容量的大小,樣本不足會導(dǎo)致假設(shè)檢驗失效,而樣本過多則會提高實驗成本。
數(shù)據(jù)驅(qū)動分析流程首先明確研究問題,研究者試圖了解為什么部分學(xué)生會在學(xué)業(yè)上遇到困難。隨后收集到學(xué)生學(xué)業(yè)成績、醫(yī)療記錄、行為數(shù)據(jù)、出勤率等,以及其他看似與學(xué)業(yè)困難不相關(guān)的變量,如當(dāng)?shù)亟煌?、?dāng)?shù)貧夂虻取;谒袛?shù)據(jù)信息,利用相關(guān)分析、聚類分析等大數(shù)據(jù)分析常用方法,得到學(xué)業(yè)困難的相關(guān)因素。注意,所有觀測到的數(shù)據(jù)信息都可以加入分析。數(shù)據(jù)驅(qū)動方法的缺點是僅能判斷與學(xué)業(yè)困難相關(guān)的變量,無法解釋它們的影響機制。如研究者發(fā)現(xiàn)學(xué)生學(xué)業(yè)困難與當(dāng)?shù)貧夂蛴嘘P(guān),但真實原因可能是惡劣天氣導(dǎo)致交通不便,進(jìn)而影響學(xué)生學(xué)業(yè)。
貝葉斯網(wǎng)絡(luò)結(jié)合理論驅(qū)動與數(shù)據(jù)驅(qū)動的思想,其基本分析流程可歸納為:“研究問題—先驗?zāi)P汀占治鰯?shù)據(jù)—階段性結(jié)論—更新模型—收集分析數(shù)據(jù)—”。首先,貝葉斯網(wǎng)絡(luò)可以整合特定教育研究領(lǐng)域內(nèi)的理論知識與專家經(jīng)驗。貝葉斯方法鼓勵專家(教育學(xué)者、一線教師等)參與選取變量并定義變量間的關(guān)系,這種關(guān)系可以是相關(guān)也可以是因果。比如,指定當(dāng)?shù)貧夂蛴绊懡煌ǎM(jìn)而影響學(xué)業(yè)困難的路徑。專家經(jīng)驗將作為先驗知識加入貝葉斯網(wǎng)絡(luò)模型,這意味著先驗?zāi)P偷慕Y(jié)構(gòu)將有教育理論支撐,也能適應(yīng)特定的研究目的。其次,在先驗?zāi)P蜆?gòu)建之后,研究者收集分析數(shù)據(jù),得到階段性結(jié)論,并更新先驗?zāi)P?,再收集分析?shù)據(jù),以此迭代。基于這一流程,貝葉斯網(wǎng)絡(luò)能夠從教育數(shù)據(jù)中學(xué)習(xí)。貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)學(xué)習(xí)特性來源于貝葉斯公式,其反映了人們對過去的認(rèn)知會隨著新數(shù)據(jù)的加入而發(fā)生改變。當(dāng)收集到新的數(shù)據(jù)時,貝葉斯網(wǎng)絡(luò)將改進(jìn)基于教育理論或?qū)<医?jīng)驗的原始模型,或更新之前數(shù)據(jù)分析得到的歷史模型。這種學(xué)習(xí)既可以調(diào)整模型參數(shù),也可以對模型結(jié)構(gòu)提出更改建議。后者對于教育研究是有指導(dǎo)意義的,因為它反映了不斷積累的數(shù)據(jù)證據(jù)對教育理論或?qū)<医?jīng)驗的批判性修正。比如,隨著小康社會的全面建成、農(nóng)村經(jīng)濟的整體發(fā)展,家庭收入、交通狀況或不再是影響學(xué)業(yè)困難的主要因素,而學(xué)業(yè)壓力等可能成為新的影響因素。因此,新研究數(shù)據(jù)的分析結(jié)果會動搖我們對過去的認(rèn)知。需要注意的是,部分?jǐn)?shù)據(jù)分析結(jié)果往往不足以推翻舊的理論,但是貝葉斯模型會降低歷史模型的可信度,直到積累足夠的數(shù)據(jù)證據(jù)反對歷史模型。
綜上,相較于傳統(tǒng)理論驅(qū)動或數(shù)據(jù)驅(qū)動分析方法,貝葉斯網(wǎng)絡(luò)融合理論與數(shù)據(jù)信息構(gòu)建模型,隨著新數(shù)據(jù)的收集迭代模型,更新研究結(jié)論。貝葉斯網(wǎng)絡(luò)方法避免了理論驅(qū)動方法在假設(shè)模型提出后無法增加新的變量,在實驗設(shè)計后無法增加樣本容量,在得到結(jié)論后無法更新修正等問題;同時,貝葉斯網(wǎng)絡(luò)方法彌補了數(shù)據(jù)驅(qū)動方法在解釋變量因果關(guān)系、影響機制等方面的不足。
基于概率推理的教育實證研究結(jié)果具有不確定性,這種不確定性來自研究抽樣誤差、測量誤差、統(tǒng)計分析誤差等。傳統(tǒng)統(tǒng)計推斷報告的研究結(jié)論通常是變量存在“顯著差異”“顯著相關(guān)”“顯著影響”等,研究者無法知曉其所關(guān)心變量,如學(xué)生能力、教師水平等高低的概率。貝葉斯網(wǎng)絡(luò)將概率推理的不確定性納入模型。概率可以用來表示個體發(fā)展、預(yù)測信息、情景感知以及數(shù)據(jù)和先驗知識融合等不確定性。研究者根據(jù)理論設(shè)定貝葉斯網(wǎng)絡(luò)初始模型時,將這些不確定性帶入模型,當(dāng)數(shù)據(jù)輸入后,利用概率迭代進(jìn)行推理,推理的結(jié)論同樣以概率表示。
以網(wǎng)絡(luò)教學(xué)中的學(xué)生學(xué)習(xí)風(fēng)格推理為例(García等, 2007),學(xué)習(xí)風(fēng)格包括信息加工、感知、輸入和理解等維度。其中,信息加工有兩種類型:活躍型與沉思型,根據(jù)學(xué)生在網(wǎng)絡(luò)學(xué)習(xí)論壇和聊天室中的不同行為表現(xiàn)推理其信息加工的類型。論壇變量包括四種狀態(tài):回復(fù)消息、閱讀消息、發(fā)布消息、不參與;聊天變量包括三種狀態(tài):參與、聆聽、缺席。研究者評估學(xué)生信息加工風(fēng)格,對于類別變量的關(guān)系,傳統(tǒng)統(tǒng)計方法常使用交叉表格卡方檢驗,但是其得到的結(jié)論只能是信息加工風(fēng)格與論壇、聊天等變量獨立或顯著相關(guān);或是使用二元邏輯回歸模型,但是其只能判斷論壇、聊天等變量是否顯著影響信息加工風(fēng)格。而貝葉斯網(wǎng)絡(luò)方法除了構(gòu)建模型表達(dá)變量間的關(guān)系,還能對學(xué)生個體的信息加工風(fēng)格進(jìn)行概率推理。比如García等(2007)構(gòu)建了圖4的貝葉斯網(wǎng)絡(luò),并根據(jù)數(shù)據(jù)生成變量的條件概率表1。若觀測到某學(xué)生在論壇回復(fù)消息且參與聊天,則由表1可推理其信息加工風(fēng)格為活躍型的概率為0.85;若觀測到另一位學(xué)生僅在論壇中閱讀消息并且沒有參與聊天,則可推理其信息加工風(fēng)格為沉思型的概率為0.55。與傳統(tǒng)統(tǒng)計推斷方法得到的變量顯著相關(guān)、顯著影響等結(jié)論相比,貝葉斯網(wǎng)絡(luò)更關(guān)注個體層面的概率推理,得到的結(jié)論更加精準(zhǔn)有效。
圖4 信息加工的貝葉斯網(wǎng)絡(luò)
表1 信息加工風(fēng)格條件概率表
教育研究問題往往涉及多變量、多維度的復(fù)雜建構(gòu)。為了處理變量間的復(fù)雜關(guān)系,教育數(shù)據(jù)分析大多采用中介與調(diào)節(jié)模型(溫忠麟等, 2005)、結(jié)構(gòu)方程模型(侯杰泰等, 2004)、多水平模型(馬曉強等,2006)等。但是這些模型都有很強的數(shù)據(jù)假設(shè),如正態(tài)性、模型殘差隨機、獨立、齊次等,在處理類別變量的非線性關(guān)系時,會有較大的估計誤差,導(dǎo)致模型診斷與預(yù)測效果不佳(Gupta & Kim, 2008)。此外,這些模型能夠處理的變量關(guān)系復(fù)雜度有限,擬合具有較高復(fù)雜依賴性的數(shù)據(jù)是一項挑戰(zhàn)(Almond等,2015)。貝葉斯網(wǎng)絡(luò)對數(shù)據(jù)類型與變量關(guān)系類型都沒有要求,連續(xù)或類別變量、正態(tài)或非正態(tài)數(shù)據(jù)都可以納入貝葉斯網(wǎng)絡(luò)模型;線性或非線性的變量關(guān)系都可以在貝葉斯網(wǎng)絡(luò)模型中表達(dá)與分析。同時,作為大數(shù)據(jù)分析方法,貝葉斯網(wǎng)絡(luò)能夠處理多維度、多層次的復(fù)雜變量關(guān)系。
在前文例子中,研究者診斷學(xué)生學(xué)習(xí)風(fēng)格,考慮信息加工、感知、理解維度(García等, 2007)。每個維度有兩種類別,分別為活躍型與沉思型、感悟性與直覺型、序列性與綜合型,由學(xué)生的網(wǎng)絡(luò)學(xué)習(xí)行為數(shù)據(jù)診斷。研究中的信息加工、感知、理解均為類別變量,不滿足傳統(tǒng)線性回歸模型、中介模型等的正態(tài)性、方差齊次、線性等假設(shè)。圖5構(gòu)建了學(xué)習(xí)風(fēng)格的貝葉斯網(wǎng)絡(luò),研究者根據(jù)聊天行為、考試提交時間、修改答案行為、考試結(jié)果等變量診斷學(xué)生個體的學(xué)習(xí)風(fēng)格。此外,在圖5中貝葉斯網(wǎng)絡(luò)可將學(xué)習(xí)風(fēng)格模型的各維度分塊建模,再對學(xué)習(xí)風(fēng)格模型整體進(jìn)行評估,分析信息加工、感知與理解維度間的關(guān)系。
圖5 學(xué)習(xí)風(fēng)格的貝葉斯網(wǎng)絡(luò)(García等, 2007)
傳統(tǒng)教育測評多以紙筆測驗為主,計算測驗問卷的總分或平均分。這類評估通常指向知識、技能的單一維度,無法進(jìn)行多維度、多層面的復(fù)雜測評。同時,如果問卷包含較多題目,或者學(xué)生沒有意識到問卷的用途,往往會不經(jīng)過仔細(xì)思考隨意選擇答案,得到的結(jié)果可能是不準(zhǔn)確的。此外,傳統(tǒng)測評獨立于教學(xué)與學(xué)習(xí)活動,強調(diào)終結(jié)性評價,無法獲知學(xué)生在學(xué)習(xí)過程中的發(fā)展與變化。當(dāng)前教育研究關(guān)注過程性評價,以真實學(xué)習(xí)情境為載體,智能設(shè)備與系統(tǒng)為工具,教育過程數(shù)據(jù)為證據(jù),動態(tài)測評模型為方法,實時監(jiān)測與反饋為目標(biāo),評估學(xué)生在學(xué)習(xí)過程中體現(xiàn)出來的知識、技能、方法、思維、風(fēng)格和價值觀念等。隨著便攜式視頻設(shè)備、智能學(xué)習(xí)系統(tǒng)引入課堂,學(xué)生在教學(xué)活動過程中的多維、動態(tài)數(shù)據(jù)可被捕捉,如教師教學(xué)時學(xué)生的面部表情,小組討論中學(xué)生的發(fā)言次數(shù),課堂練習(xí)中學(xué)生點擊智能設(shè)備的頻率等?;诮逃^程數(shù)據(jù)在真實課堂中評價學(xué)生的能力,能夠幫助教師全面、即時地了解學(xué)生的發(fā)展?fàn)顩r,從而更好地建立學(xué)習(xí)提升計劃。
傳統(tǒng)動態(tài)數(shù)據(jù)分析方法是建立時序模型,即將變量進(jìn)行時間分割后加入模型,如重復(fù)測量模型、縱向追蹤模型、自回歸模型、交叉滯后模型(Grimm等, 2021)等。這類模型分割的時間是離散的,需要在某一時刻觀測到所有變量數(shù)據(jù)信息才能更新模型。但是教學(xué)與學(xué)習(xí)過程是連續(xù)的,行為數(shù)據(jù)并非發(fā)生在某一特定時刻;換句話說,特定時刻可能觀測不到研究者需要的行為信息,因此這類時序模型無法做到實時監(jiān)測與反饋。貝葉斯方法的天然優(yōu)勢就是處理數(shù)據(jù)的動態(tài)更新。教育研究者根據(jù)理論或?qū)<医?jīng)驗等設(shè)置初始模型后,每當(dāng)數(shù)據(jù)進(jìn)入,模型都將更新,支持或反對研究理論的數(shù)據(jù)證據(jù)也持續(xù)累積。值得注意的是,在某一時刻,貝葉斯網(wǎng)絡(luò)不需觀測模型中的所有變量即可完成更新。例如,在數(shù)學(xué)課堂學(xué)習(xí)中,捕捉到學(xué)生舉手發(fā)言后,我們對其注意力、計算思維等能力的評估,以及數(shù)學(xué)成績的預(yù)測也將隨之發(fā)生改變。貝葉斯網(wǎng)絡(luò)能夠有效融合動態(tài)學(xué)習(xí)過程中的所有數(shù)據(jù)信息,從而幫助教師評估學(xué)生知識、能力等的薄弱環(huán)節(jié),實現(xiàn)實時監(jiān)測和反饋。此外,貝葉斯網(wǎng)絡(luò)還能夠綜合歷史數(shù)據(jù),推測學(xué)生發(fā)展趨勢,為教師調(diào)整教學(xué)方案提供參考。
以前文學(xué)生學(xué)習(xí)風(fēng)格與其在網(wǎng)絡(luò)教學(xué)中的互動行為關(guān)系為例(García等, 2007),研究者可以建立重復(fù)測量模型,構(gòu)建學(xué)習(xí)風(fēng)格與互動行為的動態(tài)關(guān)系。例如在學(xué)習(xí)開始時、中間某時刻、結(jié)束時,分別收集學(xué)生的聊天、論壇、郵件等行為數(shù)據(jù),構(gòu)建學(xué)習(xí)風(fēng)格的重復(fù)測量模型,評估學(xué)生學(xué)習(xí)風(fēng)格在三個時刻的變化趨勢。但是,重復(fù)測量模型等傳統(tǒng)時序模型局限于固定時刻變量關(guān)系的多次評估,無法做到學(xué)習(xí)風(fēng)格的實時評估。為此,García等(2007)構(gòu)建了學(xué)習(xí)風(fēng)格與互動行為的貝葉斯網(wǎng)絡(luò)模型,分析學(xué)生在使用網(wǎng)絡(luò)教學(xué)系統(tǒng)時的學(xué)習(xí)與互動過程數(shù)據(jù)(見圖5)。模型構(gòu)建與數(shù)據(jù)分析是連續(xù)的動態(tài)過程,在任意時刻,學(xué)生的任何行為,如參與聊天、回復(fù)郵件等,都將更新模型,給出學(xué)習(xí)風(fēng)格的最新概率推理結(jié)果。換句話說,監(jiān)測學(xué)生學(xué)習(xí)風(fēng)格不需設(shè)置特定時間節(jié)點,不需觀測所有行為數(shù)據(jù)。因此,貝葉斯網(wǎng)絡(luò)相較于傳統(tǒng)時序模型,能夠提供實時監(jiān)測。
受限于人力、物力、經(jīng)費等實驗條件,教育實證研究的樣本容量可能相對較小。例如,教育神經(jīng)科學(xué)研究需要對被試進(jìn)行腦紅外成像或核磁共振,能收集到的樣本有限。在參數(shù)估計方面,對小樣本數(shù)據(jù)使用傳統(tǒng)極大似然法(Maximum likelihood)估計變量間的相互關(guān)系,極易受到個別極端數(shù)據(jù)的影響,產(chǎn)生有偏差的估計結(jié)果。貝葉斯方法融入基于專家經(jīng)驗或歷史數(shù)據(jù)的先驗信息,減小了極端值的影響,比極大似然法的估計精確度更高(Van de Schoot等, 2017)。在假設(shè)檢驗方面,頻率統(tǒng)計方法需要確定樣本容量、顯著性水平等。實際操作中研究者可能會因為樣本容量較小,無法得到任何結(jié)論,也可能會收集過多的樣本數(shù)據(jù)造成浪費。貝葉斯方法無需預(yù)先設(shè)定樣本容量,不依賴于實驗設(shè)計,對多次實驗可以進(jìn)行數(shù)據(jù)證據(jù)的積累。即使一次實驗的樣本較小,無法得到有用的結(jié)論,研究者也可以繼續(xù)收集新的數(shù)據(jù),在貝葉斯模型中積累數(shù)據(jù)支持研究假設(shè)的證據(jù),直到得到有意義的教育研究結(jié)論。一般來說,貝葉斯統(tǒng)計分析所需的樣本容量都小于頻率統(tǒng)計分析,而貝葉斯網(wǎng)絡(luò)繼承了貝葉斯統(tǒng)計方法在小樣本參數(shù)估計和假設(shè)檢驗方面的優(yōu)勢。
教育研究數(shù)據(jù)可能存在缺失或不完整的情況,例如因為實驗設(shè)備問題造成的部分學(xué)生的視頻或音頻數(shù)據(jù)缺失。對于缺失與不完整數(shù)據(jù),貝葉斯網(wǎng)絡(luò)同樣比傳統(tǒng)方法表現(xiàn)更優(yōu)。貝葉斯網(wǎng)絡(luò)模型可根據(jù)變量間的相互依賴關(guān)系計算各變量的條件概率,比如當(dāng)學(xué)生聽力水平高的概率是80%時,即使其口語能力測驗數(shù)據(jù)缺失,我們也可根據(jù)其聽力水平對口語能力進(jìn)行估算。在具體分析中,貝葉斯網(wǎng)絡(luò)使用期望最大化(Expectation-Maximum)算法從不完整數(shù)據(jù)中估計條件概率。與其他估計方法不同,無論數(shù)據(jù)是隨機缺失或是缺失依賴于其他變量的狀態(tài),期望最大化算法都可以處理缺失值的估算。
本節(jié)重點闡述了貝葉斯網(wǎng)絡(luò)方法較傳統(tǒng)數(shù)據(jù)分析方法的優(yōu)勢:融合理論與數(shù)據(jù)驅(qū)動分析思想;能夠?qū)€體進(jìn)行精準(zhǔn)概率推理;適用任何數(shù)據(jù)與變量類型;對變量多維度、多層次的復(fù)雜關(guān)系進(jìn)行建模;對教育過程數(shù)據(jù)進(jìn)行實時分析與反饋;不依賴樣本容量與實驗設(shè)計等。
由第2節(jié)討論可知,當(dāng)知道各個變量節(jié)點的因果關(guān)系后,貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)即可確定。但是,如果關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)的先驗信息不可知,則需要用數(shù)據(jù)驅(qū)動的方式構(gòu)建網(wǎng)絡(luò)圖模型,即貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)。目前貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法可分為三類:基于約束的算法(constraint-based algorithm),基于評分的算法(score-based algorithm)以及兩者的混合算法?;诩s束的算法主要使用條件獨立性檢驗來識別變量之間的條件獨立關(guān)系,并構(gòu)造相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)圖(De Campos & Huete, 2000),其優(yōu)點是便于判斷變量間的因果關(guān)系,但是計算較為復(fù)雜。基于評分的算法使用評分函數(shù)衡量網(wǎng)絡(luò)模型與數(shù)據(jù)的擬合程度,將結(jié)構(gòu)學(xué)習(xí)視為一個結(jié)構(gòu)優(yōu)化問題,利用搜索策略來選擇評分最高的結(jié)構(gòu)。廣泛使用的評分指標(biāo)包括模型比較常用的AIC和BIC信息準(zhǔn)則分?jǐn)?shù)。評分搜索算法的優(yōu)點是給出了模型擬合數(shù)據(jù)的程度,但是當(dāng)變量節(jié)點較多時,無法遍歷所有可能的模型,容易陷入局部最優(yōu)。在確定結(jié)構(gòu)模型后,貝葉斯網(wǎng)絡(luò)分析的任務(wù)是計算條件概率表,即貝葉斯網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)。參數(shù)學(xué)習(xí)主要有極大似然估計和貝葉斯后驗估計兩種方法。這里推薦貝葉斯估計方法,與貝葉斯網(wǎng)絡(luò)的整體分析方法(即貝葉斯法)具有一致性,并且貝葉斯方法對于小樣本數(shù)據(jù)有較好的參數(shù)估計精度。
能夠?qū)崿F(xiàn)貝葉斯網(wǎng)絡(luò)數(shù)據(jù)分析的軟件非常之多(Scanagatta et al, 2019),這里僅介紹基于不同平臺的部分軟件,并對其算法、功能等進(jìn)行比較,詳見表2?;赗語言平臺的bnlearn (Scutari, 2009)是目前使用最廣泛的貝葉斯網(wǎng)絡(luò)軟件,其功能強大,適用各種數(shù)據(jù)類型和結(jié)構(gòu)學(xué)習(xí)算法,并能構(gòu)建動態(tài)貝葉斯網(wǎng)絡(luò)模型,進(jìn)行參數(shù)估計、模型比較和近似推理等。其他兩個R軟件包Deal和pcalg分別采用基于評分和基于約束的結(jié)構(gòu)學(xué)習(xí)算法,但是均不能構(gòu)建動態(tài)貝葉斯網(wǎng)絡(luò)模型。Banjo和Free-BN適合Java軟件使用者,BNFinder適合熟悉Python軟件的研究者,BNT適合熟悉Matlab軟件的研究者。
表2 貝葉斯網(wǎng)絡(luò)常用軟件
本節(jié)使用一個教育實證研究案例來展示如何構(gòu)建、分析和報告貝葉斯網(wǎng)絡(luò)。該實例關(guān)注青少年在合作學(xué)習(xí)過程中展現(xiàn)的尊重、幫助、關(guān)心、同情等親社會行為與同伴關(guān)系發(fā)生和發(fā)展的作用機制(陳森宇等, 2021)。研究收集了22名來自河北省某縣級中學(xué)的七年級學(xué)生的課堂合作學(xué)習(xí)行為視頻數(shù)據(jù),其中男生8名,女生14名。這些學(xué)生被分為3個小組(7+7+8=22)參與基于合作推理討論(Anderson et al, 1998)的合作學(xué)習(xí)模式,每個小組進(jìn)行8輪討論,其中第一次討論為正式討論前的“預(yù)演”,便于學(xué)生熟悉合作推理討論的規(guī)則和形式,之后的7輪討論作為觀察數(shù)據(jù)進(jìn)行同伴互助行為的編碼,共計21次討論,討論平均時長27.5分鐘。
學(xué)生的互助行為包含討論促進(jìn)行為、行為支持、認(rèn)知支持、情感支持等四個大類別。其中,討論促進(jìn)行為包括邀請他人發(fā)言,提醒討論規(guī)則,進(jìn)一步指導(dǎo)等小類;行為支持表示直接回應(yīng)組員的需求,提供相關(guān)學(xué)習(xí)資源等小類;認(rèn)知支持包括為組員提供解釋、建議、指導(dǎo),補充、評論、澄清對方觀點等小類;情感支持包括對組員給予安慰、鼓勵、關(guān)心,表達(dá)理解、尊重、親近等小類。研究在討論前與討論后測試了學(xué)生的同伴喜歡程度和同伴關(guān)系提名,前者需要學(xué)生指出是否喜歡和組內(nèi)某同學(xué)一起玩(0表示不認(rèn)識,1表示不喜歡,2表示喜歡),后者需要學(xué)生指出組內(nèi)哪些成員被認(rèn)為是他/她的好朋友(0表示不是,1表示是)。表3展示了在7輪討論中,四類互助行為出現(xiàn)的次數(shù)以及同伴喜歡程度和同伴關(guān)系提名次數(shù)。其中,討論促進(jìn)行為在初期較多,隨著討論的進(jìn)行,討論促進(jìn)行為逐漸減少。行為支持略有上升,而認(rèn)知支持和情感支持的變化不大。同伴關(guān)系提名次數(shù)明顯增加,同伴喜歡程度明顯上升。以上分析描述了學(xué)生互助行為與同伴關(guān)系變量的獨立變化。
表3 學(xué)生互助行為與同伴關(guān)系統(tǒng)計描述表
傳統(tǒng)回歸分析方法的分析思路是構(gòu)建因變量為同伴喜歡程度或同伴關(guān)系提名,自變量為討論促進(jìn)、行為支持、認(rèn)知支持、情感支持等的線性回歸模型,當(dāng)模型設(shè)定后,可在T2、T3等時刻隨著討論的進(jìn)行預(yù)測同伴喜歡程度或同伴關(guān)系提名的變化。但是,同伴喜歡程度或同伴關(guān)系提名在理論上是互助行為發(fā)生的內(nèi)在原因,學(xué)生更有可能幫助或支持和自己關(guān)系好的組內(nèi)同學(xué)。在交往和互助的過程中,具有相同或相近社會認(rèn)知能力的學(xué)生更有可能發(fā)展友誼關(guān)系。因此,以同伴喜歡程度或同伴關(guān)系提名為因變量的回歸分析是不合適的。此外,該研究涉及類別變量,類別變量的數(shù)據(jù)分析是對變量發(fā)生概率的解釋和預(yù)測。使用線性回歸或邏輯回歸模型需要對類別變量進(jìn)行虛擬化處理(dummy coding),其結(jié)果的解釋較為復(fù)雜。最后,本研究的初始樣本容量較小,傳統(tǒng)分析方法可能無法得到任何有用的結(jié)論,也不能隨著新數(shù)據(jù)的輸入而更新數(shù)據(jù)證據(jù)。
本研究利用貝葉斯網(wǎng)絡(luò)構(gòu)建互助行為與同伴喜歡程度和同伴關(guān)系提名的模型。為了演示簡便,模型只包含四個大類互助行為與同伴喜歡程度和同伴關(guān)系提名。在T1時刻,可獲得所有變量的觀測數(shù)據(jù),根據(jù)先驗理論構(gòu)建如圖6中T1時刻所示的貝葉斯網(wǎng)絡(luò)模型。圖6中的變量名下方展示了各變量的邊緣概率,例如T1時刻,同伴關(guān)系提名與否的概率分別為8%和92%,同伴喜歡程度高的概率為12%,低的概率為49%,不認(rèn)識的概率為39%等。當(dāng)理論模型不確定時,可計算各個備選模型的評分指標(biāo)(如AIC、BIC等)進(jìn)行模型比較,選擇最優(yōu)的先驗?zāi)P?。確定模型并帶入數(shù)據(jù)后,即可生成條件概率表,如表4所示。
在表4中,P(同伴關(guān)系提名)所在行顯示了同伴關(guān)系提名為0和1的概率。在圖6模型中,同伴關(guān)系為最上方的父節(jié)點(即最終的“因”),因此該概率為不依賴于其他變量的邊緣概率,與圖6中T1時刻同伴關(guān)系下方的概率相同。P(同伴喜愛程度)所在行展示了同伴喜歡程度為0、1、2的概率,該概率為依賴于同伴關(guān)系提名的條件概率。例如當(dāng)同伴關(guān)系提名為1時,同伴喜歡程度為2的條件概率為0.884。P(討論促進(jìn))等其余行給出了四個互助行為在同伴關(guān)系提名和同伴喜歡程度給定下的條件概率。例如同伴關(guān)系提名為0且同伴喜歡程度為1時,可得認(rèn)知支持為1的概率為0.544。此外,當(dāng)同伴關(guān)系提名為1且同伴喜歡程度為0時,互助行為的條件概率都為默認(rèn)概率0.5,這是因為該情況沒有任何觀測數(shù)據(jù),學(xué)生提名的好朋友不會是他或她不認(rèn)識的同學(xué)。
表4 T1時刻貝葉斯網(wǎng)絡(luò)模型條件概率表
T2到T6時刻僅能觀測學(xué)生的互助行為,但是可以利用貝葉斯網(wǎng)絡(luò)和條件概率表預(yù)測同伴喜歡程度與同伴關(guān)系提名。圖6中的T3和T5網(wǎng)絡(luò)圖為合作學(xué)習(xí)小組討論中選取的兩個時刻的預(yù)測模型,其中互助行為下方的概率為觀測值,同伴喜歡程度與同伴關(guān)系提名的概率為預(yù)測值。在T7時刻討論結(jié)束后,對學(xué)生的同伴喜歡程度與同伴關(guān)系提名再一次進(jìn)行測試,新的數(shù)據(jù)用于更新模型,更新后的模型如圖6中的T7網(wǎng)絡(luò)圖所示,條件概率表見表5。
表5 T7時刻貝葉斯網(wǎng)絡(luò)模型條件概率表
圖6 同伴關(guān)系與互助行為的貝葉斯網(wǎng)絡(luò)圖
當(dāng)研究者沒有任何先驗知識時,可使用完全數(shù)據(jù)驅(qū)動的結(jié)構(gòu)學(xué)習(xí)算法構(gòu)建貝葉斯網(wǎng)絡(luò)模型。圖7展示了同伴喜歡程度和同伴關(guān)系提名與11個學(xué)生具體互助行為在T1時刻的網(wǎng)絡(luò)關(guān)系,與所有變量都無關(guān)的互助行為已被刪除。需要注意的是,完全數(shù)據(jù)驅(qū)動的模型可能無法解釋或錯誤解釋變量間的關(guān)系,如圖7中的很多互助行為并不存在因果關(guān)系,如實物幫助與給予提醒、補充評論觀點與提醒討論規(guī)則等。當(dāng)新的數(shù)據(jù)不斷進(jìn)入模型后,變量的關(guān)系可能會被修正,條件概率表將會更新。多次數(shù)據(jù)迭代更新后的貝葉斯網(wǎng)絡(luò)模型能夠準(zhǔn)確推斷、預(yù)測變量的變化。
圖7 數(shù)據(jù)驅(qū)動的同伴關(guān)系與互助行為貝葉斯網(wǎng)絡(luò)圖
本文闡述了貝葉斯網(wǎng)絡(luò)法在教育實證研究范式、數(shù)據(jù)分析方法、模型應(yīng)用等方面的優(yōu)勢,討論了貝葉斯網(wǎng)絡(luò)模型的特征、算法與軟件,通過教育研究實例展示了貝葉斯網(wǎng)絡(luò)模型數(shù)據(jù)分析過程。貝葉斯網(wǎng)絡(luò)方法已廣泛應(yīng)用于眾多研究領(lǐng)域,但在教育實證研究中的應(yīng)用相對少見。可能的原因是教育大數(shù)據(jù)研究尚處于起步階段(孟志遠(yuǎn)等, 2017),作為大數(shù)據(jù)分析方法的貝葉斯網(wǎng)絡(luò)未被教育研究者所熟知。為此,本文呈現(xiàn)了貝葉斯網(wǎng)絡(luò)的基本方法與分析流程,旨在推廣貝葉斯網(wǎng)絡(luò)在教育實證研究中的應(yīng)用。