任福棟,孫菲,任福捷,郭悅,劉寧
基于相關性與關聯(lián)規(guī)則一致性的中考成績分析方法研究
任福棟1,孫菲2,任福捷3,郭悅1,劉寧1
(1. 齊齊哈爾市招生考試院,黑龍江 齊齊哈爾 161006;2. 齊齊哈爾高等師范專科學校 職業(yè)技術系,黑龍江 齊齊哈爾 161005;3. 訥河市拉哈一中,黑龍江 訥河 161300)
選取齊齊哈爾市2019年市區(qū)中考成績,在市級、區(qū)級、校級3個層面上進行學科間數(shù)據(jù)分析.計算關聯(lián)規(guī)則數(shù)據(jù)中的學科相關系數(shù),驗證關聯(lián)規(guī)則與學科相關系數(shù)是否具有一致性,進行中考成績評價分析,找出學科間存在的相互影響關系,為提高薄弱學科成績提供參考與借鑒.
相關系數(shù);關聯(lián)規(guī)則;中考成績;齊齊哈爾市
相關性分析是指對2個或多個具備相關性的變量元素進行分析,從而衡量2個變量因素的相關密切程度[1-5].相關性不等于因果性,也不是簡單的個性化,相關性所涵蓋的范圍和領域幾乎覆蓋了我們所見到的方方面面[6-10].在學科成績相關性分析中,計算學科間的相關系數(shù),可以檢驗學科間的相關性顯著程度[11],能夠驗證兩兩學科間的相互影響情況,反映學科間整體影響情況;關聯(lián)規(guī)則分析,可以檢驗各學科分段間是否存在關聯(lián)關系[12],并通過關聯(lián)前項得出所影響的關聯(lián)后項,關聯(lián)分析中的關聯(lián)前項與關聯(lián)后項反映出學科各分段的影響情況[13],即學科局部影響情況.因此,相關性分析與關聯(lián)規(guī)則二者都能夠反映學科間相互影響關系,將二者相結合,通過對選定關聯(lián)規(guī)則中的數(shù)據(jù)計算學科相關系數(shù),驗證學科間影響是否具有一致性,將能夠從整體和局部2個方面共同檢驗學科間的影響情況.
本文選取齊齊哈爾市2019年市區(qū)中考成績,在市級、區(qū)級、校級3個層面進行相關性與關聯(lián)規(guī)則成績數(shù)據(jù)分析,驗證關聯(lián)規(guī)則是否符合學科間的相互影響關系,以此確定學科間的影響規(guī)則,提出通過同步加強相關學科教學的方式改進薄弱學科成績的方法,為提高薄弱學科成績提供參考與借鑒.
利用皮爾遜積差相關系數(shù)法[14],能夠計算2個變量間的簡單相關系數(shù),相關系數(shù)數(shù)值的絕對值越大,說明2個變量相關程度越緊密;相關系數(shù)數(shù)值的絕對值越小,說明2個變量相關程度越不緊密[15].相關系數(shù)的正負符號代表2個變量的相關方向性,即相關系數(shù)為正數(shù)時,代表2個變量正相關,相關系數(shù)為負數(shù)時,代表2個變量負相關[16].皮爾遜積差相關系數(shù)計算公式為
通過計算中考各學科間簡單相關系數(shù),對學科間簡單相關系數(shù)進行分析,可以確定學科間的整體相關程度,利用相關影響關系進行學科教學調(diào)整,有利于強化薄弱學科成績的提高.
利用關聯(lián)規(guī)則Apriori算法[17],對學科成績數(shù)據(jù)進行高分段、中分段、低分段劃分,進行布爾型數(shù)據(jù)轉換[18],設置最低條件支持度與最小規(guī)則置信度后,進行學科成績數(shù)據(jù)分析,得出高于最低條件支持度和最小規(guī)則置信度的關聯(lián)規(guī)則項[19].對關聯(lián)規(guī)則項集進行關聯(lián)規(guī)則事項分析,獲取關聯(lián)規(guī)則前項推導出關聯(lián)規(guī)則后項的關聯(lián)規(guī)則,獲得各學科高分段、中分段、底分段的前置影響條件和后置影響結果,得到學科局部間的影響規(guī)則.為加強薄弱學科各分段學生教學提供科學依據(jù),有助于提高學科薄弱分段學生的成績[20].
將考查學科高分段、中分段、低分段間影響關系的關聯(lián)規(guī)則與考查學科整體間影響關系的相關性分析相結合,能夠更好地驗證學科間的影響關系[21].對中考各學科成績按照滿分值(語文、數(shù)學、英語滿分值為120分,物理、化學、思品、歷史滿分值為100分)的80%和60%3個分數(shù)點選取分界點,將各學科成績劃分為高分段、中分段和低分段3個分段,即滿分為120分的學科分界點為96分和72分,滿分為100分的學科分界點為80分和60分.利用關聯(lián)規(guī)則Apriori算法得出符合最低條件支持度與最小規(guī)則置信度的關聯(lián)規(guī)則,選取其中某個規(guī)則,確定關聯(lián)規(guī)則前項與關聯(lián)規(guī)則后項.在中考成績庫中將關聯(lián)規(guī)則前項和關聯(lián)規(guī)則后項的分段數(shù)據(jù)進行篩選,建立新的學科成績數(shù)據(jù)庫.利用相關性分析方法對數(shù)據(jù)庫中的學科成績數(shù)據(jù)進行分析,計算數(shù)據(jù)庫中學科間的簡單相關系數(shù),對學科間計算的簡單相關系數(shù)值進行分析,確定關聯(lián)規(guī)則分析結果與相關性分析結果是否具有一致性[22].對經(jīng)過相關系數(shù)驗證,具有一致性的關聯(lián)規(guī)則分析結果,確定其是可信的,能夠確定學科影響關系符合中考成績分析實際,這種關聯(lián)規(guī)則可為改進教學提供參考和借鑒;對經(jīng)過相關系數(shù)驗證,關聯(lián)規(guī)則與相關系數(shù)不具有一致性的關聯(lián)規(guī)則分析結果,其具有不可信性,不能將其作為改進教學的參考規(guī)則,將其舍去[23].
通過相關性分析驗證關聯(lián)規(guī)則的中考成績分析方法,避免了關聯(lián)規(guī)則偶發(fā)因素的影響,確保了經(jīng)過2種方法檢驗的關聯(lián)規(guī)則的可信度,保證了關聯(lián)規(guī)則分析結果的可用性[24].
本文利用2019年齊齊哈爾市中考市區(qū)7 901名(經(jīng)剔除特殊值數(shù)據(jù)考生后,共為7 819名)考生成績數(shù)據(jù)作為分析對象,利用SPSS公司SPSS Clementine 12.0數(shù)據(jù)挖掘軟件中的Apriori數(shù)據(jù)分析模型進行關聯(lián)規(guī)則分析.相關性分析利用Microsoft Visual FoxPro 6.0軟件借助式(1)自行編程進行.在具體對象分析上,選取2019年齊齊哈爾市市區(qū)中考數(shù)據(jù)中的某一區(qū)、某一初中學校為分析對象,為避免數(shù)據(jù)量小影響分析結果的情況,選取數(shù)據(jù)對象都為1 000人以上的區(qū)、初中學校.
對全部7 819名考生數(shù)據(jù)進行關聯(lián)規(guī)則分析和相關性分析,關聯(lián)規(guī)則分析結果見圖1,相關性分析結果見表1.
圖1 市區(qū)考生數(shù)據(jù)關聯(lián)規(guī)則分析
表1 市區(qū)中考各科相關系數(shù)
對選取的某區(qū)1 560名考生數(shù)據(jù)進行關聯(lián)規(guī)則分析和相關性分析,關聯(lián)規(guī)則分析結果見圖2,相關性分析結果見表2.
圖2 某區(qū)考生數(shù)據(jù)關聯(lián)規(guī)則分析
表2 某區(qū)中考各科相關系數(shù)
對選取的某初中學校1 026名考生數(shù)據(jù)進行關聯(lián)規(guī)則分析和相關性分析,關聯(lián)規(guī)則分析結果見圖3,相關性分析結果見表3.
圖3 某??忌鷶?shù)據(jù)關聯(lián)規(guī)則分析
表3 某校中考各科相關系數(shù)
對于圖1全部考生數(shù)據(jù)關聯(lián)規(guī)則分析結果,選取第3項關聯(lián)規(guī)則,即關聯(lián)前項數(shù)學c、化學c得出關聯(lián)后項物理c,該關聯(lián)規(guī)則的支持度為34.531%,置信度為97.593%.將該關聯(lián)規(guī)則前項與后項2 635名考生數(shù)據(jù)建立新的成績數(shù)據(jù)庫,進行相關性分析,分析結果見表4.
表4 市區(qū)數(shù)學c、物理c、化學c關聯(lián)規(guī)則下中考各科相關系數(shù)
對于圖2某區(qū)考生數(shù)據(jù)關聯(lián)規(guī)則分析結果,選取第8項關聯(lián)規(guī)則,即關聯(lián)規(guī)則前項語文b得出關聯(lián)后項思品a,該關聯(lián)規(guī)則的支持度為59.551%,置信度為94.08%.將該關聯(lián)規(guī)則前項與后項860名考生數(shù)據(jù)建立新的成績數(shù)據(jù)庫,進行相關性分析,結果見表5.
表5 某區(qū)語文b、思品a關聯(lián)規(guī)則下中考各科相關系數(shù)
對于圖3某初中學??忌鷶?shù)據(jù)關聯(lián)規(guī)則分析結果,選取第13項關聯(lián)規(guī)則,即關聯(lián)規(guī)則前項物理a得出關聯(lián)后項化學a,該關聯(lián)規(guī)則的支持度為46.979%,置信度為92.739%.將該關聯(lián)規(guī)則前項與后項447名考生數(shù)據(jù)建立新的成績數(shù)據(jù)庫,進行相關性分析,分析結果見表6.
表6 某校物理a、化學a關聯(lián)規(guī)則下中考各科相關系數(shù)
由表4可以看出,物理與數(shù)學的相關系數(shù)為0.692 5,物理與化學相關系數(shù)為0.712 6.在各學科間相關系數(shù)中,除去相關系數(shù)最高的語文與思品(相關系數(shù)為0.752 1)外,物理與化學的相關系數(shù)由高到低排在第2位,物理與數(shù)學的相關系數(shù)由高到低排在第3位.說明在該關聯(lián)規(guī)則中,關聯(lián)規(guī)則與相關系數(shù)是趨于一致的.
由表5可以看出,語文與思品的相關系數(shù)為0.520 1,在各學科間相關系數(shù)中,排在21個學科相關系數(shù)中的倒數(shù)第4位.說明在該關聯(lián)規(guī)則中,關聯(lián)規(guī)則與相關系數(shù)是不一致的.
由表6可以看出,物理與化學的相關系數(shù)為0.922 1,在各學科間相關系數(shù)表中,物理與化學的相關系數(shù)最高,在21個學科相關系數(shù)中排在第1位.說明在該關聯(lián)規(guī)則中,關聯(lián)規(guī)則與相關系數(shù)是趨于一致的.
關聯(lián)規(guī)則支持度為包含該關聯(lián)規(guī)則前項或后項的項集與全部非空項集的比值,在衡量高分段考生成績中,支持度數(shù)值越大,說明包含該關聯(lián)規(guī)則前項和后項的項集越多,高分段考生人數(shù)越多,也就越支持該關聯(lián)規(guī)則符合學科關聯(lián)情況,反映出的教學效果也就越好;在衡量低分段考生成績中,支持度數(shù)值越大,說明低分段考生人數(shù)越多,反映出的教學效果越差[25].在市區(qū)全部考生化學低分段得出物理低分段的第8項關聯(lián)規(guī)則中,支持度為42.205%,在某區(qū)考生化學低分段得出物理低分段的第9項關聯(lián)規(guī)則中,支持度為41.346%,比市區(qū)全部考生該關聯(lián)規(guī)則少0.859個百分點,說明在此關聯(lián)規(guī)則下該區(qū)情況比市區(qū)情況好,物理低分段和化學低分段考生人數(shù)少,物理和化學學科教學效果較好.由于在學校分析中,選取的學校為初中熱點校,學??忌煽兌驾^好,因此該校本身就不存在這種關聯(lián)規(guī)則.在歷史高分段得出思品高分段的關聯(lián)規(guī)則中,市區(qū)全部考生、某區(qū)考生、某??忌即嬖谶@種關聯(lián)規(guī)則.市區(qū)全部考生的關聯(lián)規(guī)則支持度為37.383%,某區(qū)考生的關聯(lián)規(guī)則支持度為37.949%,某??忌年P聯(lián)規(guī)則支持度為60.624%.這說明在該關聯(lián)規(guī)則下所選取區(qū)的教學效果情況比市區(qū)全部的教學效果情況稍好一些,而所選取學校的教學效果情況比市區(qū)全部的教學效果情況和選取區(qū)的教學效果情況好很多,因此該校歷史高分段學生和思品高分段學生教學效果非常理想.
通過對市區(qū)全部考生中考成績、某區(qū)考生中考成績、某??忌锌汲煽儯硞€層面考生中考成績數(shù)據(jù)關聯(lián)規(guī)則分析及關聯(lián)規(guī)則下的考生中考成績相關性分析,可以驗證關聯(lián)規(guī)則分析結果中的關聯(lián)規(guī)則.有些關聯(lián)規(guī)則的關聯(lián)規(guī)則前項與關聯(lián)規(guī)則后項中,關聯(lián)項所在學科間的相關系數(shù)在所有學科間相關系數(shù)中是高的,即關聯(lián)規(guī)則與關聯(lián)前后項學科間相關系數(shù)是趨于一致的,說明關聯(lián)規(guī)則符合成績數(shù)據(jù)一致性變化趨勢.
市區(qū)關聯(lián)分析中的數(shù)學低分段、化學低分段得出物理低分段的關聯(lián)規(guī)則,該規(guī)則的支持度達到34.531%,置信度達到97.593%.說明數(shù)學成績低并且化學成績低的學生,物理學科成績低的概率較大,數(shù)學低分段、化學低分段得出物理低分段規(guī)則項集占到所有非空項集的34.531%,即在低分段學生中數(shù)學成績與化學成績影響到物理成績.對該相關規(guī)則下的2 635名學生進行學科相關系數(shù)分析,得出物理與數(shù)學的學科間相關系數(shù)為0.692 5,物理與化學學科間相關系數(shù)為0.712 6,在21個學科間相關系數(shù)中,除語文與思品學科間的相關系數(shù)最高外,物理與化學、物理與數(shù)學的學科間相關系數(shù)排在前2位.說明物理與數(shù)學、化學學科間相關關系非常顯著,物理與數(shù)學、化學學科影響較為密切,也印證了關聯(lián)規(guī)則中低分段學生物理成績受到數(shù)學成績和化學成績的影響.這為改進學科教學提供了依據(jù),要提高物理學科低分段學生的物理成績,要同步對這部分學生數(shù)學成績和化學成績進行教學提高,受學科間相互影響的作用,通過數(shù)學、化學、物理3科同步進行加強教學,物理學科成績提高的效果將更加顯著;反之,在加強數(shù)學學科成績偏低和化學學科成績偏低的學生教學過程中,也可以帶動學生物理學科成績的提高.
某??忌P聯(lián)分析中的關聯(lián)前項物理高分段得出關聯(lián)后項化學高分段的關聯(lián)規(guī)則,該關聯(lián)規(guī)則的支持度達到46.979%,置信度達到92.739%.說明物理學科成績高的考生化學學科成績高的概率較大,物理高分段得出化學高分段規(guī)則項集占到所有非空項集的46.979%,即在高分段考生中物理成績影響到化學成績.對該關聯(lián)規(guī)則下的447名考生進行學科間相關系數(shù)分析,得出物理與化學學科間相關系數(shù)為0.922 1,在21個學科間相關系數(shù)中物理與化學的學科間相關系數(shù)最高,排在第1位.說明物理與化學學科間相關關系非常顯著,學科間影響較為緊密,也充分印證了關聯(lián)規(guī)則分析得出的物理高分段影響化學高分段的關聯(lián)規(guī)則.這為高分段考生提高化學學科成績提供了依據(jù),要提高高分段考生化學成績,應同步對這部分學生加強物理學科教學;反之,在加強高分段考生物理教學的同時,也能夠帶動考生化學成績的提高.
在關聯(lián)規(guī)則分析結果中,有些關聯(lián)規(guī)則的關聯(lián)規(guī)則前項與關聯(lián)規(guī)則后項中,關聯(lián)規(guī)則前后項學科間相關系數(shù)在所有學科間相關系數(shù)中不突出,是低的或靠后的,即關聯(lián)規(guī)則與關聯(lián)前后項學科間相關系數(shù)是不一致的.說明這種關聯(lián)規(guī)則不符合成績數(shù)據(jù)相關關系變化趨勢,其關聯(lián)規(guī)則對表現(xiàn)學科間關聯(lián)性不可信,這種關聯(lián)規(guī)則所反映的情況不能應用于學科教學中,應該在分析結果中舍去,避免錯誤地影響學科教學的調(diào)整.如對某區(qū)數(shù)據(jù)分析得出,關聯(lián)分析中的關聯(lián)前項語文中分段得出關聯(lián)后項思品高分段的關聯(lián)規(guī)則,該規(guī)則的支持度達到59.551%,置信度達到94.08%,應該是較強的關聯(lián)規(guī)則.將該關聯(lián)規(guī)則中的860名考生學科成績進行相關性分析得出,語文與思品學科間的相關系數(shù)僅為0.520 1,在21個學科間相關系數(shù)中排倒數(shù)第4位.說明在這860名考生成績中,語文學科與思品學科相關性不顯著,即語文中分段關聯(lián)前項得出思品高分段關聯(lián)后項的關聯(lián)規(guī)則與相關性分析結論不一致,此關聯(lián)規(guī)則存在關聯(lián)規(guī)則假象問題,不能將其作為改進教學的依據(jù)應用到教學中.
通過對中考考生成績進行相關性與關聯(lián)規(guī)則一致性檢驗,可以利用相關系數(shù)表現(xiàn)學科間變化情況的功能驗證關聯(lián)規(guī)則可信性,確定符合成績數(shù)據(jù)實際情況的關聯(lián)規(guī)則,并將可信的關聯(lián)規(guī)則應用于教學過程中.針對關聯(lián)規(guī)則具體情況同步制定提高學科教學質(zhì)量的措施,從而改進學科教學,提高學科成績.規(guī)避了關聯(lián)規(guī)則假象的問題,避免由于過度信任關聯(lián)規(guī)則而制定錯誤的改進教學措施的情況發(fā)生.這種利用相關系數(shù)驗證關聯(lián)規(guī)則的方法,在實際應用中需要利用程序編制分析軟件,實現(xiàn)理論研究轉化為應用成果,運用于實際成績數(shù)據(jù)分析工作中.
[1] 賁維維.高一函數(shù)學習與中考數(shù)學成績相關性分析及教學提升探索[D].南京:南京師范大學,2018
[2] 宣筱瀟,李琪.相關關系分析法在多學期數(shù)學成績相關性中的應用[J].科教導刊(下旬),2019(1):23-24
[3] 王孝玲.教育統(tǒng)計學[M].4版.上海:華東師范大學出版社,2008:197-203
[4] 薛薇.統(tǒng)計分析與SPSS的應用[M].5版.北京:中國人民大學出版社,2017:185-194
[5] 吳飛青,吳成玉,方偉,等.基于數(shù)據(jù)挖掘的成績相關性實證分析[J].電氣電子教學學報,2019,41(4):1-3,13
[6] 張翼.解析圖書情報分析中相關性分析原理的有效應用[J].科技資訊,2019,17(22):255-256
[7] 葉永明,魏奇龍,羅麗芳.胎兒顏面畸形超聲檢測的應用價值及其與染色體異常的相關性分析[J].中國優(yōu)生與遺傳雜志,2019,27(7):864-866
[8] 劉祥潔.水質(zhì)自動監(jiān)測參數(shù)的相關性分析及在水環(huán)境監(jiān)測中的應用[J].節(jié)能,2019,38(7):78-79
[9] 王小蘭,陳甲瑞,邢震,等.藏東南高山松胸徑與冠徑的相關性分析及應用研究[J].林業(yè)資源管理,2019(1):63-69
[10] 袁立霞,羅曉,張文麗,等.制藥廢水廠微生物群落和多種抗性基因相關性分析[J].河北科技大學學報,2019,40(2):175-181
[11] 陳小杭.高考數(shù)學成績與大學數(shù)學專業(yè)課學習能力相關性分析[J].長春教育學院學報,2019,35(2):8-10
[12] 曾興.基于關聯(lián)規(guī)則挖掘的學生成績分析研究[D].??冢汉D洗髮W,2018
[13] 王成勇.基于關聯(lián)規(guī)則Apriori算法的學生成績分析[J].價值工程,2018,37(5):171-173
[14] 任福棟,任福捷,孫美琪,等.高考成績相關性分析研究與應用[J].齊齊哈爾師范高等??茖W校學報,2019(4):9-11
[15] 劉世歡.基于教育數(shù)據(jù)的相關性分析研究[D].杭州:浙江工商大學,2018
[16] 周燚,嚴鳳強,沈忠.貴州省高師體育專業(yè)學生專業(yè)學習與高考成績的相關性分析[J].體育科技,2018,39(1):106-108
[17] 苗維誠,朱文婕.基于關聯(lián)規(guī)則Apriori算法的物理實驗成績分析研究[J].赤峰學院學報:自然科學版,2019,35(1):14-16
[18] 吳小東,曾玉珠.基于Apriori算法的高校學生成績數(shù)據(jù)挖掘[J].廊坊師范學院學報:自然科學版,2019,19(1):31-36
[19] 都娟.基于改進Apriori算法的成績預警系統(tǒng)的研究[J].西安鐵路職業(yè)技術學院學報,2019(4):33-38
[20] 馬天昊,夏靜,楊婧雅,等.基于Apriori算法的學生成績關聯(lián)規(guī)則挖掘[J].現(xiàn)代職業(yè)教育,2019(27):92-94
[21] 王詠梅.Apriori算法在學生成績分析中的應用[J].數(shù)字通信世界,2018(12):177,181
[22] 楊寧.基于相關性分析的關聯(lián)規(guī)則挖掘及其應用[D].蘭州:蘭州大學,2019
[23] 邢晶晶.數(shù)據(jù)挖掘技術在成績分析及課程設置中的應用研究[D].蘭州:蘭州交通大學,2018
[24] 陳喜華,黃海寧,黃沛杰.基于Apriori算法的學生成績分析在課程關聯(lián)性的應用研究[J].北京城市學院學報,2018(4):60-65,84
[25] 郭鵬,蔡騁.基于聚類和關聯(lián)算法的學生成績挖掘與分析[J].計算機工程與應用,2019,55(17):169-179
Research on the analysis method of high school entrance examination scores from the perspective of relevance and consistency of association rules
REN Fudong1,SUN Fei2,REN Fujie3,GUO Yue1,LIU Ning1
(1.Qiqihar Enrollment Examination Authority,Qiqihar 161006,China;2. Department of Vocational Technology,Qiqihar Teachers College,Qiqihar 161005,China;3. Laha No.1 Middle School of Nehe City,Nehe 161300,China)
The scores of high school entrance examination of 2019 in urban areas of Qiqihar City are selected to carry out interdisciplinary data analysis at the three levels of city,district and school.The correlation coefficient of the discipline in the association rule data is calculated to verify whether the correlation rule is consistent with the correlation coefficient of the discipline for the evaluation analysis of high school entrance examination scores,with the purpose to find out the mutual influence relationship between disciplines and provide reference for improving the performance of weak discipline.
coefficient of correlation;association rule;high school entrance examination score;Qiqihar City
O29∶G633.6
A
10.3969/j.issn.1007-9831.2020.04.005
1007-9831(2020)04-0020-06
2019-12-04
黑龍江省教育學會科學研究規(guī)劃“年度關注課題”(XHNY2018-105)——中考成績相關性分析方法研究與實踐
任福棟(1976-),男,黑龍江齊齊哈爾人,助理研究員,碩士,從事招生考試數(shù)據(jù)分析研究.E-mail:rfd_sf@163.com