曹樹貴 李文 陳軍霞
摘要摘要:2006年以來,高考成績研究的學(xué)術(shù)關(guān)注度呈直線上升趨勢,探究該領(lǐng)域研究的主題分布,有助于對高考成績的深入研究及開發(fā)利用。以中國知網(wǎng)(CNKI)高考成績相關(guān)研究文獻為數(shù)據(jù)源,在對關(guān)鍵詞進行數(shù)據(jù)清洗的基礎(chǔ)上,構(gòu)建高頻詞共現(xiàn)矩陣,繼而對共現(xiàn)矩陣進行聚類分析,從而發(fā)現(xiàn)了高考成績相關(guān)研究的10個主題方向。
關(guān)鍵詞關(guān)鍵詞:高考成績;共詞分析;聚類分析
DOIDOI:10.11907/rjdk.171095
中圖分類號:TP319
文獻標(biāo)識碼:A文章編號文章編號:16727800(2017)005013503
0引言
利用中國知網(wǎng)(CNKI)對高考成績相關(guān)文獻進行指數(shù)分析,可以發(fā)現(xiàn)2006年以前,高考成績研究的學(xué)術(shù)關(guān)注度較低,且發(fā)展平穩(wěn),而2006年以后,高考成績研究的學(xué)術(shù)關(guān)注度呈現(xiàn)直線增長。探究該領(lǐng)域研究的主題分布,有助于對高考成績的深入廣泛研究及開發(fā)利用。
1研究理論與方法
本文以文獻關(guān)鍵詞為數(shù)據(jù)對象,采用聚類分析方法對高考成績相關(guān)研究文獻進行分析,從而發(fā)現(xiàn)該領(lǐng)域的研究主題及分布。這里的關(guān)鍵詞指文獻中作者指定的旨在反映文章主題內(nèi)容的詞。當(dāng)兩個關(guān)鍵詞在同一篇文獻中出現(xiàn)時,表明這兩個詞之間具有一定的內(nèi)在關(guān)系,并且出現(xiàn)次數(shù)越多,表明關(guān)系越密切、距離越近[1]。聚類分析是數(shù)據(jù)挖掘的典型方法,該方法根據(jù)數(shù)據(jù)對象的特征對研究個體進行劃分,同一類中的個體具有較大相似性,而不同類的個體之間存在不同程度的差異[2]。聚類分析可根據(jù)文獻關(guān)鍵詞的距離,將關(guān)鍵詞分成不同類團,從而有助于發(fā)現(xiàn)所研究領(lǐng)域的主題分布情況。
具體研究過程如下:①數(shù)據(jù)準(zhǔn)備:包括文獻題錄數(shù)據(jù)收集、文獻關(guān)鍵詞抽取、關(guān)鍵詞數(shù)據(jù)清洗、共現(xiàn)矩陣生成等環(huán)節(jié);②聚類分析:對關(guān)鍵詞共現(xiàn)矩陣采用SPSS聚類分析方法生成類團,對各類團進行解析,從而確定高考成績研究的主題。
2數(shù)據(jù)準(zhǔn)備
2.1數(shù)據(jù)收集
文章以中國知網(wǎng)(CNKI)為文獻數(shù)據(jù)源,以“TI=高考 and主題=(成績+數(shù)據(jù)+分數(shù))*(分析+統(tǒng)計+剖析+挖掘+評價+預(yù)測+實證+差異)”為檢索式,限定時間從2006~2015年,共獲得期刊文獻530篇,會議文獻25篇,博碩論文359篇。在此基礎(chǔ)上參照題名、關(guān)鍵詞、摘要進行人工篩選,共獲得380篇文獻的題錄信息作為研究的數(shù)據(jù)對象,其中期刊文獻293篇,會議文獻19篇,博碩論文69篇。
2.2數(shù)據(jù)清洗
將采集到的文獻題錄導(dǎo)入到國內(nèi)學(xué)者劉啟元[3]開發(fā)的文獻題錄信息統(tǒng)計分析軟件SATI3.2中,抽取到文獻關(guān)鍵詞994個,累計頻次1 640次。這些關(guān)鍵詞存在著過于寬泛、主題不相關(guān)、不規(guī)范、一意多詞等問題,因此利用3種方式對數(shù)據(jù)進行清洗。
(1) 舍棄。舍去過于寬泛的詞,如 “分析”;舍去與主題無關(guān)的詞,如“高潮期”。
(2) 合并。合并意義相同或相近的詞,如將“相關(guān)性分析”、“相關(guān)分析”合并為“相關(guān)分析”。
(3) 集中。將一些出現(xiàn)頻次較少但反映特定內(nèi)容的詞,集中起來用上位詞代替[4]。如將低頻詞“皮爾遜相關(guān)分析”、“偏相關(guān)分析”集中到高頻上位詞“相關(guān)分析”。
2.3高頻關(guān)鍵詞提取
高頻關(guān)鍵詞是出現(xiàn)頻率較高的關(guān)鍵詞,能很好地反映領(lǐng)域內(nèi)的關(guān)注點。數(shù)據(jù)清洗后,取頻次大于等于5的42個關(guān)鍵詞作為數(shù)據(jù)對象,表1列舉了部分高頻關(guān)鍵詞。
2.4共現(xiàn)矩陣建立
針對以上高頻關(guān)鍵詞建立高頻詞共現(xiàn)矩陣,矩陣數(shù)據(jù)為兩詞共現(xiàn)的頻次,對角線上數(shù)據(jù)為該詞出現(xiàn)總頻次,如表2所示。
為避免關(guān)鍵詞共現(xiàn)頻次受各自詞頻大小的影響,采用Equivalence等價系數(shù)將共現(xiàn)矩陣轉(zhuǎn)化為元素值在[0,1]區(qū)間的相關(guān)矩陣。在此基礎(chǔ)上,用1與相似矩陣中的各個數(shù)字相減,以減小因0值過多帶來的計算誤差,得到高頻詞相異矩陣,如表3所示。相異矩陣中元素越接近于1,所對應(yīng)的行列關(guān)鍵詞相似度越??;越接近于0,所對應(yīng)的行列關(guān)鍵詞相似度越大[2]。
Equivalence等價系數(shù)計算方式為[5]:
Eij=CijCi×CijCj(1)
其中,Eij為相似矩陣中第i個詞與第j個詞的等價系數(shù),即相似矩陣中對應(yīng)的元素值,Cij為共現(xiàn)矩陣中第i個詞與第j個詞的共現(xiàn)次數(shù),Ci、Cj分別為第i個詞與第j個詞的頻次。
3聚類分析
將相異矩陣導(dǎo)入SPSS20.0,進行層次聚類分析(采用組間連接法,Euclidean區(qū)間距離)得到聚類樹,根據(jù)聚類樹可以獲得10個分別代表不同研究主題的關(guān)鍵詞類團:T1,T2,……T9,T10(見圖1)。
現(xiàn)對各類團關(guān)鍵詞及其代表的研究主題進行詳細解析:
(1)T1類團關(guān)鍵詞包括:高考志愿、數(shù)據(jù)倉庫、OLAP、數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則、決策樹,代表數(shù)據(jù)挖掘相關(guān)技術(shù)在高考志愿分析中的應(yīng)用。數(shù)據(jù)倉庫與OLAP是商務(wù)智能領(lǐng)域的重要技術(shù)方法,采用數(shù)據(jù)倉庫及OLAP技術(shù)可以對大規(guī)模高考數(shù)據(jù)進行有效集成,并進行多維度分析;關(guān)聯(lián)規(guī)則挖掘、決策數(shù)挖掘是數(shù)據(jù)挖掘的常用技術(shù),可發(fā)現(xiàn)隱藏在高考成績、報考學(xué)校、專業(yè)、考生信息等多維度之間的規(guī)則,建立基于考生信息、成績信息、招生學(xué)校及專業(yè)信息的高招錄取預(yù)測模型,從而為志愿填報提供知識支撐。
(2)T2類團關(guān)鍵詞包括:高考英語、效度、信度,代表高考英語效度和信度研究。效度是衡量考試有效性和正確性的指標(biāo),信度是衡量考試可靠性、穩(wěn)定性和一致性程度的指標(biāo)[6]。在高考科目中,英語作為高考的重要考試科目,其效度及信度研究倍受關(guān)注。
(3)T3類團關(guān)鍵詞包括:高中生、自我效能,代表高中生自我效能對高考成績的影響研究。自我效能指人們對自己實現(xiàn)特定領(lǐng)域行為目標(biāo)所需能力的信心或信念[7]。在所考察的文獻中,高中生的自我效能對高考成績影響的研究文獻只有3篇,但已形成一個新的方向,受到一些學(xué)者的關(guān)注。
(4)T4類團關(guān)鍵詞包括:學(xué)業(yè)成績、差異分析、性別差異、城鄉(xiāng)差異、教育公平、高考改革,代表高考成績?nèi)后w差異研究。該主題關(guān)注的是高考成績中體現(xiàn)出不同群體學(xué)生的差異性,如性別差異、城鄉(xiāng)差異、區(qū)域差異、學(xué)校差異(如重點高中、普通高中)等,而群體差異的顯著性,引發(fā)了學(xué)者關(guān)于教育公平及高考改革的問題探討。
(5)T5類團關(guān)鍵詞包括:體育高考、影響因素、評分標(biāo)準(zhǔn),代表體育高考成績影響因素及評分標(biāo)準(zhǔn)研究。該主題主要探尋體育高考成績與項目內(nèi)容之間的關(guān)系及其它影響因素。另外,測試項目評分標(biāo)準(zhǔn)的制定及實施如何體現(xiàn)科學(xué)、合理、公平競爭的原則,也是研究方向之一。
(6)T6類團關(guān)鍵詞包括:模擬考試、預(yù)測、線性回歸、灰色系統(tǒng),代表報考預(yù)測研究,包括高考成績預(yù)測、分數(shù)線預(yù)測、命題分布預(yù)測、報到率預(yù)測等。線性回歸模型是經(jīng)典預(yù)測模型之一,在高考成績預(yù)測中得到了較多的應(yīng)用?;疑到y(tǒng)理論則更適用于部分信息已知、部分信息未知的預(yù)測系統(tǒng)。對于高考預(yù)測而言,影響因素很多,但可度量的因素不多,解決這樣的問題,灰色預(yù)測模型具有一定優(yōu)勢。
(7)T7類團關(guān)鍵詞包括:教育質(zhì)量評價、增值評價、教育測量理論、Rasch模型、貝葉斯網(wǎng)絡(luò),代表教育質(zhì)量評價研究。教育測量理論是教育質(zhì)量評價的理論體系,Rasch測量是具有客觀等距量尺的測量,可克服經(jīng)典測量的測驗工具依賴和樣本依賴的局限[8]。貝葉斯網(wǎng)絡(luò)是基于概率推理,并以圖論的形式來表達和描述數(shù)據(jù)實例中的關(guān)聯(lián)或因果關(guān)系的方法[9],可對教育質(zhì)量評價系統(tǒng)進行建模,從而對教育質(zhì)量各影響因素進行分析。
(8)T8類團關(guān)鍵詞包括:大學(xué)成績、大學(xué)英語、高等數(shù)學(xué)、相關(guān)分析、回歸分析、SPSS,代表高考成績與大學(xué)成績的相關(guān)性研究。該主題關(guān)注的是大學(xué)成績與高考成績的相關(guān)性,尤其是大學(xué)英語、高等數(shù)學(xué)等基礎(chǔ)課程與高考成績的相關(guān)性。建立高考成績與大學(xué)成績的回歸模型,可依據(jù)高考成績對大學(xué)成績作出預(yù)測,為高校招生或教學(xué)管理提供參考。SPSS在該類團出現(xiàn),說明了該軟件在相關(guān)分析及回歸分析中得到了普遍應(yīng)用。
(9)T9類團關(guān)鍵詞包括:大學(xué)生、高等學(xué)校、高考招生、錄取、生源質(zhì)量,代表高考招生生源質(zhì)量研究。高考招生分數(shù)在一定程度上代表了學(xué)校的生源質(zhì)量,對它的研究可以得出高校生源質(zhì)量的規(guī)律性認識[10]。因此,基于高考成績的生源質(zhì)量分析、評價、規(guī)律探索等研究文獻近年來呈現(xiàn)增長趨勢。
(10)T10類團關(guān)鍵詞包括:難度、區(qū)分度,代表高考試卷區(qū)分度與難度研究。對于高考而言,難度是非常敏感的問題,受到考試設(shè)計者、教育考試機構(gòu)、學(xué)校、考生、教研部門的普遍關(guān)注[11],因而是試題分析的重要功能指標(biāo)。區(qū)分度,又稱為鑒別力,指試題對不同水平考生的區(qū)分程度,同樣是選拔性考試的另一個重要指標(biāo)。
綜上所述,根據(jù)聚類分析所發(fā)現(xiàn)的高考成績研究主題如表4所示。
另外,從聚類分析所得到的研究主題中,也可以發(fā)現(xiàn)目前研究的一些不足,主要表現(xiàn)在:①數(shù)據(jù)挖掘技術(shù)研究主要集中在高考志愿分析上,而在其它方面的研究不足;②高考信度和效度研究,集中在高考英語科目上,而對其它科目的研究不足;③針對體育高考成績的研究較多,而對藝術(shù)類高考成績研究很少;④高考成績與大學(xué)成績相關(guān)性研究主要體現(xiàn)在高等數(shù)學(xué)與英語等基礎(chǔ)課程上,而高考成績與專業(yè)課成績的相關(guān)性研究則相對較弱。
4結(jié)語
文章采用聚類分析方法發(fā)現(xiàn)了10個高考成績研究主題,以及高考成績研究方向上的不足。需要說明的是,以下因素或?qū)Ρ疚慕Y(jié)論的嚴謹性產(chǎn)生一定影響:①檢索文獻所采用的檢索式不能找到所有符合要求的文獻;②在對關(guān)鍵詞的舍棄、合并、集中過程中帶有一定主觀性;③剔除低頻關(guān)鍵詞或共現(xiàn)強度弱的共詞對,將不利于探測潛在主題或處于上升期的主題[5] 。
盡管受到以上因素的影響,本文結(jié)論或存在一定誤差,但總體方向上是正確的。筆者將在此基礎(chǔ)上,繼續(xù)探析高考成績研究主題的核心邊緣分布,從而發(fā)現(xiàn)哪些是核心主題,哪些是邊緣性主題,哪些是熱點主題以及有潛力的主題等。
參考文獻參考文獻:
[1]朱慶華, 彭希羨, 劉璇. 基于共詞分析的社會計算領(lǐng)域的研究主題[J]. 情報理論與實踐, 2012,35(12):711, 6.
[2]王一博, 郭鑫, 王繼民. 國際大數(shù)據(jù)研究主題的可視化分析[J]. 數(shù)字圖書館論壇, 2014(7):5257.
[3]劉啟元, 葉鷹. 文獻題錄信息挖掘技術(shù)方法及其軟件SATI的實現(xiàn)——以中外圖書情報學(xué)為例[J]. 信息資源管理學(xué)報, 2012(1):5058.
[4]錢澄, 李剛. 國內(nèi)近十年檔案網(wǎng)站研究的核心問題與熱點分析——基于2000-2011年學(xué)術(shù)文獻共詞分析[J]. 檔案與建設(shè), 2012(5):1317.
[5]唐果媛, 張薇. 基于共詞分析法的學(xué)科主題演化研究進展與分析[J]. 圖書情報工作, 2015(5):128136.
[6]陳亞麗. 關(guān)于教育測量的要素分析[J]. 無錫商業(yè)職業(yè)技術(shù)學(xué)院學(xué)報, 2005(1):8384.
[7]田常琴. 高三學(xué)生自我效能、自我妨礙對高考成績的影響[D]. 重慶:西南大學(xué), 2011.
[8]王蕾. Rasch測量原理及在高考命題評價中的實證研究[J]. 中國考試:研究版, 2008(1):3239.
[9]謝斌, 劉長建. 基于貝葉斯網(wǎng)絡(luò)構(gòu)建的學(xué)生成績評價系統(tǒng)及影響分析[J]. 中國科教創(chuàng)新導(dǎo)刊, 2011(31):3435.
[10]羅良針, 張陽. 普通高校本科生源質(zhì)量規(guī)律研究——基于江西24所高校招生數(shù)據(jù)的實證分析[J]. 教育學(xué)術(shù)月刊, 2013(6):8689.
[11]趙海燕, 臧鐵軍. CTT框架下基于數(shù)據(jù)分析的高考試題質(zhì)量評價標(biāo)準(zhǔn)——對20042008年高考北京卷的實證研究[J]. 中國考試:研究版, 2009(8):316.
責(zé)任編輯(責(zé)任編輯:黃?。?