国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源數(shù)據(jù)融合視角下的大學(xué)生“消費(fèi)-學(xué)業(yè)-社交”畫像構(gòu)建研究

2022-09-20 13:46:02黃泰華
關(guān)鍵詞:畫像學(xué)業(yè)聚類

黃泰華,張 濤*,王 磊

(1.黑龍江大學(xué)信息管理學(xué)院,哈爾濱 150080;2.黑龍江大學(xué)數(shù)據(jù)科學(xué)與技術(shù)學(xué)院,哈爾濱 150080)

1 引言

隨著中國(guó)信息技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)正逐步應(yīng)用于社會(huì)的各行各業(yè),改善人們的學(xué)習(xí)、工作和生活,在此背景下,中國(guó)高校面臨的內(nèi)部結(jié)構(gòu)和外部環(huán)境正在發(fā)生前所未有的深刻變化,學(xué)生管理工作中存在許多新情況、新問(wèn)題、新挑戰(zhàn)[1]。高校如何借助技術(shù)優(yōu)勢(shì)實(shí)現(xiàn)教育管理的多層面影響,已成為新時(shí)期高校教育管理研究實(shí)踐的重要課題[2]。高校智慧校園的內(nèi)生需求之一即是基于大數(shù)據(jù)分析實(shí)現(xiàn)校情研判并指引決策制定,與需求相悖的是高校內(nèi)部的學(xué)生數(shù)據(jù)通常是海量的、異構(gòu)的、復(fù)雜的,甚至是不完善的,多源數(shù)據(jù)融合為實(shí)現(xiàn)校園信息化治理提供了新的研究思路。此外,用戶畫像作為一種信息化的用戶描述工具,在用戶描述與建模上具有優(yōu)勢(shì)[3]。因此,將傳統(tǒng)的高校管理經(jīng)驗(yàn)與新時(shí)代的信息化手段相結(jié)合,建構(gòu)高效能、信息化的教育管理體系,已成為新時(shí)期提升教育教學(xué)能效的關(guān)鍵基礎(chǔ),也為高校教育教學(xué)改革指明了方向。

2 相關(guān)研究

2.1 用戶畫像技術(shù)的相關(guān)研究

用戶畫像的概念最早由A.Cooper 提出,意為 “真實(shí)用戶的虛擬代表”,側(cè)重于探索用戶的動(dòng)機(jī),是基于一系列真實(shí)數(shù)據(jù)的目標(biāo)用戶模型。為了更好地對(duì)學(xué)生數(shù)據(jù)進(jìn)行深度挖掘,可以應(yīng)用用戶畫像的研究方法,構(gòu)建面向大學(xué)生的學(xué)生畫像。在國(guó)外研究中,有部分學(xué)者將用戶畫像應(yīng)用于圖書館管理工作中,識(shí)別圖書館用戶的獨(dú)特性質(zhì),進(jìn)一步開發(fā)和改進(jìn)當(dāng)前服務(wù)并創(chuàng)建新服務(wù)以滿足用戶的需求[4]。有學(xué)者構(gòu)建了基于數(shù)字畫像的綜合素質(zhì)評(píng)價(jià)模型[5]。有學(xué)者提出了可視化的學(xué)習(xí)分析技術(shù),構(gòu)建了研究性學(xué)習(xí)學(xué)生畫像[6]。有學(xué)者通過(guò)提出 “精英模型”,對(duì)現(xiàn)有的學(xué)生畫像完善拓展[7]。在上述研究中,數(shù)據(jù)挖掘的角度和手段在不斷地創(chuàng)新。既有面向教學(xué)方面,實(shí)現(xiàn)學(xué)業(yè)預(yù)警;也有應(yīng)用于消費(fèi)方面,通過(guò)分析消費(fèi)行為識(shí)別特征群體,實(shí)現(xiàn)貧困資助工作的有效開展;也有應(yīng)用于心理評(píng)估方面,實(shí)現(xiàn)重點(diǎn)學(xué)生識(shí)別和關(guān)懷。

用戶畫像的構(gòu)建方法主要包括基于用戶行為、基于用戶興趣偏好、基于主題、基于人格特征與情緒4種方法,其應(yīng)用領(lǐng)域大致涉及電子商務(wù)、健康醫(yī)療、旅游業(yè)、圖書館等領(lǐng)域。在教育領(lǐng)域的用戶畫像研究中,主要集中在基礎(chǔ)教育研究,中國(guó)有關(guān)高等教育的用戶畫像研究尚處于起步階段。根據(jù)現(xiàn)有文獻(xiàn)來(lái)看,用戶畫像在高校管理中的應(yīng)用研究主要包括教育教學(xué)管理、學(xué)生工作管理和圖書館管理3 個(gè)方面。通過(guò)對(duì)國(guó)內(nèi)外有關(guān)高校學(xué)生畫像研究的內(nèi)容梳理發(fā)現(xiàn):①用戶畫像是一個(gè)新興的研究領(lǐng)域,具備堅(jiān)實(shí)的理論基礎(chǔ)、成熟的研究方法和廣泛的應(yīng)用場(chǎng)景,但國(guó)內(nèi)有關(guān)教育領(lǐng)域的相關(guān)研究較少,存在一定的研究空白;②在高校管理中用戶畫像研究中,多集中于圖情管理領(lǐng)域,針對(duì)學(xué)生畫像的研究多停留于數(shù)據(jù)分析層面,深層次的學(xué)生畫像的構(gòu)建及應(yīng)用研究較少。

2.2 大學(xué)生行為分析的相關(guān)研究

大學(xué)生基礎(chǔ)素質(zhì)和知識(shí)水平較高,思想活躍,因此,從學(xué)生行為視角入手,在智慧育人的理念下,將高校學(xué)生的數(shù)據(jù)信息作為研究對(duì)象,探索大學(xué)生精準(zhǔn)服務(wù)的新模式[8],往往是專家學(xué)者開展高校教育教學(xué)體制研究的起點(diǎn)。國(guó)外研究中也常常利用學(xué)生行為數(shù)據(jù)以分析個(gè)人和學(xué)校層面的社會(huì)經(jīng)濟(jì)因素[9]。高校中數(shù)據(jù)中心的數(shù)據(jù)具有來(lái)源豐富、數(shù)據(jù)形式多樣的特征,可開展如下研究:①在關(guān)于顯性數(shù)據(jù)的研究中,消費(fèi)數(shù)據(jù)、學(xué)業(yè)數(shù)據(jù)等一系列具有明顯特征的數(shù)據(jù)可以更好地被觀察,或利用統(tǒng)計(jì)學(xué)方法,將兩種或多種看似不相關(guān)的變量聯(lián)結(jié)起來(lái),發(fā)現(xiàn)其蘊(yùn)含的深層相關(guān)性。②在關(guān)于隱性數(shù)據(jù)的研究中,如學(xué)生的社交行為往往不能被直接觀察,也不能通過(guò)簡(jiǎn)單的推理直接得到,這就需要利用如機(jī)器學(xué)習(xí)等數(shù)據(jù)分析手段實(shí)現(xiàn)。在國(guó)外的研究中常常引入隱性數(shù)據(jù)或隱性知識(shí)的概念,以解決企業(yè)運(yùn)營(yíng)和組織創(chuàng)新等問(wèn)題[10]。有學(xué)者以中國(guó)大學(xué)生為研究對(duì)象,對(duì)其社交數(shù)據(jù)挖掘進(jìn)行情感分析,深入觀察學(xué)生的情感演化過(guò)程[11]。③在多源數(shù)據(jù)的研究中,顯性數(shù)據(jù)和隱性數(shù)據(jù)可以綜合起來(lái),舒江波等就從學(xué)生學(xué)籍信息、學(xué)習(xí)表現(xiàn)、校園生活3 個(gè)維度進(jìn)行綜合分析,構(gòu)建學(xué)生大數(shù)據(jù)行為分析模型[12]。

2.3 不同應(yīng)用場(chǎng)景的相關(guān)研究

當(dāng)前的高校數(shù)據(jù)挖掘研究,受現(xiàn)實(shí)條件限制,開展特定場(chǎng)景中特定用戶研究是可行的。國(guó)外的研究中也有利用混合數(shù)據(jù)對(duì)學(xué)生畢業(yè)情況進(jìn)行專門統(tǒng)計(jì),提出一種確定大學(xué)畢業(yè)狀態(tài)驅(qū)動(dòng)因素的公正方法。在國(guó)內(nèi)研究中,由于教育體制不同,應(yīng)用場(chǎng)景也有所不同:①在消費(fèi)行為識(shí)別研究中,通過(guò)分析校園一卡通的消費(fèi)數(shù)據(jù),研究學(xué)生的消費(fèi)行為,可以識(shí)別不同消費(fèi)行為的群體[13]。②在貧困資助評(píng)估研究中,有學(xué)者在現(xiàn)有消費(fèi)數(shù)據(jù)的基礎(chǔ)上,對(duì)學(xué)生的發(fā)展?fàn)顩r進(jìn)行調(diào)查,建立了一種貧困生資助評(píng)估模型,為識(shí)別和幫扶高校貧困生提供了新方法[14];也有學(xué)者關(guān)注消費(fèi)數(shù)據(jù)和學(xué)生個(gè)體的內(nèi)在關(guān)聯(lián),提出一種用于消費(fèi)強(qiáng)度指標(biāo),在學(xué)生家庭經(jīng)濟(jì)狀況評(píng)估上進(jìn)行了更為精準(zhǔn)的預(yù)測(cè)[15]。③在心理健康評(píng)價(jià)研究中,由于心理相關(guān)的學(xué)生數(shù)據(jù)屬于隱性數(shù)據(jù),不能通過(guò)單一數(shù)據(jù)直接觀察學(xué)生的心理狀況。因此,學(xué)者大多采用多數(shù)據(jù)融合的方式,利用深度學(xué)習(xí)算法,構(gòu)建大學(xué)生心理健康評(píng)估模型,實(shí)現(xiàn)自動(dòng)準(zhǔn)確評(píng)估大學(xué)生心理健康狀態(tài)[16]。④在學(xué)生學(xué)業(yè)幫扶研究中,一方面,通過(guò)采集學(xué)習(xí)、生活過(guò)程中產(chǎn)生的校園行為數(shù)據(jù),利用大數(shù)據(jù)的手段,可以構(gòu)建面向?qū)W生的大數(shù)據(jù)分析模型,預(yù)測(cè)學(xué)生在校期間的學(xué)業(yè)表現(xiàn)[17];另一方面,數(shù)據(jù)驅(qū)動(dòng)的精準(zhǔn)化學(xué)習(xí)評(píng)價(jià)可以發(fā)現(xiàn)教育教學(xué)中存在的問(wèn)題,輔助課堂教學(xué)開展[18]。

這些研究既有基于顯性數(shù)據(jù)、隱性數(shù)據(jù)的挖掘,也有基于多源數(shù)據(jù)融合的挖掘,但數(shù)據(jù)挖掘的深度仍然不夠,缺乏對(duì)多源數(shù)據(jù)的深層挖掘。覆蓋了多種應(yīng)用場(chǎng)景,但仍然缺乏面向多場(chǎng)景的研究方法,雖然用戶畫像的提出可以解決場(chǎng)景單一的問(wèn)題,但目前對(duì)學(xué)生畫像的刻畫上仍停留于框架的搭建,實(shí)踐層面的學(xué)生畫像研究成果較少,仍有一定的研究空白。因此,本文以大學(xué)生行為研究為出發(fā)點(diǎn),獲取真實(shí)的大學(xué)生的校園數(shù)據(jù),通過(guò)將多源數(shù)據(jù)進(jìn)行融合,構(gòu)建多源、多維、多場(chǎng)景的綜合評(píng)價(jià)體系。以消費(fèi)、學(xué)業(yè)、社交3個(gè)維度構(gòu)建動(dòng)態(tài)和靜態(tài)的個(gè)體畫像。以消費(fèi)維度研究為主,建立學(xué)生的消費(fèi)活躍度和穩(wěn)定性畫像。其中,融合的優(yōu)勢(shì)在于數(shù)據(jù)、場(chǎng)景、深度的多元融合,最終刻畫真實(shí)的、智能的、多層次的學(xué)生畫像?;诟咝W(xué)生畫像,可以實(shí)現(xiàn)精準(zhǔn)的群體圈選和個(gè)體識(shí)別,為高校貧困助學(xué)、學(xué)業(yè)幫扶和心理干預(yù)等工作提供參考,從而為高校管理提供理性決策依據(jù)。

3 高校學(xué)生畫像的特征分析

3.1 學(xué)生特征分析

大學(xué)生既是具有獨(dú)立意義的個(gè)體,也是具有社會(huì)意識(shí)的群體。在諸如高校此類小型社會(huì)系統(tǒng)中[19],學(xué)生在校園學(xué)習(xí)、生活的同時(shí),會(huì)建立以自我為核心的社交網(wǎng)絡(luò),在范圍上,既有以寢室、專業(yè)、班級(jí)為單位的自然社交網(wǎng)絡(luò),也有跨年級(jí)、跨學(xué)院、跨角色的主觀社交網(wǎng)絡(luò)。在學(xué)生進(jìn)行社交活動(dòng)的過(guò)程中,根據(jù)不同粒度的用戶行為特征可以劃分出很多不同種類的用戶角色,學(xué)生既可以是 “有影響力者” “專家” 或“討論者”,也可以是 “支持者” “中立者” 或 “反對(duì)者”。但是,學(xué)生無(wú)論扮演何種角色,都會(huì)在其社交網(wǎng)絡(luò)中發(fā)揮影響。由此可見,學(xué)生的校內(nèi)行為數(shù)據(jù)具備個(gè)體和群體的雙重?cái)?shù)據(jù)特征,反映真實(shí)的個(gè)人特征和社交關(guān)系,在研究中,既要重視學(xué)生的個(gè)體性,又不能忽視學(xué)生的群體特點(diǎn)。

3.2 學(xué)生畫像的屬性特征

從宏觀角度來(lái)看,學(xué)生畫像的屬性特征兼具靜態(tài)性和動(dòng)態(tài)性。從行為層面來(lái)看,可以把學(xué)生的在校行為劃分為學(xué)習(xí)行為、消費(fèi)行為和社交行為3 類。

(1)學(xué)業(yè)行為指標(biāo)。學(xué)業(yè)行為指標(biāo)主要包括學(xué)業(yè)成績(jī)優(yōu)秀度、學(xué)業(yè)努力程度等。在教育領(lǐng)域,對(duì)于學(xué)生的學(xué)習(xí)評(píng)價(jià)方式有很多,目前各高校普遍根據(jù)學(xué)生的培養(yǎng)方案課程,以學(xué)分作為權(quán)重計(jì)算學(xué)生學(xué)分績(jī)點(diǎn),部分學(xué)者提出以專業(yè)排名作為評(píng)價(jià)學(xué)業(yè)優(yōu)秀度的評(píng)價(jià)標(biāo)準(zhǔn)[20]。在評(píng)價(jià)學(xué)習(xí)行為的過(guò)程中,要根據(jù)學(xué)生學(xué)制、學(xué)年、專業(yè)的不同分類評(píng)價(jià),并結(jié)合如獎(jiǎng)學(xué)金、競(jìng)賽等學(xué)科競(jìng)賽信息和圖書館出入信息,研究學(xué)生的學(xué)習(xí)努力程度,構(gòu)建客觀、合理、簡(jiǎn)潔的學(xué)業(yè)評(píng)價(jià)指標(biāo)。

(2)消費(fèi)行為指標(biāo)。消費(fèi)行為指標(biāo)主要包括消費(fèi)穩(wěn)定性、消費(fèi)活躍度、消費(fèi)水平等。高校為在校師生提供了基礎(chǔ)的生活需求保障,因此,通過(guò)研究校園內(nèi)學(xué)生的消費(fèi)行為,包括學(xué)生的消費(fèi)時(shí)間、金額、地點(diǎn)信息,進(jìn)一步可以形成消費(fèi)時(shí)間穩(wěn)定性和消費(fèi)地點(diǎn)偏好等指標(biāo),并在一定程度反映了學(xué)生參與校內(nèi)活動(dòng),融入校園生活的實(shí)際情況。

(3)社交行為指標(biāo)。社交行為指標(biāo)主要包括社交活躍度和社交距離度,受研究規(guī)模影響,高校屬于小型的社會(huì)系統(tǒng),在高校范圍內(nèi)開展社交距離度的研究意義不大。因此,可以將社交活躍度近似看作社交行為指標(biāo)。通過(guò)追蹤學(xué)生的消費(fèi)數(shù)據(jù),建立消費(fèi) “時(shí)間-地點(diǎn)” 共現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)異常離群值,甄別學(xué)生群體中的“離群者”,實(shí)現(xiàn)社交行為指標(biāo)的確定。

3.3 學(xué)生畫像的數(shù)據(jù)特征

基于學(xué)生群體特征及畫像的屬性特征所構(gòu)建的學(xué)生畫像的數(shù)據(jù)特征具備客觀性、全面性、融合性和動(dòng)態(tài)性[21]。其中,客觀性是指學(xué)生畫像基于一系列真實(shí)數(shù)據(jù)構(gòu)建,符合個(gè)體和群體層面的實(shí)際狀況,反映真實(shí)科學(xué)的屬性特征,數(shù)據(jù)來(lái)源客觀、處理手段客觀、研究目的客觀、呈現(xiàn)方式客觀;全面性是指學(xué)生畫像構(gòu)建涉及學(xué)生行為的全方面,也反映了學(xué)生特征的全方面,具體體現(xiàn)在研究角度和業(yè)務(wù)場(chǎng)景的全覆蓋;融合性是指各職能部門的異構(gòu)數(shù)據(jù)相互融合,實(shí)現(xiàn)數(shù)據(jù)融合時(shí)要求完整融合、按屬性融合、按業(yè)務(wù)場(chǎng)景融合;動(dòng)態(tài)性是指用戶畫像具有動(dòng)態(tài)變化的特征,個(gè)體在不同時(shí)期所表現(xiàn)的特征不同,導(dǎo)致刻畫的用戶畫像也有所差異,因此學(xué)生畫像也是一個(gè)實(shí)時(shí)變化的動(dòng)態(tài)模型。

3.4 總體框架設(shè)計(jì)

高校學(xué)生用戶畫像的數(shù)據(jù)來(lái)源為教務(wù)管理部門、學(xué)生管理部門、一卡通中心、圖書館等職能部門,整個(gè)研究大致分為3 個(gè)層級(jí):數(shù)據(jù)層、挖掘?qū)雍捅碚鲗?,如圖1 所示。①數(shù)據(jù)層。包括基本信息數(shù)據(jù)、教務(wù)成績(jī)數(shù)據(jù)、獎(jiǎng)助學(xué)金數(shù)據(jù)、圖書館門禁記錄和校園消費(fèi)數(shù)據(jù)。獲取多源異構(gòu)數(shù)據(jù)后,進(jìn)行清洗、集成、轉(zhuǎn)換和規(guī)約,完成數(shù)據(jù)融合。②挖掘?qū)?。主要是?duì)預(yù)處理后的數(shù)據(jù)進(jìn)行指標(biāo)分析、聚類分析、相關(guān)性分析和共現(xiàn)分析,然后建立關(guān)于學(xué)生的消費(fèi)行為指標(biāo)、學(xué)業(yè)行為指標(biāo)和社交行為指標(biāo)的標(biāo)簽集,建立個(gè)體畫像和群體畫像。③表征層。利用學(xué)生個(gè)體畫像實(shí)現(xiàn)學(xué)業(yè)預(yù)警、心理預(yù)警和貧困幫扶,利用學(xué)生群體畫像實(shí)現(xiàn)重點(diǎn)群體識(shí)別、群體行為預(yù)測(cè)和校園資源規(guī)劃等方面的應(yīng)用表征。

圖1 高校學(xué)生用戶畫像構(gòu)建框架Fig.1 Construction framework of college student user profiles

4 研究過(guò)程

4.1 數(shù)據(jù)采集

本實(shí)驗(yàn)選取黑龍江省某高校2018 級(jí)、2019 級(jí)在校生2019—2020 年的學(xué)生日常行為記錄數(shù)據(jù)作為數(shù)據(jù)集,利用MySQL 導(dǎo)出數(shù)據(jù)40 余萬(wàn)條。包括基本信息數(shù)據(jù)、教務(wù)成績(jī)數(shù)據(jù)、獎(jiǎng)助學(xué)金數(shù)據(jù)、圖書館門禁記錄和校園消費(fèi)數(shù)據(jù)5 張數(shù)據(jù)表,基本情況如表1 所示。

表1 學(xué)生基本數(shù)據(jù)Table 1 Basic student data

4.2 數(shù)據(jù)預(yù)處理

各個(gè)部門授權(quán)的數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù),將授權(quán)后的數(shù)據(jù)導(dǎo)入到SPSS 進(jìn)行處理,清洗部分格式不規(guī)范或錯(cuò)誤的數(shù)據(jù)后,將數(shù)據(jù)表以 “學(xué)號(hào)” 字段作為特征匹配項(xiàng)進(jìn)行數(shù)據(jù)融合,保留以 “學(xué)號(hào)” 為字段的研究對(duì)象593 個(gè),時(shí)間范圍為2019 年3 月至2020 年12 月,共4 個(gè)學(xué)期。其中,受新冠肺炎疫情影響,2020 年上半年未正常開展線下教學(xué)工作,因此2020 年上半年的消費(fèi)記錄不計(jì)入研究范圍。

4.3 數(shù)據(jù)分析與特征提取

4.3.1 學(xué)生消費(fèi)行為特征

根據(jù) “消費(fèi)地點(diǎn)” 字段,可以將消費(fèi)數(shù)據(jù)按 “日常生活” “健身洗浴” “基本飲食” 和 “健康醫(yī)療”分類。根據(jù) “消費(fèi)地點(diǎn)” 字段,結(jié)合校園內(nèi)商戶的分布情況,將消費(fèi)數(shù)據(jù)的地點(diǎn)按 “A 區(qū)” “B 區(qū)” 和 “C區(qū)” 分類。在 “基本飲食” 分類下,結(jié)合食堂的實(shí)際開放時(shí)間和就餐高峰人數(shù)統(tǒng)計(jì),劃分 “6:00—9:30” 為早餐時(shí)間、“10:30—14:00” 為午餐時(shí)間、“16:30—20:00” 為晚餐時(shí)間,并將同一時(shí)間段內(nèi)的多筆消費(fèi)合并為一筆。

經(jīng)過(guò)征集學(xué)生的消費(fèi)習(xí)慣,并結(jié)合學(xué)校實(shí)際情況。學(xué)生在校園內(nèi)的飲食與購(gòu)物行為習(xí)慣基本一致,且“基本飲食” 支出比重較大,可以將就餐行為近似視作學(xué)生的消費(fèi)行為。因此,本研究中學(xué)生的 “消費(fèi)行為”數(shù)據(jù)按“就餐行為” 數(shù)據(jù)計(jì)算。

就餐時(shí)間穩(wěn)定系數(shù)是對(duì)學(xué)生就餐時(shí)間穩(wěn)定性的描述,記為λ,如公式(1)所示:

其中,MTsdi表示第i 個(gè)餐別就餐時(shí)間的標(biāo)準(zhǔn)差,其計(jì)算方法如公式(2)所示;Nmi表示第i 個(gè)餐別就餐總次數(shù);n 表示餐別種類,本文取值為3。

其中,N 表示某個(gè)餐別的就餐總次數(shù);Tj表示某個(gè)餐別的第j 次就餐時(shí)間;表示某個(gè)餐別的平均就餐時(shí)間。

4.3.2 學(xué)生學(xué)業(yè)行為特征

學(xué)生的學(xué)業(yè)行為特征主要由學(xué)業(yè)優(yōu)秀度評(píng)價(jià),同一年級(jí)、同一專業(yè)的學(xué)生成績(jī)排名越高,其學(xué)業(yè)優(yōu)秀度也就越高。學(xué)業(yè)優(yōu)秀度是對(duì)學(xué)生學(xué)業(yè)成績(jī)的優(yōu)秀程度的描述,記為σ,如公式(3)所示。

G 表示學(xué)生的學(xué)分績(jī)點(diǎn),如公式(4)所示;Gmax表示某學(xué)生所在專業(yè)最高成績(jī),Gmin表示某學(xué)生所在專業(yè)最低成績(jī)。

其中,Gi表示某學(xué)生在第i 門課程中的期末成績(jī);Fi表示某學(xué)生第i 門課程的學(xué)分值;n 表示某學(xué)生年度選修的課程總數(shù)。

此外,學(xué)生的學(xué)業(yè)行為特征包括學(xué)業(yè)努力程度評(píng)價(jià),而學(xué)業(yè)努力程度評(píng)價(jià)可以通過(guò)獲取在學(xué)習(xí)行為上付出的時(shí)間計(jì)算得出,主要體現(xiàn)為一個(gè)學(xué)期內(nèi)學(xué)生進(jìn)出圖書館的有效次數(shù),但學(xué)生進(jìn)出圖書館次數(shù)并不與學(xué)業(yè)行為直接相關(guān),只能作為學(xué)業(yè)行為特征的輔助評(píng)價(jià)指標(biāo)。

4.3.3 學(xué)生社交行為特征

好友關(guān)系是學(xué)生社交行為的重要體現(xiàn),是學(xué)生社交網(wǎng)絡(luò)研究的主要內(nèi)容。學(xué)生往往會(huì)和同寢室與同班級(jí)的好友一起出行,如果兩個(gè)人多次在同一時(shí)間段、同一地點(diǎn)存在消費(fèi)行為,且共現(xiàn)的概率值大于一定的閾值時(shí),則認(rèn)為兩個(gè)人存在好友關(guān)系。在已有的關(guān)聯(lián)規(guī)則基礎(chǔ)上,借鑒已有學(xué)者的共現(xiàn)網(wǎng)絡(luò)算法,假設(shè)學(xué)生X 在某一時(shí)刻進(jìn)行食堂刷卡消費(fèi)行為,在一定的時(shí)間間隔內(nèi),學(xué)生Y 也在同一消費(fèi)地點(diǎn)出現(xiàn)刷卡消費(fèi)行為,則認(rèn)為學(xué)生X 與Y 存在共現(xiàn)行為,當(dāng)關(guān)聯(lián)規(guī)則XY 滿足最小支持度和最小置信度閾值時(shí),認(rèn)為學(xué)生X和學(xué)生Y 之間存在關(guān)聯(lián),即認(rèn)定兩人為好友關(guān)系。

在社交共現(xiàn)分析中,學(xué)生X 和學(xué)生Y 的好友關(guān)系反映到數(shù)據(jù)層面,可以理解為學(xué)生X 和學(xué)生Y 共現(xiàn)的次數(shù)足夠大,且共現(xiàn)的消費(fèi)記錄占自身所有消費(fèi)記錄較大比重。因此,設(shè)置最小置信度為β=0.5,最小支持度α 如公式(5)所示。

N 表示所有刷卡消費(fèi)的學(xué)生數(shù),R 表示所有學(xué)生的刷卡消費(fèi)記錄總數(shù)。

為計(jì)算學(xué)生X 和學(xué)生Y 好友關(guān)系的可能性,引入置信度CX→Y如公式(6)所示。

其中,SX→Y為學(xué)生X 和學(xué)生Y 的共現(xiàn)次數(shù),SX為學(xué)生X 刷卡消費(fèi)的總次數(shù)。

在對(duì)學(xué)生X 和學(xué)生Y 的好友關(guān)系判定過(guò)程中,首先,計(jì)算學(xué)生X 和學(xué)生Y 的共現(xiàn)次數(shù)SX→Y,若SX→Y≥α,則說(shuō)明兩人的共現(xiàn)次數(shù)足夠高;下一步,則計(jì)算學(xué)生X 和學(xué)生Y 的好友可能性置信度CX→Y,若CX→Y≥β,則說(shuō)明兩人存在好友關(guān)系。

5 高校學(xué)生畫像構(gòu)建與呈現(xiàn)

5.1 學(xué)生個(gè)體畫像

在學(xué)生個(gè)體畫像的構(gòu)建中,通過(guò)對(duì)消費(fèi)、社交和學(xué)業(yè)數(shù)據(jù)的指標(biāo)進(jìn)行分類,獲取畫像標(biāo)簽,可以實(shí)現(xiàn)學(xué)生整體狀況的觀測(cè)。利用MySQL 數(shù)據(jù)庫(kù)完成數(shù)據(jù)清洗,SPSS 對(duì)數(shù)據(jù)進(jìn)行處理與分析,獲取學(xué)生有關(guān)學(xué)業(yè)行為、消費(fèi)行為和社交行為的3 類指標(biāo)。本研究選取學(xué)生A 作為案例,如表2 所示。其標(biāo)簽信息加載到學(xué)生個(gè)體畫像模型,如圖2 所示。其中,“值” 內(nèi)的文本部分為畫像的分類屬性,根據(jù)學(xué)生的排名位次分類得到。

圖2 學(xué)生A 的學(xué)生個(gè)體畫像標(biāo)簽信息Fig.2 Personal profile labels of student A

表2 學(xué)生畫像標(biāo)簽信息Table 2 Student profile label information

(1)在學(xué)業(yè)畫像中,整體上看,該生學(xué)業(yè)成績(jī)優(yōu)秀,在學(xué)業(yè)成績(jī)位于同專業(yè)前列,數(shù)據(jù)表示前往圖書館的次數(shù)較多,學(xué)業(yè)努力程度和學(xué)業(yè)優(yōu)秀度都很高,且沒有任何違紀(jì)處分,可以推測(cè)該生具有較強(qiáng)的自主學(xué)習(xí)能力和自我約束力,同時(shí)驗(yàn)證了學(xué)業(yè)努力程度與學(xué)業(yè)優(yōu)秀度存在一定的正相關(guān)關(guān)系。

(2)在消費(fèi)畫像中,該生表現(xiàn)出較強(qiáng)的消費(fèi)穩(wěn)定性和消費(fèi)活躍性,總消費(fèi)次數(shù)較高,常常使用在線支付的方式,初步推測(cè)平時(shí)校內(nèi)生活較為豐富。此外,在消費(fèi)地點(diǎn)的選擇上,學(xué)生的消費(fèi)記錄在A 區(qū)較多,推測(cè)該生的校內(nèi)活動(dòng)受一定時(shí)空因素的限制,或受個(gè)人主觀因素影響,在校內(nèi)活動(dòng)時(shí)軌跡較為集中。另一方面,該生的就餐時(shí)間集中在中午較多,在早上的就餐支出較少,消費(fèi)不穩(wěn)定,就餐缺乏規(guī)律,推測(cè)缺少健康的飲食習(xí)慣。

(3)在社交畫像中,該生的社交評(píng)價(jià)為優(yōu)秀社交,初步認(rèn)定該生擁有良好的社交關(guān)系,具備一定的社交能力和團(tuán)體意向,進(jìn)一步推測(cè)此學(xué)生現(xiàn)階段處于心理健康積極的狀態(tài),在生活中遇到困難時(shí)會(huì)更易得到好友的幫助。

綜上,該生呈現(xiàn)出學(xué)業(yè)優(yōu)秀、消費(fèi)活躍、社交良好的應(yīng)屆畢業(yè)生形象,結(jié)合學(xué)業(yè)、消費(fèi)和社交3 個(gè)維度的綜合評(píng)估,該生屬于高活躍的校園生活者,為人努力上進(jìn),心理健康向上,雖然在消費(fèi)(就餐)規(guī)律上呈現(xiàn)不穩(wěn)定的狀態(tài),但是整體還是自律的學(xué)生。由于學(xué)生處于大四畢業(yè)期間卻仍有高度的學(xué)業(yè)努力度,可以初步預(yù)測(cè)學(xué)生有求學(xué)備考或求職復(fù)習(xí)的準(zhǔn)備,學(xué)校針對(duì)此類學(xué)生可以提供針對(duì)的信息推送服務(wù)或安排對(duì)應(yīng)的輔導(dǎo)課程。

5.2 學(xué)生群體消費(fèi)畫像

5.2.1 基于消費(fèi)活躍度的群體畫像

本文主要采用K-means 聚類方法對(duì)學(xué)生行為特征進(jìn)行聚類[22]。利用Python 中sklearn 工具實(shí)現(xiàn)K-means聚類算法,對(duì)學(xué)生的 “就餐天數(shù)” “就餐金額” 進(jìn)行聚類,以探究使學(xué)生用餐行為的共性群體,實(shí)驗(yàn)過(guò)程中,隨著聚類數(shù)k 的增大,樣本劃分會(huì)更加精細(xì),每個(gè)簇的聚合程度會(huì)逐漸提高,因此,利用手肘法可以確定k 值的繼續(xù)增大而趨于平緩的拐點(diǎn)。如圖3 所示,發(fā)現(xiàn)當(dāng)k=2 時(shí)的聚類效果較好,聚類中心的各項(xiàng)特征數(shù)據(jù)值如表3 所示。

圖3 “就餐天數(shù)” “就餐金額” 聚類不同k 取值Fig.3 "Dining days"and"dining expenditure"clusters with different k values

表3 就餐行為聚類中心Table 3 Dining behavior cluster centers

在根據(jù)就餐行為聚類中心結(jié)果中,通過(guò)對(duì)學(xué)生的“就餐天數(shù)” “就餐金額” 進(jìn)行聚類,可以有效衡量學(xué)生的消費(fèi)活躍度和校園活躍度。其中,類別1 的學(xué)生有216 人,占比為36.42%;類別2 的學(xué)生有377 人,占比為63.58%。

類別1 的學(xué)生消費(fèi)天數(shù)較多,消費(fèi)金額也明顯高于其他聚類中心,處于此類別的學(xué)生屬于消費(fèi)活躍度高的群體,他們?cè)趯W(xué)校消費(fèi)的天數(shù)和金額都很高。此外,不僅在消費(fèi)活躍度上,在校園生活中也表現(xiàn)出極高的活躍度,屬于校園生活的重要參與者。往往這類學(xué)生都比較關(guān)注學(xué)校相關(guān)政策和服務(wù)設(shè)施的變化,在學(xué)校開展校園意見征集時(shí),此類學(xué)生的意見將具備一定的參考性。此外,在此類消費(fèi)活躍度高的學(xué)生中,會(huì)存在消費(fèi)天數(shù)高于聚類中心,且消費(fèi)金額低于聚類中心的情況,此類學(xué)生的日常飲食都會(huì)在食堂進(jìn)行,而且單次消費(fèi)水平較低,可以考慮是否存在貧困情況,學(xué)校也應(yīng)重點(diǎn)關(guān)注此類學(xué)生,為其日常生活提供必要及時(shí)的保障。

類別2 的學(xué)生消費(fèi)天數(shù)和消費(fèi)金額都處于中等水平,也是占全體學(xué)生較大比例的一部分群體。這些學(xué)生消費(fèi)活躍度適中,無(wú)法通過(guò)就餐天數(shù)和就餐金額判斷學(xué)生的貧困情況,可以結(jié)合學(xué)生的助學(xué)金申請(qǐng)情況,將消費(fèi)活躍度適中,但就餐天數(shù)遠(yuǎn)高于聚類中心的學(xué)生判定是否為貧困生,為學(xué)校的助學(xué)工作提供參考。

5.2.2 基于消費(fèi)穩(wěn)定性的群體畫像

對(duì)學(xué)生的 “早餐就餐率” “午餐就餐率” 和 “晚餐就餐率” 進(jìn)行聚類,實(shí)驗(yàn)過(guò)程中,不斷調(diào)節(jié)k 值分別進(jìn)行實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)當(dāng)k=3 時(shí)的聚類效果較好,如圖4 所示,聚類中心的各項(xiàng)特征數(shù)據(jù)值如表4 所示。

表4 就餐規(guī)律聚類中心Table 4 Clustering centers of dining patterns

圖4 “早餐就餐率” “午餐就餐率” 和 “晚餐就餐率”聚類不同k 取值Fig.4 "Breakfast rate","lunch rate"and"dinner rate"clusters with different k values

在根據(jù)就餐行為聚類中心結(jié)果中,通過(guò)對(duì)學(xué)生的“早餐就餐率” “午餐就餐率” 和 “晚餐就餐率” 進(jìn)行聚類,可以有效衡量學(xué)生的消費(fèi)穩(wěn)定性和自律性。其中,類別1 的學(xué)生有65 人,占比為10.96%;類別2的學(xué)生有209 人,占比為35.25%;類別3 的學(xué)生有319 人,占比為53.79%。

類別1 的學(xué)生三餐就餐率都很高,和其他聚類中心相比,此類別的學(xué)生一般都有著健康的飲食習(xí)慣,在生活習(xí)慣上反映出較強(qiáng)的自律性。類別2 的學(xué)生午餐就餐率較高,但早餐和晚餐就餐率較低,此類別的學(xué)生通常就餐不規(guī)律,早餐就餐率較低的學(xué)生通常早起率也很低,缺乏生活習(xí)慣上的自我約束;晚餐就餐率較低的學(xué)生考慮存在節(jié)食的情況,應(yīng)當(dāng)鼓勵(lì)此類學(xué)生養(yǎng)成健康的飲食習(xí)慣,形成科學(xué)規(guī)律的生活作息。類別3 的學(xué)生三餐就餐率都很低,此類學(xué)生同樣存在校內(nèi)活動(dòng)少的情況,存在校外就餐和訂外賣的情況,無(wú)法通過(guò)校園消費(fèi)數(shù)據(jù)準(zhǔn)確推測(cè)其生活習(xí)慣。

5.3 高校學(xué)生畫像的應(yīng)用表征

基于多源數(shù)據(jù)融合的高校學(xué)生畫像構(gòu)建,結(jié)合學(xué)生三維行為特征,可以分別構(gòu)建學(xué)生個(gè)體畫像和學(xué)生群體畫像。針對(duì)面向的業(yè)務(wù)場(chǎng)景不同,學(xué)生畫像也有著不同方面的應(yīng)用表征。

(1)學(xué)生異常識(shí)別與預(yù)警。通過(guò)對(duì)學(xué)生個(gè)體畫像的觀測(cè),可以對(duì)學(xué)生的消費(fèi)、學(xué)業(yè)和社交3 個(gè)方面進(jìn)行初步評(píng)估,發(fā)現(xiàn)在學(xué)生畫像中表現(xiàn)出的優(yōu)勢(shì)值,為評(píng)獎(jiǎng)評(píng)優(yōu)工作提供參考,為助學(xué)助困工作提供證明。對(duì)學(xué)業(yè)努力且學(xué)業(yè)優(yōu)秀,但違紀(jì)次數(shù)異常值的發(fā)現(xiàn),方便及時(shí)安排重點(diǎn)關(guān)注及談心談話。此外,通過(guò)對(duì)學(xué)生畫像動(dòng)態(tài)觀測(cè),對(duì)比變化及時(shí)預(yù)警,有利于學(xué)生工作部門和輔導(dǎo)員發(fā)現(xiàn)存在的學(xué)業(yè)和心理問(wèn)題,及時(shí)幫助學(xué)生應(yīng)對(duì)在思想取向、價(jià)值引領(lǐng)、學(xué)習(xí)生活、擇業(yè)交友等方面的具體問(wèn)題。

(2)學(xué)生群體關(guān)注與引導(dǎo)?;诰垲愃惴ǖ膶W(xué)生群體畫像構(gòu)建,聚焦于學(xué)生的消費(fèi)行為,發(fā)現(xiàn)學(xué)生的典型特征區(qū)分,在消費(fèi)穩(wěn)定性和活躍度上表現(xiàn)出明顯的群體屬性。在消費(fèi)活躍畫像的結(jié)果分析中,學(xué)生被分類成典型的高活躍和低活躍兩個(gè)群體,給予低活躍群體更多關(guān)注。同理,在消費(fèi)穩(wěn)定性的結(jié)果分析中,學(xué)生被分類成高穩(wěn)定、中穩(wěn)定和低穩(wěn)定3 個(gè)群體。在實(shí)際的學(xué)生管理工作中,學(xué)生工作部門和輔導(dǎo)員應(yīng)當(dāng)更多關(guān)注低活躍和低穩(wěn)定群體,發(fā)現(xiàn)學(xué)生存在的潛在不良消費(fèi)習(xí)慣和飲食習(xí)慣,尤其是在疫情防控管理期間,對(duì)校內(nèi)消費(fèi)畫像進(jìn)行觀察,更好的預(yù)判校內(nèi)與社會(huì)面的接觸風(fēng)險(xiǎn),對(duì)相關(guān)學(xué)生進(jìn)行及時(shí)有效地引導(dǎo)和規(guī)勸。

(3)校園資源規(guī)劃與調(diào)節(jié)。結(jié)合學(xué)生個(gè)體畫像和群體畫像的結(jié)果,學(xué)生的早晚餐習(xí)慣狀況欠佳。為養(yǎng)成良好的消費(fèi)習(xí)慣和用餐習(xí)慣,可以利用學(xué)生畫像對(duì)校內(nèi)資源規(guī)劃進(jìn)行預(yù)判和規(guī)劃,如為學(xué)生消費(fèi)較多的校區(qū)開設(shè)更多的就餐座位,延長(zhǎng)就餐時(shí)間,減輕高峰就餐壓力。在消費(fèi)較少的校區(qū)開設(shè)特色餐廳,引導(dǎo)學(xué)生分布就餐,利用分流緩解就餐壓力。另外,為提高學(xué)生早晚就餐率及就餐穩(wěn)定性,學(xué)??梢酝瞥龈喾N類餐品,配合開展健康飲食習(xí)慣普及宣傳活動(dòng),幫助學(xué)生養(yǎng)成良好的就餐習(xí)慣,實(shí)現(xiàn)資源的科學(xué)、合理、人性規(guī)劃,為調(diào)節(jié)學(xué)校資源分配和決策提供具體參考。

6 結(jié)語(yǔ)

本文以高校數(shù)據(jù)化管理為研究背景,對(duì)高校數(shù)據(jù)挖掘研究進(jìn)行以下創(chuàng)新。首先,本文嘗試?yán)靡环N新的數(shù)據(jù)融合視角,通過(guò)將顯性數(shù)據(jù)與隱性數(shù)據(jù)融合,并生成有關(guān)消費(fèi)行為、學(xué)業(yè)行為和社交行為三維指標(biāo)。其次,為了解決以往研究中應(yīng)用場(chǎng)景單一問(wèn)題,現(xiàn)利用用戶畫像的手段,實(shí)現(xiàn)多場(chǎng)景的融合。最后,本研究基于學(xué)生的真實(shí)數(shù)據(jù),在以往學(xué)生畫像的研究基礎(chǔ)上,利用SPSS 和K-means 聚類算法等方法,圈選不同特征的學(xué)生群體,同時(shí)利用學(xué)生共現(xiàn)網(wǎng)絡(luò),研究學(xué)生的社交關(guān)系,對(duì)某高校學(xué)生數(shù)據(jù)進(jìn)行分析,進(jìn)一步進(jìn)行了實(shí)證研究,刻畫大學(xué)生的 “消費(fèi)-學(xué)業(yè)-社交” 畫像。在多源數(shù)據(jù)融合視角下構(gòu)建學(xué)生畫像,可以有效為高校教務(wù)、學(xué)工等部門決策提供依據(jù),尤其是后疫情時(shí)代對(duì)大學(xué)生畫像可以及時(shí)發(fā)現(xiàn)潛在的風(fēng)險(xiǎn)隱患。研究分析發(fā)現(xiàn):①在學(xué)生個(gè)體畫像中,通過(guò)對(duì)學(xué)生畫像標(biāo)簽信息的解讀,可以對(duì)學(xué)生消費(fèi)、學(xué)業(yè)和社交3個(gè)方面的情況進(jìn)行了解,實(shí)現(xiàn)學(xué)生個(gè)體的動(dòng)態(tài)監(jiān)測(cè);②在學(xué)生群體畫像中,通過(guò)聚類分析的方法,可以圈選不同特征的學(xué)生群體,尤其是在消費(fèi)行為方面,深度分析學(xué)生的活躍度和穩(wěn)定度特征,既可以為宏觀層面的學(xué)生觀測(cè)提供依據(jù),又為探尋學(xué)生不同行為要素間的相關(guān)性提供了新的思路;③在應(yīng)用表征層面,融合多場(chǎng)景的學(xué)生畫像可以同時(shí)實(shí)現(xiàn)高校異常識(shí)別與預(yù)警、群體關(guān)注與引導(dǎo)和資源規(guī)劃與調(diào)節(jié),大大拓寬了研究的應(yīng)用場(chǎng)景,提升高校教育教學(xué)管理能效。

在大數(shù)據(jù)時(shí)代下,信息化的高校管理已成為當(dāng)代的研究重點(diǎn),為了更好地實(shí)現(xiàn)高效、智能、多元化管理,學(xué)生畫像提供了一種新的研究思路。但受數(shù)據(jù)、算法的局限性,學(xué)生畫像的準(zhǔn)確性和易用性還有待提高,既有現(xiàn)實(shí)條件的約束,也有研究手段的不足,在未來(lái)的研究中,應(yīng)通過(guò)更廣地調(diào)研研來(lái)完善大學(xué)生畫像構(gòu)建體系,并不斷嘗試改進(jìn)更為合適的畫像技術(shù),將高校學(xué)生畫像應(yīng)用到更多業(yè)務(wù)場(chǎng)景中。

猜你喜歡
畫像學(xué)業(yè)聚類
艱苦的學(xué)業(yè)
威猛的畫像
“00后”畫像
畫像
音樂(lè)提升學(xué)生學(xué)業(yè)表現(xiàn)
樹起學(xué)業(yè)擔(dān)當(dāng)之心
基于DBSACN聚類算法的XML文檔聚類
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
35
怀远县| 普格县| 杭锦旗| 翁牛特旗| 灵武市| 三都| 高州市| 庆安县| 临武县| 塘沽区| 唐河县| 通海县| 当雄县| 宁夏| 方正县| 清水县| 临猗县| 鱼台县| 永顺县| 龙南县| 当阳市| 谷城县| 涡阳县| 富锦市| 长泰县| 秭归县| 额尔古纳市| 农安县| 竹北市| 新龙县| 阿尔山市| 墨竹工卡县| 读书| 建德市| 边坝县| 全椒县| 会宁县| 观塘区| 沾益县| 汨罗市| 黔西县|