摘要:在人工智能助推教師隊伍建設(shè)的背景下,采集多源多維教師大數(shù)據(jù),挖掘教師偏好和行為特征構(gòu)建高校教師畫像平臺,可以助力高校教師精準管理,實現(xiàn)高校教師隊伍管理數(shù)字化轉(zhuǎn)型。在國內(nèi)教師畫像研究現(xiàn)狀基礎(chǔ)上,提出多源多維數(shù)據(jù)下高校教師畫像平臺的構(gòu)建流程,包括數(shù)據(jù)采集與預處理、標簽體系建立、畫像標簽建模及服務(wù)平臺設(shè)計四個步驟,以實例搭建教師畫像平臺并探討其應(yīng)用場景,可以為實現(xiàn)高校教師精準管理提供參考。
關(guān)鍵詞:教師畫像;多源多維數(shù)據(jù);數(shù)據(jù)挖掘;精準管理
一、教師畫像相關(guān)研究綜述
教師畫像的概念源自用戶畫像,用戶畫像最早由交互設(shè)計之父Cooper提出,他認為用戶畫像是基于大量真實數(shù)據(jù)構(gòu)建出來的虛擬用戶模型,最初主要應(yīng)用在電子商務(wù)、圖書館、醫(yī)療、旅游、社交媒體等領(lǐng)域。教師畫像屬于用戶畫像研究的一個重要分支。近年來,隨著大數(shù)據(jù)和人工智能等新技術(shù)的應(yīng)用,基于用戶畫像來描繪高校教師特征的研究也逐步展開,如提取教師科研特征的科研人員畫像[1-2]、反映教師教學行為特征的教學行為畫像[3]、體現(xiàn)教師學習行為特征的學習者畫像[4-5]等,這些研究成果側(cè)重于教師單維特征的描繪,主要聚焦標簽?zāi)P偷臉?gòu)建和實現(xiàn)。
從教師專業(yè)發(fā)展來看,高校教師是集教學、科研、服務(wù)、管理等于一體的綜合性人才,應(yīng)該從多個平面去描繪教師特征,使得教師形象更加豐滿。因此,本研究從教師大數(shù)據(jù)的視角出發(fā),提出一種多源多維數(shù)據(jù)下教師畫像平臺構(gòu)建方法,一方面收集教師大數(shù)據(jù),建立多層次、多維度的教師畫像平臺標簽體系,豐富畫像平臺展示維度。另一方面將數(shù)據(jù)挖掘技術(shù)與教師大數(shù)據(jù)結(jié)合,重點分析構(gòu)建流程中的標簽建模關(guān)鍵技術(shù)。最后實例探討教師畫像平臺在高校精準管理等方面的應(yīng)用,為實現(xiàn)高校教師隊伍精準管理提供參考。
二、教師畫像平臺構(gòu)建流程
針對現(xiàn)有教師畫像的構(gòu)建流程,胡小勇[6]將教師畫像的構(gòu)建流程分為數(shù)據(jù)采集、數(shù)據(jù)預處理、畫像模型構(gòu)建、標簽體系建立、畫像質(zhì)量評估和畫像精準應(yīng)用六個步驟;于方[7]將畫像的構(gòu)建流程分為教育數(shù)據(jù)采集與預處理、建立用戶標簽體系、建立畫像挖掘模型和提供面向應(yīng)用的數(shù)據(jù)服務(wù)四個模塊;肖君[5]指出,完整的畫像構(gòu)建流程包括畫像目標設(shè)定、數(shù)據(jù)收集、畫像建模、畫像生成和畫像應(yīng)用評價五個階段。參考上述學者的畫像構(gòu)建流程,結(jié)合高校實際應(yīng)用需求,本研究將教師畫像平臺的構(gòu)建流程分為四個步驟,包括數(shù)據(jù)采集與預處理、標簽體系建立、畫像標簽建模、畫像平臺設(shè)計。
(一)數(shù)據(jù)采集與預處理
高校教師的活動主要圍繞晉升、培訓、教學、科研、服務(wù)開展,因此本研究依據(jù)教師的職業(yè)發(fā)展軌跡,并結(jié)合數(shù)據(jù)可及性提出了教師畫像平臺所需的六個維度數(shù)據(jù),包括人員基本數(shù)據(jù)、工作晉升數(shù)據(jù)、教師培訓數(shù)據(jù)、教研成果數(shù)據(jù)、課堂教學數(shù)據(jù)、社會服務(wù)數(shù)據(jù)。平臺所采集的數(shù)據(jù)是多源異構(gòu)的,并不能直接用于分析,為保證標簽計算結(jié)果的精確性和可靠性,需要進一步對數(shù)據(jù)進行預處理,一般包含數(shù)據(jù)清洗、實體抽取、數(shù)據(jù)融合三個步驟[8]。數(shù)據(jù)清洗是為了解決數(shù)據(jù)缺失、數(shù)據(jù)重復、數(shù)據(jù)異常、邏輯沖突等問題。例如,采集人員基本數(shù)據(jù)過程中缺少部分學科數(shù)據(jù),則可以依據(jù)所屬院系、成果類型等數(shù)據(jù)進行補充。實體抽取指從文本數(shù)據(jù)中抽取所需的字段。例如,從評教系統(tǒng)的學生評價中抽取關(guān)鍵詞、從個人主頁中抽取社會兼職信息等。數(shù)據(jù)融合需要整合來自不同數(shù)據(jù)源的數(shù)據(jù),統(tǒng)一存儲在畫像數(shù)據(jù)庫中。例如,需要統(tǒng)一校內(nèi)人員編號和第三方平臺的人員編號,涉及人名消歧等技術(shù)。
(二)標簽體系建立
標簽體系是建立教師畫像的關(guān)鍵環(huán)節(jié),一個好的標簽樹結(jié)構(gòu)要滿足高概括性和強延展性這兩個條件[9],按照上述原則,并參考現(xiàn)有學者的標簽體系架構(gòu),本研究綜合梳理了覆蓋教師活動軌跡的教師畫像平臺七維層次化標簽體系,分別為人員屬性、晉升特征、知識特征、教學特征、科研特征、社會服務(wù)、風險控制,并在七大維度的基礎(chǔ)上,細分出二級歸類和三級歸類。圖1所示為教師畫像平臺層次化標簽體系的整體架構(gòu),前六個維度分別對應(yīng)六大數(shù)據(jù)來源,可以覆蓋高校教師的日?;顒?。借鑒電商平臺在構(gòu)建用戶畫像標簽體系時會設(shè)置風險控制維度,可以有效監(jiān)控存在賬號風險、借貸風險等平臺不良用戶,以消滅或減少風險事件的發(fā)生。將風險控制維度引入到教師畫像平臺標簽體系中,則可以幫助高校管理人員監(jiān)控存在各類風險的教師群體,提前采取措施以提高人才培養(yǎng)質(zhì)量、減少人才流失,因此風險控制維度的設(shè)立是非常有必要的,本研究將其作為標簽體系的第七個維度。
(三) 畫像標簽建模
1.標簽定義
標簽建模是畫像平臺構(gòu)建過程中最主要的環(huán)節(jié),根據(jù)標簽的生產(chǎn)方式可以將標簽劃分為三種類型:第一種是統(tǒng)計類標簽,該類標簽是基于原始數(shù)據(jù)構(gòu)建的,構(gòu)建難度低,可以從數(shù)據(jù)庫中直接獲取或者通過簡單的統(tǒng)計得到,如{“性別”:“女”}{“近10年高水平論文數(shù)”:8}等。第二種是規(guī)則類標簽,該類標簽是基于教師行為及確定的規(guī)則產(chǎn)生的,如對知識特征中的“學習頻度高”這一標簽的定義為“近30天學習次數(shù)≥2”。第三種是挖掘類標簽,該類標簽通過機器學習挖掘產(chǎn)生,用于對教師的某些屬性或某些行為進行預測判斷,如根據(jù)教師的科研行為判斷其科研潛力、預測人才流失風險等,這類標簽可以表示為{“科研潛力”:0.85}{“人才流失風險”:0.3},分值即標簽屬性值。綜合三類標簽的特點,可以發(fā)現(xiàn)統(tǒng)計類和規(guī)則類標簽是最常見的標簽類型,主要是對已有數(shù)據(jù)的統(tǒng)計,構(gòu)建難度低,是標簽體系的主要組成部分。而挖掘類標簽需要算法的參與,構(gòu)建相對復雜,是標簽體系的重點部分,圖1中用深色背景標出了部分挖掘類標簽。
2.挖掘類標簽提取模型
現(xiàn)有描繪教師特征的挖掘類標簽建模技術(shù)主要有范曉玉、王東等通過構(gòu)建科研偏好向量、科研能力計算、科研關(guān)系網(wǎng)絡(luò)和科研信用分析模型進行標簽抽取 [1-2]。黃建國[10]通過構(gòu)建學習態(tài)度、行為偏好、資源偏好模型進行標簽抽取。王莉莉[4]通過構(gòu)建學習行為和文本情感模型進行標簽提取。從上述研究中發(fā)現(xiàn),對不同類型用戶畫像進行標簽抽取所使用的模型有共通之處,因此本研究參考現(xiàn)有挖掘類標簽抽取所使用的分析模型,通過構(gòu)建偏好模型、預測模型、聚類模型進行本平臺挖掘類標簽的提取。
偏好模型的構(gòu)建主要是從用戶的行為日志中進行核心信息的抽取、標簽化和統(tǒng)計,通過內(nèi)容建模和興趣衰減得到用戶的興趣偏好。以“研究方向偏好”為例,根據(jù)教師發(fā)表論文的關(guān)鍵詞來表示研究方向,首先計算每個關(guān)鍵詞的次數(shù)權(quán)重,接著使用自適應(yīng)指數(shù)衰減函數(shù)[1]構(gòu)建研究偏好模型,計算關(guān)鍵詞在作者研究生涯中的時間衰減權(quán)重。其次權(quán)衡次數(shù)權(quán)重和衰減權(quán)重得到每個關(guān)鍵詞的綜合得分,最后對得分排序得到教師的研究方向偏好。本文的偏好類標簽主要分布在知識特征維度的資源偏好、教學特征維度的學生印象和教研領(lǐng)域、科研特征維度的科研方向等部分,在不同的場景中會根據(jù)偏好變化的速度來靈活調(diào)整時間衰減級別,如按周、學期進行衰減。
預測模型的構(gòu)建是以統(tǒng)計理論為基礎(chǔ),通過一系列用于分類和回歸的機器學習算法對已知的訓練數(shù)據(jù)做統(tǒng)計分析從而獲得規(guī)律,再運用規(guī)律對未知數(shù)據(jù)做預測。以“人才流失預測”為例,需要判斷人才是否會流失,屬于二分類問題。首先對流失人才數(shù)據(jù)做標注,將數(shù)據(jù)集分為訓練和測試數(shù)據(jù)。其次選取有效特征建立人才流失模型,由于標簽體系中的特征維度較多不利于統(tǒng)計分析,故需要對特征數(shù)據(jù)進行降維、降噪,如主成分分析法、逐步篩選法等。再次進行機器學習模型選擇,本平臺參考scikit_learn[11]官方指南選擇隨機森林模型。最后進行參數(shù)調(diào)優(yōu)和測試集驗證。本文的預測類標簽主要分布在風險控制維度的業(yè)務(wù)預警和人才流失預測、科研特征維度的潛在科研合作者等部分。
聚類模型的構(gòu)建是通過聚類過程將樣本劃分成不同的組,使得同一組內(nèi)的樣本具有相似的特征,即“物以類聚,人以群分”,用于分析組內(nèi)特點或者組間差異。以“教師教學模式挖掘”為例,首先選取有效特征建立聚類模型,本例中假設(shè)選取了課堂講授、課堂測試、自主探究、小組協(xié)作、總結(jié)評價、反思提升為特征屬性。其次進行聚類算法的選擇和評估,常用的聚類算法有k均值、DBSCAN和凝聚聚類。最后對聚類結(jié)果進行解釋,生成聚類標簽。本文的聚類標簽主要分布在教學特征維度的教學形態(tài)和教學能力、科研成果維度的科研綜合能力、社會服務(wù)維度的成果轉(zhuǎn)化能力等部分。
(四)畫像服務(wù)平臺
現(xiàn)有研究對教師畫像的論述主要集中在數(shù)據(jù)處理、標簽建模及應(yīng)用展望上,對畫像平臺的建設(shè)缺乏整體規(guī)劃。其實畫像服務(wù)平臺就是將畫像標簽“產(chǎn)品化”的過程,可以為教師畫像的精準應(yīng)用奠定平臺基礎(chǔ)。參考主流用戶畫像的產(chǎn)品設(shè)計后,本研究根據(jù)教師畫像的應(yīng)用場景設(shè)計了標簽廣場、人群圈選、對比分析、標簽管理四大功能模塊。一是標簽廣場,用于展示標簽維度、標簽值及標簽含義,使用者可以直觀地了解所有標簽。二是人群圈選,可以自定義標簽組合,通過標簽之間的交、并、差來創(chuàng)建人群包,如圈選科研發(fā)表能力強的青年教師群體。三是分析對比,可以針對單個教師進行全方位畫像描繪,也可以實現(xiàn)教師個體間及教師群體間的可視化對比,如不同學科教師不同維度數(shù)據(jù)的對比。四是標簽管理,主要面向后臺管理員,可以對標簽進行增刪改查、生命周期維護和平臺對接,并提供權(quán)限管理?;诖似脚_,管理者可以對教師特征進行進一步分析挖掘,實現(xiàn)精準服務(wù)。
三、畫像平臺構(gòu)建實例
本研究實例部分的數(shù)據(jù)是從多個平臺獲取的。數(shù)據(jù)包括從人事系統(tǒng)中獲取教師的基本數(shù)據(jù)和工作晉升數(shù)據(jù)形成人員屬性維度及晉升特征維度,從培訓平臺中獲取教師的行為數(shù)據(jù)形成知識特征維度,從三方數(shù)據(jù)庫中獲取教師的科研發(fā)表情況并爬取科研社交平臺的好友情況共同形成科研特征維度,從教務(wù)系統(tǒng)中獲取教師的教研成果數(shù)據(jù)并與教學反饋數(shù)據(jù)形成教學特征維度,從個人主頁中獲取教師的社會活動數(shù)據(jù)并與科研系統(tǒng)中的智庫數(shù)據(jù)共同形成社會服務(wù)維度。最后基于以上六個維度的數(shù)據(jù)構(gòu)建預警模型和人才流失模型,形成風險控制維度。
本研究根據(jù)平臺構(gòu)建流程搭建教師畫像平臺,首先通過數(shù)據(jù)集成工具、爬蟲工具、線下文檔等方式采集原始數(shù)據(jù)并進行數(shù)據(jù)的預處理。然后根據(jù)圖1中設(shè)定的標簽類型生成相應(yīng)的特征標簽,淺色標簽是統(tǒng)計類標簽和規(guī)則類標簽,主要是對已有數(shù)據(jù)的轉(zhuǎn)換和統(tǒng)計,而深色標簽則是挖掘類標簽,涉及算法模型的構(gòu)建。標簽建模完成后,將得到的特征標簽存儲在MySQL數(shù)據(jù)庫中,最終形成{教師ID,標簽ID,維度ID,有效狀態(tài),創(chuàng)建時間}特征表,便于畫像平臺調(diào)用。
畫像服務(wù)平臺在特征表的基礎(chǔ)上設(shè)置兩大功能模塊:一是個人畫像模塊,平臺基于標簽體系設(shè)計了教師個人畫像頁面,包括個人與群體特征的橫縱向?qū)Ρ?、標簽的可視化展示形式等,如圖2所示的教師畫像個人頁面。二是人群圈選與分析模塊,畫像平臺可以根據(jù)具體場景進行人群圈選、分析對比。例如,學工管理者可以根據(jù)研究領(lǐng)域標簽圈選某個研究方向的教師群體,查看得分排行并下鉆研究歷程,以便于開展定向合作,或者教師考核工作辦公室可以根據(jù)聘期考核預測標簽圈選下一次聘期考核預測不通過的教師群體,查看名單并下鉆教師個人預警雷達圖,有針對性地予以幫助。
四、結(jié)語
傳統(tǒng)的教師數(shù)據(jù)以教學、科研、管理等結(jié)構(gòu)化數(shù)據(jù)為主,隨著智慧教學平臺、在線培訓平臺、教研交流平臺等三方平臺的建設(shè),產(chǎn)生了課堂教學行為、學習培訓記錄、研究互動日志等半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)的產(chǎn)生極大地豐富了教師數(shù)據(jù)維度,提供了洞見現(xiàn)象和問題的客觀基礎(chǔ)。同時,數(shù)據(jù)挖掘技術(shù)可以將教師畫像從“千人一面”的數(shù)據(jù)展示變?yōu)椤扒饲妗钡膫€性化標簽集合,進而提供精準、個性化的數(shù)據(jù)服務(wù)。
鑒于此,本文提出構(gòu)建高校教師畫像平臺的四步構(gòu)建流程,首先對多源數(shù)據(jù)進行采集和預處理。其次基于高概括性和強延展性的原則構(gòu)建層次化教師畫像標簽體系,然后重點介紹畫像標簽生成所涉及的關(guān)鍵模型,最后借助可視化平臺實現(xiàn)標簽生成展示、人群圈選對比等功能。
目前,高校教師畫像的研究相對匱乏,本文旨在提出一個全面、系統(tǒng)的框架并進行實例構(gòu)建,豐富并拓展了教師畫像平臺的研究路徑,為教師大數(shù)據(jù)的應(yīng)用與教師畫像平臺的落地提供了有力參考。限于篇幅,本文僅展示部分實證過程,后續(xù)將在本文基礎(chǔ)上深入探討復雜標簽?zāi)P偷臉?gòu)建以及教師畫像在促進教師隊伍建設(shè)等方面的應(yīng)用。
參考文獻
[1]范曉玉,竇永香,趙捧未,等.融合多源數(shù)據(jù)的科研人員畫像構(gòu)建方法研究[J].圖書情報工作,2018,62(15):31-40.
[2]王東,李青,張志剛,等.科研人員畫像構(gòu)建方法研究[J].情報學報,2022,41(08):812-821.
[3]王冬青,劉歡,邱美玲.智慧課堂教師行為數(shù)據(jù)的分析方法與應(yīng)用驗證[J].中國電化教育,2020(05):120-127.
[4]王莉莉,郭威彤,楊鴻武.利用學習者畫像實現(xiàn)個性化課程推薦[J].電化教育研究,2021,42(12):55-62.
[5]肖君,喬惠,李雪嬌.大數(shù)據(jù)環(huán)境下在線學習者畫像的構(gòu)建[J].開放教育研究,2019,25(04):111-120.
[6]胡小勇,林梓柔.精準教研視域下的教師畫像研究[J].電化教育研究,2019,40(07):84-91.
[7]于方,劉延申.大數(shù)據(jù)畫像——實現(xiàn)高等教育“依數(shù)治理”的有效路徑[J].江蘇高教,2019(03):50-57.
[8]王世奇,劉智鋒,王繼民.學者畫像研究綜述[J].圖書情報工作,2022,66(20):73-81.
[9]楊楠楠,李凱東,陳新濤,等.數(shù)據(jù)產(chǎn)品經(jīng)理實戰(zhàn)進階[M].北京:機械工業(yè)出版社,2023.
[10]黃建國,唐燁偉,范佳榮,等.基于xAPI的在線學習環(huán)境中精準師訓畫像構(gòu)建研究[J].中國電化教育,2020(04):102-108.
[11]Scikit-learn.(n.d.).Machine Learning Map[EB/OL].Retrieved from http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html.
基金項目:2022年度高等教育科學研究規(guī)劃重點課題“融合多源數(shù)據(jù)的教師全息畫像構(gòu)建與應(yīng)用研究”(項目編號:22XX0303)
作者單位:對外經(jīng)濟貿(mào)易大學網(wǎng)絡(luò)安全和信息化處
責任編輯:王穎振、鄭凱津