国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于教育大數(shù)據(jù)的學生用戶畫像研究

2021-09-26 13:12:57廉穎
電腦知識與技術 2021年20期
關鍵詞:用戶畫像數(shù)據(jù)挖掘教學管理

廉穎

摘要:近年來有關學生用戶畫像的研究較多,但是關于研究成果應用到具體學生管理的相關成果相對較少,而且學生管理復雜性高難以照搬通用。所以,在用戶行為畫像的理論方面和應用方面都有很大研究空間,而本文選用智慧校園進行學生用戶數(shù)據(jù)的搜集,通過大數(shù)據(jù)相關挖掘算法進行學生行為畫像研究,對學生的消費習慣、興趣偏好和學習習慣進行綜合分析,為學校不同管理者提供數(shù)據(jù),方便進行輔助教學管理。

關鍵詞:數(shù)據(jù)挖掘;用戶畫像;教學管理

中圖分類號:TP311? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)20-0038-03

1 研究背景與意義

目前用戶畫像有了一定研究,在國外Giuseppe Amato[1]等人通過研究圖書館用戶的數(shù)據(jù),挖掘分析其閱讀習慣,進而構建畫像,為讀者推薦圖書的目的?,F(xiàn)在隨著技術的發(fā)展,用戶畫像被定義為指根據(jù)用戶的關鍵特征、網(wǎng)絡活動、網(wǎng)絡社交等行為給用戶建立一個抽象標簽。本文通過構建大數(shù)據(jù)平臺對學生數(shù)據(jù)進行挖掘,構建學生食堂消費畫像,上網(wǎng)瀏覽畫像,自習室使用的畫像幫助學生管理者決策。

2 學生采集

當前,我??衫貌煌南到y(tǒng)對教育大數(shù)據(jù)進行采集和分析,這些系統(tǒng)涉及到教務管理、財務管理、圖書管理、一卡通管理等方面。另外,教育大數(shù)據(jù)之中還含有其他軟件提供的數(shù)據(jù),比如超星學習通,釘釘學習的數(shù)據(jù)。由于數(shù)據(jù)結構復雜,在正式形成學生用戶畫像之前,需要解決兩個重要問題:一是數(shù)據(jù)如何存儲分析;二是怎樣確定標準化的數(shù)據(jù)。一般來說,用戶畫像由三個基本要素構成[2],用戶特征是其中之一,另外兩者為用戶標簽與用戶屬性。屬性數(shù)據(jù)給出了學生的基本信息,如籍貫、性別、姓名、學號、年級等。用戶的特征數(shù)據(jù)比較繁雜,我們抽取關聯(lián)性較高的一些的數(shù)據(jù)進行研究。對于校園教育大數(shù)據(jù)來說,其突出特征主要有兩個,首先是數(shù)據(jù)總量龐大,難以準確地進行計量;其次是數(shù)據(jù)結構表現(xiàn)出明顯的復雜性。考慮到由于數(shù)據(jù)的結構性或非結構性之間也存在誤差,因而需要對數(shù)據(jù)進行ETL轉(zhuǎn)換,為防止出現(xiàn)信息孤島問題,還應當構建科學而合理的數(shù)據(jù)模型。

3 大數(shù)據(jù)平臺系統(tǒng)架構

具有數(shù)據(jù)采集功能的ETL工具庫是我校大數(shù)據(jù)平臺系統(tǒng)的關鍵構成部分,該工具庫不僅支持數(shù)據(jù)訪問權限的分配,而且具有工作效率高、集中度高等優(yōu)點,其采集的數(shù)據(jù)主要來自于以下幾個方面:一是互聯(lián)網(wǎng)環(huán)境中具有分散特性的海量數(shù)據(jù);二是軟、硬件的運行日志與設備數(shù)據(jù);三是數(shù)據(jù)中心內(nèi)外的所有數(shù)據(jù),其中也包括新增數(shù)據(jù)源。大數(shù)據(jù)平臺從我校信息系統(tǒng)中采集到相關的數(shù)據(jù)信息之后,首先選擇Hadoop分布式大數(shù)據(jù)存儲方式,然后再使數(shù)據(jù)得到分類存儲,執(zhí)行此項操作時可利用三種分布式存儲技術,即HIVE、HBASE與HDFS。對于部分僅僅需要預測趨勢而不需要具有較高計算實時性的學生用戶數(shù)據(jù),應當選用HIVE這一存儲技術。SPARK與HBASE這兩種存儲技術對互聯(lián)網(wǎng)、一卡通等數(shù)據(jù)具有良好的適用性,這類數(shù)據(jù)往往提出了較高的實時性要求。另外,當數(shù)據(jù)來自于表格或文本時,所選用的分布式存儲技術應當是HDFS。對數(shù)據(jù)存儲以后進行下一步的數(shù)據(jù)分析挖掘,例如以我校學生的用餐數(shù)據(jù)進行用戶畫像,首先選取用餐有關的相關數(shù)據(jù),抽取相應的數(shù)據(jù)特征,基于Python編程語言選擇對應的算法進行分析預測,然后將多用戶的標簽進行用戶畫像的生成,最后根據(jù)用戶畫像進行輔助教學管理。如圖1是我校大數(shù)據(jù)平臺技術框架圖。

4 數(shù)據(jù)分析挖掘

4.1 特征值提取

當原始數(shù)據(jù)采集完成過后,由于有的數(shù)據(jù)存在一些問題,比如特征編號不一致,字段表意不清,標簽特征不明顯等等這種不完整的數(shù)據(jù),為了提高數(shù)據(jù)集的搜集效率和結果的準確性,給后面的研究提供統(tǒng)一標簽。標簽的提取思路如下,我們定義大的標簽所占的權重較大,小的標簽所占權重較小,所以畫像上面的每個標簽大小不同,由此可以確定畫像的重要特征。說明并存儲用戶特征是針對學生用戶建立畫像模型的出發(fā)點,為了構建可計算并支持讀取的用戶畫像模型,應當以用戶的行為日志、消費偏好、興趣、個人基本信息等為依據(jù)。實際上,使用戶特征得到向量化與標簽化處理是用戶畫像建模的真正意圖,這樣做不僅可以獲取到便于計算的數(shù)據(jù),還可使語義信息更為精確,從而為后期處理算法創(chuàng)造了良好的條件。需要強調(diào)的是,在向量化處理用戶屬性時,不應當忽略數(shù)值的連續(xù)性與離散性。

4.1.1 特征值維度

在獲取到數(shù)據(jù)之后,怎么從大量的數(shù)據(jù)中選取有助于刻畫用戶畫像的數(shù)據(jù),對數(shù)據(jù)挖掘過程有非常大的影響。如果數(shù)據(jù)特征值維度較少,用戶畫像的準確性將大打折扣;否則,不僅會增加時間成本還需要系統(tǒng)提供更大的存儲空間。總之,最適宜的數(shù)據(jù)特征值維度應同時兼顧效率與精度。為保證所獲取數(shù)據(jù)的有效性,除了要深入剖析其每個屬性以外,有時還需要數(shù)據(jù)特征通過Python的一些工具統(tǒng)計后進行可視化。

4.1.2 特征值關聯(lián)性

特征值與畫像之間的關聯(lián)性分析,如何用較少的特征較準確的刻畫用戶畫像,有必要對二者的關聯(lián)度展開分析,并在此基礎上通過算法加以預測。以分析學生的某科目考試成績?yōu)槔?,首先應當明確性別、年齡、思維模式等屬性,然后再探究這些屬性與成績之間的關系。在獲取屬性數(shù)據(jù)的過程中,需要搜索和查看有關聯(lián)性的多種表。比如:為了明確用戶上網(wǎng)地點,既需要查看設備地點設置表,也需要調(diào)取用戶登錄日志。再如,若要將ISBN順利添加到圖書借閱信息表中,應使該表與圖書基本信息表相關聯(lián)。對于其他屬性,應當利用Python或Web API到網(wǎng)上進行采集。以某種圖書為例,可通過豆瓣API與ISBN相關聯(lián)來獲知其內(nèi)容簡介、關鍵詞與讀者評價狀況。

4.2 特征值標簽化

語義化和短文本是數(shù)據(jù)特征標簽的兩個基本特性,前者是指標簽的實際含義易于理解,該特性既可使業(yè)務需求得到滿足,又增強了用戶畫像模型的真實性。后者是指標簽比較簡約,可以較為直觀是學生的特征,一般不需要再分即可描繪用戶畫像,同時也能為數(shù)據(jù)分析提供方便,還可使軟件更為高效率地提取標準化信息。值得一提的是,單純的打標簽不能等同于用戶畫像,這是因為后者需要依托計算機來處理屬性與標簽向量化。從本質(zhì)上來說,文字標簽是對用戶畫像進行可視化處理的一種手段,通過讀取其展示的信息即可了解用戶的偏好與行為趨勢。不同標簽之間建立了一個關系網(wǎng),但是只強調(diào)了權重大小與屬性關系,并沒有表達非繼承關系以及包含與被包含關系。基于此,標簽比分類更具有靈活性。不過,由于參與的用戶基本不受限制,因而標簽的權威性得到了弱化。

猜你喜歡
用戶畫像數(shù)據(jù)挖掘教學管理
教學管理信息化問題研究
大學(2021年2期)2021-06-11 01:13:24
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
新時期高中教學管理改革與實踐
甘肅教育(2020年17期)2020-10-28 09:01:24
談教學管理的藝術
甘肅教育(2020年4期)2020-09-11 07:41:24
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
把聲音的魅力發(fā)揮到極致
中國廣播(2017年1期)2017-02-21 13:40:10
移動用戶畫像構建研究
基于微博的大數(shù)據(jù)用戶畫像與精準營銷
移動互聯(lián)網(wǎng)下手機用戶使用行為特征的研究
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
甘洛县| 衢州市| 民权县| 都江堰市| 余江县| 辽宁省| 泾阳县| 恩平市| 栾城县| 彭州市| 通化县| 广南县| 九江市| 龙门县| 福泉市| 宁国市| 湘阴县| 广东省| 江安县| 陇南市| 河西区| 孟村| 涞水县| 台南县| 白河县| 惠水县| 井冈山市| 永康市| 潞城市| 天峻县| 安仁县| 马鞍山市| 乌鲁木齐市| 玛多县| 丹棱县| 三原县| 肥东县| 兴宁市| 海口市| 仁怀市| 丘北县|