国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

江蘇大學(xué)圖書推薦系統(tǒng)讓學(xué)生借書“不迷路”

2019-07-19 09:35:32吳云龍
中國教育網(wǎng)絡(luò) 2019年6期
關(guān)鍵詞:學(xué)期書籍圖書

文/吳云龍

高校圖書館圖書推薦現(xiàn)狀

隨著社會的發(fā)展,國內(nèi)高校之間百舸爭流,圖書館作為高校的文化載體,也發(fā)生了巨大的變化,主要體現(xiàn)在館藏量和服務(wù)方式上。在如今這個信息爆炸的時代,高校圖書館作為學(xué)生獲取知識的主要來源,自然圖書藏量也飛速遞增,甚至出現(xiàn)了信息過載的情況[1]。對于學(xué)生來說,可以在如此多的圖書中獲取多方面的知識,本身是一件令人興奮的事。但如何尋找感興趣或者想要的書籍,對于學(xué)生和圖書館來說,都是一個亟需解決的問題。

傳統(tǒng)的高校圖書館系統(tǒng)提供基于圖書信息檢索的方式,學(xué)生根據(jù)想要尋找的圖書名或者作者姓名等信息進(jìn)行檢索,從大量的圖書中找到對應(yīng)的書籍。這種方式,針對明確知道圖書信息的學(xué)生來說,尚能夠解決問題,但更常見的情況是學(xué)生面對如此大量的書籍,不知道哪本書適合自己目前的階段,不知道什么書能提高自己的成績。那如何將圖書館中的書籍推薦給適合它的學(xué)生,或者為學(xué)生找到有助他的書籍成為了圖書館書目推薦的本質(zhì)目的。

目前在高校圖書館中較流行的圖書推薦大致分為兩種。一種是基于圖書相似度的推薦,根據(jù)圖書的借閱歷史記錄,為學(xué)生推薦其感興趣的相似的圖書;第二種是根據(jù)學(xué)生基本信息和行為,挖掘出具有相同特征信息的學(xué)生,從而推薦互相的感興趣的書目。

系統(tǒng)需求分析

目前圖書推薦存在的問題

當(dāng)前高校常見的圖書推薦,很大程度上與電子商務(wù)領(lǐng)域的推薦系統(tǒng)類似,這種模式的推薦不一定適合高校這樣的特殊環(huán)境,繼而推薦效果上可能大打折扣;其次因為數(shù)據(jù)源較多、推薦算法復(fù)雜和數(shù)據(jù)量龐大等問題,在推薦系統(tǒng)的可行性上也存在疑問。比如基于圖書相似度的推薦,由于高校圖書館藏書量大,并且每年會采購新的書籍,在計算圖書相似度上會建立一個龐大的矩陣,導(dǎo)致推薦成本變大;另外將相似的圖書推薦給學(xué)生,也不一定是學(xué)生滿意的書目。再比如基于學(xué)生行為的推薦,傳統(tǒng)的基于行為的推薦是分析學(xué)生的日常生活軌跡數(shù)據(jù),得到興趣愛好相同的學(xué)生,從而進(jìn)行圖書的推薦。學(xué)生的行為數(shù)據(jù)源多且數(shù)據(jù)量大,增大了數(shù)據(jù)分析的難度;而且興趣愛好相同的學(xué)生在課程和學(xué)業(yè)上所需要的書籍也不一定是相同的。

圖1 推薦系統(tǒng)基本流程

推薦系統(tǒng)架構(gòu)

本系統(tǒng)結(jié)合高校的特點和學(xué)生的需求,并結(jié)合學(xué)生成績數(shù)據(jù)、學(xué)生基本信息數(shù)據(jù)和圖書館借閱數(shù)據(jù),利用分布式文件系統(tǒng)HDFS和大數(shù)據(jù)計算引擎Spark進(jìn)行計算,將專業(yè)綜合成績優(yōu)秀學(xué)生的借閱書目,推薦給相同專業(yè)低年級同時期的學(xué)生。本推薦系統(tǒng)的基本業(yè)務(wù)流程如圖1所示。

整個系統(tǒng)的流程主要由三塊構(gòu)成,第一是從數(shù)據(jù)庫中獲取某學(xué)期的學(xué)生成績信息,清洗后用自定義的算法計算出每個學(xué)生當(dāng)前學(xué)期的綜合成績;第二是從數(shù)據(jù)庫中抽取學(xué)生的基本信息,然后聯(lián)合第一步中的成績數(shù)據(jù),計算出同年級同專業(yè)學(xué)生的綜合成績排名情況;第三從數(shù)據(jù)庫中清洗出在校學(xué)生的圖書借閱歷史數(shù)據(jù),聯(lián)合第二步中的成績排名數(shù)據(jù),將當(dāng)前學(xué)期優(yōu)秀學(xué)生的借閱圖書,推薦給低年級同專業(yè)的學(xué)生。

推薦方法過程

計算工具介紹

本文提出的圖書推薦方法涉及到多個數(shù)據(jù)源,特別是學(xué)生成績數(shù)據(jù)和圖書借閱歷史數(shù)據(jù),隨著高校的不斷發(fā)展和圖書館規(guī)模的不斷擴(kuò)大,這兩項數(shù)據(jù)量也越來越大。特別是處理過程中還涉及到多次多種數(shù)據(jù)源之間的聯(lián)接操作,傳統(tǒng)的數(shù)據(jù)計算框架會遇到一定的挑戰(zhàn)。

圖2 Spark運行流程

Hadoop的Mapreduce是一種并行處理大數(shù)據(jù)的計算框架,它的核心思想是采用分而治之的策略,其中Map將要處理的任務(wù)分成很多子任務(wù),交給各個不同的進(jìn)程進(jìn)行計算;最后的計算結(jié)果由Reduce進(jìn)行統(tǒng)計[2]。但是因為Mapreduce的計算過程中采用的是多進(jìn)程模型,這樣會導(dǎo)致在反復(fù)迭代計算的任務(wù)中花費太多時間在啟動進(jìn)程上,同樣在執(zhí)行中需要內(nèi)存和磁盤不斷進(jìn)行數(shù)據(jù)交互,也很大程度上影響計算性能。

Spark誕生于伯克利大學(xué)的AMPLab,起初是該大學(xué)的一個研究項目,后被正式開源并成為Apache的頂級項目[3]。Spark與Mapreduce相同,也是作為近年常用的大數(shù)據(jù)計算框架;不同的是Spark采用分布式內(nèi)存計算和彈性分布式數(shù)據(jù)集RDD[4](如圖2所示),將計算中需要重復(fù)使用的數(shù)據(jù)緩存在內(nèi)存中,使大規(guī)模數(shù)據(jù)的處理速度和容錯率相較Mapreduce提升了很多。

學(xué)生綜合成績計算

數(shù)據(jù)庫中存放的學(xué)生成績信息包含有14個字段,包括XH(學(xué)號),XM(姓名),XN(學(xué)年),XQ(學(xué)期),KCDM(課程代碼),KCMC(課程名稱),KCXZ(課程性質(zhì)),KCGS(課程概述),XF(學(xué)分),CJ(成績),BKCJ(補(bǔ)考成績),CXCJ(重修成績),BZ(備注),CXBJ(重修標(biāo)記)。從成績字段信息可以發(fā)現(xiàn),計算學(xué)生一學(xué)期的綜合成績,將會面臨以下問題:學(xué)生的成績因為課程性質(zhì)分為必修課和選修課,不同課程性質(zhì)的要求可能不一樣;有些課程的成績是等級制,很難做到量化;不同課程可能對應(yīng)不同的學(xué)分;有些學(xué)生的課程可能存在補(bǔ)考或者重修現(xiàn)象,那同一門課程可能有兩個分?jǐn)?shù)等等。

針對以上問題,首先將課程成績和等級成績量化成具體分?jǐn)?shù),具體量化方式為:優(yōu)秀=90,良好=80,中等=70,及格=60,不及格=40;然后根據(jù)不同課程性質(zhì)劃分權(quán)重(必修課權(quán)重為1.0;選修課權(quán)重為0.8),結(jié)合學(xué)分計算每門課程的最終成績。計算方法為:

最終成績 = 課程權(quán)重 ×學(xué)分 × 原始成績

計算得到每個學(xué)生每門課程的最終成績,接下來根據(jù)學(xué)號和課程代碼為鍵,找到有多個成績的課程即補(bǔ)考或重修的課程,取最大分?jǐn)?shù)為當(dāng)前學(xué)生該課程分?jǐn)?shù)。最后以學(xué)號為鍵,調(diào)用groupByKey后將該學(xué)生所有成績進(jìn)行求和計算,則得到了該學(xué)生在當(dāng)前學(xué)期的綜合成績。

同專業(yè)學(xué)生成績排名

通過對教務(wù)成績數(shù)據(jù)計算得到學(xué)生一學(xué)期的綜合成績,接下來將結(jié)合學(xué)生基本信息數(shù)據(jù),得到同專業(yè)學(xué)生綜合成績排名。學(xué)生的基本信息存在bzks表中,該表有69個字段,截取其中以下字段:XM(姓名),XBDM(性別代碼),YXDM(院系代碼),XZNJ(現(xiàn)在年級),XZZYDM(現(xiàn)在專業(yè)代碼)。學(xué)生基本信息數(shù)據(jù)和成績數(shù)據(jù)進(jìn)行join操作,然后以現(xiàn)在年級和現(xiàn)在專業(yè)代碼作為聯(lián)合鍵,將同級同專業(yè)的學(xué)生數(shù)據(jù)聚集后,利用spark對相同鍵的學(xué)生成績進(jìn)行降序排序。

優(yōu)秀學(xué)生借閱推薦

圖書借閱信息中包含了全部的借閱信息,數(shù)據(jù)量較大,首先需要過濾掉已經(jīng)畢業(yè)學(xué)生和非學(xué)生的借閱信息。然后結(jié)合上述已經(jīng)計算得到的同級同專業(yè)學(xué)生一學(xué)期綜合成績排名數(shù)據(jù),選取排名靠前的優(yōu)秀學(xué)生(可配置,本文選取各個專業(yè)成績排名前15),得到這些優(yōu)秀學(xué)生在當(dāng)前學(xué)期的圖書借閱信息。接下來對這些優(yōu)秀學(xué)生的圖書借閱信息進(jìn)行分析,統(tǒng)計借閱次數(shù)降序排序和借閱時長降序排序。最后選取借閱次數(shù)超過兩次的書籍,如果該數(shù)量超過15,則選前15的書目;如果該數(shù)量未超過,則按借閱時長排名自前往后篩選補(bǔ)充至15本。最后我們將這15本書目做為往屆優(yōu)秀學(xué)生的借閱書目,推薦給對應(yīng)低一級同專業(yè)且對應(yīng)學(xué)期的學(xué)生。

綜上所述,本文結(jié)合高校學(xué)生的基本數(shù)據(jù)、教務(wù)數(shù)據(jù)和圖書借閱歷史數(shù)據(jù),分析得到每個專業(yè)綜合成績優(yōu)異學(xué)生借閱的書籍;再將這些書籍經(jīng)過一定的分析統(tǒng)計后推薦給對應(yīng)借閱學(xué)期和同專業(yè)的低年級學(xué)生。這樣的圖書推薦方式不同于目前主流的應(yīng)用于電子商務(wù)領(lǐng)域的推薦,更加符合高校學(xué)生的需求,推薦的指向性和目的性也更加明確[5]。但是也存在一定的缺點,比如可能會因為優(yōu)秀學(xué)生借閱的局限性而錯過一些優(yōu)秀書籍;也可能因為優(yōu)秀學(xué)生借閱的一些興趣類的書籍而因此做了低質(zhì)量的推薦。當(dāng)然基于高校圖書館的圖書推薦因為面向群體的針對性,將會是一個長期值得研究和優(yōu)化的課題,希望能通過本文為此提供一定的參考價值。

猜你喜歡
學(xué)期書籍圖書
魯迅與“書籍代購”
新的學(xué)期 新的嘗試
少先隊活動(2021年9期)2021-11-05 07:31:12
期末沖刺高二上學(xué)期期末模擬卷
圖書推薦
南風(fēng)(2020年22期)2020-09-15 07:47:08
歡迎來到圖書借閱角
AOS在書籍編寫的應(yīng)用
書籍
班里有個圖書角
八年級(上學(xué)期)期末測試題(D)
書籍是如何改變我們的
永泰县| 晋中市| 涿州市| 吐鲁番市| 德清县| 枝江市| 五莲县| 佛冈县| 梨树县| 加查县| 怀集县| 博野县| 无为县| 汶上县| 江川县| 绥化市| 衡阳市| 中江县| 广东省| 安乡县| 千阳县| 万盛区| 武城县| 宜阳县| 当涂县| 阿瓦提县| 桃源县| 建平县| 罗城| 平远县| 门头沟区| 江安县| 西城区| 烟台市| 彰化市| 巨野县| 卢龙县| 藁城市| 怀安县| 普安县| 若尔盖县|