摘 要:本文針對(duì)傳統(tǒng)高校圖書(shū)館推薦系統(tǒng)疏密度較高、精度差等問(wèn)題,設(shè)計(jì)了一種基于全景感知的高校圖書(shū)館智能推薦系統(tǒng)。首先,根據(jù)關(guān)聯(lián)規(guī)則對(duì)系統(tǒng)硬件進(jìn)行優(yōu)化,添加存儲(chǔ)單元以提升運(yùn)行速度;其次,對(duì)系統(tǒng)軟件運(yùn)行流程進(jìn)行處理,并利用聚類(lèi)算法進(jìn)行相似度計(jì)算,根據(jù)相似度對(duì)書(shū)目生產(chǎn)關(guān)聯(lián)規(guī)則,并將推薦結(jié)果通過(guò)全景感知展示給用戶(hù)。試驗(yàn)結(jié)果表明,本文系統(tǒng)采用的聚類(lèi)算法有效解決了數(shù)據(jù)疏密度問(wèn)題,與KNN算法相比,聚類(lèi)算法提升了算法推薦效率與質(zhì)量,同時(shí)也解決了冷啟動(dòng)問(wèn)題,具有較高的實(shí)用性與推廣價(jià)值。
關(guān)鍵詞:全景感知;高校圖書(shū)館;推薦系統(tǒng);聚類(lèi)算法
中圖分類(lèi)號(hào):TP 391" " " " 文獻(xiàn)標(biāo)志碼:A
數(shù)字技術(shù)的發(fā)展賦予圖書(shū)館智慧化特征,使圖書(shū)館具備感知分析能力,智能推薦服務(wù)已成為圖書(shū)館發(fā)展的主要方向[1]。目前,學(xué)界對(duì)圖書(shū)館推薦系統(tǒng)的研究尚處于初級(jí)階段。張希平等[2]利用數(shù)據(jù)挖掘算法設(shè)計(jì)了一種高校圖書(shū)館推薦系統(tǒng),可向?qū)W生精準(zhǔn)推送書(shū)目資源,避免冗雜信息干擾;王大阜等[3]為了實(shí)現(xiàn)自適應(yīng)平臺(tái)與用戶(hù)的互動(dòng),設(shè)計(jì)了一種基于用戶(hù)畫(huà)像的圖書(shū)館推薦系統(tǒng),為用戶(hù)提供符合其需求的書(shū)目資源。雖然這些系統(tǒng)均具有較高的推薦性能,但是在疏密度、精度以及冷啟動(dòng)等方面仍有不足。由于高校圖書(shū)館具有較強(qiáng)的感知性,因此利用全景感知能夠更準(zhǔn)確地了解用戶(hù)需求。智能推薦建立在用戶(hù)情景數(shù)據(jù)多態(tài)感知基礎(chǔ)上,數(shù)字技術(shù)的發(fā)展為基于全景感知的智能推薦服務(wù)提供了數(shù)據(jù)支持[4]。鑒于此,本文設(shè)計(jì)了一種基于全景感知的高校圖書(shū)館智能推薦系統(tǒng),利用聚類(lèi)算法對(duì)簇中數(shù)據(jù)進(jìn)行挖掘。該方法具有效率高、數(shù)據(jù)依賴(lài)性低等優(yōu)勢(shì),能夠提升圖書(shū)館資源利用率,實(shí)現(xiàn)面向用戶(hù)需求的智能推送,可為提高用戶(hù)閱讀服務(wù)體驗(yàn)提供新思路。
1 整體設(shè)計(jì)
基于系統(tǒng)設(shè)計(jì)目標(biāo),應(yīng)用全景感知與Hadoop框架進(jìn)行整體架構(gòu)設(shè)計(jì)。系統(tǒng)中的全景圖像拼接、全景分割與聚類(lèi)算法可進(jìn)行精準(zhǔn)感知與捕捉,實(shí)時(shí)感知并獲取書(shū)目數(shù)據(jù)與用戶(hù)數(shù)據(jù)。全景拼接可映射全景,檢測(cè)用戶(hù)借閱特征;全景分割用于識(shí)別用戶(hù)所處環(huán)境與狀態(tài);Hadoop框架利用聚類(lèi)算法對(duì)系統(tǒng)各類(lèi)數(shù)據(jù)進(jìn)行并行計(jì)算,同時(shí)形成數(shù)據(jù)表,用于數(shù)據(jù)庫(kù)的存儲(chǔ)與檢索。系統(tǒng)由感知層、數(shù)據(jù)層、運(yùn)算層和服務(wù)層構(gòu)成,其中,感知層由全景圖像拼接和全景分割提供支持,可對(duì)用戶(hù)閱讀行為、借閱習(xí)慣以及館藏狀態(tài)進(jìn)行全景感知;數(shù)據(jù)層可處理感知層獲取的數(shù)據(jù),將異構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù);運(yùn)算層采用聚類(lèi)算法對(duì)各類(lèi)數(shù)據(jù)進(jìn)行計(jì)算,并對(duì)推薦內(nèi)容進(jìn)行篩選與優(yōu)化;服務(wù)層可以感知用戶(hù)閱讀喜好,在預(yù)測(cè)用戶(hù)閱讀需求的基礎(chǔ)上為其提供智能推薦服務(wù)。系統(tǒng)整體架構(gòu)如圖1所示。
2 硬件設(shè)計(jì)
為保證運(yùn)行效果,需要對(duì)硬件進(jìn)行優(yōu)化。在系統(tǒng)中設(shè)置客戶(hù)端與瀏覽器,利用C/S架構(gòu)有效管理圖書(shū)信息,并對(duì)書(shū)目特征進(jìn)行充分挖掘。進(jìn)一步分析用戶(hù)借閱信息,對(duì)用戶(hù)閱讀興趣進(jìn)行綜合判斷,通過(guò)全景感知進(jìn)行書(shū)籍智能推薦。為了使推薦效果保持最優(yōu),應(yīng)繼續(xù)優(yōu)化系統(tǒng)結(jié)構(gòu),在安防部件上增設(shè)防火墻,保障系統(tǒng)運(yùn)行安全。
根據(jù)硬件結(jié)構(gòu)挖掘書(shū)目特征,采用聚類(lèi)算法進(jìn)行類(lèi)別分類(lèi)。分類(lèi)工作結(jié)束后,將收集的信息存儲(chǔ)到MariaDB內(nèi),深度分析項(xiàng)目關(guān)聯(lián)性,進(jìn)一步優(yōu)化硬件結(jié)構(gòu)。在系統(tǒng)中添加AM186(一種嵌入式處理器),同時(shí)開(kāi)放總線(xiàn)接口,從而對(duì)各類(lèi)用戶(hù)信息進(jìn)行統(tǒng)一處理。
對(duì)系統(tǒng)內(nèi)的存儲(chǔ)單元進(jìn)行特征數(shù)值的共享處理,確保書(shū)目特征類(lèi)別信息收集和輸入(輸出)的有效性,并根據(jù)用戶(hù)需要選擇線(xiàn)路,存儲(chǔ)于特征類(lèi)別的存儲(chǔ)模塊[5]。系統(tǒng)須添加124位存儲(chǔ)器,便于后續(xù)將信息傳輸?shù)酱鎯?chǔ)單元,進(jìn)而進(jìn)行書(shū)目管理與推薦。
基于上述結(jié)構(gòu)整合借閱信息,有針對(duì)性地為用戶(hù)推薦書(shū)目,同時(shí)通過(guò)感知引擎來(lái)管理圖書(shū)流通數(shù)據(jù),以此獲取用戶(hù)借閱興趣信息并進(jìn)行推薦操作。
3 軟件設(shè)計(jì)
根據(jù)上述硬件設(shè)計(jì)對(duì)軟件進(jìn)一步優(yōu)化,并結(jié)合書(shū)目特征關(guān)聯(lián)信息進(jìn)行推薦。為使系統(tǒng)穩(wěn)定運(yùn)行,設(shè)置特征類(lèi)別管理閾值,以便更好地獲取對(duì)應(yīng)的支持?jǐn)?shù)與最小信度。書(shū)目特征推薦數(shù)據(jù)應(yīng)根據(jù)支持?jǐn)?shù)與最小信度對(duì)興趣書(shū)目進(jìn)行檢索與推送,同時(shí)簡(jiǎn)化篩選過(guò)程。選擇推薦最優(yōu)值與特征設(shè)備點(diǎn)進(jìn)行連接,并合理分類(lèi)特征數(shù)據(jù),主要流程包括特征獲取和特征匹配。
3.1 特征獲取
采用聚類(lèi)算法完成用戶(hù)特征信息分類(lèi),標(biāo)記為顯性特征與隱性特征。收集用戶(hù)不同特征值(院系、學(xué)科和興趣),以顯性方式獲取用戶(hù)對(duì)書(shū)目的反饋信息后,再用隱性方法處理。更新數(shù)據(jù)庫(kù)后進(jìn)行特征提取,對(duì)海量書(shū)目信息進(jìn)行深度分類(lèi)與推薦。
3.2 特征匹配
分析特征值后,對(duì)關(guān)聯(lián)信息進(jìn)行判定并輸出結(jié)果,進(jìn)而進(jìn)行推薦描述。如果在特征匹配過(guò)程中沒(méi)有檢索到需求資源,應(yīng)對(duì)類(lèi)似資源進(jìn)行最優(yōu)化展示,同時(shí)完善檢索引擎,為用戶(hù)提供更系統(tǒng)化的檢索體系[6]。如果對(duì)類(lèi)別判定困難,就需要根據(jù)歷史檢測(cè)對(duì)書(shū)目特征詞匯進(jìn)行匹配,檢索類(lèi)似資源,并根據(jù)關(guān)聯(lián)規(guī)則進(jìn)行排列與推送,使用戶(hù)能夠全方位感知,并進(jìn)一步篩選用戶(hù)所需特征數(shù)據(jù),結(jié)束特征匹配工作。特征匹配整體流程如圖2所示。
將書(shū)目特征代入上述匹配流程,通過(guò)各類(lèi)途徑分析關(guān)聯(lián)規(guī)則,并進(jìn)行智能推薦。根據(jù)推薦信息進(jìn)行綜合評(píng)價(jià),同時(shí)根據(jù)評(píng)價(jià)調(diào)整推薦順序,從而實(shí)現(xiàn)書(shū)目智能服務(wù)。
4 算法流程
書(shū)目特征形成的數(shù)據(jù)具有高穩(wěn)定性,能夠改進(jìn)疏密情況。利用聚類(lèi)算法創(chuàng)建關(guān)聯(lián)表,根據(jù)圖書(shū)信息提取關(guān)鍵詞,并按照頻率獲取不同關(guān)鍵詞權(quán)重,基于這類(lèi)信息計(jì)算相似度,從而完成圖書(shū)推薦。
4.1 關(guān)鍵詞權(quán)重
通過(guò)算法獲取關(guān)鍵詞權(quán)重,設(shè)wf為詞頻,rf為反向詞頻,這2個(gè)參數(shù)可體現(xiàn)詞語(yǔ)普遍性。設(shè)e為關(guān)鍵詞總量,m為關(guān)鍵詞的出現(xiàn)頻率,詞頻wf如公式(1)所示。
(1)
設(shè)x為包括關(guān)鍵詞圖書(shū)數(shù)量,y為圖書(shū)總量,反向詞頻rf如公式(2)所示。
(2)
基于上述流程獲取關(guān)鍵詞權(quán)重h1,如公式(3)所示。
h1=wf·rf " " " " " " (3)
4.2 書(shū)目相似度
設(shè)h2為關(guān)鍵詞,構(gòu)成向量空間后獲取書(shū)目相似度。設(shè)書(shū)目A與B,這2個(gè)參數(shù)擁有相同關(guān)鍵詞數(shù)量z1,書(shū)目相似度sim(A,B)如公式(4)所示。
(4)
4.3 用戶(hù)相似度
對(duì)屬性相似度與活躍相似度進(jìn)行計(jì)算后統(tǒng)計(jì)用戶(hù)相似度。
4.3.1 屬性相似度
sim值越大,屬性相似度越高,屬性相似度如公式(5)所示。
(5)
式中:dmax為屬性差距最大值;dmin為屬性差距最小值;|dmax,dmin|為差距區(qū)間;u為根據(jù)差距區(qū)間獲取相似度。
4.3.2 活躍相似度
根據(jù)動(dòng)態(tài)用戶(hù)信息獲取活躍相似度,設(shè)用戶(hù)g1與g2這2個(gè)參數(shù)擁有相同關(guān)鍵詞數(shù)量z2,當(dāng)sim值越大時(shí)活躍相似度越高,活躍相似度sim(g1,g2)如公式(6)所示。
(6)
4.4 置信度
針對(duì)不同書(shū)目關(guān)聯(lián),創(chuàng)建清除重復(fù)關(guān)聯(lián)規(guī)則,設(shè)v=(v1,v2,…,vn)為圖書(shū)集合,y為圖書(shū)數(shù)量,置信度con(v)如公式(7)所示。
(7)
在推薦過(guò)程中,利用聚類(lèi)算法將書(shū)目聚類(lèi)分為數(shù)量k,根據(jù)關(guān)聯(lián)性對(duì)各聚類(lèi)內(nèi)的書(shū)目生產(chǎn)關(guān)聯(lián)規(guī)則,對(duì)符合最小置信度的書(shū)目創(chuàng)建推薦書(shū)目,從而完成圖書(shū)智能推薦。
5 系統(tǒng)試驗(yàn)
相關(guān)數(shù)據(jù)來(lái)自某高校2020—2023年的校圖書(shū)館信息,主要包括6 000冊(cè)圖書(shū)、12 382條借閱記錄以及13 692名用戶(hù)。
5.1 疏密度
采用3種方法驗(yàn)證疏密度問(wèn)題。1)用類(lèi)別矩陣代替書(shū)目覺(jué)鎮(zhèn),圖書(shū)館包括233個(gè)類(lèi)別。2)將40個(gè)常用類(lèi)別作為特征向量。3)組合聚類(lèi),將k(簇)設(shè)為10,最大迭代數(shù)為40,聚類(lèi)情況見(jiàn)表1。
疏密度如公式(8)所示。
(8)
式中:d為疏密度;t為元素總量;r為元素代表。
上述3種方法的疏密度結(jié)果如圖3所示。根據(jù)試驗(yàn)可知,第一種方法的疏密度為97.63%左右,與其他方法相比,方法一保持了較高水平;第二種方法使用40種常用類(lèi)別,疏密度為86.35%左右;第三種方法通過(guò)聚類(lèi)生成類(lèi)別矩陣,將疏密度降至75.62%左右。
5.2 精確度
為進(jìn)一步驗(yàn)證系統(tǒng)有效性,使用KNN算法與本文系統(tǒng)采用的聚類(lèi)算法進(jìn)行精度比較試驗(yàn)。精度是評(píng)價(jià)系統(tǒng)推薦性能的核心指標(biāo),精度precision如公式(9)所示。
(9)
式中:l為訓(xùn)練集上實(shí)際為正例且被模型正確預(yù)測(cè)為正例的推薦書(shū)目列表;b為測(cè)試集上實(shí)際為負(fù)例但被模型錯(cuò)誤預(yù)測(cè)為正例的書(shū)目列表。
結(jié)果如圖4所示。由試驗(yàn)可知,當(dāng)訓(xùn)練集由10個(gè)增至40個(gè)時(shí),能夠看到2種算法的精度均相應(yīng)提升。閱讀數(shù)量能夠直接影響算法推薦性能。在KNN算法訓(xùn)練過(guò)程中,小訓(xùn)練集可能無(wú)法完全彰顯用戶(hù)興趣,大集合包包括的用戶(hù)興趣過(guò)多。本文系統(tǒng)使用的聚類(lèi)算法有效解決了疏密度問(wèn)題,既有效提升了算法推薦效率與質(zhì)量,同時(shí)也解決了冷啟動(dòng)問(wèn)題。
6 結(jié)語(yǔ)
綜上所述,在數(shù)字時(shí)代,高校圖書(shū)館智能推薦系統(tǒng)的推廣應(yīng)用能夠成為圖書(shū)館事業(yè)發(fā)展的有力推動(dòng)力。本文應(yīng)用全景感知技術(shù),設(shè)計(jì)出一種高校圖書(shū)館智能推薦系統(tǒng),在硬件配置上添加存儲(chǔ)單元,可提升運(yùn)行速度,利用聚類(lèi)算法進(jìn)行相似度計(jì)算,根據(jù)相似度對(duì)書(shū)目生產(chǎn)關(guān)聯(lián)規(guī)則,并將推薦結(jié)果通過(guò)全景感知展示給用戶(hù)。試驗(yàn)結(jié)果表明,本文系統(tǒng)有效解決了疏密度、精度和冷啟動(dòng)問(wèn)題,可面向用戶(hù)需求進(jìn)行精準(zhǔn)化的智能推薦。
參考文獻(xiàn)
[1]王曉霞,孟佳娜,江烽,等.基于多視圖的知識(shí)感知推薦系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化,2024(2):100-107.
[2]張希平,姜華.基于數(shù)據(jù)挖掘的高校圖書(shū)館圖書(shū)推薦系統(tǒng)探究[J].信息記錄材料,2021,22(10):241-242.
[3]王大阜,鄧志文,賈志勇,等.基于用戶(hù)畫(huà)像的高校圖書(shū)館個(gè)性化圖書(shū)推薦研究[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,50(3):95-103.
[4]鄒永茂.基于互聯(lián)網(wǎng)的校園圖書(shū)館薦書(shū)模式分析[J].電子技術(shù),2024,53(2):410-411.
[5]馬艷.基于語(yǔ)義圖譜的圖書(shū)館文獻(xiàn)推薦系統(tǒng)設(shè)計(jì)[J].信息技術(shù),2023(10):147-151.
[6]閆俊輝.基于多維關(guān)系和用戶(hù)聚類(lèi)的智慧圖書(shū)館個(gè)性化圖書(shū)推薦研究[J].現(xiàn)代計(jì)算機(jī),2023,29(14):62-65,73.