黨小琴
(陜西學(xué)前師范學(xué)院,陜西 西安 710100)
信息化時代中,海量的數(shù)據(jù)充斥著人們的生活,在信息大爆炸時代背景下如何合理地獲取知識是值得探討和需要解決的問題[1]。以圖書信息為例,傳統(tǒng)的知識信息獲取方式在效率和精準(zhǔn)度上已經(jīng)無法滿足人們快節(jié)奏的要求,如何在短時間內(nèi)獲取圖書信息是亟需解決的問題,這樣可以有效縮短搜索時間,提高借閱體驗感[2-3]。
近年來,關(guān)于圖書館信息技術(shù)方面的研究成果雖然較多,但是大多數(shù)研究成果集中于圖書管理系統(tǒng)的改良和圖書信息的收錄,少部分研究成果會涉及到圖書信息的采集與過濾,相關(guān)研究不夠深入[4-6]。目前來看,圖書信息管理方面的研究存在如下問題[7-9]:1)圖書信息不夠精確,較為粗糙的算法無法打磨出精準(zhǔn)的信息展示平臺,導(dǎo)致用戶黏性較低;2)啟動方式不智能,目前主流的信息啟動方式為冷啟動,分為物品冷啟動和用戶冷啟動,剛接觸系統(tǒng)的用戶由于在系統(tǒng)中沒有留下任何瀏覽記錄,系統(tǒng)無法計算出用戶是否對某一門類書籍感興趣;3)圖書信息的多樣性欠缺,現(xiàn)有的圖書管理信息系統(tǒng)主要對與用戶感興趣圖書的類似文獻(xiàn)進行集中推薦,缺乏擴展,用戶易產(chǎn)生查閱疲勞,對于用戶來說,單一推薦他們感興趣的書籍無法對搜索結(jié)果進行解釋,也無法達(dá)到最佳的用戶體驗。
本文提出了一種基于柔性策略的用戶信息優(yōu)化圖書推薦方法,將其用于圖書信息的自動采集和優(yōu)化篩選,該方法能夠提高信息采集的速率和信息推進的精準(zhǔn)度。
目前,關(guān)于優(yōu)先級推薦算法的研究成果雖然很多,但是應(yīng)用于圖書信息推薦的較少,較為常見的算法主要有以下3種[10]。
1)內(nèi)容推薦算法。
內(nèi)容推薦算法是一種最為常用的圖書信息個性化推薦方法,該算法基于用戶歷史搜索數(shù)據(jù),將其搜索較多的一類圖書分類后給予推薦,主要推薦的是用戶偏好模型中的相似書籍,在評估過程中用戶興趣信息和圖書信息呈現(xiàn)相似性關(guān)聯(lián)關(guān)系。其流程如圖1所示。
圖1 內(nèi)容推薦算法流程
2)鄰域推薦算法。
鄰域推薦算法主要是將當(dāng)前用戶搜索過程中發(fā)現(xiàn)的與其搜索內(nèi)容相似的鄰近用戶的搜索內(nèi)容篩選出來進行匹配和評分,將得分最高的信息推薦給用戶。該算法計算思路如下:首先輸入k個鄰近參數(shù)(用于指代圖書信息關(guān)鍵詞),然后將用戶搜索數(shù)據(jù)拆分為訓(xùn)練集和測試集,在分拆過程中數(shù)據(jù)進行相似性排序形成新用戶矩陣,當(dāng)矩陣排列完成后對k個鄰近用戶分別進行相似度匹配,最終根據(jù)不同匹配分?jǐn)?shù)獲取推薦物品信息。
3)混合推薦算法。
由于不同的個性化信息推送算法各有優(yōu)劣,因此在工業(yè)實踐中往往將不同算法進行組合形成新的混合推薦算法,這類算法能夠取長補短,提高數(shù)據(jù)推送的準(zhǔn)確性。目前主流的混合推薦算法有整體融合、并行融合和線性融合3種,其中線性融合算法是較為流行的算法,該算法利用協(xié)同過濾技術(shù)將一定數(shù)量的信息進行排序和分類,然后將結(jié)果導(dǎo)入混合模型通過分析得出推薦內(nèi)容。
常用的算法雖然有一定適用性,但是在運行效率和個性化程度上依然存在一些短板,因此本文提出了柔性策略混合算法。該算法將不同類型的圖書信息劃分到不同的象限進行歸納,計算出不同優(yōu)先級,采集過程中利用柔性采集方案避免發(fā)生信息相互干擾,然后利用雙重量化判定降低數(shù)據(jù)波動程度,以此形成一個良性的信息推薦及調(diào)整方案。
在建立圖書信息的過程中,本文利用模糊綜合評價法進行量化處理,從而劃分出不同的象限組合進行判斷。
1)構(gòu)建判定因子U子集:U={u1,u2},其中u1為判別信息的重要性,u2為判別信息的效率;
2)構(gòu)建圖書信息因子的權(quán)重集合A:A={a1,a2,…},權(quán)重值在對因素進行審慎分析后得出;
3)構(gòu)建判定集V,V={v1,v2,…},以專業(yè)技術(shù)人員的研究結(jié)果為指導(dǎo),獲得圖書信息的判定矩陣R。
(1)
模糊綜合判斷法的判別公式如下:
(2)
式中:B為模糊綜合判別值;aj為標(biāo)準(zhǔn)信息文本數(shù)量集;rjk為判定子集中的向量;k為某一閾值參數(shù)。
由式(2)可獲得采用象限優(yōu)先級的判別結(jié)果。另外,當(dāng)臨近數(shù)據(jù)發(fā)生變化時,采集方案也應(yīng)該變化,由于臨時變化導(dǎo)致的數(shù)據(jù)采集間隔發(fā)生了無序變動會產(chǎn)生誤差,因此本文采用雙重誤差判別,判別公式如下:
第一次判別
(3)
第二次判別
(4)
式中:f0為原始判別平均值;f1為第一次判別結(jié)果;f2為第二次判別結(jié)果;i為某一個數(shù)據(jù)采集點;fi為判別中間結(jié)果。
信息推薦算法是否合格并滿足用戶需求,需要用評分準(zhǔn)確率、推薦準(zhǔn)確率和覆蓋率3個指標(biāo)去評價:第一,評分準(zhǔn)確率,可以先建立用戶偏好模型,然后采用均方根誤差算法對用戶對陌生領(lǐng)域的書籍的興趣愛好進行評估;第二,推薦準(zhǔn)確率,通過召回率和準(zhǔn)確率兩者來衡量,例如給用戶推薦了n本書籍,以其占用戶喜歡的圖書集的比例作為準(zhǔn)確率;第三,覆蓋率,主要用于評價算法對潛在圖書數(shù)據(jù)的挖掘能力,是否可以幫用戶找出那些不夠流行但又比較感興趣的信息。
以某網(wǎng)站圖書信息推薦版塊的數(shù)據(jù)作為源數(shù)據(jù),該網(wǎng)可以獲取用戶對不同圖書的評分、評價和愛好程度,還可以獲取圖書的基本信息如目錄、出版日期、出版單位和評論人數(shù)等。在瀏覽圖書的過程中,界面會給用戶提供一個“最受關(guān)注圖書”版塊,目的是給用戶推薦其感興趣的書籍,但是研究后發(fā)現(xiàn)針對不同用戶所推薦的圖書目錄基本一致,如圖2所示。
圖2 圖書推薦界面
從網(wǎng)站推薦結(jié)果來看,網(wǎng)站所采取的算法個性化程度較低,無法滿足信息個性化需求,對于用戶偏好的解析較慢。本文采用柔性策略算法的目的便是改良這一信息推薦算法,具體的算法流程如圖3所示。
圖3 柔性策略信息采集算法流程
首先依據(jù)模糊綜合評價來實現(xiàn)圖書信息建模和圖書內(nèi)容向量化;然后將用戶感興趣的圖書進行整合,建立用戶偏好模型;最后采用二次校正判別方法對偏好模型和圖書內(nèi)容模型進行匹配,從而獲得用戶最感興趣的圖書信息。具體算法步驟如下:
1)圖書信息采集和建模。
首先,將圖書信息按照圖書編號、書名、作者、關(guān)鍵詞等信息進行歸納整理,見表1;然后將圖書劃分為不同的象限之后,對書籍的關(guān)鍵信息權(quán)重大小進行自動分類。本文使用的建模軟件為MATLAB,該軟件中的model模塊能夠?qū)π畔⑤斎胛谋具M行向量化表達(dá),從而獲得最合理的向量值。
表1 圖書關(guān)鍵信息分類表
2)用戶借閱偏好建模。
基于評分法(5分為滿分),若一本圖書用戶評分為3分,表示該圖書比較受讀者青睞,是用戶比較偏愛的圖書,然后收集和統(tǒng)計該圖書的關(guān)鍵信息,提取用戶較為重視的關(guān)鍵詞,調(diào)用Doc2vec算法再次對其進行訓(xùn)練,得到用戶與圖書之間的相識度平均值。
3)相識度預(yù)測。
本文利用Person算法計算用戶偏好與圖書信息之間的關(guān)聯(lián)度,Person算法中,用戶對某一個圖書信息的喜好程度可以量化為[-1,1],若預(yù)測分?jǐn)?shù)為正值代表用戶偏好這本圖書,若為負(fù)值代表用戶對該圖書不感興趣,預(yù)測評分公式為:
(5)
式中:f(·)為用戶u對某圖書s的感興趣程度評分;r為用戶和圖書之間的相識度;M為達(dá)標(biāo)關(guān)鍵詞。
4)二次矩陣判斷。
經(jīng)過上述步驟獲得了采用象限優(yōu)先級的判別結(jié)果,基于這個結(jié)果再以用戶點擊頻率高為原則,依據(jù)圖書信息采集量和運行狀態(tài)數(shù)進行二次判別,判別過程中剔除無序變動和臨時變化所產(chǎn)生的圖書信息,最后根據(jù)預(yù)測分值排序得到用戶最感興趣的圖書集。
為驗證該柔性策略的圖書信息推薦準(zhǔn)確率,以某網(wǎng)站所收集的讀書評分?jǐn)?shù)據(jù)為原始依據(jù),采集用戶評分共計3萬條(其中評論數(shù)據(jù)2.5萬條,圖書數(shù)據(jù)0.5萬條),截止時間為2020年10月18日。由于部分用戶閱讀量太小導(dǎo)致評價結(jié)果不夠合理,算法訓(xùn)練容易受到干擾,因此本文選取圖書借閱數(shù)量在100本以上的用戶評分作為有效評分。
以評分準(zhǔn)確率作為本文算法優(yōu)劣的評價指標(biāo)之一。采用評分準(zhǔn)確率的RMSE均方根誤差來進行評判,RMSE值越高,誤差越大,RMSE值越低,則誤差越小。評價過程中考慮數(shù)據(jù)量過于龐大,選取針對性的10次隨機驗證過程,每次驗證抽取10名用戶進行反饋和推薦圖書,其RMSE值如圖4所示。
圖4 評分準(zhǔn)確率RMSE均方根誤差對比結(jié)果
從圖4可以看出,采用柔性策略的Doc2vec算法其RMSE值為0.2~1.0,而一般算法的RMSE值最大接近2.5,最小為0.4,由此可以看出柔性策略算法的預(yù)測誤差值更小。另外發(fā)現(xiàn),一般算法的預(yù)測誤差值離散度較大,其推薦給用戶感興趣的圖書穩(wěn)定性差,說明后者對于圖書信息的把握更穩(wěn)定和準(zhǔn)確。
為對比不同算法的推薦準(zhǔn)確率,采用召回率和準(zhǔn)確率作為評價指標(biāo),內(nèi)容推薦算法、鄰域推薦算法和柔性策略混合Doc2vec算法的測試結(jié)果對比如圖5和圖6所示。
從圖5可以看出,內(nèi)容推薦算法與鄰域推薦算法的召回率基本相近,均值在10%左右,柔性策略算法的召回率明顯高于前兩者,為19%~20%。從圖6可以看出,基于內(nèi)容推薦算法的準(zhǔn)確率最低,約為0.07%;基于鄰域推薦算法的準(zhǔn)確率為0.08%~0.09%,而柔性策略算法的準(zhǔn)確率為0.14%~0.16%。整體上來說,采用柔性策略的混合算法大幅度提高了圖書信息采集效率和推薦準(zhǔn)確率。
圖5 召回率對比曲線
圖6 準(zhǔn)確率對比曲線
為解決傳統(tǒng)的圖書信息采集和推薦算法在速率和推薦精度上低效的問題,本文提出了基于柔性策略的混合(Doc2vec)算法,設(shè)計了圖書信息采集和優(yōu)化過濾方案,并以某網(wǎng)站圖書數(shù)據(jù)為例進行了實證研究對比,結(jié)果發(fā)現(xiàn)該方法能夠大幅度提高圖書信息采集的效率和推薦準(zhǔn)確率,具有一定的實用價值和推廣意義。