吳俊絨
(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院, 咸陽 712000)
當(dāng)前信息化進(jìn)程加速,網(wǎng)絡(luò)信息技術(shù)對(duì)于各種傳統(tǒng)行業(yè)的發(fā)展都產(chǎn)生了重要的影響。面臨著越來越多樣化的用戶需求,傳統(tǒng)的圖書館形式也無法更好的滿足用戶的需求。網(wǎng)絡(luò)化和數(shù)字化為主體的圖書館形式也加速推進(jìn)進(jìn)程,內(nèi)部包含了越來越多電子信息,這樣會(huì)容易導(dǎo)致用戶陷入到信息海洋當(dāng)中,無法快速有效的找到自己想要的信息[1]。當(dāng)前圖書館所采用的不少查詢功能都是基于用戶提交的關(guān)鍵詞或者是匹配數(shù)據(jù)庫當(dāng)中的信息,對(duì)于查詢結(jié)果并不會(huì)進(jìn)行專門的排序,更不會(huì)將用戶的興趣放在首要位置[2]。這樣不同用戶如果提交的關(guān)鍵詞相同,而他們的興趣卻千差萬別,搜索出的結(jié)果是一樣的,不會(huì)根據(jù)他們自身的興趣而發(fā)生改變,使用戶個(gè)性化的需求得不到較好的滿足。本次研究以用戶興趣模型為基礎(chǔ),所謂用戶興趣模型就是可以計(jì)算描述用戶所感興趣的信息,然后再收集用戶感興趣的點(diǎn),構(gòu)建專門的模型來對(duì)用戶的興趣進(jìn)行記錄和管理。
如果用戶是初次使用數(shù)字圖書館,那么可能無法獲得用戶具體的點(diǎn)擊時(shí)間和瀏覽時(shí)間,因此需要借助于用戶顯式反饋方法,構(gòu)建以用戶興趣為基礎(chǔ)的模型。本次研究所采用的用于表示用戶興趣的方法為向量空間模型法。此種方法的具體應(yīng)用為:需要假設(shè)用戶所提交的興趣主題為N個(gè),用戶在選擇感興趣文獻(xiàn)的時(shí)候可以按照不同的主體,使用向量表示相關(guān)興趣模型。比如可以采用以下方式表示:
D=(d1,d2,…dn)
向量di與特征詞之間又存在一定的關(guān)系,比如可以使用tj來進(jìn)行表示。比如:
di={(t1,w1),(t2,w2),…(tm,wm}
另外還需要對(duì)tj在其相對(duì)應(yīng)的文獻(xiàn)當(dāng)中所占據(jù)的權(quán)重值,即TF-IDF權(quán)重值進(jìn)行計(jì)算,所采用的公式為:
在該公式當(dāng)中,文件總個(gè)數(shù)采用s表示,特征詞tj文件數(shù)采用sj來表示;在文件i當(dāng)中,特征詞所出現(xiàn)的次數(shù)采用tfij來表示;在文件當(dāng)中出現(xiàn)次數(shù)最多的詞采用tfmax來進(jìn)行表示。
用戶在實(shí)際瀏覽文獻(xiàn)的過程中,其興趣并不是一成不變,隨著他們自己瀏覽信息的變化以及閱讀量的改變,用戶的興趣也在發(fā)生相應(yīng)的變化[3]。如果是在高校,圖書館面臨的用戶主要是老師和學(xué)生,在某個(gè)時(shí)間段內(nèi)由于課程的影響,或許對(duì)某些數(shù)據(jù)十分感興趣。所以這也說明用戶興趣模型在構(gòu)建之后并不是一成不變的,而是需要對(duì)之前的查詢記錄進(jìn)行保存,而且還需要以最快的速度進(jìn)行更新。
用戶在接受數(shù)字圖書館所提供的服務(wù)時(shí),如果查閱的信息可以滿足用戶的需求,那么用戶會(huì)直接進(jìn)行查閱,但是如果用戶的需求得不到滿足,那么用戶會(huì)更換查詢的關(guān)鍵詞[4]。通常用戶在正常查詢的過程中也需要更改多次的關(guān)鍵詞才可以查詢到自己需要的信息。更新用戶模型設(shè)計(jì)如下:
(1) 把關(guān)鍵詞設(shè)置為用戶本次輸入的內(nèi)容,再對(duì)用戶最后一次瀏覽記錄當(dāng)中該詞出現(xiàn)的情況進(jìn)行計(jì)算,得到TF-IDF值,如果權(quán)值比閾值大,那么用戶的查詢意圖并未發(fā)生明顯改變。
(2) 在具體更新的過程中,如果發(fā)現(xiàn)閾值低于用戶興趣度則需要將用戶本次輸入的文獻(xiàn)信息納入到模型當(dāng)中實(shí)現(xiàn)更新。
(3) 不同用戶的興趣度不同,興趣度的計(jì)算則是需要以用戶的點(diǎn)擊時(shí)間和次數(shù)為幾乎進(jìn)行計(jì)算。在具體應(yīng)用數(shù)字圖書館查詢時(shí),應(yīng)用單一查詢?cè)~來進(jìn)行查詢的比較少見,所以會(huì)應(yīng)用高級(jí)搜索或者擴(kuò)展檢索等方式,所以需要將查詢?cè)~C納入到用戶興趣度模型計(jì)算當(dāng)中。計(jì)算用戶興趣度的公式主要為:
在該公式當(dāng)中,Pk所代表的是查詢?cè)~k在歷史記錄當(dāng)中的次數(shù);查詢?cè)~總數(shù)使用Q來表示;查詢?cè)~C在上次用戶查詢記錄當(dāng)中j的平均瀏覽時(shí)間和次數(shù)分別使用Tqij和nqij來進(jìn)行表示。
計(jì)算用戶平均瀏覽速度在具體計(jì)算的過程中,不能僅僅按照用戶瀏覽時(shí)間的平均值開展相應(yīng)的計(jì)算,同時(shí)還需要將文獻(xiàn)自身的差異性考慮在內(nèi)[5]。所以在具體更新設(shè)計(jì)的過程中還需要進(jìn)行相應(yīng)的無量化處理。
假設(shè)用戶瀏覽時(shí)間采用T來表示,而不同文獻(xiàn)信息中使用字符量M表示,那么平均時(shí)間的計(jì)算可以采用以下公式實(shí)現(xiàn):
用戶瀏覽時(shí)間平均值的計(jì)算還需要對(duì)已經(jīng)設(shè)定好的閾值和興趣度等進(jìn)行比較。如果閾值低于用戶的興趣度,這需要將用戶的興趣度納入到用戶興趣模型當(dāng)中,這樣也是對(duì)用戶興趣模型進(jìn)行具體更新的過程,以此為基礎(chǔ)為用戶下一次使用數(shù)據(jù)圖書館的查詢奠定基礎(chǔ)。對(duì)于最初所構(gòu)建的用戶興趣模型,即D=(d1,d2,…dn),需要根據(jù)新增文獻(xiàn)信息向量的具體情況來開展下一步的設(shè)計(jì)。若新增文獻(xiàn)信息向量的x值和已經(jīng)構(gòu)建的di值相似度比較高,那么可以將興趣向量和信息向量融合在一起,即實(shí)現(xiàn)兩者合并。在具體合并過程中,需要將x特征詞以及其對(duì)應(yīng)的權(quán)值加入到興趣向量當(dāng)中,若發(fā)現(xiàn)某特征詞包含在di當(dāng)中,權(quán)值是兩者之和。在具體合并好之后,還需要按照特定的順序來排列特征詞。但如果x值和di值之間的相似度都比較低,那么需要將x作為用戶的新興趣完成對(duì)已有用戶興趣模型的更新。
在數(shù)字圖書館數(shù)據(jù)查詢系統(tǒng)當(dāng)中常見的信息檢索模型為向量空間模型,而且其已經(jīng)得到了十分廣泛的應(yīng)用,在數(shù)字圖書館的結(jié)果查詢排序以及檢索信息領(lǐng)域都得到了較好的效果[6]。本次研究所采用的模型正是這種模型。向量空間模型當(dāng)中向量必然是重要的構(gòu)成要素,而該模型當(dāng)中的向量主要是將用戶需要查詢的相關(guān)文獻(xiàn)信息以及查詢語句信息等進(jìn)行相應(yīng)的映射,這樣機(jī)會(huì)得到向量,繼而對(duì)語句的相似度進(jìn)行查詢,并且借助于已經(jīng)選定好的相似法來對(duì)查詢對(duì)象進(jìn)行計(jì)算。查詢結(jié)果的篩選需要設(shè)定相似度閾值,再查詢結(jié)果,最后對(duì)查詢結(jié)果的排序需要以相似性大小為標(biāo)準(zhǔn)。本次對(duì)于查詢結(jié)果的排序優(yōu)化,則需要結(jié)合先前所設(shè)計(jì)的用戶興趣模型,得到影響結(jié)果的影響因子。
影響因子計(jì)算需要以文獻(xiàn)信息平均相似度Yj和用戶模型D等來進(jìn)行計(jì)算,在得到相關(guān)的影響因子之后,然后再進(jìn)行優(yōu)化查詢結(jié)果排序問題。當(dāng)前在相似度計(jì)算當(dāng)中,余弦相似法是被大多數(shù)人所普遍接受的一種方法,也被廣泛使用在向量空間模型的具體計(jì)算當(dāng)中。關(guān)于用戶興趣模型影響因子以及余弦相似度等方面的的計(jì)算,需要應(yīng)用到以下公式:
對(duì)檢索結(jié)果的影響因子計(jì)算所采用的公式為:
在計(jì)算得到了檢索結(jié)果之后需要按照特定順序來進(jìn)行專門的排序,排序需要根據(jù)優(yōu)化之后的相似度來開展相應(yīng)的計(jì)算,計(jì)算公式如下;
S最終=ω影響因子×S向量
本次研究所側(cè)重的內(nèi)容是構(gòu)建用戶興趣模型,同時(shí)基于用戶興趣的多變性,設(shè)計(jì)用戶模型更新模型。除此之外,為了得到更加準(zhǔn)確的數(shù)字圖書館數(shù)據(jù)信息查詢結(jié)果,提高其治療的有效性,需要對(duì)影響結(jié)果的相關(guān)因素進(jìn)行研究分析。因此本次研究還對(duì)影響因子進(jìn)行研究計(jì)算和分析。
為了進(jìn)一步驗(yàn)證本次所設(shè)計(jì)的基于用戶興趣的模型的有效性及應(yīng)用性,將其應(yīng)用在具體的數(shù)字圖書館中,并且對(duì)應(yīng)用前后的效果變化情況進(jìn)行對(duì)比研究。采用的調(diào)查方法為調(diào)查問卷,所設(shè)置的問題分別包含應(yīng)用前后用戶對(duì)數(shù)據(jù)查詢結(jié)果的的滿意度、查詢的便利性以及結(jié)果的準(zhǔn)確性等進(jìn)行調(diào)查。問卷共計(jì)發(fā)放100份,回收且有效的問卷總數(shù)為95份,回收有效率為95%,表1為應(yīng)用用戶興趣模型構(gòu)建數(shù)字圖書館查詢系統(tǒng)的調(diào)查結(jié)果。
表1 基于用戶興趣模型優(yōu)化數(shù)字圖書館數(shù)據(jù)查詢系統(tǒng)的
(1) 用戶興趣模型顧名思義是以用戶切實(shí)的興趣為出發(fā)點(diǎn),在成功對(duì)用戶的興趣進(jìn)行捕捉之后,構(gòu)建相應(yīng)的模型,實(shí)現(xiàn)對(duì)用戶興趣的管理。用戶興趣模型當(dāng)中包含用戶在使用數(shù)字圖書館過程中所有的查詢記錄,以及點(diǎn)擊瀏覽的記錄等,這些都是判定用戶是否滿意的重要標(biāo)準(zhǔn)。本次設(shè)計(jì)為了使數(shù)字圖書館數(shù)據(jù)查詢結(jié)果得到進(jìn)一步的優(yōu)化,應(yīng)用了用戶興趣模型,旨在通過設(shè)計(jì)和應(yīng)用這一模型,讓用戶的個(gè)性化需求得到更好的滿足,同時(shí)也使得圖書館館藏信息得到更加準(zhǔn)確的查詢。
(2) 用戶自身的興趣會(huì)隨著閱讀量及閱歷的變化而發(fā)生相應(yīng)的改變,所以用戶興趣模型并非一成不變,需要結(jié)合用戶自身興趣的變化而發(fā)生相應(yīng)的更新,這就需要設(shè)計(jì)相應(yīng)的用戶興趣更新模型。
(3) 數(shù)字圖書館數(shù)據(jù)查詢影響因子對(duì)用戶最終所得到的查詢結(jié)果有著直接影響,所以還需要通過設(shè)計(jì)相關(guān)的計(jì)算公式來計(jì)算得到影響因子,并且按照從大到小的順序來對(duì)影響因子進(jìn)行排列,有針對(duì)性的優(yōu)化數(shù)據(jù)查詢系統(tǒng)。
(4) 通過對(duì)該模型的實(shí)際應(yīng)用和調(diào)查發(fā)現(xiàn),其能夠更好的貼合用戶自身的興趣,更好滿足他們個(gè)性化的需求,而且調(diào)查結(jié)果也顯示在應(yīng)用前后的滿意度、結(jié)果準(zhǔn)確度以及查詢便利度等明顯提升。
[1] 楊震,司書勇,李超陽. 基于用戶隱式興趣模型的信息推薦技術(shù)研究[J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版),2017(7):1-7.
[2] 宰姣姣. 基于用戶興趣模型的數(shù)字圖書館數(shù)據(jù)查詢結(jié)果排序優(yōu)化研究[J]. 農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015(7):5-7.
[3] 陳潔敏,李建國(guó),湯非易,等. 融合“用戶-項(xiàng)目-用戶興趣標(biāo)簽圖”的協(xié)同好友推薦算法[J]. 計(jì)算機(jī)科學(xué)與探索,2017(2):1-9.
[4] 宰姣姣. 基于用戶興趣模型的數(shù)字圖書館數(shù)據(jù)查詢結(jié)果排序優(yōu)化研究[J]. 農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015,27(7):5-7.
[5] 王慶福. 基于多維尺度向量的用戶興趣模型構(gòu)建研究[J]. 微型電腦應(yīng)用,2015,31(5):39-41.
[6] 劉鑫,張?jiān)?李曉城,錢松榮. 主題興趣度提取方法及其在用戶興趣模型中的應(yīng)用研究[J]. 微型電腦應(yīng)用,2011,27(3):38-41+5.