李菲菲
摘 要:為了解決目前用戶在圖書館檢索系統(tǒng)中無(wú)法找到自己感興趣的內(nèi)容的困境,文章以抓取的各類教育網(wǎng)站上的課程信息作為實(shí)驗(yàn)數(shù)據(jù),將用戶興趣與基于倒排索引的Lucene算法及LDA算法模型相結(jié)合,引入U(xiǎn)CI-Lucene算法:使用Lucene算法得出基于倒排索引的搜索結(jié)果,使用LDA主題模型算法對(duì)Lucene算法得出的搜索結(jié)果計(jì)算得到課程的興趣分布,與此同時(shí)使用LDA主題模型算法通過(guò)對(duì)用戶日志進(jìn)行計(jì)算得出用戶的興趣分布,接下來(lái)將課程的興趣分布與用戶的興趣分布做相似度計(jì)算,得到課程—用戶的興趣相似度,最后通過(guò)加權(quán)Lucene算法得出的搜索結(jié)果得分和課程—用戶的興趣相似度得分得到每個(gè)課程的綜合得分,得到最后的搜索排序結(jié)果?;谏鲜龈倪M(jìn)算法,文章設(shè)計(jì)了一款智慧圖書館個(gè)性化檢索系統(tǒng)。實(shí)驗(yàn)表明,基于用戶興趣改進(jìn)模型的智慧圖書館個(gè)性化檢索系統(tǒng)不僅能夠更好滿足用戶的搜索需求和用戶興趣,還能夠顯著提升搜索結(jié)果的準(zhǔn)確性和召回率。
關(guān)鍵詞:Lucene;LDA;個(gè)性化檢索系統(tǒng);UCI-Lucene;用戶興趣改進(jìn)模型;智慧圖書館
中圖分類號(hào):G250.7;G252.62文獻(xiàn)標(biāo)識(shí)碼:A
Research on Personalized Retrieval Services in Smart Libraries Based on User Interest-Enhanced Models
Abstract To address the challenge of users not being able to find content of interest in library retrieval systems, this article utilizes course information collected from various educational websites as experimental data. It combines user interests with the Lucene algorithm based on inverted indexing and introduces the UCI-Lucene algorithm. The UCI-Lucene algorithm derives search results based on the Lucene algorithm's inverted indexing. It then employs the LDA topic modeling algorithm to calculate the interest distribution of courses from the search results obtained by the Lucene algorithm. Simultaneously, it utilizes the LDA topic modeling algorithm to calculate the interest distribution of users based on their activity logs. Next, it computes the similarity between the interest distributions of courses and users, resulting in course-user interest similarity scores. Finally, it combines the scores from the weighted Lucene algorithm and the course-user interest similarity scores to obtain comprehensive scores for each course, yielding the final search ranking results. Based on the improved algorithm described above, the article designs a personalized retrieval system for smart libraries. Experimental results demonstrate that the user interest-enhanced model in the smart library personalized retrieval system not only better satisfies users' search needs and interests but also significantly improves the accuracy and recall of search results.
Key words Lucene; LDA; retrieval system; UCI-Lucene; User Interest-Enhanced Models; smart library
1 引言
隨著信息技術(shù)的快速發(fā)展,各類檢索系統(tǒng)[1]應(yīng)運(yùn)而生并得到了迅速發(fā)展,人們的需求日益多樣化,對(duì)于檢索系統(tǒng)的期望也越來(lái)越高。圖書館作為人類精神文明的重要載體,核心任務(wù)就是致力于為用戶提供更加人性化和智慧化的服務(wù)[2],以滿足用戶工作、學(xué)習(xí)和研究需求,不斷探索和提高智慧化的可能性。但是,當(dāng)前的圖書館檢索系統(tǒng)存在一些不足,例如搜索結(jié)果與用戶的期望不符,不能夠滿足用戶的需求和興趣等,這些問(wèn)題導(dǎo)致了用戶必須花費(fèi)大量的時(shí)間來(lái)篩選和過(guò)濾沒(méi)有價(jià)值的內(nèi)容,因此需要設(shè)計(jì)一種挖掘用戶潛在興趣的檢索算法[3]來(lái)提高讀者的檢索效率。
早期的檢索系統(tǒng)旨在通過(guò)分析和優(yōu)化已有信息,以提高搜索結(jié)果的準(zhǔn)確性和可靠性。Metacrawler檢索系統(tǒng)[4]可以有效地收集和處理用戶的信息,用戶可以輕松地在瀏覽器中查詢所需的信息,提升了檢索系統(tǒng)的效率。Google檢索系統(tǒng)使用PageRank算法[5]評(píng)估網(wǎng)站的權(quán)重,從而確保用戶可以獲得更多有價(jià)值的信息,但是這種方式的缺陷是無(wú)法實(shí)現(xiàn)滿足用戶興趣的個(gè)性化檢索。隨著時(shí)間的推移,網(wǎng)絡(luò)上信息數(shù)量急劇增加,搜索結(jié)果的準(zhǔn)確性和可靠性也在不斷下降,越來(lái)越多的研究人員開(kāi)始將研究重心轉(zhuǎn)向用戶興趣。研究人員通過(guò)深入分析用戶行為,挖掘用戶興趣,建立用戶興趣模型,以期望滿足個(gè)性化搜索和提高搜索結(jié)果的準(zhǔn)確性,在個(gè)性化搜索領(lǐng)域的用戶興趣模型研究取得了長(zhǎng)足的進(jìn)步和豐碩的成果。Personal WebWatcher為用戶提供了一種個(gè)性化的服務(wù)[6],它能夠根據(jù)用戶的不同需求進(jìn)行實(shí)時(shí)調(diào)整,通過(guò)用戶的點(diǎn)擊行為來(lái)獲取用戶的最新需求。雅虎(中國(guó))公司推出的MyYahoo[7]利用用戶的個(gè)性化偏好和興趣,構(gòu)建出一個(gè)完整的用戶模型,從而幫助用戶更加有效地搜索出所需信息,但是由于缺乏實(shí)時(shí)性和可靠性,使得其無(wú)法有效地滿足用戶的需求。南京大學(xué)開(kāi)發(fā)的個(gè)性化檢索系統(tǒng)DOLTRI-Agent[8]運(yùn)用挖掘用戶特征、行為、興趣等個(gè)人信息進(jìn)行計(jì)算分析構(gòu)建出用戶的興趣模型,以便更好地滿足用戶的需求,并且能夠及時(shí)發(fā)現(xiàn)其中存在的問(wèn)題,從而提升用戶的搜索體驗(yàn)。
經(jīng)過(guò)深入分析發(fā)現(xiàn),目前個(gè)性化檢索系統(tǒng)存在諸多挑戰(zhàn),其中最突出的幾個(gè)問(wèn)題如下:(1)當(dāng)前的個(gè)性化檢索系統(tǒng)未能充分考慮用戶特征、行為信息、興趣等,也無(wú)法深入挖掘用戶潛在的興趣,從而導(dǎo)致搜索結(jié)果無(wú)法真正滿足用戶的需要。(2)當(dāng)前的個(gè)性化檢索系統(tǒng)會(huì)出現(xiàn)“興趣漂移”的問(wèn)題,即用戶的需求會(huì)隨著時(shí)間的推移而發(fā)生變化,而現(xiàn)有的個(gè)性化檢索系統(tǒng)無(wú)法及時(shí)發(fā)現(xiàn)和滿足這些新的興趣和需求。針對(duì)上述問(wèn)題,本文以隱含狄利克雷分布主題模型算法(Latent Dirichlet Allocations, LDA)和Lucene算法為基礎(chǔ),引入用戶興趣并加以改進(jìn),設(shè)計(jì)了一種智慧圖書館個(gè)性化檢索算法模型:UCI-Lucene。該模型不但更能挖掘用戶潛在的興趣和更加滿足用戶現(xiàn)有興趣,而且能大大提升準(zhǔn)確率和召回率。
2 研究方法
2.1 LDA主題模型
LDA主題模型[9]已經(jīng)成為一種普遍采用的自動(dòng)化技術(shù),可以有效地深入探索文本的語(yǔ)義特征[10],幫助人們發(fā)現(xiàn)文檔中隱藏的主題,從而可以根據(jù)主題分布來(lái)對(duì)文檔進(jìn)行分類或計(jì)算出主題之間的相關(guān)性。該主題模型基于EM算法,能夠?qū)?fù)雜的語(yǔ)義概念轉(zhuǎn)化為一種簡(jiǎn)單的數(shù)學(xué)形式,這樣就能夠讓人們更容易地理解和接受這些信息。由于LDA主題模型沒(méi)有充分考慮詞語(yǔ)之間的順序關(guān)系,大大降低了模型的復(fù)雜度,從而使得該主題模型成為更加高效的方法。2.2 Lucene基本原理
Lucene通過(guò)倒排索引技術(shù),將文件、圖表以及其他數(shù)據(jù)結(jié)合在一起構(gòu)建出一個(gè)有效的索引系統(tǒng)[11]。Lucene算法原理:(1)創(chuàng)建文檔對(duì)象,將每個(gè)文件的屬性存儲(chǔ)在創(chuàng)建的文檔對(duì)象中,并在每個(gè)屬性中添加一個(gè)域以便更好地管理文件,將文檔對(duì)象中的每個(gè)屬性編號(hào),以便更加有效地管理文件。(2)分析文檔,使用文檔對(duì)象的兩個(gè)域(文件名和內(nèi)容)來(lái)進(jìn)行更加細(xì)致的研究。首先需要根據(jù)文件中的字符串,在每個(gè)空白處劃分出一個(gè)詞語(yǔ),然后將其中的每個(gè)單詞都轉(zhuǎn)換成小寫,可以將那些無(wú)意義的單詞稱為停用詞,并進(jìn)行刪除。通過(guò)這種方式,可以創(chuàng)建一個(gè)關(guān)鍵詞清單,這個(gè)關(guān)鍵詞清單由一系列獨(dú)立的關(guān)鍵詞組成,它們分別代表著一個(gè)獨(dú)立的域,而這些域又可以由一系列的單詞組成,從而形成一個(gè)完整的系統(tǒng)。(3)創(chuàng)建索引。為了提升查詢的效率,可以構(gòu)建一個(gè)索引庫(kù),將相關(guān)的關(guān)鍵詞列表與文檔對(duì)象結(jié)合起來(lái),以實(shí)現(xiàn)查詢的高效性,同時(shí)也能夠準(zhǔn)確地記錄下這些關(guān)鍵詞與文檔對(duì)象之間的關(guān)聯(lián)關(guān)系。
2.3 分詞器
分詞器的主要功能是篩選信息,鑒于Lucene自帶的分詞器Analyzer[12]在中文分詞中表現(xiàn)不佳,本文選擇了分詞效果更好的IKAnalyzer[13]來(lái)實(shí)現(xiàn)更加準(zhǔn)確的分詞。IKAnalyzer分詞器是一款功能強(qiáng)大的開(kāi)源中文分詞工具。該分詞器支持Java平臺(tái),并且具備良好的擴(kuò)展性。Lucene技術(shù)為IKAnalyzer提供了強(qiáng)大的支持。IKAnalyzer支持中文、英文、日文等多種語(yǔ)言,其中中文版本符合用戶的需求,性能更加優(yōu)異;除了擁有多種分詞技術(shù),如精細(xì)化分詞和智能分詞,IKAnalyzer還擁有驚人的分詞速度,每秒鐘可以處理超過(guò)60萬(wàn)個(gè)單詞;IKAnalyzer還可以有效地減少內(nèi)存消耗,顯著改善自定義詞典的效率和準(zhǔn)確度;通過(guò)對(duì)Lucene的改進(jìn),其分詞器的功能和性能顯著增強(qiáng),使得搜索的效果和效率有了顯著的改善。
3 基于LDA主題模型的用戶興趣改進(jìn)算法實(shí)現(xiàn)過(guò)程
隨著互聯(lián)網(wǎng)的快速發(fā)展,用戶數(shù)量和網(wǎng)頁(yè)數(shù)量都在迅速增長(zhǎng),導(dǎo)致了傳統(tǒng)的基于關(guān)鍵詞的圖書館檢索系統(tǒng)難以滿足當(dāng)前用戶的需求,檢索結(jié)果容易出現(xiàn)“漂移”現(xiàn)象[14]。用戶在使用關(guān)鍵詞檢索系統(tǒng)時(shí),系統(tǒng)會(huì)使用分詞技術(shù)把一個(gè)特定的詞語(yǔ)拆解為更多的字符,并使用倒排索引來(lái)獲取索引庫(kù)中的結(jié)果。由于用戶無(wú)法準(zhǔn)確地描述自己的真正需求,因此系統(tǒng)會(huì)給出錯(cuò)誤的結(jié)論和無(wú)效的解決方案。因此,在圖書館檢索系統(tǒng)中,引入用戶興趣是十分重要且必要的。
針對(duì)目前圖書館檢索系統(tǒng)檢索結(jié)果無(wú)法滿足用戶興趣和需求的問(wèn)題,本文以抓取多個(gè)教育網(wǎng)站的課程信息作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行研究,設(shè)計(jì)出一種基于LDA主題模型的用戶興趣改進(jìn)算法:UCI-Lucene排序算法。經(jīng)過(guò)實(shí)驗(yàn)表明,采用基于LDA主題模型的用戶興趣改進(jìn)算法得到的檢索結(jié)果不但可以挖掘用戶深層次潛在興趣,構(gòu)建更加精確的用戶興趣模型;搜索結(jié)果更加滿足用戶的興趣和需求,而且可以顯著提升搜索結(jié)果的準(zhǔn)確性和召回率。
3.1 用戶興趣建模
通過(guò)建立一個(gè)有效的用戶興趣模型[15],可以將用戶的需求和偏好有機(jī)地組織起來(lái),從而更好地反映出用戶的真實(shí)需求。通過(guò)使用關(guān)鍵詞來(lái)提取用戶的興趣信息時(shí),由于存在一些相似的概念或者一個(gè)詞有多種含義,因此僅僅基于這些關(guān)鍵詞來(lái)構(gòu)建用戶興趣模型是不夠可靠的。經(jīng)過(guò)研究發(fā)現(xiàn),在用戶的點(diǎn)擊行為、瀏覽時(shí)長(zhǎng)和瀏覽內(nèi)容方面,有一套完整的用戶興趣構(gòu)建流程,它由三個(gè)方面組成。
(1)興趣行為表示
本文用三元組來(lái)描述用戶最近一段時(shí)間內(nèi)的興趣行為,以便更好地了解用戶的行為特征。其中content代表用戶瀏覽的內(nèi)容,本文主要用文章的摘要或者簡(jiǎn)介來(lái)表示;ltime代表用戶最近一次瀏覽該文章的時(shí)間;hits指的是在一段時(shí)間內(nèi)用戶對(duì)該文章的點(diǎn)擊次數(shù)。
(2)瀏覽記錄權(quán)重計(jì)算
在一段時(shí)間內(nèi),用戶可能會(huì)瀏覽多條記錄,本文將這些記錄以列表形式表示出來(lái):,其中dk表示用戶瀏覽的第k條記錄,其興趣行為可以用公式(1)中的三元組來(lái)表示。根據(jù)分析,不同的記錄會(huì)影響用戶的興趣,點(diǎn)擊次數(shù)越多,代表用戶對(duì)此內(nèi)容興趣更大,也就意味著這些記錄的權(quán)重越大。最后一次訪問(wèn)的時(shí)間也代表了此內(nèi)容更符合目前的興趣,因此權(quán)重也會(huì)更大。使用w(dk)來(lái)衡量用戶行為對(duì)用戶興趣的影響,可以通過(guò)公式(1)來(lái)計(jì)算瀏覽記錄的權(quán)重。
在本公式中,tn代表當(dāng)前的時(shí)間, ltimek代表dk最近一次訪問(wèn)的時(shí)間,表示正態(tài)分布,hitsk表示記錄dk的訪問(wèn)次數(shù),為阻尼系數(shù),其具體數(shù)值可以通過(guò)實(shí)驗(yàn)來(lái)確定。
(3)用戶興趣抽取
本文通過(guò)使用LDA主題模型算法從多條記錄中抽取出用戶的興趣。該方法的步驟是:采用LDA主題模型算法計(jì)算出用戶日志中每條記錄的興趣分布,然后將這些興趣分布(分?jǐn)?shù))進(jìn)行加權(quán)求和,根據(jù)公式(2)來(lái)確定用戶的最終興趣。
I(user)代表用戶的初始偏好,而I(dk)則是通過(guò)使用LDA主題模型算法計(jì)算出的每條用戶興趣分布值。
3.2 UCI-Lucene排序算法
LuceneScore是使用基于倒排索引的Lucene算法得出的課程分?jǐn)?shù),UC-InterestScore是通過(guò)使用LDA主題模型算法分別對(duì)課程和用戶日志進(jìn)行計(jì)算,得出的課程興趣分布和用戶興趣分布做余弦相似度計(jì)算得到的分?jǐn)?shù)結(jié)果(課程—用戶興趣分布),這反映了課程與用戶興趣之間的相似程度,而UCI-LuceneScore則是通過(guò)加權(quán)Lucene排序算法和UC-InterestScore(課程—用戶興趣分布)得到的最終的綜合分?jǐn)?shù),是一個(gè)阻尼系數(shù),具體取值取決于實(shí)驗(yàn)過(guò)程。通常來(lái)說(shuō),我們無(wú)法精準(zhǔn)地預(yù)測(cè)每個(gè)維度所代表的主題屬性,但能夠推斷出相似的主題屬性,即使在不同的文檔中,只要有相同的維度,就會(huì)有相似的主題屬性,從而使得最終的排序結(jié)果更加準(zhǔn)確。UCI-Lucene搜索排序算法流程圖如圖1所示。
UCI-Lucene搜索排序算法過(guò)程如下:使用Lucene算法得到基于倒排索引的搜索結(jié)果,記為L(zhǎng)uceneScore;然后使用LDA主題模型算法計(jì)算出課程的興趣分布,同時(shí)使用LDA主題模型算法對(duì)用戶日志進(jìn)行分析計(jì)算得出用戶的興趣分布;接下來(lái)將課程興趣分布和用戶興趣分布做余弦相似度計(jì)算,得到課程—用戶的興趣相似度分?jǐn)?shù),記為UC-InterestScore;最后通過(guò)加權(quán)LuceneScore和UC-InterestScore得到每個(gè)課程的綜合分?jǐn)?shù)UCI-LuceneScore,即最后的搜索排序結(jié)果,計(jì)算方法如公式(3)所示。
4 實(shí)驗(yàn)與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
通過(guò)采用分布式爬蟲技術(shù)[16]和經(jīng)過(guò)精心篩選,實(shí)驗(yàn)組最終確定了50 000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),這些數(shù)據(jù)具有完整、明確的主題和均勻的分布特征,可以滿足本實(shí)驗(yàn)要求,表1列出了其中的部分?jǐn)?shù)據(jù)結(jié)果。
經(jīng)過(guò)精心地對(duì)文檔集標(biāo)題、簡(jiǎn)介以及其他相關(guān)信息的研究,我們最終選擇了38 796條文章數(shù)據(jù)并對(duì)其主題打標(biāo)簽,其中包括8個(gè)一級(jí)主題和26個(gè)二級(jí)主題。
4.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
精確度和召回率作為評(píng)測(cè)指標(biāo)被廣泛用于檢索系統(tǒng),來(lái)衡量算法得到檢索結(jié)果的質(zhì)量和性能[17-18],精確度越高,表明檢索結(jié)果質(zhì)量和性能越好、越精確,召回率越高,說(shuō)明查準(zhǔn)率越高。通過(guò)計(jì)算興趣精確度和興趣召回率來(lái)研究用戶興趣的精確度和性能,興趣精確度和興趣召回率越高,表明興趣越精確。
(1)精確度的計(jì)算如公式(4)所示。
TP表示正類判定為正類,F(xiàn)P表示負(fù)類判定為正類。以主題詞“計(jì)算機(jī)”為例,本文抽取10 000條數(shù)據(jù),將與“操作系統(tǒng)”有關(guān)的3 000條數(shù)據(jù)打標(biāo)簽為“計(jì)算機(jī)”。當(dāng)在檢索系統(tǒng)中輸入“計(jì)算機(jī)”時(shí),得到的搜索結(jié)果有3 200條,Lucene檢索結(jié)果中標(biāo)記為“計(jì)算機(jī)”的有2 487條,即TP=2 487,F(xiàn)P=3 200-TP=713,由此可以得出精確度P=0.777的結(jié)果;UCI-Lucene結(jié)果中標(biāo)記為“計(jì)算機(jī)”的課程條數(shù)為2 550條,即TP=2 550,F(xiàn)P=3 200-TP=650,最終得出精確度P=0.797。
(2)召回率的計(jì)算如公式(5)所示。
TP表示正類判定為正類,F(xiàn)N表示正類判定為負(fù)類。根據(jù)公式(4)中的數(shù)據(jù),TP=2 487,F(xiàn)N=3 000-TP=513,可以得出,基于倒排索引的Lucene的搜索結(jié)果召回率為P=0.829;基于UCI-Lucene算法得到的搜索結(jié)果:TP=2 550,F(xiàn)N=TP=450,計(jì)算得出召回率為P=0.85。
(3)用戶興趣精確度可以根據(jù)公式(6)計(jì)算得出。
SIN代表檢索出的用戶興趣數(shù),TN代表總數(shù)目。以“計(jì)算機(jī)”為例,本文取10 000條關(guān)于“計(jì)算機(jī)”的數(shù)據(jù),將“計(jì)算機(jī)”分為10個(gè)類,如“數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、人工智能原理、計(jì)算機(jī)組成原理、Java程序設(shè)計(jì)、算法分析與設(shè)計(jì)、數(shù)據(jù)庫(kù)原理”等。在這些數(shù)據(jù)中,與“數(shù)據(jù)庫(kù)原理”相關(guān)的數(shù)據(jù)有2 000條,將“數(shù)據(jù)庫(kù)原理”作為一個(gè)興趣,實(shí)驗(yàn)組模擬用戶多次點(diǎn)擊與“數(shù)據(jù)庫(kù)原理”相關(guān)的數(shù)據(jù)。當(dāng)在檢索框中輸入“計(jì)算機(jī)”時(shí),得到的檢索總數(shù)目為2 100條,基于倒排索引的Lucene算法結(jié)果顯示,“數(shù)據(jù)庫(kù)原理”的數(shù)據(jù)有282條,即SIN=282,TN=2 100,得到興趣精確度P=0.134;改進(jìn)的用戶興趣算法模型UCI-Lucene結(jié)果顯示,“數(shù)據(jù)庫(kù)原理”的數(shù)據(jù)量達(dá)到846條,即SIN=846,TN=2 100,計(jì)算可得興趣精確度P=0.403。
(4)根據(jù)公式(7)可以計(jì)算出興趣召回率。
SIN代表檢索出的用戶興趣數(shù),IN代表的是所有的興趣。以上一段第(3)部分中的數(shù)據(jù)為例,與“數(shù)據(jù)庫(kù)原理”相關(guān)的數(shù)據(jù)有2 000條,根據(jù)倒排索引的Lucene算法結(jié)果顯示,“數(shù)據(jù)庫(kù)原理”的數(shù)據(jù)共計(jì)282條,即SIN=282,IN=2 000,得到興趣召回率P=0.141;根據(jù)UCI-Lucene的結(jié)果顯示,“數(shù)據(jù)庫(kù)原理”的數(shù)據(jù)量達(dá)到了846條,即SIN=846,IN=2 000,計(jì)算得到興趣召回率P=0.423。
4.3 實(shí)驗(yàn)過(guò)程與實(shí)驗(yàn)結(jié)果
在用戶登錄系統(tǒng)并輸入檢索詞之后,其瀏覽行為會(huì)被記錄下來(lái),包括點(diǎn)擊次數(shù)、點(diǎn)擊時(shí)長(zhǎng)以及其他相關(guān)信息。在重新進(jìn)行搜索時(shí),可以通過(guò)LDA主題模型算法對(duì)存儲(chǔ)的日志信息進(jìn)行分析計(jì)算,從而統(tǒng)計(jì)出用戶的興趣,具體的算法搜索結(jié)果如表2所示。
通過(guò)實(shí)驗(yàn),本文發(fā)現(xiàn)“計(jì)算機(jī)”、“經(jīng)濟(jì)學(xué)”、“醫(yī)學(xué)”、“理學(xué)”、“管理學(xué)”和“工學(xué)”這6個(gè)主題詞在圖書館個(gè)性化檢索系統(tǒng)結(jié)果中的有效性是通過(guò)使用用戶興趣模型和LDA主題模型來(lái)驗(yàn)證的。通過(guò)下面四組實(shí)驗(yàn),本文探究了用戶興趣如何影響搜索結(jié)果,并將LDA主題模型算法與Lucene算法和UCI-Lucene算法進(jìn)行了比較,具體數(shù)據(jù)可參見(jiàn)表3。
根據(jù)表3的數(shù)據(jù)可以看出,采用UCI-Lucene算法比采用Lucene算法的精確度更高,召回率更高,用戶的興趣更加準(zhǔn)確,興趣召回率也更高,從而大大提升了智慧圖書館檢索系統(tǒng)的精確度、查準(zhǔn)率和性能;用戶對(duì)同一搜索詞的搜索請(qǐng)求可能會(huì)有所不同,但最終的結(jié)果往往會(huì)更加符合用戶的需求,從而滿足用戶的搜索期望。
本文通過(guò)兩篇文獻(xiàn)研究了不同用戶興趣模型對(duì)搜索結(jié)果的影響,并對(duì)其進(jìn)行了詳細(xì)的分析。文獻(xiàn)[19]研究設(shè)計(jì)的一種用戶興趣模型是通過(guò)對(duì)用戶的瀏覽偏好進(jìn)行全面分析,建立的一個(gè)能夠滿足用戶長(zhǎng)期和短期需求的興趣模型,并將其應(yīng)用于個(gè)性化檢索系統(tǒng)中。根據(jù)本文中提出的算法以及參考文獻(xiàn)[19]中的研究成果,對(duì)興趣精確度和興趣召回率進(jìn)行了分析和計(jì)算,具體結(jié)果可見(jiàn)表4。
通過(guò)對(duì)比,UCI-Lucene的搜索結(jié)果比參考文獻(xiàn)[19]中的興趣精確度和興趣召回率更高,這說(shuō)明了本文所構(gòu)建的用戶興趣模型在發(fā)掘用戶偏好方面擁有極大的優(yōu)勢(shì),具有更好的用戶興趣精確率和查準(zhǔn)率。經(jīng)過(guò)深入研究發(fā)現(xiàn),文獻(xiàn)[19]中的用戶興趣模型未能充分考慮網(wǎng)頁(yè)點(diǎn)擊次數(shù)、網(wǎng)頁(yè)權(quán)重以及其他相關(guān)因素[19]。相比之下,本文提出的算法不僅能夠精確衡量網(wǎng)頁(yè)點(diǎn)擊時(shí)間,更好地捕捉網(wǎng)頁(yè)的興趣特征,還能夠更精確地反映出網(wǎng)頁(yè)的點(diǎn)擊頻率和內(nèi)容。
參考文獻(xiàn)[20]提出的興趣模型是通過(guò)一組具有權(quán)重的關(guān)鍵詞構(gòu)成的向量集捕捉用戶的興趣偏好并分析用戶瀏覽行為和內(nèi)容[20],該模型能夠根據(jù)用戶不同時(shí)期的時(shí)間段來(lái)劃分其興趣,并且可以通過(guò)公式(8)來(lái)確定其實(shí)際需求。
Ptd代表了這一天的興趣,用一個(gè)m維的向量來(lái)表示,其中每一項(xiàng)Ptdtk代表了用戶的實(shí)時(shí)興趣,如公式(9)所示,S0代表了一天內(nèi)訪問(wèn)的總頁(yè)面數(shù)。
用戶的穩(wěn)定興趣可以用一段較長(zhǎng)的時(shí)間內(nèi)用戶的訪問(wèn)歷史來(lái)得出,如公式(10)所示。
Psd表示了用戶的穩(wěn)定興趣,用一個(gè)m維的向量來(lái)表示,其中每一項(xiàng)Psdti如公式(11)所示。
n代表了穩(wěn)定興趣的時(shí)間窗口,Si代表了前i天訪問(wèn)的總頁(yè)面數(shù),e-log2/h1*(d-din)為衰減因子,反映了一個(gè)人對(duì)某個(gè)關(guān)鍵詞的關(guān)注度,也可以用來(lái)衡量一個(gè)人對(duì)該關(guān)鍵詞的記憶程度,hl代表了人們興趣持續(xù)一段時(shí)間后開(kāi)始減弱,d-din代表了人們對(duì)某個(gè)興趣持續(xù)的天數(shù),Sn代表了n天內(nèi)訪問(wèn)的總頁(yè)面數(shù)。通過(guò)分析用戶的實(shí)時(shí)興趣和長(zhǎng)期興趣,可以建立一個(gè)用戶興趣模型,如公式(12)所示。
在這個(gè)公式中,a+b=1,而c是一個(gè)常量,具體值根據(jù)實(shí)驗(yàn)所得。經(jīng)過(guò)對(duì)文獻(xiàn)[20]進(jìn)行詳細(xì)的分析研究,本文將抓取的教育類數(shù)據(jù)集劃分為多個(gè)文本類別,并計(jì)算出每個(gè)文本類別的權(quán)重,用戶興趣類別及權(quán)重如表5所示。根據(jù)本文中的UCI-Lucene算法和參考文獻(xiàn)[20]中的研究方法,對(duì)興趣精確度和興趣召回率進(jìn)行了計(jì)算,并將計(jì)算結(jié)果匯總在表6中。
根據(jù)表6的數(shù)據(jù),可以發(fā)現(xiàn)本文提出的UCI-Lucene算法得到的搜索結(jié)果表現(xiàn)出更高的興趣精確度和興趣召回率,這說(shuō)明本文提出的UCI-Lucene算法具有更加優(yōu)秀的發(fā)現(xiàn)能力、精確率和查準(zhǔn)率,能夠幫助用戶更加精確地發(fā)現(xiàn)和挖掘用戶的潛在興趣。本文提出的算法采用LDA主題模型算法,可以自動(dòng)計(jì)算出內(nèi)容的主題個(gè)數(shù),而且可以有效地計(jì)算出內(nèi)容的興趣分布,這種方法比文獻(xiàn)[20]中提出的興趣模型更加智能化。
5 結(jié)語(yǔ)
本文提出了一種新的算法模型來(lái)改善用戶體驗(yàn),即基于LDA主題模型的用戶興趣改進(jìn)算法模型:UCI-Lucene算法模型。UCI-Lucene算法模型在發(fā)現(xiàn)用戶潛在興趣方面表現(xiàn)更出色,它能夠準(zhǔn)確地捕捉用戶的興趣,并且能夠大大提升個(gè)性化檢索系統(tǒng)的精確度、召回率、興趣精確度和興趣召回率,同時(shí)也提高了檢索系統(tǒng)的檢索效率、準(zhǔn)確度和查準(zhǔn)率。智慧圖書館檢索系統(tǒng)融入用戶興趣使得搜索結(jié)果更符合用戶興趣和期望,也更好地滿足了用戶獲取信息、學(xué)習(xí)科研的需要。
參考文獻(xiàn):
[1] 湯瑋,劉旭,尹志帆,等.基于solr下的檢索系統(tǒng)核心技術(shù)研究與應(yīng)用[J].電子制作,2020(14):40-41,50.DOI:10.16589/j.cnki.cn11-3571/tn.2020.14.017.
[2] 湯尚.圖書館元宇宙賦能智慧服務(wù)研究[J].圖書館工作與研究,2023(5):22-27,74.DOI:10.16384/j.cnki.lwas.2023.05.005.
[3] 夏翔,劉姜,倪楓,等.基于混合相似度和用戶興趣遷移的改進(jìn)協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)時(shí)代,2023(3):36-39.DOI:10.16644/j.cnki.cn33-1094/tp.2023.03.009.
[4] 晏一平,岳泉.中外元檢索系統(tǒng)的比較研究[J].圖書館學(xué)研究,2005(11):19-24.DOI:10.15941/j.cnki.issn1001-0424.2005.11.006.
[5] SU Q Y,CHEN C,LONG Z,et al.Identification of critical nodes for cascade faults of grids based on electrical PageRank[J].Global Energy Interconnection,2021,4(6):587-595.
[6] MLADENIC D.Text-learning and related intelligent agents:a survey[J].IEEE Intelligent Systems & Their Applications,2002, 14(4):44-54.
[7] 柯青.基于RSS技術(shù)的個(gè)性化信息服務(wù)新方式:由雅虎看RSS在搜索引擎中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2005(5):537-541.
[8] PAN J G,HU X L,LI J,et al.Design and implementation of a personalized information retrieval agent[J].Journal of Software, 2001,12(7):1074-1079.
[9] LYU Y,YIN M,XI F,et al.Progress and Knowledge Transfer from Science to Technology in the Research Frontier of CRISPR Based on the LDA Model[J].Journal of Data and Information Science,2022,7(1):1-19.
[10] TAN J.Discusses of User Interest Model in Personalized Search[J].International Journal of Advancements in Computing Technology,2013,5(1):619-626.
[11] LUO G,XU H. Intelligent Retrieval Knowledge Repository Model Design Based on Lucene Research[C]//Science and Engineering Research Center.Proceedings of 2015 International Conference on Industrial Informatics,Machinery and Materials(IIMM 2015).Lancaster:DEStech Publications,2015:102-105.
[12] SIRINART C,AREENUCH T,SUMITTRA J, et al. Evaluation of the ESR fast detector and Improve? ESR analyzer as modified Westergren methods for erythrocyte sedimentation rate.[J].Scandinavian journal of clinical and laboratory investigation,2022,82:7-8.
[13] 孟幫杰,王占剛.兩種中文分詞算法在云計(jì)算平臺(tái)上的實(shí)現(xiàn)及比較[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(12):67,71.
[14] DING H,LIU Q,HU G W.TDTMF:A recommendation model based on user temporal interest drift and latent review topic evolution with regularization factor[J].Information Processing and Management,2022,59(5):528-543.
[15] TAN J.Discusses of User Interest Model in Personalized Search[J].International Journal of Advancements in Computing Technology,2013,5(1):619-626.
[16] PU Q.The Design and Implementation of a High-Efficiency Distributed Web Crawler[C]//Dependable,Autonomic and Secure Computing,Intl Conf on Pervasive Intelligence and Computing,Intl Conf on Big Data Intelligence and Computing and Cyber Science and Technology Congress.New York:IEEE,2016:100-104.
[17] TAN C C,SHENG B,WANG H,et al.Microsearch:A search engine for embedded devices used in pervasive computing[J].Acm Transactions on Embedded Computing Systems,2010,9(4):1-29.
[18] 陳弄祺.國(guó)內(nèi)互聯(lián)網(wǎng)檢索系統(tǒng)評(píng)價(jià)研究[J].統(tǒng)計(jì)與決策,2017(3):63-66.
[19] 張宏亮,王海燕.基于改進(jìn)用戶瀏覽行為個(gè)性化檢索系統(tǒng)系統(tǒng)研究[J].軟件導(dǎo)刊,2013,12(10):89-91.
[20] 蔣翀,費(fèi)洪曉,張嘯.基于用戶興趣模型的Nutch個(gè)性化檢索系統(tǒng)研究[J].計(jì)算機(jī)時(shí)代,2015(9):26-28.