国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶行為分析的個性化搜索引擎

2013-11-14 06:21宋迎迎河南財經(jīng)政法大學(xué)圖書館
新世紀(jì)圖書館 2013年5期
關(guān)鍵詞:日志排序搜索引擎

宋迎迎(河南財經(jīng)政法大學(xué)圖書館)

1 概述

搜索引擎是以一定的技術(shù)和策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,并提供快速檢索信息的一種工具或系統(tǒng)。隨著網(wǎng)絡(luò)的發(fā)展,搜索引擎已成為用戶訪問萬維網(wǎng)和查找獲取信息資源的重要手段之一。截至2010年6月底,搜索引擎在網(wǎng)民中的使用率為76.3%,用戶規(guī)模達到3.2 億人,與2009年6月相比,年增長8 589 萬人,年增長率36.6%。自從百度競價排名事件曝光以來,搜索引擎?zhèn)涫苋藗冴P(guān)注。從yahoo 的人工分類目錄到以關(guān)鍵字和詞為檢索系統(tǒng)模型的第二代搜索引擎,搜索引擎的弊端日益突顯。搜索引擎的目的是以最快的速度來滿足用戶的信息需求,但隨著Internet 上的信息數(shù)量呈指數(shù)級增長,加上傳統(tǒng)的搜索引擎使用的是通用爬蟲程序,對不同查詢需求、不同查詢目的的用戶來說,輸入相同的檢索詞,返回的結(jié)果也是相同的,這就需要進行二次查找來篩選所需信息,耗費用戶更多的時間和精力,傳統(tǒng)搜索引擎的缺點逐漸暴露出來。為了解決豐富的信息資源和較低的信息獲取能力之間的矛盾,個性化的信息檢索系統(tǒng)應(yīng)運而生。個性化搜索引擎就是在這一背景下提出來的。

個性化搜索引擎是個性化服務(wù)思想在搜索引擎中的應(yīng)用。個性化搜索引擎包含兩方面內(nèi)容:一是提供給用戶個性化的檢索環(huán)境,由用戶根據(jù)自己的興趣愛好來定制檢索界面,用自己熟悉喜愛的檢索方法來查詢信息;二是個性化信息的推送,利用各種技術(shù)及與用戶使用過程的互動獲取不同背景、興趣愛好、學(xué)科領(lǐng)域用戶的信息需求,使用戶通過相同的檢索詞可以輕松獲取符合需求的查詢結(jié)果。

要實現(xiàn)個性化搜索,獲取用戶特定的需求至關(guān)重要。用戶主動提交的信息需求是獲取方式之一,但對于一般用戶來說,除非是把有用的信息實體放在面前,否則很難有效地用語言文字清晰地表達出自己的信息需求并被系統(tǒng)所理解,這就給用戶信息需求的提交帶來了困難,也會影響到個性化搜索引擎的效果。因此,個性化搜索引擎就是利用先進的技術(shù)對用戶行為進行分析研究,讓搜索引擎更加深入、更加細(xì)致地參與到每個用戶的整個檢索過程中。深入挖掘用戶的興趣信息,實現(xiàn)對用戶需求的準(zhǔn)確理解,并及時了解用戶需求相關(guān)信息的變化情況,從而提高搜索引擎的檢索質(zhì)量。

2 搜索日志的凈化

對搜索引擎日志進行分析是網(wǎng)絡(luò)搜索引擎用戶行為的重要載體。日志是通過特定的工具對用戶在互聯(lián)網(wǎng)上的各種行為進行的記錄,圍繞搜索引擎用戶進行檢索時的一系列行為,系統(tǒng)會使用各種手段收集各種日志。然而,Web日志雖然包含了豐富的用戶信息,但卻是一個充滿噪聲的數(shù)據(jù)源。要使用相關(guān)日志進行用戶行為分析,必須對各種數(shù)據(jù)進行預(yù)處理,去掉系統(tǒng)中不符合要求的日志信息,也就是日志數(shù)據(jù)的凈化。需要凈化的日志數(shù)據(jù)主要有以下幾種。

2.1 訪問失敗的日志記錄

用戶訪問搜索引擎檢索所返回的URL 并非都是成功的,比如返回的結(jié)果可能是錯誤的或者禁止訪問的,也可能出現(xiàn)訪問的文件不存在、服務(wù)器內(nèi)部錯誤等等。這種數(shù)據(jù)記錄也會存在于日志中,這對于用戶行為分析是沒有意義的,所以應(yīng)該刪除掉。通過狀態(tài)域中的狀態(tài)碼即可以進行判斷。

2.2 與用戶訪問無關(guān)的日志記錄

通常情況下,用戶訪問網(wǎng)頁,由于HTTP 協(xié)議的特性,網(wǎng)頁上包括的音頻、視頻、圖片等各種多媒體輔助信息都會和網(wǎng)頁文件一起下載到用戶端,導(dǎo)致用戶一個訪問請求會產(chǎn)生許多條記錄,但是對用戶行為分析來說真正起作用的只有一個。因此,這些沒有實際價值的日志數(shù)據(jù)也應(yīng)一并刪除。

3 網(wǎng)絡(luò)用戶行為分析

網(wǎng)絡(luò)用戶行為分析早在萬維網(wǎng)建立之初就產(chǎn)生了,隨著搜索引擎用戶規(guī)模的大規(guī)模增加,用戶行為進行分析日益引起人們的重視。網(wǎng)絡(luò)用戶行為分析是促進網(wǎng)絡(luò)信息檢索技術(shù)得以前進的重要基石,同時也對改進搜索引擎中發(fā)揮重要作用的各種算法起到促進作用,是網(wǎng)絡(luò)信息檢索和知識挖掘的重要研究領(lǐng)域之一。搜索引擎的用戶行為研究主要包括用戶行為的分類,用戶行為的特征,用戶行為之間的關(guān)系以及用戶行為的收集等。典型的用戶行為分析研究主要包括:用戶查詢需求分析、用戶點擊行為分析和用戶瀏覽行為分析等。搜索引擎用戶的行為是由一系列相關(guān)的動作組成。要提高個性化搜索引擎的性能,必須加強用戶與搜索引擎的交互。將相關(guān)反饋技術(shù)引入個性化搜索引擎,對于研究用戶的搜索目的,改善搜索結(jié)果與用戶需求之間的相關(guān)度具有重要意義。相關(guān)反饋分為顯示反饋和隱式反饋。顯示反饋是系統(tǒng)根據(jù)用戶最初定制的查詢條件返回查詢結(jié)果,由用戶明確地對檢索結(jié)果進行評價,以此來判讀用戶的搜索目的。顯示反饋雖然能得到用戶正確的反饋信息,但是卻耗費了用戶的時間和精力,有一定的局限性。隱式反饋是一種隱性的相關(guān)反饋技術(shù),當(dāng)系統(tǒng)返回給用戶查詢結(jié)果后,系統(tǒng)根據(jù)瀏覽器和服務(wù)器返回日志來判讀用戶的興趣,作為進一步改進查詢結(jié)果的依據(jù)。

3.1 基于用戶本體的查詢詞擴展

用戶搜索日志記錄了用戶與檢索系統(tǒng)之間交互的相關(guān)信息,是用戶使用檢索系統(tǒng)時多次“回饋”結(jié)果的積累。對用戶查詢需求進行分析能正確理解用戶查詢背后的意圖及用戶的信息需求。本體論常以樹狀結(jié)構(gòu)及關(guān)聯(lián)的方式來表達某一領(lǐng)域的事物及其之間的規(guī)則和聯(lián)系。作為一種能在語義和知識層次上描述概念體系的有效工具,本體的目標(biāo)是獲取相關(guān)領(lǐng)域的知識,通過對該領(lǐng)域知識的理解、分析,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯(或術(shù)語),并且從不同層次、不同角度的形式化模式上給出這些詞匯(或術(shù)語)之間明確的關(guān)系定義。

3.1.1 提取查詢擴展詞,用來分析用戶的背景

根據(jù)搜索日志,將有相同或類似興趣愛好的用戶搜索日志進行分類。去掉網(wǎng)頁中經(jīng)常出現(xiàn)的,但是對搜索沒有幫助的詞語(停用詞),根據(jù)搜索詞返回的網(wǎng)頁作為一個網(wǎng)頁集。對于用戶每一個查詢詞所點擊的網(wǎng)頁集合稱為點擊網(wǎng)頁集;點擊網(wǎng)頁集中網(wǎng)頁包含的詞項的集合稱為詞項集;抽取出來作為查詢擴展候選詞的詞項集合稱為查詢擴展詞。綜合考慮以下幾個要素來計算詞項的權(quán)重:一是每一個詞項在點擊網(wǎng)頁中出現(xiàn)的頻率;二是網(wǎng)頁中包含的詞項跟用戶的初始查詢詞相關(guān)度;三是網(wǎng)頁集中網(wǎng)頁包含的詞項的數(shù)量;四是系統(tǒng)返回網(wǎng)頁的順序,五是用戶對網(wǎng)頁的點擊順序。

3.1.2 建立用戶本體

把詞項按權(quán)重降序排序之后,選取前10 個詞項作為形式概念格的屬性,詞項所在的網(wǎng)頁作為對象,構(gòu)建概念格,利用生成的用戶本體的語義關(guān)系計算新的查詢詞與概念格中的概念的相似度,找出相似度最大的概念進行查詢詞擴展。將查詢擴展源輸入自然語言處理技術(shù)的領(lǐng)域本體,提取它們之間的語義關(guān)系,詞匯概念的語義關(guān)系主要包括同義關(guān)系、反義關(guān)系、上下位關(guān)系和部分關(guān)系;當(dāng)新的查詢詞出現(xiàn)時,遍歷用戶本體,當(dāng)出現(xiàn)新的查詢詞,如果存在于用戶本體中,不對用戶本體作任何改變,如果新的查詢詞不存在于用戶本體中,則分析新查詢詞與用戶本體中每個概念的語義關(guān)系;將新查詢詞與提取出的語義關(guān)系加入至用戶本體中,更新用戶本體。

3.2 用戶點擊、瀏覽行為的特征分析

點擊行為是用戶對系統(tǒng)返回的搜索結(jié)果進行瀏覽的相關(guān)動作,是判讀搜索引擎質(zhì)量高低的一個重要標(biāo)志。

面對搜索引擎返回的大量檢索結(jié)果,當(dāng)用戶瀏覽檢索結(jié)果時,如果發(fā)現(xiàn)符合自己查詢需要的信息,用戶會馬上點擊該頁面詳細(xì)閱讀,如果是非常有用的信息,一般會下載下來。但是,當(dāng)用戶打開頁面發(fā)現(xiàn)和自己需要的完全不符合時,就會迅速關(guān)掉頁面,時間非常短,通常不會超過十秒鐘,因此,可以結(jié)合點擊與否以及訪問時間來判讀用戶的興趣。

用戶點擊行為的偏見性表明,用戶對搜索引擎返回的頁面結(jié)果集的點擊順序在一定程度上依賴于搜索引擎返回頁面的質(zhì)量(包括內(nèi)容相關(guān)性和排序的準(zhǔn)確性)。由此可見,在對搜索引擎結(jié)果集的質(zhì)量進行評價時應(yīng)該考慮用戶的質(zhì)量偏見和信息偏見對用戶點擊行為的影響。

用戶點擊URL 的選擇性表明,某頁面被點擊和瀏覽的次數(shù)越多,那么它的質(zhì)量就越高。用戶是通過搜索引擎提供的信息來判斷頁面質(zhì)量的好壞的,這些信息包括頁面的標(biāo)題以及摘要的質(zhì)量、在搜索結(jié)果列表中的排序位置等。由此可見,在收集用戶行為信息時,這些頁面信息是必不可少的,它為用戶建模以及個性化排序提供了有用的數(shù)據(jù),系統(tǒng)只需記錄這些信息而不是整個頁面的信息,提高了系統(tǒng)收集用戶行為信息、建立用戶模型與個性化排序的效率。

用戶翻頁行為的局部性表明,用戶在瀏覽搜索結(jié)果集時,往往是“找到為止(找不到也為止)”,而不是“不找到絕不罷休”。由此可見,在對搜索結(jié)果集進行個性化重排序時,只需要對返回的結(jié)果集中的前幾頁進行排序即可,而沒有必要對所有的結(jié)果進行排序。在進行個性化的緩存設(shè)計時也只需緩存前面幾頁的結(jié)果即可,此外,在對搜索結(jié)果的質(zhì)量進行評估時,只需要考慮前面幾頁的查準(zhǔn)率即可,而沒有必要考慮所有結(jié)果集頁面的查準(zhǔn)率。

用戶在瀏覽系統(tǒng)返回的檢索結(jié)果時,大部分會采取順序瀏覽的方式,選擇返回結(jié)果比較靠前的網(wǎng)頁進行點擊,當(dāng)用戶翻滾頁面時,關(guān)注度會有所下降。同時,用戶瀏覽搜索結(jié)果時一般是找到所需的信息就結(jié)束搜索行為,而不是要找到所有的信息。因此,在對搜索結(jié)果集進行個性化重排序時,只需要對返回的結(jié)果集中的前幾頁進行排序即可,而沒有必要對所有的結(jié)果進行排序。在進行個性化的緩存設(shè)計時也只需緩存前面幾頁的結(jié)果即可。

用戶瀏覽行為的順序性表明,用戶對搜索引擎返回的頁面結(jié)果集的瀏覽順序往往是從上到下。由此可見,在對搜索引擎結(jié)果集的質(zhì)量進行評價時應(yīng)該考慮用戶的瀏覽順序與結(jié)果集排序順序之間的一致性,二者越接近,則表明搜索引擎的排序準(zhǔn)確率越高。

用戶的行為特征表明,用戶行為為搜索引擎系統(tǒng)提供了很多反映用戶興趣的信息,系統(tǒng)可以將這些隱式的反饋信息作為理解用戶查詢的背景信息需求,系統(tǒng)可以根據(jù)用戶及時的反饋信息及時調(diào)整用戶的信息需求,從用戶的歷史信息需求和當(dāng)前信息需求中理解用戶真正的信息需求,從而為用戶提供更準(zhǔn)確的個性化服務(wù)。

1 中國互聯(lián)網(wǎng)絡(luò)中心.2010年中國搜索引擎用戶行為研究報告[R].2012-02-08.

2 李亭楓. 面向網(wǎng)絡(luò)用戶行為模式發(fā)現(xiàn)的數(shù)據(jù)挖掘技術(shù)探索[D].成都:電子科技大學(xué),2010.

3 岑榮偉.基于用戶行為分析的搜索引擎評價研究[D].北京:清華大學(xué),2009.

4 藺繼國.基于點擊數(shù)據(jù)分析的個性化搜索引擎研究[D].長沙:國防科技大學(xué),2010.4

猜你喜歡
日志排序搜索引擎
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
一名老黨員的工作日志
作者簡介
世界表情符號日
讀扶貧日志
恐怖排序
節(jié)日排序
雅皮的心情日志
雅皮的心情日志
基于Lucene搜索引擎的研究
巴林左旗| 贡觉县| 南岸区| 集安市| 新建县| 衢州市| 锦州市| 永州市| 房山区| 于都县| 大姚县| 建阳市| 贵定县| 兴隆县| 崇义县| 犍为县| 崇礼县| 平谷区| 台东县| 五家渠市| 新巴尔虎左旗| 东源县| 铜川市| 沙湾县| 中方县| 宁乡县| 将乐县| 英吉沙县| 自治县| 阳新县| 淮阳县| SHOW| 柘荣县| 吉木乃县| 社旗县| 潼南县| 行唐县| 富锦市| 同江市| 南陵县| 湘乡市|