国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

搜索引擎?zhèn)€性化信息服務(wù)探討

2013-08-21 08:36:22
圖書館 2013年1期
關(guān)鍵詞:搜索引擎檢索個(gè)性化

(南開大學(xué)商學(xué)院信息資源管理系 天津 300071)

1 搜索引擎?zhèn)€性化信息服務(wù)概述

1.1 個(gè)性化信息服務(wù)

馬忠庚等人將個(gè)性化信息服務(wù)定義為能夠滿足用戶個(gè)體信息需求的一種服務(wù),即根據(jù)用戶提出的明確要求提供信息服務(wù),或通過對(duì)用戶個(gè)性、使用習(xí)慣的分析而主動(dòng)地向用戶提供其可能需要的信息服務(wù)〔1〕。個(gè)性化信息服務(wù)應(yīng)該根據(jù)用戶的知識(shí)結(jié)構(gòu)、心理傾向、信息需求和行為方式等來充分激勵(lì)用戶需求,促進(jìn)用戶有效檢索、獲取信息以及有效利用信息等,并在此基礎(chǔ)上進(jìn)行知識(shí)創(chuàng)新。劉蕤認(rèn)為,個(gè)性化信息服務(wù),是指針對(duì)用戶提出的明確要求,利用搜索軟件在海量信息庫中篩選出符合其需求的信息,或通過對(duì)用戶個(gè)性、使用習(xí)慣的分析主動(dòng)地向用戶提供其可能需要的信息服務(wù)〔2〕。

比較上述二者的定義可以發(fā)現(xiàn),個(gè)性化信息服務(wù)主要由對(duì)應(yīng)的兩個(gè)方面共同構(gòu)成,一個(gè)是用戶推動(dòng),即信息定制;另一個(gè)是機(jī)器推動(dòng),即計(jì)算機(jī)分析記錄用戶行為,發(fā)現(xiàn)潛在規(guī)律,建立獨(dú)立的用戶興趣模型,進(jìn)而運(yùn)用相關(guān)的技術(shù)與算法,主動(dòng)向用戶提供盡可能滿足用戶喜好的信息與服務(wù)。

通過用戶個(gè)人的主觀描述以及機(jī)器客觀的深層分析與挖掘,必將帶來更加良好的用戶體驗(yàn)。首先,每一位用戶都是一個(gè)獨(dú)立的個(gè)體,其知識(shí)結(jié)構(gòu)、心理傾向、獲取信息的類型與方式都是特有的,所以,信息服務(wù)應(yīng)當(dāng)為用戶量身定做合適的服務(wù)內(nèi)容與方式。其次,網(wǎng)絡(luò)信息資源類型、內(nèi)容的多樣性,一方面為用戶提供了多種選擇,但同時(shí)也增加了用戶挑選所需信息的難度,降低查詢與瀏覽效率。若能提供個(gè)性化信息服務(wù),用戶便可以在固定模塊或站點(diǎn)迅速找到具有很高權(quán)威性與可靠性的目標(biāo)內(nèi)容,并可實(shí)時(shí)獲得更新信息。最后,用戶的這種個(gè)性化信息需求,對(duì)某些站點(diǎn)服務(wù)器數(shù)據(jù)庫中信息資源原有的組織方式也會(huì)帶來新的挑戰(zhàn),比如,原先所使用的分類方式面對(duì)用戶的查詢需求與興趣模型,可能會(huì)暴露其缺陷,并促進(jìn)技術(shù)人員研究出更為高效的組織方式等〔3〕。所以,個(gè)性化信息服務(wù)的提出為傳統(tǒng)的信息服務(wù)業(yè)帶來了挑戰(zhàn),但也面臨著很大的機(jī)遇。

1.2 搜索引擎的優(yōu)勢與劣勢

1995年,雅虎用目錄式搜索方式敲開了搜索引擎的大門,以一種把各類網(wǎng)站分類、排序的方法將紛亂如麻的網(wǎng)絡(luò)信息理出些許頭緒。1998年,Google舉起了第二代搜索引擎的大旗,即關(guān)鍵詞搜索,搜索框的出現(xiàn)給用戶帶來了驚喜,它實(shí)現(xiàn)了檢索的機(jī)器化,其PageRank鏈接分析算法等新技術(shù)的出現(xiàn)更是提高了搜索質(zhì)量與搜索效率。歸納起來,當(dāng)前搜索引擎的優(yōu)勢主要體現(xiàn)在以下幾個(gè)方面。

(1)超鏈分析。超鏈接的出現(xiàn)極大地方便了相關(guān)信息之間的跳轉(zhuǎn)。超鏈通常分為三類:錨點(diǎn)鏈接、內(nèi)部鏈接以及外部鏈接。對(duì)于網(wǎng)站建設(shè)者來說,超鏈接使得站內(nèi)的頁面之間互相有聯(lián)系,結(jié)構(gòu)清晰且有層次,通過鏈接可以引導(dǎo)用戶。對(duì)于用戶來說,則可以更加快速地跳轉(zhuǎn)到自己感興趣的頁面。對(duì)于搜索引擎本身來說,則提供了一種對(duì)頁面的等級(jí)/重要性進(jìn)行計(jì)算并排序的更為科學(xué)的途徑,譬如google的PageRank算法。

(2)反應(yīng)速度快。搜索引擎極大地提高了人們手動(dòng)查找信息的效率,它借助于計(jì)算機(jī)強(qiáng)大的計(jì)算能力以及自身內(nèi)部的搜索算法,使得用戶在輸入關(guān)鍵詞并開始搜索之后不到一秒就可以得到相關(guān)結(jié)果的標(biāo)題與摘要。用戶只需要瀏覽這些結(jié)果并點(diǎn)擊鏈接便可以輕松得到詳細(xì)的信息內(nèi)容。

(3)操作簡便。不論是關(guān)鍵詞搜索還是目錄搜索,對(duì)用戶的技術(shù)要求都很低,用戶只需在搜索框中輸入自己的問題,而查找的過程與排序的算法都是透明的。任何人都不需要進(jìn)行專業(yè)培訓(xùn)、掌握專業(yè)技能,就可以進(jìn)行簡單的搜索操作。

(4)網(wǎng)絡(luò)資源豐富。網(wǎng)絡(luò)資源類型多樣并更新迅速,網(wǎng)絡(luò)資源的開放性與獲取方式的便捷性,對(duì)用戶來說更是無法抗拒。而且,隨著用戶數(shù)量的增多以及用戶需求的多樣化,越來越多的傳統(tǒng)紙質(zhì)文獻(xiàn)都會(huì)被數(shù)字化,更加方便大眾的使用。

縱觀前兩代搜索引擎可以發(fā)現(xiàn),導(dǎo)航目錄式搜索引擎只能給用戶提供簡單的大致方向,而不能提供精準(zhǔn)的結(jié)果;而關(guān)鍵詞搜索則以其機(jī)器內(nèi)的固有算法,為用戶提供大量可能相關(guān)的網(wǎng)頁列表,至于哪些是真正滿足用戶需求的,依然要由用戶自己判斷,用戶體驗(yàn)依然不夠好。網(wǎng)絡(luò)世界正在呼喚更為強(qiáng)大的第三代搜索引擎。微軟亞洲研究院高級(jí)研究員周明博士則定義第三代搜索引擎是“全信息基礎(chǔ)上的個(gè)性化搜索,并在此基礎(chǔ)上作推薦”的智能化搜索〔4〕。目前Web服務(wù)范式〔5〕發(fā)展非常迅速,一些Web服務(wù)商也在開發(fā)能夠在分布式以及異構(gòu)環(huán)境下為用戶提供服務(wù)的技術(shù)。這種技術(shù)的應(yīng)用將使用戶能夠在任何環(huán)境下得到所需要的任何信息〔6,7〕。譬如,Web服務(wù)不僅能夠定位用戶的具體地點(diǎn),而且能夠記錄用戶的路線,并能夠根據(jù)這條路線為用戶提供可行性的建議等〔8〕。

隨著互聯(lián)網(wǎng)的發(fā)展,搜索引擎面臨著眾多的功能與技術(shù)上的革新。同時(shí),隨著Facebook等社區(qū)網(wǎng)站的逐漸流行,社交網(wǎng)絡(luò)平臺(tái)和相關(guān)應(yīng)用占據(jù)了互聯(lián)網(wǎng)的主流,而社交網(wǎng)絡(luò)所強(qiáng)調(diào)的是用戶之間的聯(lián)系和交互;Twitter、微博等提供微信息發(fā)布的個(gè)人媒體平臺(tái)逐步興起,又對(duì)搜索引擎的實(shí)時(shí)性提出了更高的要求;面對(duì)移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,針對(duì)移動(dòng)設(shè)備的各種新特點(diǎn),提供適合移動(dòng)搜索的搜索引擎又成為新的挑戰(zhàn)等〔9〕。這些發(fā)展潮流使目前的搜索引擎暴露出越來越多的弊端,越來越不合時(shí)宜,具體體現(xiàn)在以下幾個(gè)方面。

(1)被動(dòng)接受用戶的提問,主動(dòng)性明顯不足。當(dāng)前的搜索引擎只能根據(jù)用戶輸入的關(guān)鍵詞,返回索引庫中已經(jīng)被網(wǎng)絡(luò)蜘蛛抓取到的網(wǎng)頁標(biāo)題與摘要信息。不論搜索者是誰,只要輸入的關(guān)鍵詞是一致的,返回的結(jié)果也完全相同。雖然目前一些搜索引擎包含個(gè)人主頁,并針對(duì)以往的搜索歷史進(jìn)行話題推薦,但這種推薦機(jī)制層次很低,只是簡單匹配關(guān)鍵詞,不能了解用戶真正的需求愛好。而真正能夠滿足個(gè)性化需求的搜索引擎,不僅要返回機(jī)器算法認(rèn)為相關(guān)的結(jié)果,而且應(yīng)當(dāng)盡可能地收集用戶行為信息,了解用戶的個(gè)性、知識(shí)結(jié)構(gòu)、興趣愛好、職業(yè)等信息,從而在機(jī)器搜索結(jié)果的基礎(chǔ)上,過濾掉那些與用戶需求明顯不匹配的條目,減輕用戶挑選的難度。還可以利用協(xié)同過濾技術(shù),將用戶興趣模型比較相近的用戶進(jìn)行聚類,發(fā)現(xiàn)用戶新的潛在的興趣點(diǎn),擴(kuò)展更新興趣模型,改善搜索結(jié)果。

(2)因傳統(tǒng)搜索引擎固有的工作機(jī)制,使得搜索結(jié)果內(nèi)容有一定的時(shí)滯。傳統(tǒng)的網(wǎng)頁搜索依賴網(wǎng)絡(luò)蜘蛛抓取的網(wǎng)頁建造索引庫。由于互聯(lián)網(wǎng)網(wǎng)頁眾多,同一個(gè)網(wǎng)頁被蜘蛛再次抓取必然要間隔一定的時(shí)間周期,而這對(duì)實(shí)施搜索是非常不利的。在大多情況下,用戶想要了解某些最新的信息,會(huì)求助于搜索引擎,所以搜索引擎必須要建立實(shí)時(shí)索引庫來收錄那些經(jīng)常更新的站點(diǎn),以及包含當(dāng)下熱點(diǎn)新聞的站點(diǎn),并盡可能與社區(qū)網(wǎng)站建立聯(lián)系,借助于社交網(wǎng)絡(luò)巨大的用戶群以及隨時(shí)隨地更新的信息庫,為搜索用戶提供最具時(shí)效性的相關(guān)信息。

(3)盡管現(xiàn)有搜索引擎已經(jīng)開始設(shè)置個(gè)性化用戶界面,但實(shí)現(xiàn)程度依然很初級(jí),不能實(shí)現(xiàn)記錄用戶特征智能化,滿足即時(shí)需求。智能型體現(xiàn)在兩個(gè)方面。首先是對(duì)用戶興趣模型的主動(dòng)更新。每一個(gè)體的知識(shí)結(jié)構(gòu)都是階段性的,其信息需求也將是階段性的。搜索引擎應(yīng)該隨時(shí)隨地關(guān)注用戶的瀏覽行為以及瀏覽記錄,并對(duì)記錄進(jìn)行分析,發(fā)現(xiàn)潛在的細(xì)微變化,并及時(shí)更新興趣模型。興趣模型的維護(hù)是一個(gè)動(dòng)態(tài)的過程,而不應(yīng)一勞永逸。過期的模型庫所反映的搜索結(jié)果甚至?xí)褂脩舾械椒锤?,不利于用戶體驗(yàn)。另一方面,體現(xiàn)在情境搜索,即針對(duì)“此時(shí)此地此人”來建立模型。建模的目的是為了更好地了解用戶需求。一般用戶的搜索都是與此情此景分不開的,需要搜索引擎可以定位用戶的地理位置。所以智能化為搜索引擎提出了很大的挑戰(zhàn)。

(4)對(duì)于專業(yè)性高或者復(fù)雜的問題找不出滿意的答案。網(wǎng)絡(luò)信息資源固然豐富多樣,但就目前來說,對(duì)于專業(yè)性強(qiáng)的問題,依然無法找到全面且權(quán)威的答案。這要?dú)w因于搜索引擎與專業(yè)性網(wǎng)站的關(guān)系,大多數(shù)專業(yè)性的全文數(shù)據(jù)庫都是付費(fèi)的,而且其內(nèi)部有自己的搜索引擎,對(duì)外部的搜索引擎是屏蔽的,用戶當(dāng)然得不到這類信息。而這部分信息才是最為全面準(zhǔn)確的信息。

(5)網(wǎng)絡(luò)廣告干擾。搜索引擎本身就是一個(gè)商業(yè)化的產(chǎn)品,廣告商看到搜索引擎如此快速的成長趨勢以及大的用戶規(guī)模,便會(huì)利用這種良好的宣傳手段,搜索界面以及搜索結(jié)果中會(huì)滲入很多廣告宣傳性的條目,這些條目對(duì)大多數(shù)用戶來說都是干擾性的。

1.3 搜索引擎?zhèn)€性化信息服務(wù)現(xiàn)狀

艾瑞咨詢2010年統(tǒng)計(jì)結(jié)果顯示,中國搜索引擎的用戶覆蓋率(搜索引擎用戶覆蓋率是指搜索引擎用戶數(shù)量占互聯(lián)網(wǎng)用戶數(shù)量的比例)從2002年的25.4%迅速增至2012年的82.9%,搜索引擎的受眾規(guī)模與受眾粘性都在逐年增加,并將保持穩(wěn)中有升的局面,它已經(jīng)成為用戶進(jìn)入網(wǎng)絡(luò)的第一入口。所以,提高搜索引擎的個(gè)性化信息服務(wù)程度,在提高網(wǎng)絡(luò)服務(wù)用戶體驗(yàn)中占據(jù)著舉足輕重的作用。

1.3.1 國內(nèi)論文期刊網(wǎng)站中有關(guān)搜索引擎?zhèn)€性化論文數(shù)目與內(nèi)容統(tǒng)計(jì)

本文選取《中國期刊全文數(shù)據(jù)庫》(CNKI)為檢索數(shù)據(jù)庫。統(tǒng)計(jì)對(duì)象為與搜索引擎以及個(gè)性化相關(guān)的期刊論文,采用標(biāo)準(zhǔn)檢索。具體檢索策略為:在文獻(xiàn)內(nèi)容特征中選擇主題字段,并將主題字段設(shè)置為搜索引擎和個(gè)性化,兩者之間是“并”的關(guān)系,選擇精確匹配。

對(duì)檢出的1847篇論文按照相關(guān)度進(jìn)行排序,選擇前100篇作為統(tǒng)計(jì)分析的對(duì)象。采用excel軟件對(duì)論文的主要信息予以登記,對(duì)論文主題詞進(jìn)行提取、歸類以及規(guī)范化。對(duì)關(guān)鍵詞的篩選與統(tǒng)計(jì)按照以下原則進(jìn)行:舍棄出現(xiàn)次數(shù)少或者與主題相差較遠(yuǎn)的關(guān)鍵詞,合并相近的關(guān)鍵詞,共獲得12個(gè)關(guān)鍵詞,并對(duì)各個(gè)關(guān)鍵詞在哪些論文中是作為關(guān)鍵詞出現(xiàn)進(jìn)行了統(tǒng)計(jì),如表1所示。其中“算法”主要是指相關(guān)度計(jì)算方法、PageRank算法、搜索結(jié)果聚類、過濾算法、排序算法等?!凹夹g(shù)”則代表了Agent技術(shù)、中文分詞、人工智能以及建模技術(shù)等具體的功能實(shí)現(xiàn)方法。

表1 與搜索引擎、個(gè)性化相關(guān)的期刊論文關(guān)鍵詞及出現(xiàn)次數(shù)統(tǒng)計(jì)

由表1可見,當(dāng)前個(gè)性化搜索引擎的研究重點(diǎn)主要在模型的構(gòu)建與實(shí)現(xiàn)上,大多數(shù)研究者在論述自己的模型之前都會(huì)先對(duì)目前市場上所使用的搜索引擎進(jìn)行系統(tǒng)性的分析說明,指出現(xiàn)有搜索引擎的諸多不足,進(jìn)而從現(xiàn)有搜索引擎出發(fā),對(duì)相關(guān)模塊進(jìn)行改進(jìn),并指出其實(shí)現(xiàn)的可能性,以期更能滿足用戶個(gè)性化的信息需求。用戶興趣模型的構(gòu)建以及用戶信息的采集與更新,都是滿足個(gè)性化需求的前提,其高詞頻的出現(xiàn)是意料之中的。而本體&語義以及Web挖掘的出現(xiàn)則表明,目前個(gè)性化搜索引擎的研究不僅僅停留在表面,已開始從更深層出發(fā),運(yùn)用本體論以及語義層次的相關(guān)技術(shù),對(duì)用戶的網(wǎng)絡(luò)行為以及網(wǎng)絡(luò)數(shù)據(jù)庫中的網(wǎng)頁內(nèi)容進(jìn)行深層挖掘和匹配,使搜索引擎更加了解用戶,弄清其潛在的信息需求,精確化檢索式并對(duì)檢索結(jié)果進(jìn)行個(gè)性化的排序。

除了統(tǒng)計(jì)以上關(guān)鍵詞,在這100篇搜索結(jié)果中,還有11篇是探討個(gè)性化搜索引擎在具體領(lǐng)域中的應(yīng)用,例如,個(gè)性化基礎(chǔ)教育搜索引擎用于個(gè)性化教學(xué)的研究、農(nóng)業(yè)專業(yè)搜索引擎?zhèn)€性化服務(wù)研究與實(shí)現(xiàn)、知識(shí)產(chǎn)權(quán)搜索引擎分析與設(shè)計(jì)等。搜索引擎的發(fā)展必將向著專業(yè)化、個(gè)性化、智能化的趨勢發(fā)展,而不僅僅向大眾提供大量異構(gòu)的非專業(yè)化的雜亂信息。個(gè)性化搜索引擎在具體行業(yè)的應(yīng)用體現(xiàn)并推動(dòng)這種趨勢向前發(fā)展,大量個(gè)性化的垂直搜索引擎的出現(xiàn)恰恰體現(xiàn)了時(shí)代的需要。

1.3.2 現(xiàn)有搜索引擎?zhèn)€性化信息服務(wù)實(shí)例

iGoogle是Google提供的一項(xiàng)服務(wù)。該服務(wù)讓使用者按照個(gè)人的喜好方便地定制和整合不同來源的信息,使之成為個(gè)性化的門戶。該服務(wù)的實(shí)現(xiàn)主要借鑒了門戶(Portal)與門戶塊(Portlet)的思想,即一個(gè)完整的門戶頁面由用戶定制的門戶塊構(gòu)成。用戶通過訪問一個(gè)聚合了不同信息來源的門戶頁面,避免了多次訪問的麻煩。個(gè)性化的定制選擇,為用戶提供按需實(shí)現(xiàn)的“一站式”服務(wù)。這也是目前國內(nèi)搜索引擎的一個(gè)發(fā)展趨勢——門戶化,使用戶僅在搜索引擎時(shí)便可瀏覽訪問各種信息。

自定義主頁的功能使用戶可以根據(jù)自己的喜好分別選擇首頁的名稱、所需的小工具、頁面主題以及頁面布局等,并定制自己感興趣的新聞資訊,如財(cái)經(jīng)、體育、娛樂等,從而構(gòu)建只屬于自己的獨(dú)特的首頁,極大地滿足了用戶的個(gè)性化需求,用戶可以方便及時(shí)地獲取相關(guān)信息或登錄到收藏的站點(diǎn)。

雖然Igoogle已經(jīng)有了一些突破,但仍存在很多需要改進(jìn)的地方。譬如,新聞資訊的定制顯示完全依靠用戶的主動(dòng)添加,而且顯示的資訊僅僅是標(biāo)題和摘要,沒有有關(guān)內(nèi)容的全局性描述,用戶還是需要自己判斷哪些信息是自己的興趣點(diǎn)所在。另外,對(duì)提供的信息是有關(guān)方面的最新信息,而沒有一個(gè)側(cè)重點(diǎn),主題分類比較粗糙,不能夠精準(zhǔn)表示用戶興趣,并且缺乏對(duì)用戶自身個(gè)性的深層挖掘,只是滿足了個(gè)性化服務(wù)的第一個(gè)層次,即用戶驅(qū)動(dòng)。

2 搜索引擎?zhèn)€性化信息服務(wù)的基本架構(gòu)

2.1 個(gè)性化信息服務(wù)工作模塊

一般的個(gè)性化信息服務(wù)工作模塊如圖1所示。

圖1 個(gè)性化信息服務(wù)工作圖示

個(gè)性化信息服務(wù)的首要前提是構(gòu)建用戶興趣模型。用戶興趣模型的構(gòu)建不僅需要用戶注冊登錄網(wǎng)站時(shí)所填的各項(xiàng)基本信息如性別、年齡、職業(yè)、愛好以及目前所在地等,還需要收集用戶的搜索歷史、經(jīng)常瀏覽的網(wǎng)頁、收藏的網(wǎng)頁、各類新聞資訊以及在社區(qū)網(wǎng)站中所發(fā)布的信息等。從這些信息中獲得用戶的搜索策略、檢索式構(gòu)成結(jié)構(gòu)、主要興趣點(diǎn)、對(duì)某方面信息的喜好或厭惡強(qiáng)度以及對(duì)某類信息的需求程度等,進(jìn)而更有針對(duì)性地從數(shù)據(jù)庫中找出適合的特定信息〔10〕,更高效的做法是依靠用戶的興趣模型完善用戶的檢索詞組合,獲得擴(kuò)展的查詢,為用戶提供超出其預(yù)期的、更加滿足其需求的信息。提高用戶體驗(yàn)將增強(qiáng)用戶對(duì)該服務(wù)的依賴性。需要強(qiáng)調(diào)的是,用戶興趣模型的構(gòu)建是一個(gè)動(dòng)態(tài)的維護(hù)過程,用戶的每次查詢都是對(duì)模型的一次補(bǔ)充與更新。

2.2 搜索引擎?zhèn)€性化信息服務(wù)工作模塊

搜索引擎?zhèn)€性化信息服務(wù)應(yīng)當(dāng)主要體現(xiàn)在:當(dāng)不同用戶在同一時(shí)間輸入同一檢索詞時(shí),搜索引擎所提供的檢索結(jié)果相異。這種相異性所依賴的是,搜索引擎返回的結(jié)果不僅僅是從索引數(shù)據(jù)庫中找出與檢索詞的內(nèi)容相關(guān)度超過一定閾值的標(biāo)題與摘要,而且還要將用戶的興趣模型考慮在內(nèi),不僅考慮內(nèi)容因素,還要考慮該條目與用戶本身的興趣契合度,條目的排序則是綜合這兩方面因素的結(jié)果〔11〕。搜索引擎?zhèn)€性化信息服務(wù)框架如圖2所示。

圖2 搜索引擎?zhèn)€性化信息服務(wù)框架圖示

當(dāng)搜索引擎利用傳統(tǒng)算法檢索出條目之后,并不直接將結(jié)果呈現(xiàn)給用戶,而是將初始的搜索結(jié)果與用戶的興趣模型進(jìn)行匹配,不僅考慮到頁面的重要性與相關(guān)性,還要試圖猜測用戶的真正意圖,并將最有可能引起用戶興趣的結(jié)果排在前列,同時(shí)去除那些明顯不是用戶所需的信息。經(jīng)過重新排序篩選的信息,按照用戶之前定制的界面顯示提交給用戶。雖然搜索引擎的檢索工作到此告一段落,但用戶興趣模型模塊還要跟蹤用戶的瀏覽行為,將用戶的注冊登錄、登錄頻率、登錄地點(diǎn)以及最終點(diǎn)擊的頁面等信息,分別進(jìn)行記錄并加以分析,以便日后給用戶提供更加準(zhǔn)確的搜索結(jié)果。對(duì)于登錄頻率越高的用戶,搜索引擎就越要重視其使用習(xí)慣,搜索引擎?zhèn)€性化信息服務(wù)中的個(gè)性化推薦功能就更加突出,并且對(duì)其反饋信息要給予最為優(yōu)先、及時(shí)、詳細(xì)的回答與響應(yīng)。登錄地點(diǎn)信息是在對(duì)用戶進(jìn)行個(gè)性化推薦以及對(duì)搜索結(jié)果進(jìn)行排序時(shí),需要考慮的情景信息,從而為用戶提供更為可靠準(zhǔn)確的信息。

3 搜索引擎?zhèn)€性化信息服務(wù)的層次

按照搜索引擎介入用戶生活的深入程度,搜索引擎?zhèn)€性化信息服務(wù)可以分為三個(gè)層次:個(gè)性化定制、個(gè)性化推薦以及決策支持服務(wù)〔12〕。第一個(gè)層次是個(gè)性化定制,作為最初級(jí)的個(gè)性化服務(wù)方式,實(shí)現(xiàn)起來最為簡單,搜索引擎只需要為用戶提供一個(gè)可塑造的界面,界面的風(fēng)格與內(nèi)容由用戶自己選擇設(shè)置。第二個(gè)層次是個(gè)性化推薦,不僅為用戶提供足夠的自由度,而且能根據(jù)用戶的特征進(jìn)行有限的推測,并將推測結(jié)果顯示推薦給用戶。其優(yōu)點(diǎn)是能根據(jù)用戶的反饋進(jìn)行推測機(jī)制的改進(jìn)與更新,難度在于用戶的特征模型是動(dòng)態(tài)變化的,需要時(shí)時(shí)進(jìn)行維護(hù),并且推測機(jī)制的算法沒有很明顯的評(píng)價(jià)機(jī)制,評(píng)價(jià)體系的構(gòu)建容易帶有主觀色彩,不易做到全面考核,這部分工作量很大。第三個(gè)層次是決策支持服務(wù),不僅需要了解用戶的需求特征,而且加入了環(huán)境因素、時(shí)間因素等其他客觀因素,決策難度明顯上升,對(duì)用戶所處的現(xiàn)實(shí)環(huán)境也有了更為深入的了解。在這個(gè)層次上,搜索引擎已經(jīng)成為每一個(gè)決策者離不開的幫手。

(1)個(gè)性化定制。這是個(gè)性化服務(wù)的最低層次。搜索引擎只需根據(jù)用戶顯示提供的有關(guān)個(gè)人喜好的基本信息,以及所定制的有關(guān)信息,簡單地將最新的、最熱的信息提供給用戶,不論通過Web頁面直接推送,還是定期或不定期地將有關(guān)更新信息發(fā)送到用戶的郵箱或者手機(jī)終端上。機(jī)器無需記錄用戶的瀏覽行為,或者動(dòng)態(tài)維護(hù)用戶興趣模型。

個(gè)性化定制包括三個(gè)方面:服務(wù)界面定制、信息資源定制以及檢索定制。服務(wù)界面定制是由用戶選擇一種適合自己的界面主題以及布局,自己設(shè)置各類模塊的顯示方式以及位置。信息資源定制是信息服務(wù)提供商定期或不定期地將用戶定制的信息頻道以及信息欄目的更新信息發(fā)送給用戶,構(gòu)建用戶獨(dú)特的Web頁面。由于每個(gè)用戶的檢索習(xí)慣不同,使用的檢索策略、檢索方法以及檢索結(jié)果的顯示、排序、選擇也都不同,所以,個(gè)性化的檢索定制為用戶提供了可以記錄自己檢索習(xí)慣的模塊,以后對(duì)其檢索行為都進(jìn)行相同的處理。雖然個(gè)性化定制在一定程度上滿足了用戶的個(gè)性化需求,但這種個(gè)性化卻不具備足夠的智能性,只是滿足了個(gè)性化要求中的用戶驅(qū)動(dòng)。

(2)個(gè)性化推薦。個(gè)性化推薦應(yīng)用最廣的莫過于電子商務(wù)網(wǎng)站。例如,在卓越網(wǎng)上,不論用戶是否登錄,只要之前在網(wǎng)站上進(jìn)行過搜索行為,那么在下次從同一個(gè)IP進(jìn)入頁面時(shí),便會(huì)在主頁上顯示“更多供您考慮的商品”,這些商品大多與上次搜索的商品是緊密相關(guān)的。推薦對(duì)于企業(yè),尤其是電子商務(wù)企業(yè)的巨大潛在效用。具體來說,個(gè)性化推薦就是根據(jù)用戶的興趣以及以往的購買記錄,向用戶推薦其可能感興趣的商品和信息。

個(gè)性化推薦所運(yùn)用的算法包括基于關(guān)聯(lián)規(guī)則的推薦算法、基于內(nèi)容過濾的推薦算法以及基于協(xié)同過濾的推薦算法?;陉P(guān)聯(lián)規(guī)則的推薦算法來源于數(shù)據(jù)挖掘中的關(guān)聯(lián)分析,通過大量的數(shù)據(jù)記錄,經(jīng)過文本聚類進(jìn)行關(guān)聯(lián)分析,從貌似不相關(guān)的散亂的信息集中發(fā)現(xiàn)潛在關(guān)聯(lián)?;趦?nèi)容過濾的推薦算法,通過相關(guān)特征的屬性來定義項(xiàng)目或?qū)ο?,系統(tǒng)基于用戶評(píng)價(jià)對(duì)象的特征了解用戶的興趣,依據(jù)用戶資料與待預(yù)測項(xiàng)目的匹配程度進(jìn)行推薦,努力向客戶推薦與其以前偏愛的信息相似的內(nèi)容。這種推薦算法簡單易操作,但是對(duì)用戶的興趣變化缺乏預(yù)見性。協(xié)同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對(duì)某一信息的評(píng)價(jià),對(duì)該指定用戶對(duì)此信息的喜好程度進(jìn)行預(yù)測,并將不小于一定閾值的信息推薦給用戶。這種推薦算法不僅能找到顯示的滿足用戶興趣的信息,而且還可以向用戶推薦某些隱性的、滿足用戶需求的信息,幫助用戶發(fā)現(xiàn)自己新的興趣點(diǎn)。協(xié)同過濾正在成為比較受歡迎的一種推薦算法。

個(gè)性化推薦在用戶搜索過程中也有很普遍的應(yīng)用,比如搜索結(jié)果的智能匹配,當(dāng)用戶輸入不完整的搜索請求或者出現(xiàn)語法錯(cuò)誤時(shí),搜索結(jié)果的開始便會(huì)顯示“您是不是要找”;而在微博、社區(qū)等站內(nèi)主頁上,也會(huì)顯示“您可能認(rèn)識(shí)的人”,“您可能感興趣的人”等等??傊?,個(gè)性化的搜索引擎應(yīng)能根據(jù)用戶以往的操作記錄或者個(gè)人信息,對(duì)搜索結(jié)果進(jìn)行過濾并重新排序,盡可能提供精準(zhǔn)的滿足需求的結(jié)果。

(3)決策支持服務(wù)。決策支持系統(tǒng)是通過數(shù)據(jù)、模型以及知識(shí)來輔助決策者進(jìn)行科學(xué)決策的人機(jī)交互系統(tǒng),它是管理信息系統(tǒng)的更高層次。通過向決策者提供分析問題、建立模型、模擬決策過程和方案的環(huán)境,調(diào)用各種信息資源和分析工具,幫助決策者做出更高水平、更加科學(xué)的決策。未來的搜索引擎除了應(yīng)滿足用戶對(duì)基本信息的需求,還應(yīng)該能幫助用戶針對(duì)特定問題做出科學(xué)合理的決策。這些問題通常都是結(jié)構(gòu)化程度不高,難以用二維表格闡明邏輯關(guān)系,由于問題涉及的層面較多,用戶又不可能掌握所有相關(guān)的信息,若是簡單地將各個(gè)方面的信息羅列堆疊起來,容易使用戶在巨大的信息海洋中迷失,不利于管理者快速高效地做出決策。這就需要搜索引擎將模型、分析技術(shù)與現(xiàn)有的傳統(tǒng)數(shù)據(jù)檢索技術(shù)結(jié)合起來,幫助用戶對(duì)各種可能性組合進(jìn)行可行性分析以及效果預(yù)測,比較并分析利弊。

這種能根據(jù)每個(gè)用戶的實(shí)際需求與面臨的現(xiàn)實(shí)問題以及所處的復(fù)雜環(huán)境進(jìn)行面向單個(gè)用戶分析處理過程的搜索引擎,便是最高層次的個(gè)性化信息服務(wù)。搜索引擎本身不再只是解決某一個(gè)微觀問題的小工具,而是成為幫助決策者立足宏觀,不可或缺的一大智庫。搜索引擎要達(dá)到這種決策支持的水平,就需要充分運(yùn)用數(shù)據(jù)倉庫、聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘、模型庫、數(shù)據(jù)庫、知識(shí)庫等資源與技術(shù),使這種現(xiàn)在只能由管理層擁有與使用的技能可以走入日常生活,真正做到面向用戶的個(gè)性化服務(wù)。

4 搜索引擎?zhèn)€性化信息服務(wù)的潛在問題

(1)硬件要求。個(gè)性化搜索引擎對(duì)傳統(tǒng)搜索引擎的硬件要求主要體現(xiàn)在兩個(gè)方面:第一,存儲(chǔ)器的容量。一旦要對(duì)每個(gè)用戶提供個(gè)性化信息服務(wù),就不得不記錄用戶的個(gè)人基本信息以及個(gè)性化的動(dòng)態(tài)信息,進(jìn)而構(gòu)建屬于用戶自己的興趣模型,而這個(gè)模型需要隨時(shí)隨地根據(jù)實(shí)際情況進(jìn)行更新。這樣一來,用戶數(shù)量迅速增加,而要維護(hù)這部分?jǐn)?shù)據(jù),服務(wù)器本身就需要準(zhǔn)備足夠的存儲(chǔ)容量。同時(shí)存儲(chǔ)空間應(yīng)該可以靈活擴(kuò)展,譬如,新數(shù)據(jù)的大量增加,歷史數(shù)據(jù)的銷毀,對(duì)騰出空間的再利用等。第二,存儲(chǔ)器的存取效率。由于用戶對(duì)搜索引擎的利用是隨時(shí)隨地的,所以對(duì)用戶信息地查詢也應(yīng)該“隨叫隨到”。在這種情況下,最為簡便的方式便是在用戶的客戶端提供高速的緩存空間,來存儲(chǔ)那些更新活躍的個(gè)人信息,這樣也可以減輕服務(wù)器的壓力。

(2)技術(shù)要求。對(duì)存儲(chǔ)器的要求,除了容量以外,還有存儲(chǔ)算法以及存取方式的重新設(shè)計(jì),以便在存儲(chǔ)容量有限的情況下,實(shí)現(xiàn)對(duì)存儲(chǔ)空間最為有效的合理利用。另一個(gè)技術(shù)上的要求是,用戶的興趣模型與初始搜索結(jié)果的匹配。首先是用戶模型的維護(hù)。除了將用戶的個(gè)人信息按照相關(guān)字段從復(fù)雜的行為中提取出來以外,還要能夠看到行為背后隱藏的趨勢信息,以便對(duì)用戶進(jìn)行個(gè)性化的推薦,這就要采用數(shù)據(jù)庫的分析挖掘技術(shù)。用戶的數(shù)量過億,每個(gè)用戶的類型又千差萬別,瀏覽模式更是變化多端,機(jī)器所具備的分析挖掘能力不僅包括目前所具備的構(gòu)建索引庫、網(wǎng)頁聚類、去重、排序等這些針對(duì)網(wǎng)頁數(shù)據(jù)庫的技能,還應(yīng)該面向用戶,對(duì)用戶數(shù)據(jù)庫進(jìn)行分析、聚類、建模,從而可以在網(wǎng)頁數(shù)據(jù)庫中挑選更加符合用戶個(gè)性與需求的信息。人與人之間的比較要比人與算法之間的匹配更加準(zhǔn)確、精確,可信度、人性化程度也更高一些。

(3)用戶隱私。信息服務(wù)提供商要想給用戶提供更加精準(zhǔn)的信息,就不得不了解用戶自身,了解用戶真正的信息需求。例如,在用戶的搜索引擎日志記錄中,記錄著用戶使用的檢索詞、對(duì)某個(gè)主題的檢索次數(shù)、檢索提問式的構(gòu)成結(jié)構(gòu)、用戶在檢索列表中選擇的某個(gè)URL、用戶的網(wǎng)頁整體瀏覽情況等信息。對(duì)于注冊用戶來說,還包括用戶的個(gè)人基本信息、用戶的IP、ID等信息,這些是用戶不愿意為他人所知的。一旦被機(jī)器提取并保存起來,就構(gòu)成了對(duì)用戶隱私的威脅。隱私泄露不僅包括內(nèi)部工作人員的主動(dòng)泄密,還包括網(wǎng)絡(luò)黑客,即被第三方非法獲取。所以個(gè)性化信息服務(wù)對(duì)用戶信息的保密性提出了更高的要求。這不僅要求在技術(shù)上提供更加強(qiáng)硬的保護(hù)措施,網(wǎng)絡(luò)工作者自身也要提高自己的職業(yè)道德,嚴(yán)格遵守行業(yè)的道德操守,同時(shí),對(duì)某些至關(guān)重要的信息,要提供特殊的保密措施。

(4)效果評(píng)測。各個(gè)搜索引擎為實(shí)現(xiàn)其個(gè)性化的信息服務(wù),必然要進(jìn)行各種探索,從而選出其認(rèn)為最為有效、最為精確的算法,包括構(gòu)建用戶興趣模型的算法、挖掘算法,匹配算法、檢索詞擴(kuò)展算法以及搜索結(jié)果個(gè)性化排序算法等,這些都因不同的機(jī)構(gòu)而異。因此,在對(duì)各個(gè)搜索引擎進(jìn)行評(píng)測時(shí),很難進(jìn)行規(guī)范化處理。即使選定了評(píng)測指標(biāo),各個(gè)指標(biāo)的權(quán)重設(shè)定也是一個(gè)不可忽視的難題。此外,由于搜索引擎提供的是個(gè)性化的服務(wù),每個(gè)用戶對(duì)結(jié)果地反饋也不同,主觀因素占據(jù)很大的比重。所以,對(duì)搜索引擎的效果評(píng)測,應(yīng)盡快制定出合理有效全面的算法,可以使結(jié)果更加公正、客觀、有效。

(5)用戶信任。盡管目前有些搜索引擎提供了個(gè)性化的主頁,但由于個(gè)性化程度不高并沒有引起大多數(shù)用戶的密切關(guān)注,甚至因登錄時(shí)的復(fù)雜操作而放棄繼續(xù)體驗(yàn)。實(shí)際上,用戶對(duì)目前搜索引擎提供的個(gè)性化粘性不高的重要原因來源于搜索引擎自身。它并沒有提供給用戶所期望的那種面向自己的服務(wù),只是提供給用戶一些可供選擇的小工具,這些小工具與搜索本身并沒有很大的關(guān)系。搜索引擎要想提高用戶的使用熱情,贏得更多用戶的信任,讓其都能夠加入到“使用-反饋-更新”的良性循環(huán)中,就必須提高自身的搜索功能,提供給用戶良好的體驗(yàn),這對(duì)搜索引擎以及用戶來說都將是兩全其美的。

1.馬忠庚,王學(xué)軍,鄧建波.Internet上的個(gè)性化信息服務(wù).聊城大學(xué)學(xué)報(bào),2005,18(4):83-86

2.劉蕤.利用購物搜素引擎進(jìn)行個(gè)性化信息服務(wù).現(xiàn)代情報(bào),2004,9:77-79

3.饒?jiān)鲫枺杂脩粜枨鬄橹行牡膫€(gè)性化信息服務(wù).南陽師范學(xué)院學(xué)報(bào),2007,6(7):89-90

4.閱微網(wǎng).人民網(wǎng):靜悄悄的搜索引擎革命.2012-5-13.http://www.yuewe.cn/portal.php?Mod=view&aid=158232

5.Alonso,G.,Casati,F(xiàn).,Kuno,H.A.a(chǎn)nd Machiraju,V.Web Services-Concepts,Architectures and Applications Data-Centric Systems and Applications.Springer,2004,Berlin,Heidelberg.

6.Liu,J.a(chǎn)nd Zhao,F(xiàn).Composing semantic services in opensensor-rich environments.IEEE Netw.,2008,22:44-49

7.Berger,S.,McFaddin,S.,Narayanaswami,C.a(chǎn)nd Raghunath,M.T.(2003)Web Services on Mobile Devices-Implementation and Experience.WMCSA 2003,Monterey,CA,October 9-10,pp.100-109.IEEE

8.Murat Ali Bayir1,Murat Demirbas1 and Ahmet Cosar.A Web-Based Personalized Mobility Service for Smartphone Applications.The Computer Journal,2011,54(5):800-814

9,10.張俊林.這就是搜索引擎:核心技術(shù)詳解.北京:電子工業(yè)出版社,2012.1

11.李曉明,閆宏飛,王繼民.搜索引擎——原理、技術(shù)與系統(tǒng).北京:科學(xué)出版社,2005.4

12.馬文峰.?dāng)?shù)字圖書館個(gè)性化信息服務(wù)的探索.圖書館雜志,2003,22(5):30-32

猜你喜歡
搜索引擎檢索個(gè)性化
堅(jiān)持個(gè)性化的寫作
文苑(2020年4期)2020-05-30 12:35:12
2019年第4-6期便捷檢索目錄
新聞的個(gè)性化寫作
新聞傳播(2018年12期)2018-09-19 06:27:10
上汽大通:C2B個(gè)性化定制未來
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
滿足群眾的個(gè)性化需求
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
國際標(biāo)準(zhǔn)檢索
望谟县| 察雅县| 改则县| 兴宁市| 太仓市| 宜宾市| 滕州市| 马关县| 泊头市| 微山县| 普兰县| 顺义区| 新巴尔虎左旗| 阜新| 孟连| 湟中县| 平利县| 荥经县| 仁布县| 郧西县| 崇礼县| 西充县| 鄂尔多斯市| 宁化县| 宁城县| 钟祥市| 多伦县| 张家界市| 玉田县| 株洲市| 民和| 德州市| 陇南市| 尤溪县| 合江县| 阜平县| 长乐市| 泗水县| 蒙城县| 山阴县| 宝坻区|