馬少平,劉奕群,劉 健,張 敏,祝建華,茹立云
(1. 智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室;清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌);清華大學(xué)計(jì)算機(jī)系,北京 100084; 2. 香港城市大學(xué)媒體與傳播系互聯(lián)網(wǎng)挖掘?qū)嶒?yàn)室,香港特別行政區(qū)九龍達(dá)之路)
面對(duì)互聯(lián)網(wǎng)海量規(guī)模的信息資源,搜索引擎已經(jīng)成為人們生活和工作中必不可少的信息獲取工具。搜索技術(shù)發(fā)展水平的高低,也因此不可避免的對(duì)互聯(lián)網(wǎng)應(yīng)用的便捷程度以及社會(huì)的信息化程度產(chǎn)生影響。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2011年7月的統(tǒng)計(jì)結(jié)果[1],我國(guó)4.85億網(wǎng)民中使用搜索引擎的用戶(hù)數(shù)量達(dá)到3.86億,使用率達(dá)到79.6%,顯示搜索引擎是網(wǎng)民群體中受眾最廣的網(wǎng)絡(luò)應(yīng)用。搜索引擎也因此被認(rèn)為是大部分網(wǎng)民使用互聯(lián)網(wǎng)的入口和獲取新信息的主要渠道。
盡管以谷歌、百度為代表的搜索引擎在技術(shù)與商業(yè)上都取得了巨大的成功,但網(wǎng)絡(luò)搜索技術(shù)的發(fā)展仍舊面臨著巨大的挑戰(zhàn)[2-3],這種挑戰(zhàn)既來(lái)自于紛繁復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)環(huán)境,也來(lái)自于搜索用戶(hù)行為的多樣性與歧義性。學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)于“下一代搜索”、“智能搜索”等概念的討論也一定程度上反映出當(dāng)前的搜索技術(shù)發(fā)展水平遠(yuǎn)非盡善盡美。面對(duì)技術(shù)發(fā)展中的各種挑戰(zhàn),用戶(hù)行為分析技術(shù)逐漸成為搜索引擎應(yīng)對(duì)挑戰(zhàn)的主要解決方案之一。
用戶(hù)行為分析技術(shù)一直是搜索引擎研究中不可或缺的重要內(nèi)容。從文本信息檢索領(lǐng)域的相關(guān)反饋研究開(kāi)始,研究人員一直試圖借助用戶(hù)力量對(duì)系統(tǒng)的性能加以改進(jìn)。隨著信息檢索系統(tǒng)的應(yīng)用人群從少數(shù)的圖書(shū)館專(zhuān)業(yè)人士逐漸轉(zhuǎn)變?yōu)楹A恳?guī)模的網(wǎng)民群體,用戶(hù)行為中蘊(yùn)含的各種類(lèi)型的反饋信息更是越來(lái)越受到重視。盡管這種類(lèi)型的用戶(hù)行為數(shù)據(jù)中更大程度上提供的是一種隱性的反饋信息,但用戶(hù)群體規(guī)模上的優(yōu)勢(shì)使得反饋信息具有很高的客觀(guān)性與真實(shí)性,與小規(guī)模專(zhuān)業(yè)標(biāo)注人員提供的反饋數(shù)據(jù)相比往往具有更高的參考價(jià)值。因此,基于海量規(guī)模用戶(hù)數(shù)據(jù)的行為分析研究在搜索引擎結(jié)果排序[4]、查詢(xún)需求理解[5]、查詢(xún)推薦[6]、查詢(xún)糾錯(cuò)[7]、頁(yè)面質(zhì)量評(píng)估[8]、垃圾網(wǎng)頁(yè)識(shí)別[9]等方面都發(fā)揮了十分重要的作用。用戶(hù)行為數(shù)據(jù)中蘊(yùn)含的隱性反饋信息也在近年被稱(chēng)為“用戶(hù)群體智慧”的重要來(lái)源,被產(chǎn)業(yè)界和科研人員給予了充分的重視。
“用戶(hù)群體智慧”在搜索引擎和其他網(wǎng)絡(luò)應(yīng)用產(chǎn)品中所發(fā)揮的重要作用已經(jīng)很少被質(zhì)疑,但當(dāng)前的用戶(hù)行為分析研究絕大部分集中在對(duì)于特定時(shí)間段內(nèi)用戶(hù)行為的分析和挖掘上,很少有針對(duì)用戶(hù)長(zhǎng)期行為演化趨勢(shì)的觀(guān)察與分析。這一方面是由于搜索引擎用戶(hù)數(shù)據(jù)的規(guī)模十分龐大*根據(jù)ComScore公司的統(tǒng)計(jì)[10],2009年7月份全球用戶(hù)共向搜索引擎提交了約1 137億次查詢(xún)。,為存儲(chǔ)和運(yùn)算都帶來(lái)了沉重的壓力。另一方面也是由于搜索引擎用戶(hù)查詢(xún)隨時(shí)間變化較大,較長(zhǎng)時(shí)間之前的用戶(hù)數(shù)據(jù)對(duì)當(dāng)前的性能改進(jìn)(尤其是查詢(xún)排序性能改進(jìn))作用有限。我們認(rèn)為,盡管從提升特定查詢(xún)性能的角度,較長(zhǎng)時(shí)間段的用戶(hù)行為數(shù)據(jù)并不一定能夠發(fā)揮更好的作用,但針對(duì)用戶(hù)長(zhǎng)期行為演化趨勢(shì)的分析仍然具有其必要性和價(jià)值,主要體現(xiàn)在:
1) 針對(duì)用戶(hù)行為演化規(guī)律的分析,可以對(duì)搜索引擎的算法與交互方式改進(jìn)形成實(shí)證性的指導(dǎo),協(xié)助搜索引擎更好的服務(wù)用戶(hù)需求。
2) 針對(duì)用戶(hù)行為演化規(guī)律的分析,有助于我們更加深入地理解互聯(lián)網(wǎng)用戶(hù)信息獲取方式的變化,進(jìn)而成為我們提煉互聯(lián)網(wǎng)用戶(hù)與應(yīng)用系統(tǒng)協(xié)同演化規(guī)律的基礎(chǔ)。
3) 針對(duì)用戶(hù)行為演化規(guī)律的分析,可以從搜索引擎使用的角度協(xié)助我們對(duì)全球最大規(guī)模的網(wǎng)民群體——中國(guó)大陸網(wǎng)民群體——在互聯(lián)網(wǎng)高速成長(zhǎng)期的宏觀(guān)行為模式加以分析和提煉。
為了完成這一研究工作,我們?cè)谀成虡I(yè)搜索引擎公司的協(xié)助下,收集了從2006年到2011年該公司提供的中文搜索引擎服務(wù)的用戶(hù)行為數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)采樣抽樣后進(jìn)行分析的規(guī)模超過(guò)37億次用戶(hù)點(diǎn)擊。從2006年到2011年,是我國(guó)網(wǎng)民人數(shù)從1.11億[11]增加到4.85億[1],互聯(lián)網(wǎng)從精英人群逐漸走向大眾的時(shí)間,對(duì)這一時(shí)間段網(wǎng)絡(luò)用戶(hù)行為演化分析的研究也因此同時(shí)具有技術(shù)發(fā)展與社會(huì)科學(xué)的多重意義,尤其是為研究“互聯(lián)網(wǎng)是否以及如何影響個(gè)人行為”這么一個(gè)基本而又困難的問(wèn)題提供了重要的線(xiàn)索。
本文剩余部分的內(nèi)容組織如下: 第2節(jié)對(duì)截至目前所開(kāi)展的搜索引擎用戶(hù)行為分析工作進(jìn)行調(diào)研;第3節(jié)介紹所采用的用戶(hù)行為數(shù)據(jù)集合;第4節(jié)及第5節(jié)分別從用戶(hù)查詢(xún)行為和用戶(hù)點(diǎn)擊行為的角度對(duì)搜索引擎用戶(hù)行為的時(shí)間演化規(guī)律進(jìn)行分析;第6節(jié)總結(jié)用戶(hù)行為演化的主要規(guī)律并對(duì)未來(lái)搜索引擎的技術(shù)發(fā)展進(jìn)行展望。
搜索引擎的用戶(hù)行為日志記錄著萬(wàn)維網(wǎng)用戶(hù)和搜索引擎系統(tǒng)之間交互過(guò)程的行為信息,是研究和分析真實(shí)用戶(hù)行為的主要信息媒介。正如前文所述,用戶(hù)行為分析方法是推動(dòng)搜索引擎技術(shù)向前發(fā)展的重要?jiǎng)恿?,用?hù)行為分析也在搜索引擎研究的諸多方面發(fā)揮了重要的作用,受篇幅所限,我們僅重點(diǎn)介紹對(duì)搜索引擎用戶(hù)行為宏觀(guān)統(tǒng)計(jì)分析的相關(guān)工作。
群體用戶(hù)宏觀(guān)統(tǒng)計(jì)分析是對(duì)搜索引擎的群體用戶(hù)行為進(jìn)行統(tǒng)計(jì)分析,了解用戶(hù)和搜索引擎交互過(guò)程中各類(lèi)行為的統(tǒng)計(jì)分布、用戶(hù)使用習(xí)慣等狀況。根據(jù)相關(guān)分析結(jié)果有效調(diào)整搜索引擎的系統(tǒng)架構(gòu),尤其是改進(jìn)搜索引擎和用戶(hù)之間的交互方式,向用戶(hù)提供更加方便的搜索服務(wù)。早在搜索引擎推廣流行之前,萬(wàn)維網(wǎng)用戶(hù)行為信息已被一般網(wǎng)站用于了解用戶(hù)興趣、維護(hù)網(wǎng)站系統(tǒng)等方面。90年代中后期,Cockburn等人[12]、Tauscher等人[13]分別對(duì)一般站點(diǎn)的萬(wàn)維網(wǎng)用戶(hù)瀏覽行為展開(kāi)研究和分析。隨著搜索引擎的推廣和流行,搜索用戶(hù)行為也被相關(guān)企業(yè)和研究人員所關(guān)注。1998年,Silverstein對(duì)英文萬(wàn)維網(wǎng)搜索引擎的用戶(hù)行為進(jìn)行大規(guī)模日志分析[14],得到一些對(duì)搜索引擎架構(gòu)設(shè)計(jì)有意義的結(jié)論,這些結(jié)論對(duì)搜索引擎的算法優(yōu)化和系統(tǒng)改進(jìn)起到了一定的正面作用。2006年,王繼民等人基于北大天網(wǎng)的搜索引擎用戶(hù)點(diǎn)擊行為進(jìn)行的深入分析[15],對(duì)用戶(hù)點(diǎn)擊URL行為的統(tǒng)計(jì)規(guī)律做了初步總結(jié)。2007年,余慧佳等開(kāi)展了針對(duì)中文Web信息檢索系統(tǒng)用戶(hù)查詢(xún)的研究工作[16]。研究的結(jié)果表明在查詢(xún)長(zhǎng)度、查詢(xún)?cè)~匯分布等諸多方面中文搜索引擎用戶(hù)與英文搜索引擎用戶(hù)存在著一定程度的相似性。2010年,岑榮偉等從更加細(xì)致、深入的層次對(duì)用戶(hù)查詢(xún)展開(kāi)了分析與研究[17],研究者從不同類(lèi)型查詢(xún)屬性、查詢(xún)會(huì)話(huà)屬性等多個(gè)角度對(duì)用戶(hù)查詢(xún)行為的基本特征進(jìn)行了統(tǒng)計(jì)分析。
為了實(shí)現(xiàn)對(duì)中文搜索引擎用戶(hù)長(zhǎng)期行為演化規(guī)律的分析,我們?cè)谀成虡I(yè)搜索引擎公司的協(xié)助下收集了從2006年到2011年的部分用戶(hù)搜索引擎使用行為數(shù)據(jù)。由于數(shù)據(jù)量過(guò)于龐大,我們進(jìn)一步從這6個(gè)年份中每年選擇一個(gè)數(shù)據(jù)備份較為完整、也并未進(jìn)行重大技術(shù)升級(jí)的月份,從網(wǎng)頁(yè)搜索的相應(yīng)用戶(hù)行為數(shù)據(jù)中進(jìn)行一定比例*處于保護(hù)該搜索引擎商業(yè)機(jī)密的考慮,隱去了具體的抽樣比例數(shù)據(jù)。的數(shù)據(jù)抽樣作為考察對(duì)象。這六個(gè)年份各自選擇的月份為: 2006年12月,2007年3月,2008年9月,2009年9月,2010年10月以及2011年1月。這些月份對(duì)應(yīng)的用戶(hù)數(shù)量和用戶(hù)會(huì)話(huà)數(shù)量如下圖所示。
圖1 搜索引擎用戶(hù)行為數(shù)據(jù)的規(guī)模與采集時(shí)間
從圖1中可以看到,從2006年到2011年,我們所考察的搜索引擎用戶(hù)行為數(shù)據(jù)規(guī)模逐漸增長(zhǎng),2011年的用戶(hù)行為數(shù)據(jù)涉及到超過(guò)2.6億用戶(hù)*此處未考慮搜索引擎所收集到的用戶(hù)行為數(shù)據(jù)中可能存在的多個(gè)用戶(hù)標(biāo)識(shí)對(duì)應(yīng)相同用戶(hù)的情況。的3.4億搜索會(huì)話(huà)內(nèi)容,這與CNNIC報(bào)告的搜索引擎用戶(hù)數(shù)量高速增長(zhǎng)的事實(shí)是相呼應(yīng)的。即使用戶(hù)數(shù)據(jù)規(guī)模相對(duì)較小的2006年,我們分析涉及的用戶(hù)數(shù)量也有近700萬(wàn)個(gè),會(huì)話(huà)數(shù)量超過(guò)1 200萬(wàn)次。6個(gè)年份對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)總條數(shù)超過(guò)37億條,這樣的數(shù)據(jù)規(guī)模保證了我們所進(jìn)行的行為演化分析的可靠性。
搜索行為數(shù)據(jù)所記錄的信息包括時(shí)間、用戶(hù)標(biāo)示、會(huì)話(huà)標(biāo)示、查詢(xún)情況、用戶(hù)點(diǎn)擊情況等,數(shù)據(jù)條目和相應(yīng)的說(shuō)明如表1所示。
表1 搜索引擎用戶(hù)行為日志中記錄的信息
從表1可以看到,出于保護(hù)用戶(hù)隱私的需要,搜索引擎提供的數(shù)據(jù)集合盡量進(jìn)行了匿名化處理,并未含有用戶(hù)的IP,登錄用戶(hù)名等個(gè)人信息。
為了數(shù)據(jù)分析的便利,我們按搜索引擎用戶(hù)行為分析的通常做法對(duì)該數(shù)據(jù)進(jìn)行了會(huì)話(huà)劃分,同一用戶(hù)標(biāo)示下間隔時(shí)間超過(guò)30分鐘的操作將被劃分為不同的會(huì)話(huà)。通過(guò)這種會(huì)話(huà)劃分,可以保證同一會(huì)話(huà)下用戶(hù)信息獲取目標(biāo)的相對(duì)專(zhuān)一。
首先,我們來(lái)考慮用戶(hù)查詢(xún)長(zhǎng)度的時(shí)間演化情況。多個(gè)針對(duì)中文及英文搜索引擎的前人工作均顯示用戶(hù)查詢(xún)長(zhǎng)度和對(duì)應(yīng)查詢(xún)數(shù)量的分布符合冪律規(guī)律,因此我們不再對(duì)這一分布特性進(jìn)行考察,而重點(diǎn)觀(guān)察查詢(xún)長(zhǎng)度本身隨時(shí)間的變化規(guī)律。出乎意料的是,與部分商業(yè)搜索引擎宣稱(chēng)的用戶(hù)查詢(xún)逐漸變長(zhǎng)的現(xiàn)象不同,根據(jù)圖2所示的從2006~2011年用戶(hù)查詢(xún)平均長(zhǎng)度的變化趨勢(shì),用戶(hù)平均查詢(xún)長(zhǎng)度在6年內(nèi)的變化幅度較小,均在11~12字節(jié)之間(約合5~6個(gè)漢字)。這說(shuō)明盡管近年來(lái)部分商業(yè)搜索引擎描述了“用戶(hù)查詢(xún)?cè)絹?lái)越長(zhǎng)”的現(xiàn)象*參見(jiàn)百度公司技術(shù)人員在百度大會(huì)上的演講,http://tech.sina.com.cn/i/2009-08-18/15533362379.shtml.,但使用較短查詢(xún)進(jìn)行提問(wèn)的用戶(hù)規(guī)模依舊龐大。從查詢(xún)長(zhǎng)度分布的冪律分布現(xiàn)象上,也可以看出: 較短查詢(xún)盡管數(shù)目不一定龐大,但每個(gè)查詢(xún)都會(huì)被大量用戶(hù)所反復(fù)提交,因此在計(jì)算查詢(xún)長(zhǎng)度平均值時(shí),這部分查詢(xún)抵消了部分用戶(hù)開(kāi)始采用較長(zhǎng)的自然語(yǔ)言查詢(xún)的影響。
圖2 用戶(hù)平均查詢(xún)長(zhǎng)度的時(shí)間演化情況
為了進(jìn)一步驗(yàn)證用戶(hù)查詢(xún)長(zhǎng)度的變化情況,我們對(duì)獨(dú)立用戶(hù)查詢(xún)平均長(zhǎng)度的演化情況也進(jìn)行了統(tǒng)計(jì),與圖2中的統(tǒng)計(jì)數(shù)據(jù)不同,圖3中的數(shù)據(jù)是在不考慮同一查詢(xún)被重復(fù)提交的情況下計(jì)算出的所有獨(dú)立查詢(xún)的長(zhǎng)度平均數(shù)值。根據(jù)圖3的統(tǒng)計(jì)結(jié)果,盡管用戶(hù)查詢(xún)平均長(zhǎng)度在2006~2011年間沒(méi)有明顯的變化,但獨(dú)立用戶(hù)查詢(xún)的平均長(zhǎng)度則呈現(xiàn)逐年遞增的趨勢(shì)。
圖3 用戶(hù)獨(dú)立查詢(xún)平均長(zhǎng)度的時(shí)間演化情況
用戶(hù)獨(dú)立查詢(xún)的平均長(zhǎng)度從2006年的15.5字節(jié)上升到2011年的18字節(jié)以上,這充分說(shuō)明了用戶(hù)越來(lái)越傾向于用較長(zhǎng)的查詢(xún)表述其信息需求。盡管短查詢(xún)?nèi)耘f在用戶(hù)查詢(xún)需求總量中占有相當(dāng)?shù)谋壤?,但搜索引擎系統(tǒng)確實(shí)面臨著查詢(xún)變長(zhǎng)的趨勢(shì)。這一方面意味著用戶(hù)可能會(huì)更加清晰的表述其信息需求,另一方面也帶來(lái)了自然語(yǔ)言查詢(xún)處理等技術(shù)上的挑戰(zhàn)。
高級(jí)查詢(xún)功能是指搜索引擎提供給用戶(hù)的用于在查詢(xún)中準(zhǔn)確表述信息需求的功能,如邏輯運(yùn)算符(與、或、非)等。高級(jí)查詢(xún)功能使用的比例一定程度上反映出搜索用戶(hù)專(zhuān)業(yè)程度的高低。高級(jí)查詢(xún)所占比例的變化也因此反映出搜索用戶(hù)群體這方面屬性的改變。
我們主要考察了用戶(hù)較多使用的與運(yùn)算符功能(and),站內(nèi)搜索功能(site: )以及包含全部字詞功能(“”)在查詢(xún)中使用的比例情況。使用這三類(lèi)常用高級(jí)功能的用戶(hù)查詢(xún)?cè)谌坎樵?xún)中所占的比例情況*由于該搜索引擎2007年之后的高級(jí)搜索功能設(shè)置發(fā)生了較大改變,因此此處未統(tǒng)計(jì)2006年的數(shù)據(jù)情況。如圖4所示。
圖4 帶有高級(jí)查詢(xún)功能的查詢(xún)比例的時(shí)間演化情況
根據(jù)圖4所示的高級(jí)查詢(xún)比例演化趨勢(shì),我們可以發(fā)現(xiàn)用戶(hù)在2007年以后使用高級(jí)查詢(xún)的比例明顯下降,2007年使用高級(jí)查詢(xún)的比例為14%,而從2009到2011年高級(jí)查詢(xún)的使用比例穩(wěn)定在 6%~7%之間。我們認(rèn)為,2007~2008年高級(jí)查詢(xún)比例明顯下降的趨勢(shì)是與中文搜索引擎用戶(hù)在相應(yīng)時(shí)間段的高速增長(zhǎng)趨勢(shì)相對(duì)應(yīng)的。2007年6月至2008年12月,中文搜索引擎用戶(hù)規(guī)模從1.21億增長(zhǎng)至2.03億,增長(zhǎng)率近70%[18-19],這使得搜索引擎從少數(shù)熟悉互聯(lián)網(wǎng)應(yīng)用方式的人群向普通網(wǎng)民普及。這一搜索引擎的應(yīng)用普及過(guò)程也體現(xiàn)在搜索引擎用戶(hù)的學(xué)歷組成變化上,如根據(jù)CNNIC的統(tǒng)計(jì),2008年中國(guó)搜索引擎用戶(hù)中受過(guò)高等教育的人員比例為53.9%*http://www.cnnic.cn/research/zx/qwfb/200905/t20090522_ 17765.html.,但2009年及2010年的相應(yīng)比例則下降為28.9%和29.0%[20]。搜索引擎應(yīng)用普及的過(guò)程直接反映在高級(jí)查詢(xún)比例的變化上,也必然對(duì)搜索引擎用戶(hù)的整個(gè)行為模式產(chǎn)生影響。
一般認(rèn)為,同一查詢(xún)對(duì)話(huà)中的各個(gè)查詢(xún)是圍繞某個(gè)特定的用戶(hù)信息需求展開(kāi)的,而同一查詢(xún)對(duì)話(huà)內(nèi)的查詢(xún)個(gè)數(shù)則一定程度上反映了用戶(hù)為獲取信息所花費(fèi)的成本高低。從圖5的數(shù)據(jù)中可以看到,從2006~2011年,同一查詢(xún)對(duì)話(huà)中的查詢(xún)個(gè)數(shù)變化較小,而2009~2011年的平均查詢(xún)個(gè)數(shù)比2006~2008年略高。這一定程度上反映出用戶(hù)使用搜索引擎的黏性增加,用戶(hù)樂(lè)意與搜索引擎進(jìn)行更多的交互以獲得更準(zhǔn)確的搜索結(jié)果。同時(shí),我們也認(rèn)為搜索引擎檢索性能的提高使得其能夠更好地理解用戶(hù)需求,從而使用戶(hù)獲得信息的便利程度增加,這一定程度上使用戶(hù)不必進(jìn)行太多次查詢(xún)就可以獲得所需信息,這也是查詢(xún)對(duì)話(huà)中包含的查詢(xún)個(gè)數(shù)沒(méi)有明顯增加的原因。
圖5 查詢(xún)對(duì)話(huà)所包含平均查詢(xún)個(gè)數(shù)的時(shí)間演化情況
查詢(xún)推薦功能是搜索引擎與用戶(hù)的一種重要交互形式,通常呈現(xiàn)在搜索結(jié)果頁(yè)面的底部,通過(guò)提供與用戶(hù)原始查詢(xún)相似的查詢(xún)協(xié)助用戶(hù)更好地描述其信息需求。根據(jù)我們前期的研究成果[6],查詢(xún)推薦出現(xiàn)在15%左右的中文搜索引擎用戶(hù)查詢(xún)會(huì)話(huà)中,對(duì)于提升用戶(hù)的搜索體驗(yàn)發(fā)揮著很重要的作用。
圖6給出了從2008年到2011年用戶(hù)所遞交查詢(xún)中來(lái)自查詢(xún)推薦功能的比例,可以看出,查詢(xún)推薦所占比例在呈逐年明顯下降的趨勢(shì),已經(jīng)從2008年的18%以上下降到2011年初的10%左右。
圖6 用戶(hù)查詢(xún)中查詢(xún)推薦比例的時(shí)間演化情況* 該搜索引擎日志從2008年后才開(kāi)始記錄查詢(xún)來(lái)源信息,因此2008年前的查詢(xún)推薦點(diǎn)擊數(shù)據(jù)無(wú)法獲得。
查詢(xún)推薦在總體用戶(hù)查詢(xún)中比例降低的趨勢(shì)一定程度上反映出用戶(hù)逐漸能夠較完善地描述其信息需求,而不需依賴(lài)搜索引擎提供的推薦功能。結(jié)合第4.3節(jié)的實(shí)驗(yàn)分析,盡管2009~2011年用戶(hù)查詢(xún)對(duì)話(huà)所包含的平均查詢(xún)個(gè)數(shù)比2009年之前各年份有一定增長(zhǎng),但查詢(xún)推薦的使用比例卻不升反降,這進(jìn)一步說(shuō)明了用戶(hù)對(duì)自己組織查詢(xún)的能力越來(lái)越自信,這也與第4.3節(jié)中提到的搜索引擎滿(mǎn)足用戶(hù)信息需求能力提高的趨勢(shì)是一致的。
圖7給出了處于不同位置的查詢(xún)推薦對(duì)應(yīng)的用戶(hù)點(diǎn)擊比率的情況,首先,類(lèi)似于搜索結(jié)果點(diǎn)擊的分布情況,排名較前的查詢(xún)推薦用戶(hù)點(diǎn)擊比率明顯較高;但是我們也可以看到,排名第4位以后的查詢(xún)推薦其點(diǎn)擊比率差異并不明顯,這是與搜索引擎查詢(xún)推薦的呈現(xiàn)方式有密切關(guān)系的。同時(shí),我們也可以看到2010與2011年對(duì)應(yīng)的點(diǎn)擊數(shù)據(jù)明顯對(duì)排名靠前的查詢(xún)推薦有較大的偏向,這可能是與近年來(lái)查詢(xún)推薦排序算法的性能提高有一定關(guān)系。
圖7 用戶(hù)查詢(xún)推薦點(diǎn)擊比率與查詢(xún)推薦排序位置的對(duì)應(yīng)關(guān)系
在進(jìn)行用戶(hù)點(diǎn)擊行為的演化分析之前,我們首先對(duì)用戶(hù)搜索結(jié)果點(diǎn)擊的總體行為情況進(jìn)行介紹和分析。不少已有工作如文獻(xiàn)[15-16]都指出用戶(hù)對(duì)搜索結(jié)果的點(diǎn)擊次數(shù)與該結(jié)果在搜索結(jié)果列表中的排名有密切的關(guān)聯(lián),符合冪律(或齊普夫定律)的分布規(guī)律。圖8給出的搜索引擎結(jié)果點(diǎn)擊量分布情況基本符合這些已有工作中的結(jié)論,如某個(gè)結(jié)果頁(yè)面內(nèi)的點(diǎn)擊基本呈指數(shù)下降趨勢(shì),不同頁(yè)面之間的結(jié)果點(diǎn)擊量也隨著頁(yè)面排序的增長(zhǎng)明顯下降等。然而,我們也發(fā)現(xiàn)了該分布趨勢(shì)與冪律分布的一些差異,主要表現(xiàn)為: 搜索結(jié)果中排名第10、20、30、40、50位的結(jié)果點(diǎn)擊量明顯高于排在其相鄰靠前位置的結(jié)果,形成了每個(gè)結(jié)果頁(yè)面最后一位結(jié)果的“翹尾現(xiàn)象”,這一現(xiàn)象與冪律的分布規(guī)律明顯不符。
我們認(rèn)為,這種“翹尾現(xiàn)象”來(lái)自于搜索引擎結(jié)果頁(yè)面設(shè)計(jì)中的某些特定元素影響,對(duì)于我們所分析的商業(yè)搜索引擎,其“查詢(xún)推薦”功能展示出的查詢(xún)位于結(jié)果頁(yè)面的底部,搜索結(jié)果翻頁(yè)的鏈接也位于頁(yè)面底部,這有可能造成用戶(hù)在使用查詢(xún)推薦或翻頁(yè)功能的同時(shí)對(duì)排名末位的搜索結(jié)果予以更多的關(guān)注。
圖8 搜索引擎結(jié)果點(diǎn)擊量與結(jié)果排序之間的關(guān)系
我們進(jìn)一步對(duì)用戶(hù)相鄰兩次點(diǎn)擊的位置差值部分情況做了統(tǒng)計(jì),圖9的實(shí)驗(yàn)數(shù)據(jù)說(shuō)明,點(diǎn)擊位置差值為1的用戶(hù)比例最大,有25%~30%的相鄰點(diǎn)擊是發(fā)生在位置差為1的兩個(gè)結(jié)果之間的,這也符合我們通常認(rèn)為的用戶(hù)順序依次點(diǎn)擊的行為習(xí)慣。
圖9 搜索引擎結(jié)果相鄰兩次點(diǎn)擊之間的位置差值分布演化情況
但是,我們同時(shí)也發(fā)現(xiàn)有約10%的相鄰點(diǎn)擊中發(fā)生了“回溯”行為,即用戶(hù)當(dāng)次點(diǎn)擊的結(jié)果排在比上次點(diǎn)擊結(jié)果更靠前的位置,這種“回溯”反映了用戶(hù)對(duì)以往點(diǎn)擊或?yàn)g覽過(guò)結(jié)果的重新認(rèn)識(shí)過(guò)程,這也與前人基于眼動(dòng)實(shí)驗(yàn)進(jìn)行的用戶(hù)調(diào)研結(jié)果[21]相吻合。同樣值得注意的是,有10%以上的相鄰點(diǎn)擊是針對(duì)同一結(jié)果進(jìn)行的,而這個(gè)比例在2010與2011年的數(shù)據(jù)中甚至高達(dá)20%左右,這可能是由于用戶(hù)的操作失誤造成的,也可能是由于用戶(hù)急切想得到結(jié)果而進(jìn)行的重復(fù)點(diǎn)擊造成的。這種行為的出現(xiàn),反映了用戶(hù)對(duì)搜索引擎的性能期望值在提高,不僅從搜索結(jié)果的反饋速度上,同時(shí)包括網(wǎng)絡(luò)帶寬的要求上,希望能快速地獲取瀏覽結(jié)果信息。但這種重復(fù)點(diǎn)擊結(jié)果的行為必然會(huì)造成用戶(hù)點(diǎn)擊分析工作(尤其是基于點(diǎn)擊進(jìn)行相關(guān)反饋分析工作)的誤差,因此需要引起重視。
用戶(hù)查詢(xún)點(diǎn)擊次數(shù)可以被認(rèn)為是用戶(hù)為從搜索引擎獲取信息而花費(fèi)的操作成本的度量方式之一。用戶(hù)點(diǎn)擊次數(shù)越少,一定程度上反映了用戶(hù)能夠更快的獲得相關(guān)信息,從圖10所示的搜索引擎每查詢(xún)平均點(diǎn)擊次數(shù)的時(shí)間演化情況中可以看到,從2006年到2011年,用戶(hù)針對(duì)某查詢(xún)所進(jìn)行的平均點(diǎn)擊次數(shù)逐年下降。這從一個(gè)側(cè)面反映出搜索引擎檢索性能的提高趨勢(shì)。
圖10 查詢(xún)平均點(diǎn)擊次數(shù)的時(shí)間演化情況
然而,查詢(xún)平均點(diǎn)擊次數(shù)不僅僅取決于搜索引擎的檢索性能,也與查詢(xún)本身的屬性有密切的關(guān)聯(lián)。通常認(rèn)為[22],由于其查詢(xún)目標(biāo)相對(duì)確定,導(dǎo)航類(lèi)信息需求的查詢(xún)點(diǎn)擊次數(shù)要明顯少于其他查詢(xún)類(lèi)別。近年來(lái),隨著互聯(lián)網(wǎng)信息資源環(huán)境和搜索引擎用戶(hù)需求的變化,導(dǎo)航類(lèi)查詢(xún)的比例通常被認(rèn)為逐年減少*參見(jiàn)百度公司技術(shù)人員在百度大會(huì)上的演講,http://tech.sina.com.cn/i/2009-08-18/15533362379.shtml.,在這種情況下,查詢(xún)平均點(diǎn)擊次數(shù)下降的趨勢(shì)就更有可能是與搜索引擎性能的提高有關(guān)。
圖11 不同用戶(hù)點(diǎn)擊數(shù)目用戶(hù)查詢(xún)的分布演化情況
圖11所示的不同點(diǎn)擊數(shù)目查詢(xún)分布的時(shí)間演化情況也一定程度上反映了查詢(xún)需求改變和檢索效果提升這兩個(gè)因素對(duì)查詢(xún)點(diǎn)擊數(shù)目的共同影響。從2007~2009年,點(diǎn)擊次數(shù)多于3次的用戶(hù)查詢(xún)比例連年增加,而點(diǎn)擊次數(shù)為1的用戶(hù)查詢(xún)比例則逐年下降,這很大程度上反映了用戶(hù)信息需求的變化,搜索引擎逐漸從定位特定網(wǎng)站的工具轉(zhuǎn)變?yōu)楂@取信息的渠道。而2010年與2011年點(diǎn)擊次數(shù)多于3次的用戶(hù)查詢(xún)比例明顯下降,我們認(rèn)為在用戶(hù)信息需求相對(duì)穩(wěn)定的前提下,這反映了搜索性能的提升,也客觀(guān)上反映了用戶(hù)與搜索引擎交互程度有所下降的事實(shí)。
用戶(hù)點(diǎn)擊位置也一定程度上反映了搜索引擎的檢索性能的高低: 用戶(hù)的平均點(diǎn)擊位置越靠前,通常意味著用戶(hù)能夠通過(guò)搜索結(jié)果列表比較靠前的結(jié)果滿(mǎn)足其信息需求,進(jìn)而說(shuō)明搜索引擎提供給用戶(hù)的結(jié)果列表質(zhì)量較高。
從圖12所示的用戶(hù)平均點(diǎn)擊位置和首次點(diǎn)擊位置時(shí)間演化數(shù)據(jù)中可以看到,從2006年到2011年,用戶(hù)點(diǎn)擊位置呈逐年前移的趨勢(shì)。2006年的首次點(diǎn)擊位置平均值的在第4位左右,說(shuō)明當(dāng)時(shí)搜索結(jié)果列表中排名靠前結(jié)果的質(zhì)量明顯出現(xiàn)問(wèn)題。而2010年和2011年的平均點(diǎn)擊位置在第3位左右,也說(shuō)明用戶(hù)大都在訪(fǎng)問(wèn)排名靠前的結(jié)果之后就結(jié)束了查詢(xún)。這既反映了搜索引擎排序性能的提升,也造成了搜索用戶(hù)關(guān)注度更加集中在少數(shù)排名靠前結(jié)果的事實(shí)。
圖12 用戶(hù)平均點(diǎn)擊位置和首次點(diǎn)擊位置的演化情況
從上述的用戶(hù)搜索引擎使用行為的時(shí)間演化分析中,我們可以得到以下行為演化特性:
1) 用戶(hù)越來(lái)越樂(lè)意使用較長(zhǎng)的查詢(xún)描述自己的信息需求,但使用短查詢(xún)進(jìn)行搜索的用戶(hù)規(guī)模依舊龐大。
2) 用戶(hù)對(duì)自身描述信息需求的能力越來(lái)越自信,使用查詢(xún)推薦的用戶(hù)比例明顯減少,而查詢(xún)對(duì)話(huà)中所包含的查詢(xún)數(shù)目則相對(duì)維持在一個(gè)穩(wěn)定的水平上。
3) 用戶(hù)與搜索引擎的結(jié)果點(diǎn)擊交互次數(shù)越來(lái)越少,用戶(hù)點(diǎn)擊也越來(lái)越集中在少數(shù)在搜索結(jié)果列表中排名靠前的結(jié)果上。
這些用戶(hù)行為的演化為搜索引擎技術(shù)的未來(lái)發(fā)展帶來(lái)了機(jī)遇和挑戰(zhàn): 一方面,相當(dāng)比例的搜索引擎用戶(hù)開(kāi)始使用較長(zhǎng)的查詢(xún)描述其信息需求,這使得搜索引擎之前面臨的信息需求表述不完善的技術(shù)難題一定程度上得以緩解。然而,用戶(hù)查詢(xún)長(zhǎng)度的增加并不一定是來(lái)自于用戶(hù)對(duì)于信息需求的精確描述(用戶(hù)使用高級(jí)查詢(xún)功能的比例并未增加),而往往是由于用戶(hù)越來(lái)越傾向于使用自然語(yǔ)言而非關(guān)鍵詞構(gòu)建查詢(xún)的現(xiàn)象造成的。這就為搜索引擎提出了更高的查詢(xún)理解方面的技術(shù)要求,百度公司在“框計(jì)算”技術(shù)框架中,把查詢(xún)理解作為其中的核心技術(shù)環(huán)節(jié),正可以看作這種技術(shù)要求的具體體現(xiàn)。同時(shí),較長(zhǎng)的查詢(xún)往往意味著用戶(hù)所提出的信息需求是極為具體的,這種具體的信息需求不一定能夠在網(wǎng)絡(luò)環(huán)境中找到精確匹配的資源加以滿(mǎn)足,這必然促使搜索引擎更加重視問(wèn)答式社區(qū)等群體智慧交互平臺(tái)的建設(shè),以協(xié)助用戶(hù)完成其具體、精細(xì)化的信息需求。
另一方面,用戶(hù)從點(diǎn)擊層面與搜索引擎進(jìn)行交互的次數(shù)明顯減少,這種趨勢(shì)與搜索引擎檢索性能的提升有密切的關(guān)聯(lián),但卻必然造成用戶(hù)在搜索引擎停留時(shí)間的減少,搜索引擎為了增加用戶(hù)粘性,必然會(huì)發(fā)揮其信息資源占有和處理能力上的優(yōu)勢(shì),收集、整理乃至創(chuàng)造更多的信息,滿(mǎn)足用戶(hù)不同層次的信息需求,谷歌公司收購(gòu)YouTuBe等網(wǎng)絡(luò)資產(chǎn)以及通過(guò)谷歌地圖、谷歌圖書(shū)等產(chǎn)品提供獨(dú)有的高質(zhì)量信息就是這方面努力的具體表現(xiàn)。用戶(hù)交互的減少也必然會(huì)對(duì)搜索引擎的用戶(hù)行為信息的利用方式產(chǎn)生影響,使得搜索引擎更加重視行為信息的可信度。
此外,交互次數(shù)的減少和用戶(hù)對(duì)排名靠前結(jié)果的偏好使得搜索引擎競(jìng)價(jià)排名廣告的競(jìng)爭(zhēng)必然更加激烈,也有可能使得社會(huì)媒體對(duì)搜索引擎信息公平性質(zhì)疑的增加。這也要求搜索引擎在廣告投放方面更加慎重,采用更加精準(zhǔn)的方式減少對(duì)用戶(hù)獲取信息過(guò)程的影響。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2011年7月)[EB/OL].http://cnnic.cn/dtygg/dtgg/201107/w020110719521725234632.pdf.
[2] Henzinger, M. R., Motwani, R., and Silverstein, C. 2002. Challenges in web search engines[J]. SIGIR Forum 36, 2 (Sep. 2002): 11-22.
[3] Amit Singhal. 2005. Challenges in running a commercial search engine[C]//Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval (SIGIR ’05). ACM, New York, NY, USA: 432-432.
[4] Guo F, Liu C, Wang Y. 2009. Efficient multiple-click models in web search[C]//Proceedings of the 2nd ACM international Conference on Web Search and Data Mining (Barcelona, Spain, February 09-12, 2009). R. Baeza-Yates, P. Boldi, B. Ribeiro-Neto, and B. B. Cambazoglu, Eds. WSDM ’09. ACM Press, New York, NY, 124-131.
[5] Liu Y, Zhang M, Ru L, Ma S. 2006. Automatic query type identification based on click through information[C]//H.T. Ng et al. (Eds.): AIRS 2006, LNCS 4182, 593-600.
[6] Yiqun Liu, Junwei Miao, Min Zhang, Shaoping Ma, Liyun Ru. How Do Users Describe Their Information Need: Query Recommendation based on Snippet Click Model[J]. Expert Systems With Applications. 2011,38(11): 13847-13856.
[7] Bo Zhou, Min Zhang, Shaoping Ma, Yiqun Liu, Liyun Ru, Log-Mining Based Query Spelling Correction for Chinese Search Engines[J]. Journal of Computational Information Systems, 2009, 5(3): 1225-1234.
[8] Liu Y, Gao B, Liu T, Zhang Y, Ma Z, He S, Li H. 2008. BrowseRank: letting web users vote for page importance[C]//Proceedings of the 31st Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Singapore, Singapore, July 20-24, 2008). SIGIR ’08. ACM Press, New York, NY: 451-458.
[9] Yiqun Liu, Fei Chen, Weize Kong, Huijia Yu, Min Zhang, Shaoping Ma, Liyun Ru. Identifying Web Spam with the Wisdom of the Crowds[J]. ACM Transaction on the Web. 2011.
[10] ComScore. Global Search Market Draws More than 100 Billion Searches per Month[EB/OL]. http://www.comscore.com/Press_Events/Press_Releases/2009/8/Global_Search_Market_Draws_More_than_100_Billion_Searches_per_Month.
[11] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第17次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2006年1月)[EB/OL].http://www.cnnic.net.cn/uploadfiles/doc/2008/1/17/104126.doc.
[12] Cockburn A, Jones S. 1996. Which way now? Analysing and easing inadequacies in WWW navigation[J]. International Journal of Human-Computer Studies, 45: 105-129.
[13] Tauscher L, Greenberg S. 1997. How people revisit web pages: Empirical findings and implications for the design of history systems[J]. International Journal of Human-Computer Studies, 47: 97-137.
[14] Silverstein C, Marais H, Henzinger M, Moricz M. 1999. Analysis of a very large web search engine query log[J]. SIGIR Forum 33, 1: 6-12.
[15] 王繼民, 彭波. 搜索引擎用戶(hù)點(diǎn)擊行為分析[J]. 情報(bào)學(xué)報(bào), 2006,25(2): 154-162.
[16] 余慧佳, 劉奕群, 張敏, 等. 基于大規(guī)模日志分析的網(wǎng)絡(luò)搜索引擎用戶(hù)行為研究[J]. 中文信息學(xué)報(bào),2007, 21(1): 109-114.
[17] 岑榮偉,劉奕群,張敏,等.基于日志挖掘的搜索引擎用戶(hù)行為分析[J].中文信息學(xué)報(bào),2010,24(3): 49-54.
[18] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第19次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2007年1月)[EB/OL].http://www.cnnic.cn/uploadfiles/doc/2007/2/13/95848.doc.
[19] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.2009年中國(guó)搜索引擎用戶(hù)行為研究報(bào)告(2009年7月)[EB/OL].http://research.cnnic.cn/img/h000/h11/attach200907161306340.pdf.
[20] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.2010年中國(guó)搜索引擎用戶(hù)行為研究報(bào)告(2010年7月)[EB/OL].http://www.cnnic.cn/uploadfiles/pdf/2010/7/15/100708. pdf.
[21] L. Lorigo, B. Pan, H. Kembrooke, T. Joachims,L. Granka, and G. Gay. The influence of task and gender on search and evaluation behavior using google[J]. Information Processing and Management, 2005.
[22] Broder A. 2002. A taxonomy of Web search[J]. SIGIR Forum 36, Sep. 2002,2: 3-10.