国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

搜索日志分析研究述評(píng)

2018-12-22 10:55:14王淼
電腦知識(shí)與技術(shù) 2018年32期
關(guān)鍵詞:用戶(hù)行為長(zhǎng)度

王淼

摘要:本文首先對(duì)搜索日志的基本概念和發(fā)展起源進(jìn)行簡(jiǎn)單的介紹。第二部分介紹了網(wǎng)頁(yè)標(biāo)簽和日志文件的優(yōu)缺點(diǎn),以及Jansen搜索日志分析方法的步驟和衡量指標(biāo)。第三部分對(duì)國(guó)內(nèi)外目前利用搜索日志分析方法研究用戶(hù)行為的現(xiàn)狀進(jìn)行總結(jié)。然后討論用戶(hù)在搜索話(huà)題,查詢(xún)?cè)~長(zhǎng)度,瀏覽頁(yè)面三方面的變化過(guò)程和搜索日志分析方法的優(yōu)缺點(diǎn)。最后對(duì)文章內(nèi)容進(jìn)行總結(jié),并給出了以后的幾個(gè)研究方向。

關(guān)鍵詞:網(wǎng)絡(luò)搜索;用戶(hù)行為;搜索日志;長(zhǎng)度

中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-3044(2018)32-0263-04

1 引言

2018年8月20日,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布第42次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]?!秷?bào)告》顯示,截至2018年8月,中國(guó)網(wǎng)民規(guī)模達(dá)8.0億,互聯(lián)網(wǎng)普及率為57.78%。隨著網(wǎng)絡(luò)與信息資源的飛速發(fā)展,網(wǎng)絡(luò)搜索(Web Searching)已經(jīng)成為人們獲取信息的主要途徑。然而,在大數(shù)據(jù)背景下,檢索系統(tǒng)往往不能準(zhǔn)確地返回用戶(hù)真實(shí)需求。因此,為了提升檢索系統(tǒng)的性能,對(duì)網(wǎng)絡(luò)搜索行為(Web Searching Behavior)的研究是非常必要的。

整體來(lái)說(shuō),網(wǎng)絡(luò)搜索行為的研究可以分為兩個(gè)方向[2]。如圖1所示。第一,采用搜索日志分析或者網(wǎng)頁(yè)標(biāo)簽來(lái)獲取顯性數(shù)據(jù)揭示用戶(hù)搜索行為(explicit searching behavior)。網(wǎng)頁(yè)標(biāo)簽是在網(wǎng)頁(yè)中嵌入一小段代碼,這段代碼不影響網(wǎng)頁(yè)的加載和運(yùn)行,然后利用JavaScript將網(wǎng)頁(yè)和用戶(hù)的信息發(fā)回到遠(yuǎn)程服務(wù)器端。日志文件記錄用戶(hù)與系統(tǒng)的一系列交互過(guò)程。利用網(wǎng)頁(yè)標(biāo)簽或者日志文件中記錄的數(shù)據(jù)研究用戶(hù)網(wǎng)絡(luò)搜索行為。第二,用戶(hù)研究揭示導(dǎo)致用戶(hù)搜索行為的隱性因素(implicit factors)。用戶(hù)研究主要采集用戶(hù)的個(gè)人特征,例如用戶(hù)的搜索技能、領(lǐng)域知識(shí)、認(rèn)知、情感等。研究個(gè)人特征對(duì)于用戶(hù)搜索行為的影響。本文主要關(guān)注搜索日志分析,因?yàn)樗阉魅罩居涗浟擞脩?hù)的整個(gè)查詢(xún)過(guò)程,包括查詢(xún)?cè)~,點(diǎn)擊頻次以及URL等豐富信息。如何通過(guò)日志分析來(lái)了解用戶(hù)的網(wǎng)絡(luò)搜索行為,已經(jīng)成為當(dāng)前重要研究方向。

本文第二部分介紹了Jansen的搜索日志分析方法的步驟。第三部分介紹了國(guó)內(nèi)外使用搜索日志分析方法進(jìn)行的相關(guān)實(shí)證研究。在第四部分的討論中討論用戶(hù)在搜索話(huà)題,查詢(xún)?cè)~長(zhǎng)度,瀏覽頁(yè)面三方面的變化過(guò)程和搜索日志分析方法的優(yōu)缺點(diǎn)。最后一部分是對(duì)文章的總結(jié)和未來(lái)發(fā)展方向的展望。

2 方法論

2.1 日志文件與網(wǎng)頁(yè)標(biāo)簽的優(yōu)缺點(diǎn)

日志文件與網(wǎng)頁(yè)標(biāo)簽作為兩種不同記錄用戶(hù)行為的方式,都可以用來(lái)做分析用戶(hù)行為。網(wǎng)頁(yè)標(biāo)簽以Google Analytics為代表。這種記錄用戶(hù)與系統(tǒng)的交互過(guò)程需要用戶(hù)是網(wǎng)站的擁有者,才可以在網(wǎng)站內(nèi)部嵌入代碼,監(jiān)測(cè)用戶(hù)行為。日志的內(nèi)容主要包括用戶(hù)的IP地址,日期,時(shí)間,查詢(xún)?cè)~,瀏覽頁(yè)面,請(qǐng)求方式等。目前,常用的標(biāo)準(zhǔn)日志格式主要有NCSA(National Center for Supercomputing Applications) Common Log,NCSA Combined Log,NCSA Separate Log,和W3C Extended Log,其中最常見(jiàn)的是W3C格式的日志。

日志文件與網(wǎng)頁(yè)標(biāo)簽作為兩種不同記錄用戶(hù)行為的方式相比之下各有優(yōu)勢(shì)。主要表現(xiàn)在是否需要web服務(wù)器,額外的代碼,軟件以及帶寬,是否會(huì)報(bào)告所有的(包括加載成功和失敗的網(wǎng)頁(yè))信息,以及是否能獲得用戶(hù)信息等,主要區(qū)別見(jiàn)表1[3]。對(duì)于那些沒(méi)有自己web服務(wù)器的公司可以考慮使用網(wǎng)頁(yè)標(biāo)簽的方式來(lái)獲取數(shù)據(jù)研究用戶(hù)行為,組織或企業(yè)可以根據(jù)自己的需要選擇合適的方式獲取數(shù)據(jù),本文主要關(guān)注日志文件。

2.2 搜索日志分析方法步驟和衡量指標(biāo)

自1998年以來(lái),人們對(duì)搜索日志的利用日益頻繁,盡管所探討的研究問(wèn)題多種多樣,然而在開(kāi)展搜索日志分析的手段上彼此之間存在很多重合,只是未形成統(tǒng)一、可復(fù)制的模式。直到2006年,Jansen正式提出了由數(shù)據(jù)采集、處理和分析三個(gè)階段組成的搜索日志分析過(guò)程(如圖2所示),并對(duì)各階段所包含的任務(wù)內(nèi)容進(jìn)行了詳細(xì)的描述,尤其是分析階段的三個(gè)層次,即關(guān)鍵詞(Term)、查詢(xún)式(Query)和搜索會(huì)話(huà)(Session)[4],這也成為相關(guān)研究紛紛遵循的方法指引。

2.2.1 數(shù)據(jù)采集

作為網(wǎng)絡(luò)日志的一個(gè)子類(lèi),搜索日志則側(cè)重于反映搜索交互的特點(diǎn)。除了常規(guī)的用戶(hù)身份和日期時(shí)間以外,搜索日志中最重要的字段就是用戶(hù)所提交的查詢(xún)式,即他們?cè)谒阉骺蚶镙斎氲年P(guān)鍵詞組合。其他具有研究?jī)r(jià)值的字段還包括搜索結(jié)果頁(yè)面和頁(yè)面點(diǎn)進(jìn)(Click-through),其中前者是搜索引擎根據(jù)用戶(hù)查詢(xún)式返回的一組結(jié)果條目集合,后者是用戶(hù)通過(guò)點(diǎn)擊特定結(jié)果條目去訪(fǎng)問(wèn)的頁(yè)面[5]。在數(shù)據(jù)采集時(shí)選取哪些字段應(yīng)該依據(jù)研究問(wèn)題而定。

2.2.2 數(shù)據(jù)處理

從服務(wù)器上獲取的搜索日志原始數(shù)據(jù)通常都需要經(jīng)過(guò)一系列的處理。首先是崩潰記錄(如字段內(nèi)容的缺失和錯(cuò)位)的篩查,可以依次對(duì)所有的字段進(jìn)行排序,錯(cuò)誤數(shù)據(jù)會(huì)出現(xiàn)在每個(gè)字段列的兩端或是聚集到一起。其次是人類(lèi)記錄的識(shí)別,可以認(rèn)為連續(xù)提交查詢(xún)式的數(shù)量不超過(guò)特定閾值(如100個(gè))的才是真實(shí)用戶(hù),因?yàn)橛?jì)算機(jī)代理的特征是在短時(shí)間內(nèi)提交大量的查詢(xún)式。最后是搜索片段的規(guī)范化。當(dāng)用戶(hù)查看完結(jié)果網(wǎng)頁(yè)再返回搜索引擎的時(shí)候,服務(wù)器會(huì)生成一條新的記錄,其中查詢(xún)式保持不變,只是更新了時(shí)間,這樣會(huì)給查詢(xún)式數(shù)量的統(tǒng)計(jì)帶來(lái)誤差,所以需要將日志文件中的查詢(xún)式提交記錄和結(jié)果頁(yè)面請(qǐng)求記錄區(qū)分開(kāi)來(lái),然后對(duì)同一個(gè)用戶(hù)的相同查詢(xún)式進(jìn)行合并[4]。

2.2.3 數(shù)據(jù)分析

Jansen的搜索日志分層分析框架是根據(jù)搜索交互的基本構(gòu)成提出來(lái)的:關(guān)鍵詞是對(duì)意義的表達(dá),在形式上不可再分,是最小的單元;查詢(xún)式由一個(gè)或多個(gè)關(guān)鍵詞組成,代表了用戶(hù)的信息需求;搜索會(huì)話(huà)是指用戶(hù)為了實(shí)現(xiàn)特定搜索目標(biāo)而進(jìn)行的一系列活動(dòng),包括查詢(xún)式的提交和結(jié)果條目的點(diǎn)擊,一段搜索會(huì)話(huà)中可能出現(xiàn)一個(gè)或多個(gè)查詢(xún)式。需要特別指出的是,關(guān)鍵詞和查詢(xún)式是可以直接從日志文件中提取的;而如果一個(gè)用戶(hù)擁有多個(gè)搜索會(huì)話(huà),這些會(huì)話(huà)之間不存在可見(jiàn)的邊界,必須根據(jù)一定的機(jī)制來(lái)進(jìn)行劃分。一種方法是規(guī)定一個(gè)會(huì)話(huà)時(shí)長(zhǎng)閾值,凡是超過(guò)該時(shí)長(zhǎng)的記錄都劃入下一個(gè)會(huì)話(huà)[5];另外一種方法是規(guī)定一個(gè)會(huì)話(huà)間隔閾值,如果兩條相鄰記錄之間的時(shí)間間隔超過(guò)該值,那么它們就屬于不同會(huì)話(huà)[6]。

3 實(shí)證研究

該小節(jié)對(duì)國(guó)內(nèi)外經(jīng)典的十幾篇運(yùn)用搜索日志分析方法的文章進(jìn)行梳理,以期得到用戶(hù)搜索行為的演變過(guò)程和發(fā)展趨勢(shì),為搜索引擎和網(wǎng)站的建設(shè)和改進(jìn)提供建議。當(dāng)然,對(duì)于第二部分提出的分析層次的研究?jī)?nèi)容,不是每篇文章都會(huì)分析所有的指標(biāo)。下面抽取了幾個(gè)重要的SLA的指標(biāo),這些指標(biāo)在很多文章中都被提及。對(duì)于那些不常見(jiàn)的指標(biāo),會(huì)在分析過(guò)程中討論。如表2所示:

從數(shù)據(jù)收集時(shí)間上來(lái)看,最長(zhǎng)的是1988年Jones的研究,歷時(shí)427天。主要原因是該數(shù)字圖書(shū)館主要針對(duì)計(jì)算機(jī)科學(xué)文檔,每天的訪(fǎng)問(wèn)量在70-80之間,想要獲得比較有客觀(guān)和有代表性的數(shù)據(jù)。必須經(jīng)過(guò)相當(dāng)長(zhǎng)一段時(shí)間。最短的時(shí)間跨度是1天,隨著科技的不斷發(fā)展,現(xiàn)在的搜索引擎一天的訪(fǎng)問(wèn)量就過(guò)億。所以,無(wú)須長(zhǎng)時(shí)間搜集數(shù)據(jù)。從檢索系統(tǒng)上來(lái)看,Jansen在2006年提出搜索日志分析可以用在圖書(shū)館系統(tǒng),傳統(tǒng)的IR系統(tǒng),以及近年來(lái)常用的Web系統(tǒng)中[4]。傳統(tǒng)的IR系統(tǒng)隨著科技的發(fā)展市場(chǎng)占有率越來(lái)越低,所以很少有文章對(duì)其進(jìn)行研究。文中提及大多為搜索引擎的分析,也有少數(shù)站內(nèi)(例如圖書(shū)館系統(tǒng))搜索日志分析。從數(shù)據(jù)量上看從幾萬(wàn)到幾億不等。說(shuō)明足夠大的數(shù)據(jù)量才可以代表和反映用戶(hù)信息行為。

4 討論

術(shù)語(yǔ)層次:高頻術(shù)語(yǔ),主要有sex、applet、mp3、淘寶網(wǎng)、迅雷看看等。高頻術(shù)語(yǔ)的分布,無(wú)論是中文還是英文,都符合zipf分布[20],即用戶(hù)的很多查詢(xún)都是重復(fù)的,很少一部分查詢(xún)就占據(jù)了用戶(hù)需求的大部分,所以對(duì)于搜索引擎引入緩存機(jī)制是非常必要的。對(duì)于術(shù)語(yǔ)共現(xiàn),很多文章并沒(méi)有給出報(bào)告,Silverstein在1999對(duì)于術(shù)語(yǔ)的共現(xiàn)進(jìn)行研究,研究發(fā)現(xiàn)共現(xiàn)的詞大都是平常生活中我們經(jīng)常在一起使用的詞,例如我們輸入網(wǎng)址時(shí)http與www同時(shí)出現(xiàn),又如visual和basic是一款軟件的名字,這些共現(xiàn)詞大都是常用短語(yǔ)或者固定搭配。

查詢(xún)?cè)~層次:在用戶(hù)查詢(xún)?cè)~長(zhǎng)度方面,首先是英文,在2000年左右,平均查詢(xún)?cè)~長(zhǎng)度在2.3左右。其次是中文,陳紅濤2007年分詞后查詢(xún)?cè)~的平均長(zhǎng)度為2.27,2013年董志安分詞后長(zhǎng)度增加到3.29。說(shuō)明隨著大數(shù)據(jù)時(shí)代的到來(lái),信息的爆炸式增長(zhǎng),用戶(hù)需要更多的詞來(lái)表述信息需求。對(duì)于查詢(xún)?cè)~的復(fù)雜性,在英文查詢(xún)中又大概17%的查詢(xún)串會(huì)使用高級(jí)查詢(xún)。而中文中僅有不到1%。即目前中文檢索用戶(hù)更多的檢索方式只是簡(jiǎn)單地輸入幾個(gè)關(guān)鍵詞,這說(shuō)明在使用檢索系統(tǒng)的過(guò)程中,簡(jiǎn)便是很重要的因素。也說(shuō)明了各種復(fù)雜功能的指定應(yīng)從用戶(hù)使用便利的角度出發(fā)。對(duì)查詢(xún)?cè)~的優(yōu)化(也稱(chēng)重構(gòu)),中文的查詢(xún)?cè)~更傾向于完全更改查詢(xún)?cè)~。而英文偏重于對(duì)查詢(xún)式進(jìn)行修改。Jansen在2009[5]年試圖建立一個(gè)查詢(xún)?cè)~重構(gòu)預(yù)測(cè)模型。用來(lái)預(yù)測(cè)用戶(hù)查詢(xún)?cè)~重構(gòu)行為,為其查詢(xún)行為提供幫助。模型分為四個(gè)階段,運(yùn)用搜索日志中的1523072個(gè)查詢(xún)?cè)~對(duì)每個(gè)階段的模型進(jìn)行評(píng)估。最后得出第一和第二階段模型可以較好地對(duì)用戶(hù)的查詢(xún)?cè)~重構(gòu)行為進(jìn)行預(yù)測(cè)。

會(huì)話(huà)層次:對(duì)于會(huì)話(huà)長(zhǎng)度,中文英文都穩(wěn)定在2個(gè)左右。證明一個(gè)用戶(hù)在查詢(xún)的過(guò)程中并不會(huì)輸入太多的查詢(xún)?cè)~,通常查詢(xún)?cè)~在兩個(gè)左右就可以滿(mǎn)足用戶(hù)的需求。從查詢(xún)?cè)~返回結(jié)果界面的瀏覽情況來(lái)看,大部分的人僅瀏覽了第一個(gè)頁(yè)面的內(nèi)容。Jones的之所以結(jié)果瀏覽0個(gè)頁(yè)面的人占大多數(shù),主要是因?yàn)樗菆D書(shū)館的搜索引擎,通常在對(duì)圖書(shū)館書(shū)目檢索過(guò)程中用戶(hù)不需要打開(kāi)某個(gè)鏈接,在結(jié)果頁(yè)面上就可以直接找到所需答案。并且Jones發(fā)現(xiàn)大多數(shù)的用戶(hù)會(huì)不加任何修改地使用搜索引擎的默認(rèn)設(shè)置。Jansen在2003年文章中對(duì)用戶(hù)對(duì)搜索結(jié)果的查看情況進(jìn)行分析,主要包括查看的web文檔數(shù),以及用戶(hù)瀏覽文檔與查詢(xún)?cè)~之間的聯(lián)系。每個(gè)用戶(hù)瀏覽的文檔的平均值為8.2,每個(gè)查詢(xún)?cè)~對(duì)應(yīng)瀏覽文檔的平均值為2.5。有趣的時(shí),結(jié)果顯示,用戶(hù)的會(huì)話(huà)平均時(shí)長(zhǎng)為2小時(shí)21分55秒,與先前研究出入較大,Jones在1998年得出會(huì)話(huà)的平均長(zhǎng)度是10.83分。作者認(rèn)為是一些較長(zhǎng)的會(huì)話(huà)扭曲了研究結(jié)果。例如用戶(hù)并沒(méi)有關(guān)閉網(wǎng)頁(yè)就去干其他事情,導(dǎo)致出現(xiàn)了一些很長(zhǎng)又沒(méi)有意義的會(huì)話(huà)。由此可見(jiàn)對(duì)會(huì)話(huà)結(jié)束時(shí)間規(guī)定一個(gè)閥值是十分必要,例如用戶(hù)在5分鐘內(nèi)與系統(tǒng)沒(méi)有交互,我們則認(rèn)為會(huì)話(huà)結(jié)束。但是,52%的用戶(hù)會(huì)話(huà)時(shí)長(zhǎng)在15分鐘以?xún)?nèi),這與先前的研究結(jié)果是一致的。最后,作者讓三個(gè)獨(dú)立的評(píng)審機(jī)構(gòu)對(duì)用戶(hù)瀏覽結(jié)果頁(yè)面和用戶(hù)查詢(xún)?cè)~的相關(guān)性就隨機(jī)抽出來(lái)530個(gè)URL進(jìn)行打分,結(jié)果顯示,52%的用戶(hù)的查詢(xún)結(jié)果和查詢(xún)?cè)~是相關(guān)的。

5 總結(jié)

本文對(duì)國(guó)內(nèi)外采用搜索日志分析的方法研究網(wǎng)絡(luò)搜索行為的文章進(jìn)行了簡(jiǎn)單的綜述。希望給讀者展現(xiàn)出整個(gè)領(lǐng)域的起源、發(fā)展、現(xiàn)狀和前沿方向,為后續(xù)研究該領(lǐng)域的學(xué)者提供借鑒和指導(dǎo)。第一部分對(duì)搜索日志的基本概念和發(fā)展起源進(jìn)行簡(jiǎn)單的介紹。第二部分介紹了Jansen的搜索日志分析方法的衡量指標(biāo)和步驟。第三部分總結(jié)了國(guó)內(nèi)外目前對(duì)對(duì)應(yīng)用搜索日志分析方法研究用戶(hù)行為的現(xiàn)狀。在討論部分,總結(jié)了用戶(hù)在術(shù)語(yǔ),查詢(xún)?cè)~、會(huì)話(huà)方面的一些特征。

我們認(rèn)為未來(lái)的搜索日志分析可以從以下幾個(gè)方面來(lái)進(jìn)行:a.實(shí)時(shí)搜索引擎的日志分析,Jansen在2011[21]對(duì)實(shí)時(shí)搜索引擎Collecta的日志進(jìn)行分析,試圖分析作為搜索引擎前沿發(fā)展的實(shí)時(shí)搜索與傳統(tǒng)的搜索引擎的聯(lián)系和區(qū)別。主要研究實(shí)施搜索查詢(xún)?cè)~的分布特征以及實(shí)時(shí)查詢(xún)的經(jīng)濟(jì)價(jià)值。研究結(jié)果表明實(shí)時(shí)查詢(xún)中稀缺詞(Unique query,在數(shù)據(jù)庫(kù)中只出現(xiàn)一次)的比例只有30%,與傳統(tǒng)的搜索引擎相比較低。這表明在實(shí)時(shí)搜索時(shí)查詢(xún)?cè)~的更新速度非??臁_@與傳統(tǒng)搜索引擎不一致。在評(píng)估實(shí)時(shí)查詢(xún)的經(jīng)濟(jì)價(jià)值時(shí)采用Googel AdWards,結(jié)果顯示52%的實(shí)時(shí)查詢(xún)信息都會(huì)創(chuàng)造經(jīng)濟(jì)價(jià)值。但是,目前對(duì)實(shí)時(shí)搜索引擎的研究并不多見(jiàn),我們可以把實(shí)時(shí)搜索引擎作為未來(lái)搜索日志分析的重要研究方向。b.隨著搜索引擎(例如谷歌)越來(lái)越國(guó)際化,一個(gè)搜索引擎不僅僅支持一種語(yǔ)言。但是一個(gè)引擎可能多其他語(yǔ)言的支持情況就不太理想。例如谷歌對(duì)中文的支持程度就不如百度。我們可以通過(guò)搜索日志分析來(lái)研究搜索引擎對(duì)多語(yǔ)言的支持機(jī)制。為引擎向支持多語(yǔ)言的方向發(fā)展提供指導(dǎo)性建議c.現(xiàn)在很多手機(jī)都支持語(yǔ)音輸入查詢(xún),語(yǔ)音輸入和用戶(hù)輸入有很大不同,很多都是自然語(yǔ)言。而隨著高端智能手機(jī)的普及。語(yǔ)言查詢(xún)所占的查詢(xún)比例越來(lái)越搞。但是對(duì)語(yǔ)音輸入查詢(xún)串的研究只有Yi在2011年的研究中有提到。所以我們的搜索日志分析有必要對(duì)語(yǔ)音輸入的查詢(xún)進(jìn)行專(zhuān)門(mén)的研究。d.搜索日志分析方法可以應(yīng)用到信息偶遇研究中,信息偶遇是指用戶(hù)在做一件事情的時(shí)候偶遇碰到自己所需要的信息[22]。我們可以通過(guò)對(duì)搜索日志進(jìn)行分析,清楚的界定信息偶遇的整個(gè)過(guò)程,從而更好地把握信息偶遇的內(nèi)涵和特征。

參考文獻(xiàn):

[1] 第42次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(R).中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC),2018年8月。

[2] Jiang T. Characterizing and Evaluating Users' Information Seeking Behavior in Social Tagging Systems[D]. University of Pittsburgh, 2011.

[3] Booth D, Jansen B J. A review of methodologies for analyzing websites[J]. Handbook of Research on Web Log Analysis. Information Science Reference, 2009: 143-164.

[4] Jansen B J. Search log analysis: What it is, what's been done, how to do it[J]. Library & information science research, 2006, 28(3):407-432.

[5] Jansen B J. The methodology of search log analysis[M]// Jansen B J, Spink A, Taksa I. Handbook of research on Web log analysis. Hershey, PA: Idea Group Inc., 2008:99-121.

[6] G?ker A, He D. Analysing Web search logs to determine session boundaries for user-oriented learning[C]// Proceedings of the International Conference of Adaptive Hypermedia and Adaptive Web-based Systems, 2000:319-322.

[7] Bendersky M, Croft W B. Analysis of long queries in a large scale search log[C]// Proceedings of the 2009 Workshop on Web Search Click Data, 2009:8-14.

[8] Jones R, Bartz K, Subasic P, Rey B. Automatically generating related queries in Japanese[J]. Language Resources and Evaluation, 2006, 40(3-4):219-232.

[9] Jones S, Cunningham S J, McNab R, Boddie S. A transaction log analysis of a digital library[J]. International Journal on Digital Libraries, 2000, 3(2):152-169.

[10] Silverstein C, Henzinger M, Marais H, Moricz M. Analysis of a very large Web search engine query log[J]. SIGIR Forum, 1999, 33(1):6–12.

[11] Jansen B J, Spink A, Saracevic T. Real life, real users, and real needs: A study and analysis of user queries on the web[J]. Information Processing & Management, 2000, 36(2):207-227.

[12] Jansen B J, Spink A, Pedersen J O. The Effect of Specialized Multimedia Collections on Web Searching[J]. Journal of Web Engineering, 2004, 3(3-4):182-199.

[13] Jansen B J, Spink A, Pedersen J. A temporal comparison of AltaVista Web searching[J]. Journal of the American Society for Information Science and Technology, 2005, 56(6):559-570.

[14] 陳紅濤. 基于搜索日志的用戶(hù)行為研究及應(yīng)用[D]. 北京郵電大學(xué), 2007.

[15] Chau M, Fang X, Yang C C. Web searching in Chinese: A study of a search engine in Hong Kong[J]. Journal of the American Society for Information Science and Technology, 2007, 58(7):1044-1054.

[16] 余慧佳, 劉奕群, 張敏, 等. 基于大規(guī)模日志分析的搜索引擎用戶(hù)行為分析[J]. 中文信息學(xué)報(bào), 2007, 21(1): 109-114.

[17] Zhang Y, Jansen B J, Spink A. Time series analysis of a Web search engine transaction log[J]. Information Processing & Management, 2009, 45(2): 230-245.

[18] 黃日茂, 葉琳莉. 基于日志分析的用戶(hù)搜索行為研究[J]. 莆田學(xué)院學(xué)報(bào), 2010, 17(2):70-73.

[19] 董志安, 呂學(xué)強(qiáng). 基于百度搜索日志的用戶(hù)行為分析[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2013, 30(7): 17-20.

[20] 王建勇, 單松巍, 雷鳴,等. 海量Web搜索引擎系統(tǒng)中用戶(hù)行為的分布特征及其啟示[J]. 中國(guó)科學(xué):技術(shù)科學(xué), 2001, 31(4):372-384.

[21]Jansen B J, Liu Z, Weaver C, et al. Real time search on the web: Queries, topics, and economic value[J]. Information Processing & Management, 2011, 47(4): 491-506.

[22]Erdelez S. Investigation of information encountering in the controlled research environment[J]. Information Processing & Management, 2004, 40(6):1013-1025.

【通聯(lián)編輯:梁書(shū)】

猜你喜歡
用戶(hù)行為長(zhǎng)度
繩子的長(zhǎng)度怎么算
1米的長(zhǎng)度
比厘米還小的長(zhǎng)度單位
愛(ài)的長(zhǎng)度
怎樣比較簡(jiǎn)單的長(zhǎng)度
電力高校圖書(shū)館轉(zhuǎn)型智庫(kù)服務(wù)的研究
社會(huì)化媒體用戶(hù)使用動(dòng)機(jī)與行為探析
新媒體用戶(hù)行為模式分析
移動(dòng)互聯(lián)網(wǎng)環(huán)境下用戶(hù)行為社交化變遷的探析
出版廣角(2016年17期)2016-11-07 16:35:27
基于云計(jì)算技術(shù)的大數(shù)據(jù)用戶(hù)行為引擎設(shè)計(jì)
泊头市| 江津市| 山丹县| 土默特右旗| 天峨县| 南城县| 红桥区| 越西县| 木兰县| 长顺县| 介休市| 分宜县| 宁陕县| 南皮县| 嘉定区| 炉霍县| 永平县| 安新县| 巢湖市| 旌德县| 溧阳市| 霞浦县| 嘉鱼县| 鹿邑县| 都昌县| 枞阳县| 巨鹿县| 平陆县| 墨脱县| 柳江县| 北宁市| 绥阳县| 吉林省| 纳雍县| 额尔古纳市| 三穗县| 鄱阳县| 临颍县| 新乡县| 柘荣县| 海阳市|