国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Lucene的Flash網(wǎng)絡(luò)檢索研究

2015-03-11 00:54仇亞?wèn)|宋麗芳
中國(guó)教育技術(shù)裝備 2015年2期

仇亞?wèn)|++宋麗芳

摘 要 垂直搜索引擎作為人們?nèi)粘9ぷ骱蛯W(xué)習(xí)獲取信息資源的重要工具而存在。隨著資源信息的急劇膨脹,垂直搜索引擎暴露出很多問(wèn)題。提供真正智能化的根據(jù)用戶興趣而進(jìn)行資源信息搜索的思路,并通過(guò)一個(gè)Flash垂直搜索引擎進(jìn)行測(cè)試和實(shí)驗(yàn),完善論文所得出的結(jié)論。

關(guān)鍵詞 Flash;垂直搜索引擎;用戶行為分析

中圖分類號(hào):TP393.09 文獻(xiàn)標(biāo)識(shí)碼:B

文章編號(hào):1671-489X(2015)02-0041-03

在當(dāng)今社會(huì),網(wǎng)絡(luò)上包含了各種各樣的網(wǎng)絡(luò)資源,如文本、圖片、音樂(lè)、視頻、Flash等。Flash資源雖然作為重要的網(wǎng)絡(luò)資源存在,但對(duì)它所做的研究并不多,遠(yuǎn)不如對(duì)其他幾種資源所做的研究,而且相應(yīng)的專業(yè)搜索研究也是鳳毛麟角。因此,對(duì)Flash這種資源的準(zhǔn)確搜索的研究已成為當(dāng)前業(yè)界關(guān)注的重點(diǎn)。

如何讓用戶的搜索結(jié)果符合用戶最想要的結(jié)果,是各大搜索引擎關(guān)注的重點(diǎn),那么基于用戶行為的搜索無(wú)疑已成為智能化搜索所必備的技術(shù)要求,而基于用戶的行為分析的核心是如何了解用戶,用戶行為的含義表示,即用戶的興趣分析。那么,基于Flash的用戶興趣分析就成為智能化Flash專業(yè)搜索引擎所關(guān)注的核心。

下面就本研究展開(kāi)討論,在專業(yè)Flash搜索引擎中植入用戶行為跟蹤程序,根據(jù)用戶的訪問(wèn)記錄,過(guò)濾掉用戶的無(wú)效訪問(wèn),然后對(duì)用戶興趣點(diǎn)進(jìn)行建模、歸類及修改,并指導(dǎo)智能化Flash專業(yè)搜索引擎做出改進(jìn)。

1 相關(guān)研究概述

在有效的用戶行為數(shù)據(jù)挖掘分析的相關(guān)研究中,針對(duì)網(wǎng)絡(luò)用戶上網(wǎng)信息的采集、加工處理、過(guò)濾及分析,大多包括兩種途徑:用戶的網(wǎng)絡(luò)日志;網(wǎng)站用戶蹤跡跟蹤。

1)在網(wǎng)絡(luò)日志中,可獲取記錄用戶對(duì)顯示結(jié)果中的點(diǎn)擊次數(shù),記錄用戶的瀏覽時(shí)長(zhǎng),以及回訪率、收藏率、點(diǎn)擊率等。

2)網(wǎng)站用戶蹤跡跟蹤,可獲取用戶IP、訪問(wèn)時(shí)間點(diǎn)以及上網(wǎng)用戶的瀏覽操作等。

通過(guò)上述獲取的信息量,可對(duì)用戶的上網(wǎng)興趣進(jìn)行分析得出相應(yīng)模型,進(jìn)而了解用戶特點(diǎn),以此作為根據(jù)修改網(wǎng)站內(nèi)容,改變網(wǎng)站風(fēng)格,從而滿足更多用戶需求,提高網(wǎng)站訪問(wèn)效率。

2 用戶行為分析及建模

在本文涉及的Flash搜索引擎中,搜索的基本條件有六個(gè):名稱、關(guān)鍵詞、邏輯場(chǎng)景數(shù)、類別、交互性、視覺(jué)場(chǎng)景數(shù)。在這六個(gè)檢索條件上可對(duì)用戶行為進(jìn)行跟蹤,進(jìn)而了解用戶的興趣點(diǎn)。

用戶行為特征 對(duì)用戶上網(wǎng)行為進(jìn)行分析,可以得出用戶上網(wǎng)大體有以下內(nèi)容。

1)搜索關(guān)鍵詞及選擇條件:可以用數(shù)據(jù)庫(kù)技術(shù)將用戶的搜索信息存入數(shù)據(jù)庫(kù),其中可以記錄網(wǎng)絡(luò)用戶的需求及興趣點(diǎn),也包含相關(guān)的搜索頁(yè)面,從而對(duì)用戶進(jìn)行興趣分類及建模。

2)網(wǎng)絡(luò)日志:可通過(guò)網(wǎng)絡(luò)技術(shù),對(duì)用戶的IP、訪問(wèn)點(diǎn)擊數(shù)、訪問(wèn)瀏覽時(shí)長(zhǎng)等進(jìn)行進(jìn)一步分析及過(guò)濾錯(cuò)誤信息和數(shù)據(jù),對(duì)建模數(shù)據(jù)進(jìn)行整合分類。

3)除了上述顯示信息外,還可對(duì)用戶的注冊(cè)信息進(jìn)行處理,結(jié)合其訪問(wèn)內(nèi)容、訪問(wèn)特點(diǎn)進(jìn)而對(duì)用戶的行為進(jìn)行更精確的定位分類分析。

通過(guò)上述分析,相比于傳統(tǒng)的搜索引擎的高匹配率,面向用戶特性的個(gè)性化智能搜索引擎更符合用戶需求及特點(diǎn),從而受到更多關(guān)注度與使用率。為了能更好地闡述用戶興趣在搜索引擎的使用中的重要性,文中將著重分析其實(shí)現(xiàn)過(guò)程。

用戶興趣建模 首先,對(duì)用戶行為的記錄結(jié)果進(jìn)行除雜過(guò)濾,包含對(duì)存入用戶行為數(shù)據(jù)庫(kù)中的沒(méi)有進(jìn)行搜索的用戶進(jìn)行刪除處理,對(duì)有效數(shù)據(jù)進(jìn)行統(tǒng)計(jì)處理,處理結(jié)果包含用戶IP、用戶職業(yè)、用戶搜索條件、用戶輸入內(nèi)容、用戶訪問(wèn)頻率。對(duì)每個(gè)用戶用數(shù)組fre:{IP、職業(yè)、搜索條件、搜索信息、訪問(wèn)數(shù)}來(lái)表示。然后對(duì)訪問(wèn)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行建模,如圖1所示。從圖1可清楚地看出,當(dāng)用戶進(jìn)行資源檢索的時(shí)候,首先進(jìn)行用戶興趣模式匹配,對(duì)適合用戶的條件進(jìn)行提取,并將這些條件加入當(dāng)前檢索條件中,從而把符合上述兩種條件的搜索結(jié)果返回給用戶,一方面滿足用戶當(dāng)前的搜索條件,另一方面滿足用戶的個(gè)性特征。

3 項(xiàng)目實(shí)現(xiàn)

技術(shù)特點(diǎn) 文中使用的技術(shù)是成熟的搜索技術(shù)Lucene,

它是一個(gè)基于Java的全文信息檢索包,但不是一個(gè)完整的搜索應(yīng)用功能。目前Lucene是Apache Jakarta中的一個(gè)開(kāi)源項(xiàng)目,也是目前最為流行的基于Java的開(kāi)源全文檢索工具包,有以下幾個(gè)特點(diǎn)。

1)索引文件格式獨(dú)立于應(yīng)用平臺(tái)。Lucene定義了一套以8位字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺(tái)的應(yīng)用能夠共享建立的索引文件。

2)在傳統(tǒng)全文檢索引擎倒排索引的基礎(chǔ)上,實(shí)現(xiàn)分塊索引,能夠針對(duì)新的文件建立小文件索引,提升索引速度。然后通過(guò)與原有索引的合并,達(dá)到優(yōu)化的目的。

3)設(shè)計(jì)了獨(dú)立于語(yǔ)言和文件格式的文本分析接口,索引器通過(guò)接受Token流完成索引文件的創(chuàng)立,用戶擴(kuò)展新的語(yǔ)言和文件格式,只需要實(shí)現(xiàn)文本分析的接口。

4)已經(jīng)默認(rèn)實(shí)現(xiàn)一套強(qiáng)大的查詢引擎,用戶無(wú)需自己編寫代碼即可使系統(tǒng)獲得強(qiáng)大的查詢能力。Lucene的查詢實(shí)現(xiàn)中默認(rèn)實(shí)現(xiàn)了布爾操作、模糊查詢、分組查詢等。

項(xiàng)目實(shí)現(xiàn)

1)技術(shù)模塊的實(shí)現(xiàn)。

①在本實(shí)例中,首先根據(jù)數(shù)據(jù)庫(kù)中存放的Flash信息數(shù)據(jù)表的內(nèi)容,在服務(wù)器端創(chuàng)建索引文件,創(chuàng)建索引的流程圖如圖2所示。創(chuàng)建好索引文件之后,搜索資源內(nèi)容以倒排文檔的形式存在索引文件中,提高資源的搜索速度。

②接著用戶可以在網(wǎng)站中輸入搜索的內(nèi)容,這時(shí)利用Ajax技術(shù)將搜索的內(nèi)容自動(dòng)檢索,搜索資源的系統(tǒng)流程圖如圖3所示。

2)用戶興趣模塊的實(shí)現(xiàn)。這里將介紹如何實(shí)現(xiàn)將用戶興趣特性添加入搜索條件的功能。如用戶A,職業(yè)是教師,曾對(duì)類別為課件項(xiàng)、復(fù)雜度為復(fù)雜交互感興趣,從而將用戶A的搜索條件{課件,復(fù)雜交互}添加到A的用戶興趣模式中。當(dāng)用戶A再次訪問(wèn)時(shí),網(wǎng)站將“課件”“復(fù)雜交互”的權(quán)值提高,從而使其內(nèi)容較前顯示給用戶。下面是具體實(shí)現(xiàn)過(guò)程。endprint

①增加用戶搜索信息入庫(kù)??捎涗浻脩舻脑L問(wèn)信息,將用于跟蹤用戶和統(tǒng)計(jì)用戶行為特證,包括用戶IP、用戶職業(yè)、用戶搜索條件、用戶輸入內(nèi)容、用戶訪問(wèn)頻率。每個(gè)用戶都有自己維護(hù)的記錄,用來(lái)統(tǒng)計(jì)用戶的興趣相關(guān)度和用戶權(quán)值計(jì)算。

②用戶信息匹配與提取用戶信息,實(shí)現(xiàn)提取功能,注意進(jìn)行用戶興趣改變度的計(jì)算和誤差方差的計(jì)量。

③建立資源搜索,通過(guò)用戶的信息興趣建模得出用戶興趣向量,結(jié)合此次用戶訪問(wèn)數(shù)據(jù)的相關(guān)性計(jì)量,最后得出搜索結(jié)果的排序方案,最終顯示給用戶的將是用戶最希望得出的結(jié)果。

4 結(jié)論和未來(lái)工作

網(wǎng)絡(luò)用戶行為包含豐富的內(nèi)容和信息,需要進(jìn)行全方位的研究分析。文中只是涉及了基礎(chǔ)信息,對(duì)大數(shù)據(jù)的有效性和實(shí)用性還有待驗(yàn)證和提高,比如用戶的點(diǎn)擊率、用戶的訪問(wèn)時(shí)長(zhǎng)也需要科學(xué)的研究和分析。這里應(yīng)用了機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)、搜索引擎Lucene等相關(guān)知識(shí),實(shí)現(xiàn)了基本的大數(shù)據(jù)個(gè)性化搜索引擎,通過(guò)實(shí)驗(yàn)驗(yàn)證了搜索有效性,完善個(gè)人興趣和搜索相關(guān)的基本內(nèi)容。未來(lái)工作還很艱巨,如用戶行為有效性分析,用戶數(shù)據(jù)可靠性分析,以及價(jià)值型研究和網(wǎng)站合理性的評(píng)價(jià)性研究等。

參考文獻(xiàn)

[1]張騫.傳統(tǒng)搜索引擎與智能搜索引擎比較研究[D].鄭州:鄭州大學(xué),2012.

[2]張興華.智能搜索引擎的機(jī)理、實(shí)現(xiàn)技術(shù)及發(fā)展趨勢(shì)[J].現(xiàn)代情報(bào),2003(12):66-68,70.

[3]劉崇學(xué).基于智能搜索引擎的數(shù)字圖書館個(gè)性化服務(wù)研究[J].現(xiàn)代情報(bào),2006(11):16-18.

[4]閆翔,陳遠(yuǎn).中文智能搜索引擎現(xiàn)狀探析[J].情報(bào)科學(xué),2002(12):1326-1328.

[5]張帆,林建.智能搜索引擎信息過(guò)濾機(jī)制研究[J].圖書與情報(bào),2007(4):52-56.

[6]付志超.基于Map/Reduce的分布式智能搜索引擎框架研究[D].武漢:武漢理工大學(xué),2008.

[7]韓婷.基于本體論的智能搜索引擎模型的研究[D].南寧:廣西大學(xué),2005.

[8]陳治平.智能搜索引擎理論與應(yīng)用研究[D].長(zhǎng)沙:湖南大學(xué),2003.

[9]樂(lè)小虬.非結(jié)構(gòu)化網(wǎng)絡(luò)空間信息智能搜索與服務(wù)研究[D].北京:中國(guó)科學(xué)院研究生院(遙感應(yīng)用研究所),2006.

[10]趙文華.基于用戶的個(gè)性化搜索引擎研究[D].北京:首都師范大學(xué),2008.

[11]劉妮娜.Web數(shù)據(jù)挖掘和個(gè)性化搜索引擎研究[D].杭州:浙江大學(xué),2005.

[12]袁柳,張龍波.個(gè)性化搜索中的用戶特征模型研究[J].計(jì)算機(jī)工程與應(yīng)用,2011(15):19-24.

[13]王欽為.面向用戶的個(gè)性化搜索引擎算法研究與系統(tǒng)設(shè)計(jì)[D].廣州:華南理工大學(xué),2012.

[14]李強(qiáng).基于本體論的個(gè)性化和社會(huì)化元搜索引擎的研究[D].杭州:浙江大學(xué),2006.endprint