国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

搜索引擎的文本聚類研究

2014-06-18 21:38:37王佳樂
商業(yè)經(jīng)濟 2014年3期
關鍵詞:搜索引擎展望

王佳樂

[摘 要] 近年來,隨著信息技術的發(fā)展,越來越多的學者開始關注搜索引擎聚類。國內(nèi)研究相比國外較晚,還處于發(fā)展的初級階段,存在著數(shù)據(jù)庫依附性過強、搜索速度緩慢、用戶的個性化服務需要提升等問題。有關網(wǎng)站可建立自己獨立的數(shù)據(jù)庫或與專業(yè)搜索引擎公司合作,建立專有數(shù)據(jù)庫或將Tag標簽應用到網(wǎng)頁中,以加快搜索引擎聚類的速度并滿足不同用戶的需要,以促進搜索引擎聚類在搜索引擎中可持續(xù)健康快速發(fā)展。

[關鍵詞] 搜索引擎;文本聚類;發(fā)展局限;展望

[中圖分類號] F27.4 [文獻標識碼] B

一、前言

2013年7月發(fā)布的CNNIC第32次互聯(lián)網(wǎng)報告顯示,截止2013年6月止,我國網(wǎng)民規(guī)模達5.91億,半年共計新增網(wǎng)民2656萬人?;ヂ?lián)網(wǎng)普及率為44.1%,較2012年底提升了2.0個百分點。從2009年到2013年,互聯(lián)網(wǎng)普及率逐年上升,從28.9%上升到44.1%。計算機的普及,使人們越來越依賴于詢問互聯(lián)網(wǎng)。面對浩瀚的信息海洋,如何獲得用戶真正有用的信息,成為了一個炙手可熱的話題。從最早的門戶網(wǎng)站方式到現(xiàn)在的谷歌、百度全文本搜索,對待信息的獲取方式已經(jīng)有了很大的改變。然而,隨著互聯(lián)網(wǎng)越來越普及,網(wǎng)絡中存儲的信息,出現(xiàn)很多冗雜信息,僅僅依靠傳統(tǒng)的搜索方式,并不能滿足用戶的需要。從2000年開始,以Vivisimo為代表,越來越多的學者開始注意到,聚類能更準確的定位搜索結果。

二、聚類

聚類是指將抽象或物理對象組成集合,將集合中類似對象組成多個類的過程。由聚類所生成的簇可以看做是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的其他對象彼此相似,而與其他簇中的對象不同。聚類分析又被叫做群分析,是針對分類問題的一種統(tǒng)計分析方法。由一個度量的向量或多維空間中的一個點構成模式,再由多個模式構成聚類分析。聚類分析可以追溯于分類學,不過聚類并不是單純的分類。聚類與分類最大的的不同之處是,劃分為聚類的類是未知的。

聚類作為一種有效的分類方法,可以從龐大的消費者數(shù)據(jù)庫區(qū)分屬性、目標不同的消費群體,再概括出這些消費群體的消費模式也就是普通意義上的習慣。它作為數(shù)據(jù)挖掘中的一個模塊,可以作為一個單獨的工具以發(fā)現(xiàn)數(shù)據(jù)庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,在數(shù)據(jù)挖掘算法時,聚類算法可以作為對數(shù)據(jù)進行預處理,再用其他分析算法處理。聚類分析的算法可以分為層次法(Hierarchical Methods)、基于網(wǎng)格的方法(grid-based methods)、基于密度的方法(density-basedmethods)、劃分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚類國內(nèi)外發(fā)展進程

國外對于搜索引擎聚類方面的研究最早發(fā)生在1996年,HearstMA,PedersenJO學者研究開發(fā)的Scatter/Gather系統(tǒng)是世界上第一個將聚類引入搜索引擎的系統(tǒng)。2000年開發(fā)的Vivisimo元搜索引擎系統(tǒng),采用自主開發(fā)的啟發(fā)式算法來集合并聚類原文文獻。這種算法吸收了傳統(tǒng)人工智能思想,對檢索結果進行更好描述和聚類。它的文獻聚類技術首先將文本內(nèi)容自動分類,劃分為等級式排列的目錄之后進行聚類。作為一種完全自動化的聚類技術,不需要人為干擾收集數(shù)據(jù),也不需要進行數(shù)據(jù)維護。SnakeT在前者研究的基礎上,開發(fā)了能完整將搜索引擎聚類化的系統(tǒng),并且可以向用戶展示帶有明確標簽的層次型結構。Grouper是利用后綴樹聚類(STC,Suffix Tree Clustering)算法專門針對文檔摘要進行聚類的搜索引擎系統(tǒng)。SHoc是首個面向文本信息進行聚類功的搜索引擎。Sergio系統(tǒng)應用改進過的k均值算法對兩個搜索引擎結果進行聚類處理。在新聞處理方面,Nesrec系統(tǒng)提取Altzvista新聞的新聞摘要,短時間內(nèi)進行層次聚類,并使之成為擁有良好可讀性的類標簽。而Newsblaster系統(tǒng)針對每天的新聞進行聚類處理,文本生成等處理之后,產(chǎn)生摘要文檔。WhatsonWeb是應用拓谷驅動和圖像聚類算法來構建搜索引擎聚類系統(tǒng),具有良好的可視化效果,同時支持處理無效標簽。

國內(nèi)的研究要相對較晚,最早開始于20005年,但是隨著科技發(fā)展,取得了很不錯的優(yōu)秀成果。2005年的PinkySearch利用后綴樹算法和相同詞聚類對多個搜索引擎的結果進行聚類處理,最后獲得搜索結果。在2007年成立的國內(nèi)首家搜索引擎聚類公司比比貓(Bbmao),采用先進的聚類和去重技術,不僅帶給用戶快捷、智能的體驗經(jīng)歷,還引領創(chuàng)新了聚類技術。國內(nèi)高水準的數(shù)據(jù)挖掘研究所論壇上,提出了web挖掘算法、分類聚類,應用方案等聚類應用技術。

四、搜索引擎聚類分析

搜索引擎形式從最早的目錄式搜索到基于Robot搜索引擎,再到現(xiàn)在的聚類搜索引擎,其對象不僅僅是對資源進行搜索,也開始關注用戶體驗,如何使用戶能更為便捷的找到自己所需內(nèi)容。搜索引擎聚類發(fā)展已有十余年,通過對國內(nèi)外相對比較成熟的聚類搜索引擎作為研究對象,從劃分類型、基本功能、聚類算法角度分析。

1.劃分類型分析

根據(jù)分類標準不同,搜索引擎聚類劃分的種類也不同。根據(jù)提供的服務劃分成社區(qū)型(比如貝殼網(wǎng))和搜索型(如第易搜)。按照信息的來源即是否擁有獨立的數(shù)據(jù)庫,聚類搜索引擎能劃分為寄生型(Vivisimo)和原生型(如CNKI搜索)。按照搜索引擎來源的數(shù)目,聚類搜索引擎可以劃分為單一型來源搜索引擎(如TouchGraph)和多來源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在對國內(nèi)外具有代表性的搜索引擎聚類分析后,發(fā)現(xiàn)其搜索對象不僅僅為網(wǎng)頁,更延伸到網(wǎng)頁、新聞、目錄、摘要、博客,可應用于商業(yè)、政府工作、新聞搜集等多種多樣。另外,在提供個性化搜索的同時,用戶還可根據(jù)自己的喜好,在游戲、旅游、博客等大類下選擇的信息源,在右側會自動呈現(xiàn)圖片、新聞、購物等搜索結果。

3.聚類算法角度分析

目前的網(wǎng)頁聚類算法根據(jù)其針對的方向分為3種,即基于鏈接分析、基于網(wǎng)頁內(nèi)容、基于用戶搜索日志的聚類算法。

基于鏈接分析的聚類和傳統(tǒng)的搜索引擎搜索有一定相似之處,對任一網(wǎng)頁,必有本網(wǎng)頁指向其他網(wǎng)頁的鏈接和其他網(wǎng)頁指向本網(wǎng)頁的鏈接。若這些其他網(wǎng)頁都包含有同一個網(wǎng)頁的鏈接,則被認為同音關系,具有相似性,進而依次聚類?;诰W(wǎng)頁內(nèi)容的聚類即是對網(wǎng)頁的內(nèi)容直接聚類,傳統(tǒng)的聚類算法是對網(wǎng)頁內(nèi)容去標點、化復數(shù)形式為單數(shù)、去掉前后綴。然而這些方法是針對單個文字的聚類,并沒有考慮詞間含義,也不能真實的反映網(wǎng)頁內(nèi)容。于是出現(xiàn)了STC算法即后綴樹算法,通過將網(wǎng)頁進行處理,得到詞組,再依賴于后綴樹,辨別擁有相同詞義的詞組,將他們作為基本類,合并形成高層次的類,進行高效的聚類。隨著搜索引擎的發(fā)展,研發(fā)者開始考慮到對用戶行為分析,構建用戶模型,出現(xiàn)了基于用戶搜索日志的聚類算法。通過用戶對搜索結果網(wǎng)頁進行聚類。

上述三種聚類算法各有優(yōu)缺點,基于用戶搜索日志的算法注重用戶體驗,基于網(wǎng)絡內(nèi)容的算法注重搜索對象,而基于鏈接分析的聚類注重相似網(wǎng)頁之間的鏈接。在以后聚類搜索引擎發(fā)展中,這三種方法將會結合使用。

五、發(fā)展局限及展望

國外的搜索引擎聚類最早開始于1996年,而國內(nèi)的發(fā)展相對較晚。然而由于還處于發(fā)展的初始階段,還存在一定的局限性。中國第一家元搜索聚類引擎公司是2007年的比比貓(Bbmao)公司,可以直接搜尋文檔,搜索結果匯集各大搜索引擎結果,具有強大網(wǎng)絡收藏夾等多元功能。然而由于局限性,只存在了較短的時間。必須綜合考慮搜索引擎聚類的問題,才可能使之長遠發(fā)展。

1.數(shù)據(jù)庫依附性過強

目前的搜索引擎的聚類技術多是將已有的搜索引擎檢索出的結果進行聚類分析,得到更準確的結果,呈現(xiàn)給用戶。其存在形式多為衍生性搜索引擎,這就意味著需鏈接已有搜索引擎的數(shù)據(jù)庫,然而搜索引擎本就是依靠搜索結果獲得收入。對于第三方間接使用其搜索結果,原搜索引擎必然會采取限制,這也就造成數(shù)據(jù)的無法獲得。國內(nèi)成立的比比貓公司就是由于依附性太強,最后導致無法繼續(xù)生存下去。建立自己獨立的數(shù)據(jù)庫不失為一個好的解決辦法,然而由于獨立數(shù)據(jù)庫所需強大的技術支持,還可以與專業(yè)搜索引擎公司合作。

2.搜索速度緩慢

由于當前搜索引擎的聚類技術對搜索結果進行聚類,實質上也就是進行二次加工、聚類、排序,最后呈現(xiàn)搜索結果。勢必影響其搜索速度。值得探討的是直接建立轉有數(shù)據(jù)庫,是可以解決的方法之一;此外隨著技術發(fā)展,越來越多的Tag標簽應用到網(wǎng)頁中,這也對準確了解網(wǎng)頁內(nèi)容、屬性產(chǎn)生裨益,從而加速搜索引擎聚類的速度。

3.用戶的個性化服務還需提升

搜索引擎的最終結果是為了使用戶使用,即服務于用戶。目前搜索引聚類還不夠成熟,如何使搜索結果更加滿足用戶的個性化需要還有很大的研究空間。記錄用戶的搜索歷史,在聚類時,返回符合用戶個性的聚類。將聚類和用戶行為結合起來,完美的實現(xiàn)聚類結果的個性化服務,滿足用戶需要。

總之,雖然針對搜索引擎的聚類分析還存在一定問題,可是基于聚類能更加精確、準確的提供搜索結果,能更好的反映用戶需求,隨著科技的發(fā)展,問題終將得到解決,搜索引擎聚類也勢必是搜索引擎的大勢所趨。

[參 考 文 獻]

[1]第32次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[R].北京:中國互聯(lián)網(wǎng)絡信息中心,2013

[2]Liu W, Xue G R, Huang Set al. Interactive Chinese Search Results Clustering for Personalization. Lecture Notes in Computer Science. 2005, 3739:676-681

[3]靖培棟,田亮.聚類在搜索引擎中的應用[J].信息系統(tǒng),2006(4):493-496

[4]韓建福.文檔聚類在搜索引擎結果中的應用研究[D].北京交通大學碩士論文,2006

[責任編輯:劉玉梅]

猜你喜歡
搜索引擎展望
我國環(huán)境會計研究回顧與展望
移動機器人導航技術現(xiàn)狀與展望
國內(nèi)外森林生物量碳儲量估測現(xiàn)狀存在問題及展望
園林綠化植物應用現(xiàn)狀與展望
國內(nèi)延續(xù)性護理現(xiàn)狀及展望
考試周刊(2016年77期)2016-10-09 12:37:53
網(wǎng)絡搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
“展望” ——阿倫德
山西省| 惠东县| 阿拉尔市| 孝义市| 县级市| 辽源市| 梓潼县| 广河县| 永兴县| 宝鸡市| 三河市| 荔浦县| 和田县| 读书| 新疆| 土默特左旗| 大邑县| 达尔| 双辽市| 康平县| 丰宁| 林周县| 江永县| 唐海县| 渝北区| 浮山县| 宁南县| 溧水县| 巫山县| 怀来县| 宣汉县| 大余县| 磐石市| 岐山县| 沂源县| 松潘县| 成安县| 抚州市| 同江市| 大同市| 昔阳县|