国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數據對于搜索引擎技術重要性的探究

2020-12-28 02:10:22許恒源袁彩虹
電腦知識與技術 2020年33期
關鍵詞:大數據分析搜索引擎發(fā)展趨勢

許恒源 袁彩虹

摘要:搜索引擎作為人們生活工作、科研等必不可少的核心工具之一,它在很大程度上影響了人們的日常生活。在互聯網技術飛速發(fā)展,信息急速增長等情況下,人們需要功能更加強大的搜索引擎。對此,該文介紹大數據分析和搜索引擎技術相結合帶來的益處和優(yōu)勢。大數據搜索引擎技術也必然會成為搜索引擎的一個正確的發(fā)展方向,并為人們學習和生活提供更加有效的幫助。

關鍵詞:搜索引擎;大數據分析;發(fā)展趨勢

中圖分類號:TP311 文獻標識碼:A

文章編號:1009-3044(2020)33-0041-03

開放科學(資源服務)標識碼(OSID):

大數據時代已經到來,隨著互聯網的不斷發(fā)展,人們無時無刻不在產生新的數據,并且堆積新的數據,人們也可以使用已經存在的大數據分析出新的數據,得到新的答案。搜索引擎在我們的現實生活中已經成為不可缺少的一部分。如谷歌、百度、搜狗等這些搜索引擎已經成為幫助人們解決問題查找答案的代名詞,并且已經與人們的生活、學習和工作密不可分,無論是新聞、天氣、疾病、文獻或者某些名人的信息等人們想知道的信息,都可以從搜索引擎中得到答案。在兩大技術廣泛應用的時候,將大數據分析技術和搜索引擎技術相結合會更有利于人們搜索自己需要的答案。本文也在此猜想的基礎上進行深入探索。

1 搜索引擎

1.1搜索引擎的定義和發(fā)展歷史

搜索引擎是一種計算機程序,它是特定的搜索策略,用在文件、信息記載或數據庫中進行搜索,并且它的核心模塊一般包括爬蟲、索引、檢索和排序等。搜索引擎自身的特點包括信息查找和抓取的速度之快、挖掘信息的深度之深、檢索出的內容具有多樣性和廣泛性等。

摘要搜索引擎是一種工具,它根據搜索字符串,搜索引擎返回結果,這被稱為搜索引擎結果頁(SERPs)。通常情況下,搜索引擎會得到正確的結果,并顯示最相關的結果,所以搜索引擎沒有固定的規(guī)則來顯示準確的結果。

第一代搜索引擎具有的特殊要點是通過人工分類、存放網站的各種目錄,并且用戶可以通過多種方式尋找網站,因為在當時那個互聯網剛剛興起的時代,那時的信息與技術和現在根本無法相比。代表有Yahoo。

后來隨著網絡上的信息量快速增加和數據的大量出現,第二代搜索引擎開始利用關鍵字查詢信息,基本上就是利用爬蟲技術( Crawler)等來采集信息和索引網站。第二代最成功的代表就是Google。

1.2 搜索引擎的工作原理

現在的搜索引擎進行工作一般都是以下幾點:1)搜索引擎蜘蛛訪問Web,進行網頁抓取;2)對抓取來的網頁進行預處理然后再建立索引;3)在搜索界面進行查詢服務。

因為現代搜索引擎搜索信息的速度快范圍廣,并且檢索內容廣泛,所以當代搜索引擎技術基本上可以無條件滿足人們的各種各樣的數據類型的檢索,例如智能語言,不僅音頻映像圖片可以被檢索,甚至人類的指紋、面部特征等都可以被檢索。

1.3現代搜索引擎的不足之處

眾所周知,人們可以通過使用搜索引擎來獲得自己想知道的答案,但是現代的搜索仍然不是人們想要達到的最終目的?,F代搜索引擎存在的不足之處有:(1)現代搜索引擎無法實時檢索,對信息進行實時更新的能力比較差,主要是現代網絡信息量巨大。(2)信息無法準確地分類,因為信息建立索引數據庫的同時,接觸到的信息量過于巨大,所以會導致分類不準確。

因此,人們在使用搜索引擎時,為了提高搜索的效率,經常會使用一些搜索技巧,例如在Coogle搜索中使用邏輯符號搜索就是一種老套的技術:利用雙引號(“”)查詢完全符合關鍵字串的網站、在關鍵詞的前面使用加號+就表明搜索結果中的網頁上必須有該關鍵字、在關鍵詞的前面使用減號一就表明在查詢結果中不能出現該關鍵詞。

通過搜索引擎優(yōu)化技術SEO(Search Engine Optimization)也是一種好的方法,可以有效地提升搜索的覆蓋面,但是它還是不能準確到其中最重要的一點,并且不能夠通過數據來分析搜索到的結果的其他可能性。

2 將大數據的分析融入搜索引擎中

2.1 大量數據堆積

由于人們已經到了離不開信息和數據的地步,所以大量數據開始從各個方面產生,并且堆積在一起。人工整理的數據主要掌握在政府部門、機關組織和一些企業(yè)手里;社交產生的數據,例如QQ、微信等聊天數據或者是郵件、App產生的數據;個人的云應用產生的數據,許多用戶現在已經選擇將數據保存在云端;物聯網產生的數據,例如水文監(jiān)測、監(jiān)控錄像等物聯網應用,每時每刻都在產生大量的數據?,F在正處于大數據的時代,人們可以輕易地利用信息技術快速地了解更多的信息。例如,用戶用手機搜索某樣東西,數據會上傳到大數據中心,數據庫會分析信息并反饋給應用程序,系統就會清楚地了解到要向不同用戶推薦的內容。

2.2 大數據對搜索的價值

2.2.1 大數據分析的用途

大數據分析基本分為可視化分析( Analytic Visualizations)、數據挖掘算法( Data Mining Algorithms)、預測性分析能力(Pre-dictive Analytic Capabilities)、語義引擎(Semantic Engines)、數據質量和數據管理、數據存儲、數據倉庫。

2.2.2 將兩種技術相融合的價值

根據筆者多方面查找的資料和對這兩種技術的分析發(fā)現,由于現在人們使用的搜索引擎還無法和大數據分析深度相結合,不能更直觀地展現給使用者,所以沒有了解過大數據分析的人使用搜索引擎是無法查得出未來事情的,只能憑借一味地猜想。因此,需要將搜索引擎更進一步的智能化,使抓取的網頁和提取的數據更加的精確,由搜索引擎自我進行大數據分析并給出結果,這樣子在人們搜索時就可以得到更深入有效的答案,不需要人們自己去查找數據庫分析數據得出結論。即在現有搜索引擎的基礎上,增加對“大數據”處理和分析的能力。

3 大數據分析與搜索引擎相結合的實驗研究

大數據分析方向是分析的一個主要環(huán)節(jié),大致可以分為六種:可視化分析、數據挖掘算法、預測性分析能力、語義引擎、數據質量和數據管理、數據存儲,數據倉庫,它們各自都是不同的方向和特點。在搜索引擎中,文件多是以大數據集的方式出現,根據多方搜索,我們發(fā)現通過在搜索引擎上只能查找到已經存在的數據例如過去和現在波士頓的房價,以及波士頓各地區(qū)犯罪次數,但根本無法分析到波士頓的房價的變化和各地的治安情況之間的關系,因此筆者翻閱瀏覽了國外的某個數據庫( Kaggle)并找到所需要的數據集進行分析。找到了一個506行13列的數據集,里面包括犯罪率( CRIM: per capita crime rate bytown)、CHAS: Charles River dummy variable r_1 if tract boundsriver;0 0therwise)、LSTAT:%lower status of the population,房價(PRICE: Median value of owner-occupied homes),并使用R和MATLAB分析方法來得出各個數據之間存在的關系。在大量的實驗數據中,選擇了下面幾組數據以展開分析。

經過這一系列科學并有效地分析證明了房價高的地方治安較好犯罪率也較低。

以Google開發(fā)出的軟件為例,用于數據密集型應用的Google File System;簡化處理數據集和創(chuàng)建大規(guī)模數據集的編程模型MapReduce;用于管理和存儲大規(guī)模的非結構化數據的BigTable;處理分布式系統隊列分組并且執(zhí)行任務調度的Google Workqueue等軟件,都為搜索引擎和大數據分析兩項技術相結合起到很大的作用。

4 搜索引擎與大數據分析技術相結合的影響

搜索引擎與大數據分析技術相結合,將搜索引擎建立在知識庫、數據庫的技術上,使搜索更加的智能化,并通過對信息進行提取和分析,精準地實現了智能化搜索這一特點。

5 結論與展望

時代進步科技發(fā)展,搜索引擎技術也一步步的從最初分類目錄導航進化到海量網頁關聯再更新到了細粒度的知識實體抽取,從第一代進化到第三代,搜索引擎技術變得愈來愈成熟也更加龐大,囊括的輔助性的知識內容也越來越多,簡簡單單的一行搜索框背后隱藏著極其復雜的機制。人們想要的是找準唯一的、正確的答案,所以搜索引擎與大數據分析技術相結合是未來必不可少的、更加智能的搜索技術。若想要了解清楚在這個特殊的技術背后的原理,我們仍需要在未來投入大量的工作并展開更加深入的研究,僅僅做幾組實驗通過數據淺顯的證明是不夠的。我期望這一先驅性的工作可以激勵本領域更多的同行研究人員在此方向上開展更為相近深入的研究。讓搜索引擎將在我們以后的生活中發(fā)揮更加出色的作用,將它與我們的生活變得更加的密不可分。

參考文獻:

[1]姜恩波,覃琳.基于結構化數據的搜索引擎[J].現代情報,2019,39(2):66-72.

[2]李海瑩.百度公司搜索引擎技術的專利分析[Jl,中國發(fā)明與專利,2019(4):99-106.

[3)周永紅,吳芳.大數據時代搜索引擎用戶的信息安全問題研究[J].圖書館,2017(5):32-35,57.

[4]劉波,計算機搜索引擎智能化技術探析[J].現代信息科技,2019(5):102-104.

[5]龍佳,論搜索引擎的特點與發(fā)展態(tài)勢[J].電腦知識與技術,2019,15(1):200-201.

[6]方師師.搜索引擎中的新聞呈現:從新聞等級到千人千搜[J] 新聞記者,2018(12):45-57.

【通聯編輯:代影】

作者簡介:許恒源(1999-),男,河南溫縣人,河南大學,本科,主要研究方向為計算機科學與技術;袁彩虹(1980-),女,河南開封人,河南大學,講師,博士,主要研究方向為計算機視覺與深度學習。

猜你喜歡
大數據分析搜索引擎發(fā)展趨勢
面向大數據遠程開放實驗平臺構建研究
面向大數據分析的信息管理實踐教學體系構建
傳媒變局中的人口電視欄目困境與創(chuàng)新
科技傳播(2016年19期)2016-12-27 14:35:21
大數據分析的移動端在網絡課堂教學中的應用
論企業(yè)管理模式與企業(yè)管理現代化
快速原型技術在機械制造中的應用及發(fā)展趨勢
鄉(xiāng)鎮(zhèn)配網規(guī)劃及未來發(fā)展趨勢
分析我國品牌營銷的管理及發(fā)展問題
中國市場(2016年35期)2016-10-19 01:55:52
網絡搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
文水县| 兴国县| 隆昌县| 乌恰县| 阿拉尔市| 新干县| 四子王旗| 大化| 柳林县| 青州市| 阜康市| 通州市| 紫金县| 拜泉县| 普兰县| 淳化县| 嘉峪关市| 额尔古纳市| 秀山| 怀安县| 天水市| 玛多县| 马边| 比如县| 清丰县| 图们市| 南和县| 方城县| 平山县| 西峡县| 巫溪县| 佳木斯市| 子洲县| 古田县| 屯昌县| 偏关县| 洪泽县| 日照市| 安丘市| 襄垣县| 噶尔县|