孟穎
摘? 要:隨處可見的云儲存和計算功能,加快了大數(shù)據(jù)的產(chǎn)生速度,因此,在進行網(wǎng)絡(luò)管理的過程中,需要做好大數(shù)據(jù)信息內(nèi)容的收集,幫助人們便利地進行數(shù)據(jù)信息檢索,結(jié)合實際調(diào)查結(jié)果顯示,大數(shù)據(jù)中超過半數(shù)都是非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容,大多數(shù)非結(jié)構(gòu)化的數(shù)據(jù)形式是以文件進行儲存。大數(shù)據(jù)整體被分割成不同的內(nèi)容,分別儲存在不同的服務(wù)器中,在主服務(wù)器上也會產(chǎn)生相應(yīng)的儲存元數(shù)據(jù),該文主要探討了基于云計算的大數(shù)據(jù)信息檢索技術(shù),對其未來發(fā)展進行了整體預(yù)測,希望能夠促進我國科學(xué)技術(shù)的發(fā)展。
關(guān)鍵詞:云計算? 大數(shù)據(jù)網(wǎng)絡(luò)? 信息檢索技術(shù)
中圖分類號:TP18 ? ?文獻標識碼:A 文章編號:1672-3791(2019)09(c)-0011-02
隨著信息技術(shù)的不斷發(fā)展,云計算得到了廣泛應(yīng)用,我們正處于信息爆炸時代下,云服務(wù)在各個領(lǐng)域的不斷應(yīng)用,越來越多的個人和企業(yè)將辦公業(yè)務(wù)遷移到了網(wǎng)絡(luò)平臺上,這些網(wǎng)絡(luò)平臺無疑不產(chǎn)出大量的數(shù)據(jù)內(nèi)容。除此之外,自動傳感系統(tǒng)、移動設(shè)備應(yīng)用以及科學(xué)儀器使用,都會源源不斷地提供數(shù)據(jù)內(nèi)容,增長速度最為明顯的就是社交網(wǎng)絡(luò)和電子商務(wù)數(shù)據(jù),數(shù)據(jù)內(nèi)容主要是通過音頻、視頻、圖片、文字等多種形式進行傳播,要想對這些數(shù)據(jù)內(nèi)容進行描述,就需要采用GB、PB甚至ZB,因此我們需要做好云計算中大數(shù)據(jù)的信息檢索工作。
1? 大數(shù)據(jù)網(wǎng)絡(luò)信息檢索技術(shù)
(1)大數(shù)據(jù)網(wǎng)絡(luò)信息儲存。我國在進行網(wǎng)絡(luò)信息資源儲存過程中,存在著數(shù)據(jù)分散的問題,網(wǎng)絡(luò)用戶要想通過信息系統(tǒng)進行教學(xué)資源的查詢,就需要分別輸入不同的檢索條件,這種信息查詢形式降低了查詢效率。通過混合云計算模式的有效應(yīng)用,能夠改變傳統(tǒng)的分布式數(shù)據(jù)庫儲存格局,將網(wǎng)絡(luò)用戶所進行的檢索與數(shù)據(jù)庫進行結(jié)合,全面提高查詢過程的整體性。網(wǎng)絡(luò)用戶在進行數(shù)據(jù)信息查詢的過程中,可以直接通過云端進行檢索,云客戶端能夠直接將檢索條件發(fā)送到系統(tǒng)服務(wù)器中,經(jīng)過短暫的分析為市場提供合理的信息資源,滿足網(wǎng)絡(luò)用戶的信息查詢要求?;旌显朴嬎隳J降挠行?yīng)用,能夠減少信息基礎(chǔ)設(shè)施建設(shè)的資金投入,借助大數(shù)據(jù)技術(shù)建立私有云,負責儲存重要信息和資源,從而結(jié)合網(wǎng)絡(luò)的發(fā)展情況,對云數(shù)據(jù)進行統(tǒng)一管理,為用戶提供更好的信息化服務(wù)。
(2)元數(shù)據(jù)的應(yīng)用。大數(shù)據(jù)的產(chǎn)生本身就是隨著云計算的超級計算發(fā)展而形成的,大數(shù)據(jù)主要指的是通過結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)分析模式,進行數(shù)據(jù)的儲存和收集,結(jié)合其數(shù)據(jù)量,大數(shù)據(jù)具有種類多、價值高、處理速度快等應(yīng)用優(yōu)勢,能夠更好地進行數(shù)據(jù)內(nèi)容的檢索,如果我們依然采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫進行數(shù)據(jù)儲存,不僅耗費儲存時間,還需要大量的資金投入,在進行數(shù)據(jù)查詢時也具有一定的困難性。大多數(shù)的數(shù)據(jù)內(nèi)容都是以文件形式進行儲存的,因此云計算的集群文件系統(tǒng),逐漸成為大數(shù)據(jù)數(shù)據(jù)傳輸?shù)闹攸c內(nèi)容,集群文件系統(tǒng)主要指的是將一個大數(shù)據(jù)文件劃分為不同模塊,分別儲存在服務(wù)器中,每個模塊都帶有元數(shù)據(jù),元數(shù)據(jù)被儲存到主服務(wù)器中。主服務(wù)器儲存的內(nèi)容主要有文件和塊的命名,空間塊的映射文件以及數(shù)據(jù)備份的主要位置,我們在進行數(shù)據(jù)查詢的過程中,可以直接通過命名空間查詢指定文件,找出文件所處的目錄和基本路徑,原數(shù)據(jù)所記錄的內(nèi)容有文件儲存的具體位置,通過信息查詢就能夠了解數(shù)據(jù)的位置移動情況,實現(xiàn)動態(tài)化檢索。
2? 網(wǎng)絡(luò)信息的收集與檢索
信息儲存量與信息的價值成反比,隨著信息技術(shù)的不斷發(fā)展,用戶在進行網(wǎng)頁瀏覽的過程中,會從成千上億個網(wǎng)頁中結(jié)合自己的需求,查詢相關(guān)數(shù)據(jù)內(nèi)容,例如:在觀看1h左右的視頻后獲得的有用信息只有幾秒鐘,同理,云計算之所以成為信息技術(shù)發(fā)展的基礎(chǔ),就是因為云計算具有超強的信息計算能力,能夠通過云數(shù)據(jù),在短時間內(nèi)獲得信息處理結(jié)果。云計算的有效應(yīng)用能夠快速地挖掘數(shù)據(jù)所蘊含的價值,是解決查詢問題的重要手段,在進行信息檢索的過程中,中國常用的百度、美國常用的谷歌都是檢索行業(yè)的領(lǐng)先企業(yè),我們正處在云計算的大數(shù)據(jù)發(fā)展時代,其發(fā)展的核心思想借鑒了搜索引擎所帶有的便利形式,讓用戶在進行大數(shù)據(jù)信息檢索的過程中,將信息檢索過程分為網(wǎng)頁收錄和檢索兩部分。
(1)網(wǎng)頁收錄。在進行數(shù)據(jù)檢索的過程中,主要是檢索云中的數(shù)據(jù)服務(wù)器,分別對不同節(jié)點上的服務(wù)器數(shù)據(jù)信息進行排序和分析,通過分布式檢索的方式,將檢索到的結(jié)果直接收錄到Index Repository中,通過網(wǎng)頁將搜索引擎中的內(nèi)容收錄在案,制定出搜索索引。用戶在結(jié)合自身的發(fā)展需求提出搜索請求時,實際上是在Index Repository中進行搜索,通過運用云計算的計算方式,通過倒敘索引列表的制訂,將其儲存到儲存器中,設(shè)計好頁面的主要標題和連接內(nèi)容,為數(shù)據(jù)制作索引,并且將網(wǎng)頁的主要內(nèi)容另存為其他索引中。用戶在進行數(shù)據(jù)內(nèi)容查詢的過程中,所得到的數(shù)據(jù)結(jié)果大多數(shù)都經(jīng)歷了較長時間的完善和記錄,并且在搜索引擎的緩存區(qū)排序,整個過程搜索引擎并不會提前預(yù)知用戶查詢的主要關(guān)鍵詞,但是要想全面提高搜索的整體效率,就需要建立關(guān)鍵詞詞庫,在用戶提出查詢請求時,自動匹配關(guān)鍵詞。
(2)數(shù)據(jù)檢索。當用戶結(jié)合自身需求提出查詢請求時,需要像檢索程序提供關(guān)鍵詞,借助索引儲存器將實際內(nèi)容進行排序,直接通過用戶檢索界面兒呈現(xiàn)在用戶面前,全面提高了信息檢索能力,加快檢索的速度。對于中文用戶講,在完成用戶請求時,主要是通過中文分詞實現(xiàn)的。中文分詞主要是通過字符串匹配、理解分詞、統(tǒng)計分詞這3種形式進行的,在收到搜索請求時,需要仔細地分析關(guān)鍵詞所蘊含的實際內(nèi)容,要想保證匹配內(nèi)容呈現(xiàn)的有序性,就是要通過搜索引擎按照相關(guān)的匹配程度進行排序,將分詞信息和文件中的連接內(nèi)容相結(jié)合,滿足排序的客觀性暴漲,檢索出的結(jié)果與實際用戶需求相一致,如果同一網(wǎng)頁被其他網(wǎng)頁多次指向,說明網(wǎng)頁的含金量較高,判斷網(wǎng)頁自身所處的質(zhì)量級別,分析網(wǎng)絡(luò)連接的權(quán)重,
3? 云計算在大數(shù)據(jù)網(wǎng)絡(luò)信息檢索技術(shù)中的應(yīng)用
通過云計算技術(shù)的有效應(yīng)用,能夠更好地實現(xiàn)資源共享,直接將已經(jīng)儲存的資源內(nèi)容與軟硬件設(shè)備相結(jié)合,提高計算機數(shù)據(jù)處理的便利性,云計算技術(shù)的應(yīng)用不僅能夠為用戶提供安全的網(wǎng)絡(luò)環(huán)境,還能夠建立高效的數(shù)據(jù)儲存體系,解決傳統(tǒng)計算機使用過程中數(shù)據(jù)處理傳輸問題,云計算技術(shù)應(yīng)用能夠讓人們的網(wǎng)絡(luò)資源收集,打破時間、空間的限制。要想做好計算機數(shù)據(jù)處理工作,就需要以云計算技術(shù)為核心,助力信息技術(shù)在我國社會發(fā)展過程中的有效應(yīng)用,通過云計算技術(shù),能夠加快服務(wù)器的研發(fā)速度,建立優(yōu)秀的操作系統(tǒng),讓人們能夠在最短的時間內(nèi)收集到想要的數(shù)據(jù)內(nèi)容,云計算技術(shù)的應(yīng)用還為數(shù)據(jù)的儲存、分享提供安全保障,減少數(shù)據(jù)流失所帶來的經(jīng)濟影響。
(1)網(wǎng)絡(luò)環(huán)境中的云計算。在進行信息化環(huán)境的構(gòu)建過程中,需要以云計算為主要依據(jù),為當前信息系統(tǒng)中的網(wǎng)絡(luò)用戶,實現(xiàn)網(wǎng)絡(luò)資源的動態(tài)化分配,分配的主要內(nèi)容有硬件、服務(wù)器、軟件等。通過云計算定期地對網(wǎng)站上的資源進行更新和維護,同時在網(wǎng)絡(luò)建設(shè)的過程中,可以讓網(wǎng)絡(luò)用戶通過服務(wù)的動態(tài)化申請,爭取得到網(wǎng)絡(luò)硬件和信息資源的使用權(quán)和訪問權(quán)。網(wǎng)絡(luò)中所采用的云計算,大多數(shù)都是私有云計算,針對于當前的內(nèi)部用戶信息開展服務(wù),不為群眾提供網(wǎng)絡(luò)服務(wù)。在當前我國的網(wǎng)絡(luò)建設(shè)開展的過程中,大多數(shù)都會采用私有云技術(shù),探討網(wǎng)中所存在的信息資源和數(shù)據(jù)所具有的集中性特點,結(jié)合當前的網(wǎng)絡(luò)硬軟件資源構(gòu)建私有云,從而全面降低服務(wù)的成本。私有云計算的廣泛應(yīng)用,能夠為用戶提供良好的服務(wù),私有云計算的網(wǎng)絡(luò)服務(wù)器要搭建在單位網(wǎng)絡(luò)中,通過防火墻進行隔離和保護,讓內(nèi)部用戶能夠享有穩(wěn)定的數(shù)據(jù)信息。要想全面實現(xiàn)信息化管理,就需要建立屬于自身的云,在當前的網(wǎng)絡(luò)中心,建立數(shù)據(jù)儲存云端,相關(guān)人員能夠通過云計算進行數(shù)據(jù)查驗請求,實現(xiàn)數(shù)據(jù)應(yīng)答,從而全面提高管理制度,減少資源管理的成本。
(2)私有云的有效應(yīng)用。在進行信息化建設(shè)的過程中,通過私有云技術(shù)的有效應(yīng)用,能夠更好地實現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的儲存和整理,同時大數(shù)據(jù)技術(shù)的應(yīng)用還能夠?qū)Ξ斍八捎玫男畔ⅰ⒂布蛙浖峁┘皶r的升級服務(wù),在網(wǎng)絡(luò)終端使用的過程中,網(wǎng)絡(luò)用戶們并不需要對數(shù)據(jù)進行保護,只要結(jié)合自身的信息需求向云空間提出相應(yīng)的申請。私有云技術(shù)的有效應(yīng)用,能夠減少網(wǎng)絡(luò)資源的投入成本,避免出現(xiàn)資源浪費,結(jié)合時代的發(fā)展步伐,網(wǎng)絡(luò)所涵蓋的范圍也在不斷擴大,為網(wǎng)絡(luò)用戶便利地訪問網(wǎng)絡(luò)提供支持,網(wǎng)絡(luò)的很多數(shù)據(jù)在進行處理過程中都通過私有云技術(shù)實現(xiàn),用戶客戶端也可以減少應(yīng)用軟件的安裝,只需要有一定的系統(tǒng)作為支撐。整個服務(wù)過程都是通過所具有的云端服務(wù)器進行承擔的,用戶只要通過簡單的網(wǎng)絡(luò)終端登錄就可以直接連接到的服務(wù)網(wǎng)點,對服務(wù)器中所含有的海量數(shù)據(jù)進行訪問,云計算的應(yīng)用優(yōu)勢就在于能夠在網(wǎng)絡(luò)的內(nèi)部進行設(shè)立,做好相關(guān)部門的維護和管理工作,保障數(shù)據(jù)庫內(nèi)部資源不會出現(xiàn)丟失和遭到破壞。同時,云計算技術(shù)在網(wǎng)絡(luò)機房中的應(yīng)用,還能夠全面降低相關(guān)用戶的查詢強度,優(yōu)化當前的計算機終端環(huán)境,在保證網(wǎng)絡(luò)機房正常運轉(zhuǎn)的情況下,對計算機進行定期的維護和管理,云端服務(wù)器還可以通過網(wǎng)絡(luò)服務(wù)中心對各部門的工作進行管理,借助網(wǎng)絡(luò)中的服務(wù)端口,網(wǎng)絡(luò)用戶們能夠?qū)Ω信d趣的資源內(nèi)容進行查詢。為了滿足網(wǎng)絡(luò)用戶們的閱覽需求,還可以成立以云計算為基礎(chǔ)的數(shù)字化圖書館,將海量圖書資源直接儲存到云端服務(wù)器中,實現(xiàn)資源共享。
4? 結(jié)語
要想從眾多信息內(nèi)容中提取日常生活中必要的有力數(shù)據(jù),促進人類社會的發(fā)展,就需要充分發(fā)揮出大數(shù)據(jù)所具有的信息檢索價值,以云計算為基礎(chǔ)所開展的大數(shù)據(jù)檢索技術(shù),仍然面臨著許多困難和挑戰(zhàn)需要解決。例如,多媒體類型的圖形、視頻、聲音等大數(shù)據(jù)文件,這些文件的檢索十分困難,隨著智能終端的普及,需要將多媒體類型文件與智能終端進行有機結(jié)合,從而通過智能終端的應(yīng)用進行文件搜索,獲取相關(guān)信息,工作人員需要以此為基礎(chǔ),充分利用大數(shù)據(jù)檢索技術(shù),找出有價值的信息,通過不同的收集與檢索方式,促進我國社會產(chǎn)業(yè)變革。
參考文獻
[1] 劉亞雄.基于云計算的大數(shù)據(jù)網(wǎng)絡(luò)信息檢索技術(shù)及擴展[J].電子世界,2019(10):201.
[2] 劉昺侯.基于安全云的私有信息檢索關(guān)鍵技術(shù)研究與實現(xiàn)[D].電子科技大學(xué),2014.
[3] 劉月.探究云計算下大數(shù)據(jù)的信息檢索技術(shù)應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用,2015(7):95.