李秀麗,胡會(huì)南
(河南測(cè)繪職業(yè)學(xué)院,河南 鄭州 451464)
在物聯(lián)網(wǎng)相關(guān)技術(shù)持續(xù)發(fā)展的背景下,社會(huì)經(jīng)濟(jì)的前進(jìn)速度較以往有所加快,這也為物聯(lián)網(wǎng)提供了更加廣闊的發(fā)展空間。事實(shí)證明,物聯(lián)網(wǎng)在運(yùn)行期間會(huì)形成大量數(shù)據(jù),要想使數(shù)據(jù)得到全面且高效的處理,關(guān)鍵是要升級(jí)現(xiàn)有技術(shù),同時(shí)豐富處理數(shù)據(jù)的渠道。
作為依托通信技術(shù)、互聯(lián)網(wǎng)所衍生出的無線網(wǎng)絡(luò),物聯(lián)網(wǎng)能夠?yàn)槿藗兩钐峁O大的便利,其特點(diǎn)主要體現(xiàn)在以下方面。首先是物聯(lián)網(wǎng)往往搭載了虛擬技術(shù)、感知技術(shù)等多個(gè)技術(shù),可使數(shù)據(jù)得到快速且高效的傳輸[1]。其次是物聯(lián)網(wǎng)延續(xù)了互聯(lián)網(wǎng)的特點(diǎn),可通過有線、無線網(wǎng)絡(luò)傳輸信息。最后是物聯(lián)網(wǎng)所涉及數(shù)據(jù)量極大,通常需要使用專業(yè)技術(shù)才能完成相應(yīng)的處理工作??紤]到物聯(lián)網(wǎng)為數(shù)據(jù)信息所打造的環(huán)境為虛擬環(huán)境,而且數(shù)據(jù)傳輸期間存在風(fēng)險(xiǎn)的情況難以避免,因此大力監(jiān)管物聯(lián)網(wǎng)十分重要[2]。
研究表明,物聯(lián)網(wǎng)數(shù)據(jù)往往具有數(shù)量多和種類豐富等特征。處理不同載體、不同領(lǐng)域數(shù)據(jù)期間,使用常規(guī)技術(shù)通常難以取得理想的成效[3]。結(jié)合物聯(lián)網(wǎng)數(shù)據(jù)所表現(xiàn)出的特點(diǎn)可知,要想使其得到高效處理,關(guān)鍵是要酌情引入物聯(lián)網(wǎng)相關(guān)技術(shù),通過對(duì)采集、處理等環(huán)節(jié)進(jìn)行整合,確保數(shù)據(jù)信息能夠得到實(shí)時(shí)共享,這一過程即為數(shù)據(jù)處理。
在處理物聯(lián)網(wǎng)數(shù)據(jù)時(shí),有關(guān)人員應(yīng)意識(shí)到數(shù)據(jù)往往具有復(fù)雜性和龐大性的特點(diǎn),僅憑借現(xiàn)有技術(shù)難以保證處理速度與最終效果均達(dá)到預(yù)期。要想對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)且高效的處理,當(dāng)務(wù)之急便是以現(xiàn)有技術(shù)為基礎(chǔ),依照物聯(lián)網(wǎng)數(shù)據(jù)特點(diǎn),研發(fā)更具實(shí)用性的全新技術(shù)。通過充分發(fā)揮數(shù)據(jù)處理優(yōu)勢(shì)的方式,在及時(shí)處理信息的前提下確保信息價(jià)值可得到最大程度的實(shí)現(xiàn)[4]。
大數(shù)據(jù)處理所用軟件包括查詢引擎、服務(wù)器以及數(shù)據(jù)源3個(gè)部分,其中系統(tǒng)架構(gòu)如圖1所示。
圖1 數(shù)據(jù)處理系統(tǒng)架構(gòu)
該系統(tǒng)所搭載的連接數(shù)據(jù)源為Hive、MySQL、Presto,其中Hive負(fù)責(zé)存儲(chǔ)歷史數(shù)據(jù),MySQL負(fù)責(zé)對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)存儲(chǔ)及查詢,Presto負(fù)責(zé)執(zhí)行查詢計(jì)劃。應(yīng)用服務(wù)器所提供的服務(wù)以Web服務(wù)為主,可通過Presto所提供的JBDC與集群相連,同時(shí)運(yùn)用Java對(duì)應(yīng)用程序進(jìn)行搭建,為用戶查詢或是分析海量數(shù)據(jù)提供便利。另外,服務(wù)器還負(fù)責(zé)接收用戶所提交請(qǐng)求,將所接收查詢請(qǐng)求發(fā)送至對(duì)應(yīng)集群,由集群負(fù)責(zé)統(tǒng)一處理,待順利接收到反饋結(jié)果,服務(wù)器可將結(jié)果顯示在瀏覽器界面上,確??蛻羲岢稣?qǐng)求得到最大程度的滿足。
2.2.1 云計(jì)算
物聯(lián)網(wǎng)數(shù)據(jù)難以在日常生活中得到廣泛應(yīng)用的原因主要是現(xiàn)有計(jì)算機(jī)技術(shù)仍存在漏洞,致使處理數(shù)據(jù)信息的工作無法得到高效開展。此外,考慮到信息時(shí)代的特點(diǎn)之一是數(shù)據(jù)量大幅增加,加之人們對(duì)信息的需求往往有所不同,要想使數(shù)據(jù)信息得到更加充分的使用,前提是立足實(shí)際,對(duì)處理數(shù)據(jù)所用的技術(shù)進(jìn)行升級(jí)與優(yōu)化。
作為物聯(lián)網(wǎng)發(fā)展到一定程度時(shí)所形成的產(chǎn)物,云計(jì)算往往貫穿數(shù)據(jù)處理的始終,在各個(gè)環(huán)節(jié)均發(fā)揮著重要作用,可以說該技術(shù)的出現(xiàn)與物聯(lián)網(wǎng)發(fā)展存在極為緊密的聯(lián)系?,F(xiàn)有數(shù)據(jù)類型主要分為非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù),不同類型數(shù)據(jù)所適用處理技術(shù)通常存在細(xì)微差別,在強(qiáng)調(diào)數(shù)據(jù)多樣化的當(dāng)下,僅憑借傳統(tǒng)技術(shù)對(duì)其進(jìn)行處理,不僅需要投入大量的精力與時(shí)間,還會(huì)由于處理難度較大,導(dǎo)致最終效果無法達(dá)到預(yù)期[4]。云計(jì)算的誕生使上述問題迎刃而解,該技術(shù)所搭載系統(tǒng)往往由海量處理板塊組成,任一板塊均可被用來對(duì)特定類型或區(qū)域的數(shù)據(jù)進(jìn)行處理,通過實(shí)時(shí)匯總處理過程的方式得到最終結(jié)果。事實(shí)證明,該技術(shù)在整理數(shù)據(jù)、分析數(shù)據(jù)還有計(jì)算數(shù)據(jù)等方面均有較傳統(tǒng)技術(shù)更為突出的表現(xiàn),相關(guān)人員可通過該技術(shù)對(duì)數(shù)據(jù)價(jià)值進(jìn)行深入挖掘,并通過深度處理的方式,賦予處理數(shù)據(jù)等工作更符合預(yù)期的有效性及實(shí)時(shí)性。
2.2.2 采集/提取數(shù)據(jù)
設(shè)備終端所用的傳感器為無線傳感器,可保證采集所得數(shù)據(jù)經(jīng)由無線網(wǎng)絡(luò)被實(shí)時(shí)發(fā)送至服務(wù)器及網(wǎng)關(guān),其拓?fù)浣Y(jié)構(gòu)如圖2所示。
圖2 無線傳感網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
作為物聯(lián)網(wǎng)數(shù)據(jù)的固有屬性,多樣性主要包含3方面內(nèi)容,一是數(shù)據(jù)類型多,二是數(shù)據(jù)規(guī)模大,三是數(shù)據(jù)來源豐富[5]。對(duì)數(shù)據(jù)進(jìn)行處理前,相關(guān)人員先要從海量數(shù)據(jù)中提取出所需數(shù)據(jù),要想保證提取所得數(shù)據(jù)在價(jià)值與質(zhì)量等方面均有突出表現(xiàn),前提是要定期更新提取技術(shù)所遵循的原理和所使用的算法,通過快速、精準(zhǔn)整合數(shù)據(jù)的方式,使提高處理效率等目標(biāo)擁有實(shí)現(xiàn)的先決條件。
2.2.3 清洗數(shù)據(jù)
隨著信息時(shí)代的來臨,物聯(lián)網(wǎng)得到了飛速發(fā)展,各行各業(yè)所形成數(shù)據(jù)信息的數(shù)量隨之增加,要想確保信息可發(fā)揮出應(yīng)有作用,關(guān)鍵是要利用現(xiàn)有技術(shù)對(duì)信息進(jìn)行系統(tǒng)且高效的處理,為制定決策等工作的開展助力??紤]到數(shù)據(jù)來源較為復(fù)雜,不僅其可靠性和安全性難以得到保證,有少量錯(cuò)誤信息混入其中的情況也難以得到根除,由此可見,篩選并清洗數(shù)據(jù)勢(shì)在必行。該環(huán)節(jié)相關(guān)人員可通過現(xiàn)有技術(shù)對(duì)所掌握數(shù)據(jù)進(jìn)行清洗,這樣做可有效去除虛假數(shù)據(jù)和錯(cuò)誤數(shù)據(jù),隨后再使用冗余技術(shù)對(duì)剩余數(shù)據(jù)進(jìn)行去粗取精,獲得真實(shí)且有效的數(shù)據(jù)[6]。
2.2.4 處理數(shù)據(jù)
在確定處理物聯(lián)網(wǎng)數(shù)據(jù)所用技術(shù)前,相關(guān)人員應(yīng)仔細(xì)檢查技術(shù)是否存在漏洞,在此基礎(chǔ)上,通過多維度分析的方式判斷數(shù)據(jù)實(shí)用性及有效性。現(xiàn)階段,對(duì)文本信息進(jìn)行處理時(shí),可供相關(guān)人員選用的技術(shù)有兩種,分別是遺傳算法和數(shù)據(jù)挖掘。
(1)遺傳算法。該項(xiàng)技術(shù)以生物理論所強(qiáng)調(diào)的優(yōu)勝劣汰為核心,通過隨機(jī)檢索數(shù)據(jù)的方式,使檢索空間得到系統(tǒng)優(yōu)化[7]?,F(xiàn)階段,該項(xiàng)技術(shù)在機(jī)器學(xué)習(xí)、信號(hào)處理等領(lǐng)域的使用頻率較高。
(2)數(shù)據(jù)挖掘。在處理信息的過程中,數(shù)據(jù)挖掘同樣發(fā)揮著十分重要的作用,由該項(xiàng)技術(shù)所衍生出的處理方法如下。一是分類分析,該方法強(qiáng)調(diào)以類別為依據(jù),對(duì)數(shù)據(jù)進(jìn)行劃分,在保證數(shù)據(jù)分類準(zhǔn)確的前提下為日后分析數(shù)據(jù)等工作的開展提供便利。實(shí)際工作中,相關(guān)人員既可以使用該方法預(yù)測(cè)指定群體的行為,同時(shí)還可以通過聚類分析的方式盡快完成分析數(shù)據(jù)的工作,以確保數(shù)據(jù)能夠得到使用[8]。二是情感分析,該方法強(qiáng)調(diào)以感性思維為導(dǎo)向,從更深層次分析數(shù)據(jù),要求相關(guān)人員將數(shù)據(jù)所傳達(dá)的主觀信息作為切入點(diǎn),在處理自然語言的基礎(chǔ)上充分利用現(xiàn)有方法對(duì)處理所得的數(shù)據(jù)進(jìn)行分析,確保數(shù)據(jù)所蘊(yùn)含情感特征能夠得到更加直觀的呈現(xiàn)[9]。三是空間分析,該方法可以簡單地理解為以數(shù)據(jù)所表現(xiàn)出的空間特征為落腳點(diǎn),通過全面且系統(tǒng)的分析,得出相應(yīng)的結(jié)論??紤]到物聯(lián)網(wǎng)數(shù)據(jù)的來源十分多樣化,任一數(shù)據(jù)均有位置信息對(duì)應(yīng),因此采集并科學(xué)整合空間信息,通常可使處理數(shù)據(jù)的水平得到大幅提高。四是學(xué)習(xí)關(guān)聯(lián)規(guī)則,該方法的原理相對(duì)簡單,即通過挖掘數(shù)據(jù)內(nèi)在聯(lián)系的方式為后續(xù)處理還有分析等工作的開展提供理論依據(jù)。
2.2.5 分布技術(shù)
在存儲(chǔ)數(shù)據(jù)期間使用該技術(shù)可使存儲(chǔ)效果得到保證。對(duì)該技術(shù)加以使用時(shí),相關(guān)人員應(yīng)對(duì)以下內(nèi)容有所了解。
首先是該技術(shù)搭載分布式系統(tǒng),可在極大程度上降低硬件方面投入的成本,以軟件所具有優(yōu)勢(shì)為依托,對(duì)用戶所提出需求進(jìn)行滿足。日常工作中,用戶可視情況對(duì)代碼進(jìn)行修改,與此同時(shí),由分布式系統(tǒng)負(fù)責(zé)對(duì)修改代碼所形成數(shù)據(jù)進(jìn)行存儲(chǔ),為數(shù)據(jù)質(zhì)量提供有力保障。
其次是酌情引入分布式緩存,可使數(shù)據(jù)庫負(fù)載得到控制,通過實(shí)時(shí)緩存數(shù)據(jù)的方式解決數(shù)據(jù)頻繁被傳遞到數(shù)據(jù)庫內(nèi)的問題。事實(shí)證明,這樣做不僅能夠使數(shù)據(jù)庫負(fù)擔(dān)得到減輕,還可為物聯(lián)網(wǎng)的穩(wěn)定、持續(xù)運(yùn)行提供保證,確保物聯(lián)網(wǎng)所表現(xiàn)出的性能符合預(yù)期[10]。此外,數(shù)據(jù)信息所具有的可靠性與安全性也能夠得到一定程度的強(qiáng)化,將其用于數(shù)據(jù)處理是大勢(shì)所趨。
最后是以該技術(shù)為核心所開發(fā)的數(shù)據(jù)庫,在查詢數(shù)據(jù)方面具有突出表現(xiàn),可保證經(jīng)過處理的數(shù)據(jù)盡快得到存儲(chǔ)。例如,谷歌系統(tǒng)所搭載的數(shù)據(jù)庫既能夠被用來提取、使用數(shù)據(jù),還可被用來開發(fā)數(shù)據(jù),這對(duì)在谷歌任職的技術(shù)人員而言具有極為重要的意義。除此之外,非關(guān)系數(shù)據(jù)庫在近幾年也更加頻繁地出現(xiàn)在人們的視野中,該數(shù)據(jù)庫的優(yōu)勢(shì)主要體現(xiàn)在兩個(gè)方面,一是增強(qiáng)數(shù)據(jù)自身的可靠性及安全性,二是通過對(duì)存儲(chǔ)集群進(jìn)行構(gòu)建的方式,使集成處理數(shù)據(jù)的設(shè)想成為現(xiàn)實(shí)。
2.2.6 可視化技術(shù)
可視化技術(shù)在數(shù)據(jù)處理領(lǐng)域擁有極為廣闊的發(fā)展空間,相關(guān)人員可通過該技術(shù)對(duì)略顯抽象的技術(shù)進(jìn)行轉(zhuǎn)化,確保其能夠以更加具象化的狀態(tài)被展示出來,為人們獲取和掌握自身所需數(shù)據(jù)提供便利,數(shù)據(jù)價(jià)值往往可得到最大化實(shí)現(xiàn)。一般情況下,可視技術(shù)均強(qiáng)調(diào)通過圖畫、圖片等方式對(duì)數(shù)據(jù)進(jìn)行呈現(xiàn),如果條件允許,相關(guān)人員可酌情引入聚類分析技術(shù),通過聚類分析與可視呈現(xiàn)結(jié)合的方式提高數(shù)據(jù)集合處理的有效性,避免由于人們無法理解數(shù)據(jù)背后更深層次的含義,致使數(shù)據(jù)無法得到充分利用。
雖然物聯(lián)網(wǎng)的誕生在極大程度上推動(dòng)了經(jīng)濟(jì)與社會(huì)的進(jìn)步,卻也增加了數(shù)據(jù)處理的難度??茖W(xué)使用數(shù)據(jù)處理相關(guān)技術(shù)可使處理壓力得到降低,在保證處理效果的前提下提升處理速度,以此保證物聯(lián)網(wǎng)數(shù)據(jù)更深層次的價(jià)值得到充分挖掘與利用。