【摘要】:目前,由于計算機與信息化等先進技術(shù)的持續(xù)發(fā)展與進步,使得如今時代逐漸朝向信息化的時代所發(fā)展,但在對大量信息數(shù)據(jù)展開處理的過程中,由于信息數(shù)據(jù)的持續(xù)積累開始逐漸發(fā)生質(zhì)變現(xiàn)象,在這種情況下使得大數(shù)據(jù)這種概念應(yīng)運而生。在對大數(shù)據(jù)中的信息數(shù)據(jù)展開處理時,MapReduce是其中一種較為關(guān)鍵的編程模型,可以在處理信息數(shù)據(jù)的過程中,針對速度、空間與訪問等方面的問題展開科學(xué)、有效的解決?;诖?,在本篇文章中先闡明了MapReduce原理的主要概述,進而針對MapReduce原理的格式種類展開詳細(xì)分析,最后提出在自然語言處理中MapReduce原理的實際應(yīng)用,希望可以為相關(guān)人員提供微薄的參考幫助。
【關(guān)鍵詞】:自然語言處理 MapReduce 原理應(yīng)用
所謂自然語言處理主要指的就是,針對人和計算機這兩者之間通過自然語言展開合理通信與交流的理論與方式展開詳細(xì)研究,其不僅可以為計算機技術(shù)的發(fā)展起到一定程度的推動作用,還可以為Artificial Intelligence技術(shù)的發(fā)展起到一定的完善作用,屬于一門將語言、計算機、數(shù)學(xué)相互結(jié)合而來的學(xué)科。由于如今計算機網(wǎng)絡(luò)中的信息資源一直處于持續(xù)增加的狀態(tài),導(dǎo)致互聯(lián)網(wǎng)中所儲存的信息數(shù)據(jù)較為龐大,在針對其中的信息數(shù)據(jù)展開有效處理時,對于計算機的中央處理器與服務(wù)器等部件而言都是一種挑戰(zhàn),于是就開始在對信息數(shù)據(jù)展開處理時,經(jīng)常會在速度、空間與容錯性等多方面出現(xiàn)問題。而MapReduce這種編程模型的誕生,不僅能夠優(yōu)化計算機中的配置,也能夠提升計算機處理信息數(shù)據(jù)的實際效率,因此,就需要針對自然語言處理中MapReduce原理的實際應(yīng)用展開詳細(xì)分析,從而確保在如今時代下,對于自然語言處理的準(zhǔn)確性與穩(wěn)定性。
一、MapReduce原理的主要概述
MapReduce自身屬于一種在編程時所應(yīng)用的模型,通常都是應(yīng)用在實際規(guī)模較大的數(shù)據(jù)集并行與計算中,其在工作過程中的主要原理如圖1所示:
在MapReduce其中的Map所代表的映射,而Reduce所代表的是歸約,這兩者中所蘊含的核心理念都是由編程語言中的函數(shù)而來,還具有一些編程語言中矢量特性【1】。在MapReduce中的主要原理在于,集合相關(guān)用戶所定義key與value對的輸入處理,再根據(jù)中間輸出集合key與value對,并將中間完全相同的key與value相互集合后,傳輸?shù)組apReduce的函數(shù)之中,然后在其中的函數(shù)就能夠講完全相同的key與value相互合并,最終形成value值較小的集合【2】。在MapReduce這種編程模型實際展開運行的過程中,主要涵蓋了:對大量的輸入信息數(shù)據(jù)劃分交由多個計算機對其展開處理、通過worker將所有輸入的信息數(shù)據(jù)分為key與value、通過函數(shù)將所有輸入信息數(shù)據(jù)中的key與value轉(zhuǎn)換為中間形式、根據(jù)key的實際值排列出中間形式中的key與value、將各不相同的key與value交由各不相同的計算機、對Reduce展開實際計算、最終得出Reduce的計算結(jié)果【3】。
二、MapReduce原理的格式種類
通過MapReduce所構(gòu)建的信息數(shù)據(jù)模型會較為簡單,因為在其中Mao與Reduce的有效函數(shù),能夠充分利用key與value展開合理的輸入或是輸出,但一定要嚴(yán)格遵守相應(yīng)形式【4】。如以下所示:
Map=(k1.v1)→list(k2.v2)
Reduce=(k2.list(v2))→list(k3.v3)
在MapReduce這種模型庫中,對于多種格式有所不同種類的輸入數(shù)據(jù)會提供一定的支持,例如:在文本類型的輸入數(shù)據(jù)中,每行都會被當(dāng)做一對key與value,在這其中key所代表的是文本文件所出現(xiàn)的偏移量,而value所代表的是在整個文本中此行的實際內(nèi)容。而且在MapReduce中預(yù)定義類型的輸入方式,不僅可以在真正意義上滿足多種輸入的實際需求,還可以讓應(yīng)用者充分利用MapReduce所提供的簡單接口,創(chuàng)新一種全新輸入的種類。除此之外,在MapReduce中還包含有預(yù)定義類型的輸出方式,充分利用就可以制作出格式各不相同的輸出數(shù)據(jù),而且相關(guān)用戶還能夠通過增加輸入數(shù)據(jù)的種類方法,對輸出數(shù)據(jù)的種類方法展開合理、有效的增加【5】。
三、自然語言處理中MapReduce原理的實際應(yīng)用
1、索引及MapReduce的構(gòu)建
構(gòu)建索引系統(tǒng)是信息檢索系統(tǒng)中最為重要的階段之一。在信息檢索領(lǐng)域中,創(chuàng)建大規(guī)模語料庫搞笑的索引是目前而言較為困難的問題之一,而通過使用分布式狂階對廣泛的文本語料庫展開與行化索引,是創(chuàng)建較為合適的索引以及可以方便展開搜索的有效方式。Jeffrey Dean與Sanjay Ghemawat共同完成的Mapreduce學(xué)術(shù)論文中曾經(jīng)給出的索引策略是:map函數(shù)解析每個文檔,輸出的一系列word、documentID對,reduce函數(shù)的數(shù)據(jù)屬于一種給定word相應(yīng)的文檔ID,輸出一個《word、document ID》對,所有輸出集合形式就可以形成一個較為簡單的倒排索引,這樣一來通過一種較為簡單的算法就可以準(zhǔn)確的尋找出跟蹤詞在文檔中的具體位置。這種策略雖然只是簡單的描寫出了運用MapReduce構(gòu)建索引的方式,但是卻說明了運用MapReduce可以實現(xiàn)大規(guī)模銀鎖構(gòu)建的可能性,同時也會為相關(guān)研究人員在MapReduce中實現(xiàn)文本索引的研究提供了較為有益的研究空間?;贛apReduce模型可以充分實現(xiàn)構(gòu)建索引,在實際構(gòu)建的過程中策略為:map函數(shù)為文檔中的詞,輸出一個文檔ID對,reduce函數(shù)將相同的文檔ID展開合并,通過合并的方式獲得項頻率。這種策略的最大優(yōu)點是map階段較為簡單,通過將每個詞作為輸出基礎(chǔ)的同時,確?;A(chǔ)的準(zhǔn)確性與穩(wěn)定性。但是一旦出現(xiàn)一個詞在某個文檔中出現(xiàn)tf次時,就會促使文檔ID中的輸出次數(shù)轉(zhuǎn)變?yōu)閠f次。這樣一來就會促使map的數(shù)據(jù)不斷增加,因為語料庫中的每一個詞都會自動升恒一個文檔ID,所以當(dāng)map任務(wù)輸出在多數(shù)中間數(shù)據(jù)中時,這些中間數(shù)據(jù)就會被全面的保存在設(shè)備的本地磁盤C中,而后再通過傳輸?shù)姆绞絺鬏斀o更加合適reduce任務(wù)。大量的map中間數(shù)據(jù)會不斷增加map至reduce傳輸過程中所使用的網(wǎng)絡(luò)流量,同時還會最大幾率的延長排序階段,這些因素最終就會對實際執(zhí)行的時間造成影響【6】。
2、 聚類算法及Mapreduce
聚類算法屬于一種非監(jiān)督形式的學(xué)習(xí)方式,并且該種方式在多數(shù)應(yīng)用中已經(jīng)被基于廣泛的關(guān)注與重視,例如:數(shù)據(jù)挖掘、文檔搜索、模式識別、機器學(xué)習(xí)等。在處理大規(guī)模數(shù)據(jù)的過程匯總,傳統(tǒng)的串行聚類算法因速度較慢并且效率較低,就會導(dǎo)致無法充分滿足實際應(yīng)用的要求,這一因素也是導(dǎo)致大規(guī)模數(shù)據(jù)聚類成為一項具備較高挑戰(zhàn)性工作的主要原因,為了可以有效解決這一問題,就需要通過全面研究的方式,通過研究來設(shè)計出高效率、高質(zhì)量的并行聚類算法。Mapreduce編程模型作為一種具備較強分布式計算的亂加,其可以被廣泛應(yīng)用到數(shù)據(jù)聚類領(lǐng)域。通過實際研究可以充分實現(xiàn)基于Mapreduce的并行K-Means聚類,Map函數(shù)執(zhí)行每一個對象到距離自身最近的聚類中心程序,Reduce函數(shù)可以執(zhí)行更新聚類中心的程序。浙江大學(xué)的溫程在其說是學(xué)位論文中,充分研究出了兩種Mapreduce的聚類算法,分別是并行化譜聚類與并行化AP聚類。并行化譜聚類算法的主要策略是通過計算相似矩陣及稀疏化時根據(jù)數(shù)據(jù)點標(biāo)識展開切分;在計算特征向量時可以通過講拉普拉斯矩陣存儲到分布式文件系統(tǒng)HDFS上的方式,并通過分布式Lanczos來展開運算,最終得到并行計算的實際特征向量;當(dāng)通過特征向量的轉(zhuǎn)置矩陣采用并行K-means聚類時,可以得到準(zhǔn)確的聚類結(jié)果。并行化AP聚類的策略主要是先將吸引度矩陣與歸屬度矩陣分布式儲存在HB阿瑟上,將每次迭代中度吸引度矩陣與歸屬度矩陣的實際計算通過分割的方式展開,并使其矩陣制的實際運算根據(jù)行分布的多臺機器上展開運算【7】。
3、文本分類及Mapreduce
文本的分類是一種具備監(jiān)督設(shè)備學(xué)習(xí)的有效方式,其主要是基于文本中的內(nèi)容講待定的文本實際劃分到單一或多個預(yù)定的類別中。最初是由Google實驗室所提出的MapReduce秉性分布式計算模型,其主要是針對海量數(shù)據(jù)展開處理,網(wǎng)絡(luò)文檔屬于一個海量數(shù)據(jù)集,MapReduce編程模型更加適合對大型規(guī)模的網(wǎng)絡(luò)文檔自動分類工作。特征的選擇屬于文本分類中的一種預(yù)處理步驟,其可以充分提文本分類的有效性與效率,多數(shù)設(shè)備中的學(xué)習(xí)算法在多數(shù)程度上會受到來自文本特征選擇的影響,并且還會直接影響到文本分類的具體運行情況。大規(guī)模文本分類特征屬于一種高維度的問題,在并行執(zhí)行特征的選擇中可以充分實現(xiàn)并行化的運行,在實際研究的過程中可以通過并行運算的方式來提高統(tǒng)計特征的實際選擇效率。在實際運用余弦定理來計算文檔之間的相似度時,可以根據(jù)相似度對文檔展開分類,在計算文本相似度的過程中,TF-IDF(term frequency-inverse documet frequency)權(quán)重計算方式可以起到即為關(guān)鍵的作用。通常情況下TF-IDF會經(jīng)常性的被應(yīng)用到搜索引擎中,將其作為用戶與文件查詢之間的相關(guān)程度評級以及度量,但是因為實際計算量較大,就需要通過應(yīng)用Mapreduce來解決TF-IDF中存在的計量大且速度較慢等問題。在實際針對目前彈擊中較大的文本自動分類訓(xùn)練時,實際分類訓(xùn)練的時間較長,而在相關(guān)研究中的某種設(shè)計可以充分實現(xiàn)基于Mapreduce結(jié)構(gòu)框架的并行貝葉斯文本分類算法,并且可以充分運用三個Mapreduce過程來實現(xiàn)并行貝葉斯文本分類算法的訓(xùn)練。其中,在第一個Mapreduce過程中,每個mapper可以接受來自訓(xùn)練文檔中的部分?jǐn)?shù)據(jù)塊,并且其還可以根據(jù)實際訓(xùn)練快來計算出部分訓(xùn)練分檔中的詞頻以及文檔的書劉昂,reducer可以針對每個由mapper傳輸?shù)奈臋n展開計算與統(tǒng)計,并將其存儲至相關(guān)數(shù)據(jù)庫而后作為中間結(jié)果;在第二個Mapreduce過程中,每個mapper所接收的第一步Mapreduce所生成的中間數(shù)據(jù),通過詞頻的方式針對文檔展開特征方面的抽取,并將儲存后的數(shù)據(jù)作為中間數(shù)據(jù);在第三個Mapreduce過程中,每個由mapper所接收的第二步Mapreduce中間數(shù)據(jù),通過實際計算之后可以得出各類別的先驗概率,同事還可以通過文檔中的名詞特征來展開分析,最終就可以得到完整度較高的貝葉斯分類模型【8】。
結(jié)束語:
綜上所述,MapReduce自身屬于一種編程模型,其不僅能夠針對大量的信息數(shù)據(jù)展開有效處理,還能夠從大量的信息數(shù)據(jù)中及時找到最有價值的相關(guān)數(shù)據(jù)。在MapReduce這種編程模型中,將容錯、負(fù)載平衡、同步處理等相關(guān)技術(shù)中的難點與細(xì)節(jié)完全封裝,即使是自身缺乏開發(fā)相關(guān)系統(tǒng)經(jīng)驗的編程人員,也可以輕易的駕馭并應(yīng)用這種MapReduce模型。在如今時代下,這種MapReduce的相關(guān)原理已經(jīng)開始在社會各領(lǐng)域廣泛應(yīng)用,但如今針對MapReduce這種模型的主要研究幾乎都在其的實際應(yīng)用中,針對計算方式與實際效率等方面的優(yōu)化研究幾乎是少之又少,因此,就需要加強對于MapReduce計算方面的研究力度,從而為MapReduce的后續(xù)發(fā)展打下較為堅固的基礎(chǔ)。
【參考文獻】:
【1】 林奕歐, 雷航, 李曉瑜, et al. 自然語言處理中的深度學(xué)習(xí):方法及應(yīng)用[J]. 電子科技大學(xué)學(xué)報, 2017(06):115-121.
【2】 趙棟材, 周雁. 基于詞聯(lián)接的自然語言處理改進技術(shù)研究[J]. 計算機與網(wǎng)絡(luò), 2018, v.44;No.577(09):66-67+76.
【3】 馬媛媛, 史加榮. 卷積神經(jīng)網(wǎng)絡(luò)及其在手寫體數(shù)字識別中的應(yīng)用[J]. 湖北工程學(xué)院學(xué)報, 2017(06):68-74.
【4】 李楠. 基于自然語言處理的醫(yī)院智能客服系統(tǒng)的設(shè)計與研究[J]. 中國數(shù)字醫(yī)學(xué), 2017(8):85-87.
【5】 亢麗蕓, 王效岳, 白如江. MapReduce原理及其在自然語言處理中的應(yīng)用研究[J]. 情報科學(xué), 2014(5):120-126.
【6】 程興國, 肖南峰. 詞類共現(xiàn)頻率的MapReduce并行生成方法[J]. 重慶理工大學(xué)學(xué)報, 2013, 27(11):53-57.
【7】 李楠. 基于自然語言處理的醫(yī)院智能客服系統(tǒng)的設(shè)計與研究[J]. 中國數(shù)字醫(yī)學(xué), 2017(08):90-92.
【8】 段傳明. 傳統(tǒng)情感分類方法與基于深度學(xué)習(xí)的情感分類方法對比分析[J]. 軟件導(dǎo)刊, 2018(1):22-24.
作者簡介:姓名:李光遠(yuǎn) 性別:男 出生年月 1993.04.01 民族 漢 籍貫:河南 最高學(xué)歷:碩士在讀 研究方向:計算機應(yīng)用技術(shù)