電子科技大學計算機科學與工程學院 成都 611731
“數(shù)據(jù)”這一抽象的概念在我們?nèi)粘I钸^程中發(fā)揮著至關(guān)重要的作用,從城市交通控制系統(tǒng)到空間站運行,從國家政策頒發(fā)到企業(yè)戰(zhàn)略制定,數(shù)據(jù)無時無刻不存在于人們的日常生活過程中,并且隨著科學技術(shù)的發(fā)展而不斷推層出新。隨著最近幾十年來的數(shù)據(jù)爆炸式增長,以數(shù)據(jù)為依托的新興產(chǎn)業(yè),如云計算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新技術(shù)和服務(wù)日益影響著人們的日常生活,大數(shù)據(jù)時代正在悄然降臨。在全球七大重點領(lǐng)域內(nèi)(包括教育、交通、消費、電力、能源、大健康以及金融),大數(shù)據(jù)的應用潛力高達上千億美元,相互之間以數(shù)據(jù)產(chǎn)品為中心的縱向結(jié)構(gòu)和以大數(shù)據(jù)相關(guān)技術(shù)為核心的橫向結(jié)構(gòu)不斷交錯形成新的價值鏈[1]。在這樣的背景之下,我國關(guān)于國民經(jīng)濟和社會發(fā)展的第十三個五年計劃綱要更指出,需要實施國家級大數(shù)據(jù)戰(zhàn)略,推進數(shù)據(jù)資源的開放共享。在此期間,大數(shù)據(jù)領(lǐng)域必將迎來建設(shè)和投資高峰。
將數(shù)據(jù)作為一種戰(zhàn)略資源,實現(xiàn)數(shù)據(jù)成為經(jīng)濟活動的主要承載者,需要著眼于大數(shù)據(jù)的生命周期和價值鏈條,而這其中主要涉及數(shù)據(jù)生成、獲取、存儲和分析四個階段。落實到具體的技術(shù)上,主要包括:1)通過大數(shù)據(jù)融合來解決數(shù)據(jù)本身的問題(包括數(shù)據(jù)量、數(shù)據(jù)類型和數(shù)據(jù)沖突等);2)通過軟件和硬件實現(xiàn)不同粒度的計算需求(包括存儲和計算硬件的發(fā)展和數(shù)據(jù)分析處理模型、架構(gòu)的設(shè)計等);3)從精度的角度更好地發(fā)現(xiàn)數(shù)據(jù)背后的價值(包括人機交互、機器智能等技術(shù)的發(fā)展)[2]。目前,大數(shù)據(jù)研究的三個重要方面主要包括基于Web的互聯(lián)網(wǎng)應用、社會計算以及基于行業(yè)應用的商務(wù)智能和海量數(shù)據(jù)管理服務(wù)。因此,本文立足于從軟件的角度出發(fā),通過對大數(shù)據(jù)融合、大數(shù)據(jù)分析、大數(shù)據(jù)處理平臺框架的闡述來介紹相關(guān)技術(shù)在當前背景之下的應用,并結(jié)合兩例大數(shù)據(jù)應用的具體實例,即某市醫(yī)?;鹗褂眯屎蜕贁?shù)民族語言翻譯與處理,從實踐價值的角度來闡述大數(shù)據(jù)應用的前景。
作為大數(shù)據(jù)的重要組成部分,數(shù)據(jù)融合最早產(chǎn)生于上世紀70年代,相關(guān)應用研究從最初的軍事領(lǐng)域逐步拓展到涵蓋資源管理、城市規(guī)劃、氣象預報等多個方面。根據(jù)定義,數(shù)據(jù)融合的過程需要實現(xiàn)對多個數(shù)據(jù)源信息的自動識別、連接、相關(guān)性分析和估計[3]。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)類型和維度都得到了極大豐富,挖掘并有效利用隱藏在海量數(shù)據(jù)下的信息成了企業(yè)發(fā)展和科技進步的必然趨勢,同時,這樣的需求也為大數(shù)據(jù)背景下進行數(shù)據(jù)融合帶來了諸多挑戰(zhàn)。
在大數(shù)據(jù)背景之下,數(shù)據(jù)的量(Volume)、多樣性(Variety)、高速變化(Velocity)的特點使得傳統(tǒng)數(shù)據(jù)融合工具越來越難以滿足應用的需要。目前,空間數(shù)據(jù)占了大數(shù)據(jù)比例的80%[4],在融合這一類數(shù)據(jù)的過程中,針對這些數(shù)據(jù)中的海量、多維度、多源頭、異構(gòu)、冗余性、動態(tài)性和稀疏性的特點,需要結(jié)合云計算、機器學習和人工智能等領(lǐng)域的方法,實現(xiàn)“數(shù)據(jù)——信息——知識——智慧”的轉(zhuǎn)變。其次,數(shù)據(jù)標準和傳輸模式的差異造就了“僵尸數(shù)據(jù)”和“信息孤島”[5],因而需要針對多源、異類和異構(gòu)的特點,對數(shù)據(jù)進行統(tǒng)一編目,其中主要包括數(shù)據(jù)接口定義、元數(shù)據(jù)格式以及數(shù)據(jù)編碼等內(nèi)容。再次,大數(shù)據(jù)融合需要聯(lián)系割裂的多源異構(gòu)數(shù)據(jù),平衡數(shù)據(jù)規(guī)模和數(shù)據(jù)價值的矛盾,并解決跨媒體和跨語言的關(guān)聯(lián)、實體與關(guān)系的動態(tài)演化等問題,其相關(guān)的研究內(nèi)容需要考慮如何加速融合效率、識別共同實體和連接關(guān)聯(lián)體,并針對沖突數(shù)據(jù)進行真?zhèn)舞b別、溯源和跟蹤[6]。此外,由于大數(shù)據(jù)異構(gòu)和缺乏對數(shù)據(jù)的統(tǒng)一管理,在融合的過程中,有必要建立信息標準體系以及信息訪問機制,重點解決數(shù)據(jù)共享請求與分析、數(shù)據(jù)并發(fā)與同步、互斥訪問控制等問題[5]。
作為一種跨學科多方向的交叉領(lǐng)域,大數(shù)據(jù)融合囊括了許多傳統(tǒng)科學(如數(shù)學、計算機、通信等)和新興技術(shù)領(lǐng)域(如人工智能、機器學習、模式識別等)[7]。根據(jù)大數(shù)據(jù)融合的基本步驟,可以將其大致分為預處理和數(shù)據(jù)融合兩部分。
數(shù)據(jù)預處理需要達到的目的是從原始數(shù)據(jù)中選取合適的屬性作為后期融合的屬性,這一過程需要盡可能賦予屬性名和屬性值明確的意義,統(tǒng)一多數(shù)據(jù)源的屬性值編碼,去除唯一屬性、重復字段和可忽略字段。這一過程中,為了降低原始數(shù)據(jù)中的噪聲(無用字段、冗余字段等),常用方法包括分箱、聚類、回歸分析。分箱方法是一種簡單常見的預處理方法,核心思想是按照屬性值劃分子區(qū)間,通過考察同一個子區(qū)間內(nèi)相鄰數(shù)據(jù)來確定最終的值。常見的分箱方法包括等深分箱法、等寬分箱法、最小熵法和用戶自定義區(qū)間法。聚類是依據(jù)對象特征屬性的距離來將一組對象按照距離指標劃分為特征相似的不同類別,并將孤立于所有類別的數(shù)據(jù)作為離群點(或噪聲)清除。其中常用的距離包括歐式距離、馬氏距離和其他根據(jù)特定場景定義的距離指標。常用聚類方法包括Kmeans[8]、分層聚類、兩步聚類和基于密度的聚類[9]等。回歸分析是指通過構(gòu)建相應的數(shù)學模型,從而用一個組函數(shù)關(guān)系來描述特征變量和目標變量之間的關(guān)聯(lián)關(guān)系,通常被用來做預測分析。常見的回歸分析方法按照回歸類型的不同可分為線性回歸和非線性回歸,涉及機器學習、統(tǒng)計學習和人工智能等多個領(lǐng)域,常見的方法包括SVM、人工神經(jīng)網(wǎng)絡(luò)、決策樹等。
通常進行融合之前的數(shù)據(jù)包含許多冗余信息,而在實際使用的過程只需要其中有用的部分,因此需要通過數(shù)據(jù)規(guī)約技術(shù),在不破壞數(shù)據(jù)完整性的同時,通過使用比原始數(shù)據(jù)規(guī)模更小的子集進行融合。目前常用的數(shù)據(jù)歸約方法包括數(shù)據(jù)立方體聚集、維度歸約、數(shù)據(jù)壓縮、數(shù)值壓縮、離散化和概念分層等。
目前,大數(shù)據(jù)融合依賴的技術(shù)包括假設(shè)檢驗、聚類分析、濾波跟蹤、機器學習等。其中,根據(jù)對數(shù)據(jù)處理方式的不同,又可以進一步分為像素級、特征級和決策級融合。隨著傳感器網(wǎng)絡(luò)和物聯(lián)網(wǎng)在大數(shù)據(jù)時代的發(fā)展,大數(shù)據(jù)融合還涉及同類及異類數(shù)據(jù)的融合。在這之中,常用的理論方法包括貝葉斯推理法、神經(jīng)網(wǎng)絡(luò)、Dempster-Shafer推理法、表決法等[10]。
大數(shù)據(jù)分析是從浩瀚、廣泛的數(shù)據(jù)中發(fā)現(xiàn)潛在的價值與規(guī)律。大數(shù)據(jù)分析技術(shù),不單是一個工業(yè)界的熱點,更是學術(shù)界的一個熱點研究方向,需要從理論與應用技術(shù)兩個層面進行研究。在學術(shù)研究領(lǐng)域,大數(shù)據(jù)分析是數(shù)據(jù)挖掘、機器學習、統(tǒng)計理論、復雜理論等多個學科知識相互交叉的前沿領(lǐng)域。在針對一個具體問題開展研究時,通常將問題分解為以下幾個步驟開展。
1)需求與問題的定義。在大數(shù)據(jù)時代中,對問題和需求的清楚定義顯得比任何時候都重要。針對具體的問題與需求,分析業(yè)務(wù)需求,清楚定義要解決的問題,才能從海量數(shù)據(jù)中提取出需要分析處理的數(shù)據(jù),從而建立基于清楚問題的有效的數(shù)據(jù)分析模型進行研究、分析數(shù)據(jù)中的隱藏價值。
2)數(shù)據(jù)的預處理。大數(shù)據(jù)分析技術(shù)關(guān)鍵的一步是數(shù)據(jù)的預處理、感知、融合、數(shù)據(jù)表示等[11]。預處理任務(wù)通常為描述數(shù)據(jù)、數(shù)據(jù)清理、數(shù)據(jù)集成和變換以及數(shù)據(jù)離散化和概念分層等[12]。隨著互聯(lián)網(wǎng)2.0時代的到來,數(shù)據(jù)的類型和種類也越來越豐富,數(shù)據(jù)融合就愈發(fā)顯得重要了。數(shù)據(jù)融合技術(shù)已經(jīng)成為當前學術(shù)界和工業(yè)界關(guān)注的一個熱點。
3)數(shù)據(jù)的深度理解。傳統(tǒng)的基于靜態(tài)、淺層特征對數(shù)據(jù)建模的方法,已經(jīng)無法適應大數(shù)據(jù)時代中數(shù)據(jù)挖掘分析任務(wù)對數(shù)據(jù)的需求。對數(shù)據(jù)內(nèi)容進行深層建模和語義理解,成為大數(shù)據(jù)分析技術(shù)中的難題。Web2.0時代大數(shù)據(jù)的種種特性又對數(shù)據(jù)的內(nèi)容建模和語義理解的深度、關(guān)聯(lián)性與準確性提出了更高的要求。因此,通過理論方法與關(guān)鍵技術(shù)層面結(jié)合大數(shù)據(jù)的特征,針對數(shù)據(jù)挖掘與分析的特征模型、內(nèi)容建模和語義理解三個方面展開研究,實現(xiàn)對數(shù)據(jù)的內(nèi)容理解及演變規(guī)律的把握[13]。
4)數(shù)據(jù)的深度解析、挖掘及復雜數(shù)據(jù)的計算模型。數(shù)據(jù)規(guī)模的爆發(fā)式增長、數(shù)據(jù)類型多樣、結(jié)構(gòu)復雜、數(shù)據(jù)維度高等特點導致傳統(tǒng)全量數(shù)據(jù)計算模式不再適用,數(shù)據(jù)計算基本模式面臨巨大挑戰(zhàn)[13]。如何應對大數(shù)據(jù)帶來的挑戰(zhàn),對數(shù)據(jù)進行深度解析、挖掘,并在此基礎(chǔ)上構(gòu)建有效的多類型復雜數(shù)據(jù)計算模型,成為大數(shù)據(jù)分析技術(shù)的核心問題。
5)驗證模型。傳統(tǒng)建立的分析模型都是針對小規(guī)模的數(shù)據(jù)集。針對海量數(shù)據(jù)的挑戰(zhàn),應建立適應大數(shù)據(jù)分析模型,并在小部分數(shù)據(jù)進行驗證與分析,檢驗模型是否能夠很好地解決問題,滿足需要也是驗證模型有效的一個方法。模型的驗證對模型的及時修改有著重要意義。
6)部署和更新模型。通過小規(guī)模數(shù)據(jù)對數(shù)據(jù)分析模型的驗證后,將模型部署更新在實際的大數(shù)據(jù)應用分析平臺上進行運營。當面對實際浩瀚的數(shù)據(jù)時,數(shù)據(jù)分析模型的有效性、實時性得到很好的驗證,處理的實效性、實時性等標準都是檢驗模型的重要指標。對模型的更新也是數(shù)據(jù)分析模型的一個重要任務(wù)。
數(shù)據(jù)的處理模型和分析技術(shù)是整個大數(shù)據(jù)分析技術(shù)的靈魂,下面簡要介紹目前常見、常用的幾種數(shù)據(jù)處理模型和數(shù)據(jù)分析技術(shù)。
常見數(shù)據(jù)處理模型:MapReduce是Google提出的一種分布式海量數(shù)據(jù)處理模型;Dryad是由微軟提出的一種集群環(huán)境下海量數(shù)據(jù)處理模型,Dryad是一個通用的粗顆粒度的分布式計算和資源調(diào)度引擎;Storm是一套分布式、高可靠性、高可容錯的流式數(shù)據(jù)處理系統(tǒng)。
批數(shù)據(jù)處理技術(shù):批量數(shù)據(jù)具有3個特征,數(shù)據(jù)體量巨大、精度較高、價值密度高[14]。針對批量數(shù)據(jù)特點,批處理技術(shù)適用于對實時性要求較低,數(shù)據(jù)需求量較大的數(shù)據(jù)分析任務(wù),是實行先存儲后分析的一種數(shù)據(jù)處理技術(shù)。
流處理技術(shù):是針對流數(shù)據(jù)的一種分布式、高可用、低延遲,具有自身容錯性的實時計算技術(shù)。針對流數(shù)據(jù)進行聚類,異常檢測,概念漂移的相關(guān)復雜的數(shù)據(jù)進行分析挖掘[15]。
近實時處理技術(shù):大數(shù)據(jù)分析技術(shù)另外一個重點是近實時性[16],數(shù)據(jù)的價值往往在較短的時間內(nèi),所以大數(shù)據(jù)分析技術(shù)對實時性的要求很高。目前常用的方式是通過在線學習,增量式學習等機器學習方法實現(xiàn)對實時數(shù)據(jù)的處理。這樣的好處是能夠?qū)δP瓦M行快速良好的更新與修正。
隨著大數(shù)據(jù)時代的到來,硬件、技術(shù)和數(shù)據(jù)的不斷進化,數(shù)據(jù)分析和處理的需求也從傳統(tǒng)的數(shù)據(jù)分析處理擴展到從海量的數(shù)據(jù)中快速獲取有價值的信息,并以此提供低延遲、高性能、高擴展的服務(wù)。目前行業(yè)內(nèi)主流的大數(shù)據(jù)平臺主要包括Cloudera、MapR、Hotonworks和Storm等。
Cloudera是基于Hadoop開源平臺開發(fā)的,定位于企業(yè)級數(shù)據(jù)分析處理的一款開源分布式平臺,其針對大數(shù)據(jù)中數(shù)據(jù)量龐大,分析過程漫長的問題,旨在加速數(shù)據(jù)分析過程[17]。Cloudera的核心部分由五個子系統(tǒng)構(gòu)成:Cloudera Manager(主要提供系統(tǒng)的管理、監(jiān)控、診斷和集成)、Cloudera CDH(Cloudera CDH作為分析處理的核心部分,是在Hadoop基礎(chǔ)上發(fā)展而來)、Cloudera Flume(Flume是一個高可靠、高可用、分布式的海量日志采集系統(tǒng))、Cloudera Impala(Impala為存儲在DFS、HBase的數(shù)據(jù)提供直接查詢互動的SQL)和Cloudera hue(Hue是cdh專門的一套Web管理器,它包括3個部分hue ui,hue server,hue db)[18]。目前,包括Csico、SanDisk、SAMSUNG等公司都已成為Cloudera的受益者,而包括Microsoft Azure、EMC、TCS等公司也開放自己的產(chǎn)品用于支持Cloudera[19]。
MapR是MapR Technologies Inc.旗下的一款產(chǎn)品,作為Hadoop的一個特殊版本,MapR極大地擴大了Hadoop的使用范圍和方式,解決了Hadoop面臨的種種問題。其設(shè)計思想可以概括為以下四點:首先,在元數(shù)據(jù)服務(wù)器的架構(gòu)上采用分布式取代集中式的方式,以期獲得良好的擴展性;其次,增加每個數(shù)據(jù)節(jié)點塊的數(shù)量以降低塊報告的大小;再次,進一步減小了查詢服務(wù)的內(nèi)存開銷;最后,服務(wù)能夠更加快速的重啟,從而實現(xiàn)服務(wù)的高可用性[20]。通過上面的思路,MapR的擴展性提高了4倍以上,系統(tǒng)文件的容量擴大了近100倍,而文件數(shù)量則提高了1 000倍左右。此外,MapR還支持諸如隨機讀寫、快照、鏡像等應用特性。
Hortonworks是由Yahoo和Benchmark Capital聯(lián)合創(chuàng)立的公司基于Apache Hadoop推出的數(shù)據(jù)分析平臺,提供大數(shù)據(jù)云存儲,大數(shù)據(jù)處理和分析等服務(wù)。該平臺專門用于應對多來源和多格式的數(shù)據(jù),并使其處理起來能變成簡單、更有成本效益,主要包括HortonworksDataFlow(收集、組織、整理和傳送來自于互聯(lián)網(wǎng)的實時數(shù)據(jù))和Hortonworks Data Platform(用于創(chuàng)建安全的企業(yè)數(shù)據(jù)池,提供實現(xiàn)快速實時的商業(yè)應用的分析信息)[21]。目前包括Microsoft、SAP、EMC等公司在內(nèi)都是Hortonworks的忠實客戶,其中Webtrends通過嘗試使用Hortonworks替換原有的存儲系統(tǒng),并通過使用Kafka信息隊列和處理腳本,能夠在20~40毫秒之間完成數(shù)據(jù)分析,而相應的硬件成本則降低了25%~50%[22]。
Storm最早起源于Nathan Marz及其小組BackType,作為一種流式數(shù)據(jù)處理框架,其支持mirco batch和streaming processing兩種方式來處理信息[23]。從處理邏輯上來看,Storm主要包含Spout(用于把流入平臺的數(shù)據(jù)封裝成平臺內(nèi)處理的stream)和bolts(對stream進行業(yè)務(wù)處理邏輯)兩部分內(nèi)容,任何作業(yè)都被抽象為一個或多個spout和多層bolt來完成。從體系結(jié)構(gòu)來看,Storm服從主從式的結(jié)構(gòu),其中Nimbus節(jié)點作為主節(jié)點負責作業(yè)的分配和調(diào)度,Supervisor作為從節(jié)點負責具體業(yè)務(wù)的執(zhí)行,而由Zookeeper集群負責兩者之間的協(xié)調(diào)。相較于同樣是主從結(jié)構(gòu)的Spark,Storm在數(shù)據(jù)的處理粒度上更小,并且因為數(shù)據(jù)傳輸方式的不同,能夠保證所有數(shù)據(jù)都被執(zhí)行,并且更加適合于實時的處理需求[24]。此外,Storm在支持增量計算的高速事件處理系統(tǒng)中表現(xiàn)尤為出色,可以在等待結(jié)果的同時進一步進行分布式計算。目前,國外包括Twitter、Yahoo、Spotify等公司都在其應用中使用了Storm,而國內(nèi)諸如百度、愛奇藝、淘寶網(wǎng)等耳熟能詳?shù)钠髽I(yè)也把Storm納入其產(chǎn)品體系內(nèi)[25]。
由電科軟信—電子科大聯(lián)合實驗室研發(fā)的大數(shù)據(jù)挖掘分析核心平臺,其核心功能是對結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進行預處理和挖掘分析。提供了完備的數(shù)據(jù)預處理、分類、聚類、識別、預測、評估驗證等功能模塊。基于該核心平臺,可快速完成面向特定領(lǐng)域、特定業(yè)務(wù)的產(chǎn)品定制設(shè)計與開發(fā)。該平臺包含如下子系統(tǒng)(如圖1)。
1)數(shù)據(jù)存儲中心:分布式文件系統(tǒng)HDFS和HBase。
2)ETL中心:面向數(shù)據(jù)源完成數(shù)據(jù)抽取、清洗和轉(zhuǎn)換及落地存儲處理,主要由Sqoop、Flume、Kettle組成。
3)數(shù)據(jù)分析處理系統(tǒng):提供批量處理和流式處理兩類計算模式,批量計算MapReduce為主,流式計算以Storm和Spark 為計算框架。
4)知識庫管理:對算法、數(shù)據(jù)模型和業(yè)務(wù)模型等進行統(tǒng)一管理,并面向批量、流式計算提供服務(wù)。
5)控制臺:負責必要的業(yè)務(wù)(流程)處理和展現(xiàn)處理,并按人員的角色進行功能分配,是人機操作的總控制臺。
該平臺能夠提供靈活的、可配置的算法、模型和數(shù)據(jù),以供不同行業(yè)的業(yè)務(wù)分析師針對差異化業(yè)務(wù)進行方案制定,快速形成具有個性化的行業(yè)產(chǎn)品。
圖1 大數(shù)據(jù)處理平臺邏輯結(jié)構(gòu)圖
借助于上述大數(shù)據(jù)挖掘分析核心平臺,針對某市2011~2015年的所有醫(yī)保數(shù)據(jù)(共計數(shù)百萬人,數(shù)十億條醫(yī)療報銷記錄,數(shù)據(jù)量達到TB級),我們進行了醫(yī)?;鹗褂眯史治雠c評價。
我們基于此醫(yī)保數(shù)據(jù),結(jié)合數(shù)據(jù)挖掘思想與傳統(tǒng)的醫(yī)療分析方法,完成了以下業(yè)務(wù)目標,從而為政策的制定和醫(yī)療機構(gòu)的質(zhì)量評價提供科學的依據(jù),
1)離群點分析:從報銷總費用和費用結(jié)構(gòu)的角度實現(xiàn)離群點分析和醫(yī)療費用結(jié)構(gòu)離群點分析。
2)醫(yī)保報銷費用決策:基于關(guān)聯(lián)規(guī)則算法和決策樹算法并結(jié)合現(xiàn)有報銷政策,建立醫(yī)保報銷費用決策模型,從而為醫(yī)保機構(gòu)合理付費提供科學依據(jù)。
3)醫(yī)療質(zhì)量評價:基于離群指標、病例優(yōu)良率、轉(zhuǎn)診路徑,再次入院間隔等指標,建立醫(yī)療質(zhì)量評價模型,得到各醫(yī)院的質(zhì)量評價分數(shù),完成對醫(yī)院進行醫(yī)療質(zhì)量評價分級,從而達到規(guī)范醫(yī)療機構(gòu)行為,促進醫(yī)療質(zhì)量提升的目的。
為促進民族團結(jié)和文化交流,我們對互聯(lián)網(wǎng)上可獲取的大規(guī)模雙語語料進行遍歷搜索抓取,利用大數(shù)據(jù)分析挖掘核心平臺實現(xiàn)了將少數(shù)民族語言翻譯成為漢語。
翻譯引擎采用基于統(tǒng)計的機器翻譯框架,通過對大規(guī)模平行語料進行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型;利用高效的搜索算法,根據(jù)待翻譯句子的上下文環(huán)境,找到最優(yōu)翻譯。
少數(shù)民族語言翻譯平臺分為三層:訓練層、解碼服務(wù)層和WEB層,其中訓練層包含用于訓練翻譯系統(tǒng)所需的語料庫和相關(guān)工具,解碼服務(wù)層包含了解碼器、短語翻譯概率表和語言模型等,WEB層除了提供用戶界面之外,還提供翻譯API,并在其中設(shè)計了任務(wù)調(diào)度、預處理和后處理功能。
1)訓練層:主要負責翻譯模型的訓練。共分為三步:目標語言模型訓練、翻譯模型訓練,翻譯模型調(diào)優(yōu)。執(zhí)行這三步之前需要對已獲取的大規(guī)模語料進行快速分詞,由源語言分詞模塊和目標語言分詞模塊完成;對于雙語語料,還需要對齊,這由對齊模塊完成。對于雙語語料,需要從中按一定概率隨機抽取一部分語料用于翻譯模型調(diào)優(yōu)。
2)解碼服務(wù)層:解碼器利用短語翻譯概率表、語言模型等來快速搜索最優(yōu)的譯文,其中解碼器是核心部件。
3)WEB層:提供友好的用戶界面供用戶使用本系統(tǒng)。同時,為了處理大規(guī)模的并行翻譯請求,平臺還增加了任務(wù)調(diào)度模塊。
本文主要從大數(shù)據(jù)分析的共性特點出發(fā),對數(shù)據(jù)融合與大數(shù)據(jù)分析的方法、類型、軟件平臺、應用案例進行了詳細闡述。
針對不同的業(yè)務(wù)領(lǐng)域,數(shù)據(jù)融合與分析的方法是不盡相同的,但總的來說都會經(jīng)歷相同的步驟。針對數(shù)據(jù)融合,不可避免的需要制定融合規(guī)則、數(shù)據(jù)預處理與數(shù)據(jù)整合。針對數(shù)據(jù)分析,需要經(jīng)歷業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準備、數(shù)學建模、模型評價與優(yōu)化部署六個階段。在不同的階段,必須借助或開發(fā)相應的軟件系統(tǒng)或算法模型完成自動化處理。
本文描述的技術(shù)路線,在實際的大數(shù)據(jù)分析應用中(某市醫(yī)?;鹗褂眯试u價與基于大數(shù)據(jù)的少數(shù)民族語言翻譯)得到了充分應用,實踐證明,這樣的技術(shù)路線是可行、高效的。
參考文獻
[1] "十三五"數(shù)據(jù)中國建設(shè)[EB/OL].[2016-07-09].http://www.ocn.com.cn/us/shujuzhongguo.html.
[2] 大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向(上)[E B/O L].(2015-9-9)[2016-07-09].http://www.cbdio.com/BigData/2015-09/09/content_3783903.htm
[3] 李靜,賈利民.數(shù)據(jù)融合綜述[J].交通標準化,2007(9):192-195
[4] 郭立群,母東升,張海,等.面向大數(shù)據(jù)時代的數(shù)據(jù)融合系統(tǒng)之空間數(shù)據(jù)挖掘、分析和改進[J].測繪與空間地理信息,2013(9):15-19
[5] 康瑛石,鄭子軍.大數(shù)據(jù)整合機制與信息共享服務(wù)實現(xiàn)[J].電信科學,2014(12):97-102
[6] 孟小峰,杜治娟.大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].計算機研究與發(fā)展, 2016, 53(2):231-246
[7] alazs J A, Velásquez J D. Opinion Mining and Information Fusion: A survey[J]. Information Fusion,2016, 27(C):95-110
[8] 高紅菊,劉艷哲,陳莎.基于改進K-means算法的WSN簇頭節(jié)點數(shù)據(jù)融合[J].農(nóng)業(yè)機械學報,2015(S1):162-167
[9] 萬樹平.多傳感器數(shù)據(jù)的聚類融合方法[J].系統(tǒng)工程理論與實踐,2008,28(5):131-135
[10] 馬雙鴿,王小燕,方匡南.大數(shù)據(jù)的整合分析方法[J].統(tǒng)計研究,2015, 32(11):3-11
[11] 李志杰,李元香,王峰,等.面向大數(shù)據(jù)分析的在線學習算法綜述[J].計算機研究與發(fā)展2015,52(8):1707-1721
[12] Jianqing Fan, Fang Han, Han Liu. Challenges of Big Data analysis[J].National Science Review,2014(3):293–314
[13] 靳小龍,王元卓,程學旗.大數(shù)據(jù)的研究體系與現(xiàn)狀[J].信息通信技術(shù),2013,7(6):35-43
[14] 程學旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學報,2014,25(9):1889-1908
[15] 崔星燦,禹曉輝,劉洋,等.分布式流處理技術(shù)綜述[J].計算機研究與發(fā)展,2015(5):318-332
[16] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計算機研究與發(fā)展,2015,52(2):333-342
[17] Cloudera[EB/OL].[2016-07-09].http://www.cloudera.com/
[18] 大數(shù)據(jù)架構(gòu)師基礎(chǔ):Hadoop家族,Cloudera系列產(chǎn)品介紹[EB/OL].[2016-07-09].http://www.36dsj.com/archives/17192
[19] Cloudera Wiki[EB/OL].[2016-07-09].https://en.wikipedia.org/wiki/Cloudera
[20] MapR公司與其產(chǎn)品MapR[EB/OL].(2013-1-3)[2016-07-09].http://www.caecp.cn/News/News-652.html
[21] Hortonworks[EB/OL].[2016-07-09].http://zh.hortonworks.com/products/.
[22] Hortonworks與其Hortonworks大數(shù)據(jù)平臺HDP[EB/OL].(2013-1-9)[2016-07-09].http://www.caecp.cn/News/News-650.html
[23] Storm (event processor).[EB/OL].[2016-07-09].https://en.wikipedia.org/wiki/Storm_(event_processor)
[24] Tony Sicilian. 流式大數(shù)據(jù)處理的三種框架:Storm,Spark和Samza[EB/OL].(2015-3-9)[2016-07-09].http://www.csdn.net/article/2015-03-09/2824135
[25] Storm[EB/OL].[2016-07-09].http://storm.apache.org