Hadoop的專利現(xiàn)狀研究

2018-03-20 09:09成都柳沈知識(shí)產(chǎn)權(quán)服務(wù)有限公司王琦玥

電子世界 2018年4期

成都柳沈知識(shí)產(chǎn)權(quán)服務(wù)有限公司王琦玥

一、Hadoop概況

隨著計(jì)算機(jī)性能以及存儲(chǔ)能力的不斷增加，數(shù)據(jù)的產(chǎn)生以及獲取變得越來越容易。我們正處于一個(gè)數(shù)據(jù)爆炸的年代，然而面對(duì)海量的數(shù)據(jù)，如何通過計(jì)算機(jī)進(jìn)行分析從而利用真正有用的信息是現(xiàn)代社會(huì)急需解決的問題。Hadoop是目前最流行的共享存儲(chǔ)和分析系統(tǒng)，為高效正確的處理海量的Web數(shù)據(jù)提供了可能性。它通過HDFS實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)，然后通過MapReduce來實(shí)現(xiàn)數(shù)據(jù)的分析和處理，提高了數(shù)據(jù)的處理能力，并有機(jī)會(huì)針對(duì)海量的數(shù)據(jù)進(jìn)行分析與創(chuàng)新。目前公開的國內(nèi)外專利中與Hadoop技術(shù)相關(guān)的專利有11448篇，國內(nèi)專利有4816篇，大多數(shù)申請(qǐng)均集中在2013年-2017年間。目前，Hadoop已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域中，比如，醫(yī)療物聯(lián)網(wǎng)，電力物聯(lián)網(wǎng)，地理時(shí)空數(shù)據(jù)采集與預(yù)測(cè)，監(jiān)控?cái)?shù)據(jù)分析采集等，Hadoop為各個(gè)領(lǐng)域的數(shù)據(jù)挖掘提供了基礎(chǔ)的數(shù)據(jù)分析支持，給數(shù)據(jù)賦予了全新的意義。

二、Hadoop專利技術(shù)概況

1.概況

為了獲得用于Hadoop專利技術(shù)的相關(guān)情況，本文選擇Google Patent系統(tǒng)，選擇相關(guān)的關(guān)鍵詞，如云計(jì)算、Hadoop分布式文件系統(tǒng)、數(shù)據(jù)集、鍵值對(duì)、半結(jié)構(gòu)化數(shù)據(jù)、Hadoop、cloud computing、HDFS、clust+、mapper、unstructured data、MapReduce等關(guān)鍵詞，檢索Google Patent數(shù)據(jù)庫來獲得進(jìn)行統(tǒng)計(jì)分析的專利樣本。檢索的截止日期為2018年1月24日，由于未申請(qǐng)?zhí)崆肮_的發(fā)明專利申請(qǐng)通常在申請(qǐng)日之后18個(gè)月才公開，由此導(dǎo)致部分的專利申請(qǐng)由于未公開而不再本次文獻(xiàn)采集之列。

本章從Hadoop技術(shù)的分類、專利分布、主流技術(shù)發(fā)展等角度分析了Hadoop技術(shù)的技術(shù)演進(jìn)過程以及Hadoop的主要技術(shù)特點(diǎn)。

2.專利技術(shù)分類

與Hadoop相關(guān)的技術(shù)相關(guān)的工具構(gòu)成了Hadoop生態(tài)圈，各大工具從數(shù)據(jù)庫、存儲(chǔ)、管理、配置、一致性等方面對(duì)Hadoop進(jìn)行了相關(guān)的改進(jìn)。由于Hadoop技術(shù)的核心價(jià)值在于MapReduce和HDFS，這兩項(xiàng)技術(shù)使得Hadoop相比與其他的數(shù)據(jù)存儲(chǔ)分析系統(tǒng)具備了獨(dú)特的優(yōu)勢(shì)。下面就這兩方面進(jìn)行重點(diǎn)分析。

(1)MapReduce

在Google Patent專利庫中涉及到MapReduce的專利文件約8000篇，中國專利申請(qǐng)約3000篇。MapReduce是一種數(shù)據(jù)并行處理的編程模型，其將大規(guī)模的數(shù)據(jù)分析任務(wù)分發(fā)給擁有足夠多機(jī)器的數(shù)據(jù)中心，可以在很短的時(shí)間內(nèi)處理大規(guī)模數(shù)據(jù)集[1]。MapReduce相對(duì)于關(guān)系數(shù)據(jù)庫的優(yōu)勢(shì)是非常明顯的，它可以處理半結(jié)構(gòu)化的數(shù)據(jù)，并僅在處理數(shù)據(jù)時(shí)才對(duì)數(shù)據(jù)進(jìn)行解釋，即是是冗余或是不完整的數(shù)據(jù)也可以獲得可用的分析結(jié)果。MapReduce包括兩個(gè)處理階段，Map和Reduce。

Map（映射）是MapReduce中進(jìn)行數(shù)據(jù)處理的數(shù)據(jù)準(zhǔn)備階段，其主要目的是進(jìn)行數(shù)據(jù)的提取以及去除受損數(shù)據(jù)，為之后的數(shù)據(jù)優(yōu)化做準(zhǔn)備。在向中國專利局申請(qǐng)的專利中涉及到map函數(shù)的共2112篇，其主要改進(jìn)點(diǎn)在于針對(duì)冗余數(shù)據(jù)的處理、負(fù)載均衡、聚類與屬性約簡。由于原始數(shù)據(jù)的特性不同，有近四分之一的專利申請(qǐng)將mapper針對(duì)其應(yīng)用領(lǐng)域進(jìn)行了定制化的改進(jìn)，例如針對(duì)用電數(shù)據(jù)、行車記錄數(shù)據(jù)、物聯(lián)網(wǎng)、視頻數(shù)據(jù)使用特殊的聚類方式以及針對(duì)各個(gè)領(lǐng)域的特殊性建立與領(lǐng)域相適應(yīng)的聚類表。

圖1 Hadoop技術(shù)演進(jìn)年代圖

Reduce（歸約）的主要功能則在于將mapper的輸出作為輸入，進(jìn)行數(shù)據(jù)的合并，最后將數(shù)據(jù)寫入HDFS系統(tǒng)中。Reduce通常是基于數(shù)據(jù)分析的需求，進(jìn)而獲取與需求數(shù)據(jù)特征匹配的數(shù)據(jù)。在向中國專利局申請(qǐng)的專利中涉及到reduce函數(shù)共2774篇，其主要改進(jìn)點(diǎn)在于數(shù)據(jù)的分類與聚類以及冗余、錯(cuò)誤數(shù)據(jù)的清洗。由于Reduce函數(shù)是根據(jù)數(shù)據(jù)分析需求建立的，因此大約70%的專利均涉及了具體的數(shù)據(jù)類型的處理，例如針對(duì)人臉識(shí)別的圖像數(shù)據(jù)處理，針對(duì)用電量流量流向的分析處理等等。

(2)HDFS

在全球?qū)＠麕熘猩婕暗紿DFS的專利文件共4481篇，中國專利申請(qǐng)占2400項(xiàng)。HDFS作為Hadoop特有的分布式文件存儲(chǔ)系統(tǒng)，其具備超大文件、流式數(shù)據(jù)訪問、低時(shí)間延遲的數(shù)據(jù)訪問、支持多用戶寫入修改文件、以及將一個(gè)數(shù)據(jù)集分化為多個(gè)小文件等特性[1]。目前來看，近一半的Hadoop技術(shù)專利申請(qǐng)中涉及到HDFS系統(tǒng)。

HDFS通常具有兩類節(jié)點(diǎn)，namenode和datanode，分別在HDFS集群中擔(dān)任管理者和工作者的角色。Namenode管理以及維護(hù)文件系統(tǒng)的目錄，Dadanode則是文件系統(tǒng)的工作節(jié)點(diǎn)，定期向Namenode發(fā)送相應(yīng)的塊列表。在Google patent中涉及到這兩類節(jié)點(diǎn)的專利共723篇，其多數(shù)改進(jìn)在于故障修復(fù)，調(diào)度選擇，提高傳輸效率，完整性驗(yàn)證等等。

HDFS作為一種文件存儲(chǔ)系統(tǒng)，其演進(jìn)基本遵循存儲(chǔ)系統(tǒng)的改進(jìn)特點(diǎn)，基本針對(duì)輸入輸出的改進(jìn)、文件尋址索引、文件壓縮分片等方面進(jìn)行相應(yīng)的改進(jìn)，同時(shí)由于HDFS是一種典型的分布式結(jié)構(gòu)，因此針對(duì)各個(gè)文件的傳輸流程、傳輸方式的優(yōu)化也具備不錯(cuò)的應(yīng)用前景。目前HDFS在文件系統(tǒng)以及文件傳輸?shù)闹髁鞴ぞ甙ǎ篺lume、sqoop、distcp、avro、sequencefile、mapfile、fuse、blob、hbase等，在Google patent中涉及到這些工具的使用的中國專利文獻(xiàn)占HDFS相關(guān)文件的39%左右。

三、Hadoop專利技術(shù)發(fā)展演進(jìn)

從專利的角度進(jìn)行分析，Hadoop的專利申請(qǐng)中的技術(shù)特征也基本遵循著Hadoop技術(shù)的發(fā)展歷史路線，根據(jù)Google最初設(shè)計(jì)的MapReduce框架以及HDFS存儲(chǔ)結(jié)構(gòu)，針對(duì)資源/數(shù)據(jù)的在實(shí)際應(yīng)用中的各個(gè)層面進(jìn)行了相關(guān)的改進(jìn)。作為一個(gè)共享存儲(chǔ)和分析系統(tǒng)，針對(duì)該系統(tǒng)的改進(jìn)主要還是在數(shù)據(jù)管理（Data Management）、數(shù)據(jù)獲?。―ata Access）、數(shù)據(jù)處理（Data Processing）和數(shù)據(jù)存儲(chǔ)（Data Storage）這4個(gè)方面。圖1是根據(jù)技術(shù)分類表以及技術(shù)演進(jìn)方向做出的年代圖。

由上述技術(shù)演進(jìn)圖可以看到，目前Hadoop生態(tài)圈中主流的工具YARN、Hive以及Flume都能在公開的專利申請(qǐng)中找到其演變來源。

從HadoopV2中的YARN工具的發(fā)展分析，可以看到MapReduce框架的演變。目前MapReduce已經(jīng)從一個(gè)版本0.0的簡單的集中式集群構(gòu)架演變?yōu)榘姹?.0雙層調(diào)度架構(gòu)，將單一的Jobtracker分成三個(gè)不同的管理角色Resource Manager、Node Manager和Application Master，簡化了Jobtracker的任務(wù)，提高了集群規(guī)模，并易于擴(kuò)展。YARN的相關(guān)技術(shù)特征可以從亞馬遜公司獲得的兩篇公開號(hào)分別為US8260840B1和US9210048B1授權(quán)專利中一窺一二，這兩篇專利分別從MapReduce中集群節(jié)點(diǎn)的動(dòng)態(tài)任務(wù)調(diào)配和通過網(wǎng)絡(luò)流量調(diào)配節(jié)點(diǎn)之間的任務(wù)負(fù)載的角度去優(yōu)化MapReduce的框架，以實(shí)現(xiàn)各個(gè)節(jié)點(diǎn)的負(fù)載均衡。尤其在US8260840B1中指出，采用一種動(dòng)態(tài)決定集群的規(guī)模大小的框架，包括使用一部分節(jié)點(diǎn)作為核心節(jié)點(diǎn)參與任務(wù)的分配管理，另一部分節(jié)點(diǎn)作為輔助節(jié)點(diǎn)，可以進(jìn)一步提高集群的運(yùn)行速度。這兩篇專利的技術(shù)特征不僅體現(xiàn)在了工具YARN中，還應(yīng)用于亞馬遜公司EC2云計(jì)算體系里，為亞馬遜公司的發(fā)展帶來了巨大的經(jīng)濟(jì)利益?，F(xiàn)在YARN已經(jīng)從MapReduce的結(jié)構(gòu)中獨(dú)立出來，作為一個(gè)獨(dú)立的工具，使得MapReduce的工作更輕量。

Hive原本是Facebook構(gòu)建在Hadoop的數(shù)據(jù)倉庫框架，其設(shè)計(jì)目的是為了讓Hadoop精通SQL技能[1]，它目前成為了應(yīng)用于各種數(shù)據(jù)分析場(chǎng)景中的一個(gè)通用的、可伸縮的數(shù)據(jù)平臺(tái)。在Hive誕生之前，曾經(jīng)就有兩篇專利嘗試將SQL技術(shù)與Hadoop技術(shù)結(jié)合起來，它們分別是Yahoo！公司的US7921416B2和US8150723B2，它們嘗試將結(jié)構(gòu)化，正式化的SQL語言翻譯為可以被并行處理的語言，進(jìn)而將SQL語言準(zhǔn)確、冗余量少與Hadoop并行高速處理的特性，使得大量采用SQL搭建的數(shù)據(jù)庫也可以享受分布式運(yùn)算的優(yōu)點(diǎn)。進(jìn)一步，它們采取的方式是在SQL語言和可以被Hadoop處理的語言中建立一個(gè)新的綜合了聲明性和程序性的語言，以讓其支持多個(gè)數(shù)據(jù)表之間的協(xié)同工作，而在這兩篇專利中提到這種新型語言則演進(jìn)成Hive中的HiveQL語言，輔助Hive外殼環(huán)境和HDFS的交互。

Flume是cloudera提供的一個(gè)高可用、高可靠的開源分布式海量日志收集系統(tǒng)，日志數(shù)據(jù)可以經(jīng)過Flume流向需要存儲(chǔ)終端目的地[2]。關(guān)于日志數(shù)據(jù)收集早在2010年的專利US931772B2中提到，該授權(quán)專利就提出了需要對(duì)Hadoop集群中的各個(gè)節(jié)點(diǎn)進(jìn)行日志分析與收集，以便于監(jiān)控各個(gè)節(jié)點(diǎn)的狀態(tài)。Cloudera公司的重點(diǎn)專利US8880592B2則進(jìn)一步的在日志收集的基礎(chǔ)上，提出了部分日志的采集與更新，作為Hadoop的后臺(tái)進(jìn)行集群節(jié)點(diǎn)監(jiān)管的軟件，其性能得到了進(jìn)一步的提升。

四、總結(jié)

在Hadoop領(lǐng)域申請(qǐng)量排名靠前的國外主要申請(qǐng)人包括國家商業(yè)機(jī)器公司、威睿、雅虎、甲骨文、Cloudera等公司，主要涉及用于針對(duì)Hadoop系統(tǒng)的管理、配置、監(jiān)管和接入的相關(guān)改進(jìn)。國內(nèi)主要申請(qǐng)人包括南京大學(xué)、國家電網(wǎng)、華中科技大學(xué)。和國外相比，中國在Hadoop相關(guān)技術(shù)的申請(qǐng)主要是針對(duì)特定領(lǐng)域使用Hadoop技術(shù)，并根據(jù)該領(lǐng)域的特性，對(duì)Hadoop技術(shù)進(jìn)行定制化改進(jìn)，其主要的考慮還是希望通過專利的方式對(duì)相關(guān)產(chǎn)品（比如南京大學(xué)的醫(yī)藥軟件和國家電網(wǎng)的用電數(shù)據(jù)軟件）進(jìn)行保護(hù)。

本文對(duì)用于Hadoop專利技術(shù)進(jìn)行分析和整理，除了以上內(nèi)容，還關(guān)注了本領(lǐng)域的核心專利以及專利技術(shù)發(fā)展演進(jìn)路線，得出的結(jié)論對(duì)于相關(guān)公司的專利布局具有一定的參考意義。

[1]Tom White.Hadoop權(quán)威指南(第3版)[M].清華大學(xué)出版社,2010：19-23,49-50.

[2]http：//www.cnblogs.com/edisonchou/p/4445491.html,2017年7月24日訪問.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡