国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

廣電監(jiān)管數(shù)據(jù)資產(chǎn)管理系統(tǒng)的關(guān)鍵技術(shù)及實現(xiàn)

2019-08-28 07:12:12王洋
中國傳媒科技 2019年7期
關(guān)鍵詞:音視頻集群分布式

文/王洋

前言

廣播電視監(jiān)管事業(yè)經(jīng)歷了從模擬到數(shù)字、從地面到衛(wèi)星、從單機到網(wǎng)絡(luò)等一系列技術(shù)體系的重大變革,隨著技術(shù)的不斷發(fā)展,廣播電視節(jié)目的頻率數(shù)、頻道數(shù)、播出時長也在快速增加,開路電視、有線電視、衛(wèi)星電視、IPTV等多種傳輸方式也在快速出現(xiàn),因此,監(jiān)管工作所面臨的數(shù)據(jù)量在急劇膨脹,早期工作中是以結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)為主,主要是廣播電視節(jié)目在播出和傳輸過程中的相關(guān)技術(shù)性指標,廣播電視內(nèi)容以實時監(jiān)聽監(jiān)看為主,錄音錄像保存時間很有限。在過去的十幾年中,大規(guī)模海量數(shù)據(jù)的存儲和處理方案在商業(yè)公司和開源軟件社區(qū)中涌現(xiàn)出來,這源于互聯(lián)網(wǎng)的發(fā)展導(dǎo)致互聯(lián)網(wǎng)公司迫切需要發(fā)展適合于大數(shù)據(jù)環(huán)境下的全新技術(shù)體系,達到低成本、易擴展、并發(fā)性高、兼容不同類型數(shù)據(jù)的目的?,F(xiàn)實的應(yīng)用需求使得一些技術(shù)方案快速成熟,這樣就為廣播電視監(jiān)管工作提供了可行的解決方案,大量音視頻節(jié)目的存儲成為可能。與此同時,海量數(shù)據(jù)處理技術(shù)和分析技術(shù)的發(fā)展也能夠滿足不斷提升的監(jiān)管業(yè)務(wù)需求。

圖1 數(shù)據(jù)資產(chǎn)管理系統(tǒng)技術(shù)架構(gòu)圖

就目前來講,廣電監(jiān)管工作主要用到兩大類數(shù)據(jù),一類是對應(yīng)廣播電視節(jié)目的音視頻文件,另一類是相關(guān)監(jiān)管業(yè)務(wù)數(shù)據(jù),如廣播效果情況、電視節(jié)目播出表等,前者為非結(jié)構(gòu)化數(shù)據(jù),后者為結(jié)構(gòu)化數(shù)據(jù)。音視頻文件的存儲容量已經(jīng)達到PB級,每天的增量達到了TB級,包括了大部分的衛(wèi)星和有線廣播電視節(jié)目,由于存儲容量已達極限,需要定期從存儲中刪除舊的音視頻文件,業(yè)務(wù)數(shù)據(jù)雖然容量只是GB級,但某些數(shù)據(jù)增長快速,已經(jīng)達到億級的條目數(shù)。隨著以上兩類數(shù)據(jù)的積累,對數(shù)據(jù)存儲的擴展性和安全性要求逐漸提升,必須要在數(shù)據(jù)讀取性能和可靠性之間取得平衡,需要以較低成本較簡單的操作實現(xiàn)較高的并發(fā)訪問和分布式存儲。此外,海量數(shù)據(jù)帶來數(shù)據(jù)分析的需求,需要新的技術(shù)方案彌補現(xiàn)有系統(tǒng)數(shù)據(jù)倉庫能力不足的問題。最后,類似Oracle這樣的傳統(tǒng)商業(yè)型數(shù)據(jù)庫雖然能很好地滿足關(guān)系型數(shù)據(jù)管理和分析的需求,但使用成本較高,分布式架構(gòu)操作復(fù)雜,源代碼不開放,存在數(shù)據(jù)資產(chǎn)的安全性問題。綜上所述,我們需要針對音視頻文件和相關(guān)業(yè)務(wù)數(shù)據(jù)組成的數(shù)據(jù)資產(chǎn)管理需求,利用開源軟件社區(qū)的成熟大數(shù)據(jù)技術(shù)方案彌補已有技術(shù)體系的不足,實現(xiàn)性價比更高、更加安全的數(shù)據(jù)資產(chǎn)管理系統(tǒng)。

1.技術(shù)架構(gòu)介紹

各個監(jiān)管業(yè)務(wù)系統(tǒng)之間彼此封閉,每個系統(tǒng)內(nèi)形成封閉的回路,沒有達到有效的數(shù)據(jù)共享,因此,首先需要對數(shù)據(jù)進行有效整合,消除數(shù)據(jù)孤島,建立統(tǒng)一規(guī)范的數(shù)據(jù)標準,形成對數(shù)據(jù)的全景統(tǒng)計,在此基礎(chǔ)上開發(fā)可視化數(shù)據(jù)統(tǒng)計分析功能,實現(xiàn)對數(shù)據(jù)資產(chǎn)的準確掌握和有效管理,輔助建立跨系統(tǒng)、跨部門、跨地區(qū)的溝通協(xié)調(diào)機制。下圖是根據(jù)上述需求形成的技術(shù)架構(gòu)圖,目前已經(jīng)完全實現(xiàn)并正常運行。

下面一層是原有的數(shù)據(jù)存儲系統(tǒng),包括音視頻數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù),中間一層是以大數(shù)據(jù)一體機為形式的新系統(tǒng),包括用于存放音視頻文件的Hadoop平臺和存放文件元數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的MPP數(shù)據(jù)庫,基于這些數(shù)據(jù)建立數(shù)據(jù)資產(chǎn)管理系統(tǒng),包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)存量統(tǒng)計、數(shù)據(jù)增量統(tǒng)計、數(shù)據(jù)流量監(jiān)控、作業(yè)監(jiān)控等功能,這些功能經(jīng)過防火墻在上面一層呈現(xiàn)在用戶終端上。

集中存儲系統(tǒng)采用的是浪潮的Lustre系統(tǒng),存放著歷年的廣播電視節(jié)目音視頻文件,廣播數(shù)據(jù)庫是指廣播播出的技術(shù)性業(yè)務(wù)數(shù)據(jù),節(jié)目播出數(shù)據(jù)庫是指廣播電視節(jié)目編目數(shù)據(jù),中間庫是其他系統(tǒng)同步過來的技術(shù)性業(yè)務(wù)數(shù)據(jù),這三個數(shù)據(jù)庫均采用Oracle一體機,以RAC(Real Application Cluster)方式進行存儲。以上兩類數(shù)據(jù)經(jīng)過大數(shù)據(jù)一體機中的Hadoop軟件和ETL工具,實現(xiàn)了數(shù)據(jù)轉(zhuǎn)移和提取,形成數(shù)據(jù)資產(chǎn)管理系統(tǒng)可以直接利用的數(shù)據(jù)源。

2.關(guān)鍵技術(shù)及實現(xiàn)

圖2 數(shù)據(jù)資產(chǎn)管理系統(tǒng)軟件結(jié)構(gòu)圖

根據(jù)技術(shù)架構(gòu)的要求,我們接下來要決定采用哪些關(guān)鍵技術(shù)實現(xiàn)其中的數(shù)據(jù)同步、ETL等功能。下圖體現(xiàn)了不容軟件模塊之間的數(shù)據(jù)流向和用到的一些技術(shù)或產(chǎn)品。

集中存儲系統(tǒng)中的Lustre系統(tǒng)是一種基于Linux的開源分布式文件系統(tǒng),Lustre的最大特點是讀寫能力很強,特別是對于大文件,利用Stripe條帶化技術(shù)實現(xiàn)文件的并行訪問,元數(shù)據(jù)服務(wù)器存儲文件的元數(shù)據(jù)信息,對象存儲服務(wù)器用于存儲文件,Lustre的主要問題是對數(shù)據(jù)的保護比較差,底層的對象存儲結(jié)構(gòu)不支持數(shù)據(jù)的備份和回復(fù),另外,元數(shù)據(jù)存在單點故障的問題,采用了共享存儲層支持主備切換,一旦共享存儲層出現(xiàn)問題導(dǎo)致元數(shù)據(jù)無法訪問,進而影響整個系統(tǒng)。我們選擇了Hadoop 2.0來讀取和存放音視頻文件,HDFS支持多個副本在不同節(jié)點的存儲,可以實現(xiàn)數(shù)據(jù)的保護,并具有數(shù)據(jù)校驗的功能,文件的操作雖然不像Lustre支持POSIX接口,只能通過API實現(xiàn),讀取性能不如Lustre,但適合需要長期保存的文件以及建立數(shù)據(jù)倉庫。另外,HDFS生態(tài)環(huán)境非常豐富,有很多強大的開源框架可以使用,這一點要比Lustre好很多。在這個項目中我們使用了2個管理節(jié)點和20個數(shù)據(jù)節(jié)點,管理節(jié)點使用Zookeeper實現(xiàn)平臺集群的負載均衡,數(shù)據(jù)節(jié)點通過HDFS存放了數(shù)百TB的音視頻文件。

集中存儲系統(tǒng)文件信息讀取的接口采用MapReduce實現(xiàn),MapReduce程序?qū)写鎯ο到y(tǒng)的內(nèi)容進行解析,提取出集中存儲系統(tǒng)的音視頻文件的元數(shù)據(jù),并完成兩項任務(wù),一是將音視頻文件同步到大數(shù)據(jù)Hadoop平臺上;二是獲取到音視頻文件的屬性信息并同步到MPP數(shù)據(jù)庫中。數(shù)據(jù)同步管理策略包括文件同步和元數(shù)據(jù)同步兩個方面,元數(shù)據(jù)同步每15分鐘進行一次,主要是通過find命令查詢當天日期目錄下最近一個小時新增的文件,并將元數(shù)據(jù)保存到數(shù)據(jù)庫中。同步定時任務(wù)通過Linux的crontab命令實現(xiàn),元數(shù)據(jù)抽取的日志文件位于與jar包同級的logs文件夾里。文件同步每天晚上0點進行,根據(jù)數(shù)據(jù)庫中前一天的元數(shù)據(jù)信息,將前一天所有的文件復(fù)制到HDFS中,在主要文件完成之后根據(jù)文件增加情況和同步需求不定期執(zhí)行文件同步。

對于結(jié)構(gòu)化數(shù)據(jù)的存儲我們采用了基于MysSQL的MPP(Massively Parallel Processor)數(shù)據(jù)庫,MPP是大規(guī)模并行處理的意思,系統(tǒng)由很多松耦合處理單元組成,每個單元內(nèi)的CPU都有自己的私有資源,在每個單元內(nèi)都有操作系統(tǒng)和管理數(shù)據(jù)庫的實例副本。MPP架構(gòu)數(shù)據(jù)庫具有的特征是任務(wù)并行執(zhí)行、數(shù)據(jù)分布式存儲、分布式計算、私有資源、橫向擴展和Share Nothing架構(gòu)。橫向擴展是MPP數(shù)據(jù)庫的主要設(shè)計目標,MPP數(shù)據(jù)庫支持嚴格的關(guān)系模型,比如SQL92、加擴展、加存儲過程,支持事務(wù)、保證數(shù)據(jù)強一致性,所解決的問題包括提升數(shù)據(jù)處理性能和數(shù)據(jù)處理量。與各個節(jié)點使用自己私有資源的Shared Nothing架構(gòu)不同,原有數(shù)據(jù)庫采用的Oracle RAC屬于Shared Disk架構(gòu),各個節(jié)點使用自己的CPU和內(nèi)存,磁盤存儲共享,也就是數(shù)據(jù)共享,當存儲性能達到瓶頸時,增加節(jié)點便不能獲得并行能力的擴展,另外,Oracle RAC源代碼不開放,存放于Oracle一體機中,這種一體機價格較為昂貴。

MPP數(shù)據(jù)庫集群共有6個節(jié)點,共分為三類,即管理節(jié)點、數(shù)據(jù)節(jié)點和SQL節(jié)點。管理節(jié)點有2個,作用是管理集群內(nèi)的其他節(jié)點,如提供配置數(shù)據(jù)、啟動并停止節(jié)點、運行備份等,由于這類節(jié)點負責(zé)管理其他節(jié)點的配置,應(yīng)在啟動其他節(jié)點之前首先啟動這類節(jié)點,管理節(jié)點用命令ndb_mgmd啟動。數(shù)據(jù)節(jié)點有4個,用于保存集群中的數(shù)據(jù),數(shù)據(jù)節(jié)點的數(shù)目與副本的數(shù)目相關(guān),用命令ndbc啟動。SQL節(jié)點有4個,用于訪問集群數(shù)據(jù),通常SQL節(jié)點使用命令mysqld -ndbcluster啟動,或?qū)dbcluster添加到my.cnf后使用mysqld啟動。管理節(jié)點負責(zé)管理集群配置文件和集群日志,集群中的每個節(jié)點從管理節(jié)點檢索配置數(shù)據(jù),并請求確定管理節(jié)點所在位置,數(shù)據(jù)節(jié)點內(nèi)出現(xiàn)新的事件時,將關(guān)于這類時間的信息傳輸?shù)焦芾砉?jié)點,然后將這類信息寫入集群日志。

從Oracle RAC到MPP數(shù)據(jù)庫的ETL過程采用了開源ETL工具 Kettle,ETL即數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程,它是構(gòu)建數(shù)據(jù)倉庫的重要環(huán)節(jié)。傳統(tǒng)的ETL工具有集中執(zhí)行、對服務(wù)器性能要求高等缺點,針對這些缺點,本項目采用了一種基于分布式原理的ETL技術(shù),該系統(tǒng)在分布式文件系統(tǒng)基礎(chǔ)上實現(xiàn)了集群分布式ETL流程。該分布式ETL系統(tǒng)具有較高的可擴展性和吞吐效率,同時能夠自動實現(xiàn)負載均衡,執(zhí)行效率高。分布式ETL技術(shù)包括四個組件:Spoon、Pan、Chef、Kithcen。Spoon實現(xiàn)了通過圖形界面來設(shè)計ETL轉(zhuǎn)換過程,通過SPoon設(shè)計ETL工作的轉(zhuǎn)換和作業(yè),轉(zhuǎn)換定義了ETL抽取地源、目標和抽取規(guī)則,是ETL的主體,作業(yè)控制著轉(zhuǎn)換的執(zhí)行,Pan實現(xiàn)了批量運行由Spoon設(shè)計的ETL轉(zhuǎn)換;Pan是一個后臺執(zhí)行的程序,沒有圖形界面,Chef可以創(chuàng)建任務(wù),任務(wù)通過允許每個轉(zhuǎn)換、任務(wù)、腳本等,更有利于自動化更新數(shù)據(jù)倉庫的復(fù)雜工作,任務(wù)將會被檢查,看看是否正確地運行了;Kitchen允許你批量使用CHEF設(shè)計的任務(wù),例如使用一個時間調(diào)度器,Kitchen也是一個后臺運行的程序。分布式ETL集群共有8個節(jié)點,2個主節(jié)點和6個從節(jié)點。

結(jié)語

以上我們從業(yè)務(wù)發(fā)展的需要出發(fā),介紹了數(shù)據(jù)資產(chǎn)管理系統(tǒng)的技術(shù)架構(gòu)和關(guān)鍵技術(shù),以及一些具體的實現(xiàn)方式,經(jīng)過這個項目,音視頻和業(yè)務(wù)數(shù)據(jù)資源得到了整合,數(shù)據(jù)存儲容量更大并且更加安全,而且易于擴展,為進一步的數(shù)據(jù)挖掘工作奠定了良好的基礎(chǔ)。隨著大數(shù)據(jù)開源軟件社區(qū)新的成熟項目不斷出現(xiàn),數(shù)據(jù)資產(chǎn)管理系統(tǒng)可以充分融合新的工具實現(xiàn)功能的不斷增加。

猜你喜歡
音視頻集群分布式
海上小型無人機集群的反制裝備需求與應(yīng)對之策研究
3KB深圳市一禾音視頻科技有限公司
一種無人機集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計
電子制作(2018年11期)2018-08-04 03:25:40
WIFI音視頻信號傳輸?shù)年P(guān)鍵問題探究
電子制作(2018年12期)2018-08-01 00:48:06
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
Python與Spark集群在收費數(shù)據(jù)分析中的應(yīng)用
高速公路整合移動音視頻系統(tǒng)應(yīng)用
勤快又呆萌的集群機器人
基于DDS的分布式三維協(xié)同仿真研究
雷達與對抗(2015年3期)2015-12-09 02:38:50
北川| 威信县| 景德镇市| 剑川县| 佛山市| 来凤县| 化德县| 曲松县| 阿拉善盟| 山丹县| 蒙山县| 沈阳市| 咸宁市| 永德县| 容城县| 屏南县| 布尔津县| 沛县| 贞丰县| 西安市| 莆田市| 徐汇区| 阳原县| 历史| 昭通市| 错那县| 汝南县| 赣榆县| 鱼台县| 屯昌县| 芜湖县| 余庆县| 松溪县| 南涧| 溆浦县| 疏附县| 呈贡县| 临城县| 唐海县| 西乌珠穆沁旗| 阿克陶县|