国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的校園網(wǎng)視頻流量訪問偏好分析

2017-01-03 01:29:51許聞秋雒江濤楊軍超
關(guān)鍵詞:校園網(wǎng)流量用戶

許聞秋,雒江濤,楊軍超

(重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶400652)

基于Hadoop的校園網(wǎng)視頻流量訪問偏好分析

許聞秋,雒江濤,楊軍超

(重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶400652)

針對傳統(tǒng)視頻用戶訪問日志的偏好分析方法存在數(shù)據(jù)客觀性差和用戶關(guān)聯(lián)分析困難等問題,在傳統(tǒng)偏好分析方法的基礎(chǔ)上,面向互聯(lián)網(wǎng)數(shù)據(jù)原始流量,提出一種基于主流大數(shù)據(jù)平臺技術(shù)Hadoop的校園網(wǎng)視頻用戶訪問偏好分析方案。該方案利用網(wǎng)絡(luò)爬蟲和深度包檢測技術(shù),對視頻訪問內(nèi)容進行精細化識別,進而研究了校園網(wǎng)視頻流量的訪問偏好,并對比了MySQL和Hive的查詢效率。結(jié)果表明,文化層次的差異導(dǎo)致了視頻用戶群體的不同需求,低成本硬件環(huán)境下對大數(shù)據(jù)的處理Hive更顯健壯性。另外,該方案能穩(wěn)定可靠地實現(xiàn)對校園網(wǎng)視頻流量訪問的偏好分析,捕捉用戶網(wǎng)絡(luò)輿情,制訂定向營銷方案并提供個性化視頻推薦服務(wù)。經(jīng)現(xiàn)網(wǎng)測試驗證,設(shè)計的視頻訪問偏好分析方案達到了預(yù)期的效果。

校園網(wǎng)視頻;偏好分析;Hadoop;網(wǎng)絡(luò)爬蟲;深度包檢測

0 引 言

互聯(lián)網(wǎng)的發(fā)展使得視頻業(yè)務(wù)占據(jù)網(wǎng)絡(luò)流量的絕大部分,而通過視頻網(wǎng)站訪問視頻的方式逐漸成為主流[1]?;ヂ?lián)網(wǎng)視頻流量承載了視頻用戶的訪問數(shù)據(jù),對其深度挖掘是用戶偏好分析的一個有效途徑。同時,校園網(wǎng)視頻流量分析將對校園網(wǎng)絡(luò)維護、擁塞控制及用戶管理等領(lǐng)域帶來研究價值[2]。視頻訪問偏好分析將有助于捕捉用戶網(wǎng)絡(luò)輿情、制訂定向營銷方案,且為個性化視頻推薦提供依據(jù)。然而,以視頻用戶訪問日志為主的傳統(tǒng)偏好分析方法存在數(shù)據(jù)客觀性差,用戶關(guān)聯(lián)分析困難,用戶相關(guān)信息提取不易等問題。

結(jié)合深度包檢測(deep packet inspection,DPI)技術(shù)的流量識別方法有助于視頻用戶訪問偏好的分析,但精度不高。原因有:①傳統(tǒng)的數(shù)據(jù)挖掘算法對TB/PB量級的數(shù)據(jù)存儲和運算存在局限性;②視頻HTTP(hyper text transfer protocol)請求的統(tǒng)一資源定位符(uniform resource locator,URL)無法直接獲取視頻詳細信息[3-4]。為此,融合網(wǎng)絡(luò)爬蟲(web crawler)技術(shù)并建立視頻網(wǎng)站產(chǎn)品信息庫的視頻流量識別方法能提高分析精度。

本文面向互聯(lián)網(wǎng)流量數(shù)據(jù),基于Hadoop提出一種通過視頻流量識別與統(tǒng)計從而對用戶訪問偏好進行分析的方案;融合DPI及網(wǎng)絡(luò)爬蟲技術(shù),通過分析校園網(wǎng)實時流量,得到不同維度下的用戶訪問偏好,驗證方案可行性并提高分析精確度;與傳統(tǒng)數(shù)據(jù)庫方法對比,驗證了大數(shù)據(jù)下Hive的高效性;最后,本文為校園網(wǎng)流量監(jiān)管、擁塞控制,校園網(wǎng)用戶視頻推薦提供了依據(jù)。

1 相關(guān)工作

中國互聯(lián)網(wǎng)絡(luò)信息中心,通過計算機輔助電話訪問和抽樣調(diào)查的方法,調(diào)研了國內(nèi)網(wǎng)絡(luò)視頻的用戶規(guī)模及用戶行為[5]。但是,該方法對參與的人力物力資源配置要求較高,不易實現(xiàn)。艾瑞咨詢通過第3方監(jiān)測軟件iVideoTracker,收集固定樣本簽約用戶的網(wǎng)絡(luò)視頻行為日志,分析了國內(nèi)主流視頻媒體收視情況及收視人群分布[6]。但是,該方法所需的用戶視頻訪問日志不易獲取,且調(diào)研樣本單一,不具有普適性。

文獻[7]提出了一種在Hadoop下執(zhí)行解析IP(internet protocol),TCP(transmission control protocol),HTTP層MapReduce任務(wù)的網(wǎng)絡(luò)流量分析方案,驗證了Hadoop下流量分析的可行性。文獻[8]結(jié)合DPI技術(shù),提出了一種移動端視頻應(yīng)用用戶行為分析方案;文獻[9]通過對Web日志挖掘,提出了一種針對移動互聯(lián)網(wǎng)視頻用戶的流量分析方法;文獻[10]提出了一種考慮視頻用戶偏好的視頻內(nèi)容質(zhì)量評估方法。文獻[11]在Apache Pig,Apache Hive和MySQL集群下,分別對不同大小的數(shù)據(jù)集進行查詢效率測試,驗證了Hive方法的優(yōu)越性。然而,上述文獻卻存在用戶訪問信息及用戶偏好提取困難的問題。為此,文獻[12]進一步提出了基于Hadoop的電商網(wǎng)站流量識別與DPI系統(tǒng),對電商用戶的行為和偏好進行提取和分析。本文應(yīng)用主流的開源大數(shù)據(jù)平臺Hadoop,通過MapReduce提供的并行運算編程模型,Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)提供存儲基礎(chǔ),Hadoop的數(shù)據(jù)倉庫Hive實現(xiàn)統(tǒng)計分析[13-17]。結(jié)合視頻網(wǎng)站及用戶特點,提出了一個針對校園網(wǎng)視頻流量用戶訪問偏好的分析方案。

2 視頻流量訪問偏好分析方案

2.1 視頻流量識別和DPI

本文結(jié)合DPI及網(wǎng)絡(luò)爬蟲技術(shù),通過解析校園網(wǎng)視頻流量,識別視頻提供商及視頻類別,借助爬蟲建立的產(chǎn)品信息庫,確定視頻具體文件,統(tǒng)計分析視頻用戶訪問偏好。

2.1.1 視頻服務(wù)提供商識別

用戶通過視頻網(wǎng)站,向視頻服務(wù)提供商的服務(wù)器發(fā)送一次HTTP請求,服務(wù)器隨即回送響應(yīng),通過瀏覽器解析響應(yīng)中的HTML(hyper text mark-up language),得到相應(yīng)視頻網(wǎng)頁。本文通過解析網(wǎng)頁視頻請求流量,重組HTTP請求,提取視頻關(guān)鍵信息,從而實現(xiàn)視頻服務(wù)提供商的識別。

本文采用基于特征字匹配的DPI數(shù)據(jù)包解析方法,通過對在應(yīng)用層協(xié)議頭或應(yīng)用層負荷中特定位置的視頻特征字段的識別來實現(xiàn)對視頻業(yè)務(wù)數(shù)據(jù)包的檢測和解析,從而得到一個包含視頻特征字段與特征值的DPI視頻特征庫。其中,視頻特征值具體包括:數(shù)字特征值(視頻ID)、HTTP GET請求中的Host域名特征、Referer特征及URL等字符特征值。

以優(yōu)酷視頻的特征識別為例,當(dāng)用戶訪問某視頻時,Host域名(youku)和GET請求URI同時構(gòu)成了用戶視頻請求HTTP數(shù)據(jù)包中的Full Request,其中,URI則帶有視頻數(shù)字特征,即視頻ID。通過正則表達式匹配同時包含Host域名和帶有“/v_show”和“.html”的校園網(wǎng)用戶GET請求數(shù)據(jù)包,匹配Host字段,由此識別該視頻請求流量的服務(wù)提供商為優(yōu)酷網(wǎng)。

2.1.2 視頻訪問事件識別

本文應(yīng)用視頻網(wǎng)站爬蟲技術(shù),根據(jù)配置規(guī)則,定向抓取特定視頻網(wǎng)站資源,并把抓取結(jié)果存儲到視頻網(wǎng)站產(chǎn)品信息庫中。數(shù)據(jù)包解析得到視頻服務(wù)提供商信息和視頻ID,通過與視頻網(wǎng)站產(chǎn)品信息庫匹配,與對應(yīng)視頻文件建立映射關(guān)系。結(jié)果錄入數(shù)據(jù)庫,并將該視頻請求流量轉(zhuǎn)化為用戶的一次視頻訪問事件。

以優(yōu)酷網(wǎng)產(chǎn)品信息為例,表1是對優(yōu)酷網(wǎng)建立的產(chǎn)品信息表,包括:視頻網(wǎng)站、視頻ID、視頻名稱Name、視頻頻道、視頻二級頻道等信息。其余視頻類網(wǎng)站結(jié)構(gòu)及其分析過程與之類似。確認視頻文件后,得到視頻名稱,即“視頻Name”。與優(yōu)酷網(wǎng)產(chǎn)品信息表匹配,即可辨認對應(yīng)的視頻類別,其中包括:視頻頻道、二級頻道等相關(guān)信息。

表1 優(yōu)酷網(wǎng)產(chǎn)品信息

2.2 統(tǒng)計與偏好分析

2.2.1 流量識別與DPI

每條時間記錄下用戶視頻訪問事件的累計,能反映群體用戶的視頻偏好。因此,對校園網(wǎng)視頻用戶偏好的分析,通過對視頻流量的識別與DPI,最終被轉(zhuǎn)化為對視頻訪問事件的統(tǒng)計。

為了能直接統(tǒng)計解析后的網(wǎng)頁視頻請求流量,同時避免對數(shù)據(jù)庫的重復(fù)建表和海量數(shù)據(jù)操作,本文采用Hadoop生態(tài)系統(tǒng)中的數(shù)據(jù)倉庫Hive作為統(tǒng)計工具。解析后的校園網(wǎng)視頻流量直接存入HDFS,并建立元數(shù)據(jù)庫存入MySQL中,從而構(gòu)建數(shù)據(jù)映射關(guān)系。對Hive運行查詢語句(hive query language,HQL),快速簡單地實現(xiàn)MapReduce統(tǒng)計。整個分析過程,同時輸入MapReduce分布式運算模型,最終完成對校園網(wǎng)視頻用戶的偏好統(tǒng)計分析。

2.2.2 數(shù)據(jù)表建立

用戶視頻訪問事件以文本形式保存在HDFS中。其中,每行代表視頻訪問的一次記錄,每條記錄以行分隔符(“ ”)分隔,每條記錄中的各個字段以逗號(“,”)分隔。Hive通過元數(shù)據(jù)存儲機制,將HDFS中的文件映射到數(shù)據(jù)表中,數(shù)據(jù)表的信息即元數(shù)據(jù)(metadata),元數(shù)據(jù)存儲在底層關(guān)系型數(shù)據(jù)庫MySQL中。

鑒于Hive外部表的安全性,能避免誤操作所帶來的損失。本文通過EXTERNAL關(guān)鍵字來指定創(chuàng)建外部表;通過LOCATION關(guān)鍵字來指定表數(shù)據(jù)存放在HDFS中的位置;通過STORED AS TEXTFILE指定加載的文件數(shù)據(jù)是純文本格式;ROW FORMAT DELIMITED關(guān)鍵字設(shè)置創(chuàng)建的表加載數(shù)據(jù)時支持列分隔符;COMMENT關(guān)鍵字給字段和表注釋。在Hive中創(chuàng)建名為Video的數(shù)據(jù)庫,并創(chuàng)建外部表VideoTable描述視頻節(jié)目識別模塊得到的校園網(wǎng)用戶視頻訪問記錄。

2.2.3 用戶偏好統(tǒng)計分析

對不同性別的校園網(wǎng)視頻用戶進行不同維度的偏好統(tǒng)計。具體包括:不同性別用戶對主流視頻網(wǎng)站、頻道和節(jié)目的統(tǒng)計。根據(jù)統(tǒng)計結(jié)果,給出Top-N視頻推薦列表,并分析校園網(wǎng)流量視頻用戶的偏好。

2.3 MapReduce并行運算模型

圖1是MapReduce提供的并行編程運算模型,通過分發(fā)任務(wù),解析網(wǎng)絡(luò)視頻流量,完成校園網(wǎng)視頻用戶訪問偏好的統(tǒng)計和分析。

2.3.1 Job 1視頻服務(wù)提供商識別

從HDFS中讀取PcapIputFormat格式的Pcap數(shù)據(jù)包,同時,Map1的輸入為格式。其中,每個數(shù)據(jù)在文件中的偏移量為鍵,數(shù)據(jù)報文為值。通過視頻用戶HTTP請求內(nèi)容,得到五元組相關(guān)信息,其中包括:源IP地址、目的IP地址、源端口號、目的端口號、傳輸協(xié)議類型,用于判定是否來自同一個視頻請求數(shù)據(jù)流。重組用戶HTTP請求,提取用戶請求URL。采用正則匹配得到GET請求中同時包含的用戶視頻請求時間、請求端口號、網(wǎng)站Host以及視頻ID。形成以用戶視頻請求時間和端口號為key、以用戶請求Host和視頻ID為value的Reduce1輸出,其中,Host字段完成對視頻服務(wù)提供商的識別。

圖1 MapReduce編程模型Fig.1 MapReduce programming model

2.3.2 Job2視頻文件確定

通過視頻Host和ID,與視頻網(wǎng)站爬蟲信息庫進行匹配,確定視頻文件,包括:視頻名字Name、視頻頻道和視頻類型等。依據(jù)校園網(wǎng)規(guī)劃,宿舍樓棟號與網(wǎng)絡(luò)端口號一一對應(yīng),從而獲悉用戶性別信息。最終得到以用戶性別為key、以視頻對應(yīng)具體信息為value的Reduce2輸出。

2.3.3 統(tǒng)計與偏好分析

Hive將HQL轉(zhuǎn)化為對應(yīng)MapReduce任務(wù),查詢和統(tǒng)計HDFS中的數(shù)據(jù),最終實現(xiàn)校園網(wǎng)視頻用戶不同維度下的偏好統(tǒng)計及視頻Top-N推薦列表。

3 實驗結(jié)果與分析

3.1 實驗環(huán)境與數(shù)據(jù)采集

Hadoop集群實驗平臺搭建在單位網(wǎng)絡(luò)中心,該集群硬件配置:普通雙核CPU的PC機,其中一個NameNode配備8 GB內(nèi)存和500 GB硬盤,5個DataNode均配備4 GB內(nèi)存和500 GB硬盤,交換機連接各節(jié)點;軟件配置:Hadoop 1.1.2、Hive 0.9.0,MySQL 5.1.73和 JDK1.7.0_45。數(shù)據(jù)采集配置Hcap-224F千兆采集卡。

實驗隨機抽取校園內(nèi)5幢學(xué)生宿舍作為流量數(shù)據(jù)采集對象,對照校園網(wǎng)網(wǎng)管中心機房端口映射關(guān)系,將采集數(shù)據(jù)保存為pcap格式離線文件。數(shù)據(jù)采集時間從每天8:00—24:00,2013年12月9日至2013年12月12日,總計采集校園網(wǎng)流量數(shù)據(jù)2 020 GB。

3.2 實驗結(jié)果

3.2.1 校園網(wǎng)視頻訪問偏好分析

通過Hive統(tǒng)計不同維度下校園網(wǎng)視頻用戶的訪問偏好,與國內(nèi)同期發(fā)布的權(quán)威報告相關(guān)數(shù)據(jù)和結(jié)論對比,分析了校園網(wǎng)用戶的視頻偏好特點。

圖2是校園網(wǎng)用戶對主流視頻網(wǎng)站的偏好統(tǒng)計。男生偏好優(yōu)酷網(wǎng),其次是土豆網(wǎng)、搜狐網(wǎng)和樂視網(wǎng),最后是迅雷看看。女生同樣偏好優(yōu)酷網(wǎng),其次是搜狐網(wǎng)和樂視網(wǎng),二者幾乎持平,接著是愛奇藝,訪問量明顯高于男生,最后是迅雷看看。

圖2 視頻網(wǎng)站偏好統(tǒng)計Fig.2 Video website preference statistics

圖3是校園網(wǎng)用戶對視頻頻道的偏好統(tǒng)計。男生視頻頻道Top-5:生活、新聞資訊、娛樂音樂、原創(chuàng)和動漫;女生視頻頻道Top-5:電視劇、綜藝、教育、電影和動漫。區(qū)別于文獻[6]中電影、電視劇、綜藝節(jié)目名列前三的結(jié)果,反映了校園網(wǎng)視頻用戶對頻道選擇的差異性。

表2是校園網(wǎng)用戶對視頻節(jié)目的偏好的Top-10排序。文獻顯示國內(nèi)同期大眾視頻頻道偏好依次為:電視劇、電影、綜藝節(jié)目和動漫節(jié)目[1,5-6]。電視節(jié)目偏好依次為:劇情劇《大丈夫》、愛情劇《來自星星的你》和喜劇《天真遇到現(xiàn)實》。通過與校園網(wǎng)流量視頻用戶偏好分析對比,可以看出,由于受教育程度、文化水平、用戶年齡的不同,造成校園網(wǎng)用戶群體對視頻的偏好與需求的差異。校園網(wǎng)流量視頻用戶的偏好特征:首選優(yōu)酷網(wǎng),偏愛電視劇或綜藝節(jié)目,并且男女生反映出較大偏好差異。

圖3 視頻頻道偏好統(tǒng)計Fig.3 Video channels preference statistics

排序男生節(jié)目偏好女生節(jié)目偏好1永不磨滅的番號咱們結(jié)婚吧2萬萬沒想到爸爸去哪兒3最美的時光繼承者們4火影忍者妖精的尾巴5航海王女人幫妞兒6初代吸血鬼普通話朗讀作品7康熙來了最美的時光8My盛Lady極品女士9咱們結(jié)婚吧RunningMan10性愛大師聽見你的聲音

對群體用戶偏好和需求的分析,需要識別和統(tǒng)計群體內(nèi)各個用戶的特征。面向群體的不同興趣或偏好分布,不僅為用戶提供個性化服務(wù),還能為內(nèi)容提供商提供定向策略的依據(jù)。通過以上分析,驗證了本文所提方案對于視頻用戶訪問偏好深度挖掘的可行性和有效性。

3.2.2 Hive和MySQL查詢效率對比

查詢效率受3個方面影響:①數(shù)據(jù)集大小(有多少行);②查詢語句;③查詢平均時間。為驗證Hive統(tǒng)計在本文實驗環(huán)境下的高效性,本文設(shè)計以下實驗:利用3個不同大小的數(shù)據(jù)集,在相同MapReduce編程模型下,分別在Hive和MySQL上執(zhí)行相應(yīng)的7條查詢語句,每條查詢語句執(zhí)行5次并記錄平均執(zhí)行時間,對比查詢效率。

MySQL平均查詢時間隨著數(shù)據(jù)量的增長驟然增加。存儲引擎結(jié)構(gòu)以及查詢執(zhí)行機制從根本上限制了MySQL的查詢效率。MySQL通過主鍵方式訪問數(shù)據(jù),查詢語句執(zhí)行需要所有數(shù)據(jù)節(jié)點參與數(shù)據(jù)檢索。當(dāng)跨越數(shù)據(jù)節(jié)點訪問MySQL服務(wù)器和各表數(shù)據(jù)時,獲取所有數(shù)據(jù)節(jié)點數(shù)據(jù)會造成網(wǎng)絡(luò)接入延遲。

Hive查詢數(shù)據(jù)以分布式、cvs格式純文本文件存儲在HDFS中,不同于MySQL數(shù)據(jù)存儲于查詢機制,Hive只需對作為主鍵的元數(shù)據(jù)進行存儲調(diào)度,并指定文件存儲位置。查詢時僅讀取文件索引,而非整個文件,使Hive快速查詢得以實現(xiàn)。

圖4對比了MySQL和Hive的平均處理時間,數(shù)據(jù)量越大,MySQL占用內(nèi)存越多,處理效率越低。在本實驗環(huán)境下,約在69.6 MB數(shù)據(jù)量時,二者查詢效率出現(xiàn)轉(zhuǎn)折點,Hive逐漸顯現(xiàn)出查詢優(yōu)勢。驗證了在低成本硬件設(shè)備環(huán)境下,對于大數(shù)據(jù)的處理,Hive比MySQL的查詢效率更高、健壯性更好。

圖4 MySQL和Hive平均處理時間Fig.4 Mean processing time of MySQL and Hive

4 結(jié)束語

本文面向互聯(lián)網(wǎng)數(shù)據(jù)原始流量,提出了一個基于Hadoop的校園網(wǎng)視頻流量訪問偏好分析方案。它利用網(wǎng)絡(luò)爬蟲和深度包檢測技術(shù),完成了主流視頻網(wǎng)站產(chǎn)品信息庫的建立、視頻訪問事件特征提取和識別,最后利用Hive數(shù)據(jù)庫完成了偏好統(tǒng)計分析,并對MySQL和Hive查詢效率進行對比。結(jié)果表明,由于文化層次的差異,不同用戶群體的視頻需求存在較大的差異性;在低成本硬件設(shè)備環(huán)境下,對于大數(shù)據(jù)的處理,Hive比MySQL查詢效率更高,隨著數(shù)據(jù)量的增大,Hive有更好的健壯性。本方案能穩(wěn)定、可靠地實現(xiàn)校園網(wǎng)視頻流量訪問偏好分析,將有助于捕捉用戶網(wǎng)絡(luò)輿情、制定定向營銷方案以及提供個性推薦服務(wù)。

在未來實際應(yīng)用工作中,還可對硬件環(huán)境進行改善,執(zhí)行更復(fù)雜的查詢語句。對除MySQL外的關(guān)系型數(shù)據(jù)庫,如Oracle,聯(lián)合Hive,Pig等Hadoop統(tǒng)計模型,進行相關(guān)性能的測試,以便使分析結(jié)果更接近實際。

[1] 中國互聯(lián)網(wǎng)絡(luò)中心. 第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. [2015-07-01]. http://www.cnnic.net.cn/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf. CNNIC.The 36th Report of China Internet Network Development State Statistic[EB/OL].[2015-07-01].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.

[2] WU Haitao,FENG Zhenqian, GUO Chuanxiong, et al. ICTCP: Incast congestion control for TCP in data-center networks [J]. IEEE/ACM Transactions on Networking (TON), 2013, 21(2): 345-358.

[3] ZHAO D, TRAORE I, SAYED B, et al. Botnet detection based on traffic behavior analysis and flow intervals[J]. Computers & Security, 2013, 39: 2-16.

[4] RICHARD S W. TCP/IP Illustrated Volume 3: TCP for Transactions, HTTP, NNTP and the UNIX Domain Protocols [M]. USA: Addison-Wesley, 2002:129-165.

[5] 中國互聯(lián)網(wǎng)絡(luò)中心. 2013年中國網(wǎng)民網(wǎng)絡(luò)視頻應(yīng)用研究報告[EB/OL]. [2014-06-09]. http:// www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm. CNNIC. 2013 Study Report of Chinese Internet Video Network Users Applications[EB/OL]. [2014-06-09]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm.

[6] 艾瑞咨詢. iVideoTracker視頻媒體用戶行為分析報告[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml. I Research. IVideoTracker Video Media User Behavior Analysis Report[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml.

[7] LEE Yeonhee, LEE Youngseok. Toward scalable internet traffic measurement and analysis with hadoop [J]. ACM SIGCOMM Computer Communication Review,2013,43(1):5-13.

[8] FUKUMOTO Norihiro, ANO Shigehiro, GOTO Shigeki. A practical behavior analysis of video application users on smart phones[C]// Computer Software and Applications Conference (COMPSAC), 2013 IEEE 37th Annual. Kyoto: IEEE, 2013: 288-289.

[9] YAMAKAMI T. Mobile video user revisit analysis based on multi-day visiting patterns [C]// Advanced Communication Technology (ICACT), 2010 The 12th International Conference on. [s.L.]: IEEE, 2010, 2: 1435-1439.

[10] RODRIGUEZ D, ROSA R, ALFAIA Costa, et al. Video quality assessment in video streaming services considering user preference for video content [J]. Consumer Electronics, IEEE Transactions on, 2014, 60(3): 436-444.

[11] FUAD A, ERWIN A, IPUNGH H. Processing performance on Apache Pig, Apache Hive and MySQL cluster[C]// Information, Communication Technology and System (ICTS), 2014 International Conference on. Surabaya: IEEE, 2014: 297-302.

[12] LUO Jiangtao, LIANG Yan, GAO Wei, et al. Hadoop based Deep Packet Inspection system for traffic analysis of e-business websites[C]// Data Science and Advanced Analytics (DSAA), 2014 International Conference on. Shanghai:IEEE, 2014: 361-366.

[13] Apache. Hadoop[EB/OL]. [2015-09-30]. http://hadoop.apache.org.

[14] WHITE T. Hadoop: The definitive Guide. [M]. 2nd. USA: O’Reilly, 2012.

[15] LUO Yifeng, LUO Siqiang, GUAN Jihong, et al. A RAMCloud storage system based on HDFS: Architecture, implementation and evaluation [J]. The Journal of Systems and Software, 2013, 86(3): 744-750.

[16] Apache. Hive.[EB/OL]. [2015-10-01]. https://cwiki.apache.org/confluence/display/Hive/Home

[17] CAPRIOLO E, WAMPLER D, RUTBERGLEN J. Hive Programming [M]. USA: O’Reilly, 2013.

許聞秋(1990-),云南昆明人,女, 碩士研究生,主要研究方向網(wǎng)絡(luò)流量分類與識別、數(shù)據(jù)挖掘。E-mail:xuwenqiu_xenia@163.com。

雒江濤(1971-),男,教授/博導(dǎo),主要研究方向為新一代網(wǎng)絡(luò)技術(shù)和移動互聯(lián)網(wǎng)數(shù)據(jù)挖掘。E-mail:luojt@cqupt.edu.cn。 楊軍超(1988-),男,博士研究生,主要研究方向大數(shù)據(jù)。E-mail: 262256660@qq.com。

(編輯:魏琴芳)

Hadoop based analysis of access preference for campus video traffic

XU Wenqiu, LUO Jiangtao, YANG Junchao

(Electronic Information and Networking Research Institute, Chongqing University of Posts and Telecommunications,Chongqing 400065,P.R. China)

There are poor objectivity of data and difficult association analysis in traditional user preference analysis approach with video access log. To solve this problem, the Hadoop based scheme of video user access preference analysis in campus network is proposed by using the original traffic from internet in this paper. The scheme was designed to refine identification of video access content by using the technology of web crawler and deep packet inspection. And the access preference for campus video traffic is analyzed in further. The query efficiency was compared between MySQL and Hive at the same time. The results demonstrate that the difference level of culture leads to the variation of video needs among user groups, and under the low cost hardware environment, Hive is robust for the processing of large data. The scheme is stable and reliable to realize the analysis of access preference for campus video traffic, capturing user network public opinions, working out customized marketing plans and providing service of personalized video recommendation. Through testing in current network environment, the scheme of video user preference analysis proposed in this paper works well as what is expected.

campus network video; preference analysis; Hadoop; web crawler; deep packet inspection

10.3979/j.issn.1673-825X.2016.06.024

2015-09-23

2016-08-31

許聞秋 xuwenqiu_xenia@163.com

重慶市應(yīng)用開發(fā)計劃資助項目(cstc2013yykfA40006);2013重慶高校創(chuàng)新團隊建設(shè)計劃(KJTD201312)

Foundation Items:The Application Development Foundation Project of Chongqing (cstc2013yykfA40006); The Innovation Teams Building Program of Chongqing Universities in 2013 (KJTD201312)

TP391;TN929.5

A

1673-825X(2016)06-0897-06

猜你喜歡
校園網(wǎng)流量用戶
冰墩墩背后的流量密碼
玩具世界(2022年2期)2022-06-15 07:35:36
張曉明:流量決定勝負!三大流量高地裂變無限可能!
尋找書業(yè)新流量
出版人(2020年4期)2020-11-14 08:34:26
數(shù)字化校園網(wǎng)建設(shè)及運行的幾點思考
甘肅教育(2020年18期)2020-10-28 09:05:54
試論最大匹配算法在校園網(wǎng)信息提取中的應(yīng)用
電子制作(2019年10期)2019-06-17 11:45:26
NAT技術(shù)在校園網(wǎng)中的應(yīng)用
電子制作(2017年8期)2017-06-05 09:36:15
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
VPN在校園網(wǎng)中的集成應(yīng)用
宁陕县| 垫江县| 安泽县| 青冈县| 武川县| 盐源县| 南澳县| 河东区| 安顺市| 临朐县| 图木舒克市| 屯留县| 松滋市| 万盛区| 新巴尔虎左旗| 大厂| 临汾市| 抚松县| 宜兴市| 蚌埠市| 本溪市| 昔阳县| 武川县| 中卫市| 泌阳县| 安化县| 文水县| 施秉县| 昌乐县| 花莲市| 桃源县| 芮城县| 确山县| 抚宁县| 乐陵市| 怀来县| 沽源县| 金山区| 巴彦淖尔市| 铜陵市| 石景山区|