姜明 朱開誠 王興起
?
視頻網(wǎng)站熱門視頻快速發(fā)掘系統(tǒng)
姜明 朱開誠 王興起
杭州電子科技大學,浙江 杭州 310018
隨著互聯(lián)網(wǎng)視頻網(wǎng)站的蓬勃發(fā)展,觀看網(wǎng)絡視頻已經(jīng)成為了廣大網(wǎng)民日常生活的一部分。熱門視頻能夠為網(wǎng)站帶來巨大流量和經(jīng)濟效益。因此,如何快速發(fā)掘熱門視頻是一個新的研究熱點。根據(jù)中國最大的視頻分享網(wǎng)站優(yōu)酷網(wǎng)的特點,分析了影響熱點視頻的因素,在常規(guī)的熱點視頻發(fā)掘方法上加入了賬號質(zhì)量和話題熱度這兩個熱度計算參數(shù),根據(jù)這兩個參數(shù)設計了一個熱點視頻快速發(fā)掘系統(tǒng),并通過性能測驗證實了相比于傳統(tǒng)方法該系統(tǒng)能夠有效提高熱點視頻的發(fā)掘效率。
視頻網(wǎng)站;互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)各大視頻網(wǎng)站的發(fā)展,觀看網(wǎng)絡視頻已經(jīng)成為了中國網(wǎng)民日常生活的一部分?;ヂ?lián)網(wǎng)每天有數(shù)萬新視頻發(fā)布,視頻的播放量達到一定量就成了熱門視頻。熱門視頻是網(wǎng)民的關注點,往往會與網(wǎng)絡熱點事件相關。因此,設計一個快速發(fā)掘熱門視頻的系統(tǒng)有非常大的價值,一方面,熱點推送能快速抓住用戶的眼球,吸引大量網(wǎng)絡流量,為視頻網(wǎng)站推廣盈利帶來很大的效益;另一方面,擁有大量評論的熱門視頻能夠為網(wǎng)絡輿情的研究者提供更多的資源。
網(wǎng)絡熱點的特點是時效性強,互聯(lián)網(wǎng)每天都將產(chǎn)生新的熱點話題,而這些熱點話題存活的時間也短,很快網(wǎng)民的注意力會被新的話題所吸引,經(jīng)過我們的統(tǒng)計,不論視頻播放數(shù)量多高,到第三天,往往新增的播放數(shù)量就下降到比較低的水平,在第七天以后,總播放數(shù)量趨于平穩(wěn),每日播放量增量非常小。所以,熱門視頻要在視頻發(fā)布后一天內(nèi)就發(fā)掘出來進行監(jiān)控,排除熱度已經(jīng)下降到一定程度的視頻,預警可能成為熱點的視頻。
視頻播放量是視頻熱度計算的重要指標,對于視頻分享網(wǎng)站,一方面,因為有社交因素的存在,每個用戶新上傳的視頻首先會被推送到每個粉絲那里,粉絲們也會經(jīng)常性的收看自己訂閱的帳號的視頻,因此,我們認為一個帳號受關注的程度往往能對其上傳的視頻熱度產(chǎn)生影響;另一方面,社交網(wǎng)站往往存在熱點話題,多個相同主題的熱門視頻能夠聚合成熱點話題,那么如果新上傳的視頻與當前的熱點話題相關,那會對視頻熱度造成影響,所以我們要探究的第二個影響視頻熱度的因素是話題熱點。
我們在研究帳號與視頻播放量的關系時,根據(jù)帳號受歡迎的程度,提出來計算帳號的“質(zhì)量”,我們將計算一個帳號的平均總點擊量來判定一個帳號的質(zhì)量。計算公式是:
其中m表示該帳號的平均總播放量,C表示該帳號的總播放量,n表示該帳號的總視頻個數(shù)。我們對質(zhì)量較高的帳號建立“帳號質(zhì)量庫”。并對“帳號質(zhì)量庫”中的賬號賦予不同的值M。值M表示一個賬號的質(zhì)量,經(jīng)過計算,我們認為M值?。?/p>
(3-2)
m是公式3-1中的m值,T表示該帳號的粉絲數(shù),x為系數(shù),取值需要一定的實驗來確定。由于帳號質(zhì)量會隨著時間變化而變化,我們根據(jù)其變化幅度,認為每一個月更新一次賬號質(zhì)量庫比較合適。
熱門話題是指一段時間內(nèi)特別受人關注的事件,當一個事件成為熱門話題后,如果有新的與該話題有關的視頻出現(xiàn)時,會立刻吸引人們的觀看,這樣的視頻是潛在的熱門視頻候選,所以,我們在計算熱點的時候,可以將現(xiàn)有的熱點話題生成一個庫,話題熱度相應的提升視頻熱度。
這里,我們通過在視頻的名稱、標簽等文字信息中提取出關鍵字,使用了基于知網(wǎng)(Hownet)的同義詞詞林[1]來作為我們的聚類詞典,選擇將關鍵字通過向量空間模型[2]進行聚類,使用了增量組合與弱跟蹤器的組合方法[3]作為話題檢測跟蹤的方法,最后得出話題檢測的結(jié)果,形成一個話題熱度表,在熱度表中每一個話題有對應的熱度P,P是一個相對熱度值,P的取值在0~2之間,取0~1時表示話題熱度有所降低,取1~2時表示話題熱度有所提高,我們每一次數(shù)據(jù)更新都會同時來更新我們的話題熱度表,使其保持熱度準確性。
在研究視頻的熱度時,我們確定了影響視頻熱度的因素,在視頻網(wǎng)站,視頻播放量是最為明顯的判斷視頻熱度的因素,所以通常將視頻播放量作為視頻熱度計算的標準。常用的熱度計算標準是:
1)絕對熱度
絕對熱度表示到一時刻該視頻總的熱度值,其表達式為:
Ha=xV(3-1)
Ha 表示絕對熱度值,V 表示視頻點擊量x 表示系數(shù),為簡便,x取 0~1 之間。
2)相對熱度
由于絕對熱度只是一個總量值,不能體現(xiàn)熱度的變化情況,所以我們引入了相對熱度,其表達式為:
Hd 表示熱度在一段時間內(nèi)的變化率,數(shù)值越大,表示該視頻在某一時間段內(nèi)觀看數(shù)量越多,可以反映出熱度變化的情況;△Ha 表示兩個時刻的熱度變化差,△t表示間隔時間。
通過前面兩節(jié)的分析,我們加入了帳號質(zhì)量和話題熱度兩個參數(shù),因為帳號質(zhì)量相對在一定時間內(nèi)較為固定,所以作為絕對熱度參數(shù)計算,而話題熱度在一段時間內(nèi)變化較為平凡,所以作為相對熱度參數(shù),那么我們最終的熱度計算公式為:
其中HOT為熱度值,k為系數(shù),Ha為絕對熱度值,△t表示間隔時間,P表示話題熱度值,通過我們的計算,當kM取0到0.1之間,P取0到2之間時,預測效果比較好。
我們設計的模型總體框架如圖1所示,分為數(shù)據(jù)采集模塊、話題熱度模塊、熱點發(fā)掘模塊、數(shù)據(jù)顯示模塊。
圖1 ??
6.1 數(shù)據(jù)采集
數(shù)據(jù)采集模塊的核心功能是爬蟲程序,這個模塊的主要任務是分析網(wǎng)頁源碼,抓取網(wǎng)頁中有需要的信息,是系統(tǒng)數(shù)據(jù)的主要來源。種子網(wǎng)址指的是爬蟲的起始爬行地址,爬蟲任務的調(diào)度功能可以根據(jù)不同的需求開始、暫停、終止爬蟲程序,保證多個爬蟲同時進行。爬蟲每訪問一張頁面,就要對這張頁面的HTML源碼進行分析。將其中有用的數(shù)據(jù)根據(jù)我們的要求保存到數(shù)據(jù)庫中,同時標記已經(jīng)訪問過的網(wǎng)頁,每隔一定時間進行重爬獲取更新數(shù)據(jù)。
6.2 話題計算
話題計算模塊根據(jù)前面介紹的中文處理方法,將所有視頻內(nèi)容進行話題向量提取,然后通過話題聚類方法計算出話題的熱度,生成一份“話題熱度表”,話題熱度表包含了近期熱點詞匯,是如果新的視頻的內(nèi)容在話題熱度表中,那么相應的會提升視頻的熱度值,話題熱度表是一個動態(tài)的,通過已有的熱點發(fā)現(xiàn)新的潛在熱門視頻,通過新的視頻關鍵詞生更新熱點詞匯表,計算話題的熱度變化。
6.3 熱點發(fā)掘
熱點發(fā)掘模塊的功能就是發(fā)掘新視頻中潛在的可能成為熱門的視頻。新的視頻會根據(jù)基礎播放數(shù)量、話題熱度、和帳號質(zhì)量得到一個初始熱度,然后每過一定的時間更新視頻的播放數(shù)量,并計算出其熱度,當熱度值達到我們預設的閥值后,就將其列入疑似熱點視頻進行跟蹤。
帳號質(zhì)量庫記錄了帳號的質(zhì)量,如果新視頻由帳號質(zhì)量庫的帳號提供,那么其熱點會根據(jù)帳號的熱度值相應的提升熱點水平。熱門帳號庫每月會自動更新一次,來確保帳號質(zhì)量的可靠性。
6.4 結(jié)果顯示
顯示模塊會顯示在一段時間內(nèi)的熱門視頻排行、每個熱點視頻的詳細信息。同時對疑似熱門視頻進行預警,在結(jié)果顯示模塊體現(xiàn)了所有需要觀察的數(shù)據(jù)。我們可以通過檢索和統(tǒng)計功能來進一步分析熱門視頻的相關信息。
我們通過對優(yōu)酷網(wǎng)資訊類欄目新上傳的視頻進行四個小時的抓取,然后對抓取的每個視頻進行二十四小時的跟蹤,同時,我們設置一個對比組,在不加入話題熱度參數(shù)和帳號質(zhì)量參數(shù)的情況下進行熱度計算,當播放量大于10000時進行預警。最終實驗得出加入了參數(shù)的熱度計算在預測效率上提高了22%。同時,熱門視頻的召回率為100%,證實了我們的模型的可靠性和高效性。
本文我們具體討論了帳號質(zhì)量和話題熱度兩個影響視頻熱度的因素,通過實驗比較證實了在熱門視頻發(fā)掘階段這兩個參數(shù)對發(fā)掘效率的正面影響。最終我們設計出來的系統(tǒng)能夠有效的進行熱門視頻的發(fā)掘,在接下去的工作中,我們可以對系統(tǒng)進行拓展,來滿足更多的需求。
[1]熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計算機工程與應用,2008(22):143-145.
[2]姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海交通大學,2008.
[3]祁磊.話題檢測與跟蹤及趨勢預測研究[D].杭州電子科技大學,2014.
TP311.52
A
1009-6434(2016)01-0057-02