国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

影視節(jié)目扁平化標簽獲取技術(shù)研究

2019-10-11 11:24:36殷復蓮徐榮閣劉志心冀美琪
軟件導刊 2019年7期

殷復蓮 徐榮閣 劉志心 冀美琪

摘 要:針對影視節(jié)目標簽手動采集費時費力,以及傳統(tǒng)樹狀標簽體系信息冗余且不全面等問題,提出一種標簽自動獲取技術(shù)。通過數(shù)據(jù)爬取技術(shù)采集與節(jié)目相關(guān)的互聯(lián)網(wǎng)原始數(shù)據(jù),然后通過文本分析、同義匹配、數(shù)據(jù)庫匹配等技術(shù)進行數(shù)據(jù)分析與挖掘,最終實現(xiàn)對扁平化節(jié)目標簽的獲取。實驗結(jié)果表明,在選取8~10個標簽時,該算法準確率為84.3%~ 92.4%,召回率為53.4%~ 63.1%,說明該算法獲取的標簽能夠很好地對影視節(jié)目進行描述。

關(guān)鍵詞:扁平化標簽;標簽自動獲取;Web自動信息采集;標簽庫匹配

DOI:10. 11907/rjdk. 182739 開放科學(資源服務)標識碼(OSID):

中圖分類號:TP319文獻標識碼:A 文章編號:1672-7800(2019)007-0150-04

Research on the Acquisition Technology of Film and Television Program Flat Tags

YIN Fu-lian,XU Ronge-ge,LIU Zhi-xin,JI Mei-qi

(School of Information and Communication Engineering, Communication University of China, Beijing 100024, China)

Abstract: This paper proposes an automatic tag acquisition technology for the which is time-consuming and labor-intensive manual collection of film and television program tags and the information redundancy and incompleteness of the traditional tree tag system. Our research collects the original Internet data related to the program through data crawling technology, and then analyzes and mines the data through text analysis, synonym matching, database matching and other technologies. Finally we achieve the acquisition of flat program tags. The experimental results show that the accuracy of this algorithm is 84.3%~92.4% when 8-10 labels are selected, and the recall rate is 53.4%~63.1%. This proves that the label obtained by the algorithm in this paper can describe a program well.

Key Words: flattened tag; automatic tag acquisition; Web automatic information collection; tag library matching

基金項目:國家自然科學基金項目(61801441);國家級大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目(JG18110205)

作者簡介:殷復蓮(1982-),女,博士,中國傳媒大學信息與通信工程學院副教授、碩士生導師,研究方向為大數(shù)據(jù)、數(shù)據(jù)分析與挖掘技術(shù);徐榮閣(1996-),男,中國傳媒大學信息與通信工程學院學生,研究方向為數(shù)字媒體技術(shù);劉志心(1996-),女,中國傳媒大學信息與通信工程學院學生,研究方向為數(shù)字媒體技術(shù);冀美琪(1998-),女,中國傳媒大學信息與通信工程學院學生,研究方向為數(shù)字媒體技術(shù)。

0 引言

如今隨著大眾審美觀的不斷變化,涌現(xiàn)出大量新類型與題材的影視節(jié)目。與此同時,人們的需求也變得越來越個性化,因此很多節(jié)目類型不能再被簡單歸為某一類,而往往是多種形式的雜糅和變異。對節(jié)目進行全方位的信息采集與分析才能夠更加準確、完整地描述一個節(jié)目,使觀眾可以更直觀地進行選擇,同時也能讓節(jié)目發(fā)布方對節(jié)目有更加全面的認識,從而方便管理與運營。

近年來,互聯(lián)網(wǎng)的迅速發(fā)展致使數(shù)據(jù)規(guī)模不斷擴大,人們越來越依賴互聯(lián)網(wǎng)獲取信息,因此Web數(shù)據(jù)挖掘、信息采集和管理技術(shù)也得到了快速發(fā)展[1-2]。Web信息采集通常分為基于整個Web的信息采集、增量式Web信息采集、基于主題的Web信息采集等類別[3-5]。目前,國內(nèi)相關(guān)研究主要集中在以下方面:面向主題的Web信息采集、個性化Web信息采集、分布式Web信息采集、基于元搜索的Web信息采集與多技術(shù)結(jié)合的Web信息采集[6]。國外則主要是發(fā)展基于全采集策略、基于選擇性采集策略與基于聯(lián)合采集策略的項目等[7]。其中,信息采集是指采集指定網(wǎng)站中的特定信息,通過模擬用戶正常瀏覽行為并設(shè)置一定規(guī)則,從而獲取Web頁面指定信息[8]。其采集的最終結(jié)果不再是頁面,而是深入到站點或頁面內(nèi)部,獲取信息并保存到用戶指定的數(shù)據(jù)庫中[9-11]。信息自動采集既能節(jié)省時間,又能得到相對準確的結(jié)果,因此很多學者針對該技術(shù)在各領(lǐng)域的應用進行了研究[12-13]。如在新聞自動采集方面,為了保證新聞發(fā)布的時效性,張一睿[14] 、戚揚[15]提出通過綜合利用動態(tài)服務器頁面(Active Server Pages,ASP)、Java服務器頁面(JavaServer Pages,JSP)等技術(shù)對用戶指定網(wǎng)站區(qū)域下的Web新聞網(wǎng)頁進行自動抓取,經(jīng)解析、消重、分類處理后保存到新聞網(wǎng)站數(shù)據(jù)庫中,即可24小時自動采集并發(fā)布新聞;馬凱[16]采用模塊化技術(shù)構(gòu)建一種特定領(lǐng)域的Web信息集成系統(tǒng),通過用戶提供的關(guān)鍵詞,結(jié)合人工篩選進行關(guān)鍵詞擴展,對全網(wǎng)相關(guān)新聞、微博數(shù)據(jù)進行采集與抽取。針對小企業(yè)的信息采集問題,趙紅艷[17]提出利用自動信息采集系統(tǒng)從鏈接地址頁面中提取目標網(wǎng)頁URL地址與相應企業(yè)名稱,并從URL地址對應的詳細信息頁面中提取具體企業(yè)信息。在輿情采集、網(wǎng)絡(luò)爬蟲方面,國內(nèi)如周劍[18]、湯露陽[19]、李曉偉[20]應用自動采集技術(shù)進行網(wǎng)絡(luò)爬蟲、數(shù)據(jù)融合與文本情感分析等,實現(xiàn)了面向Web輿情評價信息的采集與分析系統(tǒng);王仕艷[21]、熊暢[22]采用的數(shù)據(jù)采集技術(shù)主要是從Web上獲取網(wǎng)站網(wǎng)頁,通過既定規(guī)則自動抓取整個網(wǎng)頁信息,并將其保存在文檔中,同時將文檔中的信息提取出來。國外研究則側(cè)重于高性能Web爬蟲程序的體系結(jié)構(gòu)與實現(xiàn)、協(xié)作Web爬蟲、深層Web爬蟲、多媒體內(nèi)容爬蟲以及Web爬蟲研究未來方向5個主題[23]。

總體上看,Web信息采集技術(shù)正逐漸向高性能、專業(yè)化、智能化、個性化方向發(fā)展。但由于網(wǎng)絡(luò)信息資源的迅猛增長,現(xiàn)有技術(shù)仍存在一些待改進之處,比如信息采集需要更加個性化,在多個平臺采集時需要進行網(wǎng)頁預處理,以達到網(wǎng)頁去重的效果等。

本文在以上技術(shù)基礎(chǔ)上進行創(chuàng)新,將自動采集技術(shù)應用于影視節(jié)目標簽獲取。與已有技術(shù)不同的是,本文在對不同平臺進行信息采集時,沒有使用保存整個網(wǎng)頁信息的方法,而是采用一定規(guī)則提取所需內(nèi)容,從而提高了采集效率。同時,本文采集的節(jié)目信息不是由單一平臺產(chǎn)生的,而是源自很多不同的互聯(lián)網(wǎng)平臺。本次研究還利用中文近義詞匹配技術(shù),并采用課題組的扁平化節(jié)目標簽體系得到扁平化的節(jié)目標簽,從而對影視節(jié)目進行更加準確、有效的描述[24]。

1 扁平化標簽體系

本文將扁平化結(jié)構(gòu)應用于影視節(jié)目分類的標簽體系中,通過減少原有樹形標簽體系帶來的大量冗余,使不同維度的領(lǐng)域標簽、形態(tài)標簽以及內(nèi)容標簽可以同等權(quán)重賦予同一節(jié)目,不僅可以簡化現(xiàn)有復雜的影視節(jié)目標簽體系,還可以實現(xiàn)對多元化影視節(jié)目進行快速、高效的分類。

本文采取課題組的扁平化節(jié)目標簽體系,將節(jié)目標簽分為三大維度,即領(lǐng)域、形態(tài)、內(nèi)容[24],整個體系如圖1所示。然后根據(jù)三大維度將標簽分為內(nèi)容、類型、時間、評分4類。內(nèi)容標簽根據(jù)影視節(jié)目選題范圍和制作信息提煉出標簽,分為背景、題材、基調(diào)、元素、人物、主旨、導演、演員;類型標簽主要根據(jù)影視劇的領(lǐng)域進行劃分,分為形式和產(chǎn)地兩種;時間標簽根據(jù)影視劇上映日期進行劃分,如:2018年、2017年、90年代等;評分標簽根據(jù)國內(nèi)評分可信度較高的豆瓣平臺上該影視節(jié)目的得分制作而成。

圖1 電視節(jié)目扁平化標簽體系

2 扁平化標簽自動獲取方案及關(guān)鍵技術(shù)

本文所涉及的標簽獲取流程如圖2所示,分為數(shù)據(jù)采集、數(shù)據(jù)處理與標簽扁平化3部分。首先通過搜集愛奇藝等影視網(wǎng)站的影視數(shù)據(jù)得到基礎(chǔ)的影視標簽信息,然后對采集的標簽信息進行數(shù)據(jù)清洗、格式標準化、合并等處理,并結(jié)合已建立完成的扁平化標簽庫,獲取影視節(jié)目的扁平化標簽,最后通過3部分聯(lián)合運作,實現(xiàn)影視節(jié)目扁平化標簽的一鍵自動獲取。相比于人工貼標簽方式,運用扁平化標簽自動獲取技術(shù)為影視節(jié)目貼標簽更加準確、迅速。

圖2 扁平化標簽獲取方案

2.1 數(shù)據(jù)采集

本文提出的扁平化標簽獲取技術(shù)運用對象為影視節(jié)目,網(wǎng)絡(luò)上的相關(guān)影視信息則是本文的直接信息數(shù)據(jù)來源。數(shù)據(jù)采集過程如圖3所示。

相比于其它影視節(jié)目,電視劇與電影的節(jié)目標簽具有復雜性、多樣性、主觀性等特點,因此本文主要對電視劇和電影的相關(guān)信息數(shù)據(jù)進行采集與處理。利用Python爬蟲程序?qū)燮嫠?、搜狗影視、貓眼電影和豆瓣影?個影視網(wǎng)站進行標簽信息采集,信息包括節(jié)目類型、節(jié)目簡介、導演、演員、評分等。

圖3 數(shù)據(jù)采集過程

2.2 數(shù)據(jù)處理

由于初始采集的影視節(jié)目信息數(shù)據(jù)來源于4個不同網(wǎng)站,因此信息數(shù)據(jù)格式并不統(tǒng)一,且有大量重復,需要對這些數(shù)據(jù)作進一步處理,如圖4所示。

圖4 數(shù)據(jù)處理

首先,對采集的標簽信息進行合并。在4個影視網(wǎng)站上采集的影視信息存在大量重復的情況,此處將同一影視節(jié)目在不同網(wǎng)站的相關(guān)信息進行合并,使一個影視節(jié)目在數(shù)據(jù)庫中只出現(xiàn)一次,標簽信息更加清晰明確。

然后,對合并后的節(jié)目信息數(shù)據(jù)進行清洗。采集到的文本中存在一些不必要的數(shù)字、標點符號、網(wǎng)址等內(nèi)容,這些文本信息并不屬于節(jié)目標簽信息,將會增加后續(xù)程序運行工作量及獲取標簽的不確定性,因此在數(shù)據(jù)處理過程中需將其清除。

最后,對處理后的標簽進行格式標準化。4個網(wǎng)站收集的標簽信息格式各有不同,因此將同類標簽信息進行格式上的統(tǒng)一,包括文字編碼格式統(tǒng)一、英文大小寫統(tǒng)一、數(shù)字格式統(tǒng)一以及標簽分隔符統(tǒng)一。

2.3 標簽扁平化

對采集到的標簽信息進行處理后,基本得到完整的影視節(jié)目標簽。為使節(jié)目標簽呈現(xiàn)扁平化特點,利用上文提到的節(jié)目標簽庫以及中文近義詞工具包對節(jié)目標簽進行扁平化匹配處理,使處理后的節(jié)目標簽全部為源于標簽庫的扁平化標簽。處理過程如圖5所示。

將處理后的節(jié)目標簽與本文建立的節(jié)目標簽詞庫進行逐一匹配,將標簽庫中不存在的標簽篩選出來。然而篩選出的大部分標簽雖然不存在于標簽庫中,但其意義與標簽庫中的標簽相近,不能簡單刪去,因此還需進行下一步的近義詞匹配操作。

本文在近義詞匹配過程中采用了一款名為“synonyms”的中文近義詞工具包,該工具包可以應用于自然語言理解的很多任務中。在Python程序中使用該工具包,可以針對某具體詞語進行“近義詞查找”及“詞語相似度檢測”任務。例如,Python程序中對詞語“熱血”進行近義詞匹配的輸出內(nèi)容為(結(jié)果保留兩位小數(shù)): [‘熱血,‘青春,‘勇往直前,‘男子漢,‘FUN,‘勵志,‘新時代,‘本色,‘好勝,‘
],[1.0,0.61,0.61,0.57,0.57,0.53,0.51,0.49,0.49,0.43]。

上例中的第一個向量是匹配到的相關(guān)近義詞,第二個向量是每個近義詞與“熱血”這一原詞的相似度,數(shù)值越大表示該詞與原詞相似度越高。本文在近義詞匹配過程中,按照相似程度大小排序,將查找到的近義詞與標簽庫中的標簽再一次進行匹配。一旦在標簽庫中查找到該近義詞,即將其加入節(jié)目標簽信息中,并停止對剩余近義詞的匹配查找,從而得到標簽庫中與節(jié)目最相近的標簽。對于近義詞依然無法與標簽詞庫匹配的原節(jié)目標簽詞語,則將其舍棄。

在對節(jié)目標簽進行扁平化匹配處理后,節(jié)目的標簽扁平化操作已基本完成。由于在上述匹配過程中,存入影視節(jié)目的部分標簽信息會有重復,因此還需進行最后一步去重操作,即將重復出現(xiàn)的影視節(jié)目扁平化標簽刪除。

通過數(shù)據(jù)采集、數(shù)據(jù)處理與標簽扁平化3個步驟的操作,可以準確地為影視節(jié)目貼上標簽,標簽類型與扁平化標簽庫中的標簽類型相對應,分為“內(nèi)容”、“類型”、“評價”、“時間”。本文為了更快捷地獲取節(jié)目扁平化標簽,將上述3個步驟進行整合運作,各程序在時間上無縫連接,實現(xiàn)了對影視節(jié)目扁平化標簽的一鍵自動獲取,大大提高了影視標簽獲取效率。

3 實驗與結(jié)果分析

本研究通過訓練集對算法進行訓練,并通過測試集進行測試。實驗中采用兩個較為常用的指標測評實驗生成的標簽,即準確率和召回率。準確率和召回率用于衡量實驗中的標簽生成效果。P表示節(jié)目集合,Lab(p)表示節(jié)目p在豆瓣、時光網(wǎng)等視頻網(wǎng)站給出節(jié)目標簽中出現(xiàn)頻率最高的標簽集合,Tag(p)表示節(jié)目p由本實驗算法得出的標簽集合。準確率定義如下:

[Precision=p∈P|Lab(p)?Tag(p)|p∈P|Tag(p)|]? ? (1)

召回率定義如下:

[Recall=p∈P|Lab(p)?Tag(p)|p∈P|Lab(p)|]? ? ? ?(2)

上式中的[Lab(p)?Tag(p)]表示實驗中得出的節(jié)目標簽集與視頻網(wǎng)站給出的節(jié)目高頻標簽集合交集所含有的元素數(shù)量。準確率用于表示實驗給出標簽與網(wǎng)絡(luò)公認節(jié)目標簽的交疊程度,召回率表示測試集中利用本實驗算法計算得出網(wǎng)絡(luò)公認節(jié)目標簽的比例。

以下兩個實驗根據(jù)準確率與召回率對實驗結(jié)果進行對比分析。每個實驗根據(jù)所選標簽數(shù)量的不同分為5組,為了能夠更清晰、直觀地看到結(jié)果變化規(guī)律,采用折線圖表示結(jié)果。

實驗1:準確率分析。將豆瓣、時光網(wǎng)等影視網(wǎng)站給出的高頻標簽作為測試數(shù)據(jù)與本文所得結(jié)果利用公式(1)進行比較計算,本文標簽獲取算法的準確率結(jié)果如圖6所示。

圖6 準確率結(jié)果

由圖6可見,隨著實驗獲取標簽數(shù)量的增加,準確率逐漸降低。主要由于增加標簽數(shù)量使一些由算法計算出的低權(quán)值標簽逐漸加入結(jié)果中,這些標簽很難與本文測試數(shù)據(jù)進行匹配。然而,這些標簽本身權(quán)值很低,所以并不能說明實驗得出的標簽不夠準確??梢钥吹?,在使用8個標簽時測試結(jié)果的準確率很高。事實上,8個標簽已能足夠反映出一個節(jié)目的各方面信息,如本算法得出《霸王別姬》的標簽為電影、90年代、陳凱歌、中國大陸/香港、漢語普通話、人性、文藝、同性。

實驗2:召回率分析。將豆瓣、時光網(wǎng)等影視網(wǎng)站給出的高頻標簽作為測試數(shù)據(jù)與本文所得結(jié)果利用公式(2)進行比較計算,本文標簽獲取算法的召回率結(jié)果如圖7所示。

圖7 召回率結(jié)果

由圖7可見,隨著獲取標簽數(shù)量的增多,召回率逐漸下降,且標簽數(shù)量越多,下降越快。主要由于越來越多的低頻標簽加入了測試集,這些數(shù)據(jù)很難與本文標簽數(shù)據(jù)庫中的標簽進行匹配。但這些標簽通常不具有代表性,并不會影響對一個節(jié)目的描述。8~10個標簽時情況較好,實際上此時標簽已能很全面地展現(xiàn)一個節(jié)目。

綜上所述,在選用8~10個標簽時,本文算法能得到較為理想的結(jié)果。在標簽數(shù)量增多時,準確率與召回率逐漸降低,并且下降速度不斷加快。事實證明8~10個標簽能夠很全面地描述一個影視節(jié)目的各方面信息,包括主題、類型、年代、導演、國家、語言等。故利用本文算法能夠得出準確、全面的節(jié)目標簽,并且選用8~10個標簽更為合適。

4 結(jié)語

本文提出的扁平化節(jié)目標簽自動獲取技術(shù)具有高效、準確與全面等特點。扁平化節(jié)目標簽獲取需要經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)處理與標簽扁平化3個步驟,并運用了多種自然語言處理技術(shù)。實驗結(jié)果表明,本文算法所得節(jié)目標簽的準確率與召回率較好,具有較高的實用價值。同時,實驗也得出選用8~10個標簽描述一個節(jié)目較為合適。本文研究成果可用于后續(xù)影視節(jié)目推薦算法或其它用戶服務技術(shù),同時還可在匹配算法方面作進一步優(yōu)化與改進。

參考文獻:

[1] 黃慶. 大數(shù)據(jù)挖掘與數(shù)據(jù)處理方法[J]. 電腦迷,2018,9(11): 89.

[2] 高國連,祖成浩. 大數(shù)據(jù)定向采集技術(shù)研究[J]. 中國管理信息化, 2017,12(15):162-164.

[3] 周林云. Web信息采集系統(tǒng)設(shè)計與實現(xiàn)[D]. 四川:西南交通大學, 2013.

[4] LIN S-H,HO J-M. Discovering informative content blocks from Web documents[C]. Washing,D.C.:Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002:588-593.

[5] FREITAG D. Machine learning for information extraction in informal domains[J]. Machine Learning, 2000, 5(39):169-202.

[6] 張婧,劉彥君,范漪萍,等.國內(nèi)網(wǎng)絡(luò)信息采集研究現(xiàn)狀述評[J].科技管理研究,2017,37(9):260-266.

[7] EMILIO F,PASQUALE D M,GIACOMO F,et al. Web data extraction, applications and techniques: a survey[J]. Knowledge-Based Systems,2014,70:301-323.

[8] 吳爽. 基于python語言的web數(shù)據(jù)挖掘與分析研究[J]. 電腦知識與技術(shù),2018,14(27):1-2.

[9] 韓洋. 大數(shù)據(jù)時代計算機信息處理技術(shù)探析[J]. 科技傳播, 2018, 9(18): 80-81.

[10] 袁琦. 大數(shù)據(jù)時代計算機信息處理技術(shù)的研究[J]. 科技風, 2018,30(28): 72.

[11] FURCHE T,GOTTLOB G,GRASSO G, et al. OXPath: a language for scalable data extraction, automation, and crawling on the deep web[J]. VLDB Journal, 2013, 22(1):47-72.

[12] 周瑜智,劉展鳴,王博,等. 關(guān)于網(wǎng)絡(luò)信息自動采集技術(shù)的難點及其解決辦法的研究[J]. 科技傳播, 2013, 4(6): 204-205.

[13] 李寶密.基于自動生成模板的Web信息抽取技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應用,2016(9):56,58.

[14] 張一睿. Web端新聞自動采集系統(tǒng)的設(shè)計與實現(xiàn)[D]. 北京:中國科學院大學, 2017.

[15] 戚揚. Web數(shù)據(jù)挖掘、信息采集技術(shù)研究及在網(wǎng)絡(luò)新聞自動抓取中的應用[D]. 杭州:浙江工業(yè)大學, 2012.

[16] 馬凱. 基于微博數(shù)據(jù)采集的Web信息集成系統(tǒng)研究[J]. 現(xiàn)代電子技術(shù),2016,39(11):125-128.

[17] 趙紅艷. 基于大數(shù)據(jù)技術(shù)的小微企業(yè)信息采集技術(shù)研究[J]. 科技展望, 2015 (30):1-3.

[18] 周劍. 面向Web輿情評價信息的采集與分析系統(tǒng)的研究與開發(fā)[D]. 蘇州:蘇州大學,2017.

[19] 湯露陽. 面向網(wǎng)絡(luò)輿情分析的數(shù)據(jù)采集與管理方法研究[D]. 成都:電子科技大學,2017.

[20] 李曉偉. 云環(huán)境下的輿情監(jiān)測關(guān)鍵技術(shù)研究[D]. 綿陽:西南科技大學,2017.

[21] 王仕艷. 云環(huán)境中Web信息抓取技術(shù)的研究及應用[J]. 通信電源技術(shù),2018,35(9):175-176,178.

[22] 熊暢. 基于Python爬蟲技術(shù)的網(wǎng)頁數(shù)據(jù)抓取與分析研究[J]. 數(shù)字技術(shù)與應用,2017(9):35-36.

[23] DENIS S. Current challenges in Web crawling[C]. 13th International Conference Web Engineering,2013:518-521.

[24] 殷復蓮,王顏顏,柴劍平,等. 中國電視節(jié)目扁平化標簽分類體系研究[J]. 電視技術(shù), 2017, 41(Z1): 174-176,181.

(責任編輯:黃 ?。?/p>

瑞丽市| 德惠市| 那曲县| 安溪县| 封开县| 富蕴县| 蒙城县| 泌阳县| 四平市| 怀集县| 固阳县| 平罗县| 长垣县| 仪陇县| 盐山县| 霞浦县| 丰县| 瑞昌市| 吴江市| 天祝| 邮箱| 康保县| 新源县| 江华| 禄劝| 巴中市| 萍乡市| 湘西| 茌平县| 深泽县| 泾阳县| 长海县| 蓬安县| 客服| 大同市| 岳阳县| 凭祥市| 汝城县| 仙桃市| 浦县| 东明县|