司凱威
(國家廣播電視總局二九三臺,河南 451162)
媒體融合進程的加快和網(wǎng)絡基礎設施的完善,互聯(lián)網(wǎng)電視機和機頂盒、智能投影、電視棒、VR 電視、AR 電視等終端走進千家萬戶,成為廣大人民群眾收聽收看視聽節(jié)目的重要途徑之一。新冠肺炎疫情爆發(fā)以來,阿里等互聯(lián)網(wǎng)巨頭推出大量具有價格實惠、接口豐富、操作簡便、觀看體驗好等特點的產(chǎn)品。華數(shù)TV 等互聯(lián)網(wǎng)電視平臺積極開辟抗疫專欄,增加優(yōu)秀影視劇、動畫片、紀錄片等視聽節(jié)目供給,極大地提升了互聯(lián)網(wǎng)電視的覆蓋范圍和影響力。截至2020年6月,我國互聯(lián)網(wǎng)電視終端激活數(shù)量已達2.6 億臺,用戶超過6.11 億人[1]。在資本和技術的共同驅(qū)動下,互聯(lián)網(wǎng)電視憑借節(jié)目存量多、更新速度快、操作簡便、智能化程度高等優(yōu)點,不斷擴大覆蓋人群和影響力。與此同時,個別不法分子為謀取商業(yè)利益,趁機傳播色情、低俗等違規(guī)視聽節(jié)目。
為引導行業(yè)規(guī)范健康發(fā)展和防止違規(guī)視聽節(jié)目傳播,國家網(wǎng)絡視聽管理部門頒布了《專網(wǎng)及定向傳播視聽節(jié)目服務管理規(guī)定》、《持有互聯(lián)網(wǎng)電視牌照機構運營管理要求》等規(guī)定,要求互聯(lián)網(wǎng)電視不得傳播宣揚暴力犯罪、危害社會公德、損害未成年人身心健康等視聽節(jié)目。相關規(guī)定的及時出臺和嚴格落實,給互聯(lián)網(wǎng)電視節(jié)目合規(guī)化運營指明了發(fā)展方向。面對海量的視聽節(jié)目,原有的人工操作遙控器的工作方法[2],存在勞動強度大、監(jiān)看周期長、數(shù)據(jù)統(tǒng)計難度大、節(jié)目變動發(fā)現(xiàn)滯后、通信數(shù)據(jù)分析專業(yè)性強等問題,難以適應監(jiān)管工作要求。實踐發(fā)現(xiàn),互聯(lián)網(wǎng)電視終端存在遙控器控制接口不一致、播控平臺EPG 版本多、視聽節(jié)目存量大且更新快、部分終端通信數(shù)據(jù)加密等情況,也為監(jiān)管工作帶來了新的挑戰(zhàn)。
本文提出利用控制主機、多功能控制器、HDMI數(shù)據(jù)采集卡、鏡像交換機、服務器等設備構建通用型的終端監(jiān)管平臺[3]。利用ADB、XPATH 和PYSHARK等功能包,研發(fā)具有終端控制、音視頻和通信數(shù)據(jù)采集、節(jié)目信息處理和內(nèi)容研判、監(jiān)看結(jié)果存儲和發(fā)布等功能的應用軟件,以探索建立適應媒體融合要求的互聯(lián)網(wǎng)電視智慧化監(jiān)管新模式。
為滿足對市場主流的互聯(lián)網(wǎng)終端的自動控制、音視頻和通信數(shù)據(jù)采集、節(jié)目信息處理和內(nèi)容研判、監(jiān)看結(jié)果存儲等需求,互聯(lián)網(wǎng)電視節(jié)目監(jiān)管系統(tǒng)硬件部分主要包括控制主機、多功能控制器、HDMI 采集卡、無線路由器、鏡像交換機、圖像識別服務器、數(shù)據(jù)庫服務器、HDMI攝像頭等設備,如圖1所示。
圖1 系統(tǒng)結(jié)構示意圖
監(jiān)管對象主要包括互聯(lián)網(wǎng)電視機和機頂盒、智能投影、電視棒、VR 電視、AR 電視等終端。伴隨著媒體融合進程的縱深發(fā)展,目前境內(nèi)電子市場上主流的互聯(lián)網(wǎng)電視終端一般是運行在安卓及衍生系統(tǒng)上。人機交互接口一般都包含有開關機、方向、確認、返回等?;谏鲜黾夹g特點,可以構建通用的終端自動控制系統(tǒng)。
控制模塊主要包括控制主機、多功能控制器等設備,通過命令控制互聯(lián)網(wǎng)電視終端開關機、方向切換、確認、返回等操作。利用安卓系統(tǒng)調(diào)試工具ADB,可對運行安卓及衍生系統(tǒng)的終端設備進行控制。該種控制方式具有適用范圍廣、操作簡便、響應及時等特點,但需要掌握遠程調(diào)試模式的開啟方法。對于設置有紅外遙控裝置的終端設備,可以通過與控制主機連接的多功能控制器進行控制。多功能控制器是帶有紅外收發(fā)器的單片機開發(fā)板,與控制主機之間通過RS232 接口進行互聯(lián),與互聯(lián)網(wǎng)電視終端通過紅外信號進行通訊。該種控制方式具有操作簡便、反饋及時等優(yōu)點,但同時操作多個終端時容易發(fā)生信號錯亂。
音視頻數(shù)據(jù)采集模塊主要包括HDMI 數(shù)據(jù)采集卡、攝像頭等設備。對于帶有HDMI 輸出的機頂盒,通過線纜與HDMI 數(shù)據(jù)采集卡直接進行連接。對于電視機、智能投影等不具有HDMI 輸出的設備,則通過HDMI攝像頭與采集卡進行互聯(lián)。
通信數(shù)據(jù)采集模塊主要包括無線路由器、鏡像交換機、無線網(wǎng)卡等設備,用于采集被控終端的通訊數(shù)據(jù)。智能終端通過WIFI 連接無線路由器。鏡像交換機的下聯(lián)接口連接無線路由器,監(jiān)控口連接控制主機的千兆網(wǎng)卡,上聯(lián)口連接互聯(lián)網(wǎng)。
數(shù)據(jù)分析模塊包含有圖像識別、音視頻識別、頁面解析、通信數(shù)據(jù)解析、任務調(diào)度等服務器。為利用最新的違規(guī)內(nèi)容識別算法和降低軟件開發(fā)的難度,系統(tǒng)遠程調(diào)用某互聯(lián)網(wǎng)運營商提供的服務接口,對色情、低俗等內(nèi)容進行識別。為充分利用服務器的計算、網(wǎng)絡、帶寬資源,將相關的應用部署在虛擬化服務器上。
數(shù)據(jù)發(fā)布模塊主要是包括數(shù)據(jù)發(fā)布服務器、磁盤陣列和數(shù)據(jù)庫服務器。為確保音視頻和通信數(shù)據(jù)的存儲速度,采用了高性能的磁盤陣列。為長期保存配置參數(shù)、監(jiān)管結(jié)果等信息,使用了支持并發(fā)操作的MYSQL數(shù)據(jù)庫。
為全面排查互聯(lián)網(wǎng)電視終端的點播節(jié)目、直播頻道、應用程序的傳播情況和變化情況,實現(xiàn)終端的自動控制、音視頻和通信數(shù)據(jù)的實時采集、關鍵數(shù)據(jù)的智能提取與分析等功能,并兼顧系統(tǒng)的可擴展性和維護性,該系統(tǒng)可以分為數(shù)據(jù)源、控制與采集層、存儲與處理層、業(yè)務應用層,如圖2所示。
圖2 系統(tǒng)軟件組成示意圖
數(shù)據(jù)源層主要是為系統(tǒng)控制和數(shù)據(jù)采集提供必要的硬件和軟件環(huán)境。為兼容互聯(lián)網(wǎng)電視機、機頂盒、投影設備、電視棒等多類型的終端,利用面向?qū)ο缶幊碳夹g將控制開關機、方向、確認、取消、菜單等操作的ADB命令和多功能控制器的操作命令進行封裝。
控制部分主要是根據(jù)用戶設定對互聯(lián)網(wǎng)電視終端進行實時控制。設備管理模塊提供生產(chǎn)廠家、系統(tǒng)類型、控制模式、網(wǎng)絡設置等終端基礎數(shù)據(jù)的管理服務。操作命令設定模塊提供終端操作命令的學習、修改、存儲等方法。為擺脫對遙控器的依賴和長期保存控制命令,將終端操作命令存儲到數(shù)據(jù)庫表中。為簡化控制命令的有效性,操作錄制模塊提供控制命令的測試功能和操作流程的驗證功能。為避免終端長時間運行造成宕機和確保通信數(shù)據(jù)采集的完整性,終端需要在每次使用前重啟和運行中設置合理的等待時間,并且利用采集功能進行監(jiān)控。
數(shù)據(jù)采集部分主要是實時采集互聯(lián)網(wǎng)電視終端的音視頻、通信數(shù)據(jù)、布局文件、故障報警等數(shù)據(jù)。音視頻采集模塊通過調(diào)用HDMI數(shù)據(jù)采集卡的驅(qū)動程序,將音視頻文件保存成帶有時間戳MP4格式的文件。通信數(shù)據(jù)采集模塊調(diào)用網(wǎng)絡數(shù)據(jù)采集軟件WIRESHARK對指定地址的通信數(shù)據(jù)進行采集,以獲取IP、域名、下載地址等信息。布局文件采集模塊通過ADB命令獲取頁面布局等關鍵信息,以減少對文字識別軟件的依賴,確保節(jié)目信息的準確性。故障報警信息采集模塊主要是獲取控制和采集設備和程序發(fā)出的異常數(shù)據(jù)。
數(shù)據(jù)處理部分主要是將采集到的數(shù)據(jù)進行信息提取、識別和統(tǒng)計,以獲取所需的點播節(jié)目、直播頻道、應用程序的名稱、音視頻、圖片、IP、域名等信息。通信數(shù)據(jù)采集模塊通過調(diào)用WIRESHARK 的過濾命令和分析命令,以獲取IP、域名、下載地址以及必需的數(shù)據(jù)文件。頁面分析模塊通過針對點播節(jié)目、直播節(jié)目、輪播節(jié)目特點分別進行設計處理規(guī)則,以獲取直播節(jié)目名稱和截圖、點播節(jié)目的名稱和劇集等、應用程序的信息和下載地址等。為避免相關要素的干擾,在軟件中可以定義文字識別的區(qū)域,對于特定位置的圖片進行識別。音視頻處理模塊通過調(diào)用互聯(lián)網(wǎng)服務提供商的功能接口,分析節(jié)目內(nèi)容是否存在低俗、色情等違規(guī)內(nèi)容。
數(shù)據(jù)存儲模塊主要是將控制文件、音視頻、通信數(shù)據(jù)、應用程序等數(shù)據(jù)進行存儲并建立相互之間的對應。為方便文件進行存儲,將音視頻文件打上時間戳,并用生成時間對文件進行命名。通過在MYSQL數(shù)據(jù)庫中建立一對一、一對多、多對多映射關系,確保監(jiān)管數(shù)據(jù)之間的對應聯(lián)系。將終端控制代碼、設備名稱、生產(chǎn)廠家、節(jié)目、頻道的信息變化等信息分門別類的存儲在相應的數(shù)據(jù)庫之中,以便于長期的分析和使用。
監(jiān)管數(shù)據(jù)部分提供點播節(jié)目、直播頻道、應用程序相關數(shù)據(jù)的人機交互接口。點播節(jié)目模塊提供終端EPG 信息、節(jié)目數(shù)量、節(jié)目時長、節(jié)目鏈接地址、熱度變化等情況管理功能。通過對點播節(jié)目的比較可以區(qū)分出播控平臺的EPG 數(shù)量。為定期分析點播節(jié)目的變化情況,系統(tǒng)提供了新增節(jié)目的統(tǒng)計和監(jiān)看功能。在對點播節(jié)目分析的過程中,提供點播節(jié)目連接服務器通信數(shù)據(jù)的查詢過程。直播頻道模塊提供頻道數(shù)量、頻道EPG、頻道變化、頻道運行圖等信息的查詢功能。因直播節(jié)目具有較強的瞬時性,系統(tǒng)在提供音視頻觀看的同時,提供截圖數(shù)據(jù)的查詢功能,以便快速瀏覽。應用程序模塊提供應用程序信息、下載地址、版本信息、下載數(shù)量等數(shù)據(jù)。
任務管理部分主要是提供系統(tǒng)監(jiān)控、設備管理、任務管理、調(diào)度管理、關鍵字管理、原始數(shù)據(jù)管理等功能。為了長期分析相關模塊的運行狀況,均在數(shù)據(jù)庫中建立了相應的表格。
通過建立全新的互聯(lián)網(wǎng)電視監(jiān)管工作流程,實現(xiàn)對主流互聯(lián)網(wǎng)電視終端的信息錄入、任務設定、設備控制、數(shù)據(jù)采集、內(nèi)容識別、數(shù)據(jù)存儲、結(jié)果發(fā)布等操作,如圖3所示。
圖3 系統(tǒng)流程圖
(1)參數(shù)設定:將設備生產(chǎn)廠家、軟件版本、生產(chǎn)日期等相關信息錄入數(shù)據(jù)庫。按照互聯(lián)網(wǎng)電視終端的接口類型選擇合適的控制模式、設定數(shù)據(jù)采集對應的欄目名稱和任務名稱。
(2)終端控制:利用互聯(lián)網(wǎng)電視終端模擬器對控制命令和響應情況進行驗證。為提升工作效率,采用操作錄制的功能,完整記錄操作的步驟。
(3)音視頻采集與處理:利用HDMI 數(shù)據(jù)采集卡對音視頻數(shù)據(jù)進行采集和ADB 命令獲取布局文件。利用信息提取技術獲取節(jié)目的名稱、集數(shù)、熱度、圖片等相關信息。經(jīng)過關鍵詞比對后,將疑似違規(guī)的內(nèi)容調(diào)用違規(guī)內(nèi)容識別算法,進而得到點播、直播、應用程序、違規(guī)內(nèi)容以及預警信息表。
(4)通信數(shù)據(jù)采集與處理:利用網(wǎng)卡獲取互聯(lián)網(wǎng)電視終端與播控平臺服務器之間的數(shù)據(jù)。通過運行指定的過濾命令提取IP、URL、EPG、音視頻等數(shù)據(jù),進而生成節(jié)目服務器、鏈接地址、EPG等相關信息。
(5)數(shù)據(jù)發(fā)布:通過人性化的交互界面向操作人員提供點播節(jié)目、直播頻道、應用程序的整體情況和變動情況,并提供相關數(shù)據(jù)的下載服務。
(1)終端控制技術
利用主流互聯(lián)網(wǎng)電視終端運行在安卓及其衍生系統(tǒng)的特點,通過向互聯(lián)網(wǎng)電視終端指定的端口號發(fā)送ADB 命令,模擬遙控器進行方向、菜單、確認、返回等操作。以遙控器的向上按鍵為例,通過TCP端口傳送命令“adb shell input keyevent 19”,即可實現(xiàn)向上滾動。只需按照規(guī)定更改后面的數(shù)字,可以實現(xiàn)開關機、切換、確認、返回等操作。實踐證明,該種操作方式具有適用范圍廣、實時性強、命令簡單等優(yōu)點,其難點在于打開遠程調(diào)試的方法。
(2)通信數(shù)據(jù)提取技術
針對提取EPG、圖片、IP、域名等信息的需求,利用python的第三方支持包PYSHARK遠程調(diào)用網(wǎng)絡數(shù)據(jù)捕獲軟件WIRESHARK,捕獲控制主機上指定IP的通信數(shù)據(jù),過濾解析所需的信息。以提取JPG格式的圖片為例,使用“http.request and!((http.request.full_uri matches"http://.*.jpg.*"))”即可得到所有JPG圖片的鏈接地址。實踐證明,該種方式具有通信數(shù)據(jù)捕獲及時、信息內(nèi)容豐富、解析規(guī)則通用性強等優(yōu)點。
(3)關鍵信息解析技術
為減少對圖片識別文字識別功能的依賴和提升關鍵信息識別的準確性,基于點播節(jié)目、直播頻道、應用程序等信息按照一定規(guī)則在互聯(lián)網(wǎng)電視終端上展示的事實,通過ADB命令獲取XML格式的文件后,使用XML文檔查找工具包XPATH進行數(shù)據(jù)提取。以提取某終端的節(jié)目名為例,輸入“tv_names=driver. find_elements_by_xpath(r′//*[@resource-id="com.youku.phone:id/yk_item_title"]′)”,可實現(xiàn)對點播節(jié)目名的查找。該種數(shù)據(jù)解析方法具有配置靈活、操作簡便等優(yōu)點。
(4)數(shù)據(jù)管理技術
為方便對節(jié)目、圖片等相關信息的管理,借助DJANGO數(shù)據(jù)庫的建模技術,在數(shù)據(jù)庫表之間建立一對一、一對多、對對多的映射關系,以便于聯(lián)合查詢、反向查詢等操作。
為適應媒體融合帶來的新變化和落實網(wǎng)絡視聽主管部門的新要求,通過搭建通用型的終端監(jiān)管平臺和研發(fā)具有自動控制、采集、處理、存儲、發(fā)布等功能的應用軟件,實現(xiàn)互聯(lián)網(wǎng)電視節(jié)目的智慧監(jiān)管系統(tǒng)。實踐證明,該系統(tǒng)不僅在終端控制、數(shù)據(jù)采集與處理、數(shù)據(jù)分析等方面具有明顯的優(yōu)勢,還降低了勞動強度和操作難度,探索出了一條在媒體融合背景下互聯(lián)網(wǎng)電視節(jié)目智慧化監(jiān)管的新模式。下一步,將重點研究互聯(lián)網(wǎng)電視終端節(jié)目傳播的新規(guī)律和新業(yè)態(tài),挖掘系統(tǒng)的潛在價值。