韓爭(zhēng)艷,魚(yú)蘇立,劉 斌,張小強(qiáng),田程軍,曾 強(qiáng)
(中國(guó)移動(dòng)通信集團(tuán)陜西有限公司,陜西 西安 710000)
互聯(lián)網(wǎng)電視為用戶提供海量高清視頻內(nèi)容。如何實(shí)現(xiàn)個(gè)性化推薦、內(nèi)容精準(zhǔn)投放,如何高效管理和檢索視頻內(nèi)容,值得從業(yè)者思考。傳統(tǒng)的采用文本、圖像等要素的檢索技術(shù)已經(jīng)不能滿足互聯(lián)網(wǎng)海量?jī)?nèi)容管理需要,不能夠精準(zhǔn)搜索、個(gè)性化推送高清視頻內(nèi)容。為推動(dòng)和促進(jìn)互聯(lián)網(wǎng)電視業(yè)務(wù)蓬勃發(fā)展,基于內(nèi)容的視頻檢索解決方案成為視頻檢索技術(shù)熱點(diǎn)研究對(duì)象。
基于內(nèi)容的視頻檢索是通過(guò)分析視頻內(nèi)容的特征信息來(lái)概況描述視頻內(nèi)容[1],實(shí)現(xiàn)視頻內(nèi)容的快速識(shí)別、精準(zhǔn)檢索,不僅能提供互聯(lián)網(wǎng)海量?jī)?nèi)容分類、搜索,千人千面地個(gè)性化推送,還可以提高互聯(lián)網(wǎng)視頻資源的利用效率,對(duì)互聯(lián)網(wǎng)電視業(yè)務(wù)發(fā)展產(chǎn)生積極影響。
從20 世紀(jì)90 年代初期開(kāi)始,通過(guò)描述和總結(jié)視頻內(nèi)容關(guān)鍵要素實(shí)現(xiàn)視頻檢索技術(shù)方面的研究取得很多成果。受到技術(shù)和條件等各方面限制,當(dāng)時(shí)主要采用手工設(shè)計(jì)各類特征來(lái)提取視頻中的信息,如顏色直方圖、形狀描述符等。
基于內(nèi)容的視頻檢索技術(shù)是通過(guò)分析視頻內(nèi)容特征要素,提取視頻內(nèi)容的關(guān)鍵特征信息實(shí)現(xiàn)對(duì)視頻內(nèi)容的檢索。隨著大數(shù)據(jù)、智能計(jì)算、人工智能(Artificial Intelligence,AI)算法的發(fā)展和使用,基于內(nèi)容的視頻檢索技術(shù)向自動(dòng)化和智能化檢索方向發(fā)展[2]。目前,基于內(nèi)容的視頻檢索的研究重點(diǎn)在于視頻特征提取技術(shù)、相似度計(jì)算算法和索引技術(shù)等方面。
視頻檢索總體分為視頻、場(chǎng)景、鏡頭及圖像幀4 個(gè)數(shù)據(jù)結(jié)構(gòu)。關(guān)鍵幀是能呈現(xiàn)鏡頭中主要內(nèi)容信息的圖像幀。分析各關(guān)鍵鏡頭,提取鏡頭中的關(guān)鍵幀,然后利用關(guān)鍵幀把鏡頭內(nèi)容精準(zhǔn)展示出來(lái)。確定關(guān)鍵幀的數(shù)量是提取關(guān)鍵幀環(huán)節(jié)中重要環(huán)節(jié),通過(guò)統(tǒng)計(jì)鏡頭中每幀的差異計(jì)算方差,然后通過(guò)方差來(lái)分析、判斷鏡頭內(nèi)容的復(fù)雜度和差異度等要素。
視頻特征提取是基于視頻內(nèi)容并從中提取出能夠描述視頻內(nèi)容的特征信息視頻檢索核心技術(shù)。通過(guò)分析視頻圖像顏色、圖形形狀、線條紋理及運(yùn)動(dòng)動(dòng)態(tài)等方式提取視頻特征。其中,顏色特征可以通過(guò)直方圖、顏色矩等方法來(lái)提取,紋理特征可以通過(guò)局部二值模式、小波變換等方法來(lái)提取,形狀特征可以通過(guò)邊界描述符、尺度不變特征變換等方法來(lái)提取,運(yùn)動(dòng)特征可以通過(guò)光流、動(dòng)作描述符等方法來(lái)提取。隨著機(jī)器視覺(jué)領(lǐng)域研究的不斷深入,深度學(xué)習(xí)技術(shù)逐漸成為視頻特征提取的主要方法。
視頻特征分析對(duì)視頻進(jìn)行后處理,以提取低級(jí)別特征,如鏡頭變化率和類型、光流級(jí)別、移動(dòng)和客觀特征,如出現(xiàn)在幀中的對(duì)象、人體動(dòng)作、設(shè)置、事件以及抽象特征(如美學(xué))等。提取的客觀和抽象特征在這里被稱為視頻標(biāo)簽。
基于圖像的特征提取是將視頻中的每一幀都看作一張圖片,對(duì)每幀進(jìn)行圖像處理,提取出圖形上具有代表性的特征,如圖形顏色、線條紋理及形態(tài)等。
運(yùn)動(dòng)是視頻數(shù)據(jù)中最明顯的特征,基于運(yùn)動(dòng)的特征提取是指從運(yùn)動(dòng)數(shù)據(jù)中提取出有意義的特征,以便進(jìn)行運(yùn)動(dòng)動(dòng)態(tài)分析和分類識(shí)別等任務(wù)。因此,基于運(yùn)動(dòng)的特征提取也是分析視頻內(nèi)容特性的關(guān)鍵技術(shù)手段。
視頻中的聲音也是視頻特征提取的要素。通過(guò)分析視頻中的聲音,可以提取出如音高、節(jié)奏及語(yǔ)音識(shí)別等方面的特征。
相似度計(jì)算將視頻之間的相似度相似的視頻歸為一類,方便用戶查找相關(guān)視頻。通常,相似度計(jì)算方法有歐式距離、余弦相似度、海明距離等,此外還有一些基于分類、聚類的相似度計(jì)算方法,如支持向量機(jī)、k 近鄰算法等。在人工智能領(lǐng)域,距離和相似度是基本的概念,它們?cè)跈C(jī)器視覺(jué)和自然語(yǔ)言處理等領(lǐng)域有舉足輕重的應(yīng)用,這些概念絕大多數(shù)源于數(shù)學(xué)領(lǐng)域的測(cè)度度量等概念[3]。下面介紹常用的相似度計(jì)算技術(shù)。
歐式距離能夠計(jì)算多維空間中兩個(gè)點(diǎn)之間的絕對(duì)距離,也就是數(shù)學(xué)計(jì)算中兩點(diǎn)之間的直線距離。歐氏距離可以應(yīng)用在各個(gè)業(yè)務(wù)領(lǐng)域。當(dāng)數(shù)據(jù)結(jié)構(gòu)每個(gè)點(diǎn)數(shù)據(jù)集中而且數(shù)據(jù)連續(xù)時(shí),通常采用歐式距離進(jìn)行計(jì)算。
余弦相似度是計(jì)算兩個(gè)向量之間相似性的方法,用于文本數(shù)據(jù)的相似度計(jì)算。余弦相似度是從多維空間將兩個(gè)向量投影到具體點(diǎn),計(jì)算夾角余弦值。余弦相似度應(yīng)用在內(nèi)容信息分類、檢索等領(lǐng)域。
海明碼可以檢測(cè)和糾錯(cuò)數(shù)據(jù)傳輸中的誤碼。傳輸數(shù)據(jù)使用海明碼方式進(jìn)行編碼,在發(fā)送方對(duì)原始數(shù)據(jù)進(jìn)行冗余編碼,得到一個(gè)包含冗余信息的編碼數(shù)據(jù),如1011010。假如在數(shù)據(jù)傳輸過(guò)程中中斷出錯(cuò)導(dǎo)致第二位變成了1,那么接收方根據(jù)海明碼就會(huì)檢測(cè)錯(cuò)誤,并且根據(jù)冗余信息進(jìn)行數(shù)據(jù)糾錯(cuò),將數(shù)據(jù)恢復(fù)為1011。這個(gè)過(guò)程就是海明碼的工作原理。
索引技術(shù)是將視頻中的圖像內(nèi)容轉(zhuǎn)化為可供檢索的要素信息,方便用戶在海量的視頻內(nèi)容庫(kù)中檢索感興趣的視頻文件[4]。常用的索引技術(shù)包括倒排索引、哈希索引及樹(shù)形索引等。視頻索引的目標(biāo)是將視頻內(nèi)容轉(zhuǎn)換成可以被快速查詢的數(shù)據(jù)結(jié)構(gòu)。下面是3 種常見(jiàn)的視頻索引技術(shù)。
關(guān)鍵幀是能代表視頻圖像中重要事件的重要的幀。通過(guò)關(guān)鍵幀索引,能提高內(nèi)容關(guān)鍵事件檢索效率。鏡頭內(nèi)幀間相似度較高,可以利用圖論、曲線分裂、聚類和奇異值分解的方法提取關(guān)鍵幀。這些方法的基本思路是把一幀看成是多維特征空間中的一點(diǎn),選擇的關(guān)鍵幀是點(diǎn)的子集。這些子集能夠概括特征距離內(nèi)其他要素,表明場(chǎng)景形態(tài)。
時(shí)間碼是視頻中每一幀的時(shí)間標(biāo)記,標(biāo)識(shí)視頻中每一幀的時(shí)間戳。通過(guò)對(duì)視頻時(shí)間戳進(jìn)行索引,可以實(shí)現(xiàn)視頻時(shí)間的精準(zhǔn)定位。對(duì)圖像幀索引時(shí),視頻中每個(gè)幀都被賦予唯一性標(biāo)簽,這些值顯示已記錄的素材總數(shù)或時(shí)間戳,就像剪輯時(shí)間軸的全球定位系統(tǒng)(Global Positioning System,GPS)。視頻內(nèi)容中的每個(gè)幀都被分配全局唯一標(biāo)識(shí)位,通過(guò)時(shí)間碼索引可以精準(zhǔn)查找。通過(guò)搜索記錄的圖像幀時(shí)間碼可以快速找到視頻內(nèi)容。時(shí)間碼是現(xiàn)代數(shù)字視頻索引的原始數(shù)據(jù),是視頻內(nèi)容結(jié)合的粘合劑,是視頻內(nèi)容能夠完整連續(xù)播放的根本。
元數(shù)據(jù)是數(shù)據(jù)的數(shù)據(jù),是主要描述數(shù)據(jù)屬性的信息,標(biāo)識(shí)如指示文件記錄、歷史數(shù)據(jù)、存儲(chǔ)位置、資源查找等功能的屬性信息,基于視頻標(biāo)題、內(nèi)容摘要及熱點(diǎn)關(guān)鍵詞等對(duì)視頻完成概況描述[5]。通過(guò)對(duì)元數(shù)據(jù)進(jìn)行索引,可以快捷找到所需內(nèi)容的視頻。此外,建立基于該元數(shù)據(jù)的搜索索引,可以向使用者提供更強(qiáng)大的搜索解決方案。例如,索引口頭語(yǔ)和人臉可以實(shí)現(xiàn)在視頻中查找某人說(shuō)的某些詞或查找兩個(gè)人在一起畫(huà)面的搜索體驗(yàn)?;诖祟愐曨l元數(shù)據(jù)的搜索適用于新聞機(jī)構(gòu)、教育機(jī)構(gòu)、廣播公司等,通常也適用于任何擁有用戶需要搜索的視頻庫(kù)的行業(yè)。
隨著科技進(jìn)步和互聯(lián)網(wǎng)電視不斷發(fā)展變革,基于內(nèi)容的視頻檢索技術(shù)發(fā)展的領(lǐng)域,未來(lái)研究可以從4 個(gè)方向進(jìn)行深入探討。一,基于深度學(xué)習(xí)的視頻檢索技術(shù)將越發(fā)成熟,如基于各類數(shù)據(jù)模型的視頻特征提取方法。二,基于多模態(tài)信息融合的視頻檢索方法將得到更多的研究,如融合視頻、文本及音頻等多模態(tài)信息來(lái)實(shí)現(xiàn)視頻檢索。三,基于場(chǎng)景、情感等語(yǔ)義信息的視頻檢索方法將得到更多的關(guān)注,如采用情感識(shí)別、場(chǎng)景分析等方法來(lái)提高視頻檢索的準(zhǔn)確性。四,視頻檢索技術(shù)在大數(shù)據(jù)環(huán)境下的應(yīng)用將得到更廣泛的關(guān)注,如采用分布式計(jì)算、大數(shù)據(jù)分析等方法來(lái)實(shí)現(xiàn)視頻檢索[6]。
基于內(nèi)容的視頻檢索領(lǐng)域未來(lái)將充滿挑戰(zhàn),未來(lái)的AI 視頻技術(shù)將帶來(lái)更多的創(chuàng)新,使視頻制作更加高效、智能和個(gè)性化。AI 技術(shù)的發(fā)展將推動(dòng)視頻制作領(lǐng)域不斷發(fā)展和創(chuàng)新,為受眾帶來(lái)更加出色的視頻作品。同時(shí)需要從業(yè)者不斷探索和創(chuàng)新,未來(lái)還有很多需要解決的問(wèn)題和研發(fā)方向,需要不斷地進(jìn)行深入研究。