国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隱含語(yǔ)義分析的抖音短視頻語(yǔ)義檢測(cè)方法

2020-04-08 09:36:55趙楠范書(shū)國(guó)甄琢孟丹
科技資訊 2020年4期
關(guān)鍵詞:奇異值分解

趙楠 范書(shū)國(guó) 甄琢 孟丹

摘? 要:隨著短視頻關(guān)注度的不斷提高,抖音短視頻已經(jīng)成為當(dāng)前時(shí)代熱點(diǎn)。針對(duì)于短視頻、短文本,向量空間模型(VSM)表示方法存在高維度、同義多義問(wèn)題,導(dǎo)致難以準(zhǔn)確度量文本相似度,該文提出了一種基于隱含語(yǔ)義分析的聚類方法,利用LSA將訓(xùn)練數(shù)據(jù)聚類成隱含語(yǔ)義主題,通過(guò)奇異值分解,將詞向量和文檔向量投射到一個(gè)低維空間,用層次聚類算法確定初始中心,然后聚類得到結(jié)果。結(jié)論表明,短視頻中的核心語(yǔ)義內(nèi)容被成功保留下來(lái),運(yùn)用矩陣降維方法降低了計(jì)算量,冗余的相關(guān)性干擾得以解決,改變了視頻語(yǔ)義檢測(cè)的整體效果。

關(guān)鍵詞:隱含語(yǔ)義? 層次聚類? 奇異值分解? 矩陣降維

中圖分類號(hào):TP391.4 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2020)02(a)-0009-02

隨著互聯(lián)網(wǎng)用戶數(shù)量的不斷增長(zhǎng),網(wǎng)絡(luò)短視頻的數(shù)量也在與日俱增。因此,迫切地需要在數(shù)以萬(wàn)計(jì)的短視頻中實(shí)現(xiàn)高速有效的檢索。視頻數(shù)據(jù)內(nèi)容包含復(fù)雜的含義,視頻數(shù)據(jù)之間也存在著內(nèi)在聯(lián)系。在視頻圖像中,圖片特征與特征之間、視頻片段與片段之間,視頻語(yǔ)義與語(yǔ)義之間都存在著關(guān)聯(lián)關(guān)系。通過(guò)這些關(guān)聯(lián)關(guān)系,語(yǔ)義檢測(cè)的計(jì)算成本可以得到減少,提高搜索的質(zhì)量。視頻語(yǔ)義之間的相關(guān)性有很重要的作用,視頻語(yǔ)義內(nèi)容之間會(huì)出現(xiàn)同義和多義等問(wèn)題,這就是由于對(duì)視頻語(yǔ)義的相關(guān)性忽略而引起的,會(huì)導(dǎo)致一系列缺陷?,F(xiàn)在對(duì)視頻語(yǔ)義相關(guān)性的關(guān)注度和重視度不足,為此,需要深入學(xué)習(xí)和研究視頻語(yǔ)義相關(guān)性方面的知識(shí)和課題,讓相關(guān)性發(fā)揮重要作用,同時(shí)解決一系列不利的問(wèn)題。該文通過(guò)LSA(隱含語(yǔ)義分析)方法的理論指導(dǎo),改進(jìn)和豐富了抖音短視頻內(nèi)容檢測(cè)中視頻的主要數(shù)據(jù)特點(diǎn),建立了根據(jù)視頻語(yǔ)義內(nèi)容創(chuàng)造的視頻文檔矩陣,說(shuō)明了短視頻的視頻結(jié)構(gòu)和相關(guān)性分析內(nèi)容。

1? 視頻隱含語(yǔ)義關(guān)聯(lián)性分析方法

1.1 LSA基本思想

LSA的基本思想是認(rèn)為詞匯和詞匯之間存在著一定的關(guān)聯(lián)關(guān)系,文檔和文檔之間也存在著一定的關(guān)聯(lián)關(guān)系,它們之間存在一種隱含式的文本語(yǔ)義結(jié)構(gòu),奇異值分解由詞語(yǔ)統(tǒng)計(jì)頻統(tǒng)向量構(gòu)成的文檔集合矩陣進(jìn)行,再經(jīng)過(guò)降維處理得到的語(yǔ)義結(jié)構(gòu),解決了因?yàn)橐曨l語(yǔ)義相關(guān)性而引起的同義和多義等問(wèn)題,而它的核心語(yǔ)義信息都成功保存下來(lái),對(duì)為未來(lái)檢測(cè)相似語(yǔ)義的目標(biāo)文件,查詢文件之間的相似程度有著重要作用。視頻目標(biāo)和視頻對(duì)象的典型特征之間的相關(guān)性關(guān)系可以用來(lái)反映該短視頻的具體語(yǔ)義內(nèi)容,視頻典型特征和相關(guān)性關(guān)系通過(guò)聚類會(huì)得到不同類別的信息,與視頻的語(yǔ)義內(nèi)容密不可分。相對(duì)于視頻語(yǔ)義數(shù)據(jù)來(lái)說(shuō),沒(méi)有明顯的文本、文檔內(nèi)容,也沒(méi)有廣闊的語(yǔ)言內(nèi)容空間,直接復(fù)制LSA的處理方法是不能實(shí)現(xiàn)的。所以,該文針對(duì)這個(gè)問(wèn)題提出了解決視頻語(yǔ)義建模的一個(gè)辦法:將短視頻分成許多幀,短視頻中的每一幀圖像都可以對(duì)應(yīng)短文本中的每一個(gè)文件、文檔,從而建立視頻文檔集合矩陣。對(duì)視頻語(yǔ)義內(nèi)容中的典型特征進(jìn)行細(xì)分,分類后的每一部分可以對(duì)應(yīng)文件文檔以一個(gè)基礎(chǔ)詞匯,建立起視頻特征詞典。通過(guò)這兩點(diǎn),再對(duì)短視頻進(jìn)行進(jìn)一步的擴(kuò)展,當(dāng)擴(kuò)展數(shù)據(jù)庫(kù)的容量時(shí),可以將中等大小的短視頻文件映射到文件文檔向量。

1.2 視頻特征字典的建立

當(dāng)開(kāi)始創(chuàng)建視頻特征詞典的時(shí)候,應(yīng)該對(duì)過(guò)去曾經(jīng)用過(guò)的典型特征,通過(guò)K-means算法生成H個(gè)聚類,H個(gè)聚類應(yīng)該對(duì)應(yīng)H維的向量。我們也可以將視頻特征詞典的規(guī)模大小程度用H來(lái)表示。原因是K-means算法的基本屬性就是如此,它可以對(duì)聚類結(jié)果的規(guī)模大小加以調(diào)整控制,因此,可以合理地使用這個(gè)特點(diǎn),可以根據(jù)實(shí)際情況不斷地調(diào)整特征詞典的規(guī)模大小??梢愿鶕?jù)實(shí)際需求創(chuàng)建一系列視頻特征字典,用來(lái)應(yīng)對(duì)不同層面的、不同類別的典型特征,接下來(lái)既可以單獨(dú)運(yùn)行,也可以聯(lián)合起來(lái)對(duì)這類特征詞典進(jìn)行合理應(yīng)用,從而滿足不同層面上的需求。

1.3 視頻文檔集合矩陣的建立

當(dāng)開(kāi)始創(chuàng)建視頻文檔集合矩陣的時(shí)候,如果將短視頻分割成一系列幀,每幀圖像分別對(duì)應(yīng)著文件文檔的每一個(gè)文件,因?yàn)槎桃曨l文件中的幀數(shù)龐大,就會(huì)導(dǎo)致文檔集合矩陣范圍龐大,會(huì)極大地降低計(jì)算的速率。所以,再進(jìn)行建立視頻文檔集合矩陣操作前,需要對(duì)短視頻實(shí)行預(yù)處理操作,將關(guān)鍵幀從短視頻文件中分離出來(lái),用關(guān)鍵幀充當(dāng)文檔的基礎(chǔ)單元,目的是為了減少矩陣的范圍,從而增加可行性。短視頻被分割成一系列片段,形成一系列關(guān)鍵幀,每一個(gè)關(guān)鍵幀都擁有該片段最重要的內(nèi)容,這一系列關(guān)鍵幀組合成這個(gè)視頻片段。細(xì)分到每一個(gè)關(guān)鍵幀,還要繼續(xù)將它割裂成不同片段,為了方便進(jìn)行隱含語(yǔ)義分析操作,每個(gè)片段都應(yīng)該占用相同區(qū)域大小。接下來(lái),視頻特征詞典將要作為前提條件,提取出每個(gè)分割片段的典型特征,綜合到一起,進(jìn)行頻率數(shù)字統(tǒng)計(jì),然后綜合所有片段的統(tǒng)計(jì)結(jié)果,形成一個(gè)對(duì)應(yīng)這個(gè)關(guān)鍵幀的視頻文檔,從而也可以得出短視頻的視頻文檔矩陣。

這種操作方法主要是通過(guò)分割關(guān)鍵幀來(lái)實(shí)現(xiàn)的,再用K-means算法進(jìn)行輔助,最終綜合統(tǒng)計(jì)關(guān)鍵幀的視頻文檔,可以極大地體現(xiàn)出典型特征在視頻語(yǔ)義分析中的重要作用,可以方便突出視頻的結(jié)構(gòu)特點(diǎn),了解視頻的數(shù)據(jù)內(nèi)容。

2? 基于隱含語(yǔ)義分析的抖音短視頻語(yǔ)義檢測(cè)方法

該文對(duì)抖音短視頻進(jìn)行隱含語(yǔ)義分析建模,選取熱度較高的短視頻,選取其短文本,進(jìn)行奇異值分解,檢索出該段文本的隱含語(yǔ)義信息。然后通過(guò)聚類算法來(lái)檢索抖音短視頻。為了解決向量空間模型對(duì)于詞項(xiàng)匹配不足的問(wèn)題,該文采用隱含語(yǔ)義分析建模的方法,首先,選取熱度較高的短視頻,對(duì)它進(jìn)行奇異值分解,將文件文檔對(duì)應(yīng)到隱含于一空間,對(duì)其隱含語(yǔ)義信息進(jìn)行挖掘。

抖音短視頻的獲取我們采用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)短視頻進(jìn)行抓取。采用Fiddler進(jìn)行手機(jī)抖音APP的抓包,安裝Fiddler后,進(jìn)行數(shù)據(jù)的配置。在手機(jī)無(wú)線連接代理中填寫(xiě)電腦的IP地址和Fiddler代理的端口,安裝證書(shū),就可以進(jìn)行抖音短視頻的抓包,然后可以對(duì)爬取的用戶信息數(shù)據(jù)進(jìn)行預(yù)處理,并存入數(shù)據(jù)庫(kù)。通過(guò)爬蟲(chóng)獲取的數(shù)據(jù)不可以直接接收進(jìn)行操作使用,需要加工處理,逐步實(shí)現(xiàn)數(shù)據(jù)清洗操作,減少數(shù)據(jù)中存在著錯(cuò)誤或異常(偏離期望值)的數(shù)據(jù)。抖音短視頻的用戶通常是清理活躍數(shù)較低的垃圾用戶來(lái)達(dá)成數(shù)據(jù)預(yù)處理操作的,以便為接下來(lái)的聚類算法打好基礎(chǔ)。

首先對(duì)短文本數(shù)據(jù)進(jìn)行初次聚類,應(yīng)用Single-pass算法,每一條視頻文本都是唯一的,它也對(duì)應(yīng)著唯一的特征向量,每個(gè)文本之間的特征向量需要進(jìn)行相似度的計(jì)算,得出關(guān)聯(lián)關(guān)系較高的就會(huì)被歸類到一個(gè)簇里。這次聚類是對(duì)短視頻文件進(jìn)行初次聚類,得到同一個(gè)簇。接下來(lái)就是第二次聚類,第二次聚類的目的是要將簇進(jìn)行合并,最終才能得到話題集。

3? 結(jié)語(yǔ)

該文提出的基于隱含語(yǔ)義分析的語(yǔ)義檢測(cè)方法,在現(xiàn)實(shí)的視頻語(yǔ)義檢測(cè)應(yīng)用中,需要繼續(xù)保留視頻文本結(jié)構(gòu)中的典型語(yǔ)義特征,信息冗余帶來(lái)的困擾得以解除,視頻語(yǔ)義的檢測(cè)內(nèi)容得到了提高,適合當(dāng)前的網(wǎng)絡(luò)短視頻環(huán)境。采用了二級(jí)聚類算法,在一定程度上提高了發(fā)現(xiàn)效率和準(zhǔn)確率,但包含的信息還有待完善。下一步重點(diǎn):評(píng)估發(fā)布的視頻內(nèi)容的權(quán)威性,細(xì)分用戶角色,發(fā)現(xiàn)語(yǔ)義主題檢測(cè)的準(zhǔn)確率。

參考文獻(xiàn)

[1] 馬雯雯,魏文晗,鄧一貴.基于隱含語(yǔ)義分析的微博話題發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):96-100.

[2] 王曉巖.微博客熱點(diǎn)話題發(fā)現(xiàn)與跟蹤技術(shù)及系統(tǒng)[D].中國(guó)科學(xué)院大學(xué),2013.

[3] 孫曰昕.面向微博的熱點(diǎn)話題發(fā)現(xiàn)與追蹤研究[D].西北師范大學(xué),2014.

[4] 陳志雄,朱向莊.基于內(nèi)容評(píng)價(jià)與超鏈分析的主題爬蟲(chóng)策略[J].輕工科技,2011,27(3):66-67.

[5] 何躍,帥馬戀,馮韻.中文微博熱點(diǎn)話題挖掘[J].統(tǒng)計(jì)與信息論壇,2014,29(6):86-90.

[6] 鄭斐然,苗奪謙,張志飛,等.一種中文微博新聞話題檢測(cè)的方法[J].計(jì)算機(jī)科學(xué),2012,39(1):138-141.

[7] He H,Chen B,Xu W,et a1.Short text feature extraction and clustering for web topic mining[A].Third Internationl Conference on Semantics,Knowledge and Gird(SKG 2007)[C].2007.

猜你喜歡
奇異值分解
基于奇異值分解的銀行客戶數(shù)據(jù)隱私保護(hù)算法研究
k—means聚類算法在提高圖書(shū)館數(shù)字文獻(xiàn)服務(wù)效能中的應(yīng)用
結(jié)合PCA及字典學(xué)習(xí)的高光譜圖像自適應(yīng)去噪方法
基于分塊DWT和SVD的魯棒性數(shù)字水印算法
一種基于奇異值分解的魯棒水印算法
基于HOG—SVD特征的人臉識(shí)別
軟件(2016年5期)2016-08-30 06:25:59
基于奇異熵和隨機(jī)森林的人臉識(shí)別
軟件(2016年2期)2016-04-08 02:06:21
基于SVD確定NMF初始化矩陣維數(shù)
消除直流分量影響的轉(zhuǎn)子故障信號(hào)EMD—SVD降噪方法
協(xié)同過(guò)濾算法改進(jìn)及研究
连州市| 东台市| 新巴尔虎左旗| 丁青县| 龙胜| 美姑县| 郎溪县| 平山县| 来凤县| 互助| 德惠市| 桐梓县| 图片| 东台市| 成都市| 多伦县| 资源县| 汉川市| 浠水县| 来宾市| 枝江市| 福安市| 奉贤区| 浙江省| 开平市| 陆丰市| 湖州市| 紫云| 聂荣县| 隆昌县| 遵义县| 塔河县| 武强县| 芦山县| 阿拉善右旗| 蓝田县| 靖宇县| 上蔡县| 滨州市| 濉溪县| 吉林市|