国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能識別主持人語音情感

2021-01-20 10:24:58夏文心
文化產(chǎn)業(yè) 2020年33期
關(guān)鍵詞:特征提取標(biāo)簽語音

◎夏文心

(云南師范大學(xué)傳媒學(xué)院 云南 昆明 650500)

就目前而言,人工智能技術(shù)成為我們?nèi)粘I钪胁豢扇鄙俚囊豁椫匾夹g(shù),可以通過運用互聯(lián)網(wǎng)計算機系統(tǒng)研究許多事物以及這些事物的方方面面,如識別人們的語音、情感、態(tài)度等,并從理論研究逐漸走向?qū)嵸|(zhì)性研究[1]。人工智能通過辨別我們的語音,能獲取主持人在此時所要表達(dá)的情緒和情感;從原有的數(shù)據(jù)庫中篩選調(diào)取與個人情緒情感相匹配的音樂、視頻以及圖像,通過“情感標(biāo)簽”篩選出適應(yīng)個人情緒,然后實現(xiàn)自動配樂和配景[2]。

一、研究的方法與步驟

本研究首先進(jìn)行情感定義,使輸出語音有相應(yīng)的對應(yīng)標(biāo)簽。使用語譜圖作為主持人的語音的認(rèn)識辨別功能,利用GAN(簡稱生成對抗網(wǎng)絡(luò))對原始輸入特征進(jìn)行提取。使用長短記憶網(wǎng)絡(luò)對GAN的輸出特征進(jìn)行進(jìn)一步提取[3],使其具有上下時刻關(guān)聯(lián)性,大大提高了最終的識別結(jié)果。將提取出的特征進(jìn)行分類,輸出“情感標(biāo)簽”。

二、情感的定義

本研究的主要基礎(chǔ)與核心部分,是探究情感是什么,如何進(jìn)行情感的分析。當(dāng)前學(xué)術(shù)界通常將情感表示為連續(xù)型情感和離散型情感。連續(xù)型情感主要是匹配一個比較單一的情感態(tài)勢和語音這個空間中的一小部分或者是連續(xù)的一個段落,然后通過連續(xù)的情感坐標(biāo)表達(dá)人類的語音情感態(tài)勢[4]。

三、提取語音特征的方法

怎樣提煉篩選適合的匹配的特征用以顯示不同的情緒情感,最關(guān)鍵最主要的問題是在于,怎樣提取篩選比較合適的匹配的特點特征來表達(dá)不一樣的情緒情感,同時具有準(zhǔn)確性與泛化性。聲學(xué)特征通常具體包括:頻譜的特征、連續(xù)的特征、Teager能量算子,質(zhì)量的特征。本文我們使用生成對抗網(wǎng)絡(luò)來進(jìn)行語音特征提取與生成,經(jīng)過GAN的判別網(wǎng)絡(luò)進(jìn)行精確的語音識別,從而提升語音識別的精確度[4]。

四、GAN模型的定義

生成對抗網(wǎng)絡(luò)進(jìn)行語音特征的提取增強了語音識別的準(zhǔn)確性,我們在生成器階段使用GAN對其語音技術(shù)進(jìn)行準(zhǔn)確的特征提取[3]。判別器使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行精度判別。二者之間使用空間變換網(wǎng)絡(luò)進(jìn)行連接。

五、GAN+ LSTM + SVM情感識別模型設(shè)計

本部分主要研究基于GAN+ LSTM + SVM的情感識別模型的設(shè)計。

(一)GAN提取語音特征

首先是進(jìn)行基于GAN的語音情感的特征進(jìn)行篩選與提取,在運用網(wǎng)絡(luò)進(jìn)行特征的篩選與提取時,其深度在比較大程度上決定了最后識別出來的結(jié)果成效的好壞[4]。伴隨著卷積神經(jīng)網(wǎng)絡(luò)逐漸增加的層級數(shù)量、逐漸變深的深度,篩選出不同的維度特征越來越多樣化,比較高的維度特征更加具有抽象特點,可以更好地表現(xiàn)出最終展現(xiàn)結(jié)果的好壞。

(二)LSTM進(jìn)行進(jìn)一步提取

我們運用長段記憶網(wǎng)絡(luò)LSTM進(jìn)一步篩選語音情緒情感的特征。在以往的神經(jīng)網(wǎng)絡(luò)中,上下時刻處理信息的關(guān)聯(lián),模型是不會關(guān)注的,通常一段話中每一個時刻要表述的情緒情感是不太一致的。所以,我們將前后兩個語句與他們各自所對應(yīng)的情感特征相互聯(lián)系起來,這樣能非常好地識別出情緒情感的標(biāo)簽。

(三)使用SVM進(jìn)行分類

我們使用支持向量機,進(jìn)行最后的精準(zhǔn)分類。

六、語音情感識別的整體流程

本部分主要包括:情感定義、語音情感特征提取,生成對抗網(wǎng)絡(luò),支持向量機和基于GAN+ LSTM + GAN的情感識別模型的設(shè)計五部分。

(一)情感定義

本次研究我們使用中科院CASIA漢語情感語料庫和太原理工大學(xué)張雪英老師團(tuán)隊錄制的情感數(shù)據(jù)庫,對主持人情感定義語音情感數(shù)據(jù)庫。

(二)語音情感特征提取

本小結(jié)主要介紹兩種常用的語音特征:梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)和語譜圖。公式(1)表述了梅爾頻率與聲音頻率f的關(guān)系[4]:

通過提取梅爾頻率倒譜系數(shù),語音里面所有包含的情緒情感特征都可以顯示一部分的向量,每一幀都可以代表一個向量。

語譜圖自身本來就涵蓋了全部聲音信號的頻譜,是一種具有動態(tài)的頻譜,產(chǎn)生的快速傅里葉變換為如下:

其中,Xn(m)為分幀語音的第n幀信號。0≤k≤N-1,則|X( n, k)|是X( n)的短時幅度譜估計,而m處的頻譜能量密度函數(shù)p( n, k)為:

(三)生成對抗網(wǎng)絡(luò)

2014年Ian Goodfellow提出了GAN以來,對GAN的研究可謂如火如荼[3]。GAN的主要結(jié)構(gòu)包括一個生成器G(Generator)和一個判別器D(Discriminator)。他的訓(xùn)練是處于一種對抗博弈。在此我們給出了GAN識別語音的原理圖:

GAN識別語音的原理圖

(四)支持向量機

支持向量機通常是運用于如何進(jìn)行分類和回歸的問題[3]。在這種情況下雖然樣本量比較少,但是其表現(xiàn)不錯。支持向量機主要運用二元分類當(dāng)中。

(五)GAN+ LSTM + GAN的情感識別模型的設(shè)計

本部分給出了基于GAN+ LSTM + GAN的情感識別模型的設(shè)計,基于GAN+ LSTM + SVM模型是一種先利用語譜圖進(jìn)行輸入,使用生成對抗網(wǎng)絡(luò)進(jìn)行特征的提?。皇褂瞄L短記憶網(wǎng)絡(luò)對生成對抗網(wǎng)絡(luò)進(jìn)行進(jìn)一步的提??;最后作為SVM支持向量機的輸入,得到分類結(jié)果,然后輸出感情標(biāo)簽[4]。

猜你喜歡
特征提取標(biāo)簽語音
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
Bagging RCSP腦電特征提取算法
標(biāo)簽化傷害了誰
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
景泰县| 金湖县| 夹江县| 亚东县| 兴业县| 方城县| 巴彦县| 新晃| 白水县| 惠水县| 迁西县| 苍南县| 铜梁县| 民和| 台前县| 美姑县| 庆元县| 苍南县| 广昌县| 吉首市| 保康县| 南召县| 丹江口市| 读书| 阿图什市| 苗栗市| 眉山市| 榆社县| 那曲县| 修水县| 德令哈市| 墨玉县| 西华县| 湟中县| 双鸭山市| 阿勒泰市| 永修县| 永嘉县| 九江县| 桓台县| 南部县|