人工智能識別主持人語音情感

2021-01-20 10:24:58夏文心

文化產(chǎn)業(yè) 2020年33期

◎夏文心

（云南師范大學(xué)傳媒學(xué)院云南昆明 650500）

就目前而言，人工智能技術(shù)成為我們?nèi)粘Ｉ钪胁豢扇鄙俚囊豁椫匾夹g(shù)，可以通過運用互聯(lián)網(wǎng)計算機系統(tǒng)研究許多事物以及這些事物的方方面面，如識別人們的語音、情感、態(tài)度等，并從理論研究逐漸走向?qū)嵸|(zhì)性研究[1]。人工智能通過辨別我們的語音，能獲取主持人在此時所要表達(dá)的情緒和情感；從原有的數(shù)據(jù)庫中篩選調(diào)取與個人情緒情感相匹配的音樂、視頻以及圖像，通過“情感標(biāo)簽”篩選出適應(yīng)個人情緒，然后實現(xiàn)自動配樂和配景[2]。

一、研究的方法與步驟

本研究首先進(jìn)行情感定義，使輸出語音有相應(yīng)的對應(yīng)標(biāo)簽。使用語譜圖作為主持人的語音的認(rèn)識辨別功能，利用GAN（簡稱生成對抗網(wǎng)絡(luò)）對原始輸入特征進(jìn)行提取。使用長短記憶網(wǎng)絡(luò)對GAN的輸出特征進(jìn)行進(jìn)一步提取[3]，使其具有上下時刻關(guān)聯(lián)性，大大提高了最終的識別結(jié)果。將提取出的特征進(jìn)行分類，輸出“情感標(biāo)簽”。

二、情感的定義

本研究的主要基礎(chǔ)與核心部分，是探究情感是什么，如何進(jìn)行情感的分析。當(dāng)前學(xué)術(shù)界通常將情感表示為連續(xù)型情感和離散型情感。連續(xù)型情感主要是匹配一個比較單一的情感態(tài)勢和語音這個空間中的一小部分或者是連續(xù)的一個段落，然后通過連續(xù)的情感坐標(biāo)表達(dá)人類的語音情感態(tài)勢[4]。

三、提取語音特征的方法

怎樣提煉篩選適合的匹配的特征用以顯示不同的情緒情感，最關(guān)鍵最主要的問題是在于，怎樣提取篩選比較合適的匹配的特點特征來表達(dá)不一樣的情緒情感，同時具有準(zhǔn)確性與泛化性。聲學(xué)特征通常具體包括：頻譜的特征、連續(xù)的特征、Teager能量算子，質(zhì)量的特征。本文我們使用生成對抗網(wǎng)絡(luò)來進(jìn)行語音特征提取與生成，經(jīng)過GAN的判別網(wǎng)絡(luò)進(jìn)行精確的語音識別，從而提升語音識別的精確度[4]。

四、GAN模型的定義

生成對抗網(wǎng)絡(luò)進(jìn)行語音特征的提取增強了語音識別的準(zhǔn)確性，我們在生成器階段使用GAN對其語音技術(shù)進(jìn)行準(zhǔn)確的特征提取[3]。判別器使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行精度判別。二者之間使用空間變換網(wǎng)絡(luò)進(jìn)行連接。

五、GAN+ LSTM + SVM情感識別模型設(shè)計

本部分主要研究基于GAN+ LSTM + SVM的情感識別模型的設(shè)計。

（一）GAN提取語音特征

首先是進(jìn)行基于GAN的語音情感的特征進(jìn)行篩選與提取，在運用網(wǎng)絡(luò)進(jìn)行特征的篩選與提取時，其深度在比較大程度上決定了最后識別出來的結(jié)果成效的好壞[4]。伴隨著卷積神經(jīng)網(wǎng)絡(luò)逐漸增加的層級數(shù)量、逐漸變深的深度，篩選出不同的維度特征越來越多樣化，比較高的維度特征更加具有抽象特點，可以更好地表現(xiàn)出最終展現(xiàn)結(jié)果的好壞。

（二）LSTM進(jìn)行進(jìn)一步提取

我們運用長段記憶網(wǎng)絡(luò)LSTM進(jìn)一步篩選語音情緒情感的特征。在以往的神經(jīng)網(wǎng)絡(luò)中，上下時刻處理信息的關(guān)聯(lián)，模型是不會關(guān)注的，通常一段話中每一個時刻要表述的情緒情感是不太一致的。所以，我們將前后兩個語句與他們各自所對應(yīng)的情感特征相互聯(lián)系起來，這樣能非常好地識別出情緒情感的標(biāo)簽。

（三）使用SVM進(jìn)行分類

我們使用支持向量機，進(jìn)行最后的精準(zhǔn)分類。

六、語音情感識別的整體流程

本部分主要包括：情感定義、語音情感特征提取，生成對抗網(wǎng)絡(luò)，支持向量機和基于GAN+ LSTM + GAN的情感識別模型的設(shè)計五部分。

（一）情感定義

本次研究我們使用中科院CASIA漢語情感語料庫和太原理工大學(xué)張雪英老師團(tuán)隊錄制的情感數(shù)據(jù)庫，對主持人情感定義語音情感數(shù)據(jù)庫。

（二）語音情感特征提取

本小結(jié)主要介紹兩種常用的語音特征：梅爾頻率倒譜系數(shù)（Mel-Frequency Cepstral Coefficients，MFCC）和語譜圖。公式（1）表述了梅爾頻率與聲音頻率f的關(guān)系[4]：

通過提取梅爾頻率倒譜系數(shù)，語音里面所有包含的情緒情感特征都可以顯示一部分的向量，每一幀都可以代表一個向量。

語譜圖自身本來就涵蓋了全部聲音信號的頻譜，是一種具有動態(tài)的頻譜，產(chǎn)生的快速傅里葉變換為如下：

其中，Xn(m)為分幀語音的第n幀信號。0≤k≤N-1，則|X( n, k)|是X( n)的短時幅度譜估計，而m處的頻譜能量密度函數(shù)p( n, k)為：

（三）生成對抗網(wǎng)絡(luò)

2014年Ian Goodfellow提出了GAN以來，對GAN的研究可謂如火如荼[3]。GAN的主要結(jié)構(gòu)包括一個生成器G（Generator）和一個判別器D（Discriminator）。他的訓(xùn)練是處于一種對抗博弈。在此我們給出了GAN識別語音的原理圖：

GAN識別語音的原理圖

（四）支持向量機

支持向量機通常是運用于如何進(jìn)行分類和回歸的問題[3]。在這種情況下雖然樣本量比較少，但是其表現(xiàn)不錯。支持向量機主要運用二元分類當(dāng)中。

（五）GAN+ LSTM + GAN的情感識別模型的設(shè)計

本部分給出了基于GAN+ LSTM + GAN的情感識別模型的設(shè)計，基于GAN+ LSTM + SVM模型是一種先利用語譜圖進(jìn)行輸入，使用生成對抗網(wǎng)絡(luò)進(jìn)行特征的提?。皇褂瞄L短記憶網(wǎng)絡(luò)對生成對抗網(wǎng)絡(luò)進(jìn)行進(jìn)一步的提??；最后作為SVM支持向量機的輸入，得到分類結(jié)果，然后輸出感情標(biāo)簽[4]。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡