百度發(fā)表了其研究的深度語音系統(tǒng)的最新進(jìn)展,表示該系統(tǒng)可以在幾秒鐘之內(nèi)完全克隆任何人的聲音。
深度語音系統(tǒng)是基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的文本轉(zhuǎn)語音系統(tǒng)。在發(fā)出“人聲”之前,該系統(tǒng)需要時間學(xué)習(xí)錄音素材中的數(shù)據(jù)。第二版的深度語音系統(tǒng)的學(xué)習(xí)時間需要90分鐘,第三版則把這個時間縮短到了30分鐘,而現(xiàn)在,最新版的深度語音系統(tǒng)“克隆”人聲僅需要幾秒鐘。不僅如此,該系統(tǒng)能夠?qū)崿F(xiàn)聲音性別轉(zhuǎn)換,比如將女性的聲音轉(zhuǎn)換為男性的聲音;還能實現(xiàn)口音轉(zhuǎn)化,如將普通話轉(zhuǎn)化為地方口音。
或許在將來,各種角色扮演游戲中每個人的角色都能夠發(fā)出和自己一樣的聲音了,讓你有更好的游戲體驗;或許父母可以讓AI用自己的聲音給孩子讀睡前故事。但也有人會擔(dān)憂,AI模仿人聲過于逼真了,我們未來會受到更多假新聞的轟炸,比如有人用AI模仿某個公眾人物的聲音,傳遞假消息。
而且,這樣一來,各種語音鎖還安全嗎?