苗文
摘 要:人工智能技術(shù)已經(jīng)得到了人們的重視,且在眾多領(lǐng)域開始承擔(dān)重要角色。本文結(jié)合對聲控設(shè)備的理解,研究并分析了人工智能語音處理技術(shù)和智能聲控的原理,并就家庭的聲控應(yīng)用展開一定的設(shè)想,為進(jìn)一步建設(shè)智能家庭提供新的思路。
關(guān)鍵詞:人工智能;聲控;智能語音處理;信息處理系統(tǒng)
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-2064(2019)12-0032-02
0 引言
在科學(xué)技術(shù)飛速發(fā)展的今天,人工智能被越來越多的人所熟知?!叭斯ぶ悄堋币辉~已經(jīng)成為熱門詞匯,越來越多的科學(xué)家致力于研究人工智能,希望通過人工智能這一技術(shù)來提高我們生活和工作的效率。什么才是人工智能?它是通過用計算機(jī)來模擬人的思維想法和行為,從而幫助人們完成一系列事情的智能技術(shù)。人們最熟悉的應(yīng)該是深度學(xué)習(xí),它也是人工智能的一個分支。其原理應(yīng)用最有名的就是AlphaGo,該智能機(jī)器戰(zhàn)勝了李世石圍棋大師。它能夠通過根據(jù)當(dāng)前下棋的情況,計算黑白棋的勝率;能夠不斷的進(jìn)行自我學(xué)習(xí)等。新版本AlphaGoZero能夠自我對弈,并且在對棋的過程中能夠發(fā)現(xiàn)新的下棋策略。從另一方面來說,這也是一種突破,人們可以從圍棋機(jī)器身上在學(xué)習(xí)到新的游戲策略。
說起聲控,首先能夠想到的就是Siri。即使是在手機(jī)屏幕關(guān)閉的情況下,你也能喚醒它。然后對它說出你想要做什么,例如,問它明天天氣如何,它就會立馬給你搜索你所在城市的天氣并將天氣情況讀出來;或者你想定一個明天早上的鬧鐘,你只需要告訴它什么時間即可。語音助手的使用能夠極大程度上提高我們生活的效率,并且能夠釋放我們的雙手。不過,語音助手也并不是萬能的,并不像人工智能機(jī)器一樣可以自我學(xué)習(xí)和訓(xùn)練,它只是基于現(xiàn)有的一些數(shù)據(jù)庫上進(jìn)行操作,如果你問的事情超出數(shù)據(jù)庫中的內(nèi)容,語音助手將無法回答或完成。本文將通過分析人工智能技術(shù)和智能語音處理技術(shù)等,來深度了解人工智能在聲控設(shè)備中的原理和應(yīng)用。
1 人工智能語音處理
1.1 人工智能技術(shù)概況
人工智能技術(shù)從1956年開始提出發(fā)展到至今,也是有了質(zhì)的飛躍。人工智能最主要的意義也是能夠讓機(jī)器去替人類完成更復(fù)雜的事情。目前,在人們?nèi)粘5纳钪须S處可見的人工智能運(yùn)用,它給我們的生活帶來了非常多的便捷和效率。比方說,無人機(jī)、智能機(jī)器人(掃地機(jī)器人等)、語音識別、圖片視頻識別等,這些用到了人工智能技術(shù)。就現(xiàn)在科學(xué)技術(shù)發(fā)展的情況來看,人工智能的發(fā)展是必然的結(jié)果。眾所周知,我們處在一個大數(shù)據(jù)的環(huán)境下,如果僅僅將數(shù)據(jù)收集和管理,這將失去大數(shù)據(jù)的意義了。如何使我們的生活變得智能,這也需要用到人工智能技術(shù),將收集到的數(shù)據(jù)進(jìn)行深度分析,挖掘這些數(shù)據(jù)之間潛在的內(nèi)容,這樣才能體現(xiàn)這些數(shù)據(jù)的真實價值。
人工智能運(yùn)用的比較多的是在智能手機(jī)上,剛剛也提到蘋果手機(jī)的智能語音助手Siri,這就是一個很好的例子。目前,人工智能也運(yùn)用到了醫(yī)療方面,智能手臂、人體植入芯片等。在人工智能給我們帶來益處的同時,也有人會質(zhì)疑人工智能的安全性,是否有一天智能機(jī)器人會不受人類控制。但是有人不這么認(rèn)為,有學(xué)者認(rèn)為目前的人工智能還處于弱人工智能,并沒有達(dá)到強(qiáng)或超人工智能水平。弱人工智能階段還無法做到讓機(jī)器人擁有自己的各種情緒。而超人工智能則是能夠讓機(jī)器人有自己的情緒和思考能力,能夠讓機(jī)器人做出和人一樣的舉動。雖然人工智能在不斷地發(fā)展和完善,但是從弱向強(qiáng)人工智能發(fā)展還有很長一段路要走,就目前的科學(xué)技術(shù)還很難突破。
1.2 智能語音處理技術(shù)
針對智能語音技術(shù)的定義有很多,其包含的種類也是非常多的。本文主要通過分析語音識別技術(shù)基本原理來解讀智能語音處理技術(shù)[1]。
智能語音識別是指用機(jī)器將人類說的話轉(zhuǎn)變?yōu)槟軌虮粰C(jī)器所能執(zhí)行的語言或者文本,使得機(jī)器人能夠明白人類所要表達(dá)的意思,并加以實施。語音識別最基本的工作原理可以分為兩個階段:(1)從人類的語言轉(zhuǎn)換到文本或其他形式階段。即語音信號輸入到機(jī)器設(shè)備中,然后設(shè)備取讀語言信號,最后轉(zhuǎn)換為機(jī)器能夠接受的語言形式(文本或者編碼等)。(2)處理和執(zhí)行階段。在語言形式轉(zhuǎn)換完成之后,機(jī)器將會執(zhí)行接收到的命令。
在第一個階段時,機(jī)器會對接收到的語音信號進(jìn)行采樣和比對,然后將聲波轉(zhuǎn)換成為數(shù)據(jù)。由于將聲波轉(zhuǎn)換為數(shù)字信號的過程非常的關(guān)鍵,而這一過程采用的是語音活性檢測技術(shù),它能夠幫助檢測語音信號的存在,避免一些不必要的數(shù)據(jù)影響。其技術(shù)的基本原理是聲波波形和頻譜分析,之后再基于統(tǒng)計分析,將聲波轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)[2]。
2 聲控設(shè)備的技術(shù)分析
2.1 智能聲控原理
現(xiàn)在市場上普遍用的聲控產(chǎn)品就是聲控?zé)袅耍钤缡褂玫穆暱責(zé)羰峭ㄟ^聲音的大小來控制的。而現(xiàn)在聲控?zé)裟軌蜃R別“開燈”和“關(guān)燈”,通過所發(fā)出的命令來執(zhí)行相應(yīng)的操作。本文主要通過分析智能聲控的組成和工作過程來了解智能聲控的原理。文本對聲控的分析都是基于語音識別的聲控門的基礎(chǔ)之上[3,4]。
2.1.1 智能聲控的組成
圖1所示,智能聲控系統(tǒng)由九部分組成,分別是輸入端;C1卷積層;S2池化層;C3卷積層;S4池化層;C5卷積層;F6全連接層;F7全連接。
輸入端是將人的聲波轉(zhuǎn)化成為一個灰度圖,此后所有的操作都是基于該灰度圖形之上。C1卷積層的主要作用是對輸入的灰度圖形進(jìn)行特征的提取;S2池化層的目的是減少參數(shù)的訓(xùn)練,即C1層提取的特征之后,給提取的圖像尺寸進(jìn)行對半縮小;C3卷積層是對C1卷積層的深入,從上一層訓(xùn)練得到的數(shù)據(jù)進(jìn)行深入分析。S4池化層和C5卷積層是對上兩層的深入和重復(fù);后兩層都市對數(shù)據(jù)的訓(xùn)練。
2.1.2 智能聲控的工作過程
根據(jù)聲控的組成部分,給出智能聲控系統(tǒng)的工作過程。其系統(tǒng)訓(xùn)練主要是利用卷積網(wǎng)絡(luò)模型。主要過程可以描述為[5]: