主持人:
倪俊杰 ?浙江省桐鄉(xiāng)市鳳鳴高級中學
嘉 ?賓:
劉宗凡 ?廣東省四會市四會中學
邱元陽 ?河南省安陽縣職業(yè)中專
金 ?琦 ?浙江師范大學附屬中學
楊 ?磊 ?天津市第五中學
黃鈳涵 ?浙江省諸暨市開放雙語學校
倪俊杰:在上一期的文章中,我們介紹了語音識別技術的發(fā)展歷程、基本原理及主流算法和技術。在特定場合、特定使用場景下,語音識別技術已經有了十分優(yōu)越的表現,雖然語音識別技術還存在很多“難題”,但并不影響我們對它的未來的發(fā)展的期待,相信讀者們希望了解更多語音識別技術發(fā)展的前沿方向。同時,目前語音識別技術在相關應用領域的表現到底怎么樣也是讀者們關心的問題。本期我們延續(xù)上期話題,繼續(xù)探討有關語音識別技術的故事。
語音識別中的難題
倪俊杰:作為人工智能發(fā)展的一個分支,語音識別技術在智能設備上的使用已經非常普遍。例如,小愛同學月活用戶已經突破1億,在很多場景下,語音識別技術給我們帶來了非常好的體驗,但實際上,在人工智能的賽道上,語音識別技術基本還處于嬰兒階段,在很多方面還不夠成熟,那么,都有哪些難題需要解決呢?
劉宗凡:我認為,首先,在語義理解的準確性上,還需要加強。我們經常能見到這樣一個場景:在和語音識別工具交互的過程中,語音識別答非所問,令人啼笑皆非的對話層出不窮等。目前,人工智能最流行的研究方向是深度學習,基于深度學習模型學到的知識和人類的知識有很大的區(qū)別,人工智能只能“理解”一些詞和詞的關系,語音識別系統(tǒng)的對話,本質上是基于識別出來的關鍵詞的互聯網搜索,是程序員對這句話的理解。語義的理解是人工智能領域的難題,至少目前還看不到突破的希望。
其次,在語音識別過程中“背景噪音的影響”很難消除。信噪比直接影響數據收集模型,我們在訓練語音識別的時候,都是將噪音從中去除,盡量保持干凈的語音環(huán)境,從而提高語音識別的效果。目前業(yè)內普遍宣稱的97%識別準確率,更多的是人工測評結果,只在安靜室內的進場識別中才能實現。在嘈雜環(huán)境中必須有特殊的抗噪技術處理才能正常地使用語音識別,否則識別率很低,效果很差。但在實際生活中背景噪音無處不在,語音識別要能在復雜的環(huán)境下很好地應用,就要在各種情況下收集足夠多的數據樣本進行學習、分析。
邱元陽:語音識別技術在“上下文聯系”方面也做得不夠。語音的自動識別與人類對語音的解釋之間的主要區(qū)別之一在于上下文的使用。人類在相互交談時會依賴很多上下文信息。此上下文包括對話主題、過去所說的內容、噪音背景以及唇部運動和面部表情等視覺線索。語音識別通常是孤立的,不能與歷史聯系在一起,不能進行情感分析,不能和現實聯系起來。例如,我們在導航時,說出一個地點,地圖軟件只能機械地進行搜索。如果能根據我們所在位置和出行軌跡,猜測出行目的地,則可以大大提高識別準確度。當引入這些輔助信號時,語音識別水平無疑會提高。但是,這是一個相當龐大的知識體系問題,如何選擇有用的上下文類型并有效使用它們需要進一步深入研究。
楊磊:還有就是“詞義消歧”。機器在切詞、標注詞性并識別完后,需要對各個詞語進行理解。由于語言中往往一詞多義,人在理解時會基于已有知識儲備和上下文環(huán)境,但機器很難做到。雖然系統(tǒng)會對句子做句法分析,可以在一定程度上幫助機器理解詞義和語義,但實際情況并不理想。目前,機器對句子的理解還只能做到語義角色標注層面,即標出句中的句子成分和主被動關系等,它屬于比較成熟的淺層語義分析技術。未來要讓機器更好地理解人類語言,并實現自然交互,還是需要依賴深度學習技術,通過大規(guī)模的數據訓練,讓機器不斷學習。當然,在實際應用領域中,也可以通過產品設計來減少較為模糊的問答內容,以提升用戶體驗。
再有就是口音、方言的兼容性問題。很多人的發(fā)音同標準發(fā)音有很大的差距,這就需要進行口音和方言的處理。即使同一個人說的話,如果處在不同的環(huán)境中,或者在不一樣的語境中,意思也可能不同。這些同樣需要改進語音模型,讓語音識別適應大多數人的聲音特征。
語音識別的前沿研究方向
倪俊杰:既然語音識別技術還存在這么多難題,那么如何突破呢?最新的前沿研究方向有哪些?
金琦:目前語音識別的技術研究,已經從小詞匯量閱讀式識別轉向難度較大的自由對話場景的語音識別,自然環(huán)境中的識別率逐漸提高,但是還無法達到無障礙地人機交流的程度。如果不限制對話環(huán)境,不在意語音標準化程度,在噪音和多人對話以及日??谡Z化的情形下,語音識別技術可能難以發(fā)揮正常的作用,甚至根本沒有用武之地。因此語音識別的技術研究也開始面向非限定的環(huán)境,面向真實應用場景。在真實的語言交流活動中,不但沒有人去戴著麥克風,而且會有多人同時說話,從專業(yè)角度來講,研究的前沿方向就是從近場麥克風轉向遠場麥克風,從無注意力機制轉向帶注意力機制。
邱元陽:騰訊AI Lab西雅圖研究室負責人、浙江大學兼職教授俞棟曾給出語音識別技術的四個前沿研究方向。
前沿研究方向一:語音序列到文字序列的直接轉換模型
在上期的語音識別工作原理的內容中,我們可以看到,從語音信號序列到文字序列之間,會有多個中間過程,包括切割分幀、波形變換、聲學特征提取、生成觀察序列、狀態(tài)識別、音素組合等,通過逐步轉換,最后轉換成詞的序列。如果通過數據驅動讓模型自己學習,就有可能找到一個更好的算法,使這個序列的轉換更準確、有效、直接。
例如,CTC(Connectionist Temporal Classification)模型,這種時序分類算法可以在系統(tǒng)確定“聽”到了某個字詞時產生一個尖峰狀態(tài),相比傳統(tǒng)的深度神經網絡與混合模型來說大大減小了建模單元,但模型的訓練難度較大。而Attention模型(Sequence-to-Sequence Transformation with Attention)則是帶有注意力機制的序列到序列轉換模型,其做法是首先把輸入的語音信號序列轉換成一個中間層序列表達,然后基于中間層序列表達提供足夠的信息給一個基于遞歸神經網絡的生成模型,每次生成一個字、一個詞或者一個音符,這個方法在機器翻譯中已經成為主流方案。
前沿研究方向二:非監(jiān)督學習到有監(jiān)督學習的轉換
在非常嘈雜或者多人同時說話的環(huán)境中,我們是能夠把注意力集中在某一個人的聲音上的,即有效屏蔽掉其他人聲和噪音的干擾,聽清所關注的人的聲音。但機器和語音識別系統(tǒng)卻很難做到這一點。在遠場情況下,信噪比下降得更厲害,這個問題就更突出也更難以解決,一般途徑是從之前的非監(jiān)督學習盲分類問題,轉換到人為定制的監(jiān)督信息的有監(jiān)督學習問題。
有監(jiān)督學習在多人說話時會遇到標簽排列問題(Label Permutation Problem),可以通過深度聚類(Deep Clustering)或PIT(Permutation Invariant Training,置換不變性訓練)方案解決。
前沿研究方向三:持續(xù)預測與適應的模型
CTC等模型雖然能夠較快地做適應(Prediction)、持續(xù)地做預測(Adaptation),但是性能不足并且很難訓練?,F在需要模型能夠非常快地做適應,發(fā)現一致的規(guī)律性并將其變?yōu)殚L遠記憶,使得下一次識別時會變成穩(wěn)定的狀態(tài),其他狀態(tài)則變成需要適應的狀態(tài),當遇到新的聲音樣本時可以很快地適應。
前沿研究方向四:前端與后端聯合優(yōu)化
出于遠場識別的需要,處理前端信號使用的是信號處理技術,一般只用到當前狀態(tài)下的語音信號信息,而機器學習方法則用到很多訓練器里的信息,并很少用到當前幀的信息,也不會對它進行數據建模。如何把這兩種方法融合在一起,并且減少前端信號處理有可能出現的信息丟失,也是很多研究組織正在努力的一個方向。
語音識別的應用領域
倪俊杰:帶著對未來語音識別技術的期待,在當下,我們可以在哪些應用領域使用語音識別?效果究竟如何?
金琦:在人工智能的加持下,目前語音識別雖然還有不少需要克服的困難,但是也已經取得了非常大的進步,在近場自由對話的情形下,機器已經能夠達到甚至超過人的識別水準。在這樣的水平下,語音識別的應用就可以擴展到非常多的場景和領域。
1.文字輸入
文字錄入是語音識別最基本的應用,一般通過語音輸入法進行。這方面做得較好的有IBM、微軟、科大訊飛等,很多輸入法都用的是訊飛的語音識別引擎。如果發(fā)音標準,在高達95%的識別率下,對于大量文字的錄入,效率還是比較高的,甚至對于一些OCR難度較大的材料,也可以采用人工語音輸入來解決。
2.語音轉換
把語音轉換成文字,看起來似乎跟語音輸入一樣,在QQ和微信中,也可以把聊天中發(fā)送的語音直接轉換成文字。但是在以前,如果想把一首MP3的朗誦文件轉換成文本,還是要大費周章的。現在這個問題就很簡單了,在語音識別引擎的支持下,很多軟件都能實現語音文件轉換。例如,利用搜狗輸入法的MP3轉文字功能,就可以把單田芳的評書MP3識別轉換成文本文件。
3.會場速記
會議速記是對錄入速度的極大考驗,因為正常說話的速度是每分鐘200多字,一般人的文字錄入速度不太容易達到。但是如果會議發(fā)言的語音較標準,環(huán)境噪聲小,就完全可以由機器對講話進行語音識別記錄,自動轉換成文字。例如,在一些法庭的庭審現場,也會通過語音識別來分擔書記員的工作。
4.錄音整理
很多時候,記者在采訪和訪談時都會錄音,以便回去后復聽,避免遺漏和錯誤。在整理這些錄音時,就可以采用語音識別的方法快速地得到文字版的采訪過程記錄,提高工作效率。
5.語音檢索
圖書館在查找資料時,常常會與檢索打交道。檢索方式從最初的卡片式檢索變?yōu)楹髞淼碾娮訖z索,很大程度地方便了借閱。但是如果支持語音檢索的話,會更進一步地提高檢索效率。
6.字幕轉換
在手機上的視頻剪輯軟件中,有一個功能很受歡迎,就是語音轉字幕。只要發(fā)音不是太難懂,視頻中的語音都可以很方便地轉換成字幕,并且保持與畫面同步,如快影、剪映等都有這個功能,不僅實用,而且極大地節(jié)省了制作時間。但是在計算機上的傳統(tǒng)視頻編輯軟件中,卻很少具備這種智能化操作功能。
7.聊天機器人
機器人能夠跟人聊天的前提,當然也是需要具備語音識別功能,能夠“聽”出人在說什么,并且還需要具備語義識別功能,即能夠聽“懂”人在說什么。微軟的小冰、IBM的沃森助理等,都具有較高的智能化水平。當然,它們不僅僅需要語音識別,更重要的是要基于人工智能、自然語言處理和大數據,才能實現像人一樣聊天。
8.智能音箱
智能音箱本質上也是一個聊天機器人,不過它從計算機和手機軟件中獨立出來,不再依賴于計算機和手機,適應性更好。常見的天貓精靈、小愛同學、百度小度等,都是具有一定智能和應用特色的產品。
9.智能聲控
用語音發(fā)命令,讓機器和設備去執(zhí)行,這早已不是科幻場景,在智能家居、車載設備上都已充分應用。其前提也是先運用語音識別。
10.人機交互
如果說簡單的聲控是單向響應的話,那么人機語音交互則是雙向溝通。最常見的車輛導航,可以接受駕駛人的語音指令,根據目的地啟用地圖和導航,然后再根據車輛定位的反饋向駕駛人發(fā)出指示。
以上僅僅是語音識別眾多應用場景的一部分,相信隨著語音識別技術的進步,還會出現更多的應用方向。
人工智能語音識別API應用
倪俊杰:既然語音識別技術已經相對成熟,那么我們能夠利用該技術做一些什么事情呢?百度AI平臺(https://ai.baidu.com/)是面向全球的AI開放平臺,為用戶提供了各類涉及推理預測、文字識別、圖像識別、語音識別、人臉識別等領域的API。我們不妨用百度AI平臺來做一些實驗。
黃鈳涵:是的,百度API能夠實現語音識別、文本翻譯等,要使用百度AI平臺,首先要注冊“百度”賬號。語音識別API的示例代碼如下頁圖1所示,其中AipSpeech為使用語音識別的開發(fā)人員提供了一系列的交互方法。
語音識別API對原始音頻的格式有著嚴格的限制:原始PCM的錄音參數必須符合16k、8k采樣率,16bit位深,單聲道,支持的格式有pcm(不壓縮)、wav(不壓縮,pcm編碼)、amr(壓縮格式)。因此,在編寫程序時需要對音頻進行重新采樣。
scipy.io庫提供了多種功能來解決不同格式的文件的輸入和輸出,定義compressMusic函數將原始音頻的采樣率改為16K,并在文件夾中創(chuàng)建一個名為“重采樣”的新文件,如圖2、圖3所示。
第1步:讀取文件(如圖4)。
第2步:重新采樣并輸出識別結果(如圖5、圖6)。
在文本翻譯方面,百度AI提供了一個專業(yè)的翻譯開放平臺(http://api.fanyi.baidu.com/),向開發(fā)者提供了更多豐富的能力。
當登錄平臺后,在上方導航欄中選擇“產品服務”—“在線翻譯”—“通用翻譯API”,在填入相關信息開通服務后,可在“開發(fā)者信息”中查看對應的APPID和密鑰。由于文本翻譯API還沒有對應的軟件工具開發(fā)包,因此其調用方式會有所不同,示例代碼如圖7所示,實驗結果如圖8所示。
本文結束語
語音識別技術發(fā)展到今天,其識別精度越來越高。這些技術已經能夠滿足平常應用的要求。而且,伴隨著大規(guī)模集成電路技術的發(fā)展,一些復雜的語音識別系統(tǒng)已經制成專用芯片,大量生產??梢韵嘈?,語音識別系統(tǒng)的應用將更加廣泛,給人類的生產生活帶來更大的便利,發(fā)揮更大的價值。至于語音識別技術的未來發(fā)展到底會怎么樣,能否擁有與人類一樣的“智慧”,目前還很難下定論,我們不妨拭目以待。