白娟
摘要:語音識(shí)別技術(shù)迅速發(fā)展,如何將其更好地應(yīng)用于教育教學(xué)領(lǐng)域成為廣大信息技術(shù)工作者關(guān)注的問題。文章對(duì)語音識(shí)別技術(shù)的工作方法及其教學(xué)應(yīng)用進(jìn)行探究,著重介紹了語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域應(yīng)用的幾種主要形式,包括:口語測(cè)評(píng)、學(xué)習(xí)記錄、智能演講臺(tái)、多媒體信息檢索等,闡述了語音識(shí)別技術(shù)應(yīng)用于教學(xué)領(lǐng)域的可行性,并對(duì)語音識(shí)別技術(shù)目前存在的問題以及未來發(fā)展走向成熟的可行之路進(jìn)行探討。
關(guān)鍵詞:語音識(shí)別;教學(xué)應(yīng)用;口語測(cè)評(píng);學(xué)習(xí)記錄
中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2020)07-105-03
0引言
語音識(shí)別技術(shù)就是把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的命令,從而使計(jì)算機(jī)能夠理解的一項(xiàng)技術(shù)。
計(jì)算機(jī)模擬人類交流信息的過程主要經(jīng)歷①自然語言生成→②語音合成→③語音識(shí)別→④自然語言理解這幾個(gè)步驟。如圖1。
1語音識(shí)別技術(shù)概述
1.1語音識(shí)別的基本原理
語音識(shí)別主要包括特征提取、模式匹配、參考模式庫等三個(gè)基本環(huán)節(jié),它的基本結(jié)構(gòu)如圖2所示。
經(jīng)過預(yù)處理、特征提取、訓(xùn)練、模式匹配等單元,計(jì)算機(jī)將自動(dòng)獲取識(shí)別結(jié)果。從這個(gè)過程可以看出,語音識(shí)別本質(zhì)上是一種模式識(shí)別系統(tǒng),語音模板質(zhì)量高低與算法優(yōu)劣,決定識(shí)別的效率和準(zhǔn)確度。
1.2語音識(shí)別的基本方法
語音識(shí)別的基本方法主要有如下三種。
(1)語音學(xué)和聲學(xué)的方法
語音學(xué)方法起步較早,但由于相應(yīng)模型庫和語音知識(shí)過于復(fù)雜,在實(shí)際應(yīng)用中存在多種問題,因而沒能得到大規(guī)模推廣使用。
(2)模板匹配的方法
模板匹配方法發(fā)展的較為成熟,目前常用的技術(shù)包括:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(HMM)理論、矢量量化(VQ)技術(shù)。
(3)神經(jīng)網(wǎng)絡(luò)的方法
基于神經(jīng)網(wǎng)絡(luò)的語音系統(tǒng)目前在識(shí)別中逐步得到廣泛應(yīng)用,其主要由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成。
2語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域的應(yīng)用
2.1自動(dòng)口語測(cè)評(píng)
使用人工智能的口語測(cè)評(píng)技術(shù)會(huì)告訴用戶,標(biāo)準(zhǔn)發(fā)音是什么,用戶讀的音又是什么,如同有老師在線輔導(dǎo)一般。目前,語言學(xué)習(xí)類的手機(jī)APP可以通過發(fā)音、重音、語調(diào)這3個(gè)層面去判斷用戶的發(fā)音。語言學(xué)習(xí)訓(xùn)練系統(tǒng)不僅能提供糾錯(cuò)反饋,判斷發(fā)音錯(cuò)誤的類型并給出相應(yīng)的矯正建議,同時(shí)還兼顧語音、重音、語調(diào)等多個(gè)方面,能為用戶提供更全面的語言學(xué)習(xí)體驗(yàn)。把語言學(xué)習(xí)技術(shù)深入到教育行業(yè),是語音識(shí)別技術(shù)在教育領(lǐng)域的一個(gè)重要應(yīng)用方向。
2.2智能學(xué)習(xí)助手
智能學(xué)習(xí)助手系統(tǒng),可以通過自動(dòng)做筆記解放學(xué)生的雙手,使學(xué)生更專注于聽講,并且在課下為學(xué)生推薦題目查漏補(bǔ)缺,提高學(xué)生的學(xué)習(xí)效率。
2.3基于語音的演講控制系統(tǒng)
基于語音識(shí)別技術(shù)的智慧演講系統(tǒng),由LCD顯示屏來展示不同形式的信息內(nèi)容,通過語音指令來控制講臺(tái)提詞系統(tǒng)的運(yùn)行,有效提高講臺(tái)提詞控制的智能化和個(gè)性化水平。
基于語音的演講控制系統(tǒng)則是增加語音識(shí)別程序,從而能夠控制提詞系統(tǒng)的進(jìn)度。自動(dòng)提詞系統(tǒng)軟件通過講臺(tái)桌面的USB接口,通過自動(dòng)讀取優(yōu)盤里的文檔內(nèi)容,用于演講者脫稿演講。講稿內(nèi)容的操作包括手動(dòng)和自動(dòng)兩種模式。手動(dòng)模式下,演講者通過操作鼠標(biāo)來對(duì)講稿點(diǎn)擊翻頁;自動(dòng)模式下,通過語音識(shí)別技術(shù)與提詞系統(tǒng)聯(lián)動(dòng),做到演講稿不讀不走、已讀標(biāo)注、嚴(yán)格與演講人演講進(jìn)程同步。
2.4基于內(nèi)容的多媒體信息檢索
傳統(tǒng)信息檢索技術(shù)主要是面向文本(text),早期階段,百度等搜索引擎主要采用文本檢索技術(shù),隨著技術(shù)發(fā)展,搜索引擎及手機(jī)APP融入語音、圖像等多種跨信息檢索方式。
基于內(nèi)容的多媒體信息檢索技術(shù)主要包括對(duì)圖像、視頻和音頻等多媒體信息的內(nèi)容處理和分析、自動(dòng)標(biāo)注、構(gòu)建索引和相似檢索等。例如:通過輸入語音信息,檢索需要的音視頻片段?;趦?nèi)容的多媒體信息檢索可以融入語音、視頻、圖像,以及其他信息,從而分析語義,獲取用戶需要的信息。
3語音技術(shù)存在的問題探討
3.1語音環(huán)境
受制于復(fù)雜的環(huán)境,像含糊不清的口音、噪聲環(huán)境、多人對(duì)話場(chǎng)所等都能給語音識(shí)別造成影響,一旦識(shí)別錯(cuò)誤就可能改變整句話的意思。
3.2語言對(duì)象
語音信息隨說話對(duì)象的不同而產(chǎn)生較大變化。例如,一個(gè)演講者在正式場(chǎng)合說話和私底下交談時(shí)的語音信息是有較大變化的。因此,進(jìn)行語音識(shí)別時(shí),不同語音信息量也需要根據(jù)不同環(huán)境進(jìn)行優(yōu)化處理。
3.3噪聲干擾
環(huán)境噪聲和干擾對(duì)語音識(shí)別有嚴(yán)重影響,致使識(shí)別率低。目前所提到高識(shí)別率,還停留在“近場(chǎng)語音識(shí)別”的階段,達(dá)不到自然的人機(jī)交互模式,即“遠(yuǎn)場(chǎng)語音識(shí)別”的階段。
3.4語音與語義
將語音轉(zhuǎn)換成文字并不是最終目的,語音識(shí)別的目標(biāo)是讓機(jī)器可以理解人類,如何將語音識(shí)別和語義理解結(jié)合起來可能是未來更為重要的一個(gè)方向。語義理解需要更多的歷史信息才能有幫助,因此如何將更多上下文會(huì)話信息傳遞給語音識(shí)別引擎是—個(gè)難題。
4語音技術(shù)的未來與發(fā)展
4.1從“近場(chǎng)語音識(shí)別”向“遠(yuǎn)場(chǎng)語音識(shí)別發(fā)展”
“近場(chǎng)語音識(shí)別”要求必須是低噪聲、無混響、距離聲源很近的場(chǎng)景,比如用戶總是要對(duì)著手機(jī)講話才能獲得符合近場(chǎng)語音識(shí)別要求的聲音信號(hào),同時(shí)還要求用戶滿足標(biāo)準(zhǔn)發(fā)音,其識(shí)別率才有可能達(dá)到95%以上?!斑h(yuǎn)場(chǎng)語音識(shí)別”即聲源距離距離較遠(yuǎn),并且真實(shí)環(huán)境中存在大量的噪聲、多徑反射和混響等,在這種情況下,會(huì)導(dǎo)致拾取信號(hào)的質(zhì)量下降,影響目前的語音識(shí)別率。
遠(yuǎn)場(chǎng)語音交互技術(shù)正在逐步成熟。亞馬遜Echo的初步成功,已經(jīng)佐證了遠(yuǎn)場(chǎng)語音識(shí)別的強(qiáng)大需求。目前,科大訊飛和聲智科技都在這個(gè)方面不斷前進(jìn)發(fā)展。
4.2自然語言理解還有很長(zhǎng)的路要走
目前的語音識(shí)別,很多還停留在speech-to-text的階段,還需要繼續(xù)向speech-to-meaning的階段發(fā)展。語音識(shí)別,得益于基礎(chǔ)聲學(xué)和語音識(shí)別的巨大進(jìn)步,但還需要自然語言處理(NamrM Language Process,NLP),以及自然語言理解(Natural Language Under-standing,NLU)方向繼續(xù)前進(jìn)。
基礎(chǔ)聲學(xué)和語音識(shí)別解決的是計(jì)算機(jī)“聽得見”的問題,而在未來“聽得懂”才是最為關(guān)鍵的問題。自然語言處理的進(jìn)展還沒有找到理想的突破點(diǎn),若想要達(dá)到人類的這種理解層次,還需要走很長(zhǎng)的路。
4.3全同聲傳譯系統(tǒng)還需不斷走向完善成熟
全自動(dòng)同聲傳譯系統(tǒng)包含語音識(shí)別、機(jī)器翻譯以及語音合成等模塊,實(shí)現(xiàn)語種間的翻譯,實(shí)現(xiàn)過程流暢,核心技術(shù)采用深度學(xué)習(xí)算法?,F(xiàn)有的同聲傳譯系統(tǒng)在語義理解、語音識(shí)別、斷句切割、語音合成等方面還存在不足,還不能做到譯音質(zhì)量的高標(biāo)準(zhǔn)要求,還不能完全與同傳譯員競(jìng)爭(zhēng)。因此,提高語言翻譯質(zhì)量,加強(qiáng)全自動(dòng)同傳系統(tǒng)在背景噪聲、較快語速下的語音識(shí)別,增強(qiáng)不同語種間的互譯,是未來語音識(shí)別與機(jī)器翻譯結(jié)合的重點(diǎn)發(fā)展方向之一。
5結(jié)束語
語音識(shí)別技術(shù)的應(yīng)用必將隨著人工智能的整體發(fā)展不斷趨向成熟,在未來,語音識(shí)別技術(shù)必將深入應(yīng)用到教育教學(xué)的各個(gè)方面,促進(jìn)信息技術(shù)與教育教學(xué)的深度融合。語音技術(shù)的發(fā)展將進(jìn)一步助力外語及語言教學(xué),提高教學(xué)效率、改善教學(xué)效果,促進(jìn)人工智能技術(shù)的整體發(fā)展。