語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域中的應(yīng)用與思考

2020-08-06 15:01白娟

計(jì)算機(jī)時(shí)代 2020年7期

白娟

摘要：語音識(shí)別技術(shù)迅速發(fā)展，如何將其更好地應(yīng)用于教育教學(xué)領(lǐng)域成為廣大信息技術(shù)工作者關(guān)注的問題。文章對(duì)語音識(shí)別技術(shù)的工作方法及其教學(xué)應(yīng)用進(jìn)行探究，著重介紹了語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域應(yīng)用的幾種主要形式，包括：口語測(cè)評(píng)、學(xué)習(xí)記錄、智能演講臺(tái)、多媒體信息檢索等，闡述了語音識(shí)別技術(shù)應(yīng)用于教學(xué)領(lǐng)域的可行性，并對(duì)語音識(shí)別技術(shù)目前存在的問題以及未來發(fā)展走向成熟的可行之路進(jìn)行探討。

關(guān)鍵詞：語音識(shí)別;教學(xué)應(yīng)用;口語測(cè)評(píng);學(xué)習(xí)記錄

中圖分類號(hào)：G434 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1006-8228（2020）07-105-03

0引言

語音識(shí)別技術(shù)就是把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的命令，從而使計(jì)算機(jī)能夠理解的一項(xiàng)技術(shù)。

計(jì)算機(jī)模擬人類交流信息的過程主要經(jīng)歷①自然語言生成→②語音合成→③語音識(shí)別→④自然語言理解這幾個(gè)步驟。如圖1。

1語音識(shí)別技術(shù)概述

1.1語音識(shí)別的基本原理

語音識(shí)別主要包括特征提取、模式匹配、參考模式庫等三個(gè)基本環(huán)節(jié)，它的基本結(jié)構(gòu)如圖2所示。

經(jīng)過預(yù)處理、特征提取、訓(xùn)練、模式匹配等單元，計(jì)算機(jī)將自動(dòng)獲取識(shí)別結(jié)果。從這個(gè)過程可以看出，語音識(shí)別本質(zhì)上是一種模式識(shí)別系統(tǒng)，語音模板質(zhì)量高低與算法優(yōu)劣，決定識(shí)別的效率和準(zhǔn)確度。

1.2語音識(shí)別的基本方法

語音識(shí)別的基本方法主要有如下三種。

（1）語音學(xué)和聲學(xué)的方法

語音學(xué)方法起步較早，但由于相應(yīng)模型庫和語音知識(shí)過于復(fù)雜，在實(shí)際應(yīng)用中存在多種問題，因而沒能得到大規(guī)模推廣使用。

（2）模板匹配的方法

模板匹配方法發(fā)展的較為成熟，目前常用的技術(shù)包括：動(dòng)態(tài)時(shí)間規(guī)整（DTW）、隱馬爾可夫（HMM）理論、矢量量化（VQ）技術(shù)。

（3）神經(jīng)網(wǎng)絡(luò)的方法

基于神經(jīng)網(wǎng)絡(luò)的語音系統(tǒng)目前在識(shí)別中逐步得到廣泛應(yīng)用，其主要由神經(jīng)元、訓(xùn)練算法及網(wǎng)絡(luò)結(jié)構(gòu)等三大要素構(gòu)成。

2語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域的應(yīng)用

2.1自動(dòng)口語測(cè)評(píng)

使用人工智能的口語測(cè)評(píng)技術(shù)會(huì)告訴用戶，標(biāo)準(zhǔn)發(fā)音是什么，用戶讀的音又是什么，如同有老師在線輔導(dǎo)一般。目前，語言學(xué)習(xí)類的手機(jī)APP可以通過發(fā)音、重音、語調(diào)這3個(gè)層面去判斷用戶的發(fā)音。語言學(xué)習(xí)訓(xùn)練系統(tǒng)不僅能提供糾錯(cuò)反饋，判斷發(fā)音錯(cuò)誤的類型并給出相應(yīng)的矯正建議，同時(shí)還兼顧語音、重音、語調(diào)等多個(gè)方面，能為用戶提供更全面的語言學(xué)習(xí)體驗(yàn)。把語言學(xué)習(xí)技術(shù)深入到教育行業(yè)，是語音識(shí)別技術(shù)在教育領(lǐng)域的一個(gè)重要應(yīng)用方向。

2.2智能學(xué)習(xí)助手

智能學(xué)習(xí)助手系統(tǒng)，可以通過自動(dòng)做筆記解放學(xué)生的雙手，使學(xué)生更專注于聽講，并且在課下為學(xué)生推薦題目查漏補(bǔ)缺，提高學(xué)生的學(xué)習(xí)效率。

2.3基于語音的演講控制系統(tǒng)

基于語音識(shí)別技術(shù)的智慧演講系統(tǒng)，由LCD顯示屏來展示不同形式的信息內(nèi)容，通過語音指令來控制講臺(tái)提詞系統(tǒng)的運(yùn)行，有效提高講臺(tái)提詞控制的智能化和個(gè)性化水平。

基于語音的演講控制系統(tǒng)則是增加語音識(shí)別程序，從而能夠控制提詞系統(tǒng)的進(jìn)度。自動(dòng)提詞系統(tǒng)軟件通過講臺(tái)桌面的USB接口，通過自動(dòng)讀取優(yōu)盤里的文檔內(nèi)容，用于演講者脫稿演講。講稿內(nèi)容的操作包括手動(dòng)和自動(dòng)兩種模式。手動(dòng)模式下，演講者通過操作鼠標(biāo)來對(duì)講稿點(diǎn)擊翻頁;自動(dòng)模式下，通過語音識(shí)別技術(shù)與提詞系統(tǒng)聯(lián)動(dòng)，做到演講稿不讀不走、已讀標(biāo)注、嚴(yán)格與演講人演講進(jìn)程同步。

2.4基于內(nèi)容的多媒體信息檢索

傳統(tǒng)信息檢索技術(shù)主要是面向文本（text），早期階段，百度等搜索引擎主要采用文本檢索技術(shù)，隨著技術(shù)發(fā)展，搜索引擎及手機(jī)APP融入語音、圖像等多種跨信息檢索方式。

基于內(nèi)容的多媒體信息檢索技術(shù)主要包括對(duì)圖像、視頻和音頻等多媒體信息的內(nèi)容處理和分析、自動(dòng)標(biāo)注、構(gòu)建索引和相似檢索等。例如：通過輸入語音信息，檢索需要的音視頻片段?；趦?nèi)容的多媒體信息檢索可以融入語音、視頻、圖像，以及其他信息，從而分析語義，獲取用戶需要的信息。

3語音技術(shù)存在的問題探討

3.1語音環(huán)境

受制于復(fù)雜的環(huán)境，像含糊不清的口音、噪聲環(huán)境、多人對(duì)話場(chǎng)所等都能給語音識(shí)別造成影響，一旦識(shí)別錯(cuò)誤就可能改變整句話的意思。

3.2語言對(duì)象

語音信息隨說話對(duì)象的不同而產(chǎn)生較大變化。例如，一個(gè)演講者在正式場(chǎng)合說話和私底下交談時(shí)的語音信息是有較大變化的。因此，進(jìn)行語音識(shí)別時(shí)，不同語音信息量也需要根據(jù)不同環(huán)境進(jìn)行優(yōu)化處理。

3.3噪聲干擾

環(huán)境噪聲和干擾對(duì)語音識(shí)別有嚴(yán)重影響，致使識(shí)別率低。目前所提到高識(shí)別率，還停留在“近場(chǎng)語音識(shí)別”的階段，達(dá)不到自然的人機(jī)交互模式，即“遠(yuǎn)場(chǎng)語音識(shí)別”的階段。

3.4語音與語義

將語音轉(zhuǎn)換成文字并不是最終目的，語音識(shí)別的目標(biāo)是讓機(jī)器可以理解人類，如何將語音識(shí)別和語義理解結(jié)合起來可能是未來更為重要的一個(gè)方向。語義理解需要更多的歷史信息才能有幫助，因此如何將更多上下文會(huì)話信息傳遞給語音識(shí)別引擎是—個(gè)難題。

4語音技術(shù)的未來與發(fā)展

4.1從“近場(chǎng)語音識(shí)別”向“遠(yuǎn)場(chǎng)語音識(shí)別發(fā)展”

“近場(chǎng)語音識(shí)別”要求必須是低噪聲、無混響、距離聲源很近的場(chǎng)景，比如用戶總是要對(duì)著手機(jī)講話才能獲得符合近場(chǎng)語音識(shí)別要求的聲音信號(hào)，同時(shí)還要求用戶滿足標(biāo)準(zhǔn)發(fā)音，其識(shí)別率才有可能達(dá)到95%以上?！斑h(yuǎn)場(chǎng)語音識(shí)別”即聲源距離距離較遠(yuǎn)，并且真實(shí)環(huán)境中存在大量的噪聲、多徑反射和混響等，在這種情況下，會(huì)導(dǎo)致拾取信號(hào)的質(zhì)量下降，影響目前的語音識(shí)別率。

遠(yuǎn)場(chǎng)語音交互技術(shù)正在逐步成熟。亞馬遜Echo的初步成功，已經(jīng)佐證了遠(yuǎn)場(chǎng)語音識(shí)別的強(qiáng)大需求。目前，科大訊飛和聲智科技都在這個(gè)方面不斷前進(jìn)發(fā)展。

4.2自然語言理解還有很長(zhǎng)的路要走

目前的語音識(shí)別，很多還停留在speech-to-text的階段，還需要繼續(xù)向speech-to-meaning的階段發(fā)展。語音識(shí)別，得益于基礎(chǔ)聲學(xué)和語音識(shí)別的巨大進(jìn)步，但還需要自然語言處理（NamrM Language Process，NLP），以及自然語言理解（Natural Language Under-standing，NLU）方向繼續(xù)前進(jìn)。

基礎(chǔ)聲學(xué)和語音識(shí)別解決的是計(jì)算機(jī)“聽得見”的問題，而在未來“聽得懂”才是最為關(guān)鍵的問題。自然語言處理的進(jìn)展還沒有找到理想的突破點(diǎn)，若想要達(dá)到人類的這種理解層次，還需要走很長(zhǎng)的路。

4.3全同聲傳譯系統(tǒng)還需不斷走向完善成熟

全自動(dòng)同聲傳譯系統(tǒng)包含語音識(shí)別、機(jī)器翻譯以及語音合成等模塊，實(shí)現(xiàn)語種間的翻譯，實(shí)現(xiàn)過程流暢，核心技術(shù)采用深度學(xué)習(xí)算法?，F(xiàn)有的同聲傳譯系統(tǒng)在語義理解、語音識(shí)別、斷句切割、語音合成等方面還存在不足，還不能做到譯音質(zhì)量的高標(biāo)準(zhǔn)要求，還不能完全與同傳譯員競(jìng)爭(zhēng)。因此，提高語言翻譯質(zhì)量，加強(qiáng)全自動(dòng)同傳系統(tǒng)在背景噪聲、較快語速下的語音識(shí)別，增強(qiáng)不同語種間的互譯，是未來語音識(shí)別與機(jī)器翻譯結(jié)合的重點(diǎn)發(fā)展方向之一。

5結(jié)束語

語音識(shí)別技術(shù)的應(yīng)用必將隨著人工智能的整體發(fā)展不斷趨向成熟，在未來，語音識(shí)別技術(shù)必將深入應(yīng)用到教育教學(xué)的各個(gè)方面，促進(jìn)信息技術(shù)與教育教學(xué)的深度融合。語音技術(shù)的發(fā)展將進(jìn)一步助力外語及語言教學(xué)，提高教學(xué)效率、改善教學(xué)效果，促進(jìn)人工智能技術(shù)的整體發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語音識(shí)別技術(shù)在教育教學(xué)領(lǐng)域中的應(yīng)用與思考