王少華
(陜西能源職業(yè)技術(shù)學(xué)院人文與教育學(xué)院,陜西咸陽(yáng) 712000)
隨著人機(jī)交互技術(shù)不斷發(fā)展,語(yǔ)音識(shí)別技術(shù)已逐漸成為翻譯過(guò)程中備受關(guān)注和控制的技術(shù),為此在語(yǔ)音識(shí)別技術(shù)的支持下,設(shè)計(jì)了一種基于語(yǔ)音識(shí)別的英語(yǔ)名詞短語(yǔ)在線(xiàn)翻譯系統(tǒng),該系統(tǒng)能夠利用語(yǔ)音交互技術(shù)來(lái)顯示翻譯過(guò)程的智能化,利用多種語(yǔ)音算法,改變?cè)姓Z(yǔ)音識(shí)別技術(shù)中存在的不足,實(shí)現(xiàn)了英語(yǔ)在線(xiàn)翻譯的智能化。國(guó)外研究語(yǔ)音識(shí)別技術(shù)較早,在設(shè)計(jì)在線(xiàn)翻譯系統(tǒng)時(shí),如今的研究可劃分為大詞匯量的連續(xù)語(yǔ)音識(shí)別系統(tǒng)以及靈活性較強(qiáng)的語(yǔ)音交互系統(tǒng),設(shè)計(jì)得到了多種語(yǔ)音識(shí)別硬件載體。國(guó)內(nèi)在研究語(yǔ)音識(shí)別技術(shù)較晚,隨著硬件大規(guī)模集成電路技術(shù)不斷地發(fā)展,如今研究得到了多種識(shí)別算法,在分析得到的數(shù)據(jù)以及模式支持下,改善了原有識(shí)別算法模型中存在的不足,設(shè)計(jì)得到了多種語(yǔ)義識(shí)別技術(shù)。文獻(xiàn)[1]中設(shè)計(jì)了一種基于最長(zhǎng)名詞短語(yǔ)分治策略的神經(jīng)機(jī)器翻譯系統(tǒng)。該系統(tǒng)根據(jù)分治法的原理,篩選句中的最長(zhǎng)名詞短語(yǔ)并保留核心詞。然后將兩者與其余部分組建句子框架,再利用神經(jīng)機(jī)器網(wǎng)絡(luò)分別翻譯其句子框架,通過(guò)譯文重新組合實(shí)現(xiàn)對(duì)名詞短語(yǔ)的翻譯。文獻(xiàn)[2]設(shè)計(jì)了基于多語(yǔ)言交互的英語(yǔ)翻譯在線(xiàn)輔助系統(tǒng),該系統(tǒng)由系統(tǒng)收發(fā)單元、自動(dòng)翻譯單元、人工校正單元、任務(wù)管理單元和記憶庫(kù)管理單元5 個(gè)部分組成,系統(tǒng)流程主要包括:基于多語(yǔ)言交互的英語(yǔ)翻譯服務(wù)流程和基于項(xiàng)目的多語(yǔ)言交互英語(yǔ)翻譯服務(wù)流程設(shè)計(jì)。但是以上兩種系統(tǒng)在線(xiàn)翻譯語(yǔ)音識(shí)別率較低,因此本文設(shè)計(jì)了一種基于語(yǔ)音識(shí)別技術(shù)的英語(yǔ)名詞短語(yǔ)在線(xiàn)翻譯系統(tǒng)。
選用ARM嵌入式處理器S3C2440作為語(yǔ)音識(shí)別模塊的中央處理器,并使用該單元外部?jī)蓚€(gè)串行外設(shè)接口進(jìn)行數(shù)據(jù)傳輸,實(shí)現(xiàn)英語(yǔ)名詞短語(yǔ)的轉(zhuǎn)換。開(kāi)發(fā)板選擇了通用開(kāi)發(fā)板TQ2440,使用其自帶的處理器,設(shè)定開(kāi)發(fā)板內(nèi)部的SDRAM控制器和外部存儲(chǔ)控制器的主頻率設(shè)置為350MHz[3-4]。以開(kāi)發(fā)板內(nèi)的GPIO口為外部拓展接口,將開(kāi)發(fā)板中多個(gè)接口作為其他硬件接口,所設(shè)計(jì)的語(yǔ)音識(shí)別硬件模塊結(jié)構(gòu)如圖1所示。語(yǔ)音識(shí)別模塊可分為音頻芯片驅(qū)動(dòng)模塊、音頻處理模塊、儲(chǔ)存模塊以及電源模塊[5]。音頻采集模塊以音頻芯片NAU85LC10 作為核心,使用芯片內(nèi)的MIC+和MIC-內(nèi)的引腳,連接外部電源模塊以及儲(chǔ)存模塊的接口。使用芯片內(nèi)部的數(shù)字音頻接口I2C、PCM,將控制數(shù)字音頻I2C接口連接到串行控制接口后,設(shè)定芯片的可變采樣率為20KHz[6]。
圖1 設(shè)計(jì)得到的語(yǔ)音識(shí)別硬件模塊結(jié)構(gòu)
該芯片內(nèi)部集成了數(shù)模轉(zhuǎn)換器和模數(shù)轉(zhuǎn)換器,其中控制數(shù)模轉(zhuǎn)換器與芯片I2C接口相連,控制I2S接口負(fù)責(zé)收發(fā)音頻數(shù)據(jù),語(yǔ)音識(shí)別模塊的主處理器與該音頻芯片間的連接結(jié)構(gòu)如下圖所示。
圖2 連接結(jié)構(gòu)圖
在上圖所示的連接結(jié)構(gòu)圖中,為了減少芯片引腳的占用,將I2C接口作為數(shù)據(jù)傳輸口,將連接結(jié)構(gòu)內(nèi)部的MCU作為主設(shè)備,實(shí)現(xiàn)硬件間的互通[7]。
在圖1的語(yǔ)音識(shí)別模塊中,根據(jù)語(yǔ)音識(shí)別芯片的引腳功能,將LD_LOUTR和LD_LOUTL作為芯片輸出的左右端,將引腳LD_SPOP和LD_SPON作為語(yǔ)音麥克輸入的負(fù)極和正極[8],使用一條串行數(shù)據(jù)線(xiàn)SDA與時(shí)鐘線(xiàn)SCL連接語(yǔ)音芯片的引腳P1.6與P1.7,芯片的引腳分配情況如圖3所示。
圖3 芯片的引腳分配情況
由圖3所示的引腳分配情況可知,設(shè)定語(yǔ)音識(shí)別模塊的電源電壓為3.3V 后,為了抑制語(yǔ)音輸入硬件中產(chǎn)生的信號(hào)噪聲,在設(shè)計(jì)的開(kāi)發(fā)板內(nèi),控制模擬電路與數(shù)字電路在電源處相連,在采集語(yǔ)音的元件模塊內(nèi)設(shè)置多個(gè)海綿口,通過(guò)海綿口與語(yǔ)音接收元件間的接觸,來(lái)消除接收語(yǔ)音外部的噪音。綜合上述設(shè)計(jì),完成對(duì)在線(xiàn)翻譯系統(tǒng)的硬件設(shè)計(jì)[9]。
在不同個(gè)體語(yǔ)音的影響下,使用上述設(shè)計(jì)硬件采集得到的英語(yǔ)名詞短語(yǔ)語(yǔ)音信號(hào)會(huì)產(chǎn)生一定的衰減,為了抑制該部分衰減,使用一階FIR 的高速數(shù)字濾波器,來(lái)構(gòu)建一個(gè)信號(hào)傳遞函數(shù),可表示為:
其中,a表示預(yù)加重系數(shù),Z表示信號(hào)傳遞函數(shù)。在上述信號(hào)傳遞過(guò)程下,需要對(duì)每幀信號(hào)進(jìn)行傅里葉變化,設(shè)定變化的周期為2,變化過(guò)程就可表示為:
其中,w(n-m)表示窗口函數(shù)序列,m表示窗口長(zhǎng)度,x(m)表示信號(hào)序列,j表示信號(hào)分量參數(shù),k表示窗口函數(shù)序列卷積。N代表窗口函數(shù)序列個(gè)數(shù),在上述短時(shí)變化處理下,語(yǔ)音信號(hào)產(chǎn)生了部分的信號(hào)分量,映射處理該部分分量至一個(gè)二維空間[10],產(chǎn)生的短時(shí)幅度譜,如圖4所示。采用梅爾標(biāo)度濾波控制短時(shí)語(yǔ)音信號(hào)的頻率分辨力,可表示為:
圖4 產(chǎn)生的短時(shí)幅度譜
其中,β表示短時(shí)幅度參數(shù),f表示語(yǔ)音信號(hào)的頻率數(shù)值,ε表示轉(zhuǎn)化參數(shù)。增強(qiáng)語(yǔ)音信號(hào)的分辨力后,完成對(duì)英語(yǔ)名詞短語(yǔ)語(yǔ)音信號(hào)的采集,在實(shí)現(xiàn)在線(xiàn)翻譯系統(tǒng)功能時(shí),構(gòu)建在線(xiàn)翻譯功能軟件框架。
在構(gòu)建在線(xiàn)翻譯功能軟件框架時(shí),利用采集得到的語(yǔ)音信號(hào)數(shù)據(jù),建立一個(gè)本地詞庫(kù),將該詞庫(kù)作為加載功能數(shù)據(jù)的查詢(xún)文件。使用JAVA 編程處理一個(gè)在線(xiàn)翻譯程序主頁(yè)面,細(xì)化得到的在線(xiàn)翻譯程序功能結(jié)構(gòu)如圖5所示。
圖5 程序功能結(jié)構(gòu)
在上圖所示的程序功能結(jié)構(gòu)下,采用MVC 應(yīng)用程序中的數(shù)據(jù)模型、視圖、控制器三個(gè)核心組件,將采集得到的數(shù)據(jù)與固定的聲音信號(hào)相結(jié)合。以XLM界面作為軟件功能的處理階段,形成的功能框架如圖6所示。
圖6 建立的功能框架
根據(jù)以上的功能框架上,在視圖層采用XML 文件作為在線(xiàn)翻譯頁(yè)面,并結(jié)合使用JavaScript+HTML 來(lái)實(shí)現(xiàn)語(yǔ)音識(shí)別結(jié)果的實(shí)時(shí)反饋。在控制層內(nèi)設(shè)置一個(gè)Activity 作為功能邏輯,在模型層內(nèi),采用SQLite3 作為英語(yǔ)名詞短語(yǔ)的數(shù)據(jù)庫(kù)結(jié)構(gòu),在服務(wù)器端內(nèi)實(shí)現(xiàn)的翻譯程序支持下,構(gòu)建得到一個(gè)在線(xiàn)翻譯過(guò)程。綜合上述分析,最終完成對(duì)基于語(yǔ)音識(shí)別的英語(yǔ)名詞短語(yǔ)在線(xiàn)翻譯系統(tǒng)的設(shè)計(jì)。
使用Eclipse集成開(kāi)發(fā)環(huán)境,準(zhǔn)備操作系統(tǒng)為Windows10、64 位操作系統(tǒng),處理器為Intel(R)Core(TM)i3 CPU M370@2.40GHZ、內(nèi)存為4G的計(jì)算機(jī)作為系統(tǒng)測(cè)試設(shè)備,調(diào)試在線(xiàn)翻譯系統(tǒng)的軟件結(jié)構(gòu)。
在主程序頁(yè)面下,設(shè)置功能檢測(cè)在線(xiàn)翻譯系統(tǒng)的發(fā)音引擎后,調(diào)用在線(xiàn)翻譯系統(tǒng)的測(cè)試功能,使用Mel 譜圖生成模塊,將語(yǔ)音識(shí)別的音頻進(jìn)行分幀、加窗、預(yù)處理后生成Mel譜圖。使用該Mel譜圖重建在線(xiàn)系統(tǒng)接收到的語(yǔ)音波形,在保存為wav格式的音頻文件后,形成的語(yǔ)音翻譯過(guò)程。
在語(yǔ)音信號(hào)翻譯過(guò)程中,按照英語(yǔ)名詞短語(yǔ)的內(nèi)容,將在線(xiàn)翻譯系統(tǒng)的語(yǔ)料內(nèi)容劃分為三種,第一組為5s及以上的語(yǔ)音,第二組為7s~10s 的語(yǔ)音,第三組為11s 以上的語(yǔ)音,語(yǔ)料分組的詳細(xì)情況如表1所示。
表1 使用的英語(yǔ)名詞短語(yǔ)分組信息
以上述表格中所設(shè)置的英語(yǔ)名詞短語(yǔ)作為實(shí)驗(yàn)對(duì)象,分別使用文獻(xiàn)[1]、文獻(xiàn)[2]中的在線(xiàn)翻譯系統(tǒng)以及文中設(shè)計(jì)的在線(xiàn)翻譯系統(tǒng)進(jìn)行實(shí)驗(yàn),對(duì)比三種在線(xiàn)翻譯系統(tǒng)的性能。
在以上實(shí)驗(yàn)準(zhǔn)備的基礎(chǔ)上,控制三種在線(xiàn)翻譯系統(tǒng)同時(shí)處理實(shí)驗(yàn)準(zhǔn)備的英語(yǔ)名詞短語(yǔ)語(yǔ)料,定義三種在線(xiàn)翻譯系統(tǒng)的語(yǔ)音翻譯效果可表示為:
其中,BP表示準(zhǔn)備語(yǔ)料中懲罰因子的數(shù)值,Pn表示修正語(yǔ)料的元精度,wn表示元精度的權(quán)重。定義該數(shù)值越大則表示翻譯效果越好,在第一組輸入語(yǔ)音句子詞數(shù)內(nèi),統(tǒng)計(jì)得到三種在線(xiàn)翻譯系統(tǒng)的翻譯效果,結(jié)果如表2所示。
表2 三種在線(xiàn)翻譯系統(tǒng)語(yǔ)音識(shí)別結(jié)果
由圖7所示的實(shí)驗(yàn)結(jié)果可知,在三種在線(xiàn)翻譯系統(tǒng)控制下,針對(duì)相同內(nèi)容的英語(yǔ)名詞語(yǔ)音內(nèi)容來(lái)講,文獻(xiàn)[1]中在線(xiàn)翻譯系統(tǒng)得到的平均BLUE 數(shù)值在0.25 左右,對(duì)應(yīng)得到的翻譯效果較差,文獻(xiàn)[2]中的在線(xiàn)翻譯系統(tǒng)得到的平均BLUE數(shù)值在0.27左右,數(shù)值較大,該種在線(xiàn)翻譯系統(tǒng)的翻譯效果較好。而該文設(shè)計(jì)的在線(xiàn)翻譯系統(tǒng)得到的平均BLUE 數(shù)值在0.31左右,與兩種文獻(xiàn)中的在線(xiàn)翻譯系統(tǒng)相比,該種在線(xiàn)翻譯系統(tǒng)的翻譯效果最佳。
基于以上實(shí)驗(yàn)環(huán)境,控制三種在線(xiàn)翻譯系統(tǒng)處理實(shí)驗(yàn)準(zhǔn)備的第二組英語(yǔ)名詞短語(yǔ)分組,使用相同參數(shù)的計(jì)算機(jī)承載三種在線(xiàn)翻譯系統(tǒng)后,當(dāng)三種在線(xiàn)翻譯系統(tǒng)處理第二組名詞短語(yǔ)數(shù)據(jù)信息時(shí),調(diào)用承載翻譯系統(tǒng)的任務(wù)管理器,設(shè)定系統(tǒng)CPU的占用率統(tǒng)計(jì)周期為60s,三種在線(xiàn)翻譯系統(tǒng)的CPU占用率結(jié)果如圖7所示。
圖7 三種在線(xiàn)翻譯系統(tǒng)翻譯效果實(shí)驗(yàn)結(jié)果
由圖8所示的CPU 占有率結(jié)果可知,控制三種在線(xiàn)翻譯系統(tǒng)處理相同的英語(yǔ)名詞短語(yǔ)語(yǔ)音時(shí),根據(jù)上圖結(jié)果,文獻(xiàn)[1]中的在線(xiàn)翻譯系統(tǒng)在相同統(tǒng)計(jì)時(shí)間內(nèi)CPU的占有率在80%左右,實(shí)際運(yùn)行時(shí)占據(jù)的運(yùn)行較高,文獻(xiàn)[2]中的在線(xiàn)翻譯系統(tǒng)在周期內(nèi),產(chǎn)生的CPU占有率在65%左右,實(shí)際運(yùn)行時(shí)CPU的占有率數(shù)值較大,而文中設(shè)計(jì)的在線(xiàn)翻譯系統(tǒng),在相同的實(shí)驗(yàn)周期內(nèi),英語(yǔ)名詞短語(yǔ)的CPU 占有率在40%左右,與兩種文獻(xiàn)中的在線(xiàn)系統(tǒng)相比,該種在線(xiàn)翻譯系統(tǒng)實(shí)際運(yùn)行時(shí),形成的CPU占有率最小。
圖8 三種在線(xiàn)翻譯系統(tǒng)運(yùn)行時(shí)的CPU占有率結(jié)果
保持上述實(shí)驗(yàn)環(huán)境不變,控制三種在線(xiàn)翻譯系統(tǒng)處理實(shí)驗(yàn)準(zhǔn)備的第三組英語(yǔ)名詞短語(yǔ)分組信息,采集十位人員讀取準(zhǔn)備測(cè)試集內(nèi)的英語(yǔ)名詞短語(yǔ),以三種在線(xiàn)翻譯系統(tǒng)對(duì)不同音調(diào)的識(shí)別結(jié)果作為對(duì)比指標(biāo),實(shí)際的語(yǔ)音識(shí)別率可計(jì)算為:
其中,R表示在線(xiàn)翻譯系統(tǒng)已識(shí)別得到的英語(yǔ)名詞短語(yǔ),Rn表示在線(xiàn)翻譯系統(tǒng)識(shí)別英語(yǔ)名詞短語(yǔ)總值。統(tǒng)計(jì)三種系統(tǒng)所對(duì)應(yīng)的語(yǔ)音識(shí)別率,最終三種在線(xiàn)翻譯系統(tǒng)的語(yǔ)音識(shí)別結(jié)果,如表2所示。
由表2計(jì)算統(tǒng)計(jì)得到的語(yǔ)音識(shí)別率結(jié)果表明,在十五種不同的語(yǔ)調(diào)控制下,三種在線(xiàn)翻譯系統(tǒng)表現(xiàn)出了不同的識(shí)別率結(jié)果,文獻(xiàn)[1]中的在線(xiàn)翻譯系統(tǒng)的平均語(yǔ)音識(shí)別率在62.9%左右,實(shí)際語(yǔ)音識(shí)別率數(shù)值較小,在線(xiàn)翻譯結(jié)果不準(zhǔn)確。文獻(xiàn)[2]中的在線(xiàn)翻譯系統(tǒng)的平均識(shí)別率在83.5%左右,實(shí)際語(yǔ)音的識(shí)別率數(shù)值較大,實(shí)際的翻譯結(jié)果較準(zhǔn)確,而本文設(shè)計(jì)的在線(xiàn)翻譯系統(tǒng)的平均識(shí)別率在97.9%左右,與兩種文獻(xiàn)中的在線(xiàn)翻譯系統(tǒng)相比,該種在線(xiàn)翻譯系統(tǒng)對(duì)不同語(yǔ)調(diào)的語(yǔ)音識(shí)別能力較強(qiáng),翻譯效果最佳。
隨著機(jī)械翻譯方法不斷地發(fā)展,在線(xiàn)翻譯系統(tǒng)逐漸成為了翻譯設(shè)計(jì)方向上研究的熱點(diǎn),在語(yǔ)音識(shí)別技術(shù)的支持下,設(shè)計(jì)一種英語(yǔ)名詞短語(yǔ)在線(xiàn)翻譯系統(tǒng),能夠改善現(xiàn)有翻譯系統(tǒng)存在的不足,為今后在線(xiàn)翻譯系統(tǒng)的研究提供了一定的方向。但本文設(shè)計(jì)的在線(xiàn)翻譯系統(tǒng)并未對(duì)語(yǔ)音識(shí)別硬件進(jìn)行改進(jìn),還需要不斷地研究改進(jìn)。
自動(dòng)化技術(shù)與應(yīng)用2022年7期