語(yǔ)音識(shí)別中的Conformer模型壓縮研究

2023-04-13 23:20:37盧江坤許鴻奎張子楓周俊杰李振業(yè)郭文濤

計(jì)算機(jī)時(shí)代 2023年4期

盧江坤許鴻奎張子楓周俊杰李振業(yè) 郭文濤

摘要：針對(duì)使用Conformer模型的語(yǔ)音識(shí)別算法在實(shí)際應(yīng)用時(shí)設(shè)備算力不足及資源缺乏的問(wèn)題，提出一種基于Conformer模型間隔剪枝和參數(shù)量化相結(jié)合的模型壓縮方法。實(shí)驗(yàn)顯示，使用該方法壓縮后，模型的實(shí)時(shí)率（real time factor， RTF）達(dá)到0.107614，較基線模型的推理速度提升了16.2%，而識(shí)別準(zhǔn)確率只下降了1.79%，并且模型大小也由原來(lái)的207.91MB下降到72.69MB。該方法在模型準(zhǔn)確率損失很小的情況下，較大程度地提升了模型的適用性。

關(guān)鍵詞：深度學(xué)習(xí)；模型壓縮；模型量化；模型剪枝； Conformer

中圖分類號(hào)：TP319? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A? ? ?文章編號(hào)：1006-8228（2023）04-16-07

Abstract： Aiming at the problem of insufficient computing power and resources in the actual application of speech recognition algorithm using the Conform model， a model compression method based on the combination of interval pruning and parameter quantization of Conformer model is proposed. Experimental results show that the real time factor （RTF） of the compressed model is 0.107614， which is 16.2% higher than the reasoning speed of the baseline model， while the recognition accuracy is only 1.79% lower， and the size of the model is reduced from 207.91MB to 72.69MB. This method greatly improves the applicability of the model with little loss of accuracy.

Key words： deep learning; model compression; model quantization; model pruning; Conformer

0 引言

端到端（end-to-end，E2E）語(yǔ)音識(shí)別系統(tǒng)將整個(gè)識(shí)別網(wǎng)絡(luò)簡(jiǎn)化成一個(gè)單一的網(wǎng)絡(luò)結(jié)構(gòu)，在訓(xùn)練時(shí)只需要注意整個(gè)系統(tǒng)的輸入和輸出，大大減少了對(duì)語(yǔ)音識(shí)別系統(tǒng)構(gòu)建的難度[1-3]。隨著Transformer模型在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等領(lǐng)域展現(xiàn)出來(lái)出色的性能[4]，Dong等人首次將具有自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)Transformer模型引入到語(yǔ)音識(shí)別領(lǐng)域[5]。文獻(xiàn)[6]提出一種模型結(jié)構(gòu)Conformer，將卷積模塊加入到Transformer模型的編碼器部分，從而達(dá)到增強(qiáng)識(shí)別效果的目的。

不斷加深的神經(jīng)網(wǎng)絡(luò)迅速增加了數(shù)據(jù)量，這將花費(fèi)更大的存儲(chǔ)資源和計(jì)算開(kāi)銷。僅8層的AlexNet[7]就需要至少7.29億次浮點(diǎn)型計(jì)算，需要占用約233MB內(nèi)存。龐大的網(wǎng)絡(luò)參數(shù)極大地限制了模型在算力有限的設(shè)備上部署[8]。因此需要對(duì)這些大型神經(jīng)網(wǎng)絡(luò)模型進(jìn)行壓縮，降低模型大小和計(jì)算成本[9]。

早期Babak Hassibi等人使用來(lái)自誤差函數(shù)的所有二階導(dǎo)數(shù)來(lái)判斷哪些不重要的參數(shù)來(lái)進(jìn)行剪枝，進(jìn)而提升模型的泛化能力和推理速度[10]。Hao Li 等人在卷積神經(jīng)網(wǎng)絡(luò)中剪去對(duì)輸出精度又很小影響的通道大大降低了計(jì)算量并且對(duì)原始精度影響較小[11]。這些剪枝操作在使精度下降一定范圍內(nèi)，推理速度提升不明顯并且參數(shù)存儲(chǔ)空間較大，而使用模型量化技術(shù)則能顯著減少參數(shù)存儲(chǔ)空間并加快運(yùn)算速度。Gong等人提出將k-means聚類用于量化全連接層參數(shù)，將原始權(quán)重聚類成碼本，為均值分配碼本中的索引，只需存儲(chǔ)碼本和索引而不許存儲(chǔ)原始權(quán)重信息[12]。Wu等人將k-means聚類拓展到卷積層，將權(quán)值矩陣劃分成很多塊，再通過(guò)聚類獲得碼本[13]。Choi等人分析了量化誤差和loss的關(guān)系，提出了基于海森加權(quán)k-means聚類的量化方法[14]。

本文提出一種基于Conformer的模型壓縮算法，使用模型剪枝算法對(duì)編碼器的卷積層部分進(jìn)行通道剪枝。以L1范數(shù)作為判斷標(biāo)準(zhǔn)對(duì)等間隔編碼器進(jìn)行剪枝，避免了對(duì)模型的過(guò)度破壞，又保證了剪枝質(zhì)量，再結(jié)合模型量化算法對(duì)模型進(jìn)行量化，最終達(dá)到提升模型推理速度和減小模型的大小的目的。經(jīng)實(shí)驗(yàn)表明，在模型識(shí)別準(zhǔn)確度下降很少的情況下大大提升了模型的推理速度并且模型的大小也減少了65.05%。

1 模型結(jié)構(gòu)

語(yǔ)音識(shí)別模型使用編碼器-解碼器（Encoder-Decoder）結(jié)構(gòu)，如圖1所示，編碼器部分將語(yǔ)音輸入序列映射到特征序列，生成指定長(zhǎng)度的向量。解碼器部分對(duì)輸入向量進(jìn)行解碼，根據(jù)語(yǔ)義向量生成指定的序列。

本文編碼器使用Conformer結(jié)構(gòu)編碼[6]，解碼器使用CTC（connectionist temporal classification）進(jìn)行解碼[15]。

1.1 Conformer結(jié)構(gòu)

本文所使用的Conformer結(jié)構(gòu)是在Transformer結(jié)構(gòu)的基礎(chǔ)上增加卷積模塊，以加強(qiáng)模型對(duì)局部和全局依賴性建模的效果，增強(qiáng)語(yǔ)音識(shí)別模型的性能[6]。如圖2所示，Conformer結(jié)構(gòu)由歸一化層、前饋層、卷積層和多頭注意力層組成。

多頭注意力層中使用注意力機(jī)制在輸入的大量信息中選擇關(guān)鍵信息加以處理。如公式⑴，使用信息提取的方法將維度為[dm]的輸入映射到一組查詢[Q]、鍵[K]和值[V]的矢量輸出，其中查詢[Q]和鍵[K]的維度是[dK]，值[V]的維度是[dV]。然后再利用[softmax]函數(shù)來(lái)獲得值的權(quán)重，最后返回值的加權(quán)總和[Z]。

卷積層由Layer Norm、Batch Norm、Pointwise卷積、Depthwise卷積、GLU激活層和ReLU激活層組成。Pointwise 卷積運(yùn)算負(fù)責(zé)將深度卷積的輸出按通道投影到新的特征圖上；Depthwise卷積不同于原始卷積，一個(gè)卷積核負(fù)責(zé)一個(gè)通道，獨(dú)立地在每個(gè)通道上進(jìn)行空間卷積。

前饋層使用ReLU激活函數(shù)來(lái)進(jìn)行線性變換，并且通過(guò)使用Dropout來(lái)減少過(guò)擬合發(fā)生進(jìn)而幫助訓(xùn)練更深層次的網(wǎng)絡(luò)。前饋層作用是更新注意力層輸出向量的每個(gè)狀態(tài)信息，如公式⑵，其中[W]表示權(quán)重，[b]表示偏差，[x]表示輸入。

1.2 解碼器結(jié)構(gòu)

解碼器使用CTC Decoder，對(duì)Encoder部分的輸出進(jìn)行前向計(jì)算，再由[softmax]計(jì)算得到結(jié)果。

解碼算法為CTC Prefix Beam Search算法，該算法對(duì)輸入一幀的數(shù)據(jù)給出當(dāng)下各種字符的概率，然后利用這一層的概率展開(kāi)搜索，選取搜索空間中最優(yōu)的k條路經(jīng)的前綴，并把這些前綴挨個(gè)輸入到模型中，同時(shí)把相同的前綴路徑合并，不斷重復(fù)最終得到最優(yōu)解。

基于CTC Loss訓(xùn)練的模型不用進(jìn)行強(qiáng)制對(duì)齊，可以通過(guò)學(xué)習(xí)，直接將語(yǔ)音映射成對(duì)應(yīng)的字符，并且引入空白標(biāo)簽Blank實(shí)現(xiàn)自動(dòng)對(duì)齊，解決了輸入音頻數(shù)據(jù)和輸出文本數(shù)據(jù)長(zhǎng)度不一致的問(wèn)題。

2 模型剪枝

卷積層和全連接層的輸入和輸出之間都存在密集連接，而刪除冗余的連接可以達(dá)到提升模型推理速度的目的。模型剪枝是指在訓(xùn)練好的模型上設(shè)計(jì)對(duì)模型參數(shù)的評(píng)價(jià)準(zhǔn)則，通過(guò)該準(zhǔn)則刪除不重要的參數(shù)來(lái)減小模型RTF達(dá)到提升模型推理速度的目的。模型剪枝可以分為非結(jié)構(gòu)化剪枝和結(jié)構(gòu)化剪枝[9，16]。

2.1 非結(jié)構(gòu)化剪枝

非結(jié)構(gòu)化剪枝可以將網(wǎng)絡(luò)任何位置的參數(shù)剪掉，本質(zhì)是對(duì)單個(gè)神經(jīng)元的權(quán)重進(jìn)行剪枝來(lái)減少神經(jīng)元之間的連接。如圖3所示，這樣剪枝操作可以對(duì)模型的權(quán)重參數(shù)稀疏化。

雖然非結(jié)構(gòu)化剪枝使模型可以在非常精密的模式下進(jìn)行剪枝且可以實(shí)現(xiàn)很高的裁剪率，但這種剪枝方式對(duì)模型推理速度提升并不會(huì)產(chǎn)生明顯的效果。

2.2 結(jié)構(gòu)化剪枝

結(jié)構(gòu)化剪枝不同于非結(jié)構(gòu)化剪枝，它更專注于相對(duì)完整的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行修剪，可以修剪整個(gè)神經(jīng)元，如圖4所示，這樣修剪之后會(huì)使模型的通道數(shù)減小，從而提升模型整體的推理速度，但不可避免的會(huì)造成精度損失。

3 模型量化

模型量化是指將高精度浮點(diǎn)表示的網(wǎng)絡(luò)參數(shù)包括權(quán)重、激活值、梯度和誤差等用低精度來(lái)近似表示。通常使用8位整型作為統(tǒng)一的位寬，也可以根據(jù)經(jīng)驗(yàn)或一定策略自由組合不同的位寬，可以有效地減少參數(shù)存儲(chǔ)空間與內(nèi)存占用空間，加快模型運(yùn)算速度降低設(shè)備能耗。但同時(shí)也會(huì)導(dǎo)致部分信息的損失，造成模型識(shí)別精度的下降。模型參數(shù)量化可分為對(duì)稱量化和非對(duì)稱量化[9] 。

3.1 對(duì)稱量化

對(duì)稱量化的算法是通過(guò)一個(gè)收縮因子將32位浮點(diǎn)型數(shù)據(jù)中的最大絕對(duì)值映射到8位整型數(shù)據(jù)的最大值，將32位浮點(diǎn)型數(shù)據(jù)中最大絕對(duì)值的負(fù)值映射到8位整型數(shù)據(jù)的最小值，將零點(diǎn)限制為0，收縮因子[Δ]如式⑶所示，[xmax]和[xmin]分別表示模型中32位浮點(diǎn)型參數(shù)的最大值和最小值，[absxmax]表示取參數(shù)中最大值的絕對(duì)值，[absxmin]表示取參數(shù)中最小值的絕對(duì)值。

其中，在函數(shù)[clampa，b，x]中，[a]表示最小值，[b]表示最大值，而當(dāng)首選值[x]比最小值要小時(shí)，則使用最小值；當(dāng)首選值[x]介于最小值和最大值之間時(shí)，用首選值；當(dāng)首選值[x]比最大值要大時(shí)，則使用最大值。

如圖5所示為參數(shù)量化對(duì)應(yīng)參數(shù)值的范圍，a表示參數(shù)浮點(diǎn)型的最大絕對(duì)值。對(duì)于32位浮點(diǎn)型參數(shù)如果均勻分布在0點(diǎn)左右，那么映射后的值也會(huì)均勻分布，若分布不均勻，則映射后不能充分利用。

3.2 非對(duì)稱量化

非對(duì)稱量化可以很好的處理32位浮點(diǎn)型數(shù)據(jù)分布不均勻的情況，通過(guò)收縮因子和零點(diǎn)，將32位浮點(diǎn)型數(shù)據(jù)中的最小值和最大值分別映射到8位整型數(shù)據(jù)中的最小值和最大值。加入零點(diǎn)之后會(huì)將32位浮點(diǎn)型數(shù)據(jù)中的0量化映射到[0，255]中的某個(gè)數(shù)，不會(huì)出現(xiàn)浮點(diǎn)0量化后直接映射到0的情況，可以無(wú)誤差的量化32位浮點(diǎn)型數(shù)據(jù)中的0，從而減少補(bǔ)零操作在量化中產(chǎn)生額外的誤差。式⑽為收縮因子，式⑾中的z表示零點(diǎn)位置的取值。

其中，[xQ]表示最終量化所得到的值。如圖6所示，為非對(duì)稱參數(shù)量化參數(shù)映射的取值范圍，將浮點(diǎn)型的參數(shù)[xmin，xmax]映射到整型的[0，255]數(shù)值區(qū)域，此時(shí)的零點(diǎn)映射到8位整型數(shù)值區(qū)域[0，255]中的某個(gè)值。

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)用到的語(yǔ)音數(shù)據(jù)來(lái)自于北京希爾貝殼科技有限公司出版的中文語(yǔ)音數(shù)據(jù)集AISHELL-1，該數(shù)據(jù)集由400名中國(guó)不同口音區(qū)域的發(fā)言人參與錄制，采樣率為16kHZ，包含178 h的普通話音頻及文本。

4.2 實(shí)驗(yàn)配置

實(shí)驗(yàn)所使用的電腦操作系統(tǒng)為Ubuntu20.04.2LTS，硬件配置為Intel i7處理器，16GB運(yùn)行內(nèi)存，GPU為NVIDIA RTX 2060（6GB顯存）。

本實(shí)驗(yàn)基于WeNet語(yǔ)音識(shí)別工具包[17]來(lái)進(jìn)行，使用Fbank特征，編碼器有12個(gè)Conformer Blocks，注意力頭數(shù)設(shè)置為4。訓(xùn)練使用CTC loss與Attention loss 聯(lián)合優(yōu)化訓(xùn)練，避免 CTC 對(duì)齊關(guān)系過(guò)于隨機(jī)，并可以使訓(xùn)練過(guò)程更加穩(wěn)定，取得更好的識(shí)別結(jié)果。

使用的組合損失如式⒁所示，[x]表示聲學(xué)特征，[y]為對(duì)應(yīng)標(biāo)注，表示CTC loss，表示Attention loss，[λ]表示平衡CTC loss和Attention loss的系數(shù)并且[λ∈0，1][18-19]。

4.3 評(píng)價(jià)標(biāo)準(zhǔn)

在數(shù)據(jù)集AISHELL-1上進(jìn)行實(shí)驗(yàn)，采用字錯(cuò)率（character error rate， CER）作為評(píng)價(jià)模型識(shí)別準(zhǔn)確性的指標(biāo)。如式⒂所示，字錯(cuò)率就是將插入I、替換S和刪除D的詞的總個(gè)數(shù)除以標(biāo)準(zhǔn)的詞序列中詞的總個(gè)數(shù)的百分比。

實(shí)時(shí)率RTF表示處理單位時(shí)長(zhǎng)語(yǔ)音數(shù)據(jù)所需要的時(shí)間，如式⒃所示，該值越小表示模型處理語(yǔ)音的效率越高，即模型推理的速度越快。

其中，T表示所有音頻總時(shí)間，單位是秒；t表示模型識(shí)別所有音頻所用時(shí)間，單位是秒。

4.4 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)以在數(shù)據(jù)集AISHELL-1上訓(xùn)練得到的Conformer模型作為基線模型，對(duì)編碼器部分Conformer Blocks中的卷積層進(jìn)行剪枝。以L1范數(shù)作為剪枝的判斷標(biāo)準(zhǔn)，對(duì)權(quán)重進(jìn)行排序，按照不同的剪枝比例對(duì)卷積層進(jìn)行剪枝，然后再對(duì)模型的線性層進(jìn)行模型量化，以實(shí)驗(yàn)A和實(shí)驗(yàn)B的結(jié)果對(duì)比來(lái)驗(yàn)證模型壓縮方法的有效性。

4.4.1 實(shí)驗(yàn)A

以L1范數(shù)為標(biāo)準(zhǔn)，采用傳統(tǒng)的剪枝模式對(duì)模型編碼器中全部Conformer Blocks的卷積層以不同的剪枝比例進(jìn)行剪枝，結(jié)果如表1和圖7所示，可以看出對(duì)模型進(jìn)行剪枝操作后模型的RTF下降推理速度提高，但是模型的準(zhǔn)確率也隨之下降。隨著剪枝比例的提升，模型的準(zhǔn)確率急劇下降，在剪枝比例為0.35時(shí)，模型的CER已經(jīng)達(dá)到53.58%，此時(shí)模型CER過(guò)高，不適合實(shí)際應(yīng)用。

對(duì)模型完成以不同剪枝比例剪枝后，再對(duì)該模型進(jìn)行8位整型量化，結(jié)果如表2和圖8所示，量化后的模型推理速度得到提升，隨著模型剪枝比例的增加，模型識(shí)別的CER也在提升。

如圖9所示比較了剪枝模型和剪枝加量化后的模型的CER，圖10比較了剪枝模型與剪枝加量化模型的RTF，從這兩個(gè)圖中可以看出對(duì)模型量化之后模型的準(zhǔn)確率下降不明顯，但模型的推理速度有很大提升。

4.4.2 實(shí)驗(yàn)B

在模型編碼器中以L1范數(shù)為標(biāo)準(zhǔn)，使用改進(jìn)的剪枝算法對(duì)編碼器進(jìn)行剪枝，按照Conformer Blocks排列的順序等間隔對(duì)第1、3、5、7、9和11個(gè)Conformer Blocks中卷積層進(jìn)行通道剪枝并進(jìn)行參數(shù)量化，結(jié)果如表3和圖11所示，隨著剪枝比例的提升，模型的RTF逐漸下降，模型的CER不斷上升。

如圖12所示，分別比較了兩個(gè)實(shí)驗(yàn)對(duì)模型RTF的影響，可以看出隨著剪枝比例的增加，模型的RTF都受到了影響，但實(shí)驗(yàn)B中的模型RTF較實(shí)驗(yàn)A下降明顯，在剪枝比例大于0.15的情況下實(shí)驗(yàn)B中模型的RTF均小于實(shí)驗(yàn)A中模型的RTF。在圖13中可以看出隨著剪枝比例的增加，模型識(shí)別的準(zhǔn)確率均發(fā)生了下降，并且對(duì)比兩個(gè)實(shí)驗(yàn)，實(shí)驗(yàn)A中模型CER的變化更為明顯，在剪枝比例不斷增加的情況下其模型的CER均大于實(shí)驗(yàn)B中模型的CER，并且在實(shí)驗(yàn)B中，剪枝比例為0.2時(shí)模型壓縮的效果最好。

4.4.3 對(duì)比結(jié)果

對(duì)比在剪枝比例為0.2時(shí)的不同模型性能（表2）。表4中，實(shí)驗(yàn)A中只進(jìn)行剪枝的模型較基線模型的RTF降低0.00191，CER上升了12.58%，實(shí)驗(yàn)A中剪枝加量化的模型較基線模型的RTF下降0.01232，CER上升了12.93%；僅采用實(shí)驗(yàn)B中的剪枝方法所得到的模型與基線模型相比RTF下降了0.00974，CER上升了0.81%，而使用實(shí)驗(yàn)B中的剪枝加量化方法所得的模型，與基線模型相比RTF下降了0.02074，CER上升了1.71%，推理速度提升了16.2%。

基線模型的大小為207.91MB，壓縮后的模型大小為72.69MB，僅為基線模型大小的34.95%。由此可以看出，使用本文提出的模型壓縮方法的有效性。

5 結(jié)束語(yǔ)

本文針對(duì)在語(yǔ)音識(shí)別任務(wù)中的Conformer模型在資源受限設(shè)備上算力不足及資源缺乏的問(wèn)題，提出了結(jié)合模型剪枝和模型量化的模型壓縮技術(shù)來(lái)提升模型的推理速度和減小模型大小。實(shí)驗(yàn)表明，以L1范數(shù)作為判斷標(biāo)準(zhǔn)在剪枝比例為0.2時(shí)，用本文所提出的間隔剪枝和模型量化相結(jié)合的模型壓縮方法對(duì)基于語(yǔ)音識(shí)別的Conformer模型進(jìn)行壓縮時(shí)效果最好，壓縮后的模型較基線模型的RTF下降了0.02074推理速度提升了16.2%，字錯(cuò)率CER卻只下降了1.71%且模型大小僅為基線模型的34.95%，此時(shí)的模型在精度下降很小的情況下推理速度有較大的提升，模型大小縮減明顯，更適合于實(shí)際應(yīng)用的需要。

參考文獻(xiàn)（References）：

[1] Graves A， Jaitly N. Towards end-to-end speech recogni-tion with recurrent neural networks[C]//International conference on machine learning.PMLR，2014：1764-1772

[2] Miao Y， Gowayyed M， Metze F. EESEN： End-to-end speech recognition using deep RNN models and WFST-based decoding[C]//2015 IEEE Workshop on Automatic Speech Recognition and Understanding （ASRU）. IEEE，2015：167-174

[3] Lu L， Zhang X， Renais S. On training the recurrent neural?network encoder-decoder for large vocabulary end-to-end speech recognition[C]//2016 IEEE International Conference on Acoustics，Speech and Signal Processing （ICASSP）. IEEE，2016：5060-5064

[4] Vaswani A， Shazeer N， Parmar N， et al. Attention is all you need[J]. Advances in neural information processing systems，2017，30

[5] Dong L， Xu S， Xu B. Speech-transformer： a no-recurrence sequence-to-sequence model for speech recognition[C]//2018 IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP）. IEEE，2018：5884-5888

[6] Gulati A， Qin J， Chiu CC， et al. Conformer：? Convolution augmented transformer for speech recognition. Proceedings of the 21st Annual Conference of the International Speech Communication Association. Shanghai，2020：5036-5040

[7] Krizhevsky A， Sutskever I， Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in neural information processing systems，2012，25：1097-1105

[8] 高晗，田育龍，許封元，等.深度學(xué)習(xí)模型壓縮與加速綜述[J].軟件學(xué)報(bào)，2021，32（1）：25

[9] 吳衛(wèi)賢，趙鳴，黃曉丹.基于量化和模型剪枝的卷積神經(jīng)網(wǎng)絡(luò)壓縮方法[J].軟件導(dǎo)刊，2021，20（10）：6

[10] Hassibi B. Second Order Derivatives for Network Pruning：Optimal Brain Surgeon[C]//CiteSeer.CiteSeer，1992：164-171

[11] Li H， Kadav A， Durdanovic I， et al. Pruning filters for efficient convnets[J]. arXiv preprint arXiv：1608.08710，2016

[12] Gong Y，? Liu L，? Ming Y， et al. Compressing Deep Convolutional Networks using Vector Quantization[J]. Computer Science，2014

[13] Wu J， Leng C， Wang Y， et al. Quantized convolutional neural networks for mobile devices[C]//Proceedings of the IEEE conference on computer vision and pattern recognition，2016：4820-4828

[14] Choi Y， El-Khamy M， Lee J. Towards the limit of network quantization[J].arXiv preprint arXiv：1612.01543，2016

[15] Graves A， Fernández S， Gomez F， et al. Connectionist temporal classification：labelling unsegmented sequence data with recurrent neural networks[C]//Proceedings of the 23rd international conference on Machine learning，2006：369-376

[16] Gao Z，? Yao Y，? Zhang S， et al. Extremely Low Footprint End-to-End ASR System for Smart Device[C]// 2021

[17] Zhang B， Wu D， Yang C， et al. Wenet： Production first and production ready end-to-end speech recognition toolkit[J]. arXiv e-prints，2021： arXiv： 2102.01547

[18] Watanabe S ，? Hori T ，? Kim S ， et al. Hybrid CTC/Attention Architecture for End-to-End Speech Recognition[J]. Selected Topics in Signal Processing， IEEE Journal of，2017，11（8）：1240-1253

[19] Kim S， Hori T， Watanabe S. Joint CTC-attention based?end-to-end speech recognition using multi-task learning[C]//2017 IEEE international conference on acoustics， speech and signal processing （ICASSP）. IEEE，2017：4835-4839

*基金項(xiàng)目：山東省重大科技創(chuàng)新工程（2019JZZZY010120）；山東省重點(diǎn)研發(fā)計(jì)劃（2019GSF111054）

作者簡(jiǎn)介：盧江坤（1996-），男，河北邢臺(tái)人，碩士研究生，主要研究方向：語(yǔ)音識(shí)別。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

語(yǔ)音識(shí)別中的Conformer模型壓縮研究