国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Langid的語種識別研究

2018-10-31 10:31:54徐立城
中國新技術(shù)新產(chǎn)品 2018年16期
關(guān)鍵詞:語音識別

徐立城

摘 要:語音識別技術(shù)飛速發(fā)展,在現(xiàn)實(shí)生活中扮演著越來越重要的角色,語音識別簡單來說是讓計(jì)算機(jī)理解人的語音,它有兩大研究領(lǐng)域:語種識別和說話人識別。本文圍繞語種識別展開,語種識別(Language Identification,LID),是指計(jì)算機(jī)通過理解和識別過程判定輸入語音的語種。本論文并通過兩個不同類型的實(shí)驗(yàn),來研究語種識別問題,例如Langid工具包的使用。語種識別,在多語音語言識別系統(tǒng)中扮演著重要的角色,在語言翻譯、手寫體文字識別、鍵盤輸入、信息發(fā)現(xiàn)和挖掘系統(tǒng)等研究領(lǐng)域都有應(yīng)用,其發(fā)展非常迅速。

關(guān)鍵詞:語音識別;語種識別;Langid等

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A

1 語音識別發(fā)展概述

語音識別是一門包羅萬象學(xué)科,其涉及很多不同的領(lǐng)域,其中就包括語言學(xué)、聲學(xué)、統(tǒng)計(jì)學(xué)和人工智能等,也被稱為自動語音識別。它的目標(biāo)是把人類的語音中的詞匯內(nèi)容在計(jì)算機(jī)顯示為計(jì)算機(jī)可讀的信息,由計(jì)算機(jī)加以識別。語音識別技術(shù)如果與其他自然語言處理技術(shù)相結(jié)合,可以構(gòu)建出更加復(fù)雜但卻方便的應(yīng)用,例如將機(jī)器翻譯和語音合成相結(jié)合得到語音翻譯。

由于語音識別在各個方面的重要意義和巨大優(yōu)勢,不少公司投入大量人力物力進(jìn)行研究。隨著siri、Google Now、百度語音、微軟Corrtana等相關(guān)產(chǎn)品的橫空出世,同時在服務(wù)提供商和設(shè)備廠商的共同推動下,現(xiàn)在幾乎身邊所有新推出的移動設(shè)備都會包括語音識別這一功能。

2 語種識別研究的目的及意義

隨著科技水平的提高,互聯(lián)網(wǎng)的發(fā)展帶來了巨大的語言文字信息,網(wǎng)頁文本的數(shù)據(jù)量也在與日俱增,與此同時語言也漸漸出現(xiàn)了多種混合的現(xiàn)象。語種識別系統(tǒng)可以把大量重復(fù)煩瑣的勞動交給機(jī)器來處理,節(jié)約了人力、物力,提高了工作效率。語種識別的研究側(cè)重于對算法和模型進(jìn)行改進(jìn)和優(yōu)化,其主要方法是通過語言學(xué)和機(jī)器學(xué)習(xí)的方法。概率統(tǒng)計(jì)的方法或信息論的方法也被大量采用,在實(shí)際中的語音識別方法得到較為成功的應(yīng)用。例如HMM,GMM等,正是由于這些方法的出現(xiàn)對語音識別走向?qū)嶋H應(yīng)用具有極大的推進(jìn)作用。例如在國際酒店中,前臺客服在接到客人電話前,要先進(jìn)行語種識別,然后才分配給相應(yīng)的客服,提高了溝通效率。

3 語種識別的研究方法

3.1 語種識別基本流程

語種識別的一般流程分為訓(xùn)練和識別兩個階段,如圖1所示,在訓(xùn)練階段,將不同語言的語音音頻輸入系統(tǒng)中,然后進(jìn)行特征提取,得到一組特征向量序列,根據(jù)特定的訓(xùn)練算法,然后得到一個或多個參考模型,并保存下來。在識別階段,對測試語音進(jìn)行特征提取,然后將這些特征同模型庫中的模型進(jìn)行比對,并計(jì)算得出一個相似性得分。最后根據(jù)經(jīng)過判決模塊的判決規(guī)則,由相似性得分即可得到識別的語言種類。

3.2 語種識別的方法

3.2.1 利用LDA文本對多語種識別進(jìn)行研究

首先是偽訓(xùn)練過程,我們需要先從互聯(lián)網(wǎng)上獲取或者直接使用已經(jīng)存在的語料庫,然而這些數(shù)據(jù)來源都不能直接用來構(gòu)建N-gram計(jì)數(shù)。在實(shí)際操作中我們對語料中的標(biāo)點(diǎn)符號、數(shù)字、大小寫等字符進(jìn)行一些處理。根據(jù)需要保留一些有助于語種識別的符號并刪掉一些相對于語種識別來說無關(guān)緊要的符號。得到預(yù)處理過的數(shù)據(jù)以后,選擇可靠性高的語言模型工具生成1-5元的N-gram計(jì)數(shù)文件。得到N-gram計(jì)數(shù)文件的過程就是提取語料特征的過程。接著對數(shù)據(jù)集進(jìn)行Collapsed Gibbs采樣直到其收斂并更新LDA模型的參數(shù)。

第二階段為語種識別階段。首先對測試文本也做特征提取工作,根據(jù)需要保留一些有助于語種識別的符號并刪掉一些相對于語種識別來說無關(guān)緊要的符號。然后將抽取出的1-5元N-gram計(jì)數(shù)文件通過Collapsed Gibbs抽樣直到其收斂,就可以得出主題分布,即語種分類結(jié)果,如圖2所示。

3.2.2 全局背景模型(UBM)

GMM-UBM在說話人識別系統(tǒng)中已經(jīng)得到了廣泛的應(yīng)用,在語言識別系統(tǒng)中,GMM-UBM模型是一個與語言無關(guān)的背景模型,利用語言識別種的無關(guān)信息訓(xùn)練得到一個語言全局背景模型。圖3是一個基于GMM-UBM的語言辨識系統(tǒng)框圖。

給定了訓(xùn)練UBM模型的各種語言的數(shù)據(jù)后,有多種方法可以用來得到最終的模型,最簡單的方法是EM算法來訓(xùn)練UBM模型。由于訓(xùn)練的是與語言無關(guān)的UBM模型,每種語言識別的耗時大約1h。

4 語種識別實(shí)驗(yàn)

4.1 語種識別的理論基礎(chǔ)

4.1.1 條件概率和全概率

4.1.2 貝葉斯公式

在條件概率和全概率的基礎(chǔ)上,很容易推導(dǎo)出貝葉斯公式:

看上去貝葉斯公式只是把A的后驗(yàn)概率+A的邊緣概率的組合表達(dá)形式,因?yàn)楹芏喱F(xiàn)實(shí)問題中P(A|B)或很難直接觀測但是P(B|A)和P(A)卻很容易測得,利用貝葉斯公式可以方便我們計(jì)算很多實(shí)際的概率問題。

4.2 小文本語種識別實(shí)驗(yàn)

用python進(jìn)行實(shí)驗(yàn),這些文本中有不同的語種,通過程序來判斷語種的概率,例如一種語言(unknown)與de的相似度是0.4,與en的相似度是0.95;取其中的最大值,表示該文本語en類似,從而縮小了范圍。反過來unknown與de的0.6的概率不同,與en的不同的概率是0.05。也可以得出該文本語接近en。以此類推,可以得到各語種之間的相似度或差異性。未知語種減去已知語種可得差異性概率,概率最小的,該已知語種就是輸入文本的語種。不同多語種根據(jù)程序進(jìn)行分類。最后可根據(jù)自己的想法決定格式,最終得到分類后語種的排序。基于此,進(jìn)行了小文本語種識別的實(shí)驗(yàn),可以很隨心所欲得到程序中已有語種的句子或段落。其不足之處在于首先該實(shí)驗(yàn)對概率的統(tǒng)計(jì)較為煩瑣;其次是它實(shí)驗(yàn)范圍較窄,因?yàn)槭切∥谋緦?shí)驗(yàn),所以程序中可識別的語言較少,不能對所有語種進(jìn)行分類和識別;在文字?jǐn)?shù)量多的情況下進(jìn)行語種識別的,而文字較少準(zhǔn)確度不高,例如一個單詞可能會出現(xiàn)在不同的語種中,只是其意思不一樣。該實(shí)驗(yàn)在可規(guī)定語種分類后的格式這一點(diǎn)上還是可圈可點(diǎn)的。

4.3 多語種識別實(shí)驗(yàn)

由于上一個實(shí)驗(yàn)有一些不足之處,此實(shí)驗(yàn)將對不足之處進(jìn)行改善,還是利用python對不同語種進(jìn)行識別。按照程序步驟,先新建myfile文件,在其中輸入需要識別的文字,用python打開文件,利用Langid工具包里的classify函數(shù)對輸入文本的語種進(jìn)行識別,此程序是對輸入數(shù)據(jù)一行一行的讀,可直接將想要的語種表達(dá)在另一文件夾中。

Langid工具包在語種識別中廣泛應(yīng)用,該工具包可以識別出來97種語種,通過classify函數(shù)可以將輸入文本與Langid已有標(biāo)簽的97種語種進(jìn)行比對,然后將相似度最大的語種標(biāo)簽作為輸入文本的語種。舉個簡單的例子,例如字符串string為“Hello world!”, 然后調(diào)用classify(string),即可識別出輸入文本的語種為英語。

結(jié)語

本文的研究工作主要集中在如何利用python對多語種進(jìn)行分類處理和語種識別。第一,詳細(xì)闡述了多項(xiàng)式貝葉斯分類模型和條件概率、全概率的公式,為構(gòu)建多語種識別系統(tǒng)打下堅(jiān)實(shí)的理論基礎(chǔ)。根據(jù)不同的任務(wù)要求,使用合適的語種識別系統(tǒng),對不同的材料進(jìn)行實(shí)驗(yàn)。第二,通過兩組實(shí)驗(yàn)驗(yàn)證挑選了Langid工具構(gòu)建了多語言分類模型,并詳細(xì)分析了實(shí)驗(yàn)結(jié)果,最終得出結(jié)論。

課題的研究需要大量地閱讀國內(nèi)外文獻(xiàn),研究公式定律背后的意義,同時也需要注意總結(jié)和歸納。將實(shí)驗(yàn)過程中的想法變成程序使計(jì)算機(jī)代替我來處理大規(guī)模數(shù)據(jù)的學(xué)習(xí)和識別任務(wù)。還做了大量的實(shí)驗(yàn)進(jìn)行比對測試分析。這些工作使我在面對問題時變得更耐心仔細(xì),會細(xì)致地考慮在工作中可能出現(xiàn)的各種問題。通過不斷的操作,使我對python的操作更加熟悉,為以后的工作奠定了基礎(chǔ)。

參考文獻(xiàn)

[1]蔣兵.語種識別深度學(xué)習(xí)方法研究[D].中國科學(xué)技術(shù)大學(xué),2015.

[2]賈曉茹.基于LDA的文本多語種識別研究[D].中國海洋大學(xué), 2014.

[3]索宏彬,李明,呂萍,等.一種基于帶語言模型并行音節(jié)解碼器的語種識別系統(tǒng)[C]//全國網(wǎng)絡(luò)與信息安全技術(shù)研討會,2007.

[4]王昊,李思舒,鄧三鴻.基于N—Gram的文本語種識別研究[J].現(xiàn)代圖書情報(bào)技術(shù),2013(4):54-61.

猜你喜歡
語音識別
空管陸空通話英語發(fā)音模板設(shè)計(jì)與應(yīng)用
通話中的語音識別技術(shù)
面向移動終端的語音簽到系統(tǒng)
淺析智能語音技術(shù)及其應(yīng)用
智富時代(2015年9期)2016-01-14 06:26:40
語音識別的SVM模型選擇分析
農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計(jì)
航天三維可視化系統(tǒng)中語音控制技術(shù)的研究與應(yīng)用
基于語音識別的萬能遙控器的設(shè)計(jì)
基于語音技術(shù)的商務(wù)英語移動學(xué)習(xí)平臺設(shè)計(jì)與實(shí)現(xiàn)
武邑县| 怀来县| 河源市| 德化县| 武安市| 九龙坡区| 东丰县| 两当县| 奉化市| 陕西省| 邢台市| 孝义市| 江永县| 巴马| 镇巴县| 日喀则市| 莎车县| 无极县| 望江县| 佳木斯市| 嘉兴市| 阳城县| 辽中县| 双江| 贵港市| 台前县| 交口县| 乌恰县| 阳西县| 搜索| 康定县| 绍兴县| 日土县| 罗源县| 曲靖市| 南陵县| 东方市| 仁化县| 乐昌市| 老河口市| 青州市|