国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

統(tǒng)計(jì)學(xué)中的n元語法模型

2017-01-17 21:11:34路佳佳代愛鳳李美芳
東方教育 2016年9期
關(guān)鍵詞:語音指令語法向量

路佳佳++代愛鳳++李美芳

摘要:目前國內(nèi)外對統(tǒng)計(jì)語言模型在數(shù)據(jù)處理,經(jīng)濟(jì)學(xué),自然語言處理,地質(zhì)統(tǒng)計(jì)等領(lǐng)域的研究越來越廣泛。n元語法模型是神經(jīng)網(wǎng)絡(luò)語言模型是將深度學(xué)習(xí)的思想用于語言模型而構(gòu)建的,在自然語言處理中n元語法模型有很重要的地位,它在語音識別,詞性標(biāo)注,機(jī)器翻譯等領(lǐng)域有廣泛應(yīng)用。本文詳細(xì)論述了模型的原理,并對該模型的優(yōu)缺點(diǎn)進(jìn)行分析,并說明了該模型在自然語言處理中的應(yīng)用。

關(guān)鍵詞:n元語法模型;自然語言處理

一:詞向量

“詞向量”這個詞最早由1986年hinton的文章“l(fā)earning distributed representations of concepts”中提出,將單個詞用“詞向量”的方式表示是將deep learning的算法引入NLP 領(lǐng)域的一個核心技術(shù),deep learning中的詞向量是一種低維實(shí)數(shù)向量,詞向量使得一些詞的距離更近比如相關(guān)詞或者相似詞,這種距離通過歐式距離,夾角余弦來定義。“詞向量”不僅可以避免維數(shù)災(zāi)難問題,而且由于相似詞或者相關(guān)詞的距離很小,應(yīng)用詞向量構(gòu)造的模型本身具有平滑性。

詞向量是通過訓(xùn)練語言模型得到。從大量的無標(biāo)簽的語料庫中進(jìn)行無監(jiān)督學(xué)習(xí)的想法有了語言模型。語言模型是針對某種語言建立的概率模型。語言模型的一般描述就是給定一個詞序列,詞序列 ,求該詞序列是自然語言的概率 ,其中, 表示詞序列的第t個詞,在n元語法模型中用 表示 。下面具體介紹n元語法模型。

二:n元語法模型

2.1模型的形式化表示。

假設(shè)有 個詞, , 個詞構(gòu)成的詞序列記為 ,詞序列的概率為

(2.1)

上下文H中詞A的極大似然概率計(jì)算公式為

(2.2)

其中 是在訓(xùn)練數(shù)據(jù)中詞序列 出現(xiàn)的次數(shù),上下文 可以由幾個詞組成,對于通常的三元模型, ,當(dāng) 時(shí),它沒有考慮歷史,該模型稱為一元模型。

由于n元語法模型比較簡單,目前最常使用的語言模型基于n元語法模型,但是該模型由于數(shù)據(jù)缺乏需要采用一些平滑算法。影響n元語法模型的最重要的因素是順序和平滑技術(shù)的選擇,常用的平滑技術(shù)有加法平滑算法,Knerser-Ney平滑方法,Katz平滑方法,Jelinek-Mercer平滑方法等。對于基于詞的語言模型,修正的Knerser-Ney平滑方法(KN)在平滑技術(shù)中有較好的結(jié)果。

基于n元語法的統(tǒng)計(jì)數(shù)據(jù)模型的最大優(yōu)勢在于速度,簡單和普遍性(只要存在一些訓(xùn)練數(shù)據(jù),該模型可以應(yīng)用到任何領(lǐng)域)。直到今天n元語法模型依然是最先進(jìn)的技術(shù),不是因?yàn)闆]有更好的技術(shù),而是因?yàn)楦玫募夹g(shù)計(jì)算過于復(fù)雜,僅僅進(jìn)行了邊際分布的改善,對于給定應(yīng)用的成功不是至關(guān)重要的。

2.2模型的優(yōu)缺點(diǎn)

n元語法模型的最大缺點(diǎn)在于隨著上下文長度的增加,n元語法的數(shù)量成指數(shù)形式的增加。阻止這些模型有效的捕獲較長的上下文類型。如果有大量的訓(xùn)練數(shù)據(jù)可用,從訓(xùn)練數(shù)據(jù)得到的模式不能通過n元語法進(jìn)行有效地表示。因此產(chǎn)生了將神經(jīng)網(wǎng)絡(luò)應(yīng)用到語言模型(LM)的思想,通過相似事件之間的共享參數(shù)來克服參數(shù)的指數(shù)增加,不再需要精確的歷史 的匹配。下面具體介紹幾種不同的神經(jīng)網(wǎng)絡(luò)語言模型。

n元語法的n體現(xiàn)了該詞間的獨(dú)立性,n越小獨(dú)立性越強(qiáng)。則可根據(jù)不同語料的獨(dú)立性特點(diǎn)選擇不同的模型了。通常n=3。直觀上講,第i位置的詞與前面多少個詞的相關(guān)性并不一定,另外,“詞”是一個籠統(tǒng)的概念(可以代表字、詞短語等),它的選取也不確定,而一個模型直接賦予n一個確定的值,這本身是一種近似。所以說,模型不可能精確表達(dá),根據(jù)這種局限性,一個好的模型的重要性就可想而知了。

2.3模型的改進(jìn)

由于在自然語言處理中,如通過音素匹配法處理后,部分存在著缺失的可能。而且已識別的詞對未識別詞會有一定程度的影響,為了解決這種問題,所以華南理工大學(xué)陳偉雄[3]在論文"基于n元語法模型的領(lǐng)域語音指令識別"中對n元語法模型做一些改進(jìn)。

Bengio[1]等人建議通過學(xué)習(xí)詞的分布式表示來避免維數(shù)災(zāi)難,分布式表示允許每一個句子形成關(guān)于語義相近句子的指數(shù)數(shù)量的模型。該模型可以同時(shí)學(xué)習(xí)每一個詞的分布式表示和詞序列的分布式表示的概率函數(shù)。在合理的時(shí)間訓(xùn)練包含數(shù)以萬計(jì)參數(shù)的如此大的模型本身是一種挑戰(zhàn),使用神經(jīng)語言模型的方法進(jìn)行實(shí)驗(yàn),結(jié)果顯示在兩個文本預(yù)料(Brown corpus和AP new corpus)上該神經(jīng)語言模型的方法極大地提高了n元語法模型的最先進(jìn)的性能,并且該方法允許利用較長的上下文。

三:n元語法模型在自然語言處理中的應(yīng)用

自然語言處理就是如何讓計(jì)算機(jī)正確處理人類語言并作出正確的響應(yīng),近年來作為人工智能的一個重要組成部分得到了快速發(fā)展,使得人機(jī)之間直接采用語言作為交互方式成為了可能。

自2006年Hinton等人提出深度學(xué)習(xí)的概念之后,將深度學(xué)習(xí)的思想用于語言模型中形成的神經(jīng)網(wǎng)絡(luò)語言模型不僅僅是三層的神經(jīng)網(wǎng)絡(luò),而是多層的神經(jīng)網(wǎng)絡(luò)語言模型。深度學(xué)習(xí)也就是深層神經(jīng)網(wǎng)絡(luò)算法,每次訓(xùn)練一層,逐層訓(xùn)練,上一層的輸出作為下一層的輸入。將深度學(xué)習(xí)的思想應(yīng)用于語言模型中形成的神經(jīng)網(wǎng)絡(luò)語言模型可以應(yīng)用于自然語言處理的很多領(lǐng)域,比如,詞性標(biāo)注,句法分析,框架排歧,語義角色標(biāo)注等任務(wù)。

n元語法模型在語音指令識別中也有廣泛應(yīng)用.可以用一種音素匹配法[3]結(jié)合改進(jìn)了的n元語法模型的方法對語音指令進(jìn)行理解。指令按照結(jié)構(gòu)劃分類別通過提取其中關(guān)鍵要素來獲取指令語義。音素匹配法可以提取指令中部分或全部要素對于指令中未識別的要素則根據(jù)已正確采用改進(jìn)的n元語法模型進(jìn)行推測。實(shí)驗(yàn)表明該方法取得了較好的效果,并在原有的基礎(chǔ)上有一定的提高。

參考文獻(xiàn):

[1]陳偉雄.基于n元語法模型的領(lǐng)域語音指令識別.2009.5

[2]Bengio,Yoshua,Rejean Ducharme,and Pascal Vincent..A neural probabilistic language model.In T.K.Leen,T.G.Dietterich,and V.Tresp,eds.,Adv ances in NIPS 13,MIT Press.2001:932-938.

[3]翟劍鋒.深度學(xué)習(xí)在自然語言處理中的應(yīng)用..電腦編程技巧與維護(hù).中國青年政治學(xué)院計(jì)算機(jī)中心,2013

[4]楊瑩,吳誠煒,胡蘇基.于受限玻爾茲曼機(jī)的中文文檔分類.科技創(chuàng)新導(dǎo)報(bào),中國電子科技集團(tuán)公司第七研究所.廣東廣州.2012.

猜你喜歡
語音指令語法向量
向量的分解
基于機(jī)載語音識別軟件中的分段識別設(shè)計(jì)
聚焦“向量與三角”創(chuàng)新題
用樹莓派做自己的智能音箱
簡易分析判斷語音識別智能車的設(shè)計(jì)
跟蹤導(dǎo)練(二)4
KEYS
Keys
Book 5 Unit 1~Unit 3語法鞏固練習(xí)
向量垂直在解析幾何中的應(yīng)用
旺苍县| 金门县| 商南县| 达孜县| 黄骅市| 泾阳县| 邳州市| 临泽县| 读书| 盱眙县| 邵阳市| 基隆市| 广丰县| 平利县| 东乡| 常州市| 珲春市| 乐亭县| 竹北市| 泸水县| 浦县| 东阿县| 抚顺县| 特克斯县| 兴宁市| 平泉县| 永川市| 大安市| 中山市| 台安县| 衡南县| 凌海市| 应城市| 丹寨县| 刚察县| 广平县| 龙井市| 大冶市| 枞阳县| 延寿县| 鄂托克旗|