国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

手語(yǔ)文本自動(dòng)分詞的設(shè)計(jì)與實(shí)現(xiàn)

2013-04-29 19:40:41劉亞琛劉曼姚登峰
關(guān)鍵詞:詞典

劉亞琛 劉曼 姚登峰

摘要:手語(yǔ)是我國(guó)聽(tīng)障人重要交流之一,手語(yǔ)文本自動(dòng)分詞系統(tǒng)對(duì)聽(tīng)障人的政治、文化、生活的發(fā)展有著重要意義。研發(fā)了手語(yǔ)文本自動(dòng)分詞系統(tǒng),這是在漢語(yǔ)切分的基礎(chǔ)上針對(duì)手語(yǔ)特點(diǎn)進(jìn)行手語(yǔ)切分,而且是利用計(jì)算機(jī)對(duì)文本里面的內(nèi)容進(jìn)行自動(dòng)分詞。該系統(tǒng)包括基本的自動(dòng)分詞方法、歧義的處理等基本模塊,每一環(huán)節(jié)互相協(xié)助,互相依賴,共同決定該系統(tǒng)的價(jià)值、質(zhì)量和應(yīng)用水平。

關(guān)鍵詞:手語(yǔ)文本; 自動(dòng)分詞; 詞典; 切分

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2095-2163(2013)06-0081-04

0研究背景

目前國(guó)外已研制開(kāi)發(fā)了一定數(shù)量的手語(yǔ)機(jī)器翻譯系統(tǒng),其中的手語(yǔ)文本的特點(diǎn)是諸如美國(guó)手語(yǔ)的英語(yǔ)句子本身就有空格,并不需要自動(dòng)分詞技術(shù)。但現(xiàn)如今中國(guó)在這方面的研究仍是一片空白,然而國(guó)內(nèi)現(xiàn)有2 700萬(wàn)聽(tīng)障人,并且新生聾兒正以每年3萬(wàn)例的速度在增加。為了保障殘疾人充分平等地參與社會(huì)生活,無(wú)差地共享社會(huì)物質(zhì)文化成果,以及滿足聽(tīng)障人的需要,并且提供無(wú)障礙服務(wù),對(duì)手語(yǔ)機(jī)器翻譯系統(tǒng)的開(kāi)發(fā)已勢(shì)在必行,本文研究旨在為今后中國(guó)手語(yǔ)機(jī)器翻譯系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)創(chuàng)造基礎(chǔ)現(xiàn)實(shí)條件。

由于計(jì)算機(jī)并不如人類那般具有智能,能夠有效地切分出手語(yǔ)文本,進(jìn)而達(dá)到可適用于聾人使用的語(yǔ)言水平。如,“我和你一起吃飯”,在與聽(tīng)障人交流的時(shí)候,直接說(shuō)“吃飯”,計(jì)算機(jī)分詞不能實(shí)現(xiàn)詞語(yǔ)刪減,所以計(jì)算機(jī)分詞的能力是有限的。

通過(guò)研究發(fā)現(xiàn),中國(guó)手語(yǔ)植根于中國(guó)漢語(yǔ)的大環(huán)境之中。不論提出哪種轉(zhuǎn)寫方案,轉(zhuǎn)寫后的中國(guó)手語(yǔ)文本都面臨著漢語(yǔ)所特有的自動(dòng)分詞問(wèn)題[1],這是手語(yǔ)處理的關(guān)鍵技術(shù)之一,也是語(yǔ)言智能化處理的基礎(chǔ)工程。只有對(duì)手語(yǔ)句子進(jìn)行正確無(wú)誤的分詞,才有可能實(shí)現(xiàn)對(duì)自然手語(yǔ)的機(jī)器理解,為建設(shè)手語(yǔ)語(yǔ)料庫(kù)、手語(yǔ)機(jī)器翻譯提供必備前提。

手語(yǔ)信息處理是以“手勢(shì)”為基礎(chǔ)[2],手語(yǔ)文本自動(dòng)分詞所面臨的問(wèn)題就是如何將文本內(nèi)容自動(dòng)切分出單個(gè)手勢(shì)詞,即使得計(jì)算機(jī)通過(guò)空格作為標(biāo)志切分得到每一句話的詞。為了提高“手勢(shì)”切分準(zhǔn)確率,就需要針對(duì)手語(yǔ)的特點(diǎn),實(shí)現(xiàn)對(duì)手語(yǔ)文本自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與開(kāi)發(fā)。

1手語(yǔ)介紹

漢語(yǔ)中最小的語(yǔ)言單位是字,而手語(yǔ)中則是手勢(shì)(sign)[3]。手勢(shì)是手語(yǔ)體系中最小的語(yǔ)言單位,無(wú)法再進(jìn)行分割。這也是中國(guó)手語(yǔ)有別于漢語(yǔ)的地方。如果一個(gè)復(fù)合詞由兩個(gè)手勢(shì)構(gòu)成,這個(gè)手勢(shì)就是語(yǔ)素。語(yǔ)素就是構(gòu)成詞的詞素[2]。所以手勢(shì)可以是一個(gè)詞,也可以是一個(gè)詞素。 比如“妻子”,在漢語(yǔ)分詞里是一個(gè)詞的單位,但在手語(yǔ)里卻是合成詞,因?yàn)槭终Z(yǔ)對(duì)“妻子”的表示是 “結(jié)婚”+“女人”,或者 “女人”+“結(jié)婚”,這樣本來(lái)在漢語(yǔ)里是一個(gè)語(yǔ)素的“妻子”,在手語(yǔ)里卻是由兩個(gè)語(yǔ)素構(gòu)成的合成詞。這種情況在中國(guó)手語(yǔ)里大量存在,經(jīng)常是漢語(yǔ)里一個(gè)名詞為一個(gè)語(yǔ)素,在手語(yǔ)里卻變成了兩個(gè)語(yǔ)素,甚至三、四個(gè)語(yǔ)素。手語(yǔ)文本的切分規(guī)則就是以手勢(shì)為單位,詞與詞之間則用空格分開(kāi)。

1.1詞

漢語(yǔ)中的一個(gè)詞匯,用手語(yǔ)可以打出多個(gè)手勢(shì)。以一個(gè)詞為詞根,做前綴或后綴。同一個(gè)詞根有著不同的手勢(shì)。不同含義有著相似手語(yǔ)打法的詞(同音,借代)。不同詞有同一手勢(shì)。不同的詞根都代表的一個(gè)手勢(shì)。成語(yǔ)、歇后語(yǔ)則需逐次翻譯每一個(gè)詞。

1.2手語(yǔ)句子劃分的特點(diǎn)

(1)“的”(定)、“地”(狀)、“得”(補(bǔ))這樣的詞語(yǔ),在手語(yǔ)中是不用表達(dá)的。

例:“的”, 北京的工業(yè)發(fā)展很快。(形容詞+結(jié)構(gòu)助詞)

漢語(yǔ)劃分:北京的工業(yè)發(fā)展很快。

手語(yǔ)劃分:北京的工業(yè)發(fā)展很快。

(2)動(dòng)賓一體。當(dāng)句子出現(xiàn)動(dòng)賓一體的時(shí)候,手語(yǔ)會(huì)將其轉(zhuǎn)化為一個(gè)手勢(shì)去表達(dá)該動(dòng)作。

(3)動(dòng)詞+介詞(到、去、在、向、于、自)。在手語(yǔ)中,介詞不用打手勢(shì),跟隨前一個(gè)動(dòng)詞表達(dá)動(dòng)詞的手勢(shì)即可。

(4) 動(dòng)詞+動(dòng)態(tài)助詞(了)。同樣跟隨前一個(gè)詞語(yǔ)。

(5)感嘆語(yǔ)氣。在手語(yǔ)中,感嘆詞也常省略。

(6)狀語(yǔ)倒裝。在這種現(xiàn)象里, 聾人強(qiáng)調(diào)的是動(dòng)詞。

(7)判斷詞。省略判斷動(dòng)詞“是”。

(8)名詞。在手語(yǔ)中,部分名詞需要逐字劃分的。包括專業(yè)名詞、普通名詞,同一個(gè)名詞可能需要多個(gè)手勢(shì)組成。

(9)數(shù)量詞。修飾數(shù)量詞作定語(yǔ)成分可省略、修飾數(shù)量詞作定語(yǔ)中的量詞可省略,數(shù)量詞與字母有相同的手勢(shì)。

2手語(yǔ)文本自動(dòng)分詞技術(shù)

中國(guó)手語(yǔ)是一種獨(dú)立的語(yǔ)言,本身具有象形表意的功能,由于漢語(yǔ)的影響和滲透,又增加了表音和表字的功能,中國(guó)手語(yǔ)和漢語(yǔ)之間的關(guān)系是借用與被借用的關(guān)系,這意味著中國(guó)手語(yǔ)跟漢語(yǔ)既有聯(lián)系,又有區(qū)別[5]。中國(guó)手語(yǔ)分詞可以借鑒國(guó)內(nèi)外分詞技術(shù)及算法研究的優(yōu)勢(shì)[6],同時(shí)從自身的詞法、句法等出發(fā),提出與之相應(yīng)的手語(yǔ)分詞方案[7-8]。本研究的手語(yǔ)文本自動(dòng)分詞系統(tǒng)結(jié)合詞典、規(guī)則的方法[9]。兩種方法進(jìn)行結(jié)合,并互為補(bǔ)充,力求找到最合適手語(yǔ)文本自動(dòng)分詞的平衡點(diǎn)。

手語(yǔ)文本中的詞通用還原法切分手語(yǔ)文本內(nèi)容時(shí)存在一些普遍的還原現(xiàn)象[10]。

概念:假設(shè)手語(yǔ)文本內(nèi)容是“HF”,F(xiàn)∈M,M為手語(yǔ)詞典,其中H為詞根(或一個(gè)手勢(shì)),S詞綴。那么可直接切分為HF→H+F的形式。

按照通用還原法的概念,可采用基于手勢(shì)詞綴的逆向最大匹配算法[11]。本研究的逆向最大匹配算法是:在手語(yǔ)文本中“HF1F2”,F(xiàn)1∈M,F(xiàn)2∈M,M為手勢(shì)詞典,其中F1、F2、H分別代表第一個(gè)手勢(shì)、第二個(gè)手勢(shì)、詞根的意思。如果采用該方法,則切出的結(jié)果為HF1F2F→H+F1+F2。

手語(yǔ)文本自動(dòng)分詞在切分過(guò)程中還發(fā)現(xiàn)存在一些歧義現(xiàn)象的問(wèn)題,對(duì)于切分出來(lái)的結(jié)果含有二重意思,如此則會(huì)影響切分效率[1]。因此,為了確保切分的準(zhǔn)確度,必須合理有效地處理歧義現(xiàn)象。雙向掃描法和逐詞掃描法是歧義收集的兩種方法[10]。本系統(tǒng)開(kāi)發(fā)采用的方法是雙向掃描法,這種算法處理交集字段時(shí):

首先通過(guò)以下兩種方法分別切分字符串歧義的個(gè)數(shù)。

(1)發(fā)現(xiàn)切分個(gè)數(shù)不同,選擇少的返回;

(2)發(fā)現(xiàn)相同但字符串不同,再處理。因?yàn)榍蟹肿址畟€(gè)數(shù)少,字段的長(zhǎng)度就比較長(zhǎng)。而且已經(jīng)知道如果詞越長(zhǎng),信息量就越大,所以最好不要切分長(zhǎng)詞。

文中采用歧義收集算法流程圖來(lái)處理交集歧義,如圖1所示。

3手語(yǔ)文本自動(dòng)分詞的設(shè)計(jì)

運(yùn)行要求:支持本系統(tǒng)運(yùn)行的環(huán)境則需要在Windows xp或Windows 7下,使用MyEclipse7.0軟件。

3.1系統(tǒng)總流程

該系統(tǒng)是基于詞典、規(guī)則與統(tǒng)計(jì)語(yǔ)言模型的漢語(yǔ)切分系統(tǒng),其總體流程如圖2所示。

3.2創(chuàng)建手語(yǔ)詞典

在進(jìn)行手語(yǔ)切分時(shí),并不能完全照搬漢語(yǔ)切分方法[12-13],需根據(jù)手語(yǔ)詞性語(yǔ)法特征進(jìn)行正確切分。 手語(yǔ)詞本身沒(méi)有陰、陽(yáng)性的區(qū)別,也沒(méi)有單、復(fù)數(shù)的區(qū)別,不存在主、賓格的變化,所有格主要是通過(guò)語(yǔ)序、詞界等隱性的句法形式來(lái)確定。中國(guó)手語(yǔ)除了一小部分單字手勢(shì)詞諸如身體部位名稱、姓氏名稱、行為動(dòng)作和事物性質(zhì)特點(diǎn)之外,其余的絕大部分均為雙字手勢(shì)詞,三字和四字手勢(shì)詞所占的比重非常少,因而為文本的切分帶來(lái)了極大的便利。

根據(jù)上面的現(xiàn)象,文中建立一個(gè)手語(yǔ)詞典,并且是.txt的文本。同時(shí)基于上面提出的現(xiàn)象,整理詞典,將單字的詞去掉,逐字翻譯的詞也刪掉,剩下的就是動(dòng)賓一體、一個(gè)手勢(shì)的詞。

3.3實(shí)現(xiàn)與驗(yàn)證

讀取文件中所要切分的內(nèi)容,此程序開(kāi)始采用的正向匹配法,發(fā)現(xiàn)運(yùn)行程序出現(xiàn)切分錯(cuò)誤,只能實(shí)現(xiàn)切分1~2個(gè)詞,不能在更大程度上提高程序的準(zhǔn)確率和切分率。因此最終選用逆向最大匹配法。由于手語(yǔ)詞典中的詞匯最大長(zhǎng)度是3,所以開(kāi)始即選取最大長(zhǎng)度3。

這種方法基本原理是:當(dāng)讀取文本內(nèi)容時(shí),從末尾開(kāi)始讀最大長(zhǎng)度3,也就是說(shuō)從末尾切出3個(gè)字符串,然后與手語(yǔ)字典比較,判斷其是否存在[14]。

為了使程序整體更為清晰,文中編寫了方法,便于調(diào)用Bijiao方法[15]。該方法是讀取手語(yǔ)詞典的文本,然后設(shè)置詞典有6 000個(gè)數(shù)組,每個(gè)數(shù)組由array[]來(lái)代替,整數(shù)型mn為0,布爾型zj為假。通過(guò)while循環(huán)條件實(shí)現(xiàn)運(yùn)行,將詞典的數(shù)據(jù)賦值給數(shù)組元素[16],得到了詞典含有的總個(gè)數(shù)為mn。利用for循環(huán),字與詞典的單詞比較,當(dāng)詞典有一個(gè)與ch字相同,則zj為真,否則為假,即不存在該詞。返回并賦予函數(shù)。程序中,flag3方法是比較三個(gè)字,輸出切分出來(lái)的字并加上空格。可設(shè)置整數(shù)型liu為0,采用if條件,調(diào)用子函數(shù)bijiao(sb),若詞典有該字,那么liu=3(輸出3個(gè)字)。否則,賦予t為字符串,t為三個(gè)字末尾的兩個(gè)字,再一次調(diào)用子函數(shù)bijiao(t),若該詞典有這個(gè)字,那么liu=2(輸出兩個(gè)字),若沒(méi)有,則輸出一個(gè)字,liu=1,返回并賦予函數(shù)。

程序部分代碼如下:

public static int flag3(String sb)throws FileNotFoundException //子函數(shù)flag3

{

int liu=0;//將0賦予liu

if (bijiao(sb))//調(diào)用子函數(shù)bijiao(sb),r若詞典有該字

{

liu=3;//則輸出3個(gè)字

}

else

{

String t;//賦予t為字符串

t=""+sb.charAt(1)+sb.charAt(2);//三個(gè)字末尾的兩個(gè)字

if (bijiao(t))//調(diào)用子函數(shù)bijiao(sb),r若詞典有該字

{

liu=2;//則輸出2個(gè)字

}

else

{

liu=1;//則輸出1個(gè)字

}

}

return liu;//返回,賦值

}

同理,可整理出 flag2 方法、讀取文件的方法等。比如,如果讀取文本為一段內(nèi)容,則需首先統(tǒng)計(jì)這段一共有幾行,其后再進(jìn)行切分。這幾種方法,能夠一目了然,降低出錯(cuò)率。 系統(tǒng)最終實(shí)現(xiàn)界面如圖3所示。圖3 系統(tǒng)實(shí)現(xiàn)界面

Fig.3 System interface4結(jié)束語(yǔ)

本研究為手語(yǔ)文本自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),通過(guò)開(kāi)發(fā)一個(gè)手語(yǔ)文本自動(dòng)分詞系統(tǒng),實(shí)現(xiàn)手語(yǔ)文本的切分功能。最關(guān)鍵的一點(diǎn)就是要去總結(jié)中國(guó)手語(yǔ)和漢語(yǔ)的區(qū)別,搜集聽(tīng)障人講故事的視頻,根據(jù)視頻進(jìn)行人工切分漢語(yǔ),交流手語(yǔ)問(wèn)題,梳理分析手語(yǔ)和漢語(yǔ)的區(qū)別。通過(guò)比較,再整理得到一個(gè)手語(yǔ)詞典,手語(yǔ)詞典的創(chuàng)立是一個(gè)龐大的工程,在漢語(yǔ)詞典中刪除單字的、名稱、數(shù)量詞、成語(yǔ)等,手語(yǔ)和詞一一對(duì)應(yīng)相保存,這一任務(wù)也花費(fèi)了很長(zhǎng)時(shí)間。最后就是采用了逆向最大匹配法,不僅切分率高、準(zhǔn)確率也很高;在此過(guò)程中,畫出流程圖,保證了系統(tǒng)的正常運(yùn)行。

參考文獻(xiàn):

[1]陳曉明,李玲俐,梁雄友. 消除語(yǔ)義網(wǎng)絡(luò)中分詞歧義方法研究[J].微電子學(xué)與計(jì)算機(jī), 2012(3):178-181.

[2]張寧生.手語(yǔ)翻譯概論[M].鄭州:鄭州大學(xué)出版社, 2009.

[3]中國(guó)聾人協(xié)會(huì).中國(guó)手語(yǔ)(上、下冊(cè))[M].北京:華夏出版社,2009.

[4]李良炎.基于詞聯(lián)接的自然語(yǔ)言處理技術(shù)及其應(yīng)用研究[M].上海:學(xué)林出版社,2007.

[5]鄭璇. 中國(guó)聾人手語(yǔ)的語(yǔ)言地位[D]. 武漢:武漢大學(xué), 2005.

[6]甘秋云.中文分詞算法概述[J].唐山師范學(xué)院學(xué)報(bào), 2013(5):55-57.

[7]修馳.宋柔. 基于“固結(jié)詞串”實(shí)例的中文分詞研究[J].中文信息學(xué)報(bào),2012(3):59-64.

[8]周奇年,張振浩,徐登彩. 用于中文文本分類的基于類別區(qū)分詞的特征選擇方法[J].計(jì)算機(jī)應(yīng)用與軟件, 2013(3):193-195.

[9]葛銳. 漢語(yǔ)分詞技術(shù)初探 [J].軟件, 2013(3):140-141.

[10]江銘虎.自然語(yǔ)言處理[M].北京:高等教育出版社,2005.

[11]劉穎.計(jì)算語(yǔ)言學(xué)[M].北京:清華大學(xué)出版社,2008.

[12]李榮,曹建芳.漢語(yǔ)名詞短語(yǔ)和動(dòng)詞短語(yǔ)的自動(dòng)識(shí)別方法研究[M].北京:北京希望電子出版社, 2008.

[13]趙小兵,張志平,田寄遠(yuǎn).現(xiàn)代漢語(yǔ)基本詞匯自動(dòng)識(shí)別方法[M].北京:中央民族大學(xué)出版社,2012.

[14]Bruce Eckel.Java編程思想(第4版)[M].北京:機(jī)械工業(yè)出版社,2011.

[15]明日科技.Java從入門到精通(實(shí)例版)(軟件開(kāi)發(fā)視頻大講堂)[M].北京:清華大學(xué)出版社,2012.

[16]Reges S, Stepp M. Building java programs[M]. Pearson/Addison-Wesley, 2008.

猜你喜歡
詞典
學(xué)語(yǔ)文學(xué)英語(yǔ) 快用有道詞典筆
米蘭·昆德拉的A-Z詞典(節(jié)選)
文苑(2019年24期)2020-01-06 12:07:06
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
法律解釋中的詞典運(yùn)用
法律方法(2019年2期)2019-09-23 01:38:02
詞典引發(fā)的政治辯論由來(lái)已久 精讀
評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
《實(shí)用漢英中西醫(yī)詞典》編撰體例創(chuàng)新探討
朝中雙語(yǔ)詞典和韓中雙語(yǔ)詞典比較研究——以《朝中大詞典》和《韓中詞典》為例
評(píng)漢語(yǔ)詞典“對(duì)等”的定義和“對(duì)等翻譯”中“對(duì)等”的誤譯
和田市| 体育| 平阴县| 奉节县| 英德市| 郎溪县| 峨边| 泰和县| 富民县| 屯留县| 夏津县| 奇台县| 岱山县| 简阳市| 三河市| 浙江省| 灌阳县| 营山县| 阿拉尔市| 临安市| 鸡西市| 时尚| 嘉黎县| 汕头市| 鹤峰县| 普兰店市| 苗栗县| 清镇市| 隆回县| 亳州市| 焉耆| 偏关县| 荃湾区| 南雄市| 太湖县| 五指山市| 洮南市| 孟州市| 临朐县| 绥芬河市| 东乌珠穆沁旗|