国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于虛詞和句尾詞特征的藏語句子抽取方法

2018-02-15 06:32扎西吉
關(guān)鍵詞:藏語助詞虛詞

扎西吉,羅 巴

(甘肅民族師范學(xué)院 計算機(jī)科學(xué)系,甘肅 合作 747000)

0 引言

1 藏語句子特征分析

1.1 藏語句子概述

1.2 藏語句尾詞性特征分析

我們通過對大量藏語句子的分析得出11種句尾詞性,包括形容詞、動詞、存在助詞、判斷助詞、比喻助詞、助動詞、終結(jié)助詞、祈使助詞、時態(tài)助詞、語氣助詞和疑問代詞.本文提出若尾部詞性是表1所列詞性之一,則一定構(gòu)成一個句子,反之,若尾部詞性不是表1所列詞性之一,則一定不是句子.本文以尾部詞性是否屬于表1為標(biāo)準(zhǔn)判斷藏語字符串是否構(gòu)成句子.藏語句尾詞性及標(biāo)記、描述和例句見表1,本文采用青海師范大學(xué)的藏語詞類標(biāo)記集[6].

表1藏語句尾詞性表

表2藏語句尾詞性后能搭配的虛詞及標(biāo)記表

2 虛詞和句尾詞特征的藏語句子抽取方法

逆向回溯虛詞的句子抽取時,首先進(jìn)行文本預(yù)處理,將文本中以“空格”或“空格”或“空格”為結(jié)尾中的“空格”替換為“”,同時將文本進(jìn)行分詞和詞性標(biāo)注.為了便于描述本文用形式化方法表示句子,將一個以單垂符或雙垂符結(jié)尾的文本內(nèi)容看成是它所含有的詞節(jié)點組成的集合,即:句子S表示為(w1,w2,w3,…,wn),句子S中n個詞的詞性表示為T(t1,t2,…,tn),數(shù)據(jù)集中的詞節(jié)點是指文本已分好的詞,wk就是詞節(jié)點,tk是詞節(jié)點wk的詞性,1≤k≤n;用P_DB表示句尾詞性表1,用F_DB表示表1后能搭配的虛詞及標(biāo)記表2,用Sentence_DB表示抽取到的句子庫.逆向回溯虛詞的藏語句子抽取庫結(jié)構(gòu)及算法如下.庫結(jié)構(gòu):

#typedef Struct

{ int N;

String word[8];

String sign[2];

} P_DB;

#typedef Struct

{ int N;

String word[8];

String sign[2];

} F_DB;

#typedef struct

{ int N;

String Sentence;

}Sentence_DB;

其中庫P_DB和F_DB的結(jié)構(gòu)相同,三個字段分別用于存儲詞類的序號、詞性和詞性標(biāo)記;庫Sentence_DB的字段N表示抽取到句子序號,字段Sentence表示抽取到的句子.

逆向回溯虛詞的句子抽取算法(RBF-Algorithm):

Input:S:W=(w1,w2,w3,…,wn),T=(t1,t2,…,tn)

Output:S(S∈Sentence_DB)

Step: i=n

While(i>0)

if ti∈P_DB then

{W=(w1,w2,w3,…,wi) —> Sentence_DB;

i=i-1;}

Else

if ti-1∈P_DB and ti==hh then//其中hh表示藏語中的詞綴

{W=(w1,w2,w3,…,wi-1) —> Sentence_DB;

i=i-2 ;}

Else

if ti∈F_DB then

i=i-1 ;

else

{while(i>0 and tiF_DB )

i=i-1;

i=i-1;}

Input:

T=(nn,gx,nv,ux,cn,nn,gx,nv,gl,vt,hh).

Step:見表3.

表3逆向回溯虛詞的藏語句子抽取過程值列表

3 實驗數(shù)據(jù)

本文從法律法規(guī)、科技類、小說、講座文獻(xiàn)、時事政治等文本中隨機(jī)選取4421個含單垂符和雙單垂的文本做為測試語料,用于測試本文提出的藏語句子抽取方法的有效性,實驗主要觀測抽取藏語句子的數(shù)量和準(zhǔn)確性.實驗過程如下:

第一步:對測試語料進(jìn)行分詞和詞性標(biāo)注.本實驗首先利用青海師范大學(xué)的“藏文文本自動切分系統(tǒng)”[7-9]和“藏文文本自動標(biāo)注系統(tǒng)”[10]對測試語料進(jìn)行分詞和詞性標(biāo)注,然后人工對分詞和詞性標(biāo)注結(jié)果進(jìn)行校對,共得到4421個含單垂符和雙單垂的文本.

第二步:人工從含有4421個含單垂符和雙單垂的測試語料中抽取句子.

第三步:用文獻(xiàn)1、文獻(xiàn)2和本文提出的方法分別從測試語料中抽取藏語句子.

第四步:統(tǒng)計用三種方法抽取的句子,并與人工抽取的句子加以比較.

第五步:計算每種方法的準(zhǔn)確率、召回率、F值,并對比分析.

實驗數(shù)據(jù)見表4.

表4藏語句子抽取量對比表

4 總結(jié)

藏語標(biāo)點符號的特殊性給抽取一個表達(dá)完整意義的藏語句子帶來了很大的困難,從而影響到了雙語對齊、機(jī)器翻譯、句法分析、語義分析等多個知識領(lǐng)域.本文通過分析藏語句子句尾詞性的分布情況,確定了能夠出現(xiàn)在藏語句尾的詞性,進(jìn)而提出了一種逆向回溯虛詞的藏語句子抽取方法,提高了藏語句子的抽取效率,為進(jìn)一步研究藏語句型結(jié)構(gòu)分析提供了理論依據(jù).

猜你喜歡
藏語助詞虛詞
淺談藏語中的禮儀語
韓國語助詞的連續(xù)構(gòu)成與復(fù)合助詞的區(qū)分
藏語傳統(tǒng)辭書詞目編排法探析
基于混合策略的藏文虛詞識別方法
高校朝鮮語專業(yè)學(xué)生助詞使用偏誤調(diào)查分析
日語中“間投助詞”與“終助詞”在句中適用位置的對比考察
藏語拉達(dá)克話的幾個語音特征
Note from the Editor-in-Chief
藏語地理分布格局的形成原因
淺析藏漢雙語結(jié)構(gòu)助詞“的”的共性與個性
湖北省| 封开县| 西乡县| 阿瓦提县| 万山特区| 浠水县| 黔西| 汤阴县| 新野县| 琼中| 巴中市| 平顺县| 五大连池市| 古丈县| 皋兰县| 莫力| 新闻| 库车县| 康保县| 济阳县| 石嘴山市| 施甸县| 灌阳县| 东平县| 长治县| 米易县| 瓦房店市| 云阳县| 扎兰屯市| 黑龙江省| 威宁| 湖州市| 雷山县| 普陀区| 天门市| 双鸭山市| 望谟县| 航空| 潞西市| 江达县| 宾阳县|