扎西吉,羅 巴
(甘肅民族師范學(xué)院 計算機(jī)科學(xué)系,甘肅 合作 747000)
我們通過對大量藏語句子的分析得出11種句尾詞性,包括形容詞、動詞、存在助詞、判斷助詞、比喻助詞、助動詞、終結(jié)助詞、祈使助詞、時態(tài)助詞、語氣助詞和疑問代詞.本文提出若尾部詞性是表1所列詞性之一,則一定構(gòu)成一個句子,反之,若尾部詞性不是表1所列詞性之一,則一定不是句子.本文以尾部詞性是否屬于表1為標(biāo)準(zhǔn)判斷藏語字符串是否構(gòu)成句子.藏語句尾詞性及標(biāo)記、描述和例句見表1,本文采用青海師范大學(xué)的藏語詞類標(biāo)記集[6].
表1藏語句尾詞性表
表2藏語句尾詞性后能搭配的虛詞及標(biāo)記表
逆向回溯虛詞的句子抽取時,首先進(jìn)行文本預(yù)處理,將文本中以“空格”或“空格”或“空格”為結(jié)尾中的“空格”替換為“”,同時將文本進(jìn)行分詞和詞性標(biāo)注.為了便于描述本文用形式化方法表示句子,將一個以單垂符或雙垂符結(jié)尾的文本內(nèi)容看成是它所含有的詞節(jié)點組成的集合,即:句子S表示為(w1,w2,w3,…,wn),句子S中n個詞的詞性表示為T(t1,t2,…,tn),數(shù)據(jù)集中的詞節(jié)點是指文本已分好的詞,wk就是詞節(jié)點,tk是詞節(jié)點wk的詞性,1≤k≤n;用P_DB表示句尾詞性表1,用F_DB表示表1后能搭配的虛詞及標(biāo)記表2,用Sentence_DB表示抽取到的句子庫.逆向回溯虛詞的藏語句子抽取庫結(jié)構(gòu)及算法如下.庫結(jié)構(gòu):
#typedef Struct
{ int N;
String word[8];
String sign[2];
} P_DB;
#typedef Struct
{ int N;
String word[8];
String sign[2];
} F_DB;
#typedef struct
{ int N;
String Sentence;
}Sentence_DB;
其中庫P_DB和F_DB的結(jié)構(gòu)相同,三個字段分別用于存儲詞類的序號、詞性和詞性標(biāo)記;庫Sentence_DB的字段N表示抽取到句子序號,字段Sentence表示抽取到的句子.
逆向回溯虛詞的句子抽取算法(RBF-Algorithm):
Input:S:W=(w1,w2,w3,…,wn),T=(t1,t2,…,tn)
Output:S(S∈Sentence_DB)
Step: i=n
While(i>0)
if ti∈P_DB then
{W=(w1,w2,w3,…,wi) —> Sentence_DB;
i=i-1;}
Else
if ti-1∈P_DB and ti==hh then//其中hh表示藏語中的詞綴
{W=(w1,w2,w3,…,wi-1) —> Sentence_DB;
i=i-2 ;}
Else
if ti∈F_DB then
i=i-1 ;
else
{while(i>0 and tiF_DB )
i=i-1;
i=i-1;}
Input:
T=(nn,gx,nv,ux,cn,nn,gx,nv,gl,vt,hh).
Step:見表3.
表3逆向回溯虛詞的藏語句子抽取過程值列表
本文從法律法規(guī)、科技類、小說、講座文獻(xiàn)、時事政治等文本中隨機(jī)選取4421個含單垂符和雙單垂的文本做為測試語料,用于測試本文提出的藏語句子抽取方法的有效性,實驗主要觀測抽取藏語句子的數(shù)量和準(zhǔn)確性.實驗過程如下:
第一步:對測試語料進(jìn)行分詞和詞性標(biāo)注.本實驗首先利用青海師范大學(xué)的“藏文文本自動切分系統(tǒng)”[7-9]和“藏文文本自動標(biāo)注系統(tǒng)”[10]對測試語料進(jìn)行分詞和詞性標(biāo)注,然后人工對分詞和詞性標(biāo)注結(jié)果進(jìn)行校對,共得到4421個含單垂符和雙單垂的文本.
第二步:人工從含有4421個含單垂符和雙單垂的測試語料中抽取句子.
第三步:用文獻(xiàn)1、文獻(xiàn)2和本文提出的方法分別從測試語料中抽取藏語句子.
第四步:統(tǒng)計用三種方法抽取的句子,并與人工抽取的句子加以比較.
第五步:計算每種方法的準(zhǔn)確率、召回率、F值,并對比分析.
實驗數(shù)據(jù)見表4.
表4藏語句子抽取量對比表
藏語標(biāo)點符號的特殊性給抽取一個表達(dá)完整意義的藏語句子帶來了很大的困難,從而影響到了雙語對齊、機(jī)器翻譯、句法分析、語義分析等多個知識領(lǐng)域.本文通過分析藏語句子句尾詞性的分布情況,確定了能夠出現(xiàn)在藏語句尾的詞性,進(jìn)而提出了一種逆向回溯虛詞的藏語句子抽取方法,提高了藏語句子的抽取效率,為進(jìn)一步研究藏語句型結(jié)構(gòu)分析提供了理論依據(jù).