吳蕊珠,李晗靜,呂會(huì)華,姚登峰
(1. 北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101; 2. 北京聯(lián)合大學(xué)特殊教育學(xué)院,北京 100075)
手語是一種視覺語言,它是通過手的動(dòng)作、面部表情的變化和身體的運(yùn)動(dòng)進(jìn)行交流的語言。美國學(xué)者威廉姆·斯多基于20世紀(jì)60年代初發(fā)表了世界上第一本談手語的著作《手語結(jié)構(gòu)》,明確提出美國手語是一種自然語言。時(shí)至今日,手語語言學(xué)成為語言學(xué)研究中不可或缺的組成部分,語言學(xué)家開始從不同層面研究手語,而研究范圍也從美國手語擴(kuò)展到其他國家手語[1]。
需要指出的是,我們這里所說的手語均為自然手語,與手勢(shì)漢語或手勢(shì)英語等人造語言是不同的。手勢(shì)漢語是根據(jù)漢語的語法規(guī)律、人為造出來與聾人交流的工具,其利用了漢語的語序,與自然手語的語法規(guī)律存在很大差別,聾人理解起來存在一定困難[1]。所以未來手語的機(jī)器翻譯并不是簡(jiǎn)單地將漢語一個(gè)詞對(duì)應(yīng)一個(gè)手勢(shì)翻譯出來[2]。本文面向自然手語進(jìn)行收集和整理。
本文的工作主要是建立手語漢語平行語料庫。平行語料庫是指“由原文文本及其平行對(duì)應(yīng)的譯語文本構(gòu)成的雙語語料庫,其雙語對(duì)應(yīng)程度可有詞級(jí)、句級(jí)和段級(jí)幾種”[3]。所以手語漢語平行語料庫一方面是要有嚴(yán)格的手語語料的采集過程,采集設(shè)備及場(chǎng)景設(shè)置、采集內(nèi)容、被采集者的選取和采集用到的誘導(dǎo)材料都需要建立標(biāo)準(zhǔn);另一方面是用多媒體標(biāo)注軟件ELAN對(duì)收集到的手語語料進(jìn)行手控和非手控信息等的標(biāo)注,其標(biāo)注者的選取和標(biāo)注的標(biāo)準(zhǔn)也需要科學(xué)指導(dǎo)。本文建立手語漢語平行語料庫是為了給日后建立其他通用手語語料庫提供有效的參考,為保證語料庫標(biāo)注質(zhì)量,提供相應(yīng)技術(shù)支持,它也能夠?yàn)楹罄m(xù)的手語機(jī)器翻譯提供有力的數(shù)據(jù)基礎(chǔ)。
為了有助于語料的去重和手語語料的分類,以及保證其標(biāo)注質(zhì)量,本文提出對(duì)標(biāo)注語料使用基于向量空間模型的余弦相似性算法來實(shí)現(xiàn)手語語料相似度的計(jì)算。
1.1.1 國內(nèi)漢英雙語平行語料庫
北京大學(xué)計(jì)算語言學(xué)研究所的雙語語料庫,英漢對(duì)齊的句子已有5萬多對(duì),并開發(fā)了相應(yīng)的對(duì)齊工具和雙語語料庫管理軟件。在此基礎(chǔ)上做漢英對(duì)照短語庫,預(yù)計(jì)規(guī)模將達(dá)數(shù)十萬條;哈爾濱工業(yè)大學(xué)的英漢雙語語料庫1998年有3萬句子對(duì),已經(jīng)進(jìn)行了詞性標(biāo)注,目前正在擴(kuò)充為40萬~50萬句子對(duì),在句子、短語、詞匯三級(jí)層面實(shí)現(xiàn)雙語對(duì)齊;東北大學(xué)的英漢雙語語段庫:在雙語語料庫基礎(chǔ)上,建造雙語語段庫,1999年構(gòu)造了10萬雙語語段庫,進(jìn)行了基于語段的英漢機(jī)器翻譯實(shí)驗(yàn);中國科學(xué)院軟件研究所的英漢雙語語料庫基于雙語對(duì)齊算法研究,現(xiàn)有15萬對(duì)英漢雙語對(duì)齊句子庫,已經(jīng)切分和標(biāo)注[4]。
1.1.2 澳大利亞手語語料庫
目前最為成熟的手語語料庫當(dāng)屬由Johnston等人創(chuàng)建的澳大利亞手語語料庫[5]。該庫的建設(shè)目的從早期的社會(huì)語言學(xué)描寫研究,逐漸轉(zhuǎn)移到手語的傳承保護(hù)和詞典編纂。該語料庫的標(biāo)注包括49層,其中用來對(duì)雙手手形的意義、運(yùn)動(dòng)、位置等手控信息的標(biāo)注層就有37層之多;9層是對(duì)眼睛、眉毛、身體、頭部等非手控信息的標(biāo)注;2層是對(duì)于手語意義的標(biāo)注,分別是句子翻譯和詞語轉(zhuǎn)寫翻譯;最后一層是注釋。澳大利亞手語語料庫雖然是最為成熟的手語語料庫,但其大部分標(biāo)注層主要集中在雙手空間信息的描述上,標(biāo)注層過多,耗時(shí)耗力。因此,該語料庫很難復(fù)制或者推廣。
1.1.3 德國天氣預(yù)報(bào)手語平行語料庫
該語料庫的建立是為了手語的翻譯和識(shí)別,將德語翻譯成德國手語是該系統(tǒng)的目標(biāo)[6]?;诮y(tǒng)計(jì)的機(jī)器翻譯要依賴海量的數(shù)據(jù),該語料庫收集了自1999年以來6年內(nèi)德國天氣預(yù)報(bào)的手語視頻數(shù)據(jù),包括2 190個(gè)手語視頻,德語手語句子對(duì)有72 724對(duì),詞語數(shù)量872 117個(gè),詞匯(去掉重復(fù)詞)有12 320個(gè),而且其收集的是國家級(jí)天氣預(yù)報(bào),手語視頻質(zhì)量比較高,包括很多相同的句子句式,比如天氣預(yù)報(bào)中的德語句子“Und nun die Wettervorhersage für morgen, Donnerstag, den zw?lften Mai.”,德國手語句子標(biāo)注為“JETZT WETTER+VORAUS+SAGEN MORGEN DONNERSTAG ZW? LF MAI.”,表達(dá)的意思是“And now the weather forecast for tomorrow, the 12th of May.”,語料庫中很多手語視頻中都會(huì)有這樣的句式,有利于基于統(tǒng)計(jì)的機(jī)器翻譯。該語料庫由三部分組層:一部分是手語視頻數(shù)據(jù)的標(biāo)注語料(The Video Corpus),其中標(biāo)注層有6層,分別是轉(zhuǎn)寫、詞語類型、手語句子邊界、相應(yīng)的德語句子邊界、德語使用者標(biāo)注的德語句子翻譯。另一部分是德語手語的文本語料(The Bilingual Text-based Corpus),是將ELAN軟件中的標(biāo)注信息導(dǎo)出。還有一部分是天氣預(yù)報(bào)的德語文本語料(The Monolingual Text-based Corpus),其中標(biāo)注信息中沒有主手、輔手、非手控信息的描述。對(duì)于手語這種空間性的語言,其記錄的手語信息不夠完整,且該語料庫采集的是規(guī)約手語,不是自然手語。
1.1.4 中國手語語料庫
中國的手語語料庫建設(shè)目前還處于初始階段,且手語研究逐漸豐富,北京師范大學(xué)鄧猛教授領(lǐng)頭的國家語委、中國殘聯(lián)“十二五”科研規(guī)劃2013年重大課題“國家通用手語等級(jí)標(biāo)準(zhǔn)研制”;復(fù)旦大學(xué)龔群虎的通用手語語料庫研究項(xiàng)目“基于漢語和部分少數(shù)民族語言的手語語料庫建設(shè)研究”;由南京特殊教育師范學(xué)院承擔(dān)的國家語委重點(diǎn)科研項(xiàng)目“國家手語詞匯語料庫建設(shè)”是中國第一個(gè)手語詞匯語料庫,采集了9個(gè)地區(qū)共6萬多個(gè)手語詞視頻,語料具有較強(qiáng)的代表性[7],但是只限于詞語級(jí)別;黃曉曉建立的基于情景的手語語料庫[8],包含個(gè)人在家庭、學(xué)校等場(chǎng)合的日常交流,其手語視頻轉(zhuǎn)寫采用Word文檔作為轉(zhuǎn)寫文檔,轉(zhuǎn)寫的格式?jīng)]有統(tǒng)一的標(biāo)準(zhǔn),這使文本語料很難成為格式化的可機(jī)讀文件。除了政府或殘聯(lián)組織投資建設(shè)的語料庫外,一些研究者為了研究的需要,也建立了或大或小的手語語料庫。
目前手語漢語平行語料庫建設(shè)的缺點(diǎn)是: 規(guī)范性差,缺少系統(tǒng)的理論指導(dǎo),缺乏具體的評(píng)測(cè)標(biāo)準(zhǔn),使得手語語料庫建設(shè)的質(zhì)量不一,應(yīng)用性欠佳,難以滿足語料庫語言學(xué)發(fā)展的需要。很難為語言學(xué)研究提供及時(shí)、全面、權(quán)威性高的語料素材,為語言學(xué)建設(shè)提供強(qiáng)有力的數(shù)據(jù)支持。
為了采集到高質(zhì)量的手語語料,本節(jié)整理了國內(nèi)外手語語料庫的采集內(nèi)容(表1)、被采集者的選取規(guī)則以及采集場(chǎng)景的設(shè)置材料,以便為落實(shí)本文的采集內(nèi)容、被采集者的選取和采集場(chǎng)景設(shè)置提供參考。
表1 手語語料庫的手語類型、題材、形式
對(duì)于被采集者的選取來說,不同語言群體的成員,其語言能力存在差異,手語使用者群體也不例外。根據(jù)Johnston的調(diào)查,只有極少數(shù)人可以被稱作手語的母語使用者。因此最理想的受試者來自第二代聾人家庭的手語使用者。在實(shí)際生活中,尤其是在較小的聾人群體中,研究者往往難以召集到足夠數(shù)量的理想受試者。鑒于此,Johnston提出了另外一套針對(duì)非母語使用者的選取標(biāo)準(zhǔn),以保證研究的科學(xué)性。當(dāng)中包括: ①手語的學(xué)習(xí)年齡不應(yīng)晚于八歲,以三歲前為最佳; ②接受聾校教育,以住校生為最佳; ③每天使用手語; ④身份上認(rèn)同聾文化[5]。
圖1是荷蘭NGT手語視頻采集的場(chǎng)景布置,被采集者和引導(dǎo)者相對(duì)而坐,每人面前各有一臺(tái)攝像機(jī)負(fù)責(zé)采集拍攝其手語信息。被采集者和引導(dǎo)者正上方也各自有一臺(tái)攝像機(jī),負(fù)責(zé)采集拍攝對(duì)象的另一個(gè)平面的手語信息。這種場(chǎng)景設(shè)置考慮到了手語的空間性。但是,被采集者和引導(dǎo)者的手語采集過程是一個(gè)手語對(duì)話的過程,如果將其分開,對(duì)后面的標(biāo)注過程是不利的,因?yàn)楹茈y理解他們要表達(dá)的內(nèi)容。
圖1 荷蘭NGT手語語料庫的場(chǎng)景布置[9]
新西蘭手語語料庫(The Corpus NGT(Nederlands))數(shù)據(jù)采集的場(chǎng)景布置如圖2所示,需要錄制對(duì)話人的正面、臉部、由上向下的6個(gè)同步視頻數(shù)據(jù)。新西蘭手語語料庫的場(chǎng)景設(shè)置比荷蘭NGT手語語料庫的場(chǎng)景設(shè)置多了臉部信息的攝取,是手語非手控信息的采集;還合成了被采集者和引導(dǎo)者兩人手語對(duì)話內(nèi)容,此類場(chǎng)景布置更適合采集對(duì)話形式的手語。其場(chǎng)景布置復(fù)雜,要用到6臺(tái)不同的高清攝像機(jī)同時(shí)錄制,實(shí)驗(yàn)室配置花費(fèi)大。
圖2 新西蘭手語采集場(chǎng)景設(shè)置[10]
ELAN (EUDICO Linguistic Annotator)[11]是荷蘭馬克斯普朗克研究所為研究心理語言學(xué)而開發(fā),其目的是為注釋和開發(fā)多媒體提供良好的技術(shù)支持。ELAN是一個(gè)用于對(duì)視頻或音頻文件進(jìn)行復(fù)雜標(biāo)注的專業(yè)工具。使用ELAN可以為視頻、音頻添加無限層的標(biāo)注。標(biāo)注內(nèi)容可以是句子、單詞、內(nèi)容、翻譯或者是對(duì)視頻細(xì)節(jié)的描述等。使用ELAN對(duì)手語視頻進(jìn)行標(biāo)注可達(dá)到事半功倍的效果[12]。
① 層(Tier)是轉(zhuǎn)寫和標(biāo)注的依托,不同的層可以被賦予不同的標(biāo)注內(nèi)容。如注釋層、詞類層、翻譯層等。ELAN中的層可以根據(jù)使用者的需求添加。
② 轉(zhuǎn)寫(transcription)指根據(jù)音頻和視頻錄入文字或其他符號(hào)的操作。以手語為例,是借用漢字和其他字符按照手語順序記錄手語表達(dá)的內(nèi)容和方式,沒有翻譯加工,記錄的是手語表達(dá)的信息,并非翻譯的漢語句子[13]。
③ 標(biāo)注(annotation)是針對(duì)音頻或視頻內(nèi)容轉(zhuǎn)寫的文字、注釋、翻譯、國際音標(biāo)等,標(biāo)注包括轉(zhuǎn)寫。在ELAN中,標(biāo)注也指時(shí)間段上的時(shí)間線,時(shí)間段內(nèi)可以沒有轉(zhuǎn)寫任何內(nèi)容。
手語是一種視覺語言,沒有書面形式,更多的是通過視頻錄制的方式進(jìn)行記錄。視頻的相似度研究為手語語料相似度研究提供了參考。
國內(nèi)外學(xué)者在研究視頻相似度問題時(shí),一種方法是提取視頻的文本信息,Crawler系統(tǒng)[14]可以從視頻的URL和主頁HTML文件中提取視頻的文本信息,比如字幕、視頻的題目、摘要、類別、主題,以及相關(guān)的人物信息等。還有視頻經(jīng)過文字檢測(cè)、文字分割、字符識(shí)別,使用OCR軟件識(shí)別[15],完成由數(shù)字圖像到字符編碼的轉(zhuǎn)化,最終可以將視頻相似度轉(zhuǎn)化為文本相似度的計(jì)算。另一種方法,是將視頻作為圖像進(jìn)行處理,即關(guān)鍵幀之間的相似度計(jì)算, 轉(zhuǎn)化成圖像的相似度計(jì)算。以兩個(gè)視頻間對(duì)應(yīng)幀的平均距離作為相似度,條件是視頻幀序列遵守時(shí)間順序[16]。采用常見的顏色直方圖進(jìn)行計(jì)算比較, 但不是直接將兩幅圖像的直方圖進(jìn)行比較, 而是先將視頻的關(guān)鍵幀進(jìn)行區(qū)域劃分[17]。
本文手語漢語平行語料庫采集內(nèi)容為聾人日常生活、學(xué)習(xí)、工作中自然產(chǎn)生的語料,還有通過實(shí)驗(yàn)誘導(dǎo)的方式獲取的語料。語料庫中已標(biāo)注語料約5.12GB,約80min,約2 400個(gè)平行句對(duì)。
被采集人群為根據(jù)Berent提出的手語雙語者分類方案篩選被試,將被采集者分為五類。第一類:出生于聾人家庭的聾人,父母從小使用自然手語與其溝通,在獲得第一語言手語后,口語成為第二語言;第二類:出生于健聽家庭的聾人,早期接觸手語,之后接觸口語;第三類:出生于健聽家庭的聾人,晚期接觸手語;第四類:出生于聾人家庭的健聽人,早期從聾人父母處自然習(xí)得手語;第五類:健聽家庭的健聽人,如聾校教師、手語翻譯等,他們大多因工作需要,成年后學(xué)習(xí)手語。以上語料提供者還需滿足經(jīng)常使用手語這一條件[18]。
圖3 本文手語視頻采集場(chǎng)景設(shè)置
本文的手語視頻采集的場(chǎng)景布置如圖3所示。攝像機(jī)1的視角是負(fù)責(zé)拍攝被采集者和引導(dǎo)者的對(duì)話,而攝像機(jī)2的視角是負(fù)責(zé)拍攝被采集者的手語信息。這樣做的好處是,既記錄了對(duì)話內(nèi)容,也記錄了被采集者的信息,在后續(xù)對(duì)采集的語料進(jìn)行標(biāo)注的時(shí)候,可以參考對(duì)話內(nèi)容,以保證標(biāo)注的正確性與可靠性,降低標(biāo)注者的難度。
在本文建立的手語漢語平行語料庫中,我們的標(biāo)注層分為14層,包含手語的手控和非手控信息。分別是主手、輔手、詞語轉(zhuǎn)寫、詞語翻譯、句子翻譯1、句子翻譯2、句子翻譯3、句子翻譯4、眉毛、眼睛、嘴巴、身體、頭部、眨眼。其中主手和輔手層是對(duì)主手和輔手的位置、手形、運(yùn)動(dòng)信息進(jìn)行標(biāo)注,標(biāo)準(zhǔn)參考文獻(xiàn)[19]中的內(nèi)容(如圖4所示);詞語轉(zhuǎn)寫是時(shí)間段與手勢(shì)所要表達(dá)的意思,以國家通用手語為準(zhǔn);詞語翻譯是詞語轉(zhuǎn)寫層融合非手控信息后的翻譯,比如詞語轉(zhuǎn)寫是“雨”,融合非手控信息就可能翻譯成“大雨”或者“暴雨”;句子翻譯1和句子翻譯2是由手語使用進(jìn)來標(biāo)注,分成兩個(gè)句子翻譯是為了處理句子有歧義的情況;句子翻譯3和句子翻譯4是語言學(xué)專家標(biāo)注,分別對(duì)句子翻譯1和句子翻譯2進(jìn)行漢語翻譯和校驗(yàn);眉毛、眼睛、嘴巴、身體、頭部、眨眼這六層的標(biāo)注標(biāo)準(zhǔn)參考文獻(xiàn)[18]中的內(nèi)容。如圖5所示是使用ELAN軟件進(jìn)行標(biāo)注的示例。
圖4 位置、手形和運(yùn)動(dòng)的標(biāo)注標(biāo)準(zhǔn)[19]
圖5 手語標(biāo)注示例
手語語料預(yù)處理是整個(gè)工作內(nèi)容的基礎(chǔ),有以下四個(gè)方面的內(nèi)容:手語語料采集、語料的標(biāo)注、語料專家校驗(yàn)及語料庫的更新和存儲(chǔ),手語語料的預(yù)處理總體流程如圖6所示。
手語語料的預(yù)處理的具體內(nèi)容如下。
① “手語語料采集”首先需要確定被采集人和采集內(nèi)容,接下來按照?qǐng)鼍安贾靡髮⑴臄z現(xiàn)場(chǎng)搭建好,最后就是對(duì)視頻的采集與存儲(chǔ)。
圖6 手語語料的預(yù)處理總體流程
② “語料的標(biāo)注”這個(gè)過程是由自然手語使用者與漢語專家共同完成的,第一步是將MP4文件導(dǎo)入ELAN標(biāo)注軟件;第二步是按照話題或者固定時(shí)間將手語視頻進(jìn)行切分;第三步是建立轉(zhuǎn)寫標(biāo)注層,本文在建立手語漢語平行語料庫時(shí),綜合了相關(guān)研究章節(jié)中語料庫的優(yōu)缺點(diǎn),以及手語漢語平行語料庫的用途,增加了翻譯部分詞級(jí)和句子級(jí)的平行標(biāo)注層,減少了空間信息的過多描述,保留了非手控信息的標(biāo)注,最終確定了14層的標(biāo)注層級(jí),接著以手語標(biāo)注的標(biāo)準(zhǔn)及《國家通用手語》作為參考對(duì)手語進(jìn)行標(biāo)注。
③ “語料專家校驗(yàn)”時(shí),首先要對(duì)被采集者、采集內(nèi)容和手語標(biāo)注者信息等進(jìn)行確認(rèn),然后根據(jù)漢語標(biāo)注標(biāo)準(zhǔn)和手語標(biāo)注標(biāo)準(zhǔn)對(duì)語料庫標(biāo)注內(nèi)容進(jìn)行校驗(yàn)。專家校驗(yàn)就是為了提高語料庫的質(zhì)量,以便使語料庫能夠建得更好。
④ “語料庫的更新與存儲(chǔ)”將存在的問題進(jìn)行反饋,由手語使用者和漢語專家將標(biāo)注轉(zhuǎn)寫的語料內(nèi)容中的任何漏標(biāo)、誤標(biāo)、多標(biāo)、標(biāo)注不統(tǒng)一等情況進(jìn)行修正更新,形成一套符合標(biāo)注標(biāo)準(zhǔn)的手語漢語平行語料庫。最終,將手語視頻的MP4文件及手語語料標(biāo)注轉(zhuǎn)寫語料EAF文件進(jìn)行存儲(chǔ)。
手語語料相似度的計(jì)算有助于語料的去重和手語視頻的分類,以及保證標(biāo)注質(zhì)量問題等。本文建立的手語漢語平行語料庫中詞語轉(zhuǎn)寫層(詞語級(jí)別,不涉及語法信息)是對(duì)手語視頻內(nèi)容的轉(zhuǎn)寫,可以將手語視頻轉(zhuǎn)化為文本來處理。我們與1.6節(jié)中提到的視頻的文本信息是不同的,一般視頻的文本信息是非常有限的,而且視頻語義方面的文本信息很少,所以在視頻相似度處理方面是不利的。而本文用到的語料庫的詞語轉(zhuǎn)寫層,是對(duì)整段手語視頻中的語義進(jìn)行描述,對(duì)其進(jìn)行手語相似度的計(jì)算,為準(zhǔn)確性提供了保障。我們使用基于向量空間[20]的余弦相似性來進(jìn)行手語相似度的計(jì)算,還可以用此算法確定標(biāo)注者的標(biāo)注質(zhì)量是否合格。
向量空間模型的概念最早在20世紀(jì)60年代被Salton等人提出,并很快在文本分類、信息檢索等領(lǐng)域得到廣泛應(yīng)用。其定義為: 對(duì)于待檢查手語B中的每一個(gè)詞語,使用Bi代表此段手語中第i個(gè)詞語的權(quán)重,同樣使用Ai表示已有手語A中的第i個(gè)詞語的權(quán)重,從而可以使用Ai=(a1,a2,…,an)和Bi=(b1,b2,…,bn)表示待檢查手語B和已有手語A的詞語權(quán)重向量。在得到手語的詞語權(quán)重向量之后,通過余弦相似性算法計(jì)算Ai和Bi兩個(gè)向量的余弦相似度,從而判斷待檢查手語B和已有手語A之間的相似度。余弦相似度的計(jì)算如式(1)所示。
(1)
其中, ‖A‖和‖B‖表示向量的模。由于Ai和Bi均大于等于0,所以式(1)的值是一個(gè)0到1的值,0表示兩段手語語料的相似度為零,1表示兩段手語語料完全相同。
算法流程如圖7所示。首先是語料預(yù)處理過程,將轉(zhuǎn)寫層語料導(dǎo)出成文本,并去除相應(yīng)的停用詞。然后按照余弦相似性算法的步驟,對(duì)手語視頻A的轉(zhuǎn)寫層和手語視頻B的轉(zhuǎn)寫層的所有詞進(jìn)行列舉;然后計(jì)算各自的詞頻、確定各自的詞頻向量、計(jì)算兩個(gè)詞頻向量對(duì)應(yīng)的夾角。最后就是確定手語視頻A和手語視頻B的相似度。
圖7 基于余弦相似性算法的手語相似度計(jì)算流程圖
本文選取了語料庫中的手語語料進(jìn)行了實(shí)驗(yàn),結(jié)果如圖8所示,其中手語視頻①和手語視頻1是同一內(nèi)容、被不同采集者進(jìn)行手語講述、經(jīng)同一轉(zhuǎn)寫者處理(手語視頻對(duì)2和②,3和③,4和④,5和⑤處理?xiàng)l件相同,表2中的實(shí)驗(yàn)結(jié)果為圖8中的結(jié)果。通過本文提出的相似度計(jì)算方法得到的結(jié)果為0.506 6。而手語視頻①和其他手語視頻進(jìn)行計(jì)算得到的相似度為0.237 6、0.061 4、0.281 8和0.143 6,相比較而言,相似度降低。說明同一內(nèi)容的手語視頻比不同內(nèi)容的相似度高,證明了算法的有效性。實(shí)驗(yàn)也將相似度高于0.5的手語視頻進(jìn)行專家校驗(yàn),得到了同樣的結(jié)果。
圖8 手語視頻相似度計(jì)算對(duì)比實(shí)驗(yàn)
另外,圖8中,標(biāo)注者A和標(biāo)注者B對(duì)手語視頻1進(jìn)行了轉(zhuǎn)寫。我們用上述方法進(jìn)行計(jì)算相似度。
表2 手語視頻相似度實(shí)驗(yàn)結(jié)果
結(jié)果1為0.895 8,也就是說同一手語視頻在不同標(biāo)注者進(jìn)行轉(zhuǎn)寫的情況下,其相似度計(jì)算結(jié)果有一定的可信度;為了保證語料庫的標(biāo)注質(zhì)量,此算法可以用作專家相似度測(cè)試。標(biāo)注者A為專家,標(biāo)注者B是一般標(biāo)注者,如果通過標(biāo)注培訓(xùn),標(biāo)注者與專家的標(biāo)注語料相似度達(dá)到相似度閾值,經(jīng)過專家討論研究,此閾值設(shè)為0.85,如果計(jì)算結(jié)果小于閾值,則不能通過專家相似度測(cè)試,重新進(jìn)行標(biāo)注培訓(xùn);如果計(jì)算結(jié)果大于閾值,則表明此標(biāo)注者可以進(jìn)行語料庫的標(biāo)注工作,保證了語料庫的標(biāo)注質(zhì)量。
實(shí)驗(yàn)結(jié)果表明,本文用到的基于向量空間的余弦相似度的計(jì)算方法是可以用于手語視頻中的相似度計(jì)算的,也有非常明顯的效果。
本文總結(jié)了國內(nèi)外手語平行語料庫建立、采集內(nèi)容、被采集者選取和采集場(chǎng)景設(shè)置的優(yōu)缺點(diǎn),最終確定了本文建設(shè)的手語漢語平行語料庫的方案;并對(duì)ELAN軟件進(jìn)行了詳細(xì)介紹,確定了基于ELAN的語料庫的標(biāo)注方法和標(biāo)準(zhǔn),并對(duì)手語語料的預(yù)處理過程進(jìn)行了分析和研究;最后進(jìn)行了基于向量空間的余弦相似性算法的實(shí)驗(yàn)并獲得明顯效果,為手語語料去重提供有力支持,也提高了研究人員管理和檢索手語語料的效率,同時(shí)保證了手語語料庫的質(zhì)量。未來我們會(huì)基于手語漢語平行語料庫對(duì)手語的機(jī)器翻譯和各種自然語言知識(shí)進(jìn)行挖掘研究。