楊麗姣, 熊 文, 徐麗芳(.北京師范大學(xué) 中文信息處理研究所,北京 00875;.中國專利信息中心,北京 00088;.同方知網(wǎng)(北京)技術(shù)有限公司,北京009)
?
對答結(jié)構(gòu)的標(biāo)注與應(yīng)用研究
——以漢語(二語)教學(xué)會話體語料為例*
楊麗姣1, 熊 文2, 徐麗芳3
(1.北京師范大學(xué) 中文信息處理研究所,北京 100875;2.中國專利信息中心,北京 100088;3.同方知網(wǎng)(北京)技術(shù)有限公司,北京100192)
研究針對漢語(二語)教學(xué)會話體語料語義功能的檢索需求,基于漢語國際教育動態(tài)語料庫,探討了一種語料庫語言信息標(biāo)注框架。圍繞日常口語交際的主要目的以及教學(xué)范圍,提出19類對答結(jié)構(gòu),刻畫了引發(fā)語與應(yīng)答語的基本形式。以此為基礎(chǔ),開展對答結(jié)構(gòu)的自動識別算法研究,選取問候、感謝、祝賀、贊揚(yáng)、介紹5個類別進(jìn)行試驗(yàn),實(shí)驗(yàn)測試在準(zhǔn)確率和召回率上均取得較好的成績。對答結(jié)構(gòu)的標(biāo)注框架對于會話體語料相關(guān)表達(dá)式的抽取具有較好的適應(yīng)性,自動識別算法可用于語言信息的自動抽取以及語料庫擴(kuò)展應(yīng)用軟件研發(fā)等。
漢語二語教學(xué);標(biāo)注框架;對答結(jié)構(gòu);語義功能;自動識別
口語交際是二語教學(xué)的關(guān)鍵內(nèi)容。在教學(xué)上,人們不僅關(guān)心如何說(即語法)以及說什么(即詞匯)的問題,還關(guān)心怎樣得體地表達(dá)(即交際運(yùn)用)。程棠(1996)*程棠. 關(guān)于 “結(jié)構(gòu)—功能—文化相結(jié)合”的教學(xué)原則的思考[J]. 世界漢語教學(xué),1996,(4).提出,漢語(二語)教學(xué)的基本任務(wù)是培養(yǎng)外國學(xué)生用漢語進(jìn)行社會交際的能力,要獲得社會交際能力,除了掌握相當(dāng)?shù)脑~匯量、語法構(gòu)式外,學(xué)生要懂得在特定語境中如何正確而得體地使用漢語。*關(guān)于語境(Context)概念,一直以來,具有不同研究背景與研究目的的學(xué)者不斷給其下定義。大體而言,可以從兩個維度理解語境所包含的信息。從純語言學(xué)的維度出發(fā),語境信息指向言內(nèi),涉及與一個詞或句子的上下文有關(guān)的語言材料。從語用學(xué)或話語取向研究出發(fā),語言的理解要結(jié)合語言發(fā)生的情景,語境信息指向言外,這也就是所謂的言內(nèi)語境和言外語境之分。他們需要了解,中國人在一般日常交際場合下,如何根據(jù)不同交際目的選擇或調(diào)整會話內(nèi)容?比如,對于他人的夸獎,是以“哪里、哪里”式的自謙作為回應(yīng),還是以感謝、回贊等表達(dá)作為應(yīng)答。交際目的、交際場合、交際對象、交際心理等語境差異對于會話開始、結(jié)束時的語言表達(dá)往往形成了一些模式。這些模式在二語教學(xué)大綱中以功能項(xiàng)目列表的方式進(jìn)行解釋,但交際功能項(xiàng)目是對句子的語言表達(dá)功能的靜態(tài)抽取,在動態(tài)的交際進(jìn)程中,如何根據(jù)對話的推進(jìn)或變化模式進(jìn)一步審視語言的表達(dá)功能?
研究基于漢語(二語)教學(xué)會話體語料,梳理漢語二語教學(xué)大綱的基本交際功能項(xiàng)目,在會話進(jìn)程中描述對答結(jié)構(gòu)的內(nèi)涵,提出對答結(jié)構(gòu)的標(biāo)注框架,并抽取語言特征與識別模式,開展對答結(jié)構(gòu)自動識別的實(shí)驗(yàn)研究。
在自然語言處理研究中,詞義以及句法結(jié)構(gòu)語的標(biāo)注與自動識別算法相對成熟,語用層面的研究較為薄弱,針對什么樣的目的和內(nèi)容,在什么單位上進(jìn)行語用信息的標(biāo)注與自動識別,相關(guān)研究不多見。對答結(jié)構(gòu)的語義功能屬于語用層面的語言信息,是語境要素的構(gòu)成,本文的討論是對這方面研究的一個粗淺嘗試。
在應(yīng)用上,對語義功能的標(biāo)注可以豐富語料庫語言信息的標(biāo)注層次,可供語料庫檢索與交際情景密切相關(guān)的各類語言表達(dá)以及關(guān)鍵詞。在語料達(dá)到相當(dāng)規(guī)模時,還可以統(tǒng)計語義功能的出現(xiàn)頻率及多樣性,獲取更多研究數(shù)據(jù)。對答結(jié)構(gòu)的自動切分以及自動識別算法研究,也可用于語料自動抽取,以及漢語(二語)教材編寫輔助系統(tǒng)、自主學(xué)習(xí)系統(tǒng)等語料庫擴(kuò)展應(yīng)用工程的研發(fā)。
研究的基礎(chǔ)是漢語國際教育動態(tài)語料庫(簡稱動態(tài)語料庫)*漢語國際教育領(lǐng)域的語料庫建設(shè)一直集中于各類中介語語料庫。中介語語料庫關(guān)注學(xué)習(xí)者的語言使用信息,針對學(xué)習(xí)者語言應(yīng)用中的偏誤情況進(jìn)行標(biāo)注,內(nèi)容包括字、詞、句、篇各級單位中的各類錯誤。要了解正確的、不同層次的語言信息,無論是學(xué)生和教師,可供選用的語料庫尚待研發(fā)?,F(xiàn)有一些語料庫或數(shù)據(jù)庫以教材中典范的文本資源為語料采集對象,供用戶檢索的內(nèi)容僅僅是語料的字頻、詞頻以及句長、教材背景等粗略的信息等。(可參看“全球漢語教材庫”(http://www.ctm-lib.com/);“國際漢語教學(xué)數(shù)據(jù)庫”(http://tpi.cie.muc.edu.cn/),該語料庫以經(jīng)典漢語(二語)教材為主要采集對象,收錄了國家漢辦發(fā)布的部分HSK考題文本語料。還收錄少量經(jīng)典中小學(xué)語文教材以及通用自然語料以供對比之用。經(jīng)過自動分詞以及詞性校對,目前入庫的句子數(shù)據(jù)庫接近20萬句。構(gòu)成比例見表1:
表1 語料庫的語料構(gòu)成
動態(tài)語料庫由3個子庫組成:生語料庫、熟語料庫、元數(shù)據(jù)庫。
生語料庫以句子的形式存儲所收集的全部語料。以教材語料為例,每個句子的屬性信息包括ID號、句子內(nèi)容、段落號、課文名、單元名以及教材名。在生語料庫中,可以通過ID找出句子的上下文、相關(guān)段落或語篇,因此,語言特征的抽取或語料標(biāo)注范圍可以跨越句子進(jìn)行。
熟語料庫是在人工標(biāo)注與計算機(jī)輔助標(biāo)注基礎(chǔ)上,再經(jīng)人工校對的語料。用戶可以根據(jù)需要,檢索詞義、句法語義綜合信息以及語用層面的相關(guān)語言信息。
元數(shù)據(jù)庫以教材為例,屬性信息包括書名、責(zé)任者、出版時間、出版社、適用對象、適用水平、教材類型。
漢語(二語)經(jīng)典教材語料是語料庫的核心組成,語料采集考慮教材類型、適用水平、出版年代、影響因子等屬性特征。從教材類型上說,以通用型、綜合類教材為主,這類教材多采用書面化的口語,反映漢語(二語)教學(xué)典范的語言形式。此外,也補(bǔ)充以聽、說、讀、寫單項(xiàng)技能訓(xùn)練為主要目標(biāo)的教材以及少量專門用途教材(如醫(yī)用漢語教材、商務(wù)漢語教材)、文化教材等以反映特定領(lǐng)域的教材用語面貌。
漢語(二語)教學(xué)在2000年前后進(jìn)入發(fā)展的快速通道,相應(yīng)地,漢語(二語)教材數(shù)量激增。動態(tài)語料庫以2000年以后的教材為主,并收錄少量20世紀(jì)60年代至20世紀(jì)90年代的經(jīng)典教材,以供歷時考察比較的需要。
動態(tài)語料庫建設(shè)面向漢語(二語)教學(xué)與研究的信息檢索需求,結(jié)合計算機(jī)語言信息自動識別的探索,設(shè)定標(biāo)注框架。標(biāo)注體系分為詞義標(biāo)注、句法語義綜合標(biāo)注、語境信息標(biāo)注三個層次。對答結(jié)構(gòu)的語義功能是語境信息標(biāo)注的重要內(nèi)容。一般而言,語料標(biāo)注的過程也就是是對語料中語言單位的特征進(jìn)行解釋的過程,不同的人可能會有不同的解釋結(jié)果。(崔剛等,2000)*崔剛,盛永梅.語料庫中語料的標(biāo)注[J]. 清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2000,(1).對答結(jié)構(gòu)語義功能的標(biāo)注針對動態(tài)語料庫中的會話體語料進(jìn)行,抽取交際進(jìn)程過程中反映特定交際目的,體現(xiàn)話語交際合作原則、禮貌原則等基本原則的句子。
(一)對答結(jié)構(gòu)的內(nèi)涵與邊界
要實(shí)現(xiàn)對答結(jié)構(gòu)的標(biāo)注與自動識別,首先要研究會話的單位,明確對答結(jié)構(gòu)的語言范圍。對答結(jié)構(gòu)研究是會話研究的子課題。早期進(jìn)行會話研究的美國學(xué)者Sacks、Schegloff和Jefferson提出過話輪、鄰近對和序列等概念,俄羅斯語言學(xué)家雅庫賓斯基提出了“對語”這一概念。他認(rèn)為“言語交際的對話形式是指相互作用的個人行動和反應(yīng)的相對迅速的交替”,每一次交替就是一個對語。*徐翁宇.俄語對話分析[M]. 北京:外語教學(xué)與研究出版社,2008:27~28.實(shí)際上,大多數(shù)學(xué)者都傾向?qū)⑴彂?yīng)對當(dāng)作會話的基本單位,它由兩個前后相鄰的話輪構(gòu)成,兩個話輪要由不同的參與者說出,第一個話輪要求有特定的第二個話輪與它相配,比如提問—回答。在漢語(二語)教學(xué)領(lǐng)域,劉虹(2004)描寫了領(lǐng)域內(nèi)對答結(jié)構(gòu)的基本面貌。*劉虹.會話結(jié)構(gòu)分析[M]. 北京:北京大學(xué)出版社, 2004:103~140.在本研究中,對答結(jié)構(gòu)是指以會話體語料為標(biāo)注對象的,主要由鄰近對構(gòu)成、展現(xiàn)了基本交際功能的語言表達(dá)框架,如問候、介紹、歡迎、建議及其不同的回應(yīng)。有時,對答結(jié)構(gòu)也會跨越一個鄰近對,由兩組以上不同話輪構(gòu)成的連續(xù)語句構(gòu)成。例如:
醫(yī)生:你哪兒不舒服?
病人:我全身都不舒服。
醫(yī)生:全身都不舒服?說具體一點(diǎn)。
病人:沒胃口,吃不下。
上例中醫(yī)生的引發(fā)語是詢問“結(jié)果或情況”,病人作了說明性回應(yīng),接下來醫(yī)生繼續(xù)追問,病人進(jìn)一步作說明性回應(yīng)。對話的前兩個話輪和后兩個話輪,在作對答結(jié)構(gòu)自動切分時,容易被處理為兩個單位,因?yàn)樗鼈冊诮Y(jié)構(gòu)上是完整的,都包括引發(fā)語和應(yīng)答語,在語義上也是完整的,都有詢問和結(jié)果。但在上下文語境中,后一組對話與前一組關(guān)系密切,推進(jìn)了前一組對話引發(fā)的話題。理想的狀態(tài)是將4個話輪切分為一個對答結(jié)構(gòu),統(tǒng)一標(biāo)注其語義功能:詢問“結(jié)果/情況”(引發(fā)語)——說明性回應(yīng)(應(yīng)答語)。在處理這類對答結(jié)構(gòu)時,要重點(diǎn)考慮句子的常規(guī)焦點(diǎn)在話輪中的復(fù)現(xiàn),以此作為跨越鄰近對的對答結(jié)構(gòu)自動切分的重要激活因子。
對答結(jié)構(gòu)的特點(diǎn)可以歸納為:
(1)由兩個或兩個以上分屬不同話輪的連續(xù)語句構(gòu)成。
(2)這些連續(xù)語句分別由兩個或兩個以上的人說出。
(3)連續(xù)語句中的引發(fā)語和應(yīng)答語相互關(guān)聯(lián),引發(fā)語對應(yīng)答語的生成和選擇有一定的制約。
這些對答結(jié)構(gòu)又可分為毗鄰雙部式和毗鄰多部式。毗鄰雙部式由相鄰的引發(fā)語和應(yīng)答語兩個部分構(gòu)成,是對答結(jié)構(gòu)的基本形式。毗鄰多部式對答由分屬不同話輪的兩個以上的相鄰語句構(gòu)成的,結(jié)構(gòu)中部分話輪兼有上一部分應(yīng)答語的功能和下一部分引發(fā)語的功能,起到了承上啟下的作用。
(二)對答結(jié)構(gòu)的標(biāo)注內(nèi)容
根據(jù)國家漢辦《高等學(xué)校外國留學(xué)生漢語言專業(yè)教學(xué)大綱》功能項(xiàng)目列表以及漢語(二語)教學(xué)會話研究成果,研究初步確定對答結(jié)構(gòu)的標(biāo)注框架,然后在一定范圍進(jìn)行語料試標(biāo),檢驗(yàn)框架的適應(yīng)性。*國家對外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室. “高等學(xué)校外國留學(xué)生漢語言專業(yè)教學(xué)大綱”附表四,功能項(xiàng)目表[S]北京:北京語言文化大學(xué)出版社,2002.根據(jù)標(biāo)注反饋,區(qū)分19種核心的對答結(jié)構(gòu),其引發(fā)語分別是:問候/寒暄、介紹、歡迎、告別、建議/商量、邀請、請求、要求、感謝、贊揚(yáng)、祝賀、祝愿、責(zé)怪、通知/轉(zhuǎn)告、提醒/警告、道歉、抱怨、詢問。而這些引發(fā)語的對答語各不相同,見表2示例。
表2 對答結(jié)構(gòu)的標(biāo)注框架
TX提醒/警告JSH接受A:小心點(diǎn),到別的地方去玩。(提醒/警告)B:好。(接受)GX感謝B:好的,謝謝。(感謝)BJ辯解B:沒關(guān)系的。(辯解)FD反對B:我們就要在這里玩兒。(反對)DQ道歉HY回應(yīng)A:實(shí)在抱歉。(道歉)B:沒關(guān)系。(回應(yīng))AW安慰/寬慰B:沒事兒,別著急。(安慰/寬慰)ZB責(zé)備B:你做得太過分了。(責(zé)備)BY抱怨DQ道歉A:怎么又壞了!(抱怨)B:對不起。(道歉)FH附和B:就是,太討厭了。(附和)FY敷衍/婉拒B:就這樣用一用吧。(敷衍/婉拒)AW安慰/寬慰B:沒關(guān)系的,別管它。(安慰/寬慰)FD反對B:沒壞啊。(反對)ZG責(zé)怪DQ道歉A:怎么搞的!(責(zé)怪)B:對不起。(道歉)BJ辯解B:我也不知道怎么回事。(辯解)FD反對B:沒關(guān)系,不要大驚小怪。(反對)TZH通知/轉(zhuǎn)告HY回應(yīng)A:明天早上八點(diǎn)開會。(通知/轉(zhuǎn)告)B:好的,謝謝。(回應(yīng))GX感謝B:差點(diǎn)忘了,多謝提醒。(感謝)XW詢問SHM說明/描寫A:你多大了?B:我5歲。(說明)A:你現(xiàn)在在哪里?B:我在學(xué)校門口。(說明)A:你住哪一個房間?B:我住302房間(說明)A:這是什么顏色的?B:這是紅色的。(說明)A:咱們怎么去呢?B:咱們打的去。(說明)A:你為什么來晚了?B:路上真是太堵了。(描寫)PJ評價A:你覺得東西怎么樣?B:我覺得特別好。(評價)PD判斷/推斷/估計A:他要干什么呢?B:不太清楚。(判斷/推斷/估計)A:他怎么了?B:我估計他還在生你的氣。(判斷/推斷/估計)(詢問范圍包括:個人信息、方位處所、數(shù)量號碼、性狀、方式、原因、目的、意見看法、結(jié)果等。)HY懷疑HY回應(yīng)A:你難道不知道這件事情的重要性?B:對不起,我錯了。(回應(yīng))FD反對A:你是開玩笑騙我吧?B:怎么會呢?(反對)FH附和A:他不可能這樣做吧?B:我想不會。(附和)
在標(biāo)注實(shí)踐中,引發(fā)語或應(yīng)答語最多可以標(biāo)注兩個語義功能項(xiàng)目。比如“你真是太棒了,謝謝!”既表達(dá)贊揚(yáng),也表示感謝,二者均需標(biāo)注出來。
明確對答結(jié)構(gòu)的邊界特征以及“引發(fā)語—應(yīng)答語”的構(gòu)成類型,為對答結(jié)構(gòu)的自動識別算法奠定了基礎(chǔ)。對答結(jié)構(gòu)的自動識別算法可用于在更大的范圍內(nèi)檢索同類語料,實(shí)現(xiàn)漢語國際教育語料庫檢索信息的動態(tài)更新。
會話體和敘述體是漢語(二語)教材的基本語體。此前的研究針對敘述體語料提出了話題標(biāo)注框架以及自動識別話題的算法(楊麗姣、熊文,2014)*Lijiao Yang,Wen Xiong. Topics Tagging and Automatice Identification of TCSL corpus, 2013 Asian Conference on the Social Sciences(ACSS 2013)[A].Singapore:先進(jìn)社會與行為科學(xué)(ISSN:2339-5133),2014,(4).。針對會話體語料,研究提出對答結(jié)構(gòu)語義功能的標(biāo)注體系以及如下基于規(guī)則的、上下文相關(guān)的語義功能自動識別算法。
具體算法如下:
1.加載n條自動識別規(guī)則
2.加載語義特征知識庫
3.對輸入的m條會話體對答句進(jìn)行分詞和語義特征項(xiàng)加載
4.對內(nèi)存中的每一條規(guī)則rule[i],i=0,...,n
(1)對會話體對答句中的每一句sentence[j],j=0,...,m,判別所屬的類別category[j]
(2)累加所有句子的類別,取出現(xiàn)次數(shù)最多的類別作為最終的類別
下面,本文以類別“邀請”(代碼為YQ)為例,給出自動識別規(guī)則:
YQ=[YQ1]+{JSH}+{FY}+{SHY}+{JJ}
YQ1={時間詞}+[到|來]+[語氣詞]+<。>
JSH=<好>+[語氣詞|的]+<。>
FY={代詞}+[<有>+<事>|<忙>]+<。>
SHY={時間詞}+[怎么樣]+<。>
JJ=<謝謝>+<時間詞>+<吧>+<。>
上述算法中,符號“[ ]”表示其中內(nèi)容至少出現(xiàn)一次,符號“{ }”表示其中內(nèi)容出現(xiàn)零次到多次,符號“< >”表示其中內(nèi)容只出現(xiàn)一次,符號“+”表示中間可出現(xiàn)其他詞語。
本文采用了前向最大分詞算法對句子進(jìn)行分詞,同時根據(jù)知識庫中的詞條所對應(yīng)的語義項(xiàng),給每個分詞單位一個或多個詞性。以下以“邀請”對答結(jié)構(gòu)為例,介紹具體的處理過程。其過程如下:
1.輸入內(nèi)容為:
A:明天到我家來玩兒吧。
B:我明天下午有事。謝謝,下次吧。
(其中,A:表示說話者甲,B:表示說話者乙)
2.分詞和語義特征加載,內(nèi)容為:
A:明天<時間詞/>到我<代詞/>家來玩兒吧<語氣詞/>。
B:我<代詞/>明天<時間詞/>下午<時間詞/>有事。謝謝,下次<時間詞/>吧<語氣詞/>。
3.規(guī)則匹配過程:
A:明天<時間詞/>到我<代詞/>家來玩兒吧<語氣詞/>。
根據(jù)“時間”、“到”、“來”、“吧”,匹配上規(guī)則“邀請”,代碼為YQ1。
B:我明天<時間詞/>下午<時間詞/>有事。
根據(jù)“我<代詞/>”、“有+事+?!?,匹配上“敷衍/婉拒”規(guī)則,代碼為FY。
謝謝,下次<時間詞/>吧<語氣詞/>。
根據(jù)“謝謝”、“時間+吧+。”,匹配上“拒絕”規(guī)則,代碼為JJ。
由于上面3句匹配上了“邀請”的規(guī)則,這3句被識別為“邀請”的對答結(jié)構(gòu)。根據(jù)它們匹配的不同規(guī)則A被輸出YQ,表明其是邀請的引發(fā)語。B的第一句被標(biāo)為FY,第二句被標(biāo)為JJ,表明B的應(yīng)答是敷衍和拒絕。算法中規(guī)則是判斷的關(guān)鍵,只要匹配上規(guī)則就可以判斷句子是屬于哪種對答結(jié)構(gòu)。
為驗(yàn)證算法的有效性,研究從18種對答結(jié)構(gòu)框架中選取問候、介紹、感謝、祝賀、贊揚(yáng)5種作為測試對象,并隨機(jī)抽取漢語國際教育動態(tài)語料庫中5000個句子為測試語料。
測試對象的選擇主要考慮以下因素:第一,常用性。即該對答結(jié)構(gòu)與留學(xué)生的學(xué)習(xí)生活息息相關(guān),使用頻率高;第二,差異性。由于文化的差異帶來交流溝通方式以及言語表達(dá)的差異,在測試對象中具有較好的體現(xiàn);第三,可行性。研究首選有語言規(guī)律可循、易結(jié)合具體算法實(shí)現(xiàn)較大范圍自動識別的對象展開研究。
具體步驟如下:第一,對5000句語料進(jìn)行人工標(biāo)注,將其中的問候、介紹、感謝、祝賀、贊揚(yáng)對答結(jié)構(gòu)標(biāo)注出來,做好記錄并將其作為參考答案;第二,用自動識別算法對測試語料進(jìn)行識別與標(biāo)注;第三,將自動識別與標(biāo)注的結(jié)果與人工標(biāo)記的結(jié)果作對照,記錄識別的數(shù)量、正確識別數(shù)量。根據(jù)公式1與公式2計算識別的正確率與召回率。
公式1:正確率=正確識別數(shù)/識別數(shù)
公式2:召回率=正確識別數(shù)/應(yīng)識別數(shù)
5000句的實(shí)驗(yàn)結(jié)果如下表所示:
表2 實(shí)驗(yàn)數(shù)據(jù)
從最終的測試結(jié)果來看,問候、感謝、祝賀、贊揚(yáng)這4種對答結(jié)構(gòu)自動識別的正確率都達(dá)到80%,召回率都達(dá)到70%以上,效果較好。而介紹類對答結(jié)構(gòu)識別率偏低,這與該類結(jié)構(gòu)中的核心表達(dá)式語義功能的泛化有較大關(guān)聯(lián)(如“是”字句)??傮w而言,研究提出的算法對這五類對答結(jié)構(gòu)的自動識別有較好的適應(yīng)能力和處理效果。由于試驗(yàn)的基礎(chǔ)語料數(shù)量較少,未來有相當(dāng)?shù)目臻g可以擴(kuò)充語料,改進(jìn)知識庫,細(xì)化規(guī)則,進(jìn)一步提高自動識別成績。
研究利用漢語(二語)教材會話體語料,分析日常交際情境下的主要會話模式,描述了18類對答結(jié)構(gòu)的語言框架,選擇其中的5個類別,在對答結(jié)構(gòu)自動切分基礎(chǔ)上開展語義功能的自動識別算法試驗(yàn),檢測結(jié)果表明相關(guān)算法的有效性。
研究是利用語料庫語言信息,提升數(shù)字化漢語(二語)教學(xué)水平的一種嘗試??v觀目前已經(jīng)建成并有限度開放的大型漢語語料庫,如CCL語料庫、國家語委語料庫等,這些語料庫主要為用戶提供目標(biāo)字詞的檢索功能,服務(wù)于語言學(xué)學(xué)術(shù)研究、詞典編撰以及語言信息處理。要滿足漢語(二語)教師對語言信息的多層次、細(xì)化的需求,就需要思考語料庫語言信息的標(biāo)注層次與標(biāo)注框架,建設(shè)專門用途語料庫或?qū)ΜF(xiàn)有語料庫資源進(jìn)行深度挖掘,并結(jié)合自然語言處理自動算法研究,面向漢語(二語)教學(xué)活動、教材編寫、自主學(xué)習(xí)等領(lǐng)域需求,搭建語言信息綜合檢索以及應(yīng)用研發(fā)平臺。當(dāng)前,利用語料庫語言資源開發(fā)漢語(二語)教學(xué)資源平臺的研究方興未艾*林進(jìn)展等.數(shù)據(jù)驅(qū)動(Data driving)漢語(二語)學(xué)習(xí)應(yīng)用平臺的研發(fā),數(shù)字化漢語教學(xué)[A].北京:清華大學(xué)出版社,2014.。
對答結(jié)構(gòu)的標(biāo)注與自動識別,主要服務(wù)于漢語國際教育動態(tài)語料庫語言信息的多維標(biāo)注、自動抽取以及語料庫擴(kuò)展應(yīng)用系統(tǒng)研發(fā)等,但不僅限于此。概括如下:
(1)對答結(jié)構(gòu)的標(biāo)注框架是對日常交際中發(fā)話與應(yīng)答基本模式的概括,為漢語(二語)教材編寫或教學(xué)活動中的功能項(xiàng)目表達(dá)式提供了新的框架。在標(biāo)注框架下抽取關(guān)鍵詞及常用表達(dá)式的特征,可細(xì)化現(xiàn)有教學(xué)大綱中的功能項(xiàng)目說明。
(2)對答結(jié)構(gòu)的標(biāo)注框架,可用于計算一定規(guī)模語料庫中,語言表達(dá)式與交際對象、交際場合、典型情景之間的適應(yīng)關(guān)系。比如“問候—回應(yīng)”結(jié)構(gòu),區(qū)分不同對象,熟人與陌生人、長輩與平輩;區(qū)分不同場合,正式與非正式場合;區(qū)分不同情景,節(jié)日情景、人際關(guān)懷情景等,在不同語境條件下,其互動模式有何特點(diǎn)。相關(guān)數(shù)據(jù)不僅是二語教學(xué)所關(guān)心的,也可作為話語分析研究的內(nèi)容。
(3)“感謝”等5類對答結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果,將為全面的對答結(jié)構(gòu)語義功能自動識別算法的研究提供基礎(chǔ)數(shù)據(jù)。
(4)對答結(jié)構(gòu)的自動切分以及自動識別可以服務(wù)于漢語國際教育動態(tài)語料庫語言信息的動態(tài)更新,語料庫擴(kuò)展應(yīng)用如教材編寫輔助系統(tǒng)、自主學(xué)習(xí)系統(tǒng)等軟件研發(fā)。
[責(zé)任編輯:張黎玲]
A tagging frame of the question-answer structure and its application: A study of the TCSL conversation corpus
YANG Li-jiao1, XIONG Wen2& XU li-fang3
(1. Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875, China; 2. Chinese Patent Information Center, Beijing 100088, China; 3. TTKN, Beijing 100192, China)
With a consideration of the retrieval requirement of the semantic functions for the conversation style in the dynamic corpus of the international Chinese education, this paper explores a tagging frame for the corpus-based language information. Focusing on the major goals in daily conversations and the relevant teaching domains, this frame brings up nineteen categories of question-answer structures and describes the basic forms of questions and answers. With this, it discusses an automatic recognition algorithm for the question-answer structures by selecting five categories such as greeting, thanking, congratulating, praising, and introduction as the research objects. The results show that it is fairly satisfactory in terms of accuracy and recall rate as well as applicable in the automatic retrieval of the language information and related studies.
Teaching Chinese as Secondary Language; tagging frame; question-answer structure; semantic function; automatic recognition
國家高技術(shù)研究發(fā)展計劃(863計劃)“海量文本多層次知識表示及中文文本理解應(yīng)用系統(tǒng)研制”(2012AA011104)。
楊麗姣,女,白族,云南個舊人,北京師范大學(xué)副教授,博士,研究方向?yàn)闈h語國際教育、語料庫語言學(xué)研究。
H195
A
1672-1306(2015)03-0045-08