姚雙云
(華中師范大學 語言與語言教育研究中心,湖北 武漢 430079)
◇漢語信息化研究◇
話語標記的信息處理研究:現(xiàn)狀與設想
姚雙云
(華中師范大學 語言與語言教育研究中心,湖北 武漢 430079)
話語標記對會話結構的分析、話語行為的識別、會話含義的理解等具有重要作用,在口語的信息處理中扮演著關鍵的角色,開展話語標記的信息處理研究具有重要的理論意義與應用價值。在漢語話語標記的信息化本體研究整體較為薄弱、應用研究尚未起步的情況下,建設包含多種次級類型語料的口語語料庫和包含多層信息的話語標記詞庫是亟待開展的兩個重要的基礎性工作,其能有效推進漢語話語標記信息處理研究的進程。
話語標記;信息處理;口語語料庫;話語標記詞庫
話語標記(discoursemarker)是一種用來標示話語連貫、傳遞話語互動信息和人際功能信息的語言范疇。這類范疇能夠直接反映話語內部之間的序列關系,是理解話語結構及其人際功能的關鍵線索,因此它們對計算機自動分析會話結構、識別對話行為、理解會話含義具有重要作用。話語標記的信息處理可廣泛運用于語音識別、語言理解、信息提取、語言合成、智能問答、機器翻譯、自動文摘等領域,尤其是在自然語言合成中,話語標記扮演著關鍵的角色。正如Ramsay所言:“較之于語言分析系統(tǒng),一個令人滿意的話語各部分關系的處理方式對語言生成系統(tǒng)來說更為重要”[1]129,Ramsay所說的話語關系很大一部分是通過話語標記顯示出來的。值得注意的是,盡管話語標記在自然語言處理中地位重要,但是目前這方面的研究卻相當薄弱。Heeman&Allen指出:“許多研究者注意到話語標記在決定話語結構中的重要性,但是真正識別話語標記的研究并不多。”[2]據(jù)筆者的調查,面向信息處理的話語標記研究在英語、德語等語言中已開展了一些實質性并富有成效的工作,但漢語中此類研究嚴重滯后。有鑒于此,本文擬對該領域的研究做一個簡要的回顧,并結合筆者主持課題的前期研究談兩點認識。
1.話語標記的內涵。學界對話語標記的內涵尚未達成一致觀點。Shiffrin認為,話語標記是通過其句法屬性、語義屬性以及在始發(fā)或終結位置切分話語單位的序列關系來標記話語單位關系的語言成分、副語言成分或非言語成分[3]。Fraser認為,話語標記指用以標示當前話語和前述話語之間的序列關系,以及用作建構語篇的詞或短語[4]。Jucker&Smith指出話語標記是在話語中不影響句子的真值條件意義,只表達說話人態(tài)度或程序性意義的語言成分[5]。何自然、冉永平主張,話語標記指書面交際和口語交際中表示話語結構以及連貫關系、語用關系等的所有表達式[6]。許家金認為,話語標記主要是指出現(xiàn)在現(xiàn)場即席話語中,用以標記話語連貫、傳遞話語互動信息的語言及非語言手段[7]。
正是由于學術背景與研究出發(fā)點的不同,研究者對話語標記的認識也存在分歧,以致所用術語也不盡相同。一般文獻中,與話語標記內涵相同或大體一致的術語有:語用標記、話語小品詞、語用詞、語用小品詞、話語聯(lián)系詞、話語標記裝置、話語操作語、語用操作語、連貫指示詞、句子聯(lián)系詞等。眾多的術語中,話語標記的使用最廣泛。
話語標記在術語上的混亂,看似是關乎名稱的問題,實則反映了對話語標記內涵與定義上認識的模糊性。因此,有必要厘清它們之間的差異。比如,話語標記與話語聯(lián)系詞(discourseconnectives)是有區(qū)別的兩類范疇,不應同等對待。話語聯(lián)系詞的主要特征之一是它們經常關聯(lián)話語中諸如事件、狀態(tài)或者命題的兩個不同的抽象客體[8],而話語標記管轄的范圍僅為一個抽象的客體。例如“因為、但是、所以”在關聯(lián)兩個不同的事件、狀態(tài)或者命題,連接分句或者句子時,它們表達的是真值意義,屬于連詞。但在口語互動中,部分成員語義虛化了,不表真值概念意義,不用于連接不同的事件、狀態(tài)或者命題,只用來表程序性意義,這種情形當屬話語標記。
2.話語標記的分類。Fraser將話語標記分為“關聯(lián)信息”和“關聯(lián)主題”兩大類型。前者聯(lián)結S2與S1語段,其中S2語段是S1語段中相關部分的外顯性解釋;后者將S2的主題與S1的主題聯(lián)系起來[9]。按照Fraser的分類標準,連接詞屬于關聯(lián)話語信息類話語標記,其內部又可進一步細分。冉永平認為,話語標記包括連詞、副詞、感嘆詞以及某些短語或小句,它們不傳遞命題意義或語義意義,不構成話語的語義內容,但是為會話提供信息標記,從而產生對話語理解起引導作用的程序性意義[10]。劉麗艷認為,話語標記可從多個角度進行分類。從形式上可分為“非詞匯形式話語標記”與“詞匯形式話語標記”兩類。從對語境的依存關系可分為“依存性話語標記”“弱依存性話語標記”和“非依存性話語標記”三類。此外,她還提出了功能上的分類[11]。以上分類,不管哪種類型,本質上都可以歸納為形式、語義或功能的標準。
3.話語標記的功能。話語標記的功能一直是研究者特別關注的議題。stman認為話語標記有三種功能:話語標記和組織;相互應對性標記;態(tài)度標記[12]。Hlker指出話語標記的功能主要體現(xiàn)在以下四個方面:不影響話語的真值條件;不增加話語的命題內容;與說話當時的情景有關,但與被論及的情景無關;具有一定的情感功能或表達功能,不具備指稱、外延或認知功能[13]。
Schiffri強調的主要是話語標記的“增加話語連貫性”的功能[3]。Fraser也認為話語標記主要表示當前話語與前一話語之間的某種聯(lián)系,程序性意義是其核心意義,即引導聽話者對前后話語關系的識別與理解,為話語理解提供方向,而不是為了表達語義內容或命題意義[9]。Risselada&Spooren認為話語標記的主要作用就是促進聽話者對語句之間、交際情景中各種因素之間連貫關系的理解過程[14]。Lenk主張話語標記是一種連貫指示語,話語標記不僅具有局部的連貫功能,而且還具有宏觀的連貫功能[15]。Blakemore從關聯(lián)理論出發(fā),認為話語標記的使用是為了實現(xiàn)“最佳關聯(lián)”,說話者通過話語標記引導或制約聽話者對話語的理解,幫助聽話人以最小的代價獲取話語與認知語境之間的最佳關聯(lián)[16]。Rouchota則認為話語標記連接話語與語境,制約聽話者的推理過程[17]。另外,VanDijk認為話語標記的作用是將單個的言語行為組合成更大的話語單位,乃至于話語,從而實施其交際功能[18]。Holmes則認為話語標記語的作用是限制和調節(jié)話語層面上言語行為的施事語力,以完成話語的交際意圖[19]。劉麗艷指出,話語標記具有三種元語用功能,即語篇組織功能、語境順應功能和人際互動功能[11]。筆者對話語標記的功能進行了細化,歸納為話語連貫、話輪構建、話題組織、立場表達四種功能[20]。
Fischer&Brandt-Pook從自然語言處理的角度概括了話語標記的功能,認為話語標記可以標志主題的中斷,進而使會話宏觀結構的組織對聽話人來說清晰可辨;它們暗示當前話語與前述話語的關聯(lián)性,它們表明信息轉移是否成功以及信息通道是否通暢。當出現(xiàn)言語管理問題時,它們可以為形式化的處理提供支持[21]。
關于話語標記的信息處理,國內的研究較為滯后。查檢CNKI期刊網,該領域以話語標記為篇名公開發(fā)表的論文只有闞明剛的1篇①。若算上關聯(lián)詞(復句關系詞)的信息處理也只有數(shù)十篇。
國外話語標記的信息處理頗受計算語言學界的重視。除了知名國際刊物發(fā)表了系列有影響的論文之外,該議題也受到了國際學術會議的親睞。1998年8月8日-14日,在加拿大蒙特利爾召開了Coling-ACL'98國際學術會議,8月15日-16日舉辦的“話語聯(lián)系語與話語標記”研討會作為此次國際會議后續(xù)研討會的十二項主題之一。內容涉及話語標記的確認、自然語言生成、科技語體中的元話語標記、機器學習中的話語標記選擇、話語標記與話語的聯(lián)系等[22]。從現(xiàn)有的成果來看,國外對話語標記的信息處理研究成果有三大類型:
1.基于修辭結構理論(RST)的話語分析。修辭結構理論是美國學者Mann&Thompson(1988)在系統(tǒng)功能理論框架下創(chuàng)立的關于篇章生成和分析的理論②。其創(chuàng)立的最初目的是為設計具有一定語篇“創(chuàng)作”能力的計算機程序提供理論依據(jù)。目前,基于該理論建成的篇章結構標注語料庫由美國南加州大學信息科學學院課題組完成,包含300多篇文章,是一個帶多層語言學標注信息的篇章語料庫。
其他代表性的成果有:Marcu的專著《話語分析與文摘的理論與實踐》以修辭結構理論為基礎,對話語標記在語篇分析與文摘中的作用作了深入研究③。此前,Marcu利用決策樹模型訓練90篇標注文本語料,設計了基于修辭結構理論的話語分析器④。Soricut&Marcut對基本話語單元和話語樹結構進行了改進,從隨機概率模型的詞匯化句法樹中抽取可以利用的特征,該模型對話語標記等語篇結構信息進行了人工標注,提高了分析的準確率⑤。Marcu& Echihabi選擇了四種修辭關系并利用帶有模糊的話語標記標示語義關系的大量例句建立了一個語料庫,把話語標記和小句結構作為自動抽取的線索⑥。Carlsonetal.借助標注語料庫來分析話語的修辭關系⑦。Sporleder&Lascarides利用對比、因果、解釋、總結和連貫五種語義關系,借助新聞語料來研究話語的自動抽?、?。類似的研究還有Reitter、Hutchinson等⑨。
2.話語標記的歧義消解與自動識別研究。話語標記的歧義消解與自動識別是互為聯(lián)系的兩個方面,該方向也頗受重視。Hirschberg&Litman利用話語標記的拼寫環(huán)境來對話語標記進行歧義消解⑩。Litman采用機器學習的方法來改善對話語標記的識別(12)。Alistair用數(shù)據(jù)驅動的方法來分析話語關系(12)。Fischer&Brandt-Pook依據(jù)話語標記的句法位置及其在會話中的作用探討了它們的歧義消解問題(13)。Heeman&Allen利用結合詞性知識的語言模型來識別話語標記(14)。Bursteinetal.利用基于決策的密度算法,借助話語標記來識別學生論文的話語結構(15)。Samy etal.利用多語言平行語料庫對話語標記進行了語用上的自動標注(16)。Popescu-Belisetal.利用詞匯、韻律/位置與社會語言學特征人工標注話語標記,取得了很好的效果(17)。類似的研究還有Heeman etal.等(18)。當然,上述文獻對話語標記的研究大多不是孤立的,而是置于話語行為的識別、對話片段的分析、言語交際的識解等更大范圍的會話分析中進行的。
3.次級語言中的話語標記研究。鑒于計算機自動理解話語的難度很大,有些學者嘗試在次級語體中尋求解決瓶頸問題的可行方案。實踐證明,這一策略是行之有效的。不少自然語言處理系統(tǒng)在句法與語義的自動分析中有意將研究對象限制于自然發(fā)生的次級語言中,取得了意想不到的效果。基于次級語言中的話語標記研究就是在這種背景下應運而生的。
最早將話語標記運用于次語言處理的是紐約大學(NYU)的醫(yī)療和制藥文本研究。NYU研究組提出了“信息格式”的概念,認為潛隱于每個文本句子之中的基本句子的結構,都由次語言中話語標記與其他詞的線性安排來顯示。這些話語標記在它們的次級語言處理中扮演了重要角色[23]。Contant運用足量的法語次語言語法、話語標記和其他詞匯生成法語文本(19)。D'Melloetal.在一個智能教學系統(tǒng)上考證了話語標記在預測學習者無聊、困惑、流暢、失意等狀態(tài)中占據(jù)重要的地位[24]。
與國外英語等語言的話語標記的研究相比,漢語話語標記的研究總體上比較滯后,這一點無論是在成果質量上還是數(shù)量上均有所體現(xiàn)。筆者以“discoursemarker”為篇名在CALIS外文期刊網中進行搜索(截至2014年12月6日),能夠查找到的文獻多達161 402篇。當然該期刊網的檢索結果中有不少文獻重復出現(xiàn),因此成果的實際數(shù)量要低于這一數(shù)據(jù),但是總數(shù)量肯定是以數(shù)萬計的。而以“話語標記”為篇名在CNKI期刊網上進行搜索,能夠查找到的文獻僅有670篇(截至2014年12月6日),這其中還有部分是綜述性和引介性文獻。至于公開出版的直接研究話語標記的著作,截至目前為止中國大陸僅有5部。話語標記信息處理方面的論文,期刊上公開發(fā)表的僅僅1篇,專著尚無。這表明,我國話語標記研究尚處于起步階段,還有很大的研究空間。有鑒于此,筆者以所在的單位為依托,申報了2013年度教育部人文社會科學重點研究基地重大項目,課題已順利立項。筆者與團隊成員希望以此為契機,在漢語話語標記的信息化研究方面作一些有益的探索。經過一段時間的調查與研究,我們對課題有不少思考與認識。我們認為,在本體研究整體較為薄弱,而應用研究尚未起步的情況下,開展話語標記的信息處理研究確實面臨諸多困難。因此要想完成課題的預期目標,有許多基礎性的研究工作亟待開展。限于篇幅,這里僅就其中的兩個方面,談談我們的研究設想,以求教于方家。
(一)建設一個包含多種次級類型語料的口語語料庫
根據(jù)研究計劃,我們的課題擬利用詞容大、次級語料豐富的口語轉寫語料樣本,采用語料庫統(tǒng)計方法處理和分析互動中的話語標記及其自動識別問題?!盎谡Z料庫的量化分析為主的方法可減少研究者的主觀偏見和發(fā)現(xiàn)大量話語中呈現(xiàn)出的累積效應(incremental effectofdiscourse)”[25]。語料庫的廣泛使用使語言學的研究在質與量兩個方面得到了巨大的改變和顯著的突破,“成為幾乎整個語言研究中的一個關鍵因素”[26]。
話語標記研究屬于會話分析的一個分支,而開展會話分析的一個重要的基礎性工作是獲取規(guī)模大、質量高、真實自然的口語語料。但自然口語語料的采集和加工難度較大,因此,國內不少學者采用小說作品的對話語料,或使用半自然的電視交談節(jié)目或電視劇的臺詞,有的甚至使用內省式的自編例句。諸如此類的研究因為語料上的局限性難以真正揭示話語標記的實質面貌。國內也有少數(shù)學者自建了自然、真實的會話語料,但總體來看,語料規(guī)模較小,語料性質單一,難以真實反映與全面揭示漢語的會話規(guī)律,也無法滿足話語標記的研究之需。特別是面向自然語言處理的話語標記研究,客觀上需要建立一個用于調查統(tǒng)計的海量數(shù)據(jù)庫與用于測試評估的實驗平臺。
鑒于此,我們計劃建設一個大規(guī)模的、高質量的口語語料庫。建成這樣一個口語語料庫首要的問題是考慮語料的遴選。我們認為所選語料要有代表性,要能夠收集不同性質、不同類型的語料樣本。就口語語料來說,至少有以下常見的類型:
我們根據(jù)話題與事件類型的不同,選擇了自然聊天、電話交談、電視訪談、醫(yī)療會話、課堂會話、庭審會話等作為采集語料的主要話語情景。計劃建成一個包含各種類型口語語料、總規(guī)模達500萬字的語料庫。其中,自然聊天語料規(guī)模為200萬字,其他類型語料300萬字。目前,語料收集工作已完成一半的任務。為了保證語料的質量,我們在采集自然聊天口語語料過程中,編寫印制了《口語語料采集信息表》,準確記錄包含交談時間、交談地點、話語參與人信息(含姓名、性別、年齡、職業(yè)、學歷等)、交談者關系等話語交談的情景特征,這些信息對今后的研究有重要意義。
為了更好地發(fā)揮語料庫的價值,口語語料庫應該盡量同時儲存語音與文本,實現(xiàn)音文語料同現(xiàn)[28]。我們在存儲語料時,嚴格遵守這一原則,同時保留了語音與文本語料,便于今后對照原始的錄音(錄像)進行更為深入的分析。在語料轉寫規(guī)范上,借鑒DuDoisetal.語音材料轉寫規(guī)范。該轉寫規(guī)范為嚴式轉寫,可以最大限度地保留有價值的信息(20)。
(二)建成包含多層信息的話語標記詞庫
本課題的另一項基礎性資源是為話語標記設計一個科學合理的詞庫。詞庫之所以能夠在自然語言處理中發(fā)揮巨大作用是因為它本身可以包含功能強大的多層次信息。已有研究表明,有的詞庫包含句法模式和各詞條互補分布的信息,有些包含針對詞語基本形態(tài)而產生的屈折形式,有些包含了詞的定義,有些則在各種詞條中提供了關于本體論和層級體系的語義鏈接[29]。我們將充分借鑒以往研究成果,基于大規(guī)??谡Z語料庫,從人工標注中獲得量化數(shù)據(jù),用于話語標記的信息編碼,最終建成信息豐富、功能強大的詞庫,以便應用于計算程序的算法中,為話語標記歧義的消除提供知識支持。
1.制定話語標記詞匯表。開發(fā)出一個性能卓越、功能完善的詞庫,需要做大量的工作。其中首要的任務是為話語標記制定一個詞匯表,凡是能夠充當話語標記的形式(詞或短語甚至句子)都要收入。這要求我們對話語標記的全部成員做窮盡調查。盡管國內外對漢語話語標記的本體研究已有一定數(shù)量的成果,也取得了一些進展。但是現(xiàn)有的研究成果不能為中文信息處理提供足夠的知識支持。突出表現(xiàn)在漢語的話語標記是一個成員繁多的大家族,現(xiàn)有的研究僅僅涉及一小部分。漢語中話語標記數(shù)量究竟有多少,目前還是一個未知數(shù)。孟曉亮、侯敏的研究涉及話語標記109個,但正如作者自己所言,這109個話語標記只是常用的一部分[30]。根據(jù)Hovy的統(tǒng)計,英語中的話語標記有1000余個[31]。漢語話語標記也應該不少,但其數(shù)量究竟是數(shù)百還是上千,目前尚無確切答案,只有通過大規(guī)模語料庫的調查才能做出準確的回答。
本課題在調查話語標記時采取兩步走的策略。第一步,調查現(xiàn)有的關于話語標記的研究文獻,在前人的研究基礎上直接搜集已被學界認可的成員;第二步,根據(jù)我們對話語標記的定義,借助大規(guī)??谡Z語料庫開展全面調查,力求窮盡性地發(fā)掘各式各樣的成員,進而得到一個面向自然語言處理的現(xiàn)代漢語話語標記成員列表。
2.對話語標記進行分類。話語標記成員列表完成之后,需要依據(jù)一定的標準進行分類。學界對話語標記的分類標準通常有三種類型:形式標準、語義標準與功能標準。從信息處理的角度來看,這三種分類標準都有其價值。我們的策略是將三個標準結合起來。比方,首先從語法性質上將話語標記分為詞匯型話語標記、短語型話語標記、小句型話語標記三種基本類型。然后每種類型下面又細分為一字串型、二字串型、三字串型、四字串型、五字串型、六字串型、超長字串型等七種類型。不同的字串數(shù)的話語標記的使用頻率不同,這些信息對話語標記的自動分析價值較大。
3.對話語標記句法、語義、語用信息進行編碼。這些信息對話語標記的模糊消歧至為重要。據(jù)Popescu-Belis&Zufferey的研究,充當話語標記的詞的模糊性主要表現(xiàn)在三個層面:其一,這些詞的形式在某些語境中發(fā)揮語用的或話語標記的功能,有時則發(fā)揮語義或句子功能;其二,即使某一詞充當話語標記,它也可以發(fā)揮不同的語用功能;其三,話語標記的范圍,即其所應用的言語或文本的范圍也是有差異的[32]。因此,要準確地識別話語標記,必須充分利用其句法、語義與語用信息。這些信息的編碼是直接影響詞庫功能強弱與質量高低的一項關鍵工作。我們擬對詞庫中的每個話語標記進行逐一描述。具體的句法、語義和語用信息則是在對大規(guī)模語料樣本調查之后,經過分析、歸納和整理得出。信息編碼力求突出“合理”“細致”和“實用”的特點。主要信息包括:
第一,語法特征與頻率信息。其一,語法性質與頻率信息。如“不過”“但是”屬于連詞型話語標記,“幸虧”為副詞型話語標記,“總的來看”屬于偏正短語型話語標記,而“你看你”屬于主謂句小句型話語標記;有些表達形式既可以當話語標記使用,也可當非話語標記使用,如:“完了”有話語標記與非話語標記(動補結構)兩種用法,要分別注明兩種用法的頻率信息。其二,話語位置與頻率信息。話語位置包括所在序列中的位置(如呼喚——應答,問候——問候,詢問——回答),以及話輪中的位置(如話輪首、話輪中、話輪尾)。分別注明各個位置上的概率。其三,話語標記的共現(xiàn)信息。一些話語標記在使用中傾向于與其他話語標記(或其他詞語)一起出現(xiàn),形成組合使用的線性共現(xiàn)。比如同意標記“是/是的”常常與“對”等同意標記共現(xiàn),而話語標記“你知道”常跟語氣詞“吧、嗎”結合。擬在限定的跨距內區(qū)分為左共現(xiàn)成分和右共現(xiàn)成分,并分別注明共現(xiàn)標記的概率。
第二,韻律特征。詞匯表達的韻律特征對判定它是否為話語標記非常有價值。話語標記常見的韻律特征有:重讀、弱讀、拖音、延長音、與后續(xù)詞語間的停頓長短等。
第三,語義特征。其一,邏輯意義。邏輯意義主要反映前言后語內在的邏輯聯(lián)系,如話語標記“雖然”一般表示邏輯意義;其二,程序意義。程序意義反映話語標記在語言片段之間或是語言片段和語境之間所起的紐帶作用,能引領聽話人去注意語境假設之間存在的特殊關系,如推論關系、強化關系和否定關系[9]。如“然后”“可是”既能表示邏輯意義,又能表示程序意義,“嗯”“那個”一般只表示程序意義;其三,真值意義。真值意義就是概念意義。有些學者認為話語標記的真值意義非常弱或者沒有真值意義。但實際上有些話語標記是有真值意義的,如信息來源標記、說話方式標記,因為這些標記所編碼的信息可以受到真假質疑[33]??梢姡捳Z標記的真值意義是一個連續(xù)統(tǒng),位于連續(xù)統(tǒng)最左端的話語標記沒有真值意義,而位于最右端的話語標記保留了真值意義。對于演化中的話語標記來說,真值意義的強弱能夠反映出其虛化程度的高低;其四,其他相關的語義特征。為了充分描述不同話語標記的分布與功能差異,需要挖掘與話語標記密切相關的其他語義特征。如:話語標記的語義分類,話語標記鄰近論元的題元關系,話語標記的多義性及其聯(lián)系等。
第四,話語功能。其一,連貫功能。連貫功能也即傳統(tǒng)意義上的關聯(lián)功能。由連詞充當?shù)脑捳Z標記大多具有此功能。從轄域的大小來看,話語標記的連貫功能實際上可以分為微觀層面和宏觀層面兩種情況。它們分別充當篇章中跨句和跨話輪的連接成分。其二,話輪構建功能。話輪構建功能指某些話語標記具有構建話輪的作用。具體包括:構成相鄰對第二部分、標記非合意第二部分、開啟話輪、延續(xù)話輪、實現(xiàn)話輪等功能。其三,實現(xiàn)話題功能。實現(xiàn)話題功能指話語標記在話題層面上發(fā)揮的組織話題的作用。具體包括開啟話題、轉換話題、消除離題、結束話題等功能。其四,情感表達功能。有些話,語標記雖然本身包含的語義概念不多,但是能夠傳遞說話者主觀情感,協(xié)助對話順利進行,進而達到最佳的言談效果。這里所謂的主觀情感涉及說話人的感覺、態(tài)度、評價、立場以及對禮貌的順應等。其五,社會功能。某些話語標記的使用存在性別、年齡、教育程度、母語者與非母語使用者的差異,將分別注明這些功能上的差異。
話語標記在會話分析研究中占據(jù)了核心地位,這與它們的高頻使用密切相關。話語標記的高頻使用表現(xiàn)于人與人之間的會話中,也表現(xiàn)于人與機器之間的對話中。據(jù)Fischer&Johanntokrax的研究,在非正式的德語的人對人交際中,其使用頻率高達8.8%-9.8%,在人機交互中其重要性略有減弱,但在前150個高頻詞中也達到了6.6%[34]。話語標記在會話中的地位與作用可見一斑。因此,以話語標記為突破口開展相關研究,對面向自然語言處理的會話分析具有極為重要的意義。
本文結合在研課題,就漢語話語標記的信息處理談了兩個方面的研究設想,并圍繞兩點設想簡要介紹了研究思路與具體策略。當然,有些想法還不夠成熟,其可行性尚需實踐來檢驗。需要指出的是,我們的某些設計是從長遠考慮的,短期內或許無法完成。比如,話語標記的語用信息中,涉及性別、年齡、教育程度、母語與非母語等多方面社會因素的考量,這些信息對計算機最終理解人類的會話含義具有重要價值。但此類信息并非每個話語標記都具有,即使有些標記擁有部分或全部的特征,要準確細致地描寫這些信息也是頗有難度的。為此,我們期待語言學界與計算機學界有更多的研究者加入這一極具挑戰(zhàn)性但富有前景的研究領域。我們堅信,在眾多學者的通力合作下,一定能夠達成預期的目標。一旦獲得全面細致的話語標記的信息編碼,就可以應用于編寫與注釋對話語料。而借助這些形式、語義與功能上的信息,可望較為準確地分析對話的實體與功能性內容的聯(lián)系,從而獲得重要的數(shù)據(jù),為計算機提取與?;祟惖膶υ捫袨樘峁┲苯拥闹R支持。
注 釋:
①參見闞明剛《話語標記的計量與自動過濾提取》,載《計算機工程與應用》2012年第12期第19-23頁。
②Mann,W.and Thompson,S.,Rhetorical structure theory:toward a functional theory of text organisation,in Text,1988,3,p.243-281.
③Marcu,D.,The Theory and Practice of Discourse Parsing and Summarization,The MIT Press,Cambridge,MA,2000.
④Marcu,D.,A decision-based approach to rhetorical parsing,in The 37th Annual Meeting of the Association for Computational Linguistics(ACL-99).Maryland,USA 1999,P.365–372.
⑤Soricut,R.and Marcu,D.,Sentence Level Discourse Parsing using Syntactic and Lexical Information,in Proceedings of the Human Language Technology and North American Association for Computational Linguistics Conference.Edmonton,Canada,2003.
⑥Marcu,D.and Echihabi,A.,An unsupervised approach to recognizing discourse relations,in Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics Philadelphia,2002.
⑦Carlson,L.,Marcu,D.and Okurowski,M.E.,Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory,in Current and New Directions in Discourse and Dialogue,written by J. van Kuppevelt&R.Smith,Berlin:Springer,2003,P.85-112.
⑧Sporleder,C.and Lascarides,A.,Exploiting linguistic cues to classify rhetorical relations,in Proceedings of Recent Advances in Natural Language Processing,2005.
⑨Reitter,D.,Rhetorical Analysis with Rich-Feature Support Vector Models,Unpublished Master's thesis,University of Potsdam,2003;Hutchinson,B.Acquiring the meaning of discourse markers,in Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics,2004,P.685–692.
⑩Hirschberg,J.and Litman,D.,Empirical studies on the disambiguation of cue phrases,in Computational Linguistics,1993,3,P.501-530.
(11)Litman,Diane J.,Cue phrase classification using machine learning,in Journal of Artificial Intelligence Research,1996,5,P.53–94.
(12)Alistair K.,A data-driven methodology for motivating a set of coherence relations,Ph.D.thesis,University of Edinburgh,1996.
(13)Fischer,K.and Brandt-Pook,H.,Automatic Disambiguation of Discourse Particles,in Proceedings Of Colin ACL'98 Workshop on Discourse Relations and Discourse Markers,Montreal,1998,P.107-113.
(14)Heemanl,P.A.and Allen,J F.,Speech repairs,international phrases and discourse markers:modeling speakers'utterances in spoken dialogue,in Computational Linguistics,1999,4,P.1-45.
(15)Burstein J.,Marcu D.,and Knight,K.,Finding the WRITE Stuff:Automatic Identification of Discourse Structure in Student Essays,in Special Issue on Advances in Natural Language Processing,IEEE Intelligent Systems,written by Harabagiu S.and Ciravegna F.,2003,1,P. 32-39.
(16)Samy,D.and González-Ledesma,A.,Pragmatic Annotation of Discourse Markers in a Multilingual Parallel Corpus(Arabic-Spanish-English),in Proceedings of International Conference on Language Resources and Evaluation LREC-08.Marrakech,Morocco,2008.
(17)Popescu-BelisA.&Zufferey,S.,Automatic Identification of Discourse Markers in Multiparty Dialogues:An In-Depth Study of Like and Well,inComputer Speech and Language,2011,3,P.499-518.
(18)Heeman,P.A.,Byron,D.K.and.Allen,J.F.,Identifying discourse markers in spoken dialog,in Proceedings of AAAI Spring Symposium on Applying Machine Learning to Discourse Processing,Stanford,CA,1998.
(19)Contant,C.,Génération automatique de texte:application au souslan-gage boursier francais,MA thesis,Dept.of Linguistics,University ofMontreal,1985.
(20)DuBois,etal.,Outline of discourse transcription,in Talking data:Transcription and coding in discourse research,written by Jane A.Edwards&Martin D.Lampert,(ed.),Hillsdale,NJ:Lawrence Erlbaum,1993,45-89.
[1]Ramsay,A.Discourse[M]//The Oxford Handbook of Computational Linguistics.北京:外語教學與研究出版社,牛津:牛津大學出版社,2009.
[2]Heemanl,P.A.and Allen,J.F..Speech repairs,international phrases and discourse markers:modeling speakers'utterances in spoken dialogue[J].Computational Linguistics,1999(4):1-45.
[3]Schiffrin,D..Discourse markers[M].Cambridge:Cambridge University Press,1987.
[4]Fraser,B..An approach to discourse markers[J].Journal of Pragmatics,1990(14):383-395.
[5]Jucker,A.H.and Smith,S.W..And people just you know like “wow”,Discourse markers as negotiating strategies[M]//Jucker,A.H. and Ziv,Y.(ed.).Discourse Markers:Theory and Descriptions.Amsterdam:Benjamins,1998:171-201.
[6]冉永平,莫愛屏,王寅.認知語用學[M].上海:上海外語教育出版社,2006:147.
[7]許家金.漢語自然會話中“然后”的話語功能分析[J].外語研究,2009(2):9-15.
[8]Asher,N..Reference to Abstract Objects in Discourse[M].Dordrecht:Kluwer Academic Publishers,1993:260.
[9]Fraser,B..What are discourse markers?[J].Journal of Pragmatics, 1999(31):931-952.
[10]冉永平.話語標記的語用學研究綜述 [J].外語研究,2000(4):8-14.
[11]劉麗艷.漢語話語標記研究[M].北京:北京語言大學出版社,2011: 32-37.
[14]Risselada,R.and Spooren,W..Introduction:Discourse markers and coherence relations[J].Journal of Pragmatics,1998(2):131-133.
[15]Lenk,U..Discourse markers and global coherence in conversation [J].Journal of Pragmatics,1998(2):245-257.
[16]Blakemore,D..Constraints on Interpretations[C]//Berkeley Linguistic Society.(eds.)Proceedings of the Sixteenth Annual Meetings of the Berkeley Linguistics,1990(32):325-347.
[17]Rouchota,V..Discourse markers:what do they link[J].UCL Working Papers in Linguistics,1996(8):199-214.
[18]VanDijk..Semantic macro-structures and knowledge frames in discourse comprehension[M]//Marcel.Adam.J.and Patricia A..Carpenter(ed.).Cognitive Processes in Comprehension.Hillsdale,NJ:Erlbaum,1977:3-32.
[19]Holmes,J..Hedging your Bets and Sitting on the Fence:Some Evidence for Hedges as Support Structures[J].Te Reo,1984(1):47-62.
[20]姚雙云.自然口語中的關聯(lián)標記研究[M].北京:中國社會科學出版社,2012:48-68.
[21]Fischer,K.and Brandt-Pook,H..Automatic Disambiguation of Discourse Particles[M]//Proceedings Of ColinACL'98 Workshop on Discourse Relations and Discourse Markers.Montreal,1998: 107-113.
[22]黃大網.話語標記研究綜述[J].福建外語,2001(1):5-12.
[23]Sager,N..Natural language information formatting:the automatic conversion of texts to a structured data base[J].Advances in Computers,1978(17):89-162.
[24]D'mello,S.K.,Craig,S.D.,Witherspoon,A.,Mcdaniel,B.and Graesser,A..Automatic detection of learner's affect from conversational cues[J].User Modeling and User-Adapted Interaction,2008 (1-2):45-80.
[25]Baker,P..Using Corpora in Discourse Analysis[M].London:Continuum,2006:13.
[26]Teubert,W..Corpus Linguistic and Lexicography:The Beginning of a Beautiful Friendship[J].Lexicographica,2004(20):1-19.
[27]姚雙云.面向中文信息處理的漢語語法研究[M].武漢:華中師范大學出版社,2012:44.
[28]何安平.口語語料庫、平行語料庫、學習者語料庫——第23屆國際語料庫語言學年會ICAME2002綜述 [J].國外外語教學,2003 (1):15-19.
[29]Hanks,P..Lexicography,The Oxford Handbook of Computational Linguistics[M].北京:外語教學與研究出版社,2009.
[30]孟曉亮,侯敏.話語標記的語體特征研究及其應用[J].中文信息學報,2009(4):34-39.
[31]Hovy,Eduard,H..The multifunctionality of discourse markers[M]//Workshop on DiscourseMarkers.Egmond-aan-Zee,The Netherlands, 1995:1-12.
[32]Popescu-Belis A.and Zufferey,S..Automatic Identification of Discourse Markers in Multiparty Dialogues Working Paper 65[R].ISSCO,2006.
[33]馮光武.漢語語用標記語的語義、語用分析[J].現(xiàn)代外語,2004 (1):24-31.
[34]Fischer,K.&Michaela,J..Ein linguistisches Merkmalsmodell für die Lexikalisierung von diskurssteuernden Partikeln.SFB 360“Situierte künstliche Kommunikatoren”,Report 18[R].University of Bie lefeld,1995.
(責任編輯:劉英玲)
H14
A
1674-9014(2015)01-0073-07
2014-12-18
教育部人文社會科學重點研究基地重大項目“基于小句中樞理論的自然口語話語標記的自動識別研究”(13JJD740013)。
姚雙云,男,湖南邵陽人,華中師范大學語言與語言教育研究中心教授,博士生導師,研究方向為現(xiàn)代漢語語法、會話分析和中文信息處理。