(湖北大學(xué) 文學(xué)院,湖北 武漢 430062)
文本標(biāo)注(tagging)是自然語言機器處理(NLP)和自然語言人腦處理的基礎(chǔ)和前提。自然語言的文本標(biāo)注一般分為自然標(biāo)注、人工標(biāo)注和(計算機)自動標(biāo)注三類。人工和(計算機)自動標(biāo)注所產(chǎn)生的標(biāo)注資源主要應(yīng)用于自然語言的機器處理,而且很早就進行了廣泛的標(biāo)注實踐,與此相反,文本的自然標(biāo)注及自然標(biāo)注資源所具有的NLP價值直到近些年才引起學(xué)界的重視。清華大學(xué)孫茂松教授最早于2010年提出了“基于極大規(guī)模自然標(biāo)注語料庫的自然語言處理”思想,他立足于互聯(lián)網(wǎng)自然標(biāo)注資源進行自然語言處理,初步闡述了自然標(biāo)注資源的定義、基本類型、基于自然標(biāo)注資源的計算及方法論(1)孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J].中文信息學(xué)報,2011,25(6):26-32.。2013年第一屆基于自然標(biāo)注大數(shù)據(jù)的自然語言處理國際學(xué)術(shù)研討會(NLP-NABD2013)與第十二屆全國計算語言學(xué)學(xué)術(shù)會議(CCL2013)同時召開,大大推進了文本自然標(biāo)注及其標(biāo)注資源在NLP上的應(yīng)用。這屆會議上,學(xué)者們普遍認可“自然標(biāo)注”的基本內(nèi)涵是指由互聯(lián)網(wǎng)用戶根據(jù)其自身目的(而不是出于自然語言處理研究的目的)對各種互聯(lián)網(wǎng)資源進行的“不自覺”的手工標(biāo)注。計算語言學(xué)家們可以將這些標(biāo)注自覺地和系統(tǒng)性地應(yīng)用在自然語言處理的各種研究中。正如孫茂松所言,自然標(biāo)注就是互聯(lián)網(wǎng)用戶在無意中為自然語言處理研究的各種資源所作的一定程度的義務(wù)標(biāo)注,比如網(wǎng)頁上的“空格”“標(biāo)點符號”和“句子開頭或結(jié)尾”就是所謂的“自然標(biāo)注”,它能“透露”給我們不少關(guān)于詞匯的信息。孫茂松認為用戶在無意中為自然語言處理研究的各種資源作了一定程度的義務(wù)“標(biāo)注”——是自然標(biāo)注的說明性含義,并指出自然標(biāo)注有顯式和隱式兩種基本類型(2)孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語言處理[J].中文信息學(xué)報,2011,25(6):27.。李志義、沈之銳也將自然標(biāo)注定義為:用戶在無意中為語言的處理和結(jié)構(gòu)的識別作的一定程度的標(biāo)注,用戶本人并沒有意識到這一點;饒高琦、修馳、荀恩東贊同自然標(biāo)注是語料庫中的自然存在,而不是專家的外生輸入,并進一步指出自然標(biāo)注的資源體現(xiàn)了作者的意志和作者使用語言的規(guī)律模式,部分地實現(xiàn)了語言學(xué)知識形式化的挑戰(zhàn)(3)見:李志義,沈之銳.基于自然標(biāo)注的網(wǎng)頁信息抽取研究[J].情報學(xué)報,2013,32(8):853-859;饒高琦,修馳,荀恩東.語料庫自然標(biāo)注信息與中文分詞應(yīng)用研究(英文)[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013,49(1):140-146.。
文本標(biāo)注是一種對文本語言數(shù)據(jù)進行識別、選擇和歸類的工作,為文本語言添加解釋性、說明性、提示性的信息。文本語言標(biāo)注既能將語言中隱藏的意義顯式地表達出來,也能按照不同的使用需求對語言數(shù)據(jù)進行標(biāo)準(zhǔn)化和模式化處理,有助于將自然語言轉(zhuǎn)換為易于機器和人腦理解的數(shù)據(jù)信息。
語言人工標(biāo)注和計算機自動標(biāo)注都需要一定的主體通過對語言知識的運用對語言進行信息分類,都是有意識、自覺地為文本的NLP服務(wù),都是面向機器的行為。文本的自然標(biāo)注盡管也是一定的主體通過對語言知識的運用對語言進行信息分類,但是這種行為不是“有意識、自覺”地為文本的NLP服務(wù),而是有意識、自覺地為文本的人腦理解服務(wù),是為了人的閱讀理解服務(wù)的行為。
基于學(xué)界已有的看法,我們認為自然標(biāo)注是人際交往的潛意識行為,在文本語言中主要體現(xiàn)為語言符號本身所蘊含的背景信息或語言符號之間相互解釋的現(xiàn)象,在語言信息生成和理解上具有排他性,有助于語言信息交際的準(zhǔn)確和高效。文本語言的自然標(biāo)注是指語言符號本身所蘊含的背景信息而不是詞語本身的意義所給予的信息。因為詞語本身意義指的是詞義中的基本義或常用義,而詞的基本義或常用義是滿足最基礎(chǔ)的信息交流的必要條件,不能納入自然標(biāo)注的范圍之中。而詞語在長期的使用過程中會與某些詞形成固定的搭配,使人看到其中一個詞自然地聯(lián)想到另外一個詞,這是我們說的詞語蘊含的背景信息的一個方面。另一方面,某些詞有很強的示現(xiàn)感,使人一見到這個詞就能聯(lián)想到詞所指代的具體事物或文本故事發(fā)生的時間、文體等等信息。詞語之間的相互解釋是自然標(biāo)注的典型特征,既能使語義表達更加清楚,也是語言經(jīng)濟性的體現(xiàn)。典型的例子是同位短語,同位短語的不同詞項指代的是相同的事物,從不同的角度來稱呼同一事物,實際上就是對同一事物的不同解釋。排他性說明的是自然標(biāo)注從詞義上來說應(yīng)該是單義的,在某個場合詞語指代了這種事物,就不能表示另外一種事物。如果某個詞語的表義不清晰則不能稱之為自然標(biāo)注。
我們知道,電子版文獻的網(wǎng)頁相當(dāng)于紙版文獻的書頁,互聯(lián)網(wǎng)就是一部大書,也就是一個巨大的語料庫。受互聯(lián)網(wǎng)用戶有關(guān)網(wǎng)頁文本自然標(biāo)注現(xiàn)象的啟發(fā),我們以《阿Q正傳》的作者魯迅對該文學(xué)作品的文本自然標(biāo)注為研究對象,考察作者對文本語言進行的自然標(biāo)注狀況,以及這些自然標(biāo)注資源在文本建構(gòu)(生成)和解構(gòu)(理解)上的功能,同時也對文本的NLP提供可資借鑒的參考。
《阿Q正傳》是魯迅1921年12月創(chuàng)作的著名中篇小說,共分9章,21 261個字(含漢字、英文字母和標(biāo)點符號)。本文抽取《阿Q正傳》文本自然標(biāo)注的方法例釋如下。我們看下面的語料:
(1)因為文體卑下,是“引車賣漿者流”所用的話,所以不敢僭越,便從不入三教九流的小說家所謂“閑話休提,言歸正傳”這一句套話里,取出“正傳”兩個字來,作為名目。
(2)那是趙太爺?shù)膬鹤舆M了秀才的時候,鑼聲鏜鏜的報到村里來,阿Q正喝了兩碗黃酒,便手舞足蹈地說,這于他也很光彩。
(3)吳媽此后倘有不測,惟阿Q是問。
(4)我也曾問過趙太爺?shù)膬鹤用畔壬?,誰料博雅如此公,竟也茫然。
(5)他說不出的新鮮而且高興,燭火像元夜似的閃閃地跳,他的思想也迸跳起來了。
(6)……也很有排斥異端——如小尼姑及假洋鬼子之類——的正氣。
(7)…王胡,又癩又胡,別人都叫他王癩胡……
(8)據(jù)阿Q說,他是在舉人老爺家里幫忙。
例(1)中,“因為……所以”是篇章關(guān)聯(lián)詞,標(biāo)注的是句間因果關(guān)系?!斑@一句套話”是對“閑話休提,言歸正傳”這句話的語義定性——套話。例(2)中,“那是(……的)時候”標(biāo)明了代詞“那”的語義所指是“時候(時間)”概念?!暗臅r候”標(biāo)明“趙太爺?shù)膬鹤舆M了秀才”由“事件”轉(zhuǎn)為“時間”?!皟赏朦S酒”是數(shù)量名結(jié)構(gòu),具有互相標(biāo)注的性質(zhì),量詞前是數(shù)詞,數(shù)詞后是量詞,名詞前是數(shù)量詞。例(3)“吳媽”這個詞的形式“姓+親屬稱謂詞”標(biāo)注了“吳媽”是一個社會稱謂詞,因為一個人在稱自己的母親時,不會冠上姓?!拔┌是問”中的“惟……是……”結(jié)構(gòu)是賓語前置的標(biāo)志,標(biāo)記“問”和“阿Q”是動賓關(guān)系。例(4)中的“趙太爺?shù)膬鹤用畔壬笔峭欢陶Z,同位短語兩項指代的是相同的人,前項“趙太爺?shù)膬鹤印睒?biāo)明了“茂才先生”的身份,后項“茂才先生”標(biāo)明了“趙太爺?shù)膬鹤印钡木唧w所指。同時“趙太爺”和“茂才先生”也是自然標(biāo)注。例(5)中“像……似的”是比喻格的標(biāo)記詞。例(6)中的“之類”標(biāo)注的是“列舉未盡”,也標(biāo)明“小尼姑”“假洋鬼子”具有某種相同的屬性。例(7)中的“別人都叫他王癩胡”標(biāo)明“王癩胡”是他人給“王胡”起的綽號。“他”和“王癩胡”同指。例(8)中的“據(jù)……說”,標(biāo)明了相關(guān)信息的來源。
基于文本自然標(biāo)注的基本內(nèi)涵和上述基本的操作方法,我們對《阿Q正傳》文本語言的自然標(biāo)注資源狀況進行了窮盡性考察。具體情況如表1所示。
表1《阿Q正傳》的自然標(biāo)注資源狀況
續(xù)表1
標(biāo)注類別標(biāo)注詞語示例標(biāo)注格式標(biāo)注內(nèi)容標(biāo)注的頻數(shù)句間關(guān)系標(biāo)注(502次)但A但B轉(zhuǎn)折179于是A于是B順承110因為…所以因為A所以B因果76…的時候A的時候+B時間,23語旨23并且A并且B并列21倘倘A+B假設(shè)18不但…而且不但A而且B遞進15或者A或者B選擇14據(jù)…說據(jù)A說+B來源8除了…之外除了A之外+B排除7總而言之A+總而言之+B總括5為了為了A+B目的1每逢…的時候每逢A的時候+B時間,1語旨1詞間關(guān)系標(biāo)注(256次)趙太爺姓A+親屬稱謂B語旨68們A+們語旨68祠/庵A+祠/庵語旨27趙家/府姓A+家語旨24黨A+黨語旨22老把總(A)+職業(yè)稱謂B語旨21兒子(A稱B)兒子語旨13者A者語旨6老Q老+稱謂A語旨<對A,尊敬/情深>4這個…這個…指示代詞A…語旨2輩A+輩語旨1
關(guān)于表1,需要作如下的說明:
1.標(biāo)點符號也是文本自然標(biāo)注的類別和重要資源,《阿Q正傳》一共有標(biāo)點符號2 709個。但是由于其生來就是為標(biāo)注而存在的,標(biāo)注功能顯而易見,所以本表暫不涉及此類資源。
2.文本自然標(biāo)注本質(zhì)上都是為包括句法語義和語用義在內(nèi)的語義服務(wù)的。根據(jù)自然標(biāo)注的語義范圍,我們把標(biāo)注分為“句間關(guān)系標(biāo)注、句內(nèi)關(guān)系標(biāo)注、詞間關(guān)系標(biāo)注”三類。句間關(guān)系標(biāo)注是指對篇章級句間關(guān)系進行的語義關(guān)聯(lián)、邏輯語義計算之類的篇章語義標(biāo)注。此類標(biāo)注頻數(shù)為502次,占全部2 517次頻數(shù)的19.94%。句內(nèi)關(guān)系標(biāo)注是指對句子級的短語結(jié)構(gòu)進行的句法語義標(biāo)注。此類標(biāo)注頻數(shù)為1 759次,占比69.88%。詞間關(guān)系標(biāo)注是指對語法關(guān)系較少的鄰現(xiàn)組合的詞語進行的詞匯語義標(biāo)注。此類標(biāo)注頻數(shù)為256次,占比10.17%。
3.《阿Q正傳》全文有18 552個漢字(含英文字母)和2 709個標(biāo)點符號,有2 517次漢字性質(zhì)的自然標(biāo)注。據(jù)此可得,該小說文本漢字性質(zhì)的自然標(biāo)注頻率為7.37字/次(18 552/2 517),也就是說,每7.37個漢字就有一次自然標(biāo)注。如果把標(biāo)點符號性質(zhì)的標(biāo)注也計算進來,那么《阿Q正傳》的自然標(biāo)注頻率為4.06字符/次[(18 552+2 709)/(2 709+2 517)],也即每4.34個字符就有一次自然標(biāo)注??梢姡撔≌f文本的自然標(biāo)注頻率還是比較高的。
4.表1中相關(guān)符號和公式的內(nèi)涵是:<>內(nèi)的詞項有前后兩項,用“,”隔開或者用“=、≠”關(guān)聯(lián),前后兩項連起來表示一條標(biāo)注的知識。<>外的詞項有兩類,一類是表示句內(nèi)和詞間關(guān)系的“語旨(語義知識)”,是指尖括號內(nèi)前項的“語旨”是后項;一類是表示句間關(guān)系的“選擇、轉(zhuǎn)折、總括、時間”等詞語,是指尖括號內(nèi)前后兩項之間在篇章句間關(guān)系上具有該詞語所指的關(guān)系。尖括號“<>”及其內(nèi)外的詞語聯(lián)合起來構(gòu)成一個結(jié)構(gòu)式,這個結(jié)構(gòu)式表示一個完整的標(biāo)注實例及其標(biāo)注內(nèi)容。例如“時間”就是一個標(biāo)注實例,其標(biāo)注內(nèi)容是指:事件B發(fā)生的時間是A?!稗D(zhuǎn)折”也是一個標(biāo)注實例,其標(biāo)注的內(nèi)容是:A、B之間是轉(zhuǎn)折關(guān)系。“語旨”也是一個標(biāo)注實例,其標(biāo)注內(nèi)容是:A家是名門望族。
自然語言的自然標(biāo)注是語言事實的一部分。自然標(biāo)注是人-際交際的潛意識行為。人工/自動標(biāo)注是人-機交際的有意識行為。文本的自然標(biāo)注資源,在人際交互、人機交互方面都有重要作用,本文從語法、語義、語用和自然語言處理(NLP)等方面例釋性簡要說明其功用。
1.自然標(biāo)注在語法上的功用。為了語義和語用方面的需要,有時候需要在語法上進行適當(dāng)?shù)臉?biāo)注,以便更好地進行語義和語用表達。我們知道,用結(jié)構(gòu)助詞“之”嵌在主謂結(jié)構(gòu)中間,從而取消句子獨立性,是古漢語特有的一種自然標(biāo)注性質(zhì)的語法現(xiàn)象。這使得本來可以獨立成句的話不獨立,變得語意未盡。例如,在句子“師道之不傳也久矣”中,“之”取消了主謂結(jié)構(gòu)“師道不傳”的獨立性,讓這個主謂結(jié)構(gòu)降級為句子的主語成分,最終使得“主+謂+補”結(jié)構(gòu)的句子“師道不傳也久矣”變成“主+謂”結(jié)構(gòu)的句子“師道的不傳也久矣”。再比如“惟……是……”結(jié)構(gòu)也具有自然標(biāo)注功能,這能讓賓語提前獲得強調(diào)意義。
2.自然標(biāo)注在語義上的功用。文本自然標(biāo)注主要體現(xiàn)在語義方面,這些自然標(biāo)注能夠使語義表達更精細。文本自然標(biāo)注使自然語言的表義系統(tǒng)更加完善,可以大大增強語言的表情達意功能,有助于更好地生成和理解文本。例如:利用網(wǎng)頁URL規(guī)則對網(wǎng)頁進行類聚,但隨著Ajax技術(shù)的發(fā)展,動態(tài)URL的不斷流行,這種方法的準(zhǔn)確性在下降。此例中“規(guī)則、技術(shù)、方法”是“URL、Ajax、類聚”的自然標(biāo)注,有了“規(guī)則、技術(shù)、方法”這三個自然標(biāo)注詞,我們很容易知道“URL、Ajax、類聚”分別是一種規(guī)則、技術(shù)和方法,這就使得整個句義表達明確精細,易于理解(4)見:李志義,沈之銳.基于自然標(biāo)注的網(wǎng)頁信息抽取研究[J].情報學(xué)報,2013,32(8):853-859.。
3.自然標(biāo)注在語用上的功用。文本自然標(biāo)注在語用方面的功能主要體現(xiàn)在語句言外之意、句間關(guān)系、語體、修辭特征等的標(biāo)注。這不僅有助于文本語義的建構(gòu)和理解,而且有助于形成獨特的文本作者的用語特征。饒高琦、修馳、荀恩東等人認為文本這種自然標(biāo)注體現(xiàn)了作者的意志和作者使用語言的規(guī)律模式(5)饒高琦,修馳,荀恩東.語料庫自然標(biāo)注信息與中文分詞應(yīng)用研究(英文)[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013,49(1):141.。通過對《阿Q正傳》中自然標(biāo)注的整理,我們發(fā)現(xiàn)了許多“而立之年、求食之道、不朽之人”等用“之”連接定語和中心語的短語以及大量的“文童、秀才、翰林、知縣大老爺”等社會稱謂詞。這說明作者在語言使用上有仿古特征,在語義語用上有“批古諷古”之用意。另外,筆者將《阿Q正傳》與同時代女作家張愛玲的《琉璃瓦》進行對比,發(fā)現(xiàn)魯迅善于使用篇章關(guān)聯(lián)詞來增強文章的形式流暢度。因為篇章關(guān)聯(lián)詞表明句間關(guān)系,具有連接篇章、轉(zhuǎn)移推進話題的作用,有助于篇章結(jié)構(gòu)的形式建構(gòu)。
4.自然標(biāo)注在自然語言處理(NLP)上的功用。例如,文本中的“空格”“標(biāo)點符號”和“句子開頭或結(jié)尾”就是所謂的“自然標(biāo)注”,這能“透露”出很多的詞匯信息。網(wǎng)文標(biāo)簽也是一種典型的“自然標(biāo)注”,網(wǎng)文作者可以自由地為自己寫作的文章添加任意的“標(biāo)簽”,以表達某種意圖或心情。這能“透漏”出作者很多的情感和網(wǎng)文文體信息。本文的參考文獻對自然標(biāo)注在NLP上的功用已有很多闡釋,此不贅述。
5.自然標(biāo)注研究有助于揭示語言符號系統(tǒng)的運作規(guī)律和機制,論證語言是一個自我標(biāo)注的符號系統(tǒng)。
本文考察發(fā)現(xiàn),《阿Q正傳》中的文本自然標(biāo)注資源是比較豐富的。在標(biāo)注的類別上,“句間關(guān)系、句內(nèi)關(guān)系、詞間關(guān)系”方面都有體現(xiàn),其中句內(nèi)關(guān)系標(biāo)注占比最高,其次是句間關(guān)系和詞間關(guān)系標(biāo)注。在標(biāo)注的頻率上,平均每7.37個漢字有一次漢字性質(zhì)的自然標(biāo)注,平均每4.06個字符有一次綜合(漢字和標(biāo)點符號)性質(zhì)的自然標(biāo)注。
我們知道,在接受理論(Reception Aesthetic)視角下,文本是以文字符號的形式儲存著多種多樣審美信息的硬載體,通過這個硬載體,作者傳遞自己想要傳遞的信息,讀者吸收自己能夠吸收的信息。問題是,很多時候作者傳遞的信息和讀者吸收的信息并非完全一致,這種不一致既體現(xiàn)了文本審美信息巨大張力,也體現(xiàn)了作者和讀者之間通過文本傳遞信息的阻力。為了減小這種阻力,作者會自覺或不自覺在文本中進行一些標(biāo)注,這種標(biāo)注對NLP來說是無意識的,是作者使用自然語言進行自然表達的一種下意識行為,這種標(biāo)注就是自然標(biāo)注現(xiàn)象。系統(tǒng)考察文本的自然標(biāo)注資源,有助于從新的角度來把握自然語言這個符號系統(tǒng)的運作規(guī)律和運作機制,以便更好地接受文本信息,最終完成文學(xué)文本向文學(xué)作品的根本性轉(zhuǎn)變。