傅愛平 吳 杰 張 弘 李 蕓
人機交互式的漢語辭書編纂系統(tǒng)(以下簡稱“編纂系統(tǒng)”)是中國社會科學院語言研究所研制的一個計算機網(wǎng)絡應用系統(tǒng),用于漢語語文辭書的編纂。這個系統(tǒng)涵蓋了漢語語文辭書編纂的完整流程,包括新編詞典立項,詞條結(jié)構(gòu)設置,選詞立目,詞條編寫、修改和審定,詞條編審歷程的保留與追溯,輔助詞典成書等,同時也集成了各種語料庫、已有辭書和詞表,供詞典編者參考使用。
多年來,傳統(tǒng)的漢語辭書編纂工作一直是手工操作,費時費力,效率低,很不適應當前科學技術迅速發(fā)展、信息數(shù)量與日俱增的形勢。近些年,國內(nèi)先是語言信息處理領域的學者提出了辭書編纂自動化的必要性,中國大百科全書出版社和商務印書館先后嘗試用計算機輔助編纂詞典,北京大學計算語言學研究所和教育部語言文字應用研究所也研制了各自的詞典編纂系統(tǒng)。中國社會科學院語言研究所有著數(shù)十年漢語辭書編纂研究和實踐的歷史,積累了豐富的專業(yè)知識和經(jīng)驗。我們研制這個辭書編纂系統(tǒng),是希望以這些知識和經(jīng)驗為基礎,應用計算機軟件工程和網(wǎng)絡技術,在大規(guī)模語言數(shù)據(jù)資源和互聯(lián)網(wǎng)上人機交互機制的支持下,把語言數(shù)據(jù)建模、語言信息處理與辭書編纂過程結(jié)合起來,改變以往辭書編纂和修訂全部由手工操作的工作方式,提高辭書編纂的質(zhì)量、效率和科學性,同時為辭書研究和漢語詞匯研究提供數(shù)字化的語言資源。
人機交互式漢語辭書編纂系統(tǒng)建立在TOMCAT網(wǎng)絡發(fā)布系統(tǒng)上,在WINDOWS SERVER下采用瀏覽器/服務器方式運行。系統(tǒng)程序用JSP、JAVA、HTML等語言編制,主要用Berkeley DB XML(以下簡稱BDB XML)數(shù)據(jù)庫系統(tǒng)在后臺管理各種語言數(shù)據(jù)。
編纂系統(tǒng)的總體設計思路是:以語言數(shù)據(jù)資源的開發(fā)和管理為基礎,借鑒語言信息處理的相關研究成果,融入漢語語文辭書編纂的知識和經(jīng)驗,用人機交互方式管理編寫詞典的工作流程,提供編者需要的各種資料和信息。整個編纂系統(tǒng)由人機交互式工作流程控制平臺、在編詞典數(shù)據(jù)庫和語言數(shù)據(jù)資源庫三個子系統(tǒng)組成。圖1是編纂系統(tǒng)的組織結(jié)構(gòu)圖,其中:
(1)人機交互式工作流程控制平臺:按照詞典編纂的流程,根據(jù)詞典編者的不同權限,提供從詞條結(jié)構(gòu)定制、選詞立目、詞條編寫、修改和審定、編者信息交流,到詞條過錄、排序、生成檢字表、輸出詞典的各種處理功能和操作界面。在處理過程中編者可以隨時調(diào)用語言資源庫的內(nèi)容,進行語料檢索或統(tǒng)計,查詢各種參考詞典,也可以回溯在編詞典庫中保存的詞條修改和編審的歷史記錄。
圖1 編纂系統(tǒng)的組織結(jié)構(gòu)
(2)在編詞典數(shù)據(jù)庫:在編詞典是編纂系統(tǒng)人機交互式工作流程的主要操作對象和產(chǎn)出目標。在編詞典的每個詞條以義項為單位存儲,每個義項的內(nèi)容由各種屬性或特征組成。在編詞典數(shù)據(jù)庫建立之初,要先由主編根據(jù)編纂系統(tǒng)提供的詞條結(jié)構(gòu)模型來確定詞條的內(nèi)容結(jié)構(gòu),再由編纂系統(tǒng)生成詞條編寫界面。編者就在這個界面上編寫詞條。編好的詞條可以再修改或提交審定,在編詞典數(shù)據(jù)庫會保留修改和審定的記錄(包括:修改/審定者、改動內(nèi)容、修改/審定時間等),以供日后查詢,也能為每個編者保存?zhèn)€人編寫日志。在編詞典一旦編寫完成,編纂系統(tǒng)會自動把它的副本轉(zhuǎn)為參考詞典。
(3)語言數(shù)據(jù)資源庫:由詞目總表、參考詞典數(shù)據(jù)庫、語料庫及其檢索統(tǒng)計模塊組成。詞目總表用開放的方式盡量多地收錄現(xiàn)代漢語的詞語,記錄每個詞語的各種屬性/特征,主要為選詞立目提供素材,也可以在編寫詞條時供編者參考。參考詞典數(shù)據(jù)庫收集各種已有詞典的各個版本,供用戶在編寫詞條時隨時調(diào)閱參考,也可以用于詞典查考和詞匯研究。語料庫里集成了編纂詞典需要的各種語料。檢索統(tǒng)計模塊在編寫詞條時隨時調(diào)用,對集成在系統(tǒng)里的語料庫和數(shù)據(jù)庫進行檢索和統(tǒng)計。
在整個編纂系統(tǒng)的設計中,自然語言數(shù)據(jù)資源的形式化描述和結(jié)構(gòu)化處理是基礎性的工作,有兩個主要內(nèi)容:一是用數(shù)據(jù)建模的方法研究漢語語文辭書的內(nèi)容結(jié)構(gòu)和漢語語料庫的文本結(jié)構(gòu),建立辭書內(nèi)容結(jié)構(gòu)模型和語料庫文本描述模型;二是研制詞典內(nèi)容結(jié)構(gòu)化處理和語料文本描述的軟件工具,建立基于XML的詞典數(shù)據(jù)庫和語料庫。這些語言數(shù)據(jù)資源支撐著整個編纂系統(tǒng)的構(gòu)造和運行。
編纂系統(tǒng)以人工編寫詞典的知識和經(jīng)驗為基礎,用歸納與分析結(jié)合的方法,對編寫漢語語文辭書的全過程進行需求分析,提出要解決的問題,建立需求模型,描述整個系統(tǒng)的任務流程,確定系統(tǒng)的總體結(jié)構(gòu)和設計方案。在編纂系統(tǒng)中,面向用戶的全部應用功能集成在人機交互式工作流程控制平臺上,位于系統(tǒng)的前臺。
這些應用功能可以分為三類:編寫業(yè)務流程功能、編寫業(yè)務輔助功能和系統(tǒng)管理功能。前兩項包括詞典編寫過程中的各項操作,有詞條內(nèi)容定制、編寫任務分派、個人任務、待編詞目、詞目確認、詞條編寫、詞條初審、詞條終審、編寫進程處理、詞條統(tǒng)計、詞條提取和詞條刪除,還有缺字處理、規(guī)范用詞的補充等。第三項系統(tǒng)管理功能包括辭書瀏覽、語料檢索、項目管理、詞表管理、人員管理、消息管理、數(shù)據(jù)管理等。詳情可參見編纂系統(tǒng)操作指南(編纂系統(tǒng)課題組2011)。
進入編纂系統(tǒng)的每個用戶都有自己的權限:主編、組長、編者、訪客。權限不同,能夠使用的功能也不同:
訪客:辭書瀏覽、語料檢索。
編者:除訪客的全部權限以外,還有:待編詞目、詞條編寫、詞條初審、詞條統(tǒng)計和詞條提取。
組長:除編者的全部權限以外,還有:人員管理、任務分配、進程管理、詞條終審。
主編:除組長的全部權限以外,還有:詞條內(nèi)容定制、詞目確認。
此外還設有系統(tǒng)管理員。他除了有上述所有權限以外,還有系統(tǒng)后臺的全部管理權限,負責系統(tǒng)數(shù)據(jù)安全、數(shù)據(jù)備份、用戶管理、項目管理等工作。
圖2是人機交互式工作流程控制平臺的主要功能。
圖2 工作流程控制平臺的主要功能
編纂系統(tǒng)里的詞典數(shù)據(jù)庫有兩種:在編詞典和參考詞典。前者是系統(tǒng)的主要操作對象和產(chǎn)出結(jié)果(可以同時編寫多部在編詞典),后者供詞典編者參考(目前系統(tǒng)收錄了六部參考詞典)。詞典數(shù)據(jù)資源管理系統(tǒng)在編纂系統(tǒng)的后臺運行,負責所有詞典的內(nèi)容管理,主要是詞典內(nèi)容描述、詞條信息標注、建立詞典數(shù)據(jù)庫、詞典數(shù)據(jù)庫管理和詞條內(nèi)容查詢。
從語言信息處理和辭書數(shù)字化的角度來看,漢語語文辭書里蘊含著大量系統(tǒng)的漢語文字、語音、詞匯、句法、語義、修辭、語用等信息。要把詞典作為一種語言數(shù)據(jù)資源用計算機來處理,首先需要把文本形式的詞典轉(zhuǎn)換成結(jié)構(gòu)化的詞典數(shù)據(jù)庫。這就需要對詞典的內(nèi)容進行結(jié)構(gòu)化的描述和組織:描述詞條內(nèi)容的表現(xiàn)形式和其中蘊含的語言知識;并把這些信息組織成合理有效的數(shù)據(jù)結(jié)構(gòu)。
在編纂系統(tǒng)中為了給漢語語文辭書建立數(shù)據(jù)結(jié)構(gòu),我們提出了用XML Schema表示的辭書內(nèi)容結(jié)構(gòu)模型XML Schema for Dictionary(以下簡稱XSD)。在這個模型支持下對每一部詞典做結(jié)構(gòu)化處理,建立辭書XML數(shù)據(jù)庫,用原生XML數(shù)據(jù)庫系統(tǒng)BDB XML管理和訪問[1],形成了基于XML的詞典數(shù)據(jù)資源管理系統(tǒng),它可以創(chuàng)建、管理和訪問編纂系統(tǒng)里的全部詞典數(shù)據(jù)庫,主要功能是:
(1)用XSD描述詞條內(nèi)容,建立詞典的數(shù)據(jù)結(jié)構(gòu);
(2)根據(jù)XSD用自動標注程序?qū)υ~典文本做XML標注,描述詞條中包含的各種屬性或特征,再通過人機交互方式校對,得到詞典的XML文檔;
(3)根據(jù)XSD用通用XML軟件工具對標注好的詞典XML文檔進行良構(gòu)性(wellformedness)和有效性(validation)檢驗,保證數(shù)據(jù)的有效性和一致性;
(4)把通過檢驗的詞典XML文檔以節(jié)點方式批量導入BDB XML數(shù)據(jù)庫系統(tǒng)的容器中,并根據(jù)訪問方式設定多線程(進程)鎖策略,自動生成詞典數(shù)據(jù)庫。不同的詞典在數(shù)據(jù)庫系統(tǒng)的容器里用命名空間加以區(qū)別;
(5)詞典數(shù)據(jù)庫建立以后,根據(jù)編纂系統(tǒng)前臺可能提出的各種檢索需求,針對XML文檔元素設置相應的索引類型,編制適當?shù)乃饕呗?,以達到快速讀寫的要求。此外,通過事務子系統(tǒng)、鎖子系統(tǒng)和日志子系統(tǒng)來處理系統(tǒng)的并發(fā)策略;
(6)根據(jù)編纂系統(tǒng)前臺客戶端生成的XQuery查詢語境,對XQuery導航函數(shù)解釋執(zhí)行,轉(zhuǎn)換和返回XQuery的查詢結(jié)果,實現(xiàn)多層次元素及屬性查詢、多元素復合查詢、多容器查詢等檢索要求。
除了在編詞典數(shù)據(jù)庫以外,目前詞典數(shù)據(jù)資源管理系統(tǒng)里可用的參考詞典數(shù)據(jù)庫有《現(xiàn)代漢語詞典》第4版、第5版等六部,共307670個詞條。
編纂系統(tǒng)集成了多個語料庫供編寫詞條時查詢,語料資源管理系統(tǒng)在后臺運行,目前有內(nèi)置語料庫六個,外部語料庫一個。用于詞典編纂的語料庫可以有多種來源、多種類型、多種篇章形式、多種標注方法。為了能夠在編纂系統(tǒng)里用統(tǒng)一的方法使用不同的語料資源,我們提出了漢語書面語語料的文檔描述模型XML Schema for Corpora(以下簡稱XSC),用以描述各種漢語語料的文本組織形式、表現(xiàn)語料庫中標記的語言知識信息、記錄語料庫的說明性信息。
XSC規(guī)定了語料XML文檔的語法格式,在它的約束下,經(jīng)過標注的各種語料庫可以自動生成XML結(jié)構(gòu)的文檔,然后在通用的XML開發(fā)應用環(huán)境下做各種加工處理。例如用XML解析器對語料文檔進行良構(gòu)性和有效性檢驗,保證數(shù)據(jù)結(jié)構(gòu)和內(nèi)容都符合XSC的規(guī)定。經(jīng)過驗證的XML語料文檔,已經(jīng)完成了從非結(jié)構(gòu)化文本到XML數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)換,可以直接導入XML數(shù)據(jù)庫系統(tǒng)進行管理、提供訪問,或者用通用編程接口來實現(xiàn)各種應用。這樣就能夠在同一個數(shù)據(jù)庫平臺上,用同一種方法和技術管理和訪問多個不同類型的語料庫。
之所以選擇通用可擴充置標語言XML來描述語料庫,是因為它除了能兼容多種標注需求以外,還是正式發(fā)布的國際標準,在規(guī)范性和通用性方面有優(yōu)點,便于有效地規(guī)范語料文檔的數(shù)據(jù)結(jié)構(gòu),有助于與國際語料庫編碼標準接軌,也有助于語料庫的數(shù)據(jù)交換和資源共享。
語料資源管理系統(tǒng)使用原生XML數(shù)據(jù)庫系統(tǒng)BDB XML,以XSC為基礎,建立了一個多種語料庫文本標注、文檔管理和數(shù)據(jù)處理的集成環(huán)境。利用BDB XML的XML文檔分析器、XQuery查詢引擎和獨特的索引系統(tǒng),優(yōu)化語料內(nèi)容索引策略,建立基于成本的查詢方案,實現(xiàn)對XML文檔節(jié)點、元素、屬性以及元數(shù)據(jù)的靈活索引,在多層次元素及屬性查詢、多元素復合查詢、多容器查詢等檢索環(huán)境中,使復雜的XQuery語句快速命中目標,提供檢索結(jié)果。目前在編纂系統(tǒng)里內(nèi)置的六個語料庫全部采用這種基于XML的方法和技術。
此外,編纂系統(tǒng)還有外部的動態(tài)語料庫。這是一個原始語料庫,用動態(tài)跟蹤的方式采集了24種報紙語料,單份報紙的時間跨度為2—13年,共采集了142年次、約40億字,用基于Apache Solr的分布式語料全文檢索系統(tǒng)提供查詢。
表1是編纂系統(tǒng)里可用的語料庫:
表1
編纂系統(tǒng)用基于XML的語言數(shù)據(jù)資源處理方法設計數(shù)據(jù)結(jié)構(gòu),這包括以下幾方面的探索性工作:詞典的內(nèi)容描述和數(shù)據(jù)組織,語料庫的文本描述和數(shù)據(jù)組織,以及應用原生XML數(shù)據(jù)庫系統(tǒng)處理語言數(shù)據(jù)資源,研究和開發(fā)實用的軟件技術和應用系統(tǒng)。
(1)基于XML的詞典內(nèi)容描述和數(shù)據(jù)組織
文本形式的詞典可以認為是一種用非結(jié)構(gòu)化形式表現(xiàn)的、具有半結(jié)構(gòu)化特征的語言數(shù)據(jù)。我們用辭書內(nèi)容結(jié)構(gòu)模型XSD為詞典做數(shù)據(jù)建模,用XML Schema定義詞條的內(nèi)容和詞典的組織結(jié)構(gòu),提取詞條中蘊含的各種語言學信息,把文本形式的詞典轉(zhuǎn)換成詞典數(shù)據(jù)庫。在XSD里,詞典以詞條為基本單位,由眾多詞條組成,每個詞條含有形、音、義、用法等各種屬性。一部詞典的全部內(nèi)容表現(xiàn)為樹形結(jié)構(gòu),樹的第一層節(jié)點是詞條,每個詞條的各層下位節(jié)點是這個詞條的各個屬性。全部詞條的屬性和屬性之間的關系構(gòu)成了一部詞典的內(nèi)容結(jié)構(gòu)。在XML Schema框架下,所有代表詞條屬性的節(jié)點都表現(xiàn)為元素或子元素,對這些元素進行定義和約束,就可以得到各個屬性節(jié)點的確切定義。通過XSD對一部詞典進行結(jié)構(gòu)化標注,再把文本形式的詞典轉(zhuǎn)換成XML原生數(shù)據(jù)庫,就能夠系統(tǒng)地組織并完整地描述詞典內(nèi)容的表現(xiàn)形式和其中蘊含的語言知識。這種詞典數(shù)據(jù)庫也是一種詞語知識庫,它不僅可以用于詞典的編纂、查考和典藏,也可以為語言研究、詞匯研究和語言工程提供數(shù)據(jù)資源。
以往的辭書數(shù)字化工作大多是把詞典做成二維表,再用關系型數(shù)據(jù)庫來處理。我們選擇XML Schema代替關系型數(shù)據(jù)模式作為詞典數(shù)據(jù)建模的方法,是因為XML的數(shù)據(jù)結(jié)構(gòu)適合描述語文詞典的結(jié)構(gòu)形式,XML Schema的樹形數(shù)據(jù)模式正好完全體現(xiàn)了詞條結(jié)構(gòu)的層次關系和管轄關系。用XML Schema可以方便地描述不定長內(nèi)容的詞條屬性(例如詞條的釋義部分);描述不定量重復出現(xiàn)的詞條屬性(例如詞條釋義中的例句);描述詞條中的嵌套關系(例如多層級義項的嵌套)。更重要的是,可以根據(jù)詞條描述的需要,動態(tài)地為XML Schema補充子樹或元素、變更對已有元素的約束,只要不改變原有的樹形架構(gòu),就不會影響它的兼容性。這些都是關系型數(shù)據(jù)模式不容易做到的。(傅愛平等2009:28)
辭書內(nèi)容結(jié)構(gòu)模型XSD也有一種通用性:它定義的是漢語語文辭書中每一個詞條所有可能的屬性,以及每一個屬性所有可能的取值(屬性值)。這樣就可以涵蓋多部詞典的內(nèi)容和組織結(jié)構(gòu)。也就是說,同一個XSD可以描述多部語文詞典。在編纂系統(tǒng)里,每一個在編詞典數(shù)據(jù)庫和六部參考詞典數(shù)據(jù)庫都是用這個XSD定義的,它們都在BDB XML數(shù)據(jù)庫系統(tǒng)上用統(tǒng)一的方法建立和管理,用統(tǒng)一的技術提供查詢,獲得了理想的使用效果。
除了通用性以外,XSD還有某種抽象性:它描述的詞典內(nèi)容模式是一種底層數(shù)據(jù)結(jié)構(gòu),與詞條及其屬性或特征在具體詞典中的表現(xiàn)形式?jīng)]有關系。比如對異形詞的處理,有的詞典用“同××”表示,有的詞典用“也作××”表示,還有的詞典兩者都用或者更隨意。無論在具體詞典中表現(xiàn)如何,在XSD中都定義成一個可選的屬性“異形”,其屬性值為“是”或“否”。這樣就把詞典數(shù)據(jù)的內(nèi)容和形式分離開了。詞典編者只需集中精力琢磨詞條內(nèi)容,無須考慮詞條體例的表現(xiàn)形式,有關體例樣式的工作都由編纂系統(tǒng)通過“詞條定制”的功能用人機交互的方式來完成。
(2)基于XML的語料文本描述和數(shù)據(jù)組織
用于詞典編纂的語料庫有多種類型,收錄了各種各樣的篇章樣本。這些語料樣本或者表現(xiàn)為原始文本的形式(可帶有原生標記[4]),或者是帶有附加標記的形式(帶有非原生標記[5])。目前國內(nèi)語料庫研究和開發(fā)的情況是,不論帶標語料庫還是原始語料庫,只要研究或應用目的不同,就會有不同的標記集和標注規(guī)范,也就有各自的語料庫管理和檢索系統(tǒng)。在分析了各種類型的語料庫及其加工現(xiàn)狀之后,我們用XML Schema構(gòu)建了一個語料文本描述模型XSC,定義語料標注的描述規(guī)則,描述語料的各種原生標記和非原生標記。目的是客觀地表現(xiàn)語料文本的原貌,兼顧各種不同類型的標注需要,盡可能容納不同的標記集,描述各種原始的和帶標的語料庫。與此同時以XSC為基礎,建立了一個語料庫文本標注、文檔管理和數(shù)據(jù)處理的語料資源管理系統(tǒng)。
XSC面向多種類型的漢語書面語語料。傅愛平等(2011)認為,語料庫中不管是原生態(tài)的標注,還是非原生的標注,通常都主要描述三類信息:一是篇章組織和文本結(jié)構(gòu)信息,即組成語料文本的篇章、段落、句子、詞語等語言結(jié)構(gòu)成分,語言成分在文本中是以文字符號等實體形式表現(xiàn)的;二是語言知識信息,是語料在詞匯、語音、語法、語義、語用等各個層面的屬性或特征,它們附著于各個語言成分之上;三是功能性或說明性信息,有兩種:第一種是主題、語體、作者、出版者、版本、承載媒體、出版時間等,一般附著于語料的單位樣本之上;第二種是校注、言者角色、言語伴隨行為、言語環(huán)境等關于文本正文的說明,一般情況下,它們附著于各個語言成分之上。語料文本描述模型XSC的主要任務就是描述這三類信息,即描述各種漢語語料的文本組織形式、表現(xiàn)語料中標記的語言知識信息、記錄語料庫的說明性信息。XSC定義的是語料庫的描述規(guī)則,不管語料庫是原始的還是帶標的,不管標注的是哪些信息,XSC都應該能用XML把這些語料文檔表現(xiàn)出來。
一般來說,語料標注的主要對象一是語言成分,二是語言知識信息。后者是語言成分的屬性、特征或語言成分之間的關系。在語料文本中,語言成分是文字或符號的實體形式,關系附著于成分之上。不管出于什么需要、用哪個語法體系去研究語言,語言成分及其關系都是基本的研究對象。語料標注不論采用多少種標記集,也無非是從不同的角度去描述各個語言成分及其關系。所以在XSC中,“成分”和“關系”是最基本的描述對象。
在XSC中語料庫表現(xiàn)為樹形結(jié)構(gòu),含有元素和屬性兩類結(jié)點,用元素來定義語言成分,用元素的屬性來定義關系。在語料文本中,語言成分有其客觀實體表現(xiàn),描述語言成分的主要原則是客觀,要盡可能反映它們的原貌。XSC能夠根據(jù)不同的需要,描述各種語言成分及其在語料中的各種出現(xiàn)方式。語言成分的屬性或特征,以及語言成分之間的關系是帶有主觀性的信息,描述它們的原則是兼容。XSC可以提供一種自選參數(shù)的兼容機制,描述每個語言成分的多種關系,盡可能表現(xiàn)各種語法體系和分析方法所需要的標記信息。
在編纂系統(tǒng)中,我們應用XSC描述語篇的組織和語言成分的各種組合,能夠兼顧不同類型的語料文本和語言分析方法,生成XML結(jié)構(gòu)文檔并自動導入XML數(shù)據(jù)庫,使用通用的軟件工具管理和訪問語料庫。編纂系統(tǒng)中六個內(nèi)置的語料庫(約2.15億字)都是用這個XSC定義的。它們在BDB XML數(shù)據(jù)庫系統(tǒng)上用同一種方法建立和管理,在統(tǒng)一的語料資源管理平臺上提供查詢,獲得了預期的使用效果。
編纂系統(tǒng)的前臺是人機交互式工作流程控制平臺,它除了為用戶提供參考詞典和語料庫以外,主要任務是詞典編寫全過程的業(yè)務流程控制。這個平臺的設計既體現(xiàn)了人工編寫詞典的知識和經(jīng)驗,也集成了一些應用計算機和網(wǎng)絡技術提高詞典編纂效率和科學性的功能。下面是幾個例子:
(1)可視化的詞條編寫界面
編纂系統(tǒng)給編者提供了可視化的操作界面(見圖3):
圖3 編纂系統(tǒng)的操作界面
這個界面的主要功能是人機交互編寫詞條,同時也提供編纂系統(tǒng)的管理和語言數(shù)據(jù)資源的使用。
詞條編寫是整個編纂業(yè)務的核心部分,主要有詞條內(nèi)容定制、任務分配、編者任務、待編詞目、詞目確認、詞條編寫、詞條初審、詞條終審、進程處理、詞條統(tǒng)計、詞條提取、刪除詞條、缺字處理等多項功能,逐一列在編寫界面左端。編寫界面的主要部分用來表現(xiàn)詞條的內(nèi)容和結(jié)構(gòu)。
在詞條界面上,內(nèi)容按義項顯示,左側(cè)給出了整個詞條的結(jié)構(gòu)。語文詞典的一個詞條下面可以有若干個義項,義項下面還可以有子義項。在辭書內(nèi)容結(jié)構(gòu)模型XSD里,我們用樹形結(jié)構(gòu)定義這種義項之間的嵌套關系,體現(xiàn)在詞條編寫界面上,是主義項、一級義項、二級義項等的層級結(jié)構(gòu)視圖。一個詞條可以只有一個主義項,也可以有若干個一級義項或二級義項,通過這個結(jié)構(gòu)視圖,一個詞條的內(nèi)容結(jié)構(gòu)可以一目了然。編者可以根據(jù)需要打開各個義項查看或填寫內(nèi)容,也可以增加或刪除各級義項,還可以對義項重新排序。
詞條編寫的操作以義項為單位,編寫界面的中心視圖是每個義項的內(nèi)容,用列表框給出每一個屬性,編者只需要按照視圖的提示在屬性框中填入內(nèi)容。有的屬性值編者可以自主填寫,比如詞義和例句。有的屬性值規(guī)定了取值范圍,比如詞性,只能在給定的參數(shù)里選擇,這樣有助于表達形式的規(guī)范和平衡。詞典編纂是多人參與的項目,各位編者在專業(yè)水平、編寫經(jīng)驗和表達習慣上都會有所不同,比如詞條屬性值或標記符號的使用就可能因人而異。編纂系統(tǒng)在詞條編寫界面提供了選項和賦值兩種內(nèi)容填寫方式。前一種只能在詞條屬性值的取值范圍內(nèi)選擇,后一種也會對編者自主填寫的內(nèi)容做一些檢查校核。目前采用選項操作的屬性有:詞目類別、詞性、詞性附類或小類、兒化、語體說明、領域說明、釋義引語、搭配類別、語種、參見、同義近義、對義反義等。各個選項的參數(shù)根據(jù)需求可以由主編隨時增加或修改。
此外,編寫界面還提供了參考詞典、語料庫、詞條修改記錄等供編者調(diào)用。
(2)詞條內(nèi)容的定制
在編纂系統(tǒng)里新編一部詞典時,先要定制新詞典的詞條內(nèi)容。詞條內(nèi)容定制的意思是:以辭書內(nèi)容結(jié)構(gòu)模型XSD為基礎,根據(jù)新編詞典的需要,確定詞條里要包含哪些屬性、屬性之間有什么關系、對屬性值有哪些約束,并規(guī)定詞典輸出的體例或版面格式。詞條內(nèi)容定制實際上是對詞典內(nèi)容的設計。
漢語語文辭書的一個詞條下包含形、音、義、用法等各種屬性,比如字形、拼音、詞性、釋義、例句等。根據(jù)各自不同的編纂理念和應用需求,各個詞典對屬性選擇不同、多少不等。主編給新詞典做了詞條內(nèi)容定制以后,編纂系統(tǒng)會根據(jù)定制的結(jié)果,按照XSD的樹形結(jié)構(gòu)規(guī)則,自動生成一部新的在編詞典的內(nèi)容結(jié)構(gòu)(是XSD的一棵子樹),再根據(jù)這個內(nèi)容結(jié)構(gòu)在后臺自動生成新在編詞典數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu),在前臺自動生成供編者使用的可視化操作界面以及數(shù)據(jù)顯示格式和數(shù)據(jù)保存格式,為新詞典的編寫做好準備。利用詞條內(nèi)容定制功能,編纂系統(tǒng)可以同時創(chuàng)建幾部新的在編詞典。
在編纂系統(tǒng)中,利用詞條內(nèi)容定制還可以控制在文本形式下詞條輸出的體例或版面格式??刂圃~條輸出體例的意思是,指定詞條中部分屬性名和屬性值的標志符或縮略符,用于文本形式的詞條數(shù)據(jù)輸出。例如在有的詞典文本里,詞條的屬性“詞性”用外加□表示;屬性“例詞”“例句”“比喻例”用“◇”“|”等符號表示。通過詞條結(jié)構(gòu)定制可以給屬性值指定表達符號和位置信息(分為屬性值前附加、屬性值間附加或?qū)傩灾岛蟾郊拥葞追N位置)??刂莆谋拘问较略~條輸出的版面格式,是為了把詞條從編纂系統(tǒng)的詞典數(shù)據(jù)庫里取出來,按照印刷文本的形式呈現(xiàn)給詞典編者。版面格式的控制主要包含詞條中各個屬性排列的順序、各屬性值的顯示格式(例如空格、折行、縮進等)。處理得當?shù)陌婷娓袷侥軌蛟谠~典的編寫過程和排版過程之間起到溝通的作用,編者可以比較直觀地看到詞條的基本排版樣例。
詞條內(nèi)容定制也可以在詞典修訂時用來變更原有的內(nèi)容格局,還可以在已有詞典的基礎上減去一些屬性項,不需改動內(nèi)容,直接自動生成原詞典的屬性縮減本。
在編纂系統(tǒng)的XSD里目前一共有39個屬性,供定制詞條內(nèi)容結(jié)構(gòu)時選擇。不夠的話,還可以擴充XSD,添加新的屬性或?qū)傩灾?。對于不同詞典的內(nèi)容需求,XSD中包含的屬性就像是個最小公倍數(shù),能夠兼容各種屬性。這得益于辭書內(nèi)容結(jié)構(gòu)模型XSD的通用性和抽象性,它們是詞條內(nèi)容定制功能得以實現(xiàn)的基礎,也為XSD提供了更多的應用空間。
(3)詞典數(shù)據(jù)的內(nèi)容與形式相互分離
前面說過,辭書內(nèi)容結(jié)構(gòu)模型XSD定義的是抽象的詞典數(shù)據(jù),它描述詞條所有可能的屬性,也定義每個屬性所有可能的屬性值,跟詞條及其屬性在具體詞典中的表現(xiàn)形式?jīng)]有關系,這樣就把詞典數(shù)據(jù)的內(nèi)容和形式分離開了。
這種分離的作用是,利用詞條內(nèi)容定制功能可以控制文本形式下詞條輸出的體例或版面格式,還可以規(guī)范詞條輸出格式、標點符號、特殊標記等。目前編纂系統(tǒng)已經(jīng)對非正體、詞類、語體說明、語用說明、注釋、用例、外來語等詞條屬性的表達方式做了一致性處理,以避免輸出時的隨意性。
詞典數(shù)據(jù)的內(nèi)容與形式分離,還使我們能夠在不同的設備上用不同的格式表現(xiàn)同一部詞典的內(nèi)容,輸出便于人們查閱的各種文本形式。排版印刷格式是其中之一,還可以是網(wǎng)頁格式、在移動設備上表現(xiàn)的格式(比如手機上顯示),等等。另外還有詞典的排序,可以根據(jù)拼音字母做正序排列,也可以做逆序排列。想用什么符號表示每一個屬性,也可以自行設定。
(4)詞條編寫記錄的保存和回溯
一個詞條在編寫、審校過程中,編寫人員和審校人員可能做多次修改。保留詞條編寫和修改的記錄并根據(jù)需要回溯詞條的編寫過程,對于語文詞典的編纂來說十分重要。以前人工編寫的時候,編者大都在卡片上用不同顏色的筆來做歷次記錄。通過這些記錄可以追溯詞條編寫的過程,反映語言和詞匯的變化,回顧歷任詞條編者的工作思路。
編纂系統(tǒng)提供了“保存修改記錄”和“回看修改記錄”的功能,根據(jù)編者的要求,把每一次編寫和審校的信息記錄和保存下來,供日后回溯。這些信息包括:修改者、修改前后的內(nèi)容、修改時所處的進程、修改提交日期,還可以留下修改備注(包括修改原因、參考資料、遺留問題等)?;乜葱薷挠涗洉r,會突出顯示修改前后不同的內(nèi)容。另外系統(tǒng)還有“撤消修改”的功能,在編寫過程中可以根據(jù)需要隨時恢復某次修改前的詞條內(nèi)容。這些功能有助于追溯詞典的編審歷程,不僅對編寫詞條有用,對詞典修訂和詞典研究也有用處。
(5)編纂進程的動態(tài)處理
進程處理是控制編纂業(yè)務流程的功能,由主編或組長操作,分成編寫、初審、終審、定稿等幾個進程。在不同的進程中,詞條根據(jù)需要在編者、組長、主編之間往返傳遞。進程處理的作用是幫助主編和組長了解每個編者當前的工作進度,掌握每個詞條當前所在的進程和處理狀態(tài),在此基礎上設定權限、分配任務、了解編寫中的問題、組織協(xié)同作業(yè),借助網(wǎng)絡平臺處理詞條編寫的各個環(huán)節(jié),科學合理地管理詞典編纂的全過程。
在詞條編寫過程中,每個編者也都可以在自己的詞條編寫界面中看到當前詞條的操作進程、修改狀態(tài)、當前進程是否完成等信息,明確自己的任務和工作進度,還能通過進程處理功能與其他編者交流信息、配合工作。
人機交互式漢語辭書編纂系統(tǒng)是面向應用的計算機網(wǎng)絡服務系統(tǒng),能否在語言技術、計算機網(wǎng)絡技術和詞典編者的智慧之間實現(xiàn)最佳的結(jié)合,還需要在實際運行中驗證和完善。編纂系統(tǒng)和用戶之間應該經(jīng)歷一段較長時間的磨合,根據(jù)用戶的體驗和意見不斷改進系統(tǒng)的設計和功能。
當前信息技術的發(fā)展日新月異,新的產(chǎn)品和網(wǎng)絡應用模式不斷涌現(xiàn),互聯(lián)網(wǎng)上開放式的網(wǎng)絡詞典編纂和服務已經(jīng)成為漢語辭書編纂的一個新的應用方向。我們?yōu)檫@個編纂系統(tǒng)研制開發(fā)的關鍵技術和核心模塊,有些已經(jīng)具有開放應用模式的功能,可以作為下一步工作的基礎。這種開放模式通過互聯(lián)網(wǎng)(包括移動互聯(lián)網(wǎng)平臺),一方面為公眾提供詞語查詢服務,另一方面開放詞典編寫平臺,讓所有對詞典有興趣、有建設性見解、愿意有所貢獻的各界人士都能參與詞典編寫:提出新的條目,修改已有的詞條,給出形、音、義、用法、來源等新的信息。讀者和編者之間形成互動關系,利用先進的信息技術和海量的互聯(lián)網(wǎng)資源,實現(xiàn)龐大的用戶群和眾多領域?qū)<抑g的分工協(xié)作,使詞典的編纂和研究更好地適應語言生活的實際。
附 注
[1]Berkeley DB XML是由美國Sleepycat Software公司開發(fā)的開源嵌入式數(shù)據(jù)庫管理系統(tǒng)。
[2]廣電語料庫采用了中國傳媒大學傳媒語言語料庫的一部分原始語料,謹向中國傳媒大學國家語言資源監(jiān)測與研究中心有聲媒體語言分中心誠致謝意。
[3]平衡語料庫采用了國家語委語料庫的一部分原始語料,謹向教育部語言文字應用研究所誠致謝意。
[4]原生標記描述語料文本的篇章組織形式(如冊、篇、卷、章、回、節(jié)等)、對正文的說明(如校注等)等信息。
[5]非原生標記描述語料在詞匯、語音、語法、語義、語用等方面的屬性或特征(如詞性、短語結(jié)構(gòu)、語法功能、語義關系等)。
1.常寶寶.基于語料庫的雙語詞典編纂平臺的構(gòu)建.辭書研究,2006(3):122—133.
2.傅愛平,吳杰,李蕓.漢語語文詞典的詞條結(jié)構(gòu)模型.辭書研究,2009(2):28—37.
3.傅愛平,張弘.漢語語料庫的文本描述.∥漢語語料庫及語料庫語言學圓桌會議論文,香港,2011.
4.劉輝.詞典微觀數(shù)據(jù)結(jié)構(gòu)標準化和關系數(shù)據(jù)庫設計.∥羅益民,文旭主編.中國辭書學會雙語詞典專業(yè)委員會第七屆年會論文集.成都:四川人民出版社,2007.
5.陸汝占.漢語詞典編纂一體化環(huán)境(上、下).辭書研究,2000(2):37—48,2000(3):35—43.
6.張弘,傅愛平.Berkeley DB XML在語料庫管理中的應用.∥第八屆兩岸三院信息技術交流與資源共享研討會論文集.臺北,2010:355—365.
7.章宜華,劉輝.基于微觀數(shù)據(jù)結(jié)構(gòu)的雙語詞典生成系統(tǒng)初探.外語與外語教學,2007(8):61—64.