標記系統(tǒng)及學術(shù)文本處理的未來（一）

2016-11-10 06:12詹姆斯庫姆斯艾蘭瑞尼爾史蒂芬

出版科學 2016年5期

關(guān)鍵詞：文獻

詹姆斯?庫姆斯++艾蘭?瑞尼爾++史蒂芬?德羅斯

[摘要] 標記事務影響著學者們對思考與寫作系統(tǒng)的采納使用。程序性標記和表示性標記會阻礙這一進程的發(fā)展，描述性標記則通過簡化機械性任務，讓學者們將注意力集中于內(nèi)容上的做法，以加快這一進程。

[關(guān)鍵詞] 標記學術(shù)文本文獻標準通用標記語言

[中圖分類號] G231 [文獻標識碼] A [文章編號] 1009-5853 （2016） 05-0013-09

Markup Systems and the Future of Scholarly Text Processing

James H. Coombs， Allen H. Renear， Steven J. DeRose

Wang Xiaoguang Li Menglin Liu Jing

（School of Information Management， Wuhan University， Wuhan， 430072）

[Abstract] Markup practices can affect the move toward systems that support scholars in the process of thinking and writing. Whereas procedural and presentational markup systems retard that movement， descriptive markup systems accelerate the pace by simplifying mechanical tasks and allowing the authors to focus their attention on the content.

[Key words] Markup Scholarly text Document SGML

在過去幾年里，學術(shù)文本處理已進入一個停滯階段。以前，開發(fā)人員都致力于開發(fā)系統(tǒng)來支持學者做好研究者和作者兩種角色。在布什（Bush）[9]的思想基礎(chǔ)上，納爾遜（Nelson）[l0，27，28]和范達姆（Van Dam）[10]等人設計了一些原型系統(tǒng)來模擬研究者的關(guān)聯(lián)性思維過程。類似地，恩格爾巴特（Engelbart）[16-17]也想過利用概念操縱工具來增強人類智慧。里德（Reid）開發(fā)了Scribe軟件，通過提供書目和引文集成管理工具[30]，將學者從一些格式化問題中解放出來。盡管了解這些想法的學者不多，但趨勢是顯而易見的，那就是開發(fā)一些新的研究和寫作策略。

自從推出價格低廉、功能強大的個人電腦后，我們看到研究焦點從發(fā)展新策略轉(zhuǎn)向如何讓舊物件更快捷。這種轉(zhuǎn)變一部分體現(xiàn)為模型的改變。以前，開發(fā)商將學者們看作研究者和寫作者進而開發(fā)了一些模型。然而，最近的主導模型卻是將作者看作打字員，甚至是排版人員1。如今的系統(tǒng)在模擬打字機，而不是讓學者執(zhí)行以往不太可能的任務。當然，這些電子打印機都內(nèi)置有搜索和剪切粘貼功能，但是對于知識型用戶來說，這樣的系統(tǒng)只提供了很小的改進，與10年前或者15年前的系統(tǒng)相比并不強大多少。

解釋這種趨勢的原因有很多，最重要的大概是在商業(yè)和工業(yè)領(lǐng)域，集中式計算轉(zhuǎn)變成了分布式計算，并成為最吸引開發(fā)人員的市場。傳統(tǒng)意義上，在這樣的領(lǐng)域，聘請秘書打印文件就已基本上滿足需要。在這種環(huán)境中，必不可少的工具是打字機、剪刀和糨糊，現(xiàn)在則是他們的電子等價物。

在學術(shù)界，開發(fā)更加智能的系統(tǒng)的動力也在減少。高校有他們自己的業(yè)務和行政辦公室，能充分利用一些商業(yè)系統(tǒng)。此外，學者們也喜歡此類系統(tǒng)而不是它們的替代品。那些能夠接觸到更強大系統(tǒng)的人也很少有足夠的時間去充分利用這些系統(tǒng)，而且很多人發(fā)現(xiàn)這些系統(tǒng)使用過程復雜。這是可以理解的，因為大型機和小型機上的文本格式化程序都是基于某種模型開發(fā)的，這個模型并不適合將作者視為打字員。這些系統(tǒng)由程序員編寫，并被程序員使用，所以通常需要高超的編程技能。大多數(shù)學者在體驗了計算工作之后都樂意遠離這些粗糙的和糟糕的系統(tǒng)，轉(zhuǎn)而使用簡單的、方便的小程序來幫助他們更快地敲打文字。由于對當前的重大進步缺乏認識，以及不了解研究和寫作過程中的一些新策略，他們甚至對此幸災樂禍，盡管這些發(fā)展是學術(shù)計算的重大進步。這樣的反應甚至來自于經(jīng)驗豐富的學者，它給有經(jīng)驗的系統(tǒng)開發(fā)者和那些剛開始使用電腦的人帶來了很多壓力。越來越多的學者要求更加簡單的計算設備來提高他們的打字能力，他們的施壓導致行業(yè)發(fā)展偏離主線，其結(jié)果就是行業(yè)無法發(fā)展。學者們一直在維持他們已往的做法，也許僅僅是動作快了一點2。

這種主導模式的變化主要導致了三個問題：第一，計算機系統(tǒng)進行重大改進的動機正在消失，并且大部分資源已轉(zhuǎn)移到優(yōu)化提升一小部分文檔開發(fā)流程上。由于缺乏時間進行其他學科領(lǐng)域的培訓，很多學者雖然在文本處理上引領(lǐng)趨勢，但是他們卻不能理解或評價這種發(fā)展的潛力。此外，整個行業(yè)嚴重低估了開發(fā)復雜系統(tǒng)所需要的資源，而且人們已經(jīng)不能容忍產(chǎn)品匱乏的現(xiàn)狀。因此我們看到學者的注意力已經(jīng)從信息的檢索和組織、甚至拼寫和語法的校驗上轉(zhuǎn)移了，現(xiàn)在更加注重鍵盤、打印機、字體、顯示、圖形、顏色及其他類似的特性3。于是行業(yè)不再開發(fā)具有新性能的工具，轉(zhuǎn)而開發(fā)一些穩(wěn)定的程序，以安全、顯著地提高程序性能。第二，開發(fā)者和作者忽視了一個事實，那就是對文檔進行電子開發(fā)會產(chǎn)生兩種產(chǎn)品：打印輸出文件和“源文件”。目前，一切都是為了生產(chǎn)打印輸出文件；源文件只不過是一個副產(chǎn)品，浪費寶貴的磁盤空間，卻只是用于多生產(chǎn)一份同一文檔的打印輸出。在與同事分享或者用智能系統(tǒng)處理時，文件的專有格式以及缺乏語義語用編碼使這些文件變得毫無價值。第三，學者的時間和精力從研究和寫作轉(zhuǎn)移到了最終的格式化呈現(xiàn)上。例如，本篇文章的作者相當注意文章提交的質(zhì)量，并且曾經(jīng)為一些書籍排過版。但是當前的系統(tǒng)還是讓作者時時刻刻都要關(guān)注文章的格式，而不僅僅是在文檔準備提交時才這么做。

雖然無法簡單地解決上述所有問題，但是每個問題的改善都可以通過向已經(jīng)得以廣泛使用的描述性標記轉(zhuǎn)換來實現(xiàn)。描述性標記的價值尚未被認可，因為作者和理論家認為新型文檔開發(fā)系統(tǒng)“超級打字機”并不需要任何標記。戈德法布（Goldfarb）是通用標記語言（GML）的主要開發(fā)者之一[18]，他明確表示，描述性標記比通常的程序性標記更具優(yōu)勢，但是因為還沒有人能夠完全理解標記系統(tǒng)，所以用戶認為無標記比描述性標記更好。然而，隨著標記系統(tǒng)逐漸成型，我們發(fā)現(xiàn)不存在所謂的“無標記”。所有的文章都涉及標記?！盁o標記”實際上由表示性標記和標點符號標記組成。此外，在相互競爭的標記類型中，描述性標記是最容易學習、最方便使用的標記，而且能很好地用于寫作過程。最后，描述性標記對開發(fā)過程中的兩種產(chǎn)物進行了信息編碼：源文件和打印輸出。因為源文件包含的是語義和語用編碼，而不是格式化編碼，所以能很容易地與同事分享，直接提交給出版商，并能被智能程序處理4。

本文第一部分對標記系統(tǒng)的理論進行了綜述，明確了必要的概念，以正確評估各種備選方案；接著提出了描述性標記優(yōu)于其他標記形式的主要論據(jù)。

1 標記理論

當一個作者寫東西的時候，他或她會“做標記”5。例如，單詞之間的空格表示單詞邊界，逗號表示短語邊界，句號表示句子邊界。這一情況被很多人忽視了，人們常認為電子文本處理系統(tǒng)并不需要標記，或者說，要避免使用標記。然而，詳細的分析表明，作者手稿中經(jīng)常使用兩種類型的標記：標點符號型標記，如在句子末端放置句號；表示性標記，如給頁面編頁碼，所以說標記是不可避免的，因為寫作系統(tǒng)確實需要它們。

傳統(tǒng)的、抄寫類型的標記使得書面表達更加明晰。標記不是文本的一部分，也不是要表達的內(nèi)容，而是告訴我們與文本相關(guān)的一些信息。當我們將寫作內(nèi)容轉(zhuǎn)述成演講（或者當我們大聲朗讀時），我們通常不會直接朗讀標記；相反，我們通過使用各種語言之外的東西來傳達必要的信息，闡釋標記含義。舉例來說，一個問號表達的信息和情感，可以通過提高聲音或者眉毛來演繹和傳達。

隨著文本處理系統(tǒng)的出現(xiàn)，產(chǎn)生了新的標記類型和新的加工類型。當我們準備進行屏幕閱讀或紙質(zhì)閱讀時，文檔通過抄寫進行標記。但是，當文檔存儲在電子文件中時，文檔可能通過抄寫被標記，或者用專業(yè)電子標記類型來進行標記，這些標記是為電腦應用程序處理而設計的。人們使用程序性標記來表示一個特定程序應該遵守的程序（例如：SK表示跳行），描述標記確定當前標記的實體類型（例如：

表示段落），引用標記引用文檔外部的實體（例如：&mdash表示一個長破折號），元標記定義或者控制其他標記形式的處理（例如：< ！ ENTITY acm “Association for Computing Machinery”>表示定義引用標記 &acm；） 6。

2 標記類型

標點符號標記。標點符號標記由一組有限的標記構(gòu)成，提供了與書面表達相關(guān)的句法信息。關(guān)于標點符號的研究已經(jīng)延續(xù)了數(shù)百年，它們是寫作系統(tǒng)的一部分。因為標點符號相對穩(wěn)定，作者也普遍熟悉，且在文檔中頻繁出現(xiàn)，所以通常作家就像在打字一樣給文檔添加各種標點符號標記。

遺憾的是標點符號標記存在幾個缺陷：標點符號系統(tǒng)相對復雜，而且受很多樣式的變化限制。例如，本文作者認為不應該在句首狀語短語的后面使用逗號；實際上，寫作指導老師通常對這樣的細節(jié)持不同意見。除了用法有差異之外，標點符號標記在外觀上也有不同。例如，一些人堅持認為應該用空格將破折號與周圍的字符分隔開來；而其他人則聲稱不應該有這些空格7。即使作者統(tǒng)一了標點符號的外觀，在打印設備方面仍然存在不同。一些設備能夠區(qū)分開引號和閉引號的標記，一些設備可以區(qū)分連字符、短破折號和長破折號。最后，標點符號標記系統(tǒng)模糊不清。例如，句號既可以用來表示縮寫，也可以表示句子邊界。這種模糊性會給文本格式化程序帶來麻煩，程序常常會錯誤地將縮寫看成句子邊界，導致添加了多余的空格。創(chuàng)作輔助工具，如拼寫和語法校正器，必須執(zhí)行大量額外的加工來消除標點符號的歧義，而且必須要選擇最可能的結(jié)果。

作者認識到標點符號標記存在的問題后，開始使用指示標記做代替。例如，本文的源文件包含 & mdash，而不是“---”或者“---”。作者可以專注于內(nèi)容，將文體樣式選擇放到最后的編輯環(huán)節(jié)。同樣地，用標記定義一個邏輯元件時，描述性標記通常被用來代替標點符號標記。例如，短引用不用標點符號標記定界，而是用和標記來定界。這使得文本格式化程序可根據(jù)顯示器和打印設備能力不同，輸出開放和封閉標記或者中立標記。此外，無論作者出于何種需要，應用程序都能迅速地對引號進行定位。

標點符號不僅僅是我們寫作系統(tǒng)的一部分，也是一種文檔標記類型，可能會發(fā)生變化，也可能被其他標記類型所替代。因為標點符號標記系統(tǒng)受制于樣式的差異，取決于可用的打印設備，而且模糊性明顯，所以我們希望看到越來越多的標點符號標記被指示標記和描述性標記取代。另一方面，我們并不是要完全取代標點符號標記。用指示標記來替代標準的標點符號，如逗號，并沒有很大的用處。出版商，甚至是文本格式化程序，可以使用描述性標記來確定一個從句是否應該標記逗號或是分號，但是很少有作者在使用描述性標記來標記短語或從句的語法方面進行過深入的培訓。因此，標點符號標記仍是合理的，沒必要再探討。

表示性標記。除了用標點符號標記低層元素之外，作者還會用各種不同的方式來標記較高層次的實體，讓實體表現(xiàn)得更清楚。表示性標記包括水平和垂直間距、頁碼、分頁符、列表和注釋，以及大量特殊符號和設備。例如，作者通過段前的垂直距離或者水平距離來標記段落的開頭。有時候，作者甚至會對段落進行編號。同樣地，文章章節(jié)往往會以新的頁面開始，也可能會以不同的樣式呈現(xiàn)，甚至可能明確地標有“章”字樣。

盡管作者早已在他們的手稿和打印稿中使用了表示性標記，但是現(xiàn)在大部分作者都傾向于使用文本格式化程序生成那些重復率高的、容易出錯的標記。例如，在大部分打字機系統(tǒng)中，頁碼都是自動生成的?！癓ocal”這個表示性標記，比如說行居中，作者仍在使用，通常是借助編輯命令實現(xiàn)的。在“WordStar”程序中，敲擊一次Ctrl– OC可實現(xiàn)當前行居中。

程序性標記。在許多文本處理系統(tǒng)中，表示性標記被程序性標記所取代。程序性標記由指令組成，指示文本應該如何格式化。例如，人們會像表1中那樣標記一個長引用。這個初始標記指示文本格式化程序工具執(zhí)行大致以下幾項步驟。（1）跳3行，相當于執(zhí)行兩次兩倍行距。（2）左側(cè)縮進10列，右側(cè)縮進30列。（3）更改為單倍行距。（4）另起新頁面，但是如果少于兩行則保持在當前頁面。

顯然，這種標記是針對某個特定的文本格式化程序和樣式表的，它與設備也相關(guān)。例如，對于一個高分辨率打印機，skip命令很可能轉(zhuǎn)變?yōu)?8點的值。程序性標記的突出特點是與批處理文本格式化程序相關(guān)聯(lián)，比如文件謄清程序nroff/troff 和TEX排版系統(tǒng)。但是，類似WordStar的文字處理軟件，用的是點命令（dot commands）來補充其表示性編輯命令。舉例來說，文字處理軟件使用編輯命令（Ctrl OC）來設置行居中，但是包括文件中用戶指定的分頁符標記（.Pa）。

描述性標記。在描述性標記系統(tǒng)中，作者要識別文本標記的元素類型。在表格1中標簽表示下文文本是一個長引用，而標簽表示這個引用的結(jié)束。

習慣于使用程序性標記的作者常常會考慮使用描述性標記，就好像描述性標記就是程序性標記，甚至會使用一些程序上的標簽。二者的主要區(qū)別在于：程序性標記表明一個特定文本格式化程序應該做什么；而描述性標記指明一個文本元素是什么，也就是表明一個文本流隸屬于某一特定類別。當一個文本格式化程序生產(chǎn)一個描述性標記文件的表示性復本時，它首先讀取一組被寫入程序性標記系統(tǒng)的規(guī)則，明確它在每個元素類型出現(xiàn)時應該做什么。然后通過調(diào)整這一組規(guī)則，作者或系統(tǒng)支持人員創(chuàng)建了一個可以自動、持續(xù)執(zhí)行的表示性標記設計。此外，只有當這組規(guī)則需要重新編輯時才能夠調(diào)整這個設計，所以文檔文件能夠保持完整。作者能夠從痛苦的單調(diào)的機械編輯中解放出來，文本也不會出現(xiàn)錯誤。

大多數(shù)軟件系統(tǒng)都會提供用戶用于描述性標記的宏工具，如Troff軟件的-ms 工具，甚至此類系統(tǒng)的有些原始語言也可能是描述性的，如在滑鐵盧腳本（Waterloo SCRIPT）中用.pp“控制字”來描述段落。地理標記語言（Geography Markup Language，GML）[18] 語言為系統(tǒng)使用描述性標記提供了很好的關(guān)于基礎(chǔ)概念的表述。不像特定的宏套件，地理標記語言是一種描述性語言，通常是在區(qū)別明顯的、用戶可訪問的程序語言的基礎(chǔ)上執(zhí)行。除此之外，地理標記語言還在描述性語言中引入了“屬性”的概念，為一些基本功能如交叉引用提供了標記支持（這是由程序自動解決的）。另一個有影響力的系統(tǒng)Scribe，通過從作者對系統(tǒng)的日常訪問中清除程序性標記，促進用戶對描述性標記的使用。作者可以為各類文檔選擇“文件格式定義”，而不是將程序性標記調(diào)整為控制描述性標記。

Scribe系統(tǒng)的做法最近被廣泛效仿，但是充其量只是取得了一定的成功。例如，LATEX軟件向提供低級別排版控制的TEX提供了高級別的接口?？墒羌词乖谧铋_始，LATEX用戶也必須考慮低級別標記。舉例來說，相鄰的指示標記必須被“/”分隔，這是一個“促使TEX插入少量空格的排版命令”[21，pp.13-14]。類似地，許多文字處理軟件（Microsoft Word， XyWrite， Nota Bene）也開始采用Scribe的文檔格式定義。例如，Nota Bene包含了一些編輯命令，如使用樣式塊來定義長引用，并且能夠在樣式表發(fā)生改變時將所有塊重新格式化?？墒牵瑯邮奖硪龑ё髡哧P(guān)注文檔的呈現(xiàn)，而不是定位文檔中的實體角色。因此，塊樣式看上去可能適用于任何一種實體類型。樣式表常常也是可選的，而非標準接口。

引用標記。引用標記指引的實體位于文檔外部，且在程序處理過程中，引用標記會被這些實體所代替。我們已經(jīng)注意到與設備相關(guān)的標點符號會用到引用標記（例如：&mdash表示一個破折號）。引用標記的另一個特點是用于縮寫，例如&acm；表示“Association for Computing Machinery”。引用標記可能會指向被存儲在獨立文件，甚至不同計算機系統(tǒng)中的實體。

大多數(shù)支持程序性標記的文本格式化程序都能通過自定義變量和文件嵌入或包含命令來提供引用功能。然而大多數(shù)情況下，引用標記與描述性標記系統(tǒng)相關(guān)聯(lián)，在標準通用標記語言（SGML）中表現(xiàn)尤為明顯[2]。

元標記。最后，元標記為作者和系統(tǒng)支持人員提供了設備來控制標記的解釋說明，以及擴展描述性標記語言的詞匯庫。程序和描述性系統(tǒng)提供了定義標記定界符的方法。此外，程序系統(tǒng)還包括像定義宏這樣的指令，其通常被用來創(chuàng)建可以表示一系列處理指令的描述性標記。比如，表1中的程序性標記通常被包含在名為quo和quoend的宏中。處理GML的應用程序，如Waterloo SCRIPT，也提供了標記來定義標簽，從而指定有效、默認的屬性，并指出當一個標簽出現(xiàn)時應該執(zhí)行哪些指令。最后，在標準通用標記語言中，元標記以“標記聲明”的形式出現(xiàn)，包含13種形式。

所有重要的系統(tǒng)都支持元標記，但是大部分都沒有為非程序員提供適當?shù)慕涌凇＠獾氖?，Xerox Bravo和Star中的菜單導向群組。例如，InterLeaf允許作者簡單地在對話框中輸入尚且未知的標識符來創(chuàng)建新標簽。其他系統(tǒng)則試圖通過提供完整的引用和描述性詞匯表來消除元標記這種需求，但是這種做法不符合人類的創(chuàng)新精神。

3 標記處理

簡單來說，我們對標記進行選擇、執(zhí)行、存儲和處理。精通特定的系統(tǒng)通常會使區(qū)分不同標記類型的任務變得復雜。作者使用不同的方式執(zhí)行標記，他們可以鍵入標記，好像這些標記本身就是文本。他們也可以從菜單中選擇功能鍵或者選擇按鈕。實際上，標記執(zhí)行的方法僅僅會被程序開發(fā)者在使用輸入、顯示設備時的獨創(chuàng)性所限制。盡管現(xiàn)在的趨勢是將特定類型的執(zhí)行方法和特定類型的標記關(guān)聯(lián)起來，但是這種關(guān)聯(lián)僅僅是歷史性的，并沒有為表征或評估標記類型提供任何基礎(chǔ)依據(jù)。

標記必須被存儲在某處，但是其存儲方式則無相關(guān)限制。另外，沒有什么能夠阻止一個系統(tǒng)導出一種類型的標記，而存儲另一種類型的標記。例如，XyWrite導出表示性標記，但是存儲程序性標記。當一個可以執(zhí)行編輯器命令，但不可編輯標記語言的作者認為文本應該居中時，XyWrite會在文件文本中記錄相應的程序性標記，并在編輯顯示器中將文本居中。類似地，WordStar只是簡單地將文本居中：不管是在屏幕上還是文件中，周圍的空白和文本都沒有區(qū)分開來。因此，在評估這些標記系統(tǒng)時，作者必須仔細查看存儲的內(nèi)容以及顯示的內(nèi)容。

目前標記處理有三種主要類型：（1）閱讀（被人讀）；（2）格式化；（3）開放（包含格式化）。表示性標記專為閱讀設計。程序性標記專為格式化設計，但是通常只能被單一程序使用。描述性標記比較適合閱讀，但主要用于支持開放類程序（例如：信息檢索）。

4 公開，掩飾，隱藏和顯示

在“傳統(tǒng)”文字處理系統(tǒng)中，作者輸入電子標記，然后文檔由不同的應用程序格式化。最近，格式化程序已經(jīng)集成了編輯器功能，為了能夠在編輯界面充分體現(xiàn)標記特征，我們需要一些其他的差別形式。

當出現(xiàn)在源文件中的標記同樣出現(xiàn)在系統(tǒng)中時，標記是公開的，也就是說，標記不會執(zhí)行任何特定的格式化過程。公開的標記通常存在于由不同編輯程序和格式化程序組成的系統(tǒng)中。許多所謂的所見即所得的程序（what you see is what you get，WYSIWYG），并不會為文本編輯做很多的格式化工作，而是直接顯示它們導出或存儲的標記。這類系統(tǒng)通常也會公開他們導出的所有電子標記。WordStar，作為這類系統(tǒng)中一個復雜的例子，公開了“new page”命令.pa，同時也會顯示一行連字符來表現(xiàn)分頁符。

更加復雜的系統(tǒng)通常會處理電子標記，然后將標記掩飾到特定字符后面。例如，XyWrite和Nota Bene顯示一個“delta”，以便作者能夠定位并且編輯標記。這樣的系統(tǒng)通常也能很好地公開標記。其他系統(tǒng)（Xerox Bravo 和Star， MacWrite）則將電子標記完全地隱藏起來。還有系統(tǒng)（Janus[11]）在一臺顯示器上公開顯示描述性標記，在其他顯示器上則隱藏描述性標記。

最后，各類系統(tǒng)近期都已經(jīng)開始顯示電子標記；也就是說，源文件中的格式化標記將和文本一起顯示。例如，執(zhí)行Etude和Interleaf命令，對文本進行格式化編輯，與此同時在編輯窗口左側(cè)的一個頁面空白區(qū)會顯示描述性標記。

因為標記不能很好地與文本進行區(qū)分，所以目前的系統(tǒng)還只是簡單地呈現(xiàn)它。事實上，也沒有其他方法可以行得通。使用四種模式中的任何一種來查看電子標記都是可行的。Datalogics 的 WriterStation支持所有四種模式，并且允許作者控制顯示標記的格式化。

總而言之，目前共有六種文檔標記類型，但是只有三種類型在競爭：表示性標記、程序性標記和描述性標記。表示性標記闡明了一個文檔的表現(xiàn)形式，使其適合閱讀。程序性標記指導文本格式化程序去“執(zhí)行X”，如為了創(chuàng)造表示性標記而跳三行。最后，描述性標記告訴文本格式化程序“這是一個X”，如這是一個長引用。通常來說，文本格式化工具會將源文件中的表示性標記看作是文本，也就是說不進行特殊的處理，但是程序性標記需要根據(jù)系統(tǒng)文檔中指定的規(guī)則進行處理；而描述性標記通常映射在程序性標記上。此外，描述性標記非常適合開放的應用程序處理。

開發(fā)系統(tǒng)應該提供最大的靈活性，并支持查看標記的所有模式。將作者看成打字員的系統(tǒng)近來開始傾向于導出表示性標記，存儲表示性標記和程序性標記；因此，他們將文檔與特定的設備和應用程序綁定。但是，一些集成的編輯器/格式化程序支持描述性標記，而這正如我們將要討論的，在文檔開發(fā)和出版流程上支持的最好。

5 可維護性

正如我們在前面的描述中所指出的，描述性標記消除了標記維護方面的擔憂。一篇學術(shù)文章的發(fā)表可能需要幾個月時間；一本書可能需要幾年時間。在這種情況下，一個不使用描述性標記的作者可能會因為以下原因而去修改文檔文件的標記：（1）作者學習了新的技術(shù)或者發(fā)現(xiàn)目前的技術(shù)造成一些問題；（2）計算環(huán)境發(fā)生了變化；（3）樣式規(guī)則發(fā)生了改變。

比如在《前拉斐爾畫派友誼》這本書的出版過程中，編輯一開始是使用反斜線<＼>來表示強調(diào)。但是，他們的文本編輯器有丟掉反斜線的壞習慣，而且他們早期打印輸出文件的強調(diào)具有隨意性問題。他們通過使用下劃線符號（_）表示強調(diào)，來避免強調(diào)隨意性的問題，但是必須重新編輯所有已經(jīng)輸入的文本。在對這本書進行排版時，他們發(fā)現(xiàn)下劃線在他們的系統(tǒng)中也被用作短破折號（但是僅限于排版時）。結(jié)果，在下劃線指令的范圍內(nèi)，短破折號被看作下劃線；例如文本格式化程序生成198286，而不是1982—1986。因此，編者不得不再一次編輯他們的所有文件，并將下劃線改成井字符號（#），而且希望不要再出現(xiàn)更多的矛盾，希望他們在修改過程中不會再引入錯誤。但是如果他們使用描述性標記來強調(diào)短語，這些維護問題都不會出現(xiàn)。

每當作者或者安裝環(huán)境變化時，類似的問題還是會出現(xiàn)。當文件檢索和編輯系統(tǒng)（FRESS）的用戶在布朗大學了解到FRESS將不再被支持時，作者或花費幾個小時將文件轉(zhuǎn)換到新格式（Waterloo SCRIPT），不然就要接受“丟失”文件數(shù)據(jù)的可能8。即使是文本格式化程序的更新通常也需要在文件中做相應修改。更換新的打印機也可能需要修改。實際上，如果文件里包含程序性標記或者表示性標記，那么幾乎所有計算環(huán)境中的變化都會對這份文件造成威脅。

最后，文檔開發(fā)的過程中格式化規(guī)范很可能會發(fā)生變化。例如，現(xiàn)代語言協(xié)會（MLA）最近公布了新的樣式表。為了理解這種結(jié)果，我們只需要考慮一個變化。先前MLA手冊[24，p.23] 指定區(qū)塊引用是“從上文文本開始，跳三行打字，左側(cè)縮進十個空格，并用雙倍行距（論文是單倍行距）打字，不加引號”。于是，許多手稿包含表1所呈現(xiàn)的程序性標記。新版本的MLA手冊[25，p.49] 指定區(qū)塊引用是“從上文文本開始，新起一行，左側(cè)縮進十個空格，并用雙倍行距打字，不加引號”。這個修正很快就導致大量標記的過時，現(xiàn)在作者必須定位所有的長引用，并刪除 .sk 3 a ，但是，因為這個標記是對格式化程序進行編碼的，而不是元素類型，所以 .sk 3 a的出現(xiàn)不能被看作是一個明確的指令來表明一個元素確實是一個長引用。因此，作者不能利用全局替換工具，而是必須檢查每一個出現(xiàn)的 .sk 3 a標記，并且判斷當前元素是否是一個長引用。這個轉(zhuǎn)換過程是冗長乏味的，并且存在破壞文本的風險。而且，誰也不能保證MLA不會再次改變它的樣式表，這會需要更多的標記維護。

使用表示性標記并不會減少類似的標記維護問題。實際上，更新標記甚至會更加困難。程序性標記有特定的字符串，如 .sk 3 a，這些字符串可能位于一般的編輯設備中。然而，表示性標記可能無法直接定位。比如一些編輯器要求一系列相對高級的命令或者使用規(guī)范的語法表達來定位空行。此外，簡單的編輯設備不能區(qū)分如連續(xù)5個空格（對于段落縮進）和連續(xù)10個空白中包含的連續(xù)5個空格（對于引用的每一行）。因此，準確定位表示性標記通常需要強大的宏語言服務，以及編程能力。

通過使用描述性標記正確標記了的源文件便不再需要修改，也不需要進行標記維護。例如，一個長引用始終是一個長引用，不管表示樣式發(fā)生改變還是處理系統(tǒng)發(fā)生改變。為了修改文本格式化程序?qū)﹂L引用的處理方式，人們只需要編輯程序的“規(guī)則”庫。這種標記維護的定位能節(jié)約大量編輯時間，保護文件、防止其被破壞，并且這讓一個當?shù)貙＜覍σ?guī)則庫的共享副本進行必要升級變得切實可行9。

6 文檔可移植性

“移植”或者發(fā)送文檔給其他學者和出版商的能力一直是學者們關(guān)注的主要問題。當打字機還是行業(yè)主流時，我們以打印稿和影印本的形式來傳輸文檔。由于當時沒有其他的替代方法，人們普遍對這個過程感到滿意。

但是近五年來，越來越多的作者已經(jīng)閑置了打字機，轉(zhuǎn)向了電子文檔開發(fā)?，F(xiàn)在，我們可以從家里發(fā)送文檔，跨越大洲，通向世界各地，并且通常在幾個小時內(nèi)就可以確認接收。我們的同事，在他們的機器上借助我們的源文件，可以使用程序搜索關(guān)鍵字，可以將我們的文稿融入?yún)f(xié)作文檔，無需再進行重新輸入、剪切和粘貼。此外，出版商可以使用我們的文件作為排版源，省去了重新輸入文檔的需要；一旦重新輸入的過程被省去，那么文本被破壞的風險以及校對的需求也將降低10。

然而，目前的文本標記實踐使得這樣的文檔交換很少見。雖然我們擁有電子傳送的技術(shù)，但是我們?nèi)狈ΡＷC每一個接收者能夠處理任何作者的文檔所必需的標記標準。事實上，兼容性問題十分嚴峻，以至于出版商往往會選擇重新輸入文檔，盡管這些文檔已經(jīng)是以電子形式提交的；而且有時候，出版商并不會通知作者，使這些作者對于他們的文本的完整性會保持一種錯誤的安全感。正如一些出版商所指出的，輸入文檔是一項簡單的、易于理解的任務，只需要一批支付最低工資的工人提供服務。然而，文件處理需要具備編程技能的人員提供服務，并要向他們提供合理的報酬，而且文件處理提供的收益并不一定會大于轉(zhuǎn)換到新的處理過程的風險。

描述性標記為文檔不兼容提供了一個即時的解決方案。任何一個具備準確和嚴謹?shù)拿枋鲂詷擞浀奈臋n都可以從一個系統(tǒng)移植到另一個系統(tǒng)。這是因為描述性標記保證了邏輯元件和標記之間的一對一映射。因此，元素標識符可以通過在編輯器中執(zhí)行全局替換而簡單地得到改變。例如，人們可能將一個散文引用的標記從.quo轉(zhuǎn)換成<1q>，從. Quoend轉(zhuǎn)變成。在最壞的情況下，語法差異也可能被簡單的程序解決。

認識到這一點后，出版商代表和有巨額出版費用的組織代表已經(jīng)開始努力建立一個基于描述性標記的行業(yè)標準。美國出版協(xié)會（AAP）在其電子手稿項目[4，p.7]中發(fā)現(xiàn)，描述性標記“是為改進出版流程而設計電子手稿的所有方法中最有效的一個”。美國出版協(xié)會已經(jīng)批準了ANSI-IS0通用標記語言，并開發(fā)了基于ANSI-IS0 通用標記語言的第一個應用。標準通用標記語言，實際上是用于生成描述性標記語言的元語言，有著相當大的靈活性和可定制性。已經(jīng)使用描述性標記的作者能夠?qū)⑺麄兊奈臋n經(jīng)過少量的修改或者根本無需修改就轉(zhuǎn)換成標準通用標記語言文檔。但是，使用表示性標記或者程序性標記的文檔則需要大量的編輯來與新標準接軌。

7 優(yōu) 點

由于人們通常不愿意放棄所學的技術(shù)，所以我們需要知道向描述性標記、并最終向標準通用標記語言的轉(zhuǎn)換能為行業(yè)帶來什么，這一點很重要。下面羅列部分優(yōu)點。

（1）作者共享文件和與同事合作時，將不用憂慮當前文本格式化程序和印刷設備之間的不兼容問題。

（2）出版商不再需要更新文檔密鑰，從而減少一項成本高且易出錯的任務。

（3）在很多情況下，打樣過程可能會從生產(chǎn)周期中淘汰，這可以為出版商節(jié)約許多管理費用，以及減少文檔打印出來的時間。此外，當作者想在排版毛條確定后再做改變時，出版商將無須再和作者進行協(xié)商。于他們而言，作者將減輕負擔，無需校對那些自提交始就是正確的文檔。

（4）后續(xù)的版本、修訂，或是匯編，都可能產(chǎn)生于同一文檔的源文件；密鑰更新將不再必要。

（5）文獻目錄信息或許能從源文件中直接產(chǎn)生。這將有效減少錯誤，以及使引用對聯(lián)機書目數(shù)據(jù)庫的用戶幾乎立即可用。文本從提交到進入文學領(lǐng)域的時間將會大大縮短。

（6）文檔可能直接包括在用于電子出版和全文檢索的聯(lián)機數(shù)據(jù)庫里，這是另一種將文檔快速引入文學領(lǐng)域的方式。

出版商和作者已經(jīng)開始要求出版過程能在這些方面有所改進和提高。隨著學術(shù)出版費用的持續(xù)上漲，成本控制將會變得越來越重要。同時，作者會發(fā)現(xiàn)進行了適當標記的電子原稿比其他電子原稿和打印文件更有市場價值。

參考文獻

[1]Alexander. G.B. Computer aids for authors and editors： A natural extension of word processing and typesetting？ Seybold Rep. Publ. Syst. 13， 10 （Feb. 13. 1984）， 3-21

[2]American National Standards Institute. Information Processing-Text and Office Systems-Standard Generalized Markup Language （SGML）. IS0 8879-1986 （E）， ANSI， New York. 1986. （First edition： Oct. 15.1986）

[3]Association for Computing Machinery. Proceedings of thy ACM SIGPLAN-SIGOA Symposium on Text Manipulation. ACM. New York， 1981

[4] Association of American Publishers. Electronic Manuscript Project： Task 1 Report. Aspen Systems， Rockville. Md.， 1984

[5]Association of American Publishers. Standard for Electronic Manuscript Preparation and Markup. Electronic Manuscript Series. Association of American Publishers. Washington， D.C.， Feb. 1986

[6]Association of American Publishers. Authors Guide to Electronic Manuscript Preparation and Markup. Electronic Manuscript Series. Association of American Publishers. Washington. D.C.， May 1986

[7]BDS. The SGML Newsletter. BDS. Sterling， Va

[8]Beach， R.， and Stone. M. Graphical style-Towards high quality illustrations. In SIGGRAPH 83 Conference Proceedings. ACM， New York. 1983， pp. 127-135

[9]Bush. V. As we may think. Atl. Mon. 176. 1 （July 1945）. 101-108

[10]Carmody， S.， Cross. W.， Nelson， T.H.， Rice， D.， and van Dam， A. A hypertext editing system for the /360. In Pertinent Concepts in Computer Graphics. M. Faiman and J. Nievergelt. Eds. University of Illinois Press， Urbana. Ill.， 1969， pp. 291-330

[11]Chamberlin. D.D.， et al. JANUS： An interactive system for document composition. In Proceedings of the ACM SIGPLAN-SIGOA Symposium on Text Manipulation （Portland， Oreg.， June 9-10）. ACM. New York. 1981， pp. 82-91

[12]Coombs. J.H. Information management system for scholars. Tech. Memo. TM 69-2， Computer Center. Brown Univ.， Providence. R.I.， Dec. 1986

[13]Coombs， J.H.， Scott， A.M.， Landow， G.P.， and Sanders， A.A.， Eds. A Pre-Raphaelite Friendship： The Correspondence of William Holman Hunt and John Lucas Tupper. UMI Research Press， Ann Arbor， Mich.， 1986

[14]Corda， U.， and Facchetti， G. Concept browser： A system for interactive creation of dynamic documentation. In Text Processing and Document Manipulation， J.C. van Vliet， Ed. Cambridge University Press. Cambridge. Mass.， 1986， pp. 233-245

[15]Drucker. P.F. Management： Tasks， Responsibilities， Practices. Harper and Row. New York. 1973

[16]Engelbart， D.C.， and English， W.K. A research center for augmenting human intellect. In Proceedings of the AFIPS Fall Joint Computer Conference （San Francisco， Calif.， Dec. 9-11）. AFIPS Press， Reston. Va.， 1968. pp. 395-410

[17]Engelbart. D.C.， Watson， R.W.， and Norton， J.C. The augmented knowledge workship. In Proceedings of the National Computer Conference （New York， June 4-8）. AFIPS Press， Reston， Va.， 1973，pp. 9-21

[18]Goldfarb. C.F. A generalized approach to document markup. In Proceedings of the ACM SIGPLAN-SIGOA Symposium on Text Manipulation （Portland. Oreg.， June 9-10）. ACM， New York. 1981， pp. 68-73. （Adapted as “Annex A. Introduction to generalized markup” in [2]）

[19]Integration and pagination： Long documents， proposals， books. Seybold Rep. Publ. Syst. 16. 16 （Apr. 27， 1987）， 21-27

[20]Interfaces， media converters and OCR devices. Seybold Rep. Publ. Syst. 15. 18 （June 2， 1986），34-39

[21]Lamport， L. LATEX Users Guide and Reference Manual. Addison-Wesley. Reading， Mass.， 1986

[22]Mamrak， S.A.， Kaelbling. M.I.， Nicholas， C.K.， and Share， M. A software architecture for supporting the exchange of electronic manuscripts. Commun. ACM 30， 5 （May 1987）， 408-414

[23]Meyrowitz， N.， and van Dam， A. Interactive editing systems： Parts I and II. ACM Comput. Surv. 14. 3 （Sept. 1982）， 321-415

[24]Modern Language Association. MLA Handbook. MLA， New York. 1977

[25]Modern Language Association. MLA Handbook. MLA， New York. 1984

[26]Nelson. T.H. Getting it out of our system. In Information Retrieval： A Critical Review. G. Schecter， Ed. Thompson， Washington， D.C.， 1967.pp. 191-210

[27]Nelson. T.H. Comput. Libr. （1974）

[28]Nelson. T.H. Literary Machines， Nelson. Nashville. Term.， 1981

[29]Nievergelt. J.， Coray. G.， Nicoud. J.D.， and Shaw. A.C.， Eds. Document Preparation Systems. North-Holland. Amsterdam. 1982

[30]Reid， B.K. A high-level approach to computer document formatting. In Proceedings of the 7th Annual ACM Symposium on Programming Languages （Las Vegas. Nev.， June）. ACM， New York. 1980 pp. 24-30

[31]Trigg. R.H.， and Weiser. M. TEXTNET： A network-based approach to text handling. ACM Trans. Off. Inf. Syst. 4. 1 （Jan. 1986）. l-23

[32]Van Dam， A.， and Rice. D.E. On-line text editing： A survey. ACM Comput. Surv. 3. 3 （Sept. 1971），93-114

[33]Yankelovich. N.， Meyrowitz. N.， and van Dam. A. Reading and writing the electronic book. Computer 18， 10 （Oct. 1985）， 15-30

——本文注釋及參考文獻標注順序遵英文原文，未作改動。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

標記系統(tǒng)及學術(shù)文本處理的未來（一）