王雅戈,葉繼元,黃建年,唐 強(qiáng),桑 夢(mèng),楊 斐
索引編制主要包括索引標(biāo)引和索引排序兩個(gè)方面。索引標(biāo)引主要通過人的智力勞動(dòng)完成,需要人工辨別并選取索引標(biāo)目。索引排序主要是機(jī)械重復(fù)工作,最好借助自動(dòng)化工具完成,這樣既能提高速度,還能保證準(zhǔn)確性。索引排序主要有標(biāo)目排序與合并兩個(gè)步驟。標(biāo)目排序,就是把不同的索引款目按照一定的順序依次排列。20世紀(jì)20年代到60年代四角號(hào)碼排序法比較流行,后來多用筆劃排序,現(xiàn)在則以拼音排序?yàn)橹鳌?biāo)目合并,就是把相同標(biāo)目去重,并把其后的頁(yè)碼按照從小到大的順序依次連接起來,頁(yè)碼之間用標(biāo)點(diǎn)符號(hào)或空格分隔,形成一條條索引款目。索引排序方式取決于讀者的閱讀和檢索習(xí)慣,按照?qǐng)D式理論,讀者閱讀和自身已有體系相一致的知識(shí)時(shí),即使不專門學(xué)習(xí)新的知識(shí)和技能,閱讀效率也會(huì)比較高[1]。目前漢語(yǔ)拼音普及化程度高,因此,索引排序以拼音音序法最容易為當(dāng)代讀者所接受。
(1)辦公軟件。常用辦公軟件MICROSOFT OFFICE和WPS OFFICE都有漢字排序功能。OFFICE的WORD和EXCEL都能對(duì)漢字按行排序,既可以按漢語(yǔ)拼音音序排序,也可以按漢字筆畫排序,排序操作簡(jiǎn)便,能直接在編輯窗口利用排序按鈕進(jìn)行操作,一次性完成排序。辦公軟件排序最大的局限是不能自動(dòng)合并相同標(biāo)目。
(2)索引軟件。CINDEXER、Macrex、SKYTM等國(guó)外索引軟件無(wú)法用于中文索引排序[2]。通用性最強(qiáng)的中文索引軟件“索引之星”[2]標(biāo)引效果良好,且具有一定的索引排序功能,但只能對(duì)索引標(biāo)目按拼音或筆畫排序,沒有對(duì)相同標(biāo)目進(jìn)行合并及頁(yè)碼接續(xù)的功能。
(3)排序軟件。許多學(xué)者進(jìn)行過中文索引排序軟件的研究開發(fā)[3-11]。這一類開發(fā)數(shù)量不少,但大多是臨時(shí)程序,通用性不強(qiáng),有的甚至只能在本機(jī)上使用,沒有開源并發(fā)布,隨著索引編制工作結(jié)束,排序程序就被丟棄,無(wú)法推廣應(yīng)用,至今沒有成功開發(fā)出一個(gè)可供獨(dú)立運(yùn)行的索引排序軟件。
(1)思路。索引排序軟件開發(fā)主要考慮:標(biāo)目合并、頁(yè)碼序接兩個(gè)功能;軟件的完整性、獨(dú)立性和通用性;用戶界面友好,操作簡(jiǎn)便。
(2)架構(gòu)。索引排序軟件平臺(tái)使用B/S架構(gòu),前臺(tái)采用面向?qū)ο箝_發(fā)工具Java或.net,服務(wù)器端采用關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)MySQL、應(yīng)用服務(wù)器Tomcat。用戶只需通過瀏覽器訪問服務(wù)器網(wǎng)站,即可進(jìn)行編制索引操作。在B/S架構(gòu)下,平臺(tái)的維護(hù)成本集中在服務(wù)器上,客戶端只是瀏覽器,不需要做任何的維護(hù)。Tomcat和MySQL都是免費(fèi)的,且對(duì)于中小型用戶來說足夠穩(wěn)定可靠。
(3)字庫(kù)。包括字庫(kù)容量和字符順序,不用考慮字體、字號(hào)。字庫(kù)容量和字符編碼標(biāo)準(zhǔn)密切相關(guān),不同的編碼標(biāo)準(zhǔn)容納的字符數(shù)不同。通行的漢字編碼標(biāo)準(zhǔn)主要有:GB2312-1980收錄漢字0.6萬(wàn)多個(gè);Big-5收錄漢字1.3萬(wàn)多個(gè);GBK收錄漢字2.1萬(wàn)多個(gè);GB18030-2000收錄漢字2.7萬(wàn)多個(gè);GB18030-2005收錄漢字7萬(wàn)多個(gè);ISO/IEC10646/Unicode字符集收錄漢字大約8萬(wàn)個(gè);《通用規(guī)范漢字屬性字典》課題組已收錄漢字10萬(wàn)個(gè)左右[12],基本包括在現(xiàn)有文獻(xiàn)中所能見到的所有漢字字符。在如此多的字符集標(biāo)準(zhǔn)中,選擇匹配的標(biāo)準(zhǔn)很關(guān)鍵。索引排序分為簡(jiǎn)體字排序和繁體字排序,兩種情況需要分開進(jìn)行排序。按照“索引排序?qū)ο笮枨笤瓌t”,先確定所需排序的索引要用到多少漢字,再選用相應(yīng)字庫(kù)容量的字符標(biāo)準(zhǔn)。字符集越大,數(shù)據(jù)庫(kù)相應(yīng)增大,排序耗時(shí)越長(zhǎng),服務(wù)器需更快的處理速度,網(wǎng)絡(luò)傳輸需更大的帶寬,維護(hù)成本隨之相應(yīng)增大。如果簡(jiǎn)體字用大字庫(kù),成本增高;如果繁體字用小字庫(kù),則無(wú)法排序。例如,地方志書單字多,人名、地名、職官名、物產(chǎn)名等專有名稱,經(jīng)常有異體字、避諱字等生僻字。以《上海府縣舊志》為例,原文為繁體字,索引也是繁體字,索引排序需要調(diào)用繁體字排序軟件。樣例如下[13]:
鷄縮腿 54
糯稻 54
羊鬚糯 54
紅蓮稻 54
深水紅 54
香沙糯 54
師姑粳 54
籠下歡 54
下馬看 54
十月青 54
(4)索引排序預(yù)處理。索引排序軟件處理的文檔一般為TXT格式。當(dāng)預(yù)先編制的索引標(biāo)引稿,無(wú)論是WPS WORD、MICROSOFT WORD格式,還是EXCEL、TXT格式,甚至數(shù)據(jù)庫(kù)格式,都要進(jìn)行轉(zhuǎn)換。如果是簡(jiǎn)體字排序,需要轉(zhuǎn)換為ANSI編碼的TXT文檔;繁體字排序則需要轉(zhuǎn)換為UTF-8編碼的TXT文檔。需要注意的是,文本格式轉(zhuǎn)換時(shí)要保持索引標(biāo)引稿的版面不變。例如,標(biāo)目和頁(yè)碼之間的區(qū)分符號(hào)(如采用半角分號(hào)“;”)等應(yīng)前后統(tǒng)一。仍以《上海府縣舊志》索引為例,樣例如下[13]:
早糯;54
大麥;54
小麥;54
耦麥;54
蕎麥;54
黃豆;54
頁(yè)碼和標(biāo)點(diǎn)符號(hào)的優(yōu)先順序(漢字?jǐn)?shù)字、阿拉伯?dāng)?shù)字、羅馬數(shù)字,以及逗號(hào)、引號(hào)、句號(hào))需要固定。二級(jí)標(biāo)目、三級(jí)標(biāo)目和一級(jí)標(biāo)目的自動(dòng)區(qū)分規(guī)則都應(yīng)當(dāng)前后一致(如以行開頭每2字符空格為下一級(jí),依此類推)。
(5)索引排序糾錯(cuò)。在索引標(biāo)引實(shí)踐中,無(wú)論是手工標(biāo)引,還是利用軟件自動(dòng)標(biāo)引,經(jīng)常會(huì)發(fā)生標(biāo)引錯(cuò)誤,如有些標(biāo)目和頁(yè)碼之間的間隔符號(hào)缺失或標(biāo)錯(cuò)、頁(yè)碼缺失或誤標(biāo)。當(dāng)標(biāo)引稿中有這些類似的格式錯(cuò)誤時(shí),排序軟件會(huì)報(bào)錯(cuò),不能識(shí)別標(biāo)引稿,無(wú)法完成排序。這時(shí)就需要人工校正標(biāo)引稿中的格式錯(cuò)誤,當(dāng)索引標(biāo)引稿篇幅比較長(zhǎng)時(shí),靠人工發(fā)現(xiàn)錯(cuò)誤的難度大、費(fèi)時(shí)長(zhǎng),校對(duì)效率低,往往還會(huì)遺留錯(cuò)誤。開發(fā)糾錯(cuò)軟件可以為人工校對(duì)提供輔助,先把標(biāo)引稿搜索一遍,發(fā)現(xiàn)格式錯(cuò)誤,顯示錯(cuò)誤所在行的行號(hào)及整行內(nèi)容。排序人員可以根據(jù)提示快速準(zhǔn)確找到錯(cuò)誤所在位置予以修改,再進(jìn)行排序,就能得到正確的排序結(jié)果。
(6)運(yùn)行。索引排序軟件已經(jīng)發(fā)布,使用非??旖莘奖?。以往的方式索引排序所需時(shí)間與標(biāo)引時(shí)間基本相當(dāng),通常需要一到兩天。在索引家平臺(tái)上利用排序軟件,只需幾秒鐘即可完成一部索引的排序任務(wù)。
索引排序軟件可以是一個(gè)集成型軟件,也可以是多個(gè)單一型軟件,兩種開發(fā)方案各有利弊。集成型索引排序軟件可以把所有功能集成于一體,用戶操作時(shí)按照需要,點(diǎn)擊開關(guān)鍵選擇功能進(jìn)行操作就能實(shí)現(xiàn)。但這會(huì)增加索引排序軟件的維護(hù)負(fù)擔(dān),有時(shí)一個(gè)不常用的功能鍵發(fā)生問題就可能導(dǎo)致整個(gè)軟件無(wú)法使用。如果把它們制作成功能單一型的多個(gè)軟件,則可以分別維護(hù)、分別使用,互不影響?!八饕摇毖邪l(fā)團(tuán)隊(duì)選擇后一種開發(fā)方案,開發(fā)了一系列的多種索引排序軟件,包括拼音排序軟件、筆畫排序軟件、四角號(hào)碼排序軟件、排序糾錯(cuò)軟件等,排序功能基本完善[14],使用效果良好。這些排序軟件作為索引家平臺(tái)的重要組成部分,與索引標(biāo)引軟件共同承擔(dān)著中文索引建設(shè)的責(zé)任。