日本關(guān)西學院大學 于 康
制作語料庫時需要將用「秀丸」保存的文件轉(zhuǎn)換為語料庫軟件能夠識別的專用格式,否則將無法對語料進行檢索。這道手續(xù)是打開語料庫大門的鑰匙,不能忽視。轉(zhuǎn)換文件格式使用的軟件為「えだまめ」。
上一講在介紹如何保存文件時,建議使用「秀丸」來保存文件。因為用「秀丸」保存的文件都會自動保存為文本格式(.txt)。之所以要求文件必須以文本的格式保存是因為轉(zhuǎn)換文件格式的軟件「えだまめ」只認可文本、XHTML和XML這三種格式。對讀者來說,與后兩者的格式相比,文本格式易懂且容易操作。換句話說,即使不用「秀丸」,只要將文件保存為文本格式,按理說也是可以用「えだまめ」來轉(zhuǎn)換文件格式的。
由于檢索軟件「ひまわり」只認可「えだまめ」格式的文件,所以,保存在文檔里的文件是不能直接裝進「ひまわり」中使用的,必須經(jīng)過文件格式的轉(zhuǎn)換手續(xù)。這道手續(xù)無法在「秀丸」中進行,只能通過「ひまわり」專用的文件格式轉(zhuǎn)換軟件「えだまめ」來轉(zhuǎn)換。
轉(zhuǎn)換文件的格式需要經(jīng)過如下程序:
① 在“我的文檔”中建立文件夾,起名為「日本語書き言葉コーパス(或根據(jù)讀者自己的需要命名)」。
② 把從網(wǎng)上下載下來的資料和用其他方式獲得的資料用「秀丸」形式來保存,并將保存的文件存放至文件夾「現(xiàn)代日本語書き言葉コーパス」中。
③ 啟動「えだまめ」,轉(zhuǎn)換文件的格式。
①啟動「えだまめ」。
②點擊「參照」,選擇需要轉(zhuǎn)換的文件夾(示范例的文件夾取名為「日本語書き言葉コーパス」),請注意,這里只能選擇文件夾而不能選擇具體的個別文件。
③文件夾選擇完畢后,「元データがあるフォルダ」中出現(xiàn)所選的文件夾名,然后在「変換対象ファイル」中點擊「テキスト」前的方框,方框中出現(xiàn)?。確認「青空文庫形式」前的方框已經(jīng)打勾?。
④指定轉(zhuǎn)換后文件的保存處。「コーパスデータの出力先」下方的「フォルダ」會自動出現(xiàn)C:Users~Desktop(~表示電腦名),表示轉(zhuǎn)換后的文件保存處為Desktop。為了便于操作,建議將轉(zhuǎn)換后的文件保存在Desktop上。點擊「変換する」,轉(zhuǎn)換文件格式。出現(xiàn)「データが出力された」,表示轉(zhuǎn)換成功,點擊×處關(guān)閉軟件。
⑤Desktop會出現(xiàn)兩個文件,一個是Corpora,一個是「config日本語書き言葉コーパス(或讀者自己命名的語料庫名)」。至此,文件格式轉(zhuǎn)換的程序全部結(jié)束。
轉(zhuǎn)換文件格式是檢索軟件「ひまわり」是否能夠進行正常操作的一個非常重要的手續(xù),這個手續(xù)特別是在制作多種語料庫時往往容易被忽略掉。如果圖省事,直接把文件夾或保存的文件拖進「ひまわり」中,文件名可以在檢索軟件中出現(xiàn),但無法檢索。因此,①用「秀丸」保存文件?②用「えだまめ」轉(zhuǎn)換文件的格式?③用檢索軟件「ひまわり」來讀取轉(zhuǎn)換后的文件是保證成功制作語料庫缺一不可的程序。