国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

PowerGrep在語料標注中的應用

2013-07-24 18:45:14王朝暉
赤峰學院學報·自然科學版 2013年22期
關鍵詞:賦碼批量語料

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

PowerGrep在語料標注中的應用

余 軍,王朝暉

(廈門理工學院 外國語學院,福建 廈門 361024)

語料庫標注是語料庫構建的一個重要環(huán)節(jié),除詞性標注外的各類標注一般都較難實現(xiàn)批量操作或自動化.本文介紹了文本處理軟件PowerGrep的查找、替換等主要功能及其功能賴以實現(xiàn)的正則表達式,并以自建的電子商務翻譯語料庫的標注處理為例,說明如何利用PowerGrep在替換標注賦碼、添加標注以及校對標注等方面實現(xiàn)批量操作.

PowerGrep;正則表達式;語料標注;語料加工

1 引言

除生語料庫之外,語料庫的構建一般都需要對語料進行標注,包括常見的文本頭標注和詞性標注,以及錯誤標注、句法標注、語義標注、語用標注等其他各類標注,還包括語料庫構建者根據(jù)研究需要制定的標注類型,如筆者所構建的多模態(tài)雙語學習者語料庫中的技巧標注和評價標注[1].對語料庫進行標注可以為語料庫帶來增值(added value)[2].語料標注有人工、半自動化及自動化等三種方式,視乎標注類型而定.詞性標注一般都是使用軟件自動生成,而其他類型的標注一般都較難實現(xiàn)自動化[3].標注的流程包括文本預處理,自動標注或者人工標注,以及標注校對,在這三個步驟中,運用功能強大的文本處理軟件PowerGrep,可極大地提高語料標注的效率,但目前此類探討較少.本文以筆者自建的電子商務翻譯語料庫為例,介紹如何運用PowerGrep對語料進行標注加工和處理,以期廣大語料庫語言學研究者了解這一語料加工利器的使用,加深對語言庫語言學研究工具的發(fā)掘利用.

2 PowerGrep與正則表達式

PowerGREP是一款基于正則表達式的文本檢索和處理軟件,可在不同的文件夾內,對不同的文件進行批量的文本搜索、替換,支持txt、htm l、xls、xm l、doc、pdf等多種文件格式,可以完成復雜的文本和二進制替換操作,是應用正則表達式在文本文件中搜索替換的強大工具.正則表達式(Regular Expression)是用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串,起源于科學家對人類神經(jīng)系統(tǒng)工作原理的早期研究.計算機發(fā)展以后,美國數(shù)學家Stephen Kleene把它引進到計算機領域[4].正則表達式由普通字符和元字符(metacharacters)組成.普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,例如“d”(不含引號,后同)可以匹配任意一個數(shù)字字符.有關元字符的詳細描述,可參考《PowerGREP與語料庫加工》一文[3].

PowerGrep的主要功能包括查找(search)、查找和替換(search and replace)、數(shù)據(jù)采集(collect)等.其主界面如圖1所示:

圖1

PowerGrep的操作,一般分為以下幾個步驟∶

(1)在左側的文件瀏覽界面中選擇需要處理的文件.用鼠標左鍵選中單個或者多個文件后,點擊軟件左上角的“√”即可,文件選中后,會在文件名左側出現(xiàn)綠色的“√”;也可以用鼠標選中單個或者多個文件夾,之后點擊軟件左上角的“√√”,即可選中所選文件夾內的全部文件;

(2)在右側的Action type中選擇“Search”(查找)或“Search and replace”(查找并替換)等操作模式;

(3)以查找并替換模式為例,選擇該模式后,在Search框輸入需檢索的字符串,在替換框輸入需替換的字符串,點擊軟件上方的“Replace”,即可實現(xiàn)替換操作.

3 PowerGrep在語料標注中的應用

由于其強大的文本搜索及替換功能,PowerGrep可以高效地實現(xiàn)對標注的各種加工目的,節(jié)省大量人力.下面以筆者構建的電子商務翻譯語料庫為例,介紹PowerGrep在批量替換標注賦碼、批量添加標注以及批量校對標注等方面的應用.

3.1 批量替換標注賦碼

筆者構建的電子商務翻譯語料庫,對英文文本和中文文本分別使用CLAWS4和中科院ICTCLAS 2008軟件進行了詞性標注.CLAWS4的賦碼標記是“_”,而ICTCLAS則是“/”.為了便于檢索起見,有必要統(tǒng)一為一種賦碼標記.雖然一般的辦公軟件如記事本、Word等都能通過查找替換操作實現(xiàn)這一目的,但由于不支持批量操作,會耗費大量的人力.用PowerGrep處理起來則極其簡單、快捷,步驟如下:

(1)在使用CLAWS及ICTCLAS進行詞性標注之前,在PowerGrep中選擇全部文本,Action type選擇“Search and replace”,在Search欄輸入“/”,在Replacement欄輸入“##”,點擊“Replace”,將“/”替換為“##”.這一操作的目的是將文本中可能存在的與詞性賦碼標記相同的“/”先替換為其他符號,以免在詞性標注之后被混為詞性賦碼標記而替換掉.

(2)使用CLAWS和ICTCLAS對全部文本進行詞性標注;

(3)在PowerGrep中選擇詞性標注后的全部文本,參照步驟1的方法將“/”批量替換為“_”;

(4)再將“##”批量替換還原為“/”.

3.2 批量添加標注

電子商務翻譯語料庫除詞性標注外,還對部分語料做了錯誤標注,賦碼標記為<>.例如,“Precautions 常見問題處理<Term>”,Precautions在產(chǎn)品說明書中是一個常見術語,意思是“注意事項”,譯為“常見問題處理”是錯誤的,筆者用<Term>這一標注碼對這一術語翻譯錯誤做出標注.國內對語料進行錯誤標注的語料庫不多,其中較為著名的是CLEC,其言語失誤標注碼多達61種,每個標注碼包含3個字符,如fm1指Spelling錯誤[5].標注者需要較為熟悉標注系統(tǒng),判斷錯誤類型后手工輸入對應的標注碼,設計為3個標注碼可以減輕手工輸入的負擔.但錯誤標注碼即便是3個字符,在數(shù)量較大的情況下,手工輸入的工作量仍然非常大,對此筆者深有體會,由此產(chǎn)生了利用PowerGrep批量添加標注的嘗試.操作方式如下:

(1)復制<>符號,在需要輸入標注碼的地方,按ctrl+v,即可將<>粘貼至該處.這一方法比手工依次輸入<>或者在某些文本處理軟件中通過鼠標點擊預制好的字符集都要高效省力;

(2)在<>中輸入標注碼對應的數(shù)字及字母,標注者需要較為熟悉這些標注碼及其對應的數(shù)字及字母,例如,1代表“Spelling”,2代表“Term”.這樣只需輸入1個字符即可完成標注.

(3)標注全部完成之后,利用PowerGrep將數(shù)字或者字母代表的標注碼還原為完整的標注碼.例如,在PowerGrep中選中全部文件,在Search欄輸入“(<)(1)(>)”,在Replacement欄輸入“1Spelling3”,點擊“Replace”,即可完成全部Spelling錯誤的標注碼還原.

“Spelling”和“Term”這種標注碼相比3個字符的標注碼而言,雖然較長,卻更為直觀,在省卻了長串字符輸入的情況下,值得推廣.

3.3 批量校對標注

上述人工輸入的標注可能存在錯誤.例如,有時會遺漏數(shù)字或者字母的輸入,導致只有<>賦碼標記,在PowerGrep中搜索“<>”即可查出此類錯誤.另一種可能是輸入了非數(shù)字或者非字母的字符,如“#”,可在PowerGrep中搜索“<[^0-9a-zA-Z]>”,即可查出此類問題.

PowerGrep的文本檢索功能非常強大,可通過正則表達式查找各種存在問題的標注,達到批量檢查校對的目的.

4 結語

數(shù)十年來語料庫語言學的迅猛發(fā)展得益于一大批高質量語料庫的構建,如BNC,ICE和ICLE等,目前語料庫的構建已愈來愈專門化,語料庫構建的技術門檻阻礙了一些有志于語料庫研究的人士加入語料庫構建的行列,而利用各種正則表達式,PowerGrep在語料加工方面可以實現(xiàn)各種批量操作,其在語料庫構建及檢索中有著廣闊的應用前景和發(fā)展?jié)摿?對PowerGrep這類功能強大的文本處理軟件的應用探索,有利于更多的語料庫研究者掌握相關技術,共同促進語料庫建設的繁榮發(fā)展.

〔1〕余軍.CAT平臺下多模態(tài)學習者雙語語料庫構建[J].廈門理工學院學報,2012(03).

〔2〕Leech,G.Introducing corpus annotation [A].In R. Garside,G.Leech&A.M cEnery(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora[C].London:Longman,1997.

〔3〕嚴華,王立非.PowerGREP與語料庫加工[J].外語電化教學,2010(03).

〔4〕薛學彥,李文中.PowerGREP與語料庫信息檢索[A].衛(wèi)乃興,李文中,濮建忠.語料庫應用研究[C].上海:上海外語教育出版社,2005.

〔5〕桂詩春.中國學習者英語言語失誤分析[A].楊慧中,桂詩春,楊達復.基于CLEC語料庫的中國學習者英語分析[C].上海:上海外語教育出版社,2005.

H31

A

1673-260X(2013)11-0249-02

福建省社會科學規(guī)劃項目資助(2010B153)

猜你喜歡
賦碼批量語料
基于實物“ID”的變電站整站賦碼管控系統(tǒng)及方法研究
吉林電力(2022年2期)2022-11-10 09:24:38
批量提交在配置分發(fā)中的應用
科學家(2021年24期)2021-04-25 12:55:27
基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
淺議高校網(wǎng)銀批量代發(fā)
煙包二維碼賦碼離線還是凹印在線?
《苗防備覽》中的湘西語料
中短單,我們選擇小盒賦碼
國內外語用學實證研究比較:語料類型與收集方法
基于AUTOIT3和VBA的POWERPOINT操作題自動批量批改
上蔡县| 霍山县| 屏边| 定州市| 福贡县| 项城市| 云和县| 昔阳县| 海原县| 德惠市| 老河口市| 太谷县| 灵川县| 清徐县| 广东省| 体育| 思南县| 隆德县| 盐城市| 依兰县| 阿拉善右旗| 兴宁市| 嘉祥县| 青州市| 开封县| 清徐县| 岳普湖县| 凉城县| 景谷| 连江县| 公主岭市| 祁连县| 广州市| 阿瓦提县| 上虞市| 得荣县| 永泰县| 峨眉山市| 阜新| 大姚县| 日土县|