周 旭 竇川川 彭詠梅 劉海舟 王艷萍 吳勇奇 朱衛(wèi)豐
(江西中醫(yī)藥大學(xué) 南昌 330004)
語(yǔ)料庫(kù)(Corpus)是指收集海量自然語(yǔ)言進(jìn)行加工整理、詞性標(biāo)注后轉(zhuǎn)換形成的文本庫(kù)。由于語(yǔ)料庫(kù)中的語(yǔ)料數(shù)據(jù)來(lái)自報(bào)紙、雜志、演講和論文等真實(shí)語(yǔ)言文本,有利于用戶(hù)語(yǔ)言輸出更加靈活、地道,廣泛用于語(yǔ)言教學(xué)、翻譯、寫(xiě)作和語(yǔ)言學(xué)研究等領(lǐng)域。目前COBUILD(Collins Birmingham University International Language Database)和COCA(Corpus of Contemporary American English)等代表性通用英語(yǔ)語(yǔ)料庫(kù)達(dá)到數(shù)億詞規(guī)模,內(nèi)容覆蓋新聞、小說(shuō)、雜志、口語(yǔ)、學(xué)術(shù)等領(lǐng)域[1]。通用英語(yǔ)語(yǔ)料庫(kù)規(guī)模龐大導(dǎo)致所收詞匯全而不精,難以滿(mǎn)足醫(yī)學(xué)等專(zhuān)業(yè)科研領(lǐng)域使用。建立醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)是醫(yī)學(xué)語(yǔ)言學(xué)交叉學(xué)科發(fā)展的必然趨勢(shì)。
循證醫(yī)學(xué)誕生于1990年,其核心理念是“最優(yōu)醫(yī)療決策”需基于“當(dāng)前可得最佳證據(jù),結(jié)合臨床醫(yī)生掌握的技能和環(huán)境并充分考慮患者意愿和價(jià)值觀”[2]。經(jīng)過(guò)近30年的發(fā)展,循證醫(yī)學(xué)在臨床醫(yī)學(xué)、護(hù)理學(xué)、藥學(xué)和公共衛(wèi)生等各醫(yī)學(xué)領(lǐng)域被廣泛傳播和接受,循證臨床實(shí)踐成為臨床醫(yī)生做出最佳醫(yī)療決策的基本要求[3]。循證醫(yī)學(xué)主要研究?jī)?nèi)容是生產(chǎn)證據(jù),其最終載體是臨床科研論文。目前我國(guó)循證醫(yī)學(xué)研究產(chǎn)出證據(jù)質(zhì)量普遍不高[4]。本研究預(yù)調(diào)查隨機(jī)抽取和統(tǒng)計(jì)1 000份2013-2017年我國(guó)科研人員發(fā)表的循證醫(yī)學(xué)SCI論文樣本,結(jié)果顯示影響因子5分以上的論文僅占5.5%。在循證醫(yī)學(xué)論文寫(xiě)作方面英語(yǔ)能力不足是導(dǎo)致我國(guó)作者論文發(fā)表質(zhì)量難以提升的根本原因。寫(xiě)作高質(zhì)量循證醫(yī)學(xué)論文對(duì)非英語(yǔ)母語(yǔ)作者英語(yǔ)能力有較高要求[5]。然而我國(guó)循證醫(yī)學(xué)研究者在專(zhuān)業(yè)學(xué)習(xí)階段僅涉及少量英文術(shù)語(yǔ),不足以在SCI論文寫(xiě)作中熟練運(yùn)用詞匯、句式和邏輯結(jié)構(gòu)等要素表達(dá)論點(diǎn),降低論文可讀性,在較大程度上影響論文科學(xué)性,導(dǎo)致難以在高影響因子期刊發(fā)表。
醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)的開(kāi)發(fā)和應(yīng)用為提高非英語(yǔ)母語(yǔ)作者的寫(xiě)作水平、增強(qiáng)專(zhuān)業(yè)英語(yǔ)表達(dá)能力提供有效解決方案。目前國(guó)內(nèi)外醫(yī)學(xué)專(zhuān)業(yè)語(yǔ)料庫(kù)尚處于發(fā)展初期,建立了部分小型醫(yī)學(xué)專(zhuān)業(yè)語(yǔ)料庫(kù)(如臨床醫(yī)學(xué)和藥學(xué)等),探討了建庫(kù)理論和應(yīng)用方法[6-7]。循證醫(yī)學(xué)是交叉學(xué)科關(guān)系,更多涉及醫(yī)學(xué)科研方法學(xué)(隨機(jī)對(duì)照試驗(yàn)和系統(tǒng)評(píng)價(jià)的實(shí)施方法等)應(yīng)用和研究,對(duì)應(yīng)的語(yǔ)料庫(kù)需突出循證醫(yī)學(xué)特色。目前國(guó)內(nèi)外尚未建立循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)。2017年起筆者所在課題組建成首個(gè)500萬(wàn)詞級(jí)循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù),在建庫(kù)過(guò)程中逐漸完善建庫(kù)理論和方法。
發(fā)展至今循證醫(yī)學(xué)相關(guān)論文在臨床醫(yī)學(xué)SCI期刊占據(jù)重要位置,各類(lèi)循證醫(yī)學(xué)網(wǎng)站和書(shū)籍層出不窮,形成英文語(yǔ)料大數(shù)據(jù)。語(yǔ)料庫(kù)建設(shè)初期需優(yōu)先篩選最具代表性、有利于指導(dǎo)循證醫(yī)學(xué)論文寫(xiě)作的語(yǔ)料。經(jīng)隨機(jī)分層抽樣,本語(yǔ)料庫(kù)確定語(yǔ)料來(lái)源為:一是 2016-2018年5大權(quán)威臨床醫(yī)學(xué)期刊:《新英格蘭醫(yī)學(xué)雜志》(NEnglJMed)、《柳葉刀》(Lancet)、《美國(guó)醫(yī)學(xué)會(huì)雜志》(JAMA)、《英國(guó)醫(yī)學(xué)雜志》(BMJ)和《內(nèi)科學(xué)年鑒》(AnnInternMed)發(fā)表的循證醫(yī)學(xué)論文1 277篇,論文類(lèi)型包括循證醫(yī)學(xué)的3種主要證據(jù)類(lèi)型:系統(tǒng)評(píng)價(jià)、隨機(jī)對(duì)照試驗(yàn)和觀察性研究;二是《如何實(shí)施循證醫(yī)療》(HowtoImplementEvidence-BasedHealthcare)、《循證醫(yī)學(xué):如何實(shí)踐和教育循證醫(yī)學(xué)》(Evidence-BasedMedicine:HowtoPracticeandTeachEBM)和《護(hù)理和醫(yī)療中的循證實(shí)踐:最佳實(shí)踐指南》(Evidence-BasedPracticeinNursing&Healthcare:AGuidetoBestPractice)等10本英文循證醫(yī)學(xué)教材或工具書(shū);三是3大循證醫(yī)學(xué)證據(jù)網(wǎng)站:Cochrane 協(xié)作網(wǎng)、UptoDate和Best Practice的高質(zhì)量證據(jù)正文300篇。語(yǔ)料庫(kù)建成后最終容量共503萬(wàn)詞。
獲取語(yǔ)料原始文檔后需經(jīng)軟件自動(dòng)轉(zhuǎn)換或掃描錄入為docx文檔,會(huì)存在大量單詞拼寫(xiě)、符號(hào)和格式錯(cuò)誤或不統(tǒng)一情況,需進(jìn)行降噪才能實(shí)現(xiàn)后續(xù)標(biāo)注和檢索功能,確保語(yǔ)料正確性和可用性。降噪處理包括:(1)表格。提取標(biāo)題、長(zhǎng)文本和表注作為文本語(yǔ)料;表中短文本和數(shù)據(jù)棄用。(2)圖片。提取標(biāo)題和圖注作為文本語(yǔ)料;圖片內(nèi)容經(jīng)截圖或轉(zhuǎn)換文件格式保存。(3)格式。調(diào)整空格、手動(dòng)換行符、回車(chē)符等錯(cuò)誤,修正全半角字符、字母大小寫(xiě)、標(biāo)點(diǎn)不統(tǒng)一等問(wèn)題。(4)文本清理。刪除作者單位、參考文獻(xiàn)和各類(lèi)附加信息聲明等無(wú)用內(nèi)容。
要實(shí)現(xiàn)精確檢索和匹配,必須對(duì)所有語(yǔ)料進(jìn)行詞性標(biāo)注。本研究主要使用TreeTagger軟件進(jìn)行詞性表注,其標(biāo)注精確度達(dá)到95%以上。TreeTagger軟件標(biāo)注結(jié)果可被在線(xiàn)語(yǔ)料分析網(wǎng)站Sketch Engine等直接識(shí)別,有利于語(yǔ)料庫(kù)推廣使用。使用TreeTagger靈活應(yīng)用命令行進(jìn)行批處理可大幅提高效率。批處理命令為:
> set PATH=C:/TreeTagger/bin;%PATH%
> cd C:/TreeTagger
> for /f %%a IN ('dir /b D:/Corpus/0/*.txt') do tag-english D:/Corpus/0/%%a > D:/ Corpus/1/%%a.tag
將上述命令寫(xiě)入文本文檔中,另存為L(zhǎng)oop.bat。命令實(shí)際含義為:將所有生語(yǔ)料“.txt”存放于“D:/Corpus/0/”文件夾,運(yùn)行l(wèi)oop.bat文件即可批量將文件夾內(nèi)生語(yǔ)料通過(guò)tag-english標(biāo)注集轉(zhuǎn)換為熟語(yǔ)料,以相同名稱(chēng)重命名為“.tag”文檔,存放于“D:/Corpus/1/”文件夾。為減少遺漏或錯(cuò)誤本次建庫(kù)還使用了CLAWS4、BFSU Stanford POS Tagger 1.1.2和UAM CorpusTool 3.3等軟件輔助標(biāo)注,人工核對(duì)標(biāo)注后結(jié)果,確保語(yǔ)料庫(kù)檢索和匹配等功能的精確使用。
語(yǔ)料庫(kù)用戶(hù)終端開(kāi)發(fā)了檢索、統(tǒng)計(jì)和匹配3項(xiàng)功能,主要使用場(chǎng)景為論文寫(xiě)作及輔助醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)寫(xiě)作教學(xué)、教材編寫(xiě)、翻譯和語(yǔ)法研究。(1)檢索。語(yǔ)料庫(kù)開(kāi)發(fā)了單詞和詞組檢索兩個(gè)功能模塊,主要基于AntConc軟件和Wordsmith軟件實(shí)現(xiàn)。檢索結(jié)果中提供詞塊、句子、段落和語(yǔ)篇展示,以及pdf原文和圖片文件夾鏈接。(2)統(tǒng)計(jì)。輸入關(guān)鍵詞后統(tǒng)計(jì)詞頻總數(shù)及分類(lèi)統(tǒng)計(jì),包括按期刊論文、書(shū)籍和網(wǎng)站來(lái)源分類(lèi);按臨床醫(yī)學(xué)的二級(jí)學(xué)科分類(lèi);按標(biāo)題、摘要、背景、方法、結(jié)果和討論等語(yǔ)篇段落分類(lèi)。(3)匹配。指定關(guān)鍵詞前后名詞、動(dòng)詞、形容詞、副詞和介詞等詞性匹配是實(shí)現(xiàn)論文寫(xiě)作表達(dá)準(zhǔn)確、地道和多樣化的重要功能,可用AntConc或Wordsmith軟件實(shí)現(xiàn),也可將語(yǔ)料庫(kù)上傳至Sketch Engine網(wǎng)站中實(shí)現(xiàn)匹配檢索功能[8]。
本研究主要出發(fā)點(diǎn)是提高我國(guó)循證醫(yī)學(xué)科研從業(yè)者英文論文發(fā)表質(zhì)量,提升我國(guó)循證醫(yī)學(xué)證據(jù)生產(chǎn)質(zhì)量和加強(qiáng)本土證據(jù)的國(guó)際傳播。專(zhuān)業(yè)語(yǔ)料庫(kù)的發(fā)展及相關(guān)建庫(kù)軟件的成熟為解決這項(xiàng)難題開(kāi)辟新方向。通過(guò)開(kāi)發(fā)循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù),從循證醫(yī)學(xué)期刊、書(shū)籍和網(wǎng)站中采集權(quán)威、真實(shí)的語(yǔ)料,使用計(jì)算機(jī)軟件對(duì)語(yǔ)料進(jìn)行清理、分類(lèi)、統(tǒng)計(jì)和標(biāo)注,使語(yǔ)料庫(kù)實(shí)現(xiàn)檢索、鏈接和對(duì)比等多功能應(yīng)用,為循證醫(yī)學(xué)論文寫(xiě)作、翻譯、教學(xué)和語(yǔ)法研究等應(yīng)用場(chǎng)景提供可信語(yǔ)料資源和高效工具。循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)為論文寫(xiě)作涉及的專(zhuān)業(yè)表達(dá)提供權(quán)威語(yǔ)料作為依據(jù),大幅縮短積累積極語(yǔ)料時(shí)間,有助于提高SCI論文寫(xiě)作水平。
4.2.1 分層隨機(jī)抽樣 目的是讓語(yǔ)料充分覆蓋各類(lèi)寫(xiě)作場(chǎng)景。若使用單純隨機(jī)抽樣則可能出現(xiàn)語(yǔ)料分配不均、某些臨床學(xué)科或研究類(lèi)型等語(yǔ)料覆蓋率低或缺乏語(yǔ)料的情況。分層數(shù)量可按實(shí)際需求和語(yǔ)料庫(kù)規(guī)模確定,以每個(gè)有實(shí)質(zhì)異質(zhì)性的小類(lèi)包含10萬(wàn)詞以上語(yǔ)料為佳。如本研究考慮到循證醫(yī)學(xué)實(shí)際內(nèi)容包含臨床醫(yī)學(xué)所有專(zhuān)業(yè),第1級(jí)按疾病大類(lèi)分層,含心腦血管、呼吸、消化、神經(jīng)、內(nèi)分泌和代謝、血液、泌尿生殖、惡性腫瘤和其他系統(tǒng)疾病等9個(gè)類(lèi)別;第2級(jí)分層按循證醫(yī)學(xué)常見(jiàn)的研究設(shè)計(jì)類(lèi)型分層分為3個(gè)類(lèi)型:系統(tǒng)評(píng)價(jià)、隨機(jī)對(duì)照試驗(yàn)、觀察性研究;在此基礎(chǔ)上增加1類(lèi)不屬于特定臨床專(zhuān)科的“方法學(xué)研究”,共28個(gè)小類(lèi),平均每個(gè)細(xì)類(lèi)語(yǔ)料含量約為18萬(wàn)詞。
4.2.2 時(shí)效性 醫(yī)學(xué)專(zhuān)業(yè)知識(shí)更新速度較快,語(yǔ)料來(lái)源應(yīng)盡量接近現(xiàn)時(shí)間點(diǎn),本研究語(yǔ)料選取自近3年發(fā)表或出版的循證醫(yī)學(xué)論文、書(shū)籍或在線(xiàn)證據(jù)總結(jié),可較好地代表當(dāng)前循證醫(yī)學(xué)發(fā)展水平,計(jì)劃此后每年更新100萬(wàn)詞。
4.2.3 權(quán)威性 選取影響因子較高、影響力較大的期刊論文,若需選取書(shū)籍或在線(xiàn)資料作為語(yǔ)料以及較權(quán)威、傳播范圍較廣的書(shū)籍或網(wǎng)站,可有效保證語(yǔ)料庫(kù)質(zhì)量。
語(yǔ)料采集繁瑣且單調(diào),單純以人工“復(fù)制-粘貼”的采集方法效率低且易出錯(cuò),應(yīng)選擇合適的自動(dòng)轉(zhuǎn)換和提取工具軟件輔助。絕大部分原始文檔為pdf格式需轉(zhuǎn)換為docx格式才能進(jìn)一步處理。使用傳統(tǒng)轉(zhuǎn)換軟件等存在錯(cuò)詞、缺少空格和排版混亂問(wèn)題,后期人工校對(duì)成本較高??蛇x用光學(xué)字符識(shí)別軟件ABBYY FineReader 12,其內(nèi)置詞典具備自動(dòng)糾錯(cuò)功能,英語(yǔ)文本識(shí)別準(zhǔn)確率較高,基本實(shí)現(xiàn)“所見(jiàn)即所得”,可降低后期人工校對(duì)工作量。轉(zhuǎn)換后的docx文檔需做進(jìn)一步清理,例如刪除作者和單位信息(可保留第一作者姓名作為檢索識(shí)別標(biāo)記)、參考文獻(xiàn)、基金信息、利益沖突聲明、版權(quán)信息和表格內(nèi)短文本等,以保證檢索精確性和效率。此外較短的圖、表標(biāo)題和注解等作為語(yǔ)料的參考價(jià)值有限也可視情況刪除。所有語(yǔ)料最終轉(zhuǎn)換為txt文檔才能被標(biāo)注軟件識(shí)別,使用Word宏命令或批量轉(zhuǎn)換工具即可實(shí)現(xiàn)。
4.4.1 單詞拼寫(xiě)錯(cuò)誤 由于語(yǔ)料庫(kù)體量龐大,對(duì)單詞、符號(hào)和格式等錯(cuò)誤的糾正需有批處理思維以節(jié)省人工成本。例如單詞拼寫(xiě)錯(cuò)誤:來(lái)源于NEnglJMed等期刊語(yǔ)料的pdf字體設(shè)置不利于軟件識(shí)別,識(shí)別結(jié)果常出現(xiàn)兩個(gè)單詞之間缺少空格情況,某些單詞如“Randomized”中的“i”常未被識(shí)別或誤識(shí)別為“l(fā)”??芍苯邮褂煤昝钆刻幚?,核心命令為:
> myFile = Dir(myPath & "〔.docx") #設(shè)置文檔路徑
> txt = InputBox("被替換文本:") #設(shè)置被替換文本
> Re_txt = InputBox("替換為:") #設(shè)置替換文本
> Loop #循環(huán)
Word宏批處理的局限性是只能一次替換一組文本,若需一次批量修正多組錯(cuò)詞則需反復(fù)操作,效率不高??墒褂脤?zhuān)用軟件(如“Word文檔批量處理大師”等)同時(shí)替換多組錯(cuò)詞。
4.4.2 特殊符號(hào)批量替換 應(yīng)善用正則表達(dá)式構(gòu)成批量替換的通配語(yǔ)法。例如軟件轉(zhuǎn)換后小標(biāo)題和正文后會(huì)產(chǎn)生手動(dòng)換行符,若直接替換為空格則會(huì)使標(biāo)題和正文文本變?yōu)橥恍?。此時(shí)可先將所有小標(biāo)題前后手動(dòng)換行符替換成段落標(biāo)記,再將正文中手動(dòng)換行符替換為空格。最后替換所有手動(dòng)換行符為空格,即可獲得符合要求的語(yǔ)料文本。具體操作步驟為:Word中打開(kāi)替換對(duì)話(huà)框,勾選“使用通配符”,采用正則表達(dá)式將“^l(??????>)^l”替換為“^13/1^13”。上述正則表達(dá)式中“^l”表示查找手動(dòng)換行符、“(??????>)”表示查找7個(gè)字符長(zhǎng)度內(nèi)容、“^13”表示替換為段落標(biāo)記、“/1”表示替換后文本維持相應(yīng)查找內(nèi)容不變。由于大部分小標(biāo)題字符長(zhǎng)度較短,將“?”的數(shù)量定義為5~30個(gè)字符即可批量替換掉95%以上小標(biāo)題前后的手動(dòng)換行符,剩余少量較長(zhǎng)標(biāo)題再進(jìn)行人工處理。
循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)構(gòu)建本質(zhì)上是從權(quán)威專(zhuān)業(yè)期刊、書(shū)籍和網(wǎng)站中收集海量真實(shí)語(yǔ)句,用高質(zhì)量真實(shí)語(yǔ)言樣本描述循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)寫(xiě)作時(shí)所需的語(yǔ)言結(jié)構(gòu)和要素,經(jīng)計(jì)算機(jī)軟件標(biāo)注轉(zhuǎn)換,形成一個(gè)多功能檢索、詞性匹配、圖文并茂的數(shù)據(jù)庫(kù),目的是服務(wù)于循證醫(yī)學(xué)論文寫(xiě)作。目前國(guó)內(nèi)醫(yī)學(xué)本科和研究生培養(yǎng)階段缺乏雙語(yǔ)、論文寫(xiě)作教材和SCI論文寫(xiě)作課程,影響從業(yè)后的循證醫(yī)學(xué)SCI論文寫(xiě)作,研究者只能通過(guò)閱讀文獻(xiàn)獲取零散語(yǔ)料[9]。這些語(yǔ)料絕大部分難以轉(zhuǎn)化為在論文寫(xiě)作過(guò)程中靈活運(yùn)用的積極語(yǔ)料。公共語(yǔ)料庫(kù)雖然體量龐大,但用戶(hù)無(wú)法判斷從中獲取的語(yǔ)料是否適合循證醫(yī)學(xué)SCI論文寫(xiě)作,因此開(kāi)發(fā)循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)十分必要。
國(guó)內(nèi)外醫(yī)學(xué)專(zhuān)業(yè)語(yǔ)料庫(kù)尚處于起步和發(fā)展階段,已有語(yǔ)料庫(kù)數(shù)量少、規(guī)模小、發(fā)展松散[10]。對(duì)于臨床醫(yī)學(xué)而言,專(zhuān)業(yè)之間聯(lián)系緊密、交叉多,針對(duì)每一個(gè)疾病系統(tǒng)專(zhuān)門(mén)建庫(kù)局限性較大。醫(yī)學(xué)科研論文可分為臨床研究和基礎(chǔ)實(shí)驗(yàn)2大類(lèi),循證醫(yī)學(xué)是指導(dǎo)創(chuàng)造證據(jù)和利用已有證據(jù)指導(dǎo)臨床實(shí)踐的學(xué)科,研究范疇包含了所有臨床專(zhuān)業(yè)[11]。因此循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)應(yīng)將范圍設(shè)為所有臨床研究,不涉及基礎(chǔ)實(shí)驗(yàn)。該范圍選擇可保證循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)的覆蓋面既專(zhuān)又廣,能較好地解決SCI論文寫(xiě)作時(shí)所遇多學(xué)科交叉問(wèn)題。
5.3.1 循證醫(yī)學(xué)SCI論文寫(xiě)作教學(xué) 目前國(guó)內(nèi)高校缺少循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)寫(xiě)作教學(xué)課程,主要原因是專(zhuān)業(yè)師資力量薄弱[12]。具備頂尖英語(yǔ)水平的循證醫(yī)學(xué)專(zhuān)業(yè)教師數(shù)量較少且大多以講授循證醫(yī)學(xué)或臨床醫(yī)學(xué)專(zhuān)業(yè)課程為主,難以顧及SCI論文寫(xiě)作教學(xué)。而英語(yǔ)專(zhuān)業(yè)教師如講授循證醫(yī)學(xué)SCI論文寫(xiě)作則缺乏科研實(shí)踐經(jīng)驗(yàn),應(yīng)用語(yǔ)料庫(kù)可較好解決上述問(wèn)題。教師檢索語(yǔ)料庫(kù)篩選能理解、易教授的真實(shí)語(yǔ)料,包括術(shù)語(yǔ)、語(yǔ)法、語(yǔ)篇結(jié)構(gòu)等元素,用于編寫(xiě)教案、講稿和課件,可大幅提高備課效率和教學(xué)深度。
5.3.2 寫(xiě)作教材編寫(xiě) 循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)寫(xiě)作教材需包含大量實(shí)例,而語(yǔ)料庫(kù)中的權(quán)威真實(shí)語(yǔ)料可作為實(shí)例來(lái)源。
5.3.3 語(yǔ)法研究 學(xué)生或研究者撰寫(xiě)循證醫(yī)學(xué)SCI論文面臨的最大困難是寫(xiě)作語(yǔ)法生疏。寫(xiě)作中所遇語(yǔ)法問(wèn)題往往需要結(jié)合專(zhuān)業(yè)語(yǔ)境靈活判斷,一般語(yǔ)法教材缺乏相關(guān)內(nèi)容,例如動(dòng)作抽象名稱(chēng)的冠詞使用和主謂一致問(wèn)題;特定循證醫(yī)學(xué)術(shù)語(yǔ)的介詞慣用搭配問(wèn)題;不同語(yǔ)篇和語(yǔ)境下的時(shí)態(tài)和語(yǔ)態(tài)問(wèn)題等。基于循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)中的海量權(quán)威語(yǔ)料開(kāi)展語(yǔ)法研究有助于闡明和總結(jié)該類(lèi)語(yǔ)法現(xiàn)象和規(guī)律。
5.3.4 輔助中英互譯 隨著循證醫(yī)學(xué)在全國(guó)范圍深入普及,目前已有大量權(quán)威循證醫(yī)學(xué)英文論文、書(shū)籍和網(wǎng)站資料翻譯為中文,將譯文和原文用ABBYY aligner等句對(duì)齊軟件處理后可用于繼續(xù)建設(shè)循證醫(yī)學(xué)中英雙語(yǔ)平行語(yǔ)料庫(kù)。配合Trados、MemoQ等計(jì)算機(jī)輔助翻譯軟件,雙語(yǔ)平行語(yǔ)料庫(kù)可成為大型循證醫(yī)學(xué)中英互譯記憶庫(kù),提高翻譯準(zhǔn)確性和效率。
在實(shí)踐過(guò)程中提出一套完整的循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)建庫(kù)理論和實(shí)踐模式,最終建成500萬(wàn)詞級(jí)語(yǔ)料庫(kù),可輔助科研從業(yè)者提升循證醫(yī)學(xué)論文寫(xiě)作能力、突破語(yǔ)言瓶頸,對(duì)循證醫(yī)學(xué)論文寫(xiě)作教學(xué)、翻譯、教材編寫(xiě)和語(yǔ)法研究具有應(yīng)用價(jià)值。語(yǔ)料庫(kù)建設(shè)和應(yīng)用有助于提高臨床研究證據(jù)質(zhì)量,促進(jìn)我國(guó)本土循證醫(yī)學(xué)證據(jù)的國(guó)際轉(zhuǎn)化和國(guó)際影響力提升,助推循證醫(yī)學(xué)服務(wù)大眾健康。同時(shí)本次循證醫(yī)學(xué)專(zhuān)業(yè)英語(yǔ)語(yǔ)料庫(kù)建設(shè)的設(shè)計(jì)、過(guò)程和結(jié)果可為醫(yī)學(xué)乃至其他專(zhuān)業(yè)領(lǐng)域語(yǔ)料庫(kù)的開(kāi)發(fā)提供理論基礎(chǔ)和經(jīng)驗(yàn)參考。