彭曉曉
摘?要:本文利用AntConc語(yǔ)料庫(kù)工具,從文本和詞匯角度研究了TA語(yǔ)料庫(kù),TA語(yǔ)料庫(kù)由505篇石油科技外文期刊摘要構(gòu)成,含130?000詞。研究發(fā)現(xiàn),TA中被動(dòng)語(yǔ)態(tài)的使用頻率比AmE06_130語(yǔ)料庫(kù)高出19.35%;對(duì)于人稱代詞,“it”和“we”的頻率最高;oil的詞頻是petroleum的13倍。
關(guān)鍵詞:翻譯;語(yǔ)料庫(kù)研究;摘要語(yǔ)料庫(kù);石油文本;AntConc
中圖分類號(hào):F74?????文獻(xiàn)標(biāo)識(shí)碼:A??????doi:10.19311/j.cnki.16723198.2024.04.022
1?數(shù)據(jù)收集及工具選擇
1.1?數(shù)據(jù)收集
本研究從《AAPG?Bulletin》《Bulletin?of?Canadian?Petroleum?Geology》《Journal?of?Petroleum?Science?and?Engineering》《Petroleum?Exploration?and?Development》和《Petroleum?Science》5個(gè)期刊中,選取了2022–2023年出版的505篇摘要,建立了一個(gè)130?000詞的摘要語(yǔ)料庫(kù)TA。相比以往研究,本研究的樣本數(shù)量擴(kuò)大了一個(gè)數(shù)量級(jí)。從AmE06語(yǔ)料庫(kù)中,按分類等比例提取了約130?000詞內(nèi)容,建立了參照語(yǔ)料庫(kù)AmE06_130,用于提取TA中的關(guān)鍵詞單。
1.2?工具選擇
AntConc是一款語(yǔ)料庫(kù)分析工具,支持Raw?files導(dǎo)入,或?qū)⒍鄠€(gè)Raw?files打包成(.DB)文件,方便切換語(yǔ)料庫(kù)。
2?文本特征分析
2.1?被動(dòng)語(yǔ)態(tài)分析
正則表達(dá)式可以檢索被動(dòng)語(yǔ)態(tài)結(jié)構(gòu),檢索前需對(duì)目標(biāo)語(yǔ)料庫(kù)進(jìn)行詞性標(biāo)注處理。本研究利用TagAnt軟件完成了對(duì)語(yǔ)料庫(kù)的詞性標(biāo)注。顯示信息設(shè)置為word+pos_tag,其余按照默認(rèn)選項(xiàng)運(yùn)行。標(biāo)注完成后,經(jīng)測(cè)試下列表達(dá)式能夠檢索被動(dòng)語(yǔ)態(tài)結(jié)構(gòu):
(be|am|is|are|was|were)_VBw*s+w+_VBN
上述表達(dá)式會(huì)匹配這一結(jié)構(gòu):be動(dòng)詞后面緊跟著一個(gè)過(guò)去分詞形式的動(dòng)詞。結(jié)果如表1所示:
綜上所述,TA語(yǔ)料庫(kù)的被動(dòng)語(yǔ)態(tài)使用頻次高出AmE06_130語(yǔ)料庫(kù)達(dá)19.35%。與以往研究結(jié)果相吻合,被動(dòng)語(yǔ)態(tài)的使用頻率雖然高,但并未高過(guò)主動(dòng)語(yǔ)態(tài)。
2.2?人稱代詞分析
英語(yǔ)中的人稱代詞共12種詞型,作者利用通配符檢索所有詞型,并核實(shí)結(jié)果對(duì)應(yīng)的上下文判斷是否正確,再對(duì)錯(cuò)誤結(jié)果進(jìn)行修正。最終確定5種人稱代詞,結(jié)果如下:
數(shù)據(jù)顯示,“it”和“we”的使用頻率最高,其余人稱代詞均為復(fù)數(shù)形式,且僅有第一人稱和第三人稱形式。目標(biāo)語(yǔ)料庫(kù)中沒(méi)有出現(xiàn)第一人稱單數(shù)形式(I和me),且沒(méi)有出現(xiàn)第二人稱的任何一種形式(you)。
2.3?N元模式分析
N-Gram工具可以生成目標(biāo)文件中的N元列單。隨著Size逐漸增大,結(jié)果數(shù)量會(huì)逐漸減少。研究發(fā)現(xiàn),數(shù)值設(shè)定為2-5時(shí),檢測(cè)出的結(jié)果最具有代表性。我們截取了前100條結(jié)果,并將其中內(nèi)容分為兩個(gè)大類:
(1)石油科技文本表達(dá);
(2)摘要文本表達(dá)。
在N-Gram?Size設(shè)定為3的情況下,“oil?and?gas”的頻次最高。摘要文本表達(dá)相關(guān)的結(jié)果可歸為數(shù)個(gè)類別:表示“發(fā)現(xiàn)”、指代“本文”等。“石油科技”相關(guān)結(jié)果單獨(dú)歸為一類。
2.4?詞云圖分析
詞云圖能夠可視化詞單數(shù)據(jù),通過(guò)字體大小和顏色深淺來(lái)體現(xiàn)詞重要性。生成詞云圖的數(shù)據(jù)樣本取自關(guān)鍵詞單。作者利用停用詞單(Stopword)對(duì)結(jié)果進(jìn)行清洗(去除and,?of等虛詞)。處理完原始數(shù)據(jù)后,本文作者在詞云圖工具中,設(shè)置圖片尺寸寬900高450,最大詞數(shù)為300,輸出值為Keyness?(Likelihood)。
在生成的詞云圖中,顏色越深代表關(guān)鍵性越大,越淺則相反;字體大小同理。從圖中容易看出,“oil”的顏色深、字體大,而?“petroleum”則小許多,顏色也更淺,兩者在圖中的位置用箭頭進(jìn)行了標(biāo)示。
綜上所述,本節(jié)從被動(dòng)語(yǔ)態(tài)、人稱代詞、N元模式和詞云圖等4個(gè)方面分析了目標(biāo)語(yǔ)料庫(kù)的文本特征。主要進(jìn)行了無(wú)檢索詞檢索,從側(cè)面觀察目標(biāo)語(yǔ)料庫(kù)的文本特征。
3?Oil和Petroleum的檢索及結(jié)果的對(duì)比分析
3.1?詞頻分析
這部分研究選取的樣本是TA語(yǔ)料庫(kù),參照語(yǔ)料庫(kù)為AmE06語(yǔ)料庫(kù)。本文作者在Word和Keyword功能中檢索oil和petroleum,發(fā)現(xiàn)前者的詞頻是后者的約13倍,關(guān)鍵性是后者的約15倍。
3.2?詞叢分析
詞叢分析運(yùn)用Cluster工具對(duì)語(yǔ)料庫(kù)進(jìn)行分析,Cluster?Size為2。為了抓取盡量多的數(shù)據(jù),檢索oil時(shí),最小頻次和文檔范圍都設(shè)置為3,檢索petroleum時(shí),最小頻次和文檔范設(shè)置為2。分別勾選On?Left(檢索詞位于左端)和On?Right(檢索詞位于右端),進(jìn)行兩次檢索并匯總,最后人工清洗檢索結(jié)果,去除噪音數(shù)據(jù)。清洗后數(shù)據(jù)顯示,在目標(biāo)語(yǔ)料庫(kù)中petroleum的結(jié)果全部位于左端,而oil的結(jié)果左右都有。
Petroleum的檢索結(jié)果:
綜上所述,這部分研究從詞頻、詞叢和Plot分析三個(gè)方面研究了oil和petroleum的區(qū)別。結(jié)合詞頻和Plot分析,我們發(fā)現(xiàn)目標(biāo)語(yǔ)料庫(kù)中oil的使用頻率和關(guān)鍵性遠(yuǎn)高于petroleum,且前者的Dispersion最大值以及前十?dāng)?shù)據(jù)平均值也都高于后者,最后統(tǒng)計(jì)了檢索詞的位置頻數(shù)。
4?結(jié)語(yǔ)
本研究選取了505篇石油科技外文期刊摘要,建立了目標(biāo)語(yǔ)料庫(kù),利用AntConc對(duì)目標(biāo)語(yǔ)料庫(kù)進(jìn)行了檢索分析。一方面,本研究采用無(wú)檢索詞檢索,研究分析了目標(biāo)語(yǔ)料庫(kù)的文本特征;另一方面,選取了oil和petroleum兩詞進(jìn)行詞匯層面對(duì)比研究。但是,本研究中目標(biāo)語(yǔ)料庫(kù)構(gòu)成是一元的,oil和petroleum的詞頻對(duì)比數(shù)據(jù)需要在更大的語(yǔ)料庫(kù)且成分更多元的語(yǔ)料庫(kù)中進(jìn)行驗(yàn)證,希望為后續(xù)研究提供借鑒和參考。
參考文獻(xiàn)
[1]Anthony,?L.?(2022).?AntConc?(Version?4.2.0)?[Computer?Software].Tokyo,?Japan:?Waseda?University.Available?from?https://www.laurenceanthony.net/software.
[2]Qayyum?N,?Syed?S?F.?Gender?Representation?in?A?Thousand?Splendid?Suns:?A?Corpus-Based?Stylistic?Analysis[J].Journal?of?Excellence?in?Social?Sciences,2023,2(1):2036.
[3]陳柯,楊醫(yī)碩.基于AntConc3.2.4軟件的石油英語(yǔ)詞匯的檢索和分析[J].信息與電腦(理論版),2022,34(15):1014.
[4]崔艷秋.《出版人周刊》視域下的中國(guó)當(dāng)代文學(xué)——基于AntConc語(yǔ)料分析[J].當(dāng)代作家評(píng)論,2020,(04):189195.
[5]孫毅,王龍本.英文旅游新聞蓄意隱喻的理解與漢譯研究[J].外語(yǔ)教學(xué)理論與實(shí)踐,2020,(02):7280.
[6]王春艷.免費(fèi)綠色軟件AntConc在外語(yǔ)教學(xué)和研究中的應(yīng)用[J].外語(yǔ)電化教學(xué),2009,(01):4548+78.
[7]王霞,姜孟.基于Antconc對(duì)近十年殘聯(lián)聽(tīng)力障礙相關(guān)政策文件的特征分析[J].北京聯(lián)合大學(xué)學(xué)報(bào),2020,34(02):7683.
[8]于強(qiáng)福.基于語(yǔ)料庫(kù)的工科碩士學(xué)位論文英文摘要語(yǔ)類使用問(wèn)題及其對(duì)策探析[J].華北理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2022,22(03):121128+154.