楊石喬
蘭卡斯特大學(xué)(語言、話語與社會)語料庫語言學(xué)2019暑期學(xué)校綜述*
楊石喬
(深圳職業(yè)技術(shù)學(xué)院商務(wù)外語學(xué)院,廣東深圳 518055)
本文主要介紹蘭卡斯特大學(xué)(語言、話語與社會)語料庫語言學(xué)2019暑期學(xué)校的重要內(nèi)容,包括基于語料庫的話語分析及其常見問題與原則,語料庫統(tǒng)計學(xué),語料庫方法在法律語言學(xué)、健康交際、莎士比亞研究中的應(yīng)用,以及基于#LancsBox工具建構(gòu)自己的語料庫或使用已有語料庫的實踐操作。暑期學(xué)期的宗旨是逐步從語料庫語言學(xué)研究轉(zhuǎn)向基于語料庫方法的社會科學(xué)各領(lǐng)域的研究,其前瞻性對我們的研究不無啟發(fā)。
語料庫話語分析;#LancsBox;語料庫社會科學(xué)研究
筆者受國家留學(xué)基金委資助,于2018年8月至2019年8月前往英國倫敦大學(xué)學(xué)院(University College London)訪學(xué)一年。訪學(xué)期間,筆者有幸參加了在語料庫語言學(xué)研究重鎮(zhèn)蘭卡斯特大學(xué)(Lancaster University)舉行的語料庫語言學(xué)暑期學(xué)校(2019年6月24日至6月27日)。暑期學(xué)校受到英國ESRC(英國經(jīng)社研究委員會)資助,對參加者免費,其主要目標(biāo)是培養(yǎng)參加者使用語料庫技術(shù)和軟件的實踐技能,以及將其應(yīng)用于不同的語言領(lǐng)域乃至整個社會科學(xué)研究。
整個暑期學(xué)校分為三個小組(班)同時進(jìn)行:語言、話語與社會分析語料庫語言學(xué)(Corpus linguistics for analysis of language, discourse and society),語言學(xué)習(xí)、教學(xué)與測試語料庫語言學(xué)(Corpus linguistics for language learning, teaching and testing),語料庫語言學(xué)統(tǒng)計與數(shù)據(jù)可視化(Statistics and data visualisation for corpus linguistics)。課程形式采用講座與計算機(jī)上機(jī)操作相結(jié)合的方式。筆者所在的小組是語言、話語與社會分析語料庫語言學(xué)小組,以下的介紹基于該小組的活動。第一部分介紹講座內(nèi)容,第二部分介紹上機(jī)實踐操作即語料庫統(tǒng)計分析及數(shù)據(jù)可視化工具#LancsBox的使用①暑期學(xué)校主講嘉賓Prof Paul Baker, Dr Vaclav Brezina, Dr Gavin Brookes, Dr Luke Collins, Prof Jonathan Culpeper, Dr Claire Hardaker, Dr Andrew Hardie, Prof Tony McEnery and Prof Elena Semino的講座內(nèi)容或下發(fā)資料成為本文寫作的重要參考,此外還有#LancsBox 4.5網(wǎng)站上的視頻講解特別是使用指南對本文都有重要幫助,在此一并致謝。。
Tony McEnery教授主講基于語料庫的話語分析,將話語定義為“大于句子或小句的語言”[1]1,指出批評話語分析將話語視為社會實踐,對語言或文本中的意識形態(tài)和權(quán)力關(guān)系感興趣。語料庫方法背后的理據(jù)是,大容量意味著模式具有代表性,程序公正,關(guān)注不可預(yù)見模式。列舉的研究問題有,某種群體、身份、概念在語料中如何呈現(xiàn),周邊有什么話語?兩種群體或兩種語料之間是否存在差異與相似之處?這些話語是如何為之服務(wù)的?
語料庫研究的兩種方法:語料庫驅(qū)動的研究方法——例如使用頻率列表或關(guān)鍵詞列表來“驅(qū)動”分析的重點;基于語料庫的研究方法——將檢索用于驗證假設(shè);或者兩者相結(jié)合的方法。
語料庫語言學(xué)研究模型可以分為描述(Description)、理解(Interpretation)、解釋(Explanation)、評價(Evaluation)。
·描述:語料庫里出現(xiàn)的語言模式;
·理解:怎樣理解這些模式對話語的作用;
·解釋:為什么會出現(xiàn)這些模式或話語?將之與歷史、社會或語境聯(lián)系起來;
·評價:誰將(不)受益于這些模式或話語?應(yīng)該改變什么或怎樣改變,分析者的評價。
Tony McEnery教授以搭配詞(Collocates)和關(guān)鍵詞(Keyness)為例,對語料庫研究進(jìn)行列舉。詞語以其特有的搭配方式出現(xiàn),這些搭配包含了詞語的聯(lián)想和內(nèi)涵,因此也包含了詞語所包含的假設(shè)[2]172。如果搭配和固定短語在媒體討論和其他場合被反復(fù)用作未分析的單元,那么人們就很有可能會用這樣的術(shù)語來思考問題[2]195。一個詞語在一個語料庫里出現(xiàn)的頻率高于在另一語料庫里出現(xiàn)的頻率,這個詞語就是關(guān)鍵詞。關(guān)鍵詞是分析的指路標(biāo),提供語料分析的切入點。我們可以檢查索引及其搭配,以理解其重要性。
Tony McEnery教授的第二個講座是基于語料庫方法研究社會歷史,實例探討了用語料庫研究過去邊緣詞的意義,探索17世紀(jì)英格蘭的邊緣群體。
Paul Baker教授基于語料庫的話語分析講座側(cè)重于語料庫話語分析中常見的方法問題、結(jié)果闡釋問題以及一些有用的原則。
Paul Baker教授指出,語料庫話語分析方法可能因人而異。5名分析者曾獨立分析關(guān)于外國醫(yī)生的相同新聞?wù)Z料[3],每個人使用的分析方法都不同(例如有人研究“foreign doctor”的搭配,有人研究關(guān)鍵詞)。大部分人還有25%的研究結(jié)果沒有發(fā)現(xiàn)(如外國醫(yī)生建構(gòu)為語言能力不太好、不太能勝任、需要更好地監(jiān)管)。只有1名分析者發(fā)現(xiàn)了2/3的模式,出現(xiàn)了兩種“多產(chǎn)”策略——花費很長時間在一種技術(shù)上,如閱讀每一條檢索項,或使用很多不同的技術(shù)。
語料庫話語分析在闡釋結(jié)果或報告時容易出現(xiàn)解釋不足或過度解釋兩種極端問題,分析結(jié)果報告時需要對模糊性進(jìn)行界定。Baker(2013)認(rèn)為最佳報告是使用精確數(shù)字和比率,給出樣本大小,如“981例女孩中有280名(占28.5%)表達(dá)負(fù)面情緒”;中等報告使用大多數(shù)、大約幾乎一半、少數(shù),如“僅四分之一多一點的女孩表達(dá)負(fù)面情緒”;糟糕報道使用一些、幾個、許多、相當(dāng)多等,如“一些女孩表達(dá)負(fù)面情緒”[4]。
Paul Baker教授提出語料庫語言學(xué)研究的三個有用原則,透明原則:盡可能全面描述數(shù)據(jù)/方法,盡可能使其可用。一致原則:嘗試在方法中應(yīng)用一致的決策。反思原則:你為什么要做這個研究,你之前和它的關(guān)系是什么,又是如何變化的?讓別人看你的數(shù)據(jù),考慮三角測量(triangulation)。
Vaclav Brezina博士講座的題目是“語料庫分析統(tǒng)計學(xué)概論”,他介紹了什么是統(tǒng)計學(xué)?語料庫語言學(xué)與統(tǒng)計學(xué)的關(guān)系、基本統(tǒng)計學(xué)術(shù)語、語料庫的構(gòu)建與研究設(shè)計、語料研究與可視化等。作為#LancxBox項目的負(fù)責(zé)人,Vaclav Brezina博士(2018)著有《語料庫語言學(xué)中的統(tǒng)計學(xué)實用指南》一書[5]。
C. Hardaker博士講座內(nèi)容是語料庫方法在法律語言學(xué)中的應(yīng)用,介紹了法律語言學(xué)的概念,包括法律語言學(xué)研究領(lǐng)域、法律語言學(xué)分析類型,并就如何將語料庫語言學(xué)方法應(yīng)用到法律語言學(xué)進(jìn)行了案例分析。
Elena Semino教授作了“語料庫語言學(xué)與健康交際:以慢性疼痛為例”的報告,主要內(nèi)容有疼痛與交際、語料庫語言學(xué)與慢性疼痛的診斷(語料庫方法與疼痛的診斷問卷、語料庫方法與疼痛專家咨詢中的視覺圖像),并介紹了CASS(corpus approaches to social science即語料庫方法的社會科學(xué)研究中心)的健康研究主題,基于語料庫語言學(xué)方法的:
·患者對NHS(National Health Service)服務(wù)的在線反饋研究
·癌癥和臨終隱喻研究
·英國媒體對肥胖的報道研究
·英語口語中的精神疾病標(biāo)識研究
·英國媒體中“社會關(guān)懷”報道研究
·媒體與在線論壇中的焦慮感知研究
·衛(wèi)生專業(yè)人員英語語言測試研究
J. Culpeper教授作了“用語料庫技術(shù)探索莎士比亞及其同時代人的語言”以及“用語料庫方法揭示莎士比亞語言的神話”兩個報告,使用語料庫研究方法,探究莎士比亞使用的語言在詞、短語、語義主題等層面的特征。作為大型語料庫語言學(xué)研究項目《莎士比亞語言百科全書》的負(fù)責(zé)人,J. Culpeper在暑期學(xué)校結(jié)束的第二天,即6月28日,為此項目舉行了一個大型的研討和成果發(fā)布會,通過對莎士比亞及其同時代人所寫的數(shù)百萬字的分析,揭示了莎士比亞的語言對伊麗莎白時代的意義。
A. Hardie是蘭卡斯特大學(xué)語言學(xué)系與計算機(jī)系共同組成的語料庫研究中心主任,同時也是蘭卡斯特大學(xué)語料庫檢索服務(wù)器的維護(hù)者,Hardie的講座題目是“語料庫工具與技術(shù)”。還有講座如“建立自己的語料庫”(G. Brookes)、“基于GraphColl的搭配網(wǎng)絡(luò)與話語分析”和“語料庫語言學(xué)與在線交際”(L. Collins)、“語義標(biāo)注與關(guān)鍵域”(P. Rayson),實踐性非常強(qiáng),很多都是基于#LancsBox且在計算機(jī)實驗室講座與實踐操作同時進(jìn)行。因此,我們把講座內(nèi)容融合在以下對#LancsBox的介紹當(dāng)中。
#LancsBox是蘭卡斯特大學(xué)語料庫工具箱(Lancaster University corpus toolbox)的簡稱,由Vaclav Brezina博士于2015年領(lǐng)銜軟件設(shè)計人員開發(fā)的用于分析語言數(shù)據(jù)和語料庫的新一代軟件包,是免費的非商業(yè)軟件。該工具箱可以使用現(xiàn)有的語料庫或自己的數(shù)據(jù),可對語言數(shù)據(jù)進(jìn)行可視化,可用于語言學(xué)、語言教學(xué)、歷史學(xué)、社會學(xué)、教育學(xué)以及其他社會科學(xué)領(lǐng)域的研究。目前#LancsBox的版本已經(jīng)是4.5版[6],更新日期為2019年6月1日,其著作版權(quán)引用參見文后參考文獻(xiàn)[7]和[8]。
我們在2019年7月5日檢索CNKI期刊網(wǎng)“全文”含有“LancsBox”的文獻(xiàn),僅查詢到四篇文獻(xiàn)使用過該工具,其中兩篇為期刊論文,兩篇為碩士學(xué)位論文,且都發(fā)表于2018-2019。可見國內(nèi)對該語料庫軟件的了解和使用還處于起步階段,我們對其功能進(jìn)行簡要介紹,以期能為我們將來的語料庫語言學(xué)研究乃至其他社會科學(xué)研究服務(wù)。
在http://corpora.lancs.ac.uk/lancsbox/主頁下載#LancsBox,注意選擇合適的操作系統(tǒng)(Windows,Mac,Linux等)的版本。安裝#LancsBox軟件時,注意解壓縮后文件的位置在電腦硬盤不能太深,否則軟件將無法識別路徑,導(dǎo)致無法運行。安裝好#LancsBox之后,發(fā)送快捷方式到桌面,以后每次需要運行時,左鍵雙擊即可。
運行軟件后,在Corpora工具欄下有兩個功能,加載(Load data)和下載(Download)語料庫和詞表。#LancsBox加載語料庫和詞表的功能可以讓我們方便地創(chuàng)建和使用自己的語料庫。我們可以事先將自制語料庫或詞表(#LancsBox兼容各種不同格式.txt,.xml,.doc,.docx,.pdf,.odt,.xls,.xlsx,.zip的語料以及.csv格式的詞表)存儲在電腦上或移動硬盤上,在Load data下左鍵單擊語料庫或詞表,導(dǎo)航到存儲語料庫或詞表的位置(文件夾),可以選擇一個或多個特定的文件,左鍵單擊“打開”加載文件。加載完成后,左鍵點擊import,導(dǎo)入語料庫。
下載語料庫和詞表。#LancsBox允許使用現(xiàn)有免費的八個語料庫,包括LCMC,Brown,L-O-B,Climate,Newsbook,Shakespeare,V-U-L-C,BNC64,還有一個其他資源列表。
在圖1Corpora語料庫選項工具中,左鍵單擊“下載”下的語料庫或詞表,會彈出語料庫或詞表列表,通過左鍵點擊需要下載的語料庫,可以看到語料庫的附加信息,包括語言、日期、文本類型、許可等,勾選同意語料庫許可,左擊import將語料庫導(dǎo)入#LancsBox。
KWIC是Key Word in Context(上下文中的關(guān)鍵詞)的縮寫。KWIC工具以索引的形式生成檢索項按照指定的跨距(span,以字母或者單字計算)在語料庫中的實例列表,并將檢索詞(即nod節(jié)點詞)居中的方式顯示。其功能有:檢索語料庫中單詞或短語的頻率;檢索不同詞類的頻率,如名詞、動詞、形容詞;使用智能搜索檢索如被動語態(tài)、分裂不定式等復(fù)雜的語言結(jié)構(gòu);對索引行進(jìn)行排序、過濾或隨機(jī)調(diào)整;在兩個語料庫中搜索檢索詞的使用情況,并進(jìn)行對比統(tǒng)計分析。索引功能是語料庫語言學(xué)研究中一個非常重要的內(nèi)容。
GraphColl工具是搭配圖像化工具graphical collocations的縮寫。GraphColl工具可以識別搭配,通過表格顯示或圖形網(wǎng)絡(luò)顯示。通過前面的KWIC索引,我們也能了解檢索詞的搭配,但往往會比較零碎,而通過GraphColl工具搭配統(tǒng)計功能,能夠?qū)z索詞的搭配從高到低或者從低到高排列,并通過圖形展示。
其主要功能有:檢索單詞或短語的搭配;檢索語法類別的共現(xiàn);搭配和搭配網(wǎng)絡(luò)的可視化;識別單詞或短語的共享搭配等。
GraphColl生成搭配圖前必須為搭配檢索進(jìn)行適當(dāng)設(shè)置,1)Span指檢索搭配時,要考慮節(jié)點(檢索項)的左邊(L)和右邊(R)有多少個單詞[默認(rèn)左邊5右邊5]。2)Statistics指的是用于計算搭配強(qiáng)度的關(guān)聯(lián)測度。3)Threshold是搭配的最小頻率和統(tǒng)計截止值。4)Corpus指的是正在檢索的語料庫。5)Unit是用于搭配的單位(type,lemma,part of speech [POS] tag)。
設(shè)置完成后,在搜索框中鍵入檢索項(圖3左上角)并左鍵單擊search,將生成一個搭配表(圖3下左)和一個搭配圖(圖3下右)。
圖3標(biāo)示各列的含義為:1)Status表示是否展開了搭配,如果是黑圓點則表明展開了搭配,如果是白色圓圈則表示沒有展開搭配。2)Stat(03-MI)顯示該節(jié)點的文本位置,可以是節(jié)點的左(L)、右(R)或中(M),即L和R頻率相等。3)Collocate搭配顯示。4)Stat顯示所選關(guān)聯(lián)度量的值。5)Freq(coll):顯示搭配的頻率(結(jié)合node+collocate)。6)Freq(語料庫):顯示語料庫中任意位置的搭配頻率。
圖1 Corpora工具
圖2 KWIC工具
圖3 GraphColl工具
圖3左側(cè)搭配表是顯示搭配的一種傳統(tǒng)方式。圖3右側(cè)搭配圖顯示了搭配強(qiáng)度、搭配頻率、搭配位置三個維度。搭配強(qiáng)度由節(jié)點與搭配之間的距離表示,搭配距離節(jié)點越近,關(guān)聯(lián)就越強(qiáng)(磁效應(yīng))。搭配頻率由搭配顏色的強(qiáng)弱來表示,顏色越深,搭配頻率就越高。搭配位置圍繞節(jié)點,反映了文本中搭配的準(zhǔn)確位置。有些搭配主要出現(xiàn)在節(jié)點左側(cè),有些則主要出現(xiàn)在右側(cè)。
搭配圖可以擴(kuò)展成搭配網(wǎng)絡(luò),顯示出共享的搭配和多個節(jié)點之間的交叉關(guān)聯(lián)。要將一個簡單的搭配圖(見圖3右側(cè))擴(kuò)展到搭配網(wǎng)絡(luò)中,可以搜索更多的節(jié)點,或者左鍵雙擊搭配。
Whelk工具提供檢索項在語料庫中的分布信息,如查找語料庫中檢索項的絕對頻率和相對頻率、根據(jù)不同的標(biāo)準(zhǔn)過濾檢索結(jié)果、根據(jù)檢索項的絕對頻率和相對頻率對文件進(jìn)行排序。
圖4中,F(xiàn)ile列顯示語料庫中各個文件的名稱。Tokens列提供有關(guān)每個文件的字?jǐn)?shù)。Frequency列提供檢索項的絕對頻率,即每個文件中有多少個檢索項實例。Relative frequency per 10k列提供以10,000單詞為基礎(chǔ)標(biāo)準(zhǔn)化相對頻率,此值在不同文件和語料庫之間具有可比性。
如圖5所示,Words Tool除了可以使用關(guān)鍵詞技術(shù)比較語料庫外,還可以深入分析詞項(type)、詞元(lemma)、詞性(POS)的頻率,如,計算type、lemma和POS的頻率和離散度、將語料庫中的頻率和離散度可視化、使用關(guān)鍵詞技術(shù)比較語料庫、可視化關(guān)鍵詞。
圖4 Whelk工具
圖5 Words Tool工具
圖6 N-gram Tool工具
圖7 Text Tool工具
N-gram是一種統(tǒng)計語言模型,根據(jù)前(n-1)個item來預(yù)測第n個item。Ngram工具可以深入分析n-grams的頻率(bigram、trigram等)。N-grams可以定義為相鄰的詞項(types)、詞元(lemma)和詞性(POS)組合,還可以使用類似keywords的技術(shù),通過比較兩個語料庫生成key Ngrams,可以識別N-grams、詞串和短語框架,計算Ngram詞項、詞元和詞性的頻率和離散度,可視化語料庫中Ngram的頻率和離散度,可視化key Ngrams等。
文本工具能夠深入了解單詞或短語使用的上下文語境,可以在完整的上下文中查看檢索項、預(yù)覽文本、預(yù)覽作為運行文本的語料庫、檢查文本/語料庫的不同注釋級別。
從Tony McEnery教授在暑期學(xué)校social dinner上的簡短發(fā)言得知,作為世界語料庫語言學(xué)研究重鎮(zhèn)的英國蘭卡斯特大學(xué)已經(jīng)連續(xù)8年舉辦語料庫語言學(xué)暑期學(xué)校。不僅如此,蘭卡斯特大學(xué)還開設(shè)免費在線課程《語料庫語言學(xué):方法、分析和闡釋》,使學(xué)習(xí)者了解語料庫在話語分析、語言教學(xué)與學(xué)習(xí)、社會語言學(xué)等多種領(lǐng)域的應(yīng)用。正如舉辦方所言,暑期學(xué)校的主要目的是將語料庫技術(shù)和軟件應(yīng)用于不同語言領(lǐng)域,乃至整個社會科學(xué)研究。這也正是我們將來努力的方向。
[1] Stubbs M. Discourse Analysis: The Sociolinguistic Analysis of Natural Language[M]. Chicago, IL: The University of Chicago Press, 1983.
[2] Stubbs M. Text and Corpus Analysis: Computer-Assisted Studies of Language and Culture[M]. Oxford: Blackwell, 1996.
[3] Baker P. Does Britain need any more foreign doctors? Inter-analyst consistency and corpus-assisted (critical) discourse analysis. In N. Groom, M. Charles, & S. John (Eds.), Corpora, Grammar and Discourse[M]. Amsterdam: John Benjamins, 2015:283-300.
[4] Baker P. Discourse and Gender. In K. Hyland and B. Paltridge(Eds.), Continuum Companion to Discourse Analysis[M]. London: Continuum, 2013.
[5] Brezina V. Statistics in Corpus Linguistics: A Practical Guide[M]. Cambridge: CUP, 2018.
[6] #LancsBox 4.5 manual [EB/OL]. [2019.07.02]. http:// corpora.lancs.ac.uk/lancsbox/help.php.
[7] Brezina V, McEnery T, & Wattam S. Collocations in context: A new perspective on collocation networks. International Journal of Corpus Linguistics [J]. 2015,20(2):139-173.
[8] Brezina V, Timperley M, & McEnery T. #LancsBox v. 4.x [CP/OL]. [2019.07.02]. http://corpora.lancs.ac.uk/ lancsbox, 2018.
A Review of the 2019 Summer School in Corpus Linguistics for Analysis of Language, Discourse and Society by Lancaster University
YANG Shiqiao
()
This paper mainly introduces the 2019 summer school in corpus linguistics for analysis of language, discourse and society by Lancaster University, including corpus-based discourse analysis and its problems and principles, corpus statistics, corpus approaches in forensic linguistics, health communication, and the study of Shakespeare, and practical sessions in computer labs using # LancsBox tools to build and analyze our own corpora or use the existing corpora. The aim of the summer school is to demonstrate how these methods can be applied to different linguistic areas and other social science research, which sheds new light on our research.
corpus discourse analysis; # LancsBox; corpus analysis of social science
2019-07-18
*項目來源:本文受到國家留學(xué)基金委資助,編號為201708440485
楊石喬(1973-),男,博士,教授,主要研究方向為語料庫、會話分析與醫(yī)患互動交際研究。
H030
A
1672-0318(2020)04-0024-07
10.13899/j.cnki.szptxb.2020.04.004