涂春梅
【摘要】計(jì)算機(jī)輔助方法能被用來研究文本中的詞匯模式.數(shù)據(jù)來自歐亨利的短篇小說《警察與贊美詩》和參考數(shù)據(jù)庫是LOB語料庫作比較數(shù)據(jù)和Antconc3.4.4軟件來學(xué)習(xí)復(fù)制驗(yàn)證。
【關(guān)鍵詞】復(fù)制 頻率統(tǒng)計(jì) 詞匯模式 警察與贊美詩 類符/形符比
一、引言
討論詞匯如何在文本中分配來模仿這些程序,討論單詞序列的一些特征??梢岳斫獾奈谋?,它的詞匯必須有銜接性:新舊信息的模式分布在文中的重復(fù)相關(guān)的詞匯鏈。話題是用詞匯表示的。單詞頻率列表和單詞分布圖可能有助于識(shí)別主題和文本邊界,為解釋提供依據(jù)。用的語料是O Henry的短篇小說《警察與贊美詩》僅1363字。講述為在監(jiān)獄里度過寒冬,故意違反法律.他沒如他所愿蹲監(jiān)獄;最后,他到教堂,被贊美詩感動(dòng),決定痛改前非,卻被送進(jìn)了監(jiān)獄。
二、分析1:頻率統(tǒng)計(jì)(按降序)
1.功能詞頻率統(tǒng)計(jì) 在LOB和《警察與贊美詩》中,最高頻十個(gè)單詞降序是:1] LOB:the of and to a in that is was it;2] ‘the Cop and the Anthem:the a and Soapy of his he to in policeman;LOB和文中最高頻率的詞是the.發(fā)現(xiàn)此詞在任何文本中都占很大比例。在LOB中它的頻率所占比重低于文本中:LOB 6.1%,此文本中7.3%。2]中出現(xiàn)的詞在1]中就沒有Soap,his,he,policeman.這說明此五個(gè)詞在此文本的頻率列表中更高。估算這些詞故事中的頻率比在一般語言中多多少,比較了他們?cè)贚OB和文中的頻率:3] LOB:Soap0,his 0.56%,he 0.82%,policeman 0.001%;4]此文本中Soap2.8%,his2.5%,he2.4%,policeman 1.1%.相對(duì)于文本長度,he和she在文中比在LOB更頻繁。his和he的頻率是一樣的。第三人稱單數(shù)代詞,he/his和定冠詞the指he,指Soapy,故意做了具體的事情。
2.實(shí)詞的頻率統(tǒng)計(jì) 忽略LOB中100個(gè)最常見的詞,此文本的頻率列表中最高頻實(shí)詞umbrella, bench, island, winter, restaurant, square, cigar, street, waiter, arrest, cop, door, glittering, moved, refuge, ambitions, arrested.最高頻的實(shí)詞能揭示主角Soapy的行為變化,名詞代表某地方的故事情節(jié).關(guān)于詞頻的適度初始事實(shí)值表明簡單的詞頻反映此故事的中心話題。
三、分析2:
頻率統(tǒng)計(jì)(出現(xiàn)順序)這些方法沒告知詞匯在文本中的分布。文本中詞匯出現(xiàn)順序的頻率能暗示文本的結(jié)構(gòu)。以此文本的第一段為例。按詞匯在文本出現(xiàn)順序的頻率列表:5] on14, his34, bench6, in23, Madison3, square5, Soapy38, moved3, uneasily3, and45, when4, moves, the100, park2, you10, may1, know1, that11, winter6, is8, near2.大多數(shù)詞很少出現(xiàn),大約一半的單詞類型僅出現(xiàn)一次.然6]里很多高頻詞出現(xiàn)在故事的開頭,但它們于故事主題無意義。5]中可看到那些出現(xiàn)在開頭段落中的詞匯詞,它們?cè)诤笪闹谐霈F(xiàn)不止一次:6] Madison3, moved3, uneasily3, when 4, moves 1, park2, near2.列表不能看到哪些詞是首次出現(xiàn)在故事后期,這與小說Eveline中的Youman不同。此段corner第一次出現(xiàn),憑直覺它是故事中的一個(gè)新話題。此文第一自然段中新詞的頻率為:7] corner4, Sixth1, Avenue1, took2, stone1, sent1, through2, glass1, shop1, window2, people2, came 3, running 2, around2, stood2, still1, pockets1, smiled1, sight1.7]中頻率大于1的新詞:8] corner4, took2, through2, window2, people2, came 3, running2, around2, stood2.然而這個(gè)過程顯示哪些新詞在情節(jié)的最后段落被采用,不是在文本的最后段落,這同于在“Eveline”中的Youman的發(fā)現(xiàn)。
四、結(jié)論
總之,雖然文章沒有完全復(fù)制這個(gè)發(fā)現(xiàn),僅部分復(fù)制了此發(fā)現(xiàn),但我們可以看到如何使用語料庫和軟件Antconc.3.4并測試文本中單詞的頻率。復(fù)制的結(jié)果部分與短篇故事“Eveline”不同,我認(rèn)為原因是《警察與贊美詩》中有幾個(gè)單個(gè)獨(dú)立的小故事。
References:
[1]Sinclair,J.Corpus,Concordance,Collocation.Oxford:Oxford University Press.
[2]Sinclair J.Corpus and Text:Basic Principle.In M.Wynne(ED.), Developing linguistic Corpora:a Guide to Good Practice,2004.
[3]歐亨利.警察與贊美詩,1906.endprint