国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雙向型高搭配力度ngram鏈在語料庫建設(shè)中的應(yīng)用

2009-04-07 10:12:32
關(guān)鍵詞:右向數(shù)組雙向

苗 永

[摘 要]對搭配的研究是語言研究的焦點之一,搭配研究不僅包括兩個詞之間的搭配,還包括各種擴展的搭配,最常見的對搭配的擴展是搭配在頻數(shù)上的擴展,通常稱為詞串(lexical bundles)。本文研究的是搭配的另外一種維度的擴展——按照搭配力度的雙向擴展,稱為雙向型高搭配力度ngram鏈,即把搭配力度最強的多詞序列提取出來,然后進行分析。分析發(fā)現(xiàn):雙向型高搭配力度ngram鏈中大部分序列與文本內(nèi)容相關(guān)度比較高,并且結(jié)構(gòu)相對完整,可以作為候選的關(guān)鍵詞組。

[關(guān)鍵詞]中國英語語料庫;關(guān)鍵詞組,;雙向型高搭配力度ngram鏈

[中圖分類號]H31 [文獻標識碼]A [文章編號]1008-4738(2009)01-0080-04

[收稿日期]2008-12-26

[基金項目]國家社科基金項目“ 基于語料庫的英語本土化研究及應(yīng)用 ”(07BYY022)

[作者簡介]苗 永(1977-),男,河南師范大學(xué)外國語學(xué)院2006級外國語言學(xué)及應(yīng)用專業(yè)碩士研究生,研究主向:語料庫語言學(xué)、計算機語言學(xué)。

一、基本理論

ngram是由n 個連續(xù)單詞組成的序列。在這里,文本被看成由元組(tuple ,例如ngram就是由單詞組成的元組)組成的線性序列[1]。一個、兩個、三個詞組成的元組分別叫uni-gram、bi-gram、tri-gram 等等,而各個元組有相應(yīng)的頻率和概率。在候選關(guān)鍵詞組鑒別階段,我們對通常采用的詞語分類信息(如名詞、動詞、形容詞等)不予考慮,只考慮其頻率和概率分布特征。這是因為,人們在單詞分類時經(jīng)常會遇到困難:一個詞詞性具有非常大的不確定性。李文中博士在2008年語料庫語言學(xué)學(xué)術(shù)講座中曾經(jīng)提出:按照現(xiàn)在的詞匯分類方法,一個詞可能是名詞,也可能是動詞,還可能是形容詞,偶爾還是副詞,那么它到底是什么詞呢?可能它什么也不是——現(xiàn)在的詞性分類方法可能存在問題,從而導(dǎo)致詞性分類極大程度上的不確定性。為了在第一個階段暫時規(guī)避這個問題,我們這里暫時不考慮詞性、詞義。

雙向型高搭配力度ngram 鏈以搭配力度為基礎(chǔ)。根據(jù)衛(wèi)乃興的定義,搭配是指幾個詞在文本中反復(fù)共現(xiàn)(廣義的界定)[2]。一個詞與節(jié)點詞共現(xiàn)頻度的異常程度就是搭配力度[3]。在本項研究中,搭配力度用t值來衡量。一般情況下(不考慮自由度時),t值大于2說明搭配力度相當(dāng)強。一些研究者認為,只靠t值來衡量搭配力度不太合適,因為一些不常用的詞作為節(jié)點詞的時候,其搭配詞相對于節(jié)點詞的搭配力度(用t值衡量時)明顯偏大[4]。在可行性研究中發(fā)現(xiàn),這種情況出現(xiàn)的概率很小,因此這里只是用t 值衡量搭配力度,t值大于2即認為搭配力度相當(dāng)強,從而可以使ngram作相應(yīng)鏈式延伸(生長)。其他研究者可以根據(jù)自己的需要,采用其他衡量標準如z值、mi值等等。

在研究搭配的時候,大部分研究者選擇了對稱跨距(如-5/+5,選擇節(jié)點前五個詞和節(jié)點后五個詞作為語境)。這時會產(chǎn)生“雙重進入”(double entering)。John Sinclair給出了一個例子:如果兩個詞頻度相異,并且他們之間的搭配力度較強的時候,取不同的詞作為節(jié)點詞(另外一個作為搭配詞),那么計算得出的搭配力度是不同的。如果詞A的頻度是詞B頻度的兩倍,那么它們每次共現(xiàn)時,這次共現(xiàn)對B來說體現(xiàn)了更強的搭配力度,所以,以A為節(jié)點,B為搭配詞體現(xiàn)出的搭配力度要小于以B為節(jié)點A為搭配詞所體現(xiàn)出來的搭配力度[5]。

李文中教授從另外一個角度描述了搭配力度的不對稱性。如“vice versa”,vice 后可能會有很多詞高頻出現(xiàn),從這個角度講,vice 對versa 的吸引力(以vice為節(jié)點詞,versa為搭配詞)并不強。而如果選擇versa 為節(jié)點詞,versa前面的搭配詞是vice的概率則比較大,因此,選擇versa為節(jié)點詞,vice為搭配詞,體現(xiàn)出來的搭配力度則更強。

為了規(guī)避“二次進入”和搭配力度的不對稱性,我們準備采用非對稱跨距。為了使ngram按照搭配力度強者優(yōu)先的原則向兩邊延伸(生長),這里選擇跨距為-1(向左延伸(生長))或者+1(向右延伸(生長)),即僅取左一或者右一位置作為語境,延伸(生長)條件為t值大于2,計算方法參照了馬廣惠的相關(guān)分析結(jié)論[6]。

二、雙向型高搭配力度ngram 鏈的例子

利用中國英語語料庫提供的隨機抽取功能,我抽取到英文版《三國演義》中第十五回“Taishi Ci Fights With The Little Prince; Sun Ce Cuts Short The White Tiger King.”(根據(jù)馮志偉教授2008年在語料庫語言學(xué)牧野論壇上的提議,為了避免版權(quán)爭議,文章內(nèi)的句子已經(jīng)被隨機打亂)。該章節(jié)單詞頻率最高的詞是the,下面以the為例子(取the為根節(jié)點詞)示意雙向型高搭配力度ngram鏈的延伸(生長)。

1.右向優(yōu)先延伸(生長)的例子

選根節(jié)點為 the,搜索其右一位置的搭配詞,見表1。

可以觀察到,在the的右一位置,與節(jié)點詞the搭配力度最強的詞有city、other、great等,其對應(yīng)的搭配力度都大于臨界值2。 所以the可以向右延伸(生長),形成“the city ”、“the other”、“the great”等新的ngram。下面以the city為例子,取其為節(jié)點詞,繼續(xù)觀察the city向右生長的潛力(搜索其右一位置的搭配詞),見表2。

可以觀察到,在the city的右一位置,搭配詞與the city的搭配力度都不夠大,因此the city停止向右延伸(生長),轉(zhuǎn)而觀察the city向左延伸(生長)可能性。以 the city 為節(jié)點詞,搜索其左一位置的搭配詞,見表3。

可以看出,the city向兩個方向皆找不到搭配力度較強的搭配詞,所以停止了延伸(生長),應(yīng)該輸出of the city作為候選關(guān)鍵詞組。

2.左向優(yōu)先延伸(生長)的例子

根節(jié)點為 the,搜索其左一位置的搭配詞,見表4。

在the 的左一位置, 與節(jié)點詞the搭配力度最強詞有 of、in、to、on等等,因此the可以向左延伸(生長)為新的ngram: of the 、in the、to the、on the等。下面以of the為例,取 of the 為節(jié)點詞,繼續(xù)觀察of the向左延伸(生長)的可能性,見表5。

在of the的左一位置,搭配詞與of the的搭配力度都不夠大,因此停止向左延伸(生長),轉(zhuǎn)而向右。觀察右一位置搭配詞與節(jié)點 of the的搭配力度,見表6。

在of the的右一位置,與of the搭配力度最強的詞是city,因此,of the 可以向右延伸(生長),生成新ngram :of the city。取of the city為節(jié)點,觀察左一位置(左向優(yōu)先原則)搭配詞與節(jié)點詞of the city的搭配力度,見表7。

可以觀察到,在of the city的左一位置,搭配詞與of the city的搭配力度不夠大,因此停止向左延伸(生長),轉(zhuǎn)而觀察右一位置搭配詞與節(jié)點詞 of the city的搭配力度,見表8。

可以看出,of the city 向兩個方向皆找不到搭配力度較強的搭配詞,所以停止了延伸(生長),應(yīng)該輸出of the city作為候選關(guān)鍵詞組。

兩次提取候選關(guān)鍵詞的結(jié)果(一次為the city ,另一次為of the city)說明本文與城市相關(guān)(分析可知,這是三國時期之“攻城略地”主題的體現(xiàn))。

實驗發(fā)現(xiàn),如果選t的臨界值為2,對較長的文本較有效,而對于長度小于3 000字的文本的效果不太好。彌補辦法之一是:如果文本較長,則應(yīng)該選擇較大的t值的臨界值,反之,t值的臨界值應(yīng)該小些。

三、算法大致流程

在把這個思路用算法實現(xiàn)之前,還有兩個問題:ngram延伸(生長)方向是左向優(yōu)先還是右向優(yōu)先?怎樣消除冗余(例如,如果我們讓bi-gram “a lot”向右延伸(生長),我們可能得到tri-gram “a lot of”,而我們讓bi-gram “l(fā)ot of”向左延伸(生長),我們也能得到tri-gram “a lot of”)

我們發(fā)現(xiàn),如果合理編寫算法,左向延伸(生長)和右向的延伸(生長)可以有機合并在一起,左向優(yōu)先和右向優(yōu)先不影響最終結(jié)果。我們選擇了左向優(yōu)先。對于冗余的問題,我們采取了把左向延伸(生長)結(jié)果和右向延伸(生長)結(jié)果放在同一個字符串?dāng)?shù)組中,然后把字符串?dāng)?shù)組排序,這樣冗余的ngram就會被排到字符串?dāng)?shù)組的連續(xù)位置,然后刪除重復(fù)元素。

最終確定算法大綱如下:

1.選擇合適的單詞作為uni-gram(ngram鏈的根元素,一般選擇高頻詞或者關(guān)鍵詞),放入字符串?dāng)?shù)組root[];定義字符串?dāng)?shù)組collocate[][],用于存儲搭配力度大于臨界值的搭配詞(各數(shù)組的下標都從零開始,collocate[i][j]用于存儲root [i]的第一個到第j-1個搭配力度大于臨界值的搭配詞)。

2.按照上述規(guī)則讓root[]中每一個元素向左延伸(生長),把延伸(生長)后得到的新的ngram 按照collocate[i][j]+""+root[i]的格式放入數(shù)組ngram[](字符串?dāng)?shù)組root的第i-1個元素所生成的新的ngram個數(shù)是j-1)。

3.按照上述規(guī)則讓root[]中每一個元素向右延伸(生長),把延伸(生長)后得到的新的ngram 按照root[i]+""+collocate[i][j]的格式放入數(shù)組ngrmam[]。

4.把ngram[]排序,刪除重復(fù)元素。

5.N=2(長度為N的ngram將要被處理)。

重復(fù)第6步到第11步,直到N=max(max為需要的最長的ngram的長度,以單詞數(shù)計算)。

6.按照上述規(guī)則讓ngram[]中每一個元素向左延伸(生長),把延伸(生長)后得到的新的ngram 按照collocate[i][j]+""+ngram[i]的格式放入數(shù)組tempNgram[]。

7.按照上述規(guī)則讓ngram[]中每一個元素向右延伸(生長),把延伸(生長)后得到的新的ngram 按照ngram[i]+“”+collocate[i][j]的格式放入數(shù)組tempNgram[]。

8.檢查ngram[]中每一個元素延伸(生長)記錄,如果ngram[]中的元素沒有向任何一個方向延伸(生長),輸出該元素作為candidate keyphrase。

9.把tempNgram[]排序,刪除重復(fù)元素。

10.ngram=tempNgram,即把tempNgram各個元素的值賦予ngram。

11.N自增一(準備處理更長的ngram)。

(注:tempNgram是臨時數(shù)組,暫時存放中間結(jié)果。)

為了實現(xiàn)這個過程的全自動化,相應(yīng)軟件正在開發(fā)中。

(注:感謝李文中教授的指導(dǎo),文章中若有不當(dāng)之處,系作者自己原因)

[參考文獻]

[1]李文中. 語料庫與學(xué)習(xí)者語料庫 [M]//楊惠中. 語料庫語言學(xué)導(dǎo)論. 上海:上海外語教育出版社,2002:69-81.

[2]衛(wèi)乃興. 語料庫支持的詞語搭配研究 [M]//楊惠中.語料庫語言學(xué)導(dǎo)論. 上海:上海外語教育出版社,2002:82-127.

[3]濮建忠. 學(xué)習(xí)者動詞行為: 類聯(lián)結(jié)、搭配及詞塊 [M].鄭州:河南大學(xué)出版社,2003 :191-192.

[4]桂詩春, 楊惠中. 中國學(xué)習(xí)者英語語料庫 [M]. 上海:上海外語教育出版社,2003:11-23.

[5]Sinclair J. Corpus, Concordance, Collocation[M]. Oxford : Oxford University Press , 1991:109-121.

[6]馬廣惠. 外國語言學(xué)及應(yīng)用語言學(xué)統(tǒng)計方法 [M]. 西安:西北農(nóng)林科技大學(xué)出版社,2003:3-56.

Utilization of Bi-directional Ngram Chains of High Collocatabiliy in Corpus Building

MIAO Yong

(Faculty of International studies, Henan Normal University, Xinxiang 453007, China)

Abstract: The study on collocation is one of the focuses of language studies, which is not limited to collocation between two words; it encompasses extended studies of collocation, such as extension of collocation based on raw frequency, which is often called lexical bundles. In this thesis, collocation is extended on both directions (to the left and to the right) based on another criteria collocation. After analyzing the structures resulted, it is concluded that bi-directional ngram chains of high collocatabiliy are with relatively well-formed and highly content sensitive, which are qualified to be potential candidate key phrases.

Key words: Chinese English Corpus; key words and expressions; bidirectional ngram chains of high collocatabiliy

猜你喜歡
右向數(shù)組雙向
cTCD、cTTE、cTEE對卵圓孔未閉右向左分流的診斷價值
雙向度的成長與自我實現(xiàn)
出版人(2022年11期)2022-11-15 04:30:18
給牙齦按摩防萎縮
JAVA稀疏矩陣算法
電腦報(2022年13期)2022-04-12 00:32:38
不同體位下經(jīng)顱多普勒增強試驗對偏頭痛患者右向左分流的影響
JAVA玩轉(zhuǎn)數(shù)學(xué)之二維數(shù)組排序
電腦報(2020年24期)2020-07-15 06:12:41
Effect of Mineral and Vitamin Supplementation on Performance and Haemotological Values in Broilers
一種軟開關(guān)的交錯并聯(lián)Buck/Boost雙向DC/DC變換器
尋找勾股數(shù)組的歷程
一種工作頻率可變的雙向DC-DC變換器
正阳县| 梅州市| 延边| 阿合奇县| 班戈县| 双牌县| 孟津县| 新竹县| 苍山县| 凤山市| 都安| 应用必备| 儋州市| 尉犁县| 延寿县| 柘荣县| 寿宁县| 铅山县| 泾阳县| 乌什县| 乌恰县| 司法| 岐山县| 于田县| 理塘县| 淮阳县| 芮城县| 哈巴河县| 定结县| 莱芜市| 翁牛特旗| 山西省| 镇平县| 河东区| 巨野县| 祁连县| 桐乡市| 南召县| 响水县| 宿州市| 宝应县|