国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙語URL匹配模式可信度的平行網頁識別研究

2018-05-04 06:46章成志馬舒天揭春雨姚旭晨
中文信息學報 2018年3期
關鍵詞:平行雙語網頁

章成志,馬舒天,揭春雨,姚旭晨,3

(1. 南京理工大學 信息管理系,江蘇 南京,210094;2. 香港城市大學 翻譯及語言學系,香港;3. 百度在線網絡技術(北京)有限公司,北京 100085)

0 引言

平行語料庫是指兩種或多種語言在段落、句子甚至單詞短語層面上互為翻譯的語料。作為自然語言處理領域中的寶貴資源,平行語料在統(tǒng)計機器翻譯[1]和跨語言檢索[2]等任務中扮演著重要的角色。已有的平行語料庫,無論在語種數(shù)量、語料規(guī)模、質量還是覆蓋領域等方面,都仍需不斷完善擴充,以滿足實際需求。

過往的研究利用雙語或多語網站來獲取平行語料(包括雙語平行和雙語混合網頁),并搭建了一些雙語網頁獲取系統(tǒng),如STRAND[3]、BITS[4]、PTMiner[5]、PTI[6]及WPDE[7]等。另外一種代表性方法則依據(jù)URL組成的模式,通過啟發(fā)式規(guī)則從雙語網站上自動發(fā)現(xiàn)雙語網頁,相比手工制定啟發(fā)式規(guī)則,通過機器自動發(fā)現(xiàn)規(guī)則,能在一定程度上減少計算資源的開銷[8-9]。

本文基于后一種方法,對雙語URL匹配模式探測、模式可信度計算及應用等方面,進行比較全面的設計和實驗[8-10]。首先,計算雙語URL匹配模式的可信度;其次,在此基礎上提出四種雙語網頁識別方法;然后,利用搜索引擎以及少量的高可信度雙語URL匹配模式快速識別雙語網頁,以降低對匹配模式的過分依賴;最后,利用網頁鏈接與高可信度的URL匹配模式計算候選網頁對的雙語相似度,由此來過濾非雙語網頁對,以進一步提高候選雙語網頁對的準確率。通過一系列實驗,我們驗證了所提方法的有效性。

1 相關研究概述

STRAND[3]是最早用于識別雙語平行網頁的系統(tǒng)之一,該系統(tǒng)通過搜索引擎檢索指向不同語種版本鏈接的網頁,然后將文本語種比較、URL配對以及文本長度作為判別特征,生成候選平行網頁對,最后利用網頁結構進行過濾。PTMiner[5]首先利用鏈接錨文本來識別候選雙語網站,通過搜索引擎得到這些網站下的網頁,并利用URL模式找出平行對,最后通過網頁內外部特征進行過濾。類似的挖掘系統(tǒng)還有BITS[4]、PTI[6]、WPDE[7]等。另外,平行網頁的識別方法也在不斷更新,例如通過DOM樹對齊模型來識別互譯文本和兩個平行DOM樹之間的鏈接[11],利用HTML結構實現(xiàn)平行網頁的遞歸訪問,使用URL模式優(yōu)化遍歷平行網站的拓撲順序,來獲取平行網頁[12]。另外,網頁之間的鏈接關系也被用于計算網頁之間的相似程度,迭代挖掘出平行網頁[13]。

這些方法大多獨立于語言,具體步驟為: 抓取和識別候選雙語網站、提取候選平行網頁對,進而驗證。其中,平行網頁網址的先驗知識常用于網頁抓取或過濾。已有研究主要依靠兩類信息來獲取平行網頁: 一是單個網頁信息,包括網址和網頁內容;二是多個網頁信息,主要是網頁之間的鏈接關系。也有很多研究者利用搜索引擎檢索表示語言類別的錨文本來定位候選雙語網站。此外,網址中是否含有預先定義的雙語URL模式也常被用來判斷候選平行網頁。然而,這些預定義的規(guī)則不可能涵蓋所有情況,很多網站甚至沒有任何關于語言類別的錨文本標記。因此,我們試圖通過機器自動發(fā)現(xiàn)規(guī)則,來降低基于雙語URL匹配模式的方法對外部先驗知識的依賴性[8-9]。同時,我們還依據(jù)少量匹配模式,快速識別雙語網頁[10]。另外,為進一步提高這些方法所識別出的候選雙語網頁對的準確率,我們提出非雙語網頁對過濾算法。

2 研究總體框架

如圖1所示,雙語網頁在雙語網站上有多種出現(xiàn)模式,根據(jù)源語言與目標語言網頁結構對應強度的不同,可以分為強、弱和無對應關系的雙語網頁(深層網頁)。我們根據(jù)網頁的URL結構,計算雙語URL匹配模式可信度,并據(jù)此提出五種識別雙語網頁的算法,開發(fā)了相應的雙語網頁獲取與評估系統(tǒng)Pupsniffer*https: //code.google.com/p/pupsniffer/。該系統(tǒng)基于先前工作[8]并對其算法進行了優(yōu)化,是一個很有用的多語網頁自動挖掘工具[9]。

圖1 候選雙語網站的網頁對應結構示意圖

如圖2所示,Pupsniffer系統(tǒng)分為三個模塊,第一個模塊是雙語網頁挖掘,根據(jù)所給的種子網站列表進行網頁爬取,結合鏈接分析與雙語URL匹配模式,利用五個主要算法獲取雙語網頁,即: 基于模式局部可信度的雙語網頁發(fā)現(xiàn)算法[8]和兩個優(yōu)化方法,分別是弱匹配模式救回算法和深層雙語網頁檢測算法,以及深層雙語網頁發(fā)現(xiàn)增量算法[9]和僅考慮少量先驗知識的雙語網頁獲取方法[10]。第二個模塊是非雙語網頁的過濾,利用網頁鏈接,以及雙語URL匹配模式進行過濾(圖2⑥)。第三個模塊是候選雙語網頁測評,即對所得到的雙語網頁URL進行隨機抽樣并人工測評,最后得到測評結果。

圖2 雙語網頁獲取與評估系統(tǒng)總體框架圖

3 雙語URL匹配模式的可信度計算方法

針對某個網站下采集得到的網頁,我們首先對其內容進行簡單的語言識別,即: 網頁內容中超過50%的字符為英文字母,則判斷該網頁為英文網頁,否則為中文網頁[8]。然后,我們對網頁URL進行切分等預處理,得到兩個字符串單元集合,即網址路徑的單元集合和網址文件名的單元集合,接著分別對這兩個集合及其總集合進行雙語URL匹配模式的識別[8]。

定義1(雙語URL匹配模式): 給定一個雙語網站的源語言與目標語言網頁URL集合為U和U′,相應的字符串單元集合為T和T′,若從一個候選雙語URL對π=〈u,u′〉∈U×U′中抽去一個單元對k=〈t,t′〉∈T×T′后,剩下的單元集合相同,即u-{t}=u′-{t′},則該單元對k記為一個候選的雙語URL匹配模式。

相應地,一個雙語URL匹配模式k=〈t,t′〉的得分計算可形式化為:

(1)

其中,u-{t}和u′-{t′}分別為從網址u和u′中抽去模式〈t,t′〉中的字串t和t′后剩下的單元集合。舉例來說,給出如下一對網址:

英文URL: http: //www.legco.gov.hk/yr99-00/english/fc/esc/minutes/es061099.htm

中文URL: http: //www.legco.gov.hk/yr99-00/chinese/fc/esc/minutes/es061099.htm

其中所含的“english”和“chinese”兩個字符串顯示出這兩個網址所對應的語種及平行關系,根據(jù)以上定義,我們將“”這樣的字符串單元對選為一個候選雙語URL對的匹配模式,或稱匹配鍵(key)。遍歷一個雙語網站中所有的候選雙語URL對后,每個匹配鍵得到一個總得分,即其在該網站中可能匹配上的雙語URL對的總數(shù)。

定義2(雙語URL匹配模式的頻次): 雙語URL匹配模式k(簡稱模式k)的頻次為遍歷給定網站w中所有的候選雙語URL對后模式k的總得分,即其在w中可能匹配上的雙語URL對的總對數(shù),計算如式(2)所示。

(2)

定義3(雙語URL匹配模式的局部可信度): 模式k的局部可信度為給定網站w中k可能匹配上的雙語網頁數(shù)與w中URL總數(shù)的比值,計算如式(3)所示。

(3)

其中,N(k,w)為網站w中k可能匹配上的雙語網頁數(shù),是雙語URL對數(shù)目的兩倍,即:N(k,w)=2*pπ∈U×U′(k,w),|w|為網站w的網頁總數(shù)。

通常,在某一個網站上可信度高的雙語URL匹配模式,不一定在所有的網站上都具有較高的可信度,而在大多數(shù)網站上都出現(xiàn)的匹配模式一般來說其可信度都較高?;谶@個假設,我們給出雙語URL匹配模式的全局可信度概念。

定義4(雙語URL匹配模式的全局可信度): 對候選網站集合W中每個網站,將模式k可能匹配上的URL總數(shù)歸一化后,與k的局部可信度相乘,然后對所有乘積求和,該乘積和稱為模式k的全局可信度,計算如式(4)所示。

(4)

其中,N為候選網站集合W中所有網站網頁總數(shù),wi為候選網站集合中第i個網站。由于N為常量值,不影響模式k全局可信度的排序結果,實驗中無需加入計算。

定義5(網站的雙語可信度): 網站w的雙語可信度為其中所有雙語URL匹配模式的局部可信度最大值,計算如式(5)所示。

C(w)=maxkC(k,w)

(5)

4 基于雙語URL匹配模式可信度的雙語網頁識別方法

在雙語URL匹配模式可信度計算的基礎上,我們提出四種適用于不同場景的雙語網頁識別方法。

4.1 基于雙語URL匹配模式局部可信度的雙語網頁識別算法

基于雙語URL匹配模式局部可信度的雙語網頁發(fā)現(xiàn)算法(圖2①)假設雙語網站中的雙語平行網頁對通常包含固定的URL匹配模式。該算法原理如下:

給定從雙語網站w采集到的所有URL地址,若其中的一對網址u與v只有一處不同,則此不同處為可能的雙語URL匹配模式。然后,我們計算網站w中的雙語匹配模式的局部可信度,給定閾值(實驗中設為0.1),得到雙語匹配模式局部可信度超過該閾值的候選雙語匹配模式,最后根據(jù)候選模式,得到候選雙語網頁[8]。

4.2 弱匹配模式救回算法

在初始算法中,設置局部可信度閾值顯然會過濾掉局部可信度低但全局可信度可能較高的雙語匹配模式及其對應的雙語網頁。為此,我們提出兩種方法來解決這一問題。

首先,對于這樣的匹配模式,我們設定一個全局可信度閾值θ(實驗中設為500)*我們給出θ=100時對應的雙語匹配模式及其全局可信度: http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/Data/Pattern_Credibility_LargeThan100.txt,若其可信度不低于θ,則仍保留該匹配模式及其對應的雙語網頁。

其次,對于兩種可信度都較低但當前網站對應域名的可信度較高*我們通過雙語URL匹配模式的可信度與域名進行關聯(lián)統(tǒng)計,得到URL集合中每個域名的可信度。的情況,由于這種類型的網站可能包含大量的雙語URL對,例如“gov.hk”域名,我們降低局部可信度閾值,從而獲取更多可能的雙語網頁。

4.3 深層雙語網頁檢測算法

有些網頁只有通過數(shù)據(jù)庫檢索才能臨時生成,這類網頁稱為深層網頁*https: //en.wikipedia.org/wiki/Deep_web_%28search%29。在雙語網站中,深層網頁包括如下幾種情況: (1)全子樹深層網頁,即網站的單語子目錄無法被抓??;(2)部分子樹深層網頁,即部分子樹對應網頁不能被抓?。?3)部分節(jié)點深層網頁,即雙語網站的某些網頁無法被抓取,尤其是動態(tài)創(chuàng)建的網頁。

我們利用全局可信度高的雙語URL匹配模式,生成深層網頁URL對應的另一語種的網頁URL。實驗中我們取全局可信度前10位的雙語匹配模式進行深層雙語網頁檢測。例如,中文網頁http: //www.fehd.gov.hk/tc_chi/LLB_web/cagenda_20070904.htm所對應的英文網頁如果爬蟲爬不到,則選擇全局可信度高的雙語匹配模式“”,用“english”替換“tc_chi”來生成英文URL*對應英文URL為: http: //www.fehd.gov.hk/english/LLB_web/cagenda_20070904.htm,目前該網頁已失效。,然后用超文本傳輸協(xié)議檢查生成的URL是否有效,若有效,則收集到候選雙語網頁對中。目前,大多數(shù)雙語網頁發(fā)現(xiàn)方法都是基于網頁結構和內容的相似度計算,而沒有事先獲得候選URL對,因此都無法發(fā)現(xiàn)深層雙語網頁。我們把深層雙語網頁檢測整合到雙語網頁發(fā)現(xiàn)方法中,可挖掘出更多高可信度的雙語網頁。

4.4 深層雙語網頁發(fā)現(xiàn)增量算法

雙語網站往往與其他的雙語網站存在鏈接關系。因此,如果給定雙語網站列表,可以通過解析網站中的網頁來采集外部網站,從而發(fā)現(xiàn)更多的雙語網站?;谠撓敕?,我們利用鏈接分析,結合網站可信度獲得更多的候選雙語網頁。

定義6(網站的鏈出數(shù)): 給定種子網站集合Wseed={w1,w2,...,wi,…,wN},其中網站wi的鏈出數(shù)是指從網站wi鏈接到Wseed中其他網站的數(shù)量總和,記為Linkout(wi)。

定義7(網站的權威度): 網站wi的權威度為其PageRank值[14],記作PR(wi)。

定義8(考慮可信度的網站權威度): 考慮可信度的網站wi權威度為wi可信度與其PageRank值的乘積,即加權的(weighted)PR值,記作WPR(wi),計算公式如式(6)所示。

WPR(wi)=C(wi)PR(wi)

(6)

為了減少系統(tǒng)開銷,Linkout(wi)和PR(wi)的計算僅依據(jù)種子網站之間的鏈接關系。根據(jù)定義6~8,網站wi包含Linkout(wi)、PR(wi)和WPR(wi)三個量值。依此,我們分別使用這三個指標來度量一個相關外部網站的可信度,即其各指標的總和: ∑Linkout、∑PR和∑WPR值。

使用這些指標的雙語網頁獲取增量算法的具體步驟如表1所示。在每次迭代中,計算相關參數(shù)并得到新的候選種子網站及其網頁。其中,預設的從外部網站選取候選網站的個數(shù)K可以換成一個適當?shù)谋壤?,或為所用遴選指標的一個經驗閾值。在我們的實驗中,為了簡化處理過程,該算法一次運行中同時計算三個遴選指標并輸出結果,K設定為500,迭代次數(shù)設定為1次。

我們邀請了兩位碩士研究生分別評估這樣獲得的候選相關雙語網站的前500個。依照上述三個指標,圖3顯示所識別的前N個候選網站中真正雙語網站的數(shù)量走勢,圖4顯示所識別的雙語網站的正確率。可以看出,∑WPR指標優(yōu)于其他兩種指標,在前500個候選網站中,識別出為真雙語網站的準確率接近50%。

表1 深層雙語網站發(fā)現(xiàn)增量算法描述

圖3 前N個候選網站中真正雙語網站的數(shù)量走勢

圖4 前N個候選雙語網站的正確率

4.5 基于少量先驗知識的雙語網頁獲取算法

為降低對初始種子網站和雙語URL匹配模式的過度依賴,我們利用搜索引擎的優(yōu)勢,僅依據(jù)少量的高可信度雙語URL匹配模式,快速識別雙語網頁[10],具體步驟如下:

(1) 獲取雙語URL匹配模式中目標語言的標識符

URL中標識語種類型的字符串通常為該語言的英文單詞或縮寫,例如英文網頁URL中可能包含“english”“eng”“en”等字符串。為此,我們可從雙語URL匹配模式中獲取目標語言的標識符。根據(jù)雙語匹配模式及其全局可信度的計算結果,得到可信度排名靠前的雙語URL模式,如“”“” “”等,其英文標識分別為“en”“eng”“english”。

(2) 依據(jù)搜索引擎快速獲取候選雙語種子站點

通過搜索引擎的搜索規(guī)則,構造查詢式,我們可以快速獲取候選的雙語種子站點。例如: 通過“site:”限定方式,可將搜索范圍限定在香港政府(gov.hk)、教育(edu.hk)等類型的網站;通過“inurl:”來保證URL中含有“en”“eng”“english”等語言標識符;此外通過“filetype:”限定URL對應的文件類型。通過查詢式“inurl: en site: gov.hk filetype: html”,我們能在Google上快速得到香港政府相關網頁,在此基礎上得到候選雙語種子站點列表。

(3) 獲取候選雙語網頁

依據(jù)雙語匹配模式的全局可信度計算結果,我們得到與目標語言標識對應的排名前N(實驗中設為5)的雙語URL匹配模式。對候選雙語網站的目標語言網址,按照可信度由高到低的順序,將目標語言標識符替換為源語言標識符,從而得到候選的源語言網頁URL。根據(jù)HTTP協(xié)議判斷源語言網頁URL是否有效,將有效的URL對作為候選的雙語網頁URL。

5 基于網頁鏈接與雙語URL匹配模式的非雙語網頁對過濾方法

一對平行雙語網頁所具有的網頁鏈接往往互為平行網頁。我們還可以根據(jù)識別出的候選平行網頁對中各自的網頁鏈接,借助少量高可信度雙語URL匹配模式計算候選網頁對中源語言與目標語言網頁的雙語相似度。然后,通過閾值進一步從候選網頁對中過濾出非雙語網頁,以提高準確率。

定義9(候選雙語網頁對的雙語相似度): 給定一對候選雙語網頁對(目標語言網頁wT和源語言網頁wS),其雙語相似度定義為它們的網頁鏈接(分別為LT和LS)中共同網頁的相似度與利用雙語URL匹配模式匹配上的雙語網頁相似度之和:

(7)

其中,α是兩者的相對權重(實驗中,設為0.5),Sim_Same(LT,LS)為LT和LS中共同網頁對的總網頁數(shù)與LT和LS總網頁數(shù)的比值:

(8)

對LT和LS中所有能夠利用雙語URL匹配模式匹配得上的雙語網頁對π,將其匹配模式k匹配上的URL總數(shù)N(k,π)=2×p(k,LT∪LS)與k的全局可信度C(k)相乘,將所有這樣的乘積和與總網頁數(shù)的比值記作:

(9)

這個基于雙語相似度的非雙語網頁對過濾算法適用于以上所有的雙語網頁對發(fā)現(xiàn)算法的輸出。

6 結果評估與分析

我們對上面提出的四種雙語網頁發(fā)現(xiàn)方法、基于少量先驗知識的雙語網頁發(fā)現(xiàn)算法以及基于網頁鏈接及匹配模式的非雙語網頁對過濾方法,進行一系列實驗,本節(jié)報告試驗結果,并進行評估與分析。

6.1 基于四種不同雙語網頁發(fā)現(xiàn)

實驗中,我們基于12 800個種子網站分別對以上四種方法所發(fā)現(xiàn)的雙語網頁進行質量評估。這些種子網站來源于香港,從如下兩個途徑獲得: 一個是香港網站目錄*http: //www.852.com/,截止2010年7月17日,該目錄列出了9 922個網站;另一個是香港萬維網數(shù)據(jù)庫*http: //www.cuhk.edu.hk/hkwww.htm,注: 該網頁現(xiàn)已失效。中的4 230個網站列表。刪除無效網站后,共獲得大約12 800個候選種子網站*http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/Data/All_Seed_Websites_List.txt。

我們開發(fā)了雙語網頁的質量評估網站*http: //mega.lt.cityu.edu.hk/~czhang22/pupsniffer-eval/,通過隨機抽樣方式對雙語網頁識別方法進行評估。我們邀請了五人(一位博士和四位碩士生)參加評估。評估人員需要判斷候選雙語網頁對是否為真實的雙語網頁對。

經過實驗,我們共發(fā)現(xiàn)348 058對候選雙語網頁。表2給出了不同方法的統(tǒng)計數(shù)據(jù)和正確率??梢钥闯觯膫€方法的整體正確率為94.72%,基于雙語URL匹配模式局部可信度的雙語網頁發(fā)現(xiàn)算法的正確率為94.06%,利用弱匹配模式救回算法、深層雙語網頁檢測算法以及深層雙語網頁發(fā)現(xiàn)增量算法,能額外多發(fā)現(xiàn)21.82%的高可信度雙語網頁。

我們也分析了實驗結果中910個的虛假雙語URL對,將它們分為五類,其中: “語言識別錯誤”,是由于Pupsniffer語言識別模塊存在識別結果錯誤而造成的;“無效URL”,是指由于網頁采集時網站正在維護或者它們本身就不存在,造成源語言或目標語言URL無效;“只有單語”,是指URL對所對應的候選雙語網頁實際上都是同一語種網頁;“內容提取錯誤”,是指有些候選網頁是非純文本文件;“虛假雙語文本”,是指從網頁內容來看候選雙語網頁不是真實的雙語網頁。經過統(tǒng)計發(fā)現(xiàn),約80%的虛假雙語URL對是由于語言識別錯誤造成的,因此從理論上來說,如果能夠解決這種類型的錯誤,識別出的雙語網頁正確率將提高至98.79%。

表2 不同雙語網頁發(fā)現(xiàn)算法的質量評估

6.2 基于少量先驗知識的雙語網頁獲取

我們依據(jù)目標語言的標識符(如“english”“eng”“en”等)及其對應全局可信度排名前五的雙語匹配模式,利用Google搜索引擎檢索到88 915對中英文URL*檢索日期為2014年2月。。同樣,我們通過隨機抽樣來評估所發(fā)現(xiàn)的雙語網頁,結果如表3所示: 4 460個中英文URL對中,有4 051對為真實的中英文雙語網頁對,雙語網頁發(fā)現(xiàn)的正確率為90.83%。雖然該方法相比于[8-9]的結果較低,但該方法僅考慮少量先驗知識、以較少的系統(tǒng)開銷即可發(fā)現(xiàn)一定規(guī)模的雙語網頁。

表3 不同雙語網頁發(fā)現(xiàn)方法的結果比較

對虛假雙語URL對的錯誤進行統(tǒng)計,發(fā)現(xiàn)虛假雙語URL對的錯誤主要集中在“只有單語”與“內容提取錯誤”這兩種類型。

6.3 非雙語網頁過濾

基于網頁鏈接與雙語URL匹配模式的雙語網頁過濾方法,可以對以上各雙語網頁發(fā)現(xiàn)算法的候選結果進行進一步過濾。本節(jié)僅報告針對7.2節(jié)中的候選雙語網頁對所進行過濾的結果。根據(jù)該節(jié)得到的候選網頁對,我們爬取到69 847*有部分網頁對未爬取到,原因是其中一個網頁失效,或兩個網頁均失效,爬蟲爬取時無反應。對有效的鏈接網址*網頁抓取日期為2016年9月。。在進行高可信度雙語URL模式匹配時,我們首先排除雙語匹配模式中非中文英文對的模式,然后選擇了全局可信度排名前30的雙語匹配模式來進行雙語候選網頁對頁面鏈接的匹配。

在計算候選雙語網頁對雙語相似度時,為了降低計算復雜度,我們在實驗中沒有考慮各個模式的可信度,不同模式可信度均為1。我們將候選雙語網頁對的雙語相似度閾值設置為0,即相似度為0時將該候選對濾掉。69 847對候選對中一共有2 664對的雙語相似度為0。這些過濾掉的網頁中,2 275對確實為非雙語候選網頁對,過濾的正確率達85.40%,它們的類型分布如表4所示。該方法僅利用網頁鏈接和部分高可信度URL匹配模式,即可過濾掉一定規(guī)模的非雙語網頁,顯然能進一步提高候選雙語網頁對的準確率。

表4 非雙語網頁對的類型分布

7 結論與未來工作

本文對基于URL組成模式的雙語網頁發(fā)現(xiàn)方法進行了比較全面的設計和實驗: (1)計算雙語URL匹配模式的可信度;(2)在可信度計算的基礎上,提出四種不同的雙語網頁識別算法;(3)利用搜索引擎的優(yōu)勢、僅依據(jù)少量的高可信度雙語URL匹配模式,快速識別雙語網頁;(4)最后,利用雙語候選網頁的雙語相似度,進一步過濾非雙語網頁對。通過實驗,我們驗證了所提方法的有效性。

今后的主要研究方向包括: (1)獲取更多候選雙語種子網站: 一方面可以通過提出的增量算法尋找雙語網站和網頁;另一方面我們可以從網上公開目錄得到候選網站列表;(2)進一步優(yōu)化雙語URL匹配模式可信度以及網站的雙語可信度計算方法,比如: 利用候選雙語網頁的鏈接關系來計算每個頁面的PageRank值,然后利用PageRank值對雙語URL匹配模式可信度進行加權;優(yōu)化雙語匹配模式全局可信度的計算方法;另外,在同一網站中考慮更多的雙語匹配模式作為雙語網站可信度計算依據(jù)。(3)研究在不需要雙語種子網站或者盡量少的雙語種子網站的情況下,獲取大規(guī)模雙語網頁的方法。(4)在本文基礎上,進一步抽取雙語平行網頁的正文、生成平行句對,最后利用標準數(shù)據(jù)集測試機器翻譯結果的BLEU值,從側面來評估本文最終生成的平行語料的質量。

[1] Brown P F,Pietra V J D.Pietra S A D,etal.The mathematics of statistical machine translation: Parameter estimation[J].Computational linguistics,1993,19(2),263-311.

[2] Davis M W,Dunning T E.ATREC evaluation of query translation methods for multi-lingual text retrieval[C]//Proceedings of the TREC-4,1995: 483-498.

[3] Resnik P.Parallel strands: A preliminary investigation into mining the web for bilingual text[C]//Proceedings of the AMTA 1998: MachineTranslation and the Information Soup,1998: 72-82.

[4] Ma X,Liberman M.Bits: A method for bilingual text search over the web[C]//Proceedings of the Machine Translation Summit VII,1999: 538-542.

[5] ChenJ,NieJ-Y.Parallel web text mining for cross-language IR[C]//Proceedings of the RIAO2000,2000: 62-77.

[6] Chen J,Chau R,Yeh C-H.Discovering parallel text from the WorldWideWeb[C]//Proceedings of the 2nd Workshop on Australasian Information Security,Data Mining and Web Intelligence,and Software Interna-tionalisation,2004(32): 157-161.

[7] Zhang Y,Wu K,Gao J,etal. Automatic acquisition of Chinese-English parallel corpus from the web [C]//Proceedings of the 2006 European Conference on Advances in Information Retrieval. 2006: 420-431.

[8] Kit C,Ng J Y H.An intelligent web agent to mine bilingual parallel pages via automatic discovery of URL pairing patterns[C]//Proceedings of the 2007 IEEE/WIC/ACM International Conferences on Web Intelligence & Intelligent Agent Technology Workshops,2008: 526-529.

[9] Zhang C,Yao X,Kit C.Finding more bilingual webpages with high credibility via link analysis [C]// Proceedings of the Sixth Workshop on Building and Using Comparable Corpora,2013: 138-143.

[10] Ma S,Zhang C.Automatic collection of the parallel corpus with little prior knowledge[C]//Proceedings of the 2014 China National Conference on Computational Linguistics,2014: 95-106.

[11] Shi L,Niu C,Zhou M,etal.A DOM tree alignment model for mining parallel data from the web[C]//Proceedings of the 2006 International Conference on Computational Linguistics and the 44th annual meeting of the Association for Computational Linguistics.2006: 489-496.

[12] 劉奇,劉洋,孫茂松.URL模式與HTML結構相結合的平行網頁獲取方法[J].中文信息學報,2013,27(3),91-99.

[13] Liu L,Hong Y ,Lu J,Lang J,Ji H ,&Yao J.An iterative link-based method for parallel web page mining. [C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.2014: 1216-1224.

[14] Brin S,Page L.The anatomy of alarge-scale hyper-textual web search engine[J].Computer networks and ISDN systems,1998,30(1),107-117.

猜你喜歡
平行雙語網頁
向量的平行與垂直
平行
逃離平行世界
基于HTML5與CSS3的網頁設計技術研究
基于CSS的網頁導航欄的設計
基于HTML5靜態(tài)網頁設計
基于URL和網頁類型的網頁信息采集研究
再頂平行進口
快樂雙語
快樂雙語
湘潭县| 蕉岭县| 涿州市| 绍兴市| 乳源| 颍上县| 布拖县| 桃园市| 天台县| 平邑县| 五家渠市| 新安县| 丁青县| 杭锦后旗| 五河县| 亳州市| 广德县| 铜陵市| 固阳县| 奎屯市| 灵武市| 库尔勒市| 阳城县| 康乐县| 龙里县| 龙游县| 呼图壁县| 宝丰县| 凉山| 洞口县| 九龙城区| 登封市| 灵台县| 涡阳县| 通海县| 海兴县| 土默特右旗| 双牌县| 祁东县| 山东省| 郑州市|