国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多特征的漢泰雙語新聞主題句相似度計算

2018-03-02 17:32孫帥強郜洪奎
軟件 2017年9期

孫帥強+郜洪奎

摘 要:句子相似度的計算是自然語言處理領(lǐng)域中的重要研究課題,它在信息檢索、文本挖掘、機器翻譯等領(lǐng)域占有重要的作用。為提高漢泰雙語新聞主題句相似度計算的準確率,本文根據(jù)漢泰雙語新聞主題句的句式特點,提出了一種融合多特征的漢泰雙語新聞主題句相似度計算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關(guān)系特征,并通過對不同的特征加不同的權(quán)重來調(diào)節(jié)各個特征對相似度計算的貢獻,從而使計算結(jié)果達到最優(yōu)。與基于詞典的方法進行比較,實驗結(jié)果表明,該方法使得準確率提高了5.9%。

關(guān)鍵詞:漢泰雙語;新聞主題句;相似度計算;多特征融合;權(quán)重

融合多特征的漢泰雙語新聞主題句相似度計算

孫帥強 郜洪奎

摘 要:句子相似度的計算是自然語言處理領(lǐng)域中的重要研究課題,它在信息檢索、文本挖掘、機器翻譯等領(lǐng)域占有重要的作用。為提高漢泰雙語新聞主題句相似度計算的準確率,本文根據(jù)漢泰雙語新聞主題句的句式特點,提出了一種融合多特征的漢泰雙語新聞主題句相似度計算方法。在選取詞性、句法成分作為有效特征外,引入句子依存關(guān)系特征,并通過對不同的特征加不同的權(quán)重來調(diào)節(jié)各個特征對相似度計算的貢獻,從而使計算結(jié)果達到最優(yōu)。與基于詞典的方法進行比較,實驗結(jié)果表明,該方法使得準確率提高了5.9%。

關(guān)鍵詞:漢泰雙語;新聞主題句;相似度計算;多特征融合;權(quán)重

0 引言

句子相似度是對句子間的相似性給出一個度量,其在自然語言處理領(lǐng)域占有很重要的地位。句子相似度的計算是信息檢索、機器翻譯、自動問答系統(tǒng)以及多文檔文摘等應用領(lǐng)域中的關(guān)鍵技術(shù)之一。目前,大多數(shù)的句子相似度研究都僅針對單語環(huán)境,主要包括基于編輯距離、基于詞和詞序、基于語義依存、基于框架語義分析、基于本體詞典或知網(wǎng)語義以及基于語義單元的句子相似度等計算方法。雙語環(huán)境下句子間的相似度由于語言之間的轉(zhuǎn)換會引入更多的噪聲,同時也需要使用更多的資源,使問題更為復雜。

目前,雙語句子相似度的計算方法主要有兩種:一種是利用雙語平行語料;另外一種是利用雙語詞典。基于平行語料的方法就是利用大規(guī)模的語料去統(tǒng)計貢獻的詞對或者在找出相似的句對的基礎上作詞語的替換,但是這種方法的準確性取決于語料庫的規(guī)模和質(zhì)量;基于詞典的方法就是利用雙語詞典找出句子中互譯的詞對,雖然沒有基于平行語料那樣對大規(guī)模語料庫的依賴,但是基于詞典的方法會出現(xiàn)一詞多譯的現(xiàn)象。目前,面向英語、法語、德語、漢語等多種語言的句子相似度研究都得到了快速的發(fā)展,如張貫虹等利用詞典和詞向量空間模型計算漢蒙句子的相似度。Erdmann等人使用機器翻譯工具將源文本翻譯成目標文本所用的語言然后再使用單語言句子相似度算法計算英德兩者之間的句子相似度;Smith等人利用漢英之間的翻譯概率詞典,將所含的互譯詞對的個數(shù)作為相似性的度量。但關(guān)于漢泰雙語句子相似度的研究目前還不多見。因此,本文結(jié)合漢泰雙語新聞主題句的句式特點,提出了一種基于多特征的漢泰新聞主題句相似度計算方法。該方法融合了詞性、句法成分和句子依存關(guān)系三個特征,可以更全面、更準確地衡量漢泰句子之間的相似度。

1 漢一泰新聞主題句描述

新聞主題句是從新聞的核心事件中抽取得到,且概括了新聞發(fā)生的時間、地點、參與者等信息,是由中心詞(或者說觸發(fā)詞)及其連接起來的有約束作用的主要組成部分(如參與者、時間、地點等)構(gòu)成。與一般的句子相比,新聞主題句更關(guān)注的是事件的發(fā)生時間、地點、人物等要素。所以漢泰雙語新聞主題句相似度的計算不僅要考慮一般句子相似度計算,還要考慮加入句子中心詞以及和中心詞有聯(lián)系的事件要素的相似度計算。

根據(jù)Web新聞特點,新聞主題句的句法比較固定的使用主謂賓的形式,而漢泰兩種語言的主干成分的語序在句式上基本一致。下面的一個例子是從漢泰雙語新聞中抽出來的一個平行的新聞主題句對,標有特殊字體的是句子的主干,相同的特殊字體代表互譯,兩個句子的主干都符合S+V+B的句式:

中文句子:中國首架極地固定翼飛機成功飛越南極最高區(qū)。

泰語句子:

2 基于漢泰新聞主題句不同特征的相似度計算

通過對新聞主題句的深入分析,并結(jié)合漢泰的句式特點,我們提出了一種基于多特征的漢泰新聞主題句相似度計算方法,選擇詞性、句法成分和句子依存關(guān)系三個特征,分別計算他們的相似度?;诙嗵卣鞯男侣勚黝}句相似度計算方法框架如圖1所示。下面分別對基于這三個特征的主題句相似度的計算方法進行具體描述。

2.1 詞性相似度計算

詞性表示詞所屬的類別,是語言的基本結(jié)構(gòu)。詞性的不同往往引起詞義和作用的不同。如下面兩個句子:

句子1:中國召開了“兩會”,為未來的發(fā)展指明了方向。

句子2:“兩會”的召開,為未來的發(fā)展指明了方向。

在上述例子中,“召開”一詞在兩個句子中的詞性不一致,句子1中是動詞,作謂語;句子2中為名詞,作主語。因此可以看出,詞性的不一樣導致了兩個詞在句子中所起的作用也不一樣。

新聞的主題句就是對新聞所報道的事件的一個全面的概括,基本上涵蓋了新聞事件的所有要素。所以在漢泰新聞主題句相似度計算時,我們更關(guān)注的是句子中所含有的實體要素和句子的中心詞。所以我們在計算漢泰新聞主題句同性相似度的時候只選擇句子中的表示時間的詞性(t)、名詞詞性(N)、和動詞詞性(V)來做詞性的相似度。計算公式如下所示:其中,cn、ct、cv分別表示中文句子分詞后詞性為名詞、時間詞和動詞的數(shù)量;vn、vn、vv。分別表示泰語句子分詞后詞性為名詞、時間詞和動詞的數(shù)量。相似度中除以3是對詞性的一種平滑。

2.2 句法成分相似度計算endprint

漢語和泰語都是基于語義的句子,并且在Web新聞中,主題句一般采用比較通用的主謂賓的句式。在這種句式中,漢泰雙語在句法和句子成分方面一致的。所以在相似的漢泰新聞主題句中,句子成分也是有著很大的相似性。根據(jù)這個特點,我們在計算漢泰雙語新聞主題句相似度的時候,將雙語句子的句子成分考慮在內(nèi)。

經(jīng)過對漢泰雙語的新聞主題句的句法分析,我們可以得到雙語句子的各個句法成分信息。根據(jù)分析,本文選取了主謂、動賓、定中、狀中和動補這五大類句法成分信息,并且用向量來表示這五大類句子成分在句子中出現(xiàn)的次數(shù),叫做句法成分向量。并且用求余弦夾角的方法求出兩個句子的句子成分向量的相似度。

例如:

句子1:世界經(jīng)濟增長的重要推動力量是中國。

句子2:(中國依然是世界經(jīng)濟增長的重要推動力量)。

對句子1和2經(jīng)過句法分析后,可以得到句子1和2成分關(guān)系向量分別為: A1[2,2,2,1,0],A2[2,2,2,2,0]。句子l和2成分關(guān)系向量的余弦相似度計算公式如下所示:

帶入向量A1和A2,最后得到句子l和句子2的句法成分相似度為0.97。

2.3 句子依存關(guān)系相似度計算

在句子中,每一個詞并不是獨立存在的,它們每一個的存在都具有語法意義上的作用。所以在句子相似度的計算過程中,利用句子中的詞語和他們之間的依存關(guān)系可以更好的去表征兩個句子之間的相似度?;诖宋覀儗h泰雙語的新聞主題句進行句法分析,中文句子利用哈工大的LTP平臺進行句法分析‘14],泰語句子利用昆明理工大學智能信息處理重點實驗室的句法分析工具。下邊的例子是利用上述的工具分別對漢泰句子進行句法分析,結(jié)果如圖2、圖3所示:

通過上面對句子的句法分析我們可以發(fā)現(xiàn),無論是漢語句子還是泰語句子,都有一個在句法中被稱為ROOT的詞語來串聯(lián)整個句子,其他的詞語都是圍繞這個詞來進行修飾描述的,我們稱這個詞為根項。其他的詞有些和根項直接關(guān)聯(lián),有些不直接和根項直接關(guān)聯(lián),我們統(tǒng)稱為非根項。在非根項中我們選擇和根項有主謂、謂賓關(guān)系的詞語作為直接項,再從剩余的詞語中選擇實體詞,即時間、地點、人物作為非直接項。

下面,采用巴克斯范式(BNF范式)形式化定義漢泰主題句。

主題句::=<非直接項×直接項><根項>

非直接項::=<時間×地點><人物><動作>l<時間><地點><人物>l<時間><地點×動作>l<時間><人物><動作>l<地點><人物><動作>l<時間><地點>l<時間><人物>l<時間><動作>l<地點><人物>l<地點><動作>l<人物><動作>l<時間>l<地點>l<人物>l<動作>

直接項::=<對象1><對象2>l<對象1>1<對象2>

<時間>::=時間表示格式

<地點>::=地點表示格式

<人物>::=人物表示格式

<對象1>:=可表示為人物或者地點

<對象2>:=可表示為人物或者地點

直接項和非直接項中的人物、地點等實體是可以重復的。利用上述范式表示,例子中的中文句子可以表示成{中國,南極,飛機,最高區(qū),飛越};泰語句子可以表示成

通過上述范式表述,將漢泰新聞主題句表述成向量模式,即:

主題句={直接項,非直接項,根項}

轉(zhuǎn)換為數(shù)學表達式為:

其中,o表示人物實體,f表示時間實體,,表示地點實體,v表示動作要素,o1和o2表示根項中人物、地點實體,廠表示非直接項,z表示直接項,r表示根項。

公式(3)給出了漢泰雙語主題句的依存關(guān)系表示模型,下邊就是為每個維度賦值,我們采用以下策略:

(1)初始化向量:將對應的句子成分映射到公式(3)所示的向量空間模型中,若對應的維度上有實體我們就將權(quán)值置為1,否則置為0。

(2)調(diào)節(jié)泰語句子權(quán)重:若sv和sc,對應維度上的初始權(quán)重不都是1我們不需要調(diào)節(jié);針對權(quán)重都是1的維度我們采用相似度方法來調(diào)節(jié),對于時間要素若是相差一天之內(nèi)我們將泰語句子的權(quán)重置為0.5,若是相差大于一天我們將泰語權(quán)重置為0。具體相似度的計算方法是借助維基百科中的概念可以表征詞語的特性,用維基百科中的概念作為向量空間,對詞語進行向量表示。

通過以上兩個步驟我們可以得到漢泰和泰語句子的依存句法向量,然后利用向量之間的余弦相似度計算兩個句子的依存句法相似度,如下式所示:

2.4 漢泰雙語新聞主題句計算

綜合以上三個方面的特征,給出如下具有多特征的漢泰雙語新聞主題句相似度的計算公式如下:

其中,α、β、γ分別是區(qū)分度的權(quán)重,取值都在o到1之間且α+β+γ=l。我們的目標函數(shù)是尋找一組可能的參數(shù)組合α,β,γ,在隨后的相似度計算評價函數(shù)中,使準確率的指標值達到最大。我們?nèi)斯みx取了100對相似的漢泰新聞主題句,采用遺傳算法求權(quán)重,根據(jù)經(jīng)驗取適當?shù)拇鷶?shù),經(jīng)過多次迭代選優(yōu),找jL}{參數(shù)的最佳組合。最后我們?nèi)ˇ?o.15,β=0.35,γ=0.5。

3 實驗與結(jié)果分析

3.1 實驗數(shù)據(jù)集

對于新聞語料的來源,本文選取了主流的180個中文門戶網(wǎng)站和20個論壇,以及125個不同專題的泰語網(wǎng)站。中文新聞包括人民日報、新華社、門戶網(wǎng)站,泰語網(wǎng)站也以每日新聞、早報、芭堤雅新聞在線等核心平臺為主。

本文從爬取到的漢泰新聞語料中抽取出2487個句子,其中有2000個句子是噪音句子,構(gòu)成噪音集,沒有類別區(qū)分;另外487個句子構(gòu)成標準集,它們分屬于軍事、體育和社會政治三個大類,各個大類別中含有157、145、185個句子。在句子處理過程中,中文分詞使用中科院的分詞工具ICTCLAS3.0,中文的語法分析利用哈工大的語言技術(shù)平臺云LTP。泰語的分詞、詞性標注均采用昆明理工大學智能信息處理實驗室開發(fā)的工具,實驗時我們把標準集和噪聲集混到一塊進行試驗。具體的實驗語料如表1所示:

3.2評價指標

本文采用準確率(Precision)來進行評價本文方法的性能.

3.3 實驗結(jié)果對比與分析

將本文提出的基于多特征的漢泰新聞主題句相似度計算方法與基于詞典的雙語句子相似度計算方法進行對比,對比試驗結(jié)果如表2所示:

實驗結(jié)果顯示兩種方法在體育和軍事這兩個類別下的準確率都不及社會政治,原因是這兩個類別下的新聞報道在書寫方面都沒有社會政治類別規(guī)范,尤其是體育類別中經(jīng)常會出現(xiàn)各種人名,在分詞過程中很容易分錯;軍事領(lǐng)域中許多的武器介紹,武器名字也會在分詞的過程中錯誤分掉。

雖然兩個方法在不同的領(lǐng)域有著不同的問題存在,但是還是能看出來本文提出的基于多特征的漢泰新聞主題句相似度計算方法在三個領(lǐng)域中的準確率都要高于基于詞典的雙語句子相似度計算方法,平均準確率更是高于基于詞典的方法。所以說本文提出的基于多特征的漢泰新聞主題句相似度計算方法是可行的。

4 結(jié)語

本文通過分析漢泰雙語新聞主題句的特點,選取了漢泰新聞主題句的三個特征,即詞性特征、句子成分特征和句子依存關(guān)系特征,并通過對不同的特征加不同的權(quán)值來調(diào)節(jié)各個特征對相似度計算的貢獻,進而提高漢泰新聞主題句的相似度。實驗結(jié)果表明,該方法是有效可行的.下一步以融合更豐富的語言特征以及語義特征,進一步提高漢泰新聞主題句的相似度的準確率。endprint

民乐县| 广南县| 贵德县| 会昌县| 常德市| 晋宁县| 当阳市| 汉阴县| 莱阳市| 博罗县| 垣曲县| 三门峡市| 满城县| 翁牛特旗| 宣汉县| 区。| 阿合奇县| 桓仁| 定边县| 贞丰县| 永德县| 新宁县| 宁阳县| 邢台市| 康定县| 彩票| 双流县| 阳高县| 方城县| 定西市| 荆门市| 甘洛县| 花莲市| 涡阳县| 垫江县| 噶尔县| 广昌县| 固阳县| 贵南县| 神农架林区| 普兰县|