国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

漢語有標記并列結構自動識別方法綜述

2014-08-15 00:50劉小蝶
語文學刊 2014年8期
關鍵詞:自動識別短語邊界

○劉小蝶

(北京師范大學 中文信息處理研究所,北京 100875)

一、引言

有標記的并列結構(下文簡稱并列結構)指的是有顯性連詞“和、與、跟、同、并且、且”和連接符號“、”連接的并列結構,是漢語中一種很常見的短語結構組合,能否正確地識別出有標記并列結構,對提高句子的句法分析準確率、機器翻譯的質量有著重要的意義。并列結構的自動識別作為“語塊的識別和分析”的一個內容,因為需要綜合運用語法、語義等多方面的語言學知識,長期以來一直是語言信息處理中的難點,在自動識別研究方面的成果并不多。

從方法論的角度來說,語言信息處理中的自動識別研究可以分為基于規(guī)則的方法和基于統(tǒng)計的方法以及規(guī)則和統(tǒng)計相結合的混合方法。下面,我們將對三種方法并列結構的自動識別做個簡單的介紹和評價。

二、基于規(guī)則的方法的研究

規(guī)則的方法主要依靠專家總結的語言規(guī)律,對具體的領域、語言表達格式有要求。其識別并列結構的依據是并列結構各并列項之間存在某種相似性,如中心語相似和結構平行。

詹衛(wèi)東(2000)對聯(lián)合式名詞短語、形容詞性短語和動詞性短語以及動詞性短語中的連謂結構分析時,卻得出內部組成成分的限制條件目前還難以描述的結論。

吳文芳(2013)結合現(xiàn)代漢語并列結構的語言特點,提出“中心詞驅動的并列結構識別策略”,該策略充分利用詞性這種簡單的句法信息,而基本未觸及語義信息;識別時,需要用到其他短語識別結果;未詳細交代如何確定左右邊界集合內的若干邊界中唯一一個邊界。

王東波(2008)基于統(tǒng)計得到規(guī)則模板和并列結構候選集,對候選集匹配規(guī)則模板得出并列結構,最后,通過詞形和詞綴相同計算語義相似度再次篩選。此方法中獲取規(guī)則模板和并列結構候選集都是基于統(tǒng)計的,比較簡單粗糙,而目前詞語語義計算缺乏量化和精確化,靠其篩選出來的并列結構錯誤率當然很高。苗艷軍(2009)將并列結構劃分為六大類,根據不同的類型制定不同的識別策略。作者對結構平行性的理解和使用局限于并列項中各詞的詞性序列的相似。王文和苗文中所謂的規(guī)則是根據語料庫中的統(tǒng)計數(shù)據提取的詞語序列的排列,本質上并不是真正的基于規(guī)則的方法。

三、基于統(tǒng)計的方法的研究

基于統(tǒng)計的方法主要依靠各種模型識別并列結構,其健壯性和靈活性比較好,不需要太多的人工干預領域知識,隨著計算機技術的進步,語料庫規(guī)模的不斷擴大,統(tǒng)計的方法在并列結構的自動識別中逐步得到應用。

周強(2003)依據漢語中的一個基本假設:“詞性相同、結構相同、語義類相同、音節(jié)數(shù)相同的項并列是最理想、最嚴格的并列”,通過基于動態(tài)規(guī)劃的最佳路徑選擇和路徑評分閾值的限制判斷識別并列結構。此文中的假設是典型的、理想的并列結構形式,對并列成分的長度有著強烈的要求,且路徑基本分的計算是詞語對相似度評分的簡單累加,當處理真實文本中很多非理想的并列結構或者較長的句子時,該算法難以發(fā)揮作用。

王東波(2008)使用條件隨機場模型(CRF)把有標記并列結構自動識別的任務看成文本中詞語與詞性序列選擇標記、確定邊界的過程。但特征是基于CRF的有標記并列結構自動識別的核心,特征選擇的好壞將影響CRF模型識別的性能。此模型對簡單的并列結構識別效果不錯,因為條件隨機場的訓練和解碼的開源工具還只支持鏈式的序列,尚不支持復雜的序列,而且訓練非常耗時。

苗艷軍(2009)采用最大熵模型通過給并列結構每個詞設置一個標記就可以將識別問題轉化為分類問題加入了錯誤驅動學習的方法,針對最大熵模型標注的錯誤部分進行改進。吳文芳(2013)利用基于支持向量機(SVM)模型將識別任務仍視為一個分類問題,此模型在嵌套并列結構、多并列項并列結構、單個詞并列結構中識別錯誤率很高。吳文在比較了基于規(guī)則的方法后,證明基于支持向量機(SVM)模型方法效果不如基于規(guī)則的方法。苗文和吳文中的模型都需要選擇合適的特征訓練,此模型只對簡單的并列結構識別效果顯著。

四、統(tǒng)計和規(guī)則相結合的方法

苗艷軍(2009)提出了一種統(tǒng)計和規(guī)則相結合的對并列結構的邊界進行識別的方法。該方法先從含有并列結構的句子中學習一個最大熵概率模型,然后以此概率模型為基礎對句子中的每個詞進行邊界預測,從而得到一個邊界預測序列。其次根據并列結構的特點建立了規(guī)則庫,用這些規(guī)則對邊界預測序列進行再處理,得到最終的并列結構的邊界。該方法先是基于統(tǒng)計在簡單的并列結構方面處理得較好,其次用規(guī)則加以修正,提高了簡單并列結構的識別的正確率。

五、結束語

本文簡要地介紹了近年來在并列結構自動識別領域出現(xiàn)的一些有代表性的方法和實踐,基于規(guī)則和統(tǒng)計的方法各有劣勢:基于規(guī)則的方法往往依賴專家知識、具體的領域、語言表達格式,可移植性差,并且規(guī)則不能涵蓋所有的并列結構現(xiàn)象;基于統(tǒng)計的方法對訓練語料中并列結構的特征和并列項長度有強烈的依賴和限制,提取的特征主要使用詞語、詞長、詞性等,對于構成略微復雜的并列結構來說,這些特征并不能有效解決識別問題。

目前,不管是基于規(guī)則的方法還是基于統(tǒng)計的方法存在的問題是對并列結構的分析不夠深入,具體表現(xiàn)在:1)對詞類知識有強依賴,因此正確的詞語切分和詞性標注是并列結構準確識別的前提,尤其是并列標記“和/與”是連詞和介詞的兼類,其正確性直接影響并列結構的識別的結果。2)較少涉及語義信息,多使用字符串的詞形或詞綴相同。

并列結構的正確界定需要依據并列成分的結構特點和語義關系等信息,這兩項問題的解決需要努力的方向:1)對并列結構深入研究,深挖并列結構的規(guī)律。2)開發(fā)一套系統(tǒng)的公認的現(xiàn)代漢語詞匯語義分類體系或詞匯語義表示體系。3)開發(fā)大規(guī)模、高質量的標注多種信息的能夠共享的漢語語料庫。

[1]吳云芳.面向中文信息處理的現(xiàn)代漢語并列結構研究[M].北京師范大學出版社,2013.

[2]吳云芳.并列成分中心詞語義相似性考察[J].當代語言學,2005(4).

[3]吳云芳.動詞性并列結構的結構平行[J].語言科學,2004(6).

[4]詹衛(wèi)東.面向中文信息處理的現(xiàn)代漢語短語結構規(guī)則研究[M].清華大學出版社,2000.

[5]王東波.基于規(guī)則的單層單標記并列結構自動識別[J].文教資料,2008,29~31.

[6]王東波,陳小荷,年洪東.基于條件隨機場的有標記并列結構自動識別[J].中文信息學報,2008(22).

[7]苗艷軍.漢語并列結構的自動識別[D].蘇州大學,2009.

[8]周強.漢語語料庫的短語自動劃分和標注研究[D].北京大學,2003.

[9]王東波.有標記并列結構的自動識別[D].南京師范大學,2008.

[10]苗艷軍,李軍輝,周國棟.統(tǒng)計和規(guī)則相結合的并列結構自動識別[J].計算機應用研究,2009(26).

猜你喜歡
自動識別短語邊界
基于數(shù)據挖掘的船舶航跡自動識別系統(tǒng)
拓展閱讀的邊界
探索太陽系的邊界
意大利邊界穿越之家
基于衛(wèi)星遙感圖像的收費站位置自動識別與校核
船舶自動識別系統(tǒng)對船舶救助的影響
論中立的幫助行為之可罰邊界
自動識別系統(tǒng)
《健民短語》一則
襄垣县| 岱山县| 中山市| 紫金县| 红桥区| 龙门县| 顺义区| 确山县| 祁连县| 乌审旗| 日土县| 鄂尔多斯市| 武鸣县| 江油市| 彭山县| 贵南县| 庆阳市| 新闻| 芒康县| 色达县| 林周县| 大埔县| 聊城市| 徐州市| 锡林郭勒盟| 大田县| 新巴尔虎左旗| 铅山县| 怀仁县| 梅州市| 灵丘县| 武城县| 瑞丽市| 沛县| 柳州市| 娱乐| 泰顺县| 镇江市| 新巴尔虎左旗| 洛宁县| 光泽县|