国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)言技術(shù)平臺(tái)

2011-06-28 07:23車(chē)萬(wàn)翔李正華
中文信息學(xué)報(bào) 2011年6期
關(guān)鍵詞:分詞詞義語(yǔ)義

劉 挺,車(chē)萬(wàn)翔,李正華

(哈爾濱工業(yè)大學(xué) 社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)

1 引言

中文信息處理的研究不僅需要基礎(chǔ)數(shù)據(jù)平臺(tái)(如北大語(yǔ)法詞典、《知網(wǎng)》等)的支撐,而且需要基礎(chǔ)技術(shù)平臺(tái)的支撐。研制中文信息處理基礎(chǔ)技術(shù)平臺(tái)的意義包括以下幾個(gè)方面。

(1) 支撐各類(lèi)應(yīng)用課題的研究

越來(lái)越多的研究者在研究其所在應(yīng)用領(lǐng)域的課題時(shí),迫切需要中文信息處理基礎(chǔ)技術(shù)的支持,這些應(yīng)用領(lǐng)域包括搜索引擎、Web挖掘、多媒體檢索、電子商務(wù)、數(shù)字圖書(shū)館等。他們沒(méi)有精力自行研發(fā)中文處理的基礎(chǔ)技術(shù),并且從學(xué)術(shù)分工的角度,也不應(yīng)該由他們?nèi)パ芯窟@些技術(shù)。因此,如果能夠研制一整套的中文處理基礎(chǔ)技術(shù)平臺(tái),將有利地推動(dòng)各應(yīng)用課題的研究。同時(shí),如果平臺(tái)能夠提供可視化功能,也會(huì)使上層應(yīng)用者更直觀地理解平臺(tái),如句法分析等深層自然語(yǔ)言處理技術(shù),方便他們更好地將平臺(tái)在實(shí)際系統(tǒng)中進(jìn)行應(yīng)用。

(2) 便于基礎(chǔ)技術(shù)的協(xié)作研究

中文信息處理領(lǐng)域內(nèi),很多家單位,甚至一家研究單位內(nèi)部的各個(gè)研究組都有自己的分詞、詞性標(biāo)注技術(shù),大多數(shù)這樣的技術(shù)性能指標(biāo)差距不大,但標(biāo)準(zhǔn)不一接口不一,各自為戰(zhàn)無(wú)法相互借鑒,重復(fù)開(kāi)發(fā)浪費(fèi)人力物力。一些從事中文處理基礎(chǔ)研究的單位在研制句法、語(yǔ)義分析技術(shù),這些技術(shù)更是需要耗費(fèi)大量的精力,如果能夠較為清晰地定義各層處理技術(shù)之間的數(shù)據(jù)交換規(guī)范,則有利于同行們聯(lián)合研究,使各項(xiàng)技術(shù)能夠有效地積累。

(3) 便于多項(xiàng)基礎(chǔ)技術(shù)的系統(tǒng)化研究

以往每家單位往往著重研究某一項(xiàng)基礎(chǔ)技術(shù),但語(yǔ)言處理的各項(xiàng)技術(shù)具有分層協(xié)同的特點(diǎn)。例如,分詞的一個(gè)小錯(cuò)誤可能導(dǎo)致句法分析的嚴(yán)重錯(cuò)誤,而詞性標(biāo)注對(duì)分詞結(jié)果又有一定的糾錯(cuò)功能,如果能夠在一個(gè)統(tǒng)一的平臺(tái)中涵蓋各項(xiàng)基礎(chǔ)技術(shù),則有可能借助一些可視化工具更清楚地看到語(yǔ)言處理中各項(xiàng)技術(shù)之間的復(fù)雜關(guān)系,從而推進(jìn)語(yǔ)言處理技術(shù)的系統(tǒng)化研究,還可以將技術(shù)指標(biāo)最高的各單項(xiàng)技術(shù)集成起來(lái),打造性能最優(yōu)的語(yǔ)言處理系統(tǒng)。

本著以上目標(biāo),我們從2003年開(kāi)始建設(shè)“語(yǔ)言技術(shù)平臺(tái)LTP(Language Technology Platform)”,LTP是一套包括分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、依存句法分析、詞義消歧和語(yǔ)義角色標(biāo)注6項(xiàng)中文處理技術(shù)的基礎(chǔ)技術(shù)平臺(tái)。LTP使用XML作為底層數(shù)據(jù)表示,提供了豐富、高效的中文處理技術(shù)、豐富的應(yīng)用程序接口、可視化工具和語(yǔ)料庫(kù)資源,并能夠以網(wǎng)絡(luò)服務(wù)(Web Service)的形式進(jìn)行使用。為了促進(jìn)自然語(yǔ)言處理研究的發(fā)展,我們免費(fèi)將LTP共享給學(xué)術(shù)界并開(kāi)放了源代碼。迄今為止,國(guó)內(nèi)外很多研究機(jī)構(gòu)基于LTP發(fā)表了學(xué)術(shù)成果?;谝陨县暙I(xiàn),LTP獲得了中國(guó)中文信息學(xué)會(huì)2010年頒發(fā)的“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”的一等獎(jiǎng)。

2 相關(guān)研究工作

自然語(yǔ)言處理平臺(tái)的開(kāi)發(fā)一直是很多關(guān)注應(yīng)用的研究人員的目標(biāo),國(guó)外已有一些著名的自然語(yǔ)言處理平臺(tái),典型的如: GATE、UIMA和NLTK。

GATE(General Architecture for Text Engineering)*http://gate.ac.uk/,是英國(guó)謝菲爾德大學(xué)自然語(yǔ)言處理組開(kāi)發(fā)的自然語(yǔ)言處理平臺(tái),包含一個(gè)統(tǒng)一的基于Java的開(kāi)源體系結(jié)構(gòu)和圖形化的開(kāi)發(fā)環(huán)境[1]。GATE采用了基于組件的體系結(jié)構(gòu),語(yǔ)言處理、語(yǔ)料及可視化資源都被表示為組件,從而可以促進(jìn)資源的重用。GATE提供了大量可重用的組件,被用來(lái)進(jìn)行自然語(yǔ)言處理的相關(guān)教學(xué)和研究。另外,GATE提供了一組集成的圖形化工具,幫助使用者建立、修改和調(diào)試各種資源。

UIMA(Unstructured Information Management Architecture)*http://www.research.ibm.com/UIMA/是一個(gè)用于開(kāi)發(fā)、部署非結(jié)構(gòu)化信息管理應(yīng)用的軟件架構(gòu)[2]。它通過(guò)對(duì)文本、視頻、音頻、圖片等非結(jié)構(gòu)化信息的內(nèi)容進(jìn)行分析和組織,從而獲取相關(guān)知識(shí),產(chǎn)生結(jié)構(gòu)化的、易于獲取的數(shù)據(jù),交付給終端用戶(hù)使用。分析技術(shù)包括: 基于統(tǒng)計(jì)的、基于規(guī)則的自然語(yǔ)言處理技術(shù),信息檢索、機(jī)器學(xué)習(xí)、本體知識(shí)、自動(dòng)推理等。UIMA和GATE類(lèi)似,都采用了基于組件的設(shè)計(jì)模式,將語(yǔ)言處理核心算法和其他系統(tǒng)服務(wù)如數(shù)據(jù)存儲(chǔ)、組件間通信、結(jié)果可視化等分離。UIMA強(qiáng)調(diào)對(duì)已有技術(shù)的利用、可擴(kuò)展性、中間件和平臺(tái)無(wú)關(guān)性。

NLTK(Natural Language Toolkit,自然語(yǔ)言處理工具包)*http://www.nltk.org/是一套用于自然語(yǔ)言處理的Python程序庫(kù)[3]。NLTK包含圖形化的演示和樣本數(shù)據(jù)。它還包含一整套擴(kuò)展文檔,支持這套工具集在自然語(yǔ)言處理中相關(guān)概念的解釋。NLTK被廣泛應(yīng)用于自然語(yǔ)言處理的教學(xué)和研究中。

以上各平臺(tái)的一個(gè)共性問(wèn)題是它們都強(qiáng)調(diào)系統(tǒng)的體系結(jié)構(gòu),但缺乏精準(zhǔn)的語(yǔ)言分析技術(shù),尤其是缺乏中文分析技術(shù),這些系統(tǒng)多采用常規(guī)的自然語(yǔ)言分析方法,而沒(méi)有使用學(xué)術(shù)界最新的研究成果。因此,有必要開(kāi)發(fā)一套針對(duì)中文的高精度的自然語(yǔ)言處理平臺(tái)。

3 語(yǔ)言技術(shù)平臺(tái)

2006年4月,哈工大社會(huì)計(jì)算與信息檢索研究中心推出了語(yǔ)言技術(shù)平臺(tái)(Language Technology Platform, LTP)*http://ir.hit.edu.cn/ltp/。LTP是一個(gè)中文處理的集成平臺(tái),囊括了詞法分析(包括分詞、詞性標(biāo)注和命名實(shí)體識(shí)別)、句法分析(依存句法分析)、語(yǔ)義分析(詞義消歧和語(yǔ)義角色標(biāo)注)三方面六項(xiàng)語(yǔ)言處理基礎(chǔ)技術(shù)。其系統(tǒng)框架如圖1所示。最基礎(chǔ)的是知識(shí)資源和數(shù)據(jù)資源,基于這些資源,我們構(gòu)建了詞法、 句法和語(yǔ)義分析技術(shù),各項(xiàng)技術(shù)的數(shù)據(jù)表示和交換均基于我們自定義的XML數(shù)據(jù)格式,最終的分析結(jié)果通過(guò)應(yīng)用程序接口(API)或者網(wǎng)絡(luò)服務(wù)(Web Service)的方式向上層應(yīng)用程序提供,或以可視化的方式直接呈現(xiàn)給用戶(hù),供其分析。下面我們展開(kāi)介紹LTP的各個(gè)部分。

圖1 語(yǔ)言技術(shù)平臺(tái)系統(tǒng)框架

3.1 語(yǔ)言處理基礎(chǔ)技術(shù)

LTP提供了6項(xiàng)中文處理技術(shù),由底層到高層依次為: 詞法分析(包括分詞、詞性標(biāo)注和命名實(shí)體識(shí)別)、句法分析(依存句法分析)和語(yǔ)義分析(詞義消歧和語(yǔ)義角色標(biāo)注),這些技術(shù)均在國(guó)際評(píng)測(cè)中取得優(yōu)異成績(jī)。

對(duì)于中文信息處理的各單項(xiàng)技術(shù),目前主流的都是基于統(tǒng)計(jì)的方法,所采用算法、訓(xùn)練數(shù)據(jù)以及所選擇的特征對(duì)于一個(gè)基于統(tǒng)計(jì)的自然語(yǔ)言處理系統(tǒng)都起到至關(guān)重要的作用,其中任何一項(xiàng)的改進(jìn),都會(huì)推動(dòng)某項(xiàng)技術(shù)的進(jìn)步。因此對(duì)于LTP中的各項(xiàng)技術(shù),我們都試圖從算法、數(shù)據(jù)和特征等方面加以改進(jìn),在保證分析效率的前提下,有多項(xiàng)技術(shù)達(dá)到目前已知的最好水平。下面我們分別加以介紹。

1) 分詞(Word Segmentation)

中文分詞將一個(gè)漢字序列切分成詞的序列,是中文信息處理最基礎(chǔ)的技術(shù)之一。其中歧義(包括組合型歧義和交集型歧義)和未登錄詞是困擾分詞系統(tǒng)的主要問(wèn)題[4]。自Nianwen Xue首次提出將分詞問(wèn)題看作序列標(biāo)注問(wèn)題以來(lái)[5],各種基于統(tǒng)計(jì)的序列標(biāo)注模型,如條件隨機(jī)域(Conditional Random Field,CRF)[6]等,便被應(yīng)用于中文分詞,其不但能夠很好的解決分詞歧義問(wèn)題,而且能夠解決部分未登錄詞問(wèn)題,因此該方法成為目前分詞的主流方法。LTP也采用了基于CRF的分詞方法。

然而,基于序列標(biāo)注的分詞方法依賴(lài)大規(guī)模標(biāo)注的語(yǔ)料庫(kù),如果將其應(yīng)用于特殊的領(lǐng)域,如金融等,則需要標(biāo)注該領(lǐng)域的語(yǔ)料庫(kù),這將消耗較大的人力物力成本,不利于領(lǐng)域的移植。我們針對(duì)這個(gè)問(wèn)題,提出了兼容外部詞典的序列標(biāo)注分詞方法[7],即提供一個(gè)通用領(lǐng)域訓(xùn)練的序列標(biāo)注模型,而當(dāng)切換到一個(gè)新的領(lǐng)域時(shí),僅需提供一個(gè)該領(lǐng)域的詞典(相對(duì)較容易獲得),就能夠?qū)⒃擃I(lǐng)域所特有的詞識(shí)別出來(lái)。這種分詞技術(shù)不但能夠利用統(tǒng)計(jì)模型較強(qiáng)的處理歧義的能力,而且能夠方便的利用外部詞典,進(jìn)一步提高了未登錄詞的識(shí)別能力,從而使得LTP具有較強(qiáng)的領(lǐng)域自適應(yīng)性。

2) 詞性標(biāo)注(POS Tagging)

詞性標(biāo)注指對(duì)于句子中的每個(gè)詞都指派一個(gè)合適的詞性,如名詞、動(dòng)詞、形容詞等。詞性標(biāo)注是典型的序列標(biāo)注問(wèn)題,早期采用如隱馬爾科夫模型[8]等生成模型(Generative Model)加以解決。然而,這類(lèi)方法需要較強(qiáng)的獨(dú)立假設(shè),因此最終系統(tǒng)的準(zhǔn)確率并不高。以最大熵馬爾科夫模型(Maximum Entropy Markov Models,MEMM)[9]為代表的判別模型(Discriminative Model)可以利用更豐富的特征,而且不需要假設(shè)這些特征是獨(dú)立的,很好的解決了生成模型所面臨的問(wèn)題,使得詞性標(biāo)注準(zhǔn)確率有了大幅度的提升。在LTP中,我們使用準(zhǔn)確率更高的支持向量機(jī)[10]作為基本的分類(lèi)器,進(jìn)一步提升了詞性標(biāo)注的準(zhǔn)確率。與此同時(shí),針對(duì)數(shù)據(jù)稀疏問(wèn)題,特別是分詞階段識(shí)別的未登錄詞,我們首次引入了漢字特有的偏旁部首特征,進(jìn)一步提高了詞性標(biāo)注泛化能力[11]。

3) 命名實(shí)體識(shí)別(NE,Named Entity Recognition)

命名實(shí)體是指文本中出現(xiàn)的專(zhuān)有名稱(chēng)和有意義的時(shí)間或數(shù)量短語(yǔ),主要包括人名、地名、機(jī)構(gòu)名、時(shí)間、數(shù)量等。NE識(shí)別的任務(wù)就是將這些名稱(chēng)和短語(yǔ)識(shí)別出來(lái)并加以歸類(lèi)。目前主要有兩類(lèi)方法: 基于規(guī)則的方法和基于統(tǒng)計(jì)的方法。對(duì)于規(guī)律性比較強(qiáng)的命名實(shí)體,規(guī)則的編寫(xiě)高效而準(zhǔn)確,如時(shí)間表達(dá)式等。而基于統(tǒng)計(jì)的方法常被應(yīng)用于規(guī)律性不強(qiáng)的命名實(shí)體識(shí)別,如地名、機(jī)構(gòu)名等。通?;诮y(tǒng)計(jì)的命名實(shí)體識(shí)別被看作是序列標(biāo)注問(wèn)題,常用的機(jī)器學(xué)習(xí)算法包括隱馬爾可夫模型[12],最大熵馬爾可夫模型[13],條件隨機(jī)域[14]等。

LTP采用了統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,統(tǒng)計(jì)模型采用MEMM,能夠識(shí)別人名、地名、機(jī)構(gòu)名、時(shí)間、日期、數(shù)量和專(zhuān)有名詞7類(lèi)實(shí)體。然而,該方法仍然依賴(lài)大規(guī)模的訓(xùn)練語(yǔ)料,人工標(biāo)注成本較高。為此,我們提出了一種借助英文命名實(shí)體識(shí)別系統(tǒng)從雙語(yǔ)平行語(yǔ)料中自動(dòng)生成大規(guī)模中文命名實(shí)體識(shí)別訓(xùn)練語(yǔ)料的方法[15],擴(kuò)展了系統(tǒng)的覆蓋范圍,提高了識(shí)別能力。

目前的命名實(shí)體,多限定為人名、地名、機(jī)構(gòu)名等有限類(lèi)別,這雖然在一定程度上滿(mǎn)足了上層應(yīng)用的需要,然而對(duì)于更多的應(yīng)用,需要處理更開(kāi)放的命名實(shí)體類(lèi)別,如影視、文學(xué)作品,菜名等等。如何處理這類(lèi)開(kāi)放信息抽取(Open Information Extraction)問(wèn)題,是自然語(yǔ)言處理學(xué)者需要進(jìn)一步考慮的問(wèn)題。

4) 詞義消歧(Word Sense Disambiguation)

一詞多義是自然語(yǔ)言固有的特征,也是語(yǔ)言應(yīng)用中十分普遍的現(xiàn)象。漢語(yǔ)多義詞(歧義詞)在詞典中只占總詞語(yǔ)量的10%左右,大約8 000多個(gè)多義詞。比例雖然很低,但是歧義詞多為常用詞,在語(yǔ)言應(yīng)用中出現(xiàn)的頻率很高。根據(jù)對(duì)大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)數(shù)據(jù)發(fā)現(xiàn),漢語(yǔ)歧義詞在語(yǔ)料中出現(xiàn)的頻度達(dá)到42%左右。如何確定歧義詞的詞義是進(jìn)行自然語(yǔ)言各高層處理的前提,可以說(shuō)詞義消歧是自然語(yǔ)言處理領(lǐng)域不可回避的問(wèn)題。基于統(tǒng)計(jì)的詞義消歧技術(shù)是當(dāng)前詞義消歧研究領(lǐng)域的主流方法,但該方法需要有詞義標(biāo)記的訓(xùn)練語(yǔ)料,而獲得規(guī)模足夠大的高質(zhì)量標(biāo)注語(yǔ)料,需要代價(jià)高昂的人力、物力,而且數(shù)據(jù)的一致性也很難保證。如果語(yǔ)料規(guī)模偏小,數(shù)據(jù)稀疏問(wèn)題就會(huì)十分嚴(yán)重。所以目前學(xué)術(shù)界多是針對(duì)個(gè)別多義詞,人工標(biāo)注較多的樣本進(jìn)行詞義消歧的實(shí)驗(yàn)。然而該方法很難應(yīng)用于全部多義詞的消歧。為了能夠標(biāo)注更大規(guī)模的語(yǔ)料庫(kù),我們提出了一種利用雙驗(yàn)證碼進(jìn)行語(yǔ)料庫(kù)標(biāo)注的方法[16],該方法基于人本計(jì)算的思想,巧妙的利用互聯(lián)網(wǎng)背后用戶(hù)的知識(shí),在其自然使用網(wǎng)絡(luò)的狀態(tài)下,自動(dòng)的獲取詞義消歧語(yǔ)料庫(kù)。詞義消歧的另外一個(gè)問(wèn)題就是小概率詞義的訓(xùn)練數(shù)據(jù)難以獲得,多義詞的詞義分布很多情況下非常不均衡,為了解決這個(gè)問(wèn)題,我們提出了等價(jià)偽詞的方法[17],解決了數(shù)據(jù)不均衡的問(wèn)題。有了大規(guī)模詞義消歧語(yǔ)料庫(kù),我們采用支持向量機(jī)作為分類(lèi)器,基于多種特征,實(shí)現(xiàn)了詞義消歧系統(tǒng)[18],并在2007年SemEval Task 11詞義消歧評(píng)測(cè)任務(wù)中獲得第一名。

另外,隨著語(yǔ)言的發(fā)展,尤其是互聯(lián)網(wǎng)的出現(xiàn),有越來(lái)越多的詞被賦予了新的含義,甚至出現(xiàn)新的詞,如何將這些新詞以及新的含義識(shí)別出來(lái),是詞義消歧所面臨的新的挑戰(zhàn)。

5) 依存句法分析(Dependency Parser)

依存句法分析將句子由一個(gè)線(xiàn)性序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹(shù),通過(guò)依存弧上的關(guān)系標(biāo)記反映句子中詞匯之間的句法關(guān)系。與短語(yǔ)結(jié)構(gòu)相比,依存結(jié)構(gòu)具有形式簡(jiǎn)潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn),逐漸受到學(xué)術(shù)界和工業(yè)界的重視。目前主要有基于轉(zhuǎn)移和基于圖兩種依存句法分析方法。其中基于圖的方法由于進(jìn)行的是全局最優(yōu)解的查找,獲得了更高的準(zhǔn)確率,因此在LTP中,我們也采用了基于圖的方法,并使用了高階的特征,以獲得更高的準(zhǔn)確率。與通常的采用動(dòng)態(tài)規(guī)劃算法進(jìn)行解碼的句法分析器不同,我們采用了基于柱狀搜索的解碼算法[19],以及基于標(biāo)點(diǎn)的兩階段句法分析方法[20],在不損失分析精度的情況下,較大的提高了句法分析的效率,使得句法分析能夠滿(mǎn)足一般的互聯(lián)網(wǎng)信息處理應(yīng)用對(duì)處理速度的需求。我們參加了CoNLL (Conference on Computational Natural Language Learning) 2009多語(yǔ)種(包括中文、英文在內(nèi)的7種語(yǔ)言)依存句法分析和語(yǔ)義角色標(biāo)注評(píng)測(cè),在21家參賽單位中獲得句法分析第3名*http://ufal.mff.cuni.cz/conll2009-st/results/results.php。

對(duì)于中文依存句法分析,目前最主要的問(wèn)題是詞性和句法角色不對(duì)應(yīng),也就是說(shuō)相同的詞性串會(huì)表示不同的句法結(jié)構(gòu),這給句法分析帶來(lái)了很大的困難,尤其是中文的復(fù)合名詞短語(yǔ)結(jié)構(gòu)復(fù)雜多樣,其內(nèi)部詞性無(wú)明顯約束,因此可以首先識(shí)別復(fù)合名詞短語(yǔ)然后再進(jìn)行句法分析來(lái)降低句法分析的難度,提高其準(zhǔn)確率。

6) 語(yǔ)義角色標(biāo)注(Semantic Role Labeling)

語(yǔ)義角色標(biāo)注是目前淺層語(yǔ)義分析的一種主要實(shí)現(xiàn)方式,其具有問(wèn)題定義清晰,便于人工標(biāo)注和評(píng)測(cè)等優(yōu)點(diǎn)。該方法不對(duì)整個(gè)句子進(jìn)行詳細(xì)的語(yǔ)義分析,而只是標(biāo)注自然語(yǔ)言短語(yǔ)為給定謂詞的語(yǔ)義角色,如施事、受事、時(shí)間、地點(diǎn)等。通常,人們將語(yǔ)義角色標(biāo)注問(wèn)題看成是分類(lèi)問(wèn)題。也就是說(shuō),可以使用各種分類(lèi)算法逐一判斷一個(gè)語(yǔ)言單元(詞、短語(yǔ)或句法成分)是否是語(yǔ)義角色,然后預(yù)測(cè)其屬于何種具體的語(yǔ)義角色。對(duì)于分類(lèi)器輸出的結(jié)果,還需要根據(jù)語(yǔ)義角色標(biāo)注的多種約束條件進(jìn)行一些后處理操作,形成最終的語(yǔ)義角色標(biāo)注結(jié)果。數(shù)據(jù)稀疏仍然是困擾語(yǔ)義角色標(biāo)注的主要問(wèn)題之一,如何充分利用泛化能力更強(qiáng)的特征,是目前亟待解決的問(wèn)題?;贙ernel方法是解決這一問(wèn)題的較好途徑[21],例如,對(duì)于句法特征較為稀疏的問(wèn)題,可以使用Convolution Tree Kernel,泛化路徑、位置等特征。LTP中的語(yǔ)義角色標(biāo)注采用最大熵分類(lèi)器[22]識(shí)別謂詞和語(yǔ)義角色,在解碼階段采用基于整數(shù)線(xiàn)性規(guī)劃(ILP,Integer Linear Programming)的方法[19],該方法可以較為方便的融合多種語(yǔ)義角色標(biāo)注所具有的約束信息,最終進(jìn)一步提高了系統(tǒng)的精度。同樣參加了CoNLL2009評(píng)測(cè),最終獲得了第1名。

然而,語(yǔ)義角色標(biāo)注問(wèn)題定義本身仍存在一些問(wèn)題,其定義一個(gè)語(yǔ)義角色一般為一個(gè)句法成分,而成分內(nèi)部詞語(yǔ)之間的關(guān)系并沒(méi)有明確定義。另外,語(yǔ)義角色不夠豐富和統(tǒng)一。以標(biāo)注規(guī)模最大的PropBank語(yǔ)料庫(kù)為例,目前謂詞僅限于動(dòng)詞或者動(dòng)名詞,與之相關(guān)的語(yǔ)義角色也被粗略的分為核心角色(Arg0~5)或者附屬角色(時(shí)間、地點(diǎn)等)。而對(duì)于不同的謂詞,相同的核心角色往往含義又不一致,雖然在其提供的詞典中對(duì)每個(gè)謂詞的角色進(jìn)行了解釋?zhuān)沁@種解釋比較隨意,沒(méi)有統(tǒng)一。以上問(wèn)題制約了語(yǔ)義角色標(biāo)注自動(dòng)分析性能的提高和實(shí)際應(yīng)用。因此我們有必要定義一種更深層、更精確的語(yǔ)義表示形式。

最后,我們?cè)诒?中給出了LTP中各項(xiàng)技術(shù)的具體性能指標(biāo)。

表1 LTP各項(xiàng)技術(shù)性能指標(biāo)

其中多項(xiàng)技術(shù)參加各種國(guó)內(nèi)和國(guó)際評(píng)測(cè),并獲得優(yōu)異成績(jī),特別是句法和語(yǔ)義分析工作,在CoNLL2009國(guó)際評(píng)測(cè)中獲得總成績(jī)第1名。優(yōu)異的評(píng)測(cè)成績(jī)說(shuō)明LTP已達(dá)到國(guó)際領(lǐng)先水平。

3.2 數(shù)據(jù)表示

綜合的語(yǔ)言技術(shù)平臺(tái),需要一套清晰的數(shù)據(jù)表示方法,以及基于這套表示方法的各種相關(guān)處理和應(yīng)用。XML作為一種清晰的數(shù)據(jù)表示方式,已經(jīng)被大家所接受,并且逐漸成為一種標(biāo)準(zhǔn)的數(shù)據(jù)表示方式。基于XML我們?cè)O(shè)計(jì)了一整套中文內(nèi)部表示體系,從詞處理到句子處理,到篇章處理,直至篇章集合的處理,都能夠用這套XML表示方法進(jìn)行表示。這套表示方法我們稱(chēng)之為語(yǔ)言技術(shù)置標(biāo)語(yǔ)言LTML(Language Technology Markup Language)。

圖2 LTML示例

圖2展示了一個(gè)LTML的實(shí)例。LTML以詞(word)為基本單元,每個(gè)詞的屬性包括cont(詞內(nèi)容)、pos(詞性)、ne(命名實(shí)體)、wsd(詞義)、parent(父節(jié)點(diǎn)),relate(依存關(guān)系類(lèi)型)、arg(語(yǔ)義角色標(biāo)注)等,詞構(gòu)成了句子(sent),句子又構(gòu)成了段落(para)等等。

各種編程語(yǔ)言,都提供了豐富的XML操作庫(kù)。LTML作為語(yǔ)言技術(shù)平臺(tái)的底層數(shù)據(jù)表示,對(duì)各項(xiàng)技術(shù)之間進(jìn)行信息傳遞、 信息融合以及最終結(jié)果的可視化都提供了諸多便利。

3.3 語(yǔ)料資源

目前的自然語(yǔ)言處理系統(tǒng)多采用基于統(tǒng)計(jì)的方法,除了統(tǒng)計(jì)算法外,還需要較大規(guī)模的料庫(kù)資源作為系統(tǒng)的支撐。因此我們?cè)谔峁┴S富的分析工具的同時(shí),還對(duì)外共享了我們自主標(biāo)注的兩種與LTP相關(guān)的語(yǔ)料庫(kù)資源。詳細(xì)情況如表2所示,這些語(yǔ)料庫(kù)對(duì)于其他研究機(jī)構(gòu)重新構(gòu)建相應(yīng)的自然語(yǔ)言處理系統(tǒng)有重要的意義。

表2 LTP語(yǔ)料資源

3.4 處理結(jié)果可視化

清晰的將處理結(jié)果可視化可以幫助研究人員方便的進(jìn)行錯(cuò)誤分析等各項(xiàng)工作。我們?cè)贚TML的基礎(chǔ)上,開(kāi)發(fā)了一套跨平臺(tái)、跨瀏覽器的可視化工具。一篇文本經(jīng)過(guò)LTP處理后,可以從不同角度、粒度去觀察處理的結(jié)果,如圖3和圖4所示。圖3顯示的是命名實(shí)體識(shí)別的處理結(jié)果。我們使用不同的顏色標(biāo)識(shí)不同的命名實(shí)體。圖4顯示的是句子級(jí)處理結(jié)果的可視化。其中第一行為分詞信息;第二行為詞性信息;第三行為詞義信息;第四行為命名實(shí)體信息;第五行之后為語(yǔ)義角色標(biāo)注結(jié)果,每一個(gè)謂詞占一行。最上面的弧表示依存分析結(jié)果。

基于這種可視化的結(jié)果,上層用戶(hù)可以更清晰的了解LTP能夠?qū)崿F(xiàn)哪些功能,這樣便于用戶(hù)理解自然語(yǔ)言處理系統(tǒng)的功能, 以便更合理的使用。另外,自然語(yǔ)言處理的研究人員也能通過(guò)直觀的可視化結(jié)果,分析目前系統(tǒng)的問(wèn)題到底出在哪兒。很多時(shí)候上層分析的錯(cuò)誤并非其自身的問(wèn)題,而是下層錯(cuò)誤導(dǎo)致的,通過(guò)LTP的可視化結(jié)果能夠方便的找到問(wèn)題的根源,從而促進(jìn)研究工作的發(fā)展。

圖3 LTP命名實(shí)體識(shí)別可視化

圖4 LTP句子級(jí)處理結(jié)果可視化

3.5 網(wǎng)絡(luò)服務(wù)(Web Service)

現(xiàn)在的互聯(lián)網(wǎng)上處于一個(gè)提供“內(nèi)容”和“服務(wù)”的時(shí)代,大量出現(xiàn)的網(wǎng)絡(luò)服務(wù)使我們可以非常方便的利用別人的成功構(gòu)建自己的應(yīng)用。

因此LTP提供了Web Service,對(duì)用戶(hù)而言,LTP Web Service有四方面好處: 1)無(wú)需安裝調(diào)試LTP。目前用戶(hù)首先需要下載LTP程序庫(kù)和數(shù)據(jù),然后在本地配置好數(shù)據(jù)路徑及各單項(xiàng)技術(shù)所需的參數(shù)。整個(gè)過(guò)程比較復(fù)雜,并且平臺(tái)移植性不好;2)不需要負(fù)擔(dān)額外的LTP運(yùn)行需要的硬件資源;3)更新及時(shí)。只要服務(wù)器端做相應(yīng)的更新,客戶(hù)端不需要額外的操作,即可使用最新的分析技術(shù),得到更好的分析結(jié)果;4)跨平臺(tái)、跨編程語(yǔ)言。用戶(hù)可以在各種操作系統(tǒng)上,使用不同的編程語(yǔ)言,訪問(wèn)LTP Web Service。

自2010年9月正式對(duì)外服務(wù)以來(lái),共有約500位用戶(hù)申請(qǐng)注冊(cè)了LTP網(wǎng)絡(luò)服務(wù)賬號(hào),查詢(xún)數(shù)達(dá)350多萬(wàn)次,平均每天的查詢(xún)次數(shù)近1萬(wàn)次。

4 語(yǔ)言技術(shù)平臺(tái)升級(jí)及共享情況

我們一直在不斷的改進(jìn)和完善語(yǔ)言技術(shù)平臺(tái),包括提高各個(gè)語(yǔ)言處理技術(shù)的性能,優(yōu)化整個(gè)系統(tǒng)架構(gòu),完善可視化程序。截止2009年9月,LTP已經(jīng)升級(jí)至3.0版本。

為了進(jìn)一步促進(jìn)中文信息處理的研究,盡可能為大家提供一個(gè)方便直接進(jìn)入高層研究的語(yǔ)言處理平臺(tái),我們于2006年9月開(kāi)始對(duì)學(xué)術(shù)界免費(fèi)共享整套LTP*http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm。截止2011年8月,LTP的共享單位達(dá)到400多家,包括國(guó)內(nèi)外眾多大學(xué)及科研機(jī)構(gòu),如美國(guó)卡耐基梅隆大學(xué)、美國(guó)伊力諾依大學(xué)香檳分校(UIUC)、日本信息通信研究機(jī)構(gòu)(NICT)、新加坡國(guó)立大學(xué)、北京大學(xué)、清華大學(xué)、中科院、香港科技大學(xué)等。

很多單位已經(jīng)在LTP的基礎(chǔ)上進(jìn)行研究并且發(fā)表論文,據(jù)不完全統(tǒng)計(jì),目前基于LTP發(fā)表的論文超過(guò)100篇。另外,我們于2011年6月正式將LTP開(kāi)源,至今已有500余位用戶(hù)正式注冊(cè)并下載了LTP的源代碼。圖5和圖6分別顯示了國(guó)際和國(guó)內(nèi)LTP的使用者分布圖。

同時(shí),LTP也已授權(quán)百度、華為、金山、訊飛等企業(yè)付費(fèi)使用,產(chǎn)生了一定的經(jīng)濟(jì)效益。

圖5 國(guó)際上LTP使用者分布圖

圖6 中國(guó)大陸LTP使用者分布

5 結(jié)論與展望

語(yǔ)言技術(shù)平臺(tái),簡(jiǎn)稱(chēng)LTP,是哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心歷時(shí)8年多時(shí)間研制的一整套自然語(yǔ)言處理平臺(tái)。LTP集分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、詞義消歧、依存句法分析和語(yǔ)義角色標(biāo)注等6項(xiàng)自然語(yǔ)言處理任務(wù)于一體。我們免費(fèi)向?qū)W術(shù)界共享LTP,很多研究單位已經(jīng)在LTP基礎(chǔ)上做出了卓有成效的科研成果。LTP以其技術(shù)的領(lǐng)先性,內(nèi)容的全面性,使用的便捷性,結(jié)果的易讀性以及成果的開(kāi)放性等優(yōu)勢(shì),得到了用戶(hù)的肯定。

未來(lái)我研究中心在中文基礎(chǔ)技術(shù)方面將對(duì)以下問(wèn)題進(jìn)行重點(diǎn)研究。

(1) 各項(xiàng)語(yǔ)言分析技術(shù)的互動(dòng)反饋機(jī)制

語(yǔ)言各個(gè)層面之間的關(guān)系是錯(cuò)綜復(fù)雜的。但一般來(lái)說(shuō),高層的技術(shù)要建立在底層技術(shù)的基礎(chǔ)上,同時(shí)又可以指導(dǎo)底層技術(shù)。目前為止,LTP只是一個(gè)分層的語(yǔ)言處理過(guò)程,各層之間沒(méi)有任何反饋或者信息傳遞。下一步我們將在LTP上嘗試各種互動(dòng)反饋機(jī)制,如一體化[25-26]、重排序等策略*我們?cè)?jīng)嘗試按照多層結(jié)果分?jǐn)?shù)總和進(jìn)行排序,然而由于各層的分?jǐn)?shù)并沒(méi)有可比性,這種方法取得的效果有限[27],從而提高整個(gè)語(yǔ)言處理系統(tǒng)的性能。

(2) 句法語(yǔ)義相互結(jié)合的語(yǔ)義依存分析

語(yǔ)義分析默認(rèn)要建立在句法分析的基礎(chǔ)上,中文的句法是從西方引進(jìn)來(lái)的,而中文嚴(yán)重缺乏形態(tài)的變化,詞類(lèi)與句法成分沒(méi)有嚴(yán)格的對(duì)應(yīng)關(guān)系,導(dǎo)致中文句法分析的精度始終上不去。目前英文在標(biāo)準(zhǔn)測(cè)試集的句法分析準(zhǔn)確率達(dá)到90%,而中文只能達(dá)到80%,距離實(shí)用還有很遠(yuǎn)的距離。中文是意合的,在形式分析上有劣勢(shì),是否可以跨越句法分析階段直接分析語(yǔ)義,這一直是我們感興趣的問(wèn)題。近兩年來(lái),我們?cè)谘芯俊罢Z(yǔ)義依存分析(Semantic Dependency Parsing,SDP)”,SDP超越了依存句法分析和語(yǔ)義角色標(biāo)注,能夠分析出一棵完整的語(yǔ)義依存樹(shù),屬于一種深層的語(yǔ)義分析,目前我們已經(jīng)聯(lián)合北京城市學(xué)院標(biāo)注了1萬(wàn)句中文語(yǔ)義依存分析樹(shù)[28],將組織相應(yīng)的國(guó)際評(píng)測(cè),且已經(jīng)有初步的實(shí)驗(yàn)結(jié)果,歡迎對(duì)此感興趣的學(xué)者一起交流探討。

(3) 向各個(gè)領(lǐng)域移植

目前的中文基礎(chǔ)技術(shù)不少是以新聞?wù)Z料為訓(xùn)練測(cè)試語(yǔ)料的,句法分析在這個(gè)領(lǐng)域可以接近80%的準(zhǔn)確率,但一旦切換到其他領(lǐng)域,準(zhǔn)確率可以銳減至60%~70%,甚至更低。如何能夠以最低的成本向各領(lǐng)域移植是未來(lái)工作的重點(diǎn)之一。

(4) 群體智慧的運(yùn)用

中文語(yǔ)言處理的基礎(chǔ)技術(shù)發(fā)展到今天遇到了瓶頸,特別是知識(shí)獲取的瓶頸。由于Web 2.0時(shí)代每個(gè)用戶(hù)成為可以參與計(jì)算的節(jié)點(diǎn),為利用群體智慧獲取語(yǔ)言學(xué)知識(shí)創(chuàng)造了條件。如何巧妙地設(shè)計(jì)“傻瓜化”的大眾能夠參與的帶有趣味的語(yǔ)言標(biāo)注系統(tǒng)是獲取群體智能的關(guān)鍵,而這樣的系統(tǒng)一旦設(shè)計(jì)出來(lái)就能夠以很小的成本在很短的時(shí)間內(nèi)獲取大量的知識(shí)。

今年是中國(guó)中文信息學(xué)會(huì)成立30周年,衷心祝愿我國(guó)中文信息領(lǐng)域繁榮昌盛,我們?cè)敢馓撔牡叵蚯拜厡W(xué)習(xí),與廣大的同仁多交流協(xié)作,為中文信息處理的發(fā)展做出新的貢獻(xiàn)。

[1] Hamish Cunningham, Diana Maynard, Kalina Bontcheva, et al. GATE: an Architecture for Development of Robust NLT Applications [C]//Proceedings of ACL, 2002: 168-175.

[2] David Ferrucci, Adam Lally. Building an Example Application with the Unstructured Information Management Architecture[J]. IBM Systems Journal, 2004, 43(3): 455-475.

[3] Steven Bird, Edward Loper. NLTK: The Natural Language Toolkit [C]//Proceedings of the ACL demonstration session 2004: 214-217.

[4] 劉挺, 王開(kāi)鑄. 關(guān)于歧義字段切分的思考與實(shí)驗(yàn)[J]. 中文信息學(xué)報(bào), 1998, 12(2): 63-64.

[5] Nianwen Xue. Chinese Word Segmentation as Character Tagging[J]. International Journal of Computational Linguistics and Chinese Language Processing, 2003,8(1): 29-48.

[6] John Lafferty, Andrew McCallum, Fernando Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data [C]//Proceedings of ICML 2001: 282-289.

[7] 張梅山, 鄧知龍, 車(chē)萬(wàn)翔, 等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[C]//第十一屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議, 2011.8.

[8] Chris Manning, Hinrich Schütze. Foundations of Statistical Natural Language Processing[M]. MIT Press. Cambridge, MA: May, 1999.

[9] Andrew McCallum, Dayne Freitag, Fernando Pereira. Maximum Entropy Markov Models for Information Extraction and Segmentation[C]//Proceedings of ICML-2000.

[10] Vladimir Vapnik. The Nature of Statistical Learning Theory[M]. Springer-Verlag, 1995.

[11] 王麗杰, 車(chē)萬(wàn)翔, 劉挺. 基于SVMTool的中文詞性標(biāo)注 [J]. 中文信息學(xué)報(bào), 2009, 23(4): 16-21.

[12] Guodong Zhou, Jian Su. 2002. Named entity recognition using an HMM-based chunk tagger[C]//Proceedings of the 40th Annual Meeting of the Association of Comparative Linguistics (ACL): 473-480.

[13] Hai Leong Chieu, Hwee Tou Ng. 2002. Named Entity Recognition: A Maximum Entropy Approach Using Global Information[C]//Proceedings of the 19th International Conference on Computational Linguistics (COLING): 190-196.

[14] Burr Settles. 2004. Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets[C]//Proceedings of COLING 2004, the International Joint Workshop on Natural Language Processing in Biomedicine and its Applications (NLPBA), Geneva, Switzerland.

[15] Ruiji Fu, Bing Qin, Ting Liu. Generating Chinese Named Entity Data from a Parallel Corpus[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP 2011).

[16] Wanxiang Che, Ting Liu. Word Sense Disambiguation Corpora Acquisition via Confirmation Code[C]//IJCNLP. 2011.

[17] Zhimao Lu, Haifeng Wang, Jianmin Yao, et al. An Equivalent Pseudoword Solution to Chinese Word Sense Disambiguation[C]//ACL, 2006.

[18] Yuhang Guo, Wanxiang Che, Yuxuan Hu, et al. HIT-IR-WSD: A WSD System for English Lexical Sample Task [C]//SemEval 2007.

[19] Wanxiang Che, Zhenghua Li, Yongqiang Li, et al. Multilingual Dependency-based Syntactic and Semantic Parsing [C]//Proceedings of CoNLL 2009: 49-54.

[20] Zhenghua Li, Wanxiang Che, Ting Liu. Improving Dependency Parsing Using Punctuation[C]//Proceedings of the International Conference on Asian Language Processing of IALP 2010. Harbin, China.

[21] Wanxiang Che, Min Zhang, Ai Ti Aw, et al. Using a Hybrid Convolution Tree Kernel for Semantic Role Labeling[C]//ACM Transactions on Asian Language Information Processing. 2008, 7(4).

[22] Adam L. Berger, Stephen A. Della Pietra, Vincent J, et al. A Maximum Entropy Approach to Natural Language [J]. CL 1996, 22(1): 39-71.

[23] 梅家駒, 竺一鳴, 高蘊(yùn)琦, 等. 同義詞詞林 [M]. 上海. 上海辭書(shū)出版社. 1983.

[24] Ting Liu, Jinshan Ma, Sheng Li. Building a Dependency Treebank for Improving Chinese Parser [J]. Journal of Chinese Information Processing. 2006, 16(4): 207-224.

[25] Zhenghua Li, Min Zhang, Wanxiang Che, et al. Joint Models for Chinese POS Tagging and Dependency Parsing[C]//Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, Scotland, UK.2011,08:1180-1191.

[26] Wanxiang Che, Ting Liu. Jointly Modeling WSD and SRL with Markov Logic[C]//Proceedings of the 23rd International Conference on Computational Linguistics (Coling 2010). Beijing, China.2010,08: 161-169.

[27] Wanxiang Che, Ting Liu, Sheng Li. A New Chinese Natural Language Understanding Architecture Based on Multilayer Search Mechanism[C]//Third SIGHAN Workshop on Chinese Language Processing, 2004, 7.

[28] 邵艷秋,邱立坤, 梁春霞, 等.中文語(yǔ)義依存關(guān)系資源建設(shè)及分析技術(shù)研究[C]//第十一屆全國(guó)計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議. 洛陽(yáng), 2011, 8.

猜你喜歡
分詞詞義語(yǔ)義
“誅”的詞義演變及其在古籍中的釋義
分詞在英語(yǔ)教學(xué)中的妙用
西夏語(yǔ)“頭項(xiàng)”詞義考
語(yǔ)言與語(yǔ)義
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
詞義辨別小妙招——看圖辨詞
批評(píng)話(huà)語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構(gòu)建
“社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
“吃+NP”的語(yǔ)義生成機(jī)制研究
莫力| 博爱县| 大宁县| 昔阳县| 雷州市| 淄博市| 出国| 万盛区| 观塘区| 定陶县| 渑池县| 平果县| 松桃| 绥化市| 望城县| 山阳县| 马尔康县| 望都县| 凌海市| 东海县| 陵川县| 海阳市| 嘉善县| 莫力| 德阳市| 郎溪县| 久治县| 洪江市| 麦盖提县| 大悟县| 社会| 衡阳县| 定兴县| 荆州市| 湄潭县| 吴堡县| 奉贤区| 上杭县| 宿松县| 德清县| 铜陵市|