趙 軍,劉 康,周光有,蔡 黎
(中國(guó)科學(xué)院 自動(dòng)化研究所 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
文本信息抽取(Text Information Extraction)指的是從自然語言文本中抽取指定類型的實(shí)體(Entity)、關(guān)系(Relation)、事件(Event)等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)[1]。例如從有線新聞和廣播電視的文本中抽取恐怖事件相關(guān)情況: 時(shí)間、地點(diǎn)、作案者、受害者、襲擊目標(biāo)等信息。從20世紀(jì)80年代開始,在Message Understanding Conference (MUC)[2]、Automatic Content Extraction (ACE)[3]以及Text Analysis Conference (TAC)[4]等評(píng)測(cè)會(huì)議的大力推動(dòng)下,文本信息抽取技術(shù)的研究得到蓬勃發(fā)展。MUC從1987年到1997年總共進(jìn)行了七屆,其五大評(píng)測(cè)任務(wù)是命名實(shí)體識(shí)別、同指關(guān)系(Co-reference)消解、模板元素(Template element)填充(類似于實(shí)體屬性抽取)、模板關(guān)系(Template relation)確定(類似于實(shí)體關(guān)系抽取)和場(chǎng)景模板(Scenario Template)填充(類似于事件抽取)。數(shù)據(jù)來源是限定領(lǐng)域語料,例如海軍軍事情報(bào)、恐怖襲擊、人事職位變動(dòng)等;ACE從1999年到2008年總共進(jìn)行了九屆,涉及實(shí)體檢測(cè)與跟蹤(Entity Detection and Tracking, EDT)、數(shù)值檢測(cè)與識(shí)別(Value Detection and Recognition, VDR)、時(shí)間識(shí)別和規(guī)范化(Time Expression Recognition and Normalization, TERN)、關(guān)系檢測(cè)與描述(Relation Detection and Characterization, RDC)、事件檢測(cè)與描述(Event Detection and Characterization, EDC)、實(shí)體翻譯(Entity Translation, ET)等評(píng)測(cè)任務(wù)。數(shù)據(jù)來源主要是書面新聞?wù)Z料。TAC-KBP從2009年開始到目前共進(jìn)行了三屆,評(píng)測(cè)任務(wù)包括實(shí)體鏈接(Entity Linking)和實(shí)體屬性值抽取(Slot Filling),數(shù)據(jù)來源是新聞和網(wǎng)絡(luò)數(shù)據(jù)。
縱觀信息抽取技術(shù)的發(fā)展歷程,傳統(tǒng)信息抽取評(píng)測(cè)任務(wù)是面向限定領(lǐng)域文本的、限定類別實(shí)體、關(guān)系和事件等的抽取,這大大制約了文本信息抽取技術(shù)的發(fā)展和應(yīng)用,例如問答系統(tǒng)所需要的信息抽取技術(shù)遠(yuǎn)遠(yuǎn)超越我們通常研究的人名、地名、機(jī)構(gòu)名、時(shí)間、日期等有限實(shí)體類別;上下位(Hypernym-hyponym)、部分整體(Part-whole)、地理位置(Located/Near)等有限關(guān)系類別;毀壞(Destruction/Damage)、創(chuàng)造(Creation/Improvement)、所有權(quán)轉(zhuǎn)移(Transfer of Possession or Control)等有限事件類別,甚至所需要的類別是未知的、不斷變化的。這種應(yīng)用需求為信息抽取技術(shù)的研究提出了新的挑戰(zhàn)。另一方面,從信息抽取的技術(shù)手段來講,由于網(wǎng)絡(luò)文本具有不規(guī)范性、開放性以及海量性的特點(diǎn),使得傳統(tǒng)的依賴于訓(xùn)練語料的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法遇到嚴(yán)重挑戰(zhàn)。
為了適應(yīng)互聯(lián)網(wǎng)實(shí)際應(yīng)用的需求,越來越多的研究者開始研究開放式信息抽取技術(shù),目標(biāo)是從海量、冗余、異構(gòu)、不規(guī)范、含有大量噪聲的網(wǎng)頁中大規(guī)模地抽取開放類別的實(shí)體、關(guān)系、事件等多層次語義單元信息,并形成結(jié)構(gòu)化數(shù)據(jù)格式輸出。其特點(diǎn)在于: ①文本領(lǐng)域開放: 處理的文本領(lǐng)域不再限定于規(guī)范的新聞文本或者某一領(lǐng)域文本,而是不限定領(lǐng)域的網(wǎng)絡(luò)文本;②語義單元類型開放: 所抽取的語義單元不限定類型,而是自動(dòng)地從網(wǎng)絡(luò)中挖掘語義單元的類型,例如實(shí)體類型、關(guān)系類型和事件類型等;③以“抽取”替代“識(shí)別”: 相對(duì)于傳統(tǒng)信息抽取,開放式文本信息抽取不再拘泥于從文本中精確識(shí)別目標(biāo)信息的每次出現(xiàn),而是充分利用網(wǎng)絡(luò)數(shù)據(jù)海量、冗余的特性,以抽取的方式構(gòu)建面向?qū)嶋H應(yīng)用的多層次語義單元集合。在這一過程中,不僅需要考慮文本特征,同時(shí)需要綜合考慮網(wǎng)頁結(jié)構(gòu)特征、用戶行為特征等。
本文以開放式文本信息抽取為主題,在回顧文本信息抽取研究歷史的基礎(chǔ)上,重點(diǎn)介紹開放式實(shí)體抽取、關(guān)系抽取和實(shí)體消歧的任務(wù)、難點(diǎn)、方法、評(píng)測(cè)、技術(shù)水平和存在問題,并結(jié)合課題組的研究積累,對(duì)文本信息抽取的發(fā)展方向以及在網(wǎng)絡(luò)知識(shí)工程中的應(yīng)用進(jìn)行分析討論。由于篇幅限制,面向開放式的其他信息抽取技術(shù),例如事件抽取[5-7]、觀點(diǎn)信息抽取[8]等不在本文論述的范圍。
傳統(tǒng)的命名實(shí)體識(shí)別任務(wù)就是識(shí)別出待處理文本中三大類(實(shí)體類、時(shí)間類和數(shù)字類)、七小類(人名、機(jī)構(gòu)名、地名、時(shí)間、日期、貨幣和百分比)命名實(shí)體[2,9],也有一些研究針對(duì)一些特定領(lǐng)域的特定類型的命名實(shí)體(例如: 產(chǎn)品名稱、基因名稱等)進(jìn)行研究[10]。開放式實(shí)體抽取的任務(wù)是在給出特定語義類的若干實(shí)體(稱為“種子”)的情況下,找出該語義類包含的其他實(shí)體,其中特定語義類的標(biāo)簽可能顯式給出,也可能隱式給出。比如給出 “中國(guó)、美國(guó)、俄羅斯”這三個(gè)實(shí)體,要求找出“國(guó)家”這個(gè)語義類的其他實(shí)體諸如“德國(guó)、法國(guó)、日本……”。從方式上,傳統(tǒng)意義上的實(shí)體識(shí)別關(guān)注的是從文本中識(shí)別出實(shí)體字符串位置以及所屬類別(比如人名、地名、組織機(jī)構(gòu)名等),而開放式實(shí)體抽取關(guān)注的是從海量、冗余、不規(guī)范的網(wǎng)絡(luò)數(shù)據(jù)源上抽取出符合某個(gè)語義類的實(shí)體列表。傳統(tǒng)方法更側(cè)重于識(shí)別,而開放式實(shí)體抽取更側(cè)重于抽取。相對(duì)而言,實(shí)體抽取比實(shí)體識(shí)別在任務(wù)上更加底層,實(shí)體抽取的結(jié)果可以作為列表支撐實(shí)體的識(shí)別。在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域,開放式實(shí)體抽取技術(shù)對(duì)于知識(shí)庫(kù)構(gòu)建、網(wǎng)絡(luò)內(nèi)容管理、語義搜索、問答系統(tǒng)等都具有重要應(yīng)用價(jià)值。
(1) 開放式實(shí)體抽取的難點(diǎn)
開放式實(shí)體抽取目標(biāo)是根據(jù)用戶輸入的種子詞從網(wǎng)絡(luò)中抽取同類型的實(shí)體,在這一過程中需要自動(dòng)判別用戶輸入種子詞的類別信息或者根據(jù)用戶輸入的類別進(jìn)行類別詞擴(kuò)展。具體難點(diǎn)如下:
① 初始信息少: 實(shí)體抽取通常采用半監(jiān)督或無監(jiān)督的方法,已知信息一般有以下三種: 種子實(shí)例、語義類別標(biāo)簽以及預(yù)先定義的信息。其中給出的種子通常少于5個(gè),語義類別標(biāo)簽有時(shí)會(huì)給出有時(shí)不會(huì)給出,而預(yù)先定義的信息通常是若干模板,可以利用的已知信息非常少。
② 語義類別難以確定: 在沒有給定語義類別標(biāo)簽的情況下,種子實(shí)體可能會(huì)同時(shí)屬于多個(gè)語義類,使得目標(biāo)語義類別的確定非常困難。比如給出“中國(guó)、美國(guó)、俄羅斯”三個(gè)種子實(shí)體,這三個(gè)種子實(shí)體都可歸為“國(guó)家”類別,但同時(shí)又都可歸為“聯(lián)合國(guó)安理會(huì)常任理事會(huì)成員”類別,或者歸為“有核武器的國(guó)家”類別。
③ 缺乏公認(rèn)的評(píng)測(cè): 實(shí)體抽取缺乏公認(rèn)的評(píng)測(cè),研究者在各自構(gòu)造的實(shí)例集上進(jìn)行研究,評(píng)價(jià)指標(biāo)也各有不同,造成不同方法之間橫向可比性差。而且由于測(cè)試語義類別很少,算法的可推廣性不足。
(2) 現(xiàn)有方法
開放式實(shí)體抽取的基本假設(shè)是: “同類實(shí)體在網(wǎng)絡(luò)上具有相似的網(wǎng)頁結(jié)構(gòu)或者相似的上下文特征”。因此抽取過程就是首先找到這樣的網(wǎng)頁或者文本,然后從中抽取未知的同類型實(shí)體。例如在圖1中,“奧迪”、“寶馬”、“保時(shí)捷”等具有相同的網(wǎng)頁結(jié)構(gòu),如果已知“奧迪”、“寶馬”為汽車品牌名,那么該網(wǎng)頁中其他具有相同上下文特征的字符串也很可能是汽車品牌類型實(shí)體。
圖1 開放式實(shí)體抽取示例
圖2 開放式實(shí)體抽取基本流程
開放式實(shí)體抽取過程通常包括兩個(gè)步驟: ①候選實(shí)體獲??;②候選實(shí)體置信度計(jì)算和排序。其主要方法是: 從種子實(shí)體出發(fā),通過分析種子實(shí)體在語料中的上下文特征得到模板,根據(jù)模板得到更多候選實(shí)體,選取置信度高的候選實(shí)體作為新種子進(jìn)行迭代,滿足一定條件后停止迭代,返回歷次置信度高的候選實(shí)體作為結(jié)果輸出。其基本抽取過程如圖2 所示。
目前絕大多數(shù)方法都基于上述思路,具體區(qū)別在于目標(biāo)語料來源不同,例如從網(wǎng)頁中進(jìn)行實(shí)體抽取,從具有特殊性質(zhì)的文本(查詢?nèi)罩尽⒕W(wǎng)頁表格、維基百科)中進(jìn)行實(shí)體抽取等等,以下分別介紹。
使用網(wǎng)頁語料: 網(wǎng)絡(luò)上存在大量含有同類實(shí)體列表的網(wǎng)頁,可以利用這類網(wǎng)頁的結(jié)構(gòu)信息輔助類別實(shí)例抽取。Wang等人[11-13]首先通過搜索引擎返回包含全部種子實(shí)體且排名靠前的前100個(gè)網(wǎng)頁作為語料;然后從這些語料中學(xué)習(xí)模板,進(jìn)而獲取候選;最后使用網(wǎng)頁、模板和候選以及它們彼此的鏈接關(guān)系構(gòu)造圖,使用隨機(jī)步算法為候選打分。Whitelaw等人[14]首先根據(jù)種子實(shí)體在網(wǎng)頁文本中的出現(xiàn)情況及上下文獲得高質(zhì)量的訓(xùn)練數(shù)據(jù),然后選用有效的特征訓(xùn)練分類器,利用分類器判定候選是否是給定類別的實(shí)體。
使用某種具有特殊性質(zhì)的文本作為語料(查詢?nèi)罩尽⒕W(wǎng)頁表格、維基百科等): Pasca[15]利用查詢?nèi)罩具M(jìn)行實(shí)體抽取,首先利用種子實(shí)體在查詢?nèi)罩局械纳舷挛奶卣鞒槿〕鎏囟0澹蝗缓笸ㄟ^模板獲取候選實(shí)例;最后對(duì)種子和候選實(shí)例分別構(gòu)建上下文向量,通過計(jì)算相似度來打分。He等人[16]利用出現(xiàn)在同一個(gè)網(wǎng)頁中同一個(gè)表格中的文本串,很有可能是同類實(shí)體這一假設(shè),將文本串和表格作為兩類不同的節(jié)點(diǎn)構(gòu)建二分圖,通過圖算法對(duì)文本串進(jìn)行打分并排序。
綜合使用多種資源: Pennacchiotti等人[17]認(rèn)為對(duì)于不同數(shù)據(jù)源應(yīng)該根據(jù)其特性采用不同方法進(jìn)行處理,最后將融合結(jié)果。他們針對(duì)不同數(shù)據(jù)源設(shè)計(jì)不同的抽取器來抽取實(shí)體,同時(shí)從不同數(shù)據(jù)源中抽取特征,構(gòu)建排序函數(shù),對(duì)于不同數(shù)據(jù)源抽取得到的實(shí)體進(jìn)行融合和排序,輸出最終結(jié)果。這種方法有效地利用了多源數(shù)據(jù)的冗余特性,利用大規(guī)模數(shù)據(jù)中的統(tǒng)計(jì)特征對(duì)于目標(biāo)實(shí)體進(jìn)行抽取。實(shí)驗(yàn)結(jié)果表明準(zhǔn)確率得到有效提升。
另外,種子的質(zhì)量對(duì)于實(shí)體抽取的結(jié)果具有重要的影響。Vyas等人[18]通過定義種子的典型度、歧義度和覆蓋度來衡量種子的質(zhì)量,進(jìn)而選擇更好的種子實(shí)體。而為了減少人工校對(duì)擴(kuò)展結(jié)果的工作量, Vyas等人在先前的工作基礎(chǔ)上提出了一種多次迭代,每次迭代由人工指定一個(gè)錯(cuò)誤候選之后重新打分的提純方法[19]。
(3) 系統(tǒng)評(píng)測(cè)和技術(shù)水平
實(shí)體抽取目前還沒有舉辦過公開的評(píng)測(cè),研究工作的數(shù)據(jù)來源也不統(tǒng)一。通常使用平均準(zhǔn)確率(Average Precision, AP)或者P@N作為評(píng)價(jià)指標(biāo)。表1是Wang等人[20]對(duì)中英文各12種語義類別進(jìn)行實(shí)體抽取的結(jié)果。其中,E1、E2是兩種不同的模板獲取方法,E1表示取3個(gè)種子實(shí)體的所有命名性指稱項(xiàng)的公共上下文作為模板;E2表示取3個(gè)種子實(shí)體中每個(gè)種子的至少1次命名性指稱項(xiàng)的公共上下文作為模板。EF、GW是兩種不同的打分排序方法,EF(extracted frequency)表示按照抽取出的候選出現(xiàn)的次數(shù)進(jìn)行排序,GW(graph walk)表示按照?qǐng)D漫步方法的輸出的結(jié)果進(jìn)行排序。
表1 中英文各12種語義類別進(jìn)行實(shí)體抽取的結(jié)果
(b) 中文結(jié)果
續(xù)表
從上表來看,似乎實(shí)體抽取問題已經(jīng)得到很好解決,但實(shí)際上并非如此?,F(xiàn)有方法對(duì)不同類別實(shí)體抽取的效果差別很大,有些語義類別比較容易處理,比如“國(guó)家”這一類別,主要原因是這些語義類別的相關(guān)語料較多(比如在網(wǎng)絡(luò)上出現(xiàn)的次數(shù)多),或者該類別實(shí)體的集中程度更好(比如經(jīng)常在同一個(gè)網(wǎng)頁中,甚至經(jīng)常以列表的形式出現(xiàn))。但是對(duì)于一些小的語義類別,由于數(shù)據(jù)的稀疏性,語義的歧義性,使得抽取結(jié)果中噪聲嚴(yán)重,影響應(yīng)用效果。
(4) 實(shí)體抽取存在的問題
盡管目前存在著各種不同的實(shí)體抽取方法,有些方法的實(shí)驗(yàn)性能也達(dá)到了較高水平,但是實(shí)體抽取還存在著很多問題,其中最突出的問題是:
? 算法的可擴(kuò)展性問題
由于缺少相關(guān)評(píng)測(cè),目前用于測(cè)試方法的數(shù)據(jù)皆由研究者自行構(gòu)造,不同方法在不同數(shù)據(jù)上得到的結(jié)果難以比較。由于實(shí)驗(yàn)中采用的數(shù)據(jù)類別很少,使得算法的可擴(kuò)展性差,無法滿足面向互聯(lián)網(wǎng)大規(guī)模真實(shí)應(yīng)用的需求。
? 模板的獲取問題
目前的方法主要依靠模板來獲取候選實(shí)體,而模板主要包括自定義的語義模板(比如“such as、kinds of”)以及簡(jiǎn)單統(tǒng)計(jì)得到的上下文模板。這類模板對(duì)語義類別的描述能力有限, 而且與特定的數(shù)據(jù)格式和上下文密切相關(guān),如何挖掘和抽取有效的模板是今后研究的重點(diǎn)。
? 目標(biāo)數(shù)據(jù)源的置信度問題
目前實(shí)體抽取的數(shù)據(jù)源有普通網(wǎng)頁、查詢?nèi)罩尽⒕S基百科等,這些數(shù)據(jù)源的質(zhì)量層次不齊,嚴(yán)重影響了實(shí)體抽取的性能,如何過濾掉低質(zhì)量的數(shù)據(jù)源是下一步的重要研究課題。
? 開放式中文實(shí)體抽取
開放式中文實(shí)體抽取,尤其是當(dāng)不存在網(wǎng)頁結(jié)構(gòu)特征的情況下,抽取任務(wù)變得更加困難。其中一個(gè)重要原因是分詞問題,未知實(shí)體往往在分詞過程中被分開。針對(duì)純文本環(huán)境下開放式中文實(shí)體抽取的任務(wù),本課題組[21]利用啟發(fā)式規(guī)則來判別目標(biāo)實(shí)體被錯(cuò)分的邊界,然后利用上下文特征判別目標(biāo)是否為實(shí)體以及實(shí)體類別,在搜狗語料上測(cè)試,能夠達(dá)到70%的準(zhǔn)確率,有效地改善了中文開放式實(shí)體抽取的性能,但是這一結(jié)果還遠(yuǎn)遠(yuǎn)不能達(dá)到實(shí)用程度,還需進(jìn)行進(jìn)一步深入研究。
實(shí)體歧義指的是一個(gè)實(shí)體指稱項(xiàng)可對(duì)應(yīng)到多個(gè)真實(shí)世界實(shí)體(或稱實(shí)體概念)的問題。例如,給定如下的三個(gè)實(shí)體指稱項(xiàng)“華盛頓”:
美國(guó)開國(guó)元?jiǎng)兹A盛頓。
美國(guó)首都華盛頓特區(qū)。
華盛頓州, 位于美國(guó)西北部。
它們分別指向“美國(guó)的第一任總統(tǒng)”、“美國(guó)首府”及“美國(guó)的華盛頓州”三個(gè)真實(shí)世界實(shí)體。在許多任務(wù)中,需要確定一個(gè)實(shí)體指稱項(xiàng)所指向的真實(shí)世界實(shí)體,這就是實(shí)體消歧。
(1) 實(shí)體消歧的難點(diǎn)
實(shí)體消歧任務(wù)與普通的詞義消歧 (Word sense disambiguation) 任務(wù)有很多相似之處[22],但是有其自身的難點(diǎn)。
① 實(shí)體消歧目標(biāo)不明確: 傳統(tǒng)的詞義消歧任務(wù)是在具體上下文環(huán)境中確定多義詞的確切詞義,其詞義候選來源于專家編撰的詞典,目標(biāo)明確。而實(shí)體消歧任務(wù)中,往往不能提供實(shí)體概念列表,或者提供的實(shí)體概念列表不完整,實(shí)體消歧難以完成。
② 指稱項(xiàng)的多樣性(Name variation): 指一個(gè)實(shí)體概念可以用多種命名性指稱項(xiàng)指稱,例如全稱、別稱、簡(jiǎn)稱、拼寫錯(cuò)誤、多語言名稱等。例如: NBA籃球明星Michael Jeffrey Jordan在文本中可以用Michael Jordan、MJ、Jordan指稱。
③ 指稱項(xiàng)的歧義性(Name ambiguity): 指一個(gè)命名性指稱項(xiàng)在不同上下文中可以指稱不同的實(shí)體概念。例如: “邁克爾·喬丹獲得今年NBA的MVP”中有三個(gè)歧義實(shí)體: “邁克爾·喬丹”可能是籃球明星Michael Jeffrey Jordan,也可能是University of California, Berkeley的教授Michael I. Jordan;NBA可能是“National Basketball Association”,也可能是“National Bicycle Association”;MVP可能是Most Valuable Player,也可能是MVP: Health Care。
(2) 現(xiàn)有方法
目前命名實(shí)體消歧任務(wù)分為兩種類型: 實(shí)體聚類消歧和實(shí)體鏈接消歧,主要解決單語言實(shí)體消歧問題,多語言實(shí)體消歧有其特有的方法[23-24],由于篇幅限制,本文不再介紹。
? 實(shí)體聚類消歧
實(shí)體聚類消歧任務(wù)為: 給定一個(gè)包含某個(gè)歧義實(shí)體的網(wǎng)頁集合,按照網(wǎng)頁中實(shí)體指稱項(xiàng)所指向的實(shí)體概念對(duì)網(wǎng)頁進(jìn)行聚類,并抽取一個(gè)網(wǎng)頁中關(guān)于某個(gè)實(shí)體的特定屬性來輔助進(jìn)行實(shí)體消歧。目前,實(shí)體聚類聚類消歧一般采用如下步驟: ①對(duì)每一個(gè)實(shí)體指稱項(xiàng),抽取其上下文特征(包括詞、實(shí)體等),并將其表示成特征向量;②計(jì)算實(shí)體指稱項(xiàng)之間的相似度;③基于指稱項(xiàng)之間的相似度,采用一定聚類算法將其聚類,將每個(gè)類看作是一個(gè)實(shí)體概念。核心是如何計(jì)算實(shí)體指稱項(xiàng)之間的相似度。
傳統(tǒng)方法主要利用上下文的詞信息建立Bag-of-words模型(BOW),從而進(jìn)行實(shí)體指稱項(xiàng)相似度計(jì)算[25-29]。針對(duì)人名消歧, 基于圖算法[30-32],充分利用社會(huì)化關(guān)系的傳遞性而考慮隱藏的實(shí)體關(guān)系知識(shí),在某些情況下(特別是結(jié)構(gòu)化數(shù)據(jù),如論文記錄、電影記錄等)能取得更為準(zhǔn)確的實(shí)體指稱項(xiàng)相似度計(jì)算結(jié)果。但是,基于社會(huì)化網(wǎng)絡(luò)的相似度度量的缺點(diǎn)在于它只用到上下文中的實(shí)體指稱項(xiàng)本身的信息,不能利用實(shí)體指稱項(xiàng)的其他上下文信息,因此通常不能在文本實(shí)體消歧領(lǐng)域取得有競(jìng)爭(zhēng)力的性能。
為了克服基于表層特征的實(shí)體消歧方法的缺陷,一些研究者開始使用知識(shí)資源來提升實(shí)體消歧的效果,所使用的知識(shí)資源包括: Wikipedia[33-34]、Web上的鏈接信息[35-36]、命名實(shí)體的同現(xiàn)信息[37]、領(lǐng)域特定語料庫(kù)[38]等。Bunescu and Pasca[39]將Wikipedia中的類別信息用于Wikipedia中的實(shí)體消歧;Cucerzan[40]同時(shí)利用BOW 和Wikipedia 類別信息對(duì)Wikipedia中以及普通網(wǎng)頁上的實(shí)體名進(jìn)行消歧;利用Wikipedia條目信息對(duì)于目標(biāo)實(shí)體的上下文進(jìn)行語義表示的優(yōu)點(diǎn)在于可以更加精確地捕捉目標(biāo)實(shí)體的語義關(guān)聯(lián)度,而缺點(diǎn)在于這種表示具有稀疏性。針對(duì)這一問題,本課題組[33]利用Wikipedia中的知識(shí)鏈接信息計(jì)算實(shí)體指稱項(xiàng)之間的相似度,其中采用概念對(duì)齊策略來捕捉不同百科條目之間的語義關(guān)聯(lián)度,使得實(shí)體消歧的性能得到改善。但是單一使用Wikipedia知識(shí)庫(kù)進(jìn)行語義表示仍然具有語義稀疏性,針對(duì)這一問題,我們綜合利用WordNet、Wikipedia、網(wǎng)頁信息等多種知識(shí)源挖掘?qū)嶓w指稱項(xiàng)的上下文語義信息,并提出了基于圖的知識(shí)表示模型,將異構(gòu)語義信息融合在統(tǒng)一的基于圖的知識(shí)表示框架下,以此為基礎(chǔ)挖掘概念之間的潛在語義關(guān)聯(lián),從而同時(shí)集成來自于不同知識(shí)源的語義知識(shí)[34]。與基于單一知識(shí)源的方法相比,該方法顯著提升了實(shí)體消歧的性能。
? 實(shí)體鏈接消歧
基于聚類的實(shí)體消歧方法盡管可以將不同語義的實(shí)體指稱項(xiàng)區(qū)分開,但是不能顯式地給出實(shí)體的語義信息。針對(duì)這一問題,現(xiàn)在越來越多的研究者轉(zhuǎn)向?qū)嶓w鏈接Entity Linking(也稱Entity Resolution,Record Linkage和Entity Disambiguation)研究。實(shí)體鏈接消歧任務(wù)為: 給定一個(gè)實(shí)體指稱項(xiàng),將其鏈接到知識(shí)庫(kù)中的實(shí)體概念上。例如: 將“Michael Jordan has published over 300 research articles on topics in computer science, statistics, electrical engineering, molecular biology and cognitive science.”中的實(shí)體指稱項(xiàng)“Michael Jordan”鏈接到知識(shí)庫(kù)中的實(shí)體概念“UC Berkeley大學(xué)教授Michael Jordan”上,而不是鏈接到實(shí)體概念“NBA球星Michael Jordan”上。
實(shí)體鏈接消歧主要有兩個(gè)步驟: ①候選實(shí)體的發(fā)現(xiàn): 給定實(shí)體指稱項(xiàng),鏈接系統(tǒng)根據(jù)知識(shí)、規(guī)則等信息找到實(shí)體指稱項(xiàng)的候選實(shí)體。例如: 對(duì)“Michael Jordan is a former NBA player, active businessman and majority owner of the Charlotte Bobcats.”中的Michael Jordan 進(jìn)行實(shí)體消歧,首先要找出Michael Jordan可能指向的真實(shí)世界實(shí)體Michael Jordan (basketball player)、Michael Jordan(mycologist)、Michael Jordan (footballer)、Michael B. Jordan、Michael H. Jordan、Michael-Hakim Jordan、Michael Jordan (Irish polotician)等等;②候選實(shí)體的鏈接: 鏈接系統(tǒng)根據(jù)指稱項(xiàng)和候選實(shí)體之間的相似度等特征,選擇實(shí)體指稱項(xiàng)的目標(biāo)實(shí)體。
候選實(shí)體發(fā)現(xiàn)目前有兩種方法,一種是通過挖掘Wikipedia等網(wǎng)絡(luò)百科得到,我們可以利用Wikipedia中錨文本的超鏈接關(guān)系、消歧頁面(Disambiguation page)以及重定向頁面(Redirection page)獲得候選實(shí)體。另一種是通過挖掘待消歧實(shí)體指稱項(xiàng)的上下文文本得到,這種方法主要用于發(fā)現(xiàn)縮略語的候選實(shí)體??s略語在實(shí)體指稱項(xiàng)中十分常見,據(jù)統(tǒng)計(jì), KBP2009測(cè)試數(shù)據(jù)的3 904個(gè)實(shí)體指稱項(xiàng)中有827個(gè)為縮略語[41],縮略語指稱項(xiàng)具有很強(qiáng)的歧義性,但它的全稱往往是沒有歧義的。Zhang等人[41]利用規(guī)則方法從上下文中獲取縮略語候選實(shí)體,取得不錯(cuò)的效果。
實(shí)體鏈接的核心仍然是計(jì)算實(shí)體指稱項(xiàng)和候選實(shí)體的相似度,選擇相似度最大的候選實(shí)體作為鏈接的目標(biāo)實(shí)體。從相似度計(jì)算的方式上,可以分成單一實(shí)體鏈接和協(xié)同實(shí)體鏈接,以下分別介紹。
單一實(shí)體鏈接: 該方法僅僅考慮實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體間的語義相似度。Honnibal等人[42]和Bikel等人[43]將實(shí)體指稱項(xiàng)的上下文與候選實(shí)體的上下文分別表示成BOW 向量形式,通過計(jì)算向量間的余弦值確定指稱項(xiàng)與候選實(shí)體的相似度,系統(tǒng)選擇相似度最大的候選實(shí)體進(jìn)行鏈接。Bunescu等人[39]考慮到候選實(shí)體的文本內(nèi)容可能太短,會(huì)導(dǎo)致相似度計(jì)算不準(zhǔn)確,加入指稱項(xiàng)文本中的詞語與候選實(shí)體類別的共現(xiàn)特征。Han[44]認(rèn)為實(shí)體鏈接與三個(gè)因素相關(guān): ①實(shí)體指稱項(xiàng)與目標(biāo)實(shí)體之間的關(guān)聯(lián)度;②目標(biāo)實(shí)體在上下文中的語義一致性;③目標(biāo)實(shí)體在語料中的流行度。基于這三個(gè)考慮給出了一種產(chǎn)生式模型,充分融入了候選實(shí)體的背景知識(shí)與先驗(yàn)信息,顯著提升了實(shí)體鏈接的性能。
協(xié)同實(shí)體鏈接: 傳統(tǒng)的單一實(shí)體鏈接只是孤立的單個(gè)實(shí)體的消歧問題,但是在現(xiàn)實(shí)文本存在大量的歧義實(shí)體,如果把每個(gè)歧義實(shí)體看作是一個(gè)孤立點(diǎn),就忽略了實(shí)體之間的語義關(guān)聯(lián)。而協(xié)同實(shí)體鏈接的目的就是利用協(xié)同式策略綜合考慮多個(gè)實(shí)體間的語義關(guān)聯(lián),建立全局語義約束,從而更好地對(duì)于文本內(nèi)的多個(gè)實(shí)體進(jìn)行消歧。Cucerzan等人[40]考慮不同實(shí)體的類別信息,利用實(shí)體類別重合度計(jì)算目標(biāo)實(shí)體的語義相似度。Kulkarni等人[45]采用pair-wise策略,將多個(gè)目標(biāo)指稱項(xiàng)分解為多個(gè)目標(biāo)對(duì),計(jì)算每個(gè)對(duì)之間的語義關(guān)聯(lián)度,然后累加起來作為文本內(nèi)部多個(gè)實(shí)體之間的語義一致性度量。這種方法盡管考慮了目標(biāo)實(shí)體之間的語義一致性,但是pair-wise策略仍然是一種局部尋優(yōu)方法,在尋優(yōu)過程中考慮的僅僅是局部語義一致性。因此,本課題組在充分分析問題的基礎(chǔ)上,給出了一種基于圖的方法,利用圖上的計(jì)算,充分考慮文本內(nèi)部目標(biāo)實(shí)體之間的全局語義一致性、指稱項(xiàng)與目標(biāo)實(shí)體之間的關(guān)聯(lián)度[46]。相對(duì)于傳統(tǒng)單一消歧方法以及pairwise方法能夠有效地提高消歧的精度。
(3) 系統(tǒng)評(píng)測(cè)和技術(shù)水平
目前主流的命名實(shí)體消歧評(píng)測(cè)平臺(tái)主要有兩個(gè): 一個(gè)是WePS(Web Person Search Clustering Task)評(píng)測(cè)[47-48],主要針對(duì)基于聚類的命名實(shí)體消歧系統(tǒng)進(jìn)行評(píng)測(cè);第二個(gè)是TAC KBP的Entity Linking評(píng)測(cè)[49],主要針對(duì)基于實(shí)體鏈接的命名實(shí)體消歧系統(tǒng)進(jìn)行評(píng)測(cè)。
WePS主要針對(duì)Web人名搜索結(jié)果的消歧技術(shù)進(jìn)行評(píng)測(cè),其任務(wù)是通過對(duì)人名搜索結(jié)果進(jìn)行聚類來消除歧義。目前WePS評(píng)測(cè)已經(jīng)開展了兩屆,正在進(jìn)行的是第三屆: 其中第一屆評(píng)測(cè)作為SemEval 2007的子任務(wù)進(jìn)行,共有15家單位參加;第二屆評(píng)測(cè)作為WWW 2009的子任務(wù)進(jìn)行,共有17家單位參加。目前WePS評(píng)測(cè)共包含三個(gè)數(shù)據(jù)集,分別為第一屆的開發(fā)集(WePS1_Training)、第一屆的測(cè)試集(WePS1_Test)和第二屆的測(cè)試集(WePS2_Test)。這些數(shù)據(jù)集共包含109個(gè)待消歧人名,其中每個(gè)人名下大約有100個(gè)網(wǎng)頁(第二屆為150個(gè))。
與WePS不同,TAC KBP評(píng)測(cè)對(duì)實(shí)體鏈接(Entity Linking)任務(wù)進(jìn)行評(píng)測(cè)。目前,TAC實(shí)體鏈接任務(wù)的目標(biāo)實(shí)體知識(shí)庫(kù)使用2008年10月版本的Wikipedia構(gòu)建,共包含了約82萬個(gè)實(shí)體,其中有人物實(shí)體11萬,占14%;組織實(shí)體5.5萬,占6.8%;地理實(shí)體11萬,占14.2%;其他類別的實(shí)體53萬,占65%。目標(biāo)知識(shí)庫(kù)的總大小約為2.6Gb。圖3是TAC KBP 2010評(píng)測(cè)的結(jié)果。從圖3中可以看出,各個(gè)系統(tǒng)的平均水平在70%,還無法滿足真實(shí)的應(yīng)用需求,因此仍然需要深入研究和探索。
(4) 實(shí)體消歧存在的問題
? 空目標(biāo)實(shí)體問題(NIL Entity Problem)
實(shí)體鏈接的一個(gè)未解決的問題是空實(shí)體問題(實(shí)體知識(shí)庫(kù)中不包含某指稱項(xiàng)的目標(biāo)實(shí)體),現(xiàn)有的框架使用基于相似性閾值的處理方法,不能很好地建模和解決這個(gè)問題。我們正在嘗試在語言模型框架下,用一個(gè)偽實(shí)體語言模型來建模這個(gè)問題,從而為有效地解決空實(shí)體問題提供一種思路。
圖3 TAC KBP 2010 結(jié)果
? 知識(shí)庫(kù)的覆蓋度問題
目前的研究表明,基于知識(shí)資源設(shè)計(jì)更精確的實(shí)體指稱項(xiàng)相似度計(jì)算方法可以在某種程度上提升實(shí)體消歧的性能,但常常面臨知識(shí)覆蓋度問題。例如,僅僅使用社會(huì)化網(wǎng)絡(luò)并不能對(duì)所有特征關(guān)聯(lián)進(jìn)行建模,如概念之間的語義關(guān)聯(lián)、詞匯之間的語義關(guān)聯(lián)。對(duì)多源異構(gòu)網(wǎng)絡(luò)知識(shí)資源進(jìn)行有效挖掘和集成是解決上述問題的一種途徑。
? 知識(shí)不確切的問題
互聯(lián)網(wǎng)上的知識(shí)源通常面臨著不準(zhǔn)確的問題,甚至包含錯(cuò)誤的知識(shí)。通常有兩個(gè)方面的原因: ①知識(shí)本身的不可靠: 網(wǎng)絡(luò)百科(如維基百科、百度百科等)本身存在錯(cuò)誤;②由于抽取技術(shù)不可靠帶來的知識(shí)不可靠: 利用信息抽取、網(wǎng)頁抽取等技術(shù)從社會(huì)化網(wǎng)絡(luò)以及Web中抽取出來的知識(shí)很可能存在錯(cuò)誤。因此需要研究能夠容錯(cuò)的知識(shí)集成和推理技術(shù)。
? 知識(shí)庫(kù)使用的問題
利用知識(shí)庫(kù)進(jìn)行實(shí)體消歧時(shí),對(duì)于知識(shí)庫(kù)的使用目前所有方法都集中于使用單文檔特征,例如: 對(duì)實(shí)體概念的描述僅僅使用其Wikipedia頁面。但是,單文檔特征常常面臨數(shù)據(jù)稀疏問題,不足以描述實(shí)體概念。另外,僅僅使用單文檔特征也忽略了其他知識(shí),如語料庫(kù)中存在的聚類結(jié)構(gòu)和網(wǎng)頁鏈接結(jié)構(gòu)、概念或?qū)嶓w的層級(jí)結(jié)構(gòu)等。因此,有必要在語言模型框架下提出新的可以有效使用這些知識(shí)的方法。
實(shí)體關(guān)系抽取指的是確定實(shí)體之間是否存在關(guān)系并確定其關(guān)系類別的任務(wù)。例如,給定“國(guó)家財(cái)政部部長(zhǎng)項(xiàng)懷誠(chéng)發(fā)表了重要講話”這個(gè)句子,實(shí)體關(guān)系抽取需要識(shí)別其中的實(shí)體“國(guó)家財(cái)政部”和“項(xiàng)懷誠(chéng)”之間存在“Employee_of”類別的關(guān)系。傳統(tǒng)的實(shí)體關(guān)系抽取大都是給定關(guān)系類別,要求在限定語料中判別兩個(gè)實(shí)體之間是否存在給定關(guān)系,可以看作是一個(gè)模板填充或者槽填充的過程。例如在MUC-6[2]中,其機(jī)構(gòu)模板中包含LOCATE和COUNTRY兩個(gè)填充槽,分別表示該機(jī)構(gòu)所處的位置和所在國(guó)家。MUC-7[50]把命名實(shí)體之間潛在的關(guān)系從實(shí)體的屬性值中分離出來,正式引入了模板關(guān)系(TR,Template Relation)任務(wù),它要求識(shí)別實(shí)體之間的三種相互關(guān)系(即location_of、employee_of和product_of等)。在TAC KBP Slot Filling任務(wù)中,針對(duì)不同類型實(shí)體,定義了不同的實(shí)體關(guān)系(是各種屬性關(guān)系),要求系統(tǒng)從大規(guī)模文本中找到指定實(shí)體的屬性值。
在面對(duì)海量網(wǎng)絡(luò)文本資源時(shí),不同的實(shí)體類型具有不同關(guān)系(或?qū)傩?。傳統(tǒng)實(shí)體關(guān)系抽取研究受到人工定義關(guān)系類型的限定以及訓(xùn)練語料的限制,很難適應(yīng)網(wǎng)絡(luò)文本快速增長(zhǎng)、變化的需求。因此,開放式實(shí)體關(guān)系抽取的目標(biāo)就是突破封閉的關(guān)系類型限定以及訓(xùn)練語料的約束, 從海量的網(wǎng)絡(luò)文本中抽
取實(shí)體關(guān)系三元組(Arg1,Pred,Arg2),這里Arg1表示實(shí)體,Arg2表示實(shí)體關(guān)系值,通常也為實(shí)體,Pred表示關(guān)系名稱,通常為動(dòng)詞、名詞或者名詞短語。例如對(duì)于下面這句話:
“McCain fought hard against Obama, but finally lost the election”
從中,我們可以抽取出如下兩組三元組(McCain, fought, Obama)和(McCain, lost, election)。
(1) 開放式關(guān)系抽取的難點(diǎn)
開放式實(shí)體關(guān)系抽取包含兩個(gè)子任務(wù): ①實(shí)體關(guān)系類型抽?。虎趯?shí)體關(guān)系值抽取。
實(shí)體關(guān)系類型抽?。?面對(duì)開放領(lǐng)域,如何針對(duì)每一領(lǐng)域內(nèi)實(shí)體類別確定其關(guān)系類別,是開放式關(guān)系抽取的首要難點(diǎn),這種關(guān)系不僅僅包含概念之間的上下位關(guān)系、部分整體關(guān)系、屬主關(guān)系等通用關(guān)系,也包含不同類別實(shí)體概念所特有的語義關(guān)系,例如“籃球運(yùn)動(dòng)員”的以下屬性關(guān)系: 身高、臂展、命中率、籃板等。Web上存在著大量結(jié)構(gòu)化知識(shí)源,其中蘊(yùn)含著大量易于獲取的實(shí)體語義關(guān)系類別(如維基百科的Infobox),挖掘和利用Web知識(shí)源中的語義知識(shí),并充分利用數(shù)據(jù)冗余性進(jìn)行知識(shí)驗(yàn)證是可行的解決方案。
實(shí)體關(guān)系值抽?。?基于給定類別體系,如何在網(wǎng)絡(luò)文本中挖掘其關(guān)系值是傳統(tǒng)關(guān)系抽取任務(wù)的主要研究點(diǎn)。以往方法依賴于訓(xùn)練語料,通過上下文特征進(jìn)行關(guān)系值抽取。然而,面對(duì)開放領(lǐng)域,針對(duì)每一個(gè)領(lǐng)域構(gòu)建相應(yīng)的訓(xùn)練語料不具有可行性。那么面對(duì)開放的網(wǎng)絡(luò)資源,如何利用結(jié)構(gòu)化網(wǎng)絡(luò)知識(shí)與非結(jié)構(gòu)化網(wǎng)絡(luò)知識(shí)的冗余性,自動(dòng)構(gòu)建訓(xùn)練語料,同時(shí)建立自適應(yīng)的關(guān)系抽取算法,是開放式關(guān)系抽取的另一個(gè)難點(diǎn)問題。
(2) 現(xiàn)有方法
在開放式實(shí)體關(guān)系抽取方面,Washington大學(xué)的人工智能研究組在這方面做了大量代表性的工作,并且開發(fā)了一系列原型系統(tǒng): TextRunner[51]、WOE[52]、ReVerb[53]等。對(duì)于關(guān)系名稱的抽取,TextRunner[51]把動(dòng)詞作為關(guān)系名稱,抽取過程類似于語義角色標(biāo)注,通過動(dòng)詞鏈接兩個(gè)論元,從而挖掘論元之間的關(guān)系。WOE[52]是以Wikipedia為目標(biāo),從中抽取實(shí)體關(guān)系類型,從而構(gòu)建實(shí)體的屬性描述框架。在Wikipedia中,在每個(gè)概念條目中,通常都會(huì)有人工標(biāo)注的Infobox信息,其中包含了大量實(shí)體關(guān)系類別,如圖4所示。依據(jù)Infobox中蘊(yùn)含的大量實(shí)體關(guān)系對(duì),WOE對(duì)于概念條目正文進(jìn)行回標(biāo),以此來自動(dòng)產(chǎn)生關(guān)系值抽取的訓(xùn)練語料,從而解決了開放式關(guān)系抽取訓(xùn)練語料不足的問題。
圖4 從Wikipedia中抽取關(guān)系
除了從純文本以及半結(jié)構(gòu)化網(wǎng)頁中進(jìn)行關(guān)系類別抽取外,Pasca等人[15]以用戶日志為數(shù)據(jù)源,利用其中實(shí)體、屬性和關(guān)系詞的共現(xiàn)信息獲取目標(biāo)實(shí)體類別的屬性類別列表。比如輸入目標(biāo)類別“電腦廠商”和種子實(shí)體“聯(lián)想、 蘋果、 戴爾”,輸出排序后的目標(biāo)類別的屬性類別列表為“筆記本、售后、CEO,…”。實(shí)驗(yàn)表明,這種方法在前50個(gè)結(jié)果中平均可以達(dá)到76%的準(zhǔn)確率。
在關(guān)系值抽取方面,TextRunner直接從網(wǎng)頁的純文本中抽取實(shí)體關(guān)系,在這一過程中只考慮文本中詞與詞之間的關(guān)系特征,而不考慮網(wǎng)頁內(nèi)部的結(jié)構(gòu)特征。TextRunner首先利用簡(jiǎn)單的啟發(fā)式規(guī)則,在賓州樹庫(kù)上產(chǎn)生訓(xùn)練語料,提取一些淺層句法特征,訓(xùn)練一個(gè)分類器,用來判斷兩個(gè)實(shí)體間是否存在語義關(guān)系;然后在海量網(wǎng)絡(luò)數(shù)據(jù)上,找到候選句子,提取淺層句法特征,利用分類器判斷所抽取的關(guān)系對(duì)是否可信;最后利用網(wǎng)絡(luò)數(shù)據(jù)的冗余信息,對(duì)初步認(rèn)定可信的關(guān)系進(jìn)行評(píng)估。但是,TextRunner的問題在于往往從文本中抽取出無信息量的三元組(Un-informative Extractions)和錯(cuò)誤的三元組(Incoherent Extractions),其中無信息量三元組在抽取結(jié)果中占7%的比例,錯(cuò)誤三元組占 13%的比例。 針對(duì)這一問題,Etzioni等人[53]開發(fā)了ReVerb系統(tǒng),提出了利用句法和詞匯信息對(duì)抽取過程進(jìn)行約束,實(shí)驗(yàn)證明這種方法可以較大幅度地提升關(guān)系值抽取的準(zhǔn)確率和召回率。
(3) 系統(tǒng)評(píng)測(cè)和技術(shù)水平
開放式關(guān)系抽取目前還沒有舉辦過公開評(píng)測(cè),研究工作的數(shù)據(jù)來源也不統(tǒng)一。目前,評(píng)價(jià)指標(biāo)仍然和傳統(tǒng)信息抽取評(píng)價(jià)指標(biāo)一樣,采用正確率(Precision)、召回率(Recall)以及F值作為評(píng)價(jià)指標(biāo)。Wu[52]給出了幾個(gè)開放式關(guān)系抽取系統(tǒng)的實(shí)驗(yàn)比較,如圖5所示:
圖5 開放式關(guān)系抽取系統(tǒng)比較
從圖5我們可以看出,對(duì)于關(guān)系名抽取,目前F值可以達(dá)到70%左右的,而綜合考慮關(guān)系值的抽取,性能下降很多。從面向互聯(lián)網(wǎng)的真實(shí)應(yīng)用需要來看,未來還需要深入研究。
(4) 需要解決的問題
從傳統(tǒng)給定類別的關(guān)系抽取到開放式的關(guān)系抽取,是關(guān)系抽取研究思路上的一個(gè)轉(zhuǎn)變,目前開放式抽取系統(tǒng)還存在的不足是:
? 針對(duì)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)的關(guān)系抽取問題
目前的關(guān)系抽取研究大多數(shù)是在干凈的文本上進(jìn)行的,而網(wǎng)絡(luò)數(shù)據(jù)格式不規(guī)范,噪聲大,質(zhì)量層次不齊,如何針對(duì)真實(shí)網(wǎng)絡(luò)數(shù)據(jù)研究魯棒的關(guān)系抽取方法是需要重點(diǎn)研究的問題之一。
? 單純利用Infobox抽取關(guān)系名覆蓋率不高的問題
Wu[52]利用Infobox信息進(jìn)行回標(biāo)產(chǎn)生訓(xùn)練集,這種方法對(duì)于中文百科頁面仍然具有局限性。在中文百科頁面中(百度百科、互動(dòng)百科等)并不是所有的類別條目下都有Infobox信息,這使得Wu[52]的方法具有很大局限性。同時(shí),Infobox中往往是一些同類型條目共有的信息,而大部分條目特有的屬性信息散落在百科條目的文本中,以半結(jié)構(gòu)化或者純文本形式出現(xiàn)。開放式關(guān)系抽取不能忽略這一部分信息。
信息抽取技術(shù)的研究從上世紀(jì)80年代開始至今走過了20多年的歷程,研究?jī)?nèi)容和技術(shù)手段隨著互聯(lián)網(wǎng)的發(fā)展而發(fā)展。在研究?jī)?nèi)容上,已經(jīng)從面向限定領(lǐng)域、限定類型的信息抽取任務(wù)逐漸發(fā)展為開放領(lǐng)域、開放類別的信息抽取任務(wù)。在技術(shù)手段上,從早期基于人工模板的方法,到基于語料庫(kù)的統(tǒng)計(jì)方法,再到目前Web2.0時(shí)代從大規(guī)模用戶生成內(nèi)容(User Generated Content,例如網(wǎng)絡(luò)百科、社區(qū)問答等)進(jìn)行知識(shí)挖掘,進(jìn)而融合知識(shí)和統(tǒng)計(jì)方法進(jìn)行開放式信息抽取,技術(shù)手段越來越有效。在以上進(jìn)展過程中,信息抽取技術(shù)乃至自然語言處理技術(shù)的研究越來越面向互聯(lián)網(wǎng)應(yīng)用,而互聯(lián)網(wǎng)也為信息抽取技術(shù)和自然語言處理技術(shù)的研究提供了越來越多的寶貴資源和技術(shù)創(chuàng)新的源泉。近年來,研究人員利用網(wǎng)絡(luò)上豐富的數(shù)據(jù)資源開展了一系列的研究工作,比如利用網(wǎng)絡(luò)海量數(shù)據(jù)提升句法分析的性能[54-55]; 利用網(wǎng)絡(luò)上積累的大量問答對(duì)開展社區(qū)問答方面的研究[56-59], 等等。在這種交叉融合的趨勢(shì)下,信息抽取技術(shù)和自然語言處理技術(shù)的研究和應(yīng)用必將得到加速發(fā)展。
作為開放式信息抽取技術(shù)的應(yīng)用,大規(guī)模知識(shí)庫(kù)的自動(dòng)構(gòu)建是一個(gè)典型代表。很多互聯(lián)網(wǎng)應(yīng)用任務(wù)都需要背景知識(shí)庫(kù)的支撐,這個(gè)知識(shí)庫(kù)不僅包含WordNet[60]、HowNet[61]等常識(shí)知識(shí)庫(kù)中的通用語義知識(shí),而且包含百科全書、領(lǐng)域知識(shí)庫(kù)中的領(lǐng)域語義知識(shí)。如果能把多源知識(shí)集成為一個(gè)大的知識(shí)系統(tǒng),將可能提高很多互聯(lián)網(wǎng)應(yīng)用系統(tǒng)的性能,并開創(chuàng)語義網(wǎng)時(shí)代的很多應(yīng)用?,F(xiàn)有的知識(shí)庫(kù)如WordNet[60]、HowNet[61]和CYC[62]等大多數(shù)依靠專家人工編撰。隨著互聯(lián)網(wǎng)的發(fā)展,知識(shí)呈爆炸式增長(zhǎng),人工構(gòu)建知識(shí)庫(kù)特別是領(lǐng)域知識(shí)庫(kù)遇到了很大困難[63]: 不僅費(fèi)時(shí)費(fèi)力,而且知識(shí)覆蓋率低,數(shù)據(jù)稀疏,更新緩慢。另一方面,機(jī)器自動(dòng)構(gòu)建知識(shí)庫(kù)的方法目前仍舊只能完成簡(jiǎn)單粗淺的任務(wù)[64],無法達(dá)到構(gòu)建高質(zhì)量知識(shí)庫(kù)的要求。開放式信息抽取技術(shù)研究的不斷深入以及Wikipedia、Freebase、百度百科、互動(dòng)百科等大規(guī)模網(wǎng)絡(luò)知識(shí)庫(kù)的大量出現(xiàn),為大規(guī)模知識(shí)工程的構(gòu)建提供了新的契機(jī)。信息抽取和知識(shí)工程領(lǐng)域的研究人員在這方面做出了積極有效的探索。YAGO[65]從Wikipedia的category pages中提取出實(shí)體實(shí)例和關(guān)系實(shí)例候選,并與WordNet進(jìn)行銜接,準(zhǔn)確率達(dá)到97%。這樣,YAGO既具有WordNet干凈的概念層級(jí)結(jié)構(gòu),又擁有Wikipedia的海量實(shí)例。目前,YAGO有100萬實(shí)體及其500萬事實(shí)。本研究組利用在信息抽取方面的技術(shù)積累,以《中國(guó)大百科全書》知識(shí)體系作為目標(biāo)知識(shí)庫(kù)的結(jié)構(gòu),從網(wǎng)絡(luò)知識(shí)庫(kù)中抽取概念實(shí)例并綜合利用網(wǎng)絡(luò)百科網(wǎng)頁中蘊(yùn)含的豐富的語義標(biāo)簽、半結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息進(jìn)行概念實(shí)例掛載,從而將百科知識(shí)庫(kù)從8萬條目擴(kuò)展為目前的百萬條目級(jí)別,在此基礎(chǔ)上進(jìn)行概念屬性抽取,為下一步研發(fā)面向開放式的自動(dòng)問答系統(tǒng)提供了知識(shí)資源的支撐[66]。
綜上所述,信息抽取在互聯(lián)網(wǎng)應(yīng)用中具有非常重要的應(yīng)用前景。面對(duì)互聯(lián)網(wǎng)的實(shí)際需求以及網(wǎng)絡(luò)文本的特點(diǎn),傳統(tǒng)信息抽取技術(shù)已經(jīng)遇到技術(shù)瓶頸,無法得到廣泛應(yīng)用,迫切需要更加系統(tǒng)深入的研究。本文重點(diǎn)介紹了面向互聯(lián)網(wǎng)應(yīng)用的開放式信息抽取技術(shù),以實(shí)體為核心,重點(diǎn)分析介紹實(shí)體識(shí)別與抽取、實(shí)體消歧和實(shí)體關(guān)系抽取等三個(gè)開放式信息任務(wù)的研究現(xiàn)狀、存在的問題和值得深入研究的方向。從研究方法上來看,研究人員已經(jīng)開始突破傳統(tǒng)的依賴人工標(biāo)注語料庫(kù)的統(tǒng)計(jì)學(xué)習(xí)方法,有效地挖掘和集成多源異構(gòu)的網(wǎng)絡(luò)知識(shí)并與統(tǒng)計(jì)方法結(jié)合進(jìn)行開放式信息抽取。因此,研究領(lǐng)域知識(shí)的表示、挖掘、集成和推理機(jī)制,探索構(gòu)建高性能、大規(guī)模知識(shí)系統(tǒng)的方法,為克服傳統(tǒng)方法在面向開放式信息抽取時(shí)的推導(dǎo)和泛化能力不足的問題提供解決方案,具有重要的學(xué)術(shù)意義。
致謝感謝研究生們對(duì)本文的貢獻(xiàn),特別是韓先培和張濤(實(shí)體消歧),楊帆(多語言實(shí)體消歧),齊振宇(實(shí)體抽取),劉芳(屬性抽取),徐立恒、劉洋和來斯惟(網(wǎng)絡(luò)知識(shí)工程)等。
[1] Ralph Grishman. 1997. Information Extraction: Techniques and Challenges[R]. New York: New York University, 1997.
[2] Ralph Grishman, Beth Sundheim. Message Understanding Conference-6: A Brief History[C]//Proceedings of COLING, 1996.
[3] http://www.itl.nist.gov/iad/mig/tests/ace/[OL].
[4] http://www.nist.gov/tac/[OL].
[5] Martina Naughton, N. Kushmerichand J. Carthy. Event Extraction from Hetergeneous News Sources[C]//Proceedings of AAAI, 2006.
[6] D. McClosky, M. Surdeanu, C. D. Manning. Event Extraction as Dependency Parsing[C]//Proceedings of ACL-HLT, 2011.
[7] Yu Hong, Jianfeng Zhang, Bin Ma, Jianmin Yao, Guodong Zhou, Qiaoming Zhu. Using Cross-Entity Inference to Improve Event Extraction[C]//Proceedings of ACL-HLT, 2011.
[8] 劉康. 文本傾向性分析技術(shù)研究[D]. 中國(guó)科學(xué)院自動(dòng)化研究所博士學(xué)位論文, 2010.
[9] 趙軍. 命名實(shí)體識(shí)別、排歧和多語言關(guān)聯(lián)[J]. 中文信息學(xué)報(bào),2009, 23(2): 3-17.
[10] Jun Zhao, Feifan Liu. Product Named Entity Recognition in Chinese Texts[J]. International Journal of Language Resource and Evaluation. 2008, 42(2): 132-152.
[11] Richard C. Wang, William Cohen. Automatic Set Instance Extraction using the Web[C]//Proceedings of ACL-IJCNLP, 2009.
[12] Richard C. Wang, William Cohen. Iterative Set Expansion of Named Entities using the Web[C]//Proceedings of ICDM, 2008.
[13] Richard C. Wang, Nico Schlaefer, William Cohen, Eric Nyberg. Automatic Set Expansion for List Question Answering[C]//Proceedings of EMNLP, 2008.
[14] Casey Whitelaw, Alex Kehlenbeck, Nemanja Petrovic. Web-Scale Named Entity Recognition[C]//Proceedings of CIKM, 2008.
[15] Marius Pasca: Organizing and searching the world wide web of facts-step two: harnessing the wisdom of the crowds[C]//Proceedings of WWW, 2007.
[16] Yeye He, Dong Xin. SEISA: Set Expansion by Iterative Similarity Aggregation[C]//Proceedings of WWW, 2011.
[17] Marco Pennacchiotti, Patrick Pantel. Entity Extraction via Ensemble Semantics[C]//Proceedings of EMNLP, 2009.
[18] Vishnu Vyas, Patrick Pantel, Eric Crestan. Helping Editors Choose Better Seed Sets for Entity Set Expansion[C]//Proceedings of CIKM, 2009.
[19] Vishnu Vyas, Patrick Pantel. Semi-Automatic Entity Set Refinement[C]//Proceedings of NAACL, 2009.
[20] Richard C. Wang, William Cohen. Language-Independent Set Expansion of Named Entities using the Web[C]//Proceedings of ICDM, 2007.
[21] 齊振宇, 趙軍, 楊帆. 一種開放式中文命名實(shí)體識(shí)別的新方法[C]//第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議,上海, 2009年.
[22] Philip Edmonds. SENSEVAL: The Evaluation of Word Sense Disambiguation Systems[R]//ELRA Newsletter, October, 2002.
[23] Fan Yang, Jun Zhao, Bo Zou, Kang Liu. Chinese-English Backward Translation Assisted with Mining Monolingual Web Pages[C]//Proceedings of ACL, 2008.
[24] Fan Yang, Jun Zhao, Kang Liu. A Chinese-English Organization Name Translation System Using Heuristic Web Mining and Asymmetric Alignment[C]//Proceedings of ACL, 2009.
[25] Bagga, Baldwin. Entity-Based Cross-Document Coreferencing Using the Vector Space Model[C]//Proceedings of HLT/ACL, 2008.
[26] Gideon S. Mann, David Yarowsky. Unsupervised Personal Name Disambiguation[C]//Proceedings of CONIL, 2003.
[27] Cheng Niu, Wei Li, Rohini K. Srihari. Weakly Supervised Learning for Cross-document Person Name Disambiguation Supported by Information Extraction[C]//Proceedings of ACL, 2004.
[28] Ted Pedersen, Amruta Purandare, Anagha Kulkarni. Name Discrimination by Clustering Similar Contexts[C]//Proceedings of CICLing, 2005.
[29] Ying Chen, James Martin. Towards Robust Unsupervised Personal Name Disambiguation[C]//Proceedings of EMNLP, 2007.
[30] Bradley Malin. Unsupervised Name Disambiguation via Social Network Similarity[C]//Proceedings of SIAM, 2005.
[31] Bradley Malin, Edoardo Airoldi. A Network Analysis Model for Disambiguation of Names in Lists[J]. Computational & Mathematical Organization Theory, 2005, 11: 119-139.
[32] Kai-Hsiang Yang, Kun-Yan Chiou, Hahn-Ming Lee, Jan-Ming Ho. Web Appearance Disambiguation of Personal Names Based on Network Motif[C]//Proceedings of WI, 2006.
[33] Xianpei Han, Jun Zhao. Named Entity Disambiguation by Leveraging Wikipedia semantic knowledge[C]//Proceedings of CIKM, 2009.
[34] Xianpei Han, Jun Zhao. Structural Semantic Relatedness: A Knowledge-Based Method to Named Entity Disambiguation[C]//Proceedings of ACL, 2011.
[35] Joseph Hassell, Boanerges Aleman-Meza, I. BudakArpinar. Ontology-Driven Automatic Entity Disambiguation in Unstructured Text[C]//Proceedings of ISWC, 2006.
[36] Ron Bekkerman, Andrew McCallum. Disambiguating Web Appearances of People in a Social Network[C]//Proceedings of WWW, 2005.
[37] Dmitri V. Kalashnikov, Rabia Nuray-Turan, Sharad Mehrotra. Towards Breaking the Quality Curse. A Web-Querying Approach to Web People Search[C]//Proceedings of SIGIR, 2008.
[38] Yiming Lu, Zaiqing Nie, Taoyuan Cheng, Ying Gao, Ji-Rong Wen. Name Disambiguation Using Web Connection[C]//Proceedings of AAAI, 2007.
[39] Razvan Bunescu, Marius Pasca. Using Encyclopedic Knowledge for Named Entity Disambiguation[C]//Proceedings of EACL, 2006.
[40] Silviu Cucerzan. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of EMNLP, 2007.
[41] Wei Zhang, Yan Chuan Sim, Jian Su, Chew Lim Tan. Entity Linking with Effective Acronym Expansion, Instance Selection and Topic Modeling[C]//Proceedings of IJCAI, 2011.
[42] Matthew Honnibal, Robert Dale. DAMSEL: The DSTO/Macquarie System for Entity-Linking[C]//Proceeding of TAC, 2009.
[43] Dan Bikel, Vittorio Castelli, Radu Florian, Ding-Jung Han. Entity Linking and Slot Filling through Statistical Processing and Inference Rules[C]//Proceedings of TAC, 2009.
[44] Xianpei Han, Le Sun. A Generative Entity-Mention Model for Linking Entities with Knowledge Base[C]//Proceedings of ACL, 2011.
[45] Sayali Kulkarni, Amit Singh, Ganesh Ramakrishnan, Soumen Chakrabarti. Collective annotation of Wikipedia entities in web text[C]//Proceedings of KDD, 2009.
[46] Xianpei Han, Le Sun, Jun Zhao. Collective Entity Linking in Web Text: A Graph-Based Method[C]//Proceedings of SIGIR, 2011.
[47] Javier Artiles, Julio Gonzalo, Satoshi Sekine. The SemEval-2007 WePS Evaluation: Establishing a benchmark for the Web People Search Task[C]//Proceedings SemEval, 2007.
[48] Javier Artiles, Julio Gonzalo, Satoshi Sekine. WePS2 Evaluation Campaign: Overview of the Web People Search Clustering Task[C]//Proceedings of WWW Workshop of WePS2, 2009.
[49] Paul McNamee, Hoa Dang. Overview of the TAC 2009 Knowledge Base Population Track[C]//Proceedings of Text Analysis Conference (TAC-2009), 2009.
[50] http://www-nlpir.nist.gov/related_projects/muc/proceedings/muc_7_proceedings/overview.html[OL].
[51] Michele Banko, Michael J Cafarella. Stephen Soderland, Matt Broadhead and Oren Etzioni. Open Information Extraction from the Web[C]//Proceedings of IJCAI, 2007.
[52] Fei Wu, Daniel S. Weld. Autonomously Semantifying Wikipedia[C]//Proceedings of CIKM, 2007.
[53] Oren Etzioni, Anthony Fader, Janara Christensen, Stephen Soderland, Mausam. Open Information Extraction: the Second Generation[C]//Proceedings of IJCAI, 2011.
[54] Mohit Bansal, Dan Klein. Web-Scale Features for Full-Scale Parsing[C]//Proceedings of ACL-HLT, 2011.
[55] Guangyou Zhou, Jun Zhao, Kang Liu, Li Cai. Exploiting Web-Derived Selectional Preference to Improve Statistical Dependency Parsing[C]//Proceedings of ACL-HLT, 2011.
[56] Xiaobin Xue, Jiwoon Jeon, W. Bruce Croft. Retrieval Models for Question and Answer Archives[C]//Proceedings of SIGIR, 2008.
[57] Guangyou Zhou, Li Cai, Jun Zhao, Kang Liu. Phrase-Based Translation Model for Question Retrieval in Community Question Answer Archives[C]//Proceedings of ACL-HLT, 2011.
[58] Li Cai, Guangyou Zhou, Kang Liu, Jun Zhao. Learning the Latent Topics for Community QA[C]//Proceedings of IJCNLP, 2011.
[59] Li Cai, Guangyou Zhou, Kang Liu, Jun Zhao. Learning to Classify Large-Scale Questions in Community QA by Leveraging Wikipedia Semantic Knowledge[C]//Proceedings of CIKM, 2011.
[60] George A. Miller, WordNet: A Lexical Database for English[J]. Communication of the ACM, 38(11): 39-41.
[61] HowNet: http://www.keenage.com/[DB/OL].
[62] Douglas B. Lenat. CYC: A Large-Scale Investment in Knowledge Infrastructure[J]. Communications of the ACM 1995,38(11): 33-38.
[63] Alexander Madche and Steffen Staab. Ontology Learning for the Semantic Web[J]. IEEE Intelligent Systems, 2001, 16(2): 72-79.
[64] L. Brainbridge. Ironies of automation[J]. Automatica, 1983, 19: 775-779.
[65] Fabian M. Suchanek, Gjergji Kasneci and Gerhard Weikum. YAGO: A Core of Semantic Knowledge Unifying WordNet and Wikipedia[C]//Proceedings of WWW, 2007.
[66] 徐立恒,劉洋,來斯惟,等. 基于多特征表示的本體概念掛載研究[C]//全國(guó)第十一屆計(jì)算語言學(xué)學(xué)術(shù)會(huì)議,洛陽,2011.