国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語義分析若干前沿問題

2020-06-04 09:55姬東鴻
長江學術(shù) 2020年2期
關(guān)鍵詞:語義短語實體

姬東鴻

(武漢大學 國家網(wǎng)絡(luò)安全學院,湖北 武漢430072)

一、詞匯融合

(一)概念

例1:27 日上午8 時40 分,【上訪】教師【聚集】滯留在六安市政府南大門,且圍觀人員越聚越多。市委、市政府相關(guān)負責同志趕到現(xiàn)場接訪,勸導上訪教師不要堵門堵路,選出代表到市信訪局依法理性表達訴求,但沒有起到作用。在現(xiàn)場,民警多次進行法律宣講和勸導,告知其行為已違反《中華人民共和國治安管理處罰法》、《中華人民共和國集會游行示威法》、國務院《信訪條例》有關(guān)規(guī)定,應立即停止【集訪】。(六安市人民政府網(wǎng))

例2:央行宣布自2015 年3 月1 日起【下調(diào)】金融機構(gòu)一年期貸款基準【利率】,金融機構(gòu)一年期貸款基準利率下調(diào)0.25 個百分點至5.35%,一年期存款基準利率下調(diào)0.25 個百分點至2.5%。此番調(diào)整是自去年11 月以來,4 個月時間內(nèi)央行進行的第二次【降息】調(diào)整。(新浪財經(jīng))

例1 中融合式“集訪”的兩個語素都來自分離式,而例2 中融合式“降息”的兩個語素都未見于分離式。對于雙音節(jié)融合式來說,按照語素是否來自分離式,它們可分為四種類型:AA 型、BB 型、AB型和BA 型。AA 型融合式的兩個語素分別來自兩個分離式,BB 型融合式的兩個語素都不來自分離詞,而AB 型和BA 型融合式只有一個語素來自分離詞。但是無論融合式的兩個語素是否來自分離式,它們在語義上都分別指向兩個分離式,如“集訪”的“集”指向“聚集”,“訪”指向“上訪”;而“降息”中的“降”指向“下調(diào)”,“息”指向“利率”。

另一個特征是兩個分離式間可能存在句法關(guān)系,如例2 中的“下調(diào)”和“利息”間存在動賓關(guān)系,例3 中的“飛機”和“墜毀”間存在主謂關(guān)系,例4 中的“電影”和“明星”間存在定中關(guān)系。分離式間也可能不存在顯式的句法關(guān)系,如例1 中的“聚集”和“上訪”間不存在顯式的句法關(guān)系,例5 中的“泄露”和“機密”間也不存在顯式的句法關(guān)系。但是“上訪”的形式主語與“聚集”間存在主謂關(guān)系,“泄露”與“機密”修飾的中心詞“信息”間存在動賓關(guān)系,在此意義上兩個分離式間也存在廣義的句法關(guān)系。

例3:據(jù)外媒報道,近日,美國佛州一對父子乘坐的小型【飛機】因引擎故障【墜毀】。美國國家運輸安全委員會將調(diào)查這起【墜機】事故。(中國新聞網(wǎng))

例4:這22 位【影星】,代表了當時新中國影壇的老、中、青演員,都是當年轟動一時、在民間引起空前反響的佼佼者,觀眾俗稱為“22大【電影】【明星】”。(新浪網(wǎng))

例5:法院記錄顯示,彼得雷烏斯曾向調(diào)查人員撒謊,否認自己向布羅德韋爾【泄露】過【機密】信息。但實際上,他所提供的8 本工作記錄上記載了駐阿美軍戰(zhàn)略計劃、情報信息、外交談判內(nèi)容以及白宮國家安全委員會會議紀要等機密信息。雖然他的初衷是為自己的傳記提供資料,但此舉仍被認定為重大【泄密】行為。(中國新聞網(wǎng))

(二)任務和資源

詞匯融合的識別包含兩個步驟:一是識別出語篇中可能存在詞匯融合關(guān)系的融合式和分離式,二是判別它們是否存在詞匯融合關(guān)系,即判斷融合式的語素和分離式間的語義指向關(guān)系。前者是一個詞語識別任務,后者則是一個語義關(guān)系的判斷任務。

針對雙音詞的詞匯融合現(xiàn)象,我們標注了2000條數(shù)據(jù),每條數(shù)據(jù)包含融合式、分離式及兩個分離式間的句法關(guān)系。我們用XML 格式標注這些樣例,如下給出針對例5 的標注信息。

更復雜的一種情況如例6 所示。合成式和分離式都是實體信息的短語,合成式與分離式的關(guān)系不是簡單的語義指向,而是一種語義概括,即合成式整體上是若干分離式的一種概括。如例6 中的“四巨頭”概括“IBM”“Google”“微軟”和“亞馬遜”4 個公司,而“16 主要機構(gòu)”除四巨頭外,還包括“麻省理工學院”和“橡樹嶺國家實驗室”等學術(shù)或研究單位。

例6:云計算【四巨頭】集結(jié)“超強算力”加速病毒研究?!綢BM】與美國能源部、科技政策辦公室合作成立的運算聯(lián)盟,計劃攜手【Google】、【微軟】、【亞馬遜】等云計算巨頭,以及【麻省理工學院】、【橡樹嶺國家實驗室】等頂尖學術(shù)或研究單位,一共【16 主要機構(gòu)】一齊貢獻運算力尋找疫情解決方案。(十輪網(wǎng))

(三)意義和挑戰(zhàn)

詞匯融合的識別對語言信息處理的很多任務具有重要意義。比如在一般的語言理解任務中,可將語篇中的融合式描述與其分離式描述關(guān)聯(lián)起來;在語義檢索中,輸入查詢詞“集訪”,可查詢到僅包含分離式“聚集”和“訪問”的文檔;在自動問答系統(tǒng)中,針對詢問“參與病毒研究的主要機構(gòu)”,基于這個融合式與其分離式間的關(guān)系,可順利確定參與研究的主要機構(gòu)。

詞匯融合作為漢語中一種常見的共指現(xiàn)象,其研究尚處于起步階段,目前在資源建設(shè)、識別模型和應用任務方面存在一些挑戰(zhàn)。

資源建設(shè)方面,現(xiàn)代語言信息處理模型需要大規(guī)模的監(jiān)督語料進行訓練,而監(jiān)督語料的標注則需要大量的人力成本。如何利用基于規(guī)則和遠程監(jiān)督的方法構(gòu)建大規(guī)模標注預料并盡可能減少噪音數(shù)據(jù),是詞匯融合識別研究的一大挑戰(zhàn)。

圖1 詞匯鏈示例(騰訊網(wǎng))

圖2 實體鏈示例(騰訊網(wǎng))

識別模型方面,詞匯融合現(xiàn)象層出不窮,在大規(guī)模標注語料的基礎(chǔ)上,如何利用計算技術(shù)對詞匯融合識別建模,提升詞匯融合模型的泛化性使其能自動識別新出現(xiàn)的詞匯融合現(xiàn)象是另一個挑戰(zhàn)。

應用任務方面,如何將訓練好的詞匯融合識別模型,低成本地應用到其他語言信息處理任務包括語義檢索、自動文檔等系統(tǒng)中,是詞匯融合識別應用方面面臨的挑戰(zhàn)。

二、實體鏈

(一)概念

表1 實體鏈標注語料統(tǒng)計結(jié)果

(二)任務和資源

實體鏈的識別包括兩個步驟,第一,識別描述實體的最長名詞短語,第二,判斷這些短語間是否存在共指或部分-整體等語義關(guān)系。實現(xiàn)過程可采用串行策略,即先識別最長名詞短語,然后判斷它們間的語義關(guān)系;也可以采用并行策略,即實體識別和關(guān)系判別并行進行。

我們選取了中文新聞語料進行標注,最終形成的標注資源如表1 所示。其中標注文檔數(shù)是2496,包含的最長名詞短語26760個,實體鏈個數(shù)是5096,短語平均長度是5.92 個字。

(三)意義和挑戰(zhàn)

實體鏈的分析無疑有助于篇章理解,具體來說,第一,對于句子結(jié)構(gòu)來說,最長名詞短語識別有助于提高句子分析的性能;第二,對于篇章結(jié)構(gòu)來說,最長名詞短語將篇章結(jié)構(gòu)分析的粒度從句子層面細化到短語層面;第三,對于篇章內(nèi)容分析來說,實體鏈的識別也有助于篇章話題及其演化分析,有望在自動文摘、標題生成等任務中發(fā)揮作用。

圖3 語義角色標注分析示例

實體鏈的識別也存在一些挑戰(zhàn)。其中一個問題是最長名詞短語的范圍和類型,與漢語詞性問題有關(guān),需要進一步細化名詞短語的邊界和類型。第二個問題是實體鏈中語義關(guān)系的范圍和界定,名詞短語間的關(guān)系包含很多類型,需要確定可操作性的判定原則。

三、語義角色標注

(一)概念

圖4 語義角色標注結(jié)構(gòu)示例

語義角色標注結(jié)構(gòu)與成分樹結(jié)構(gòu)有一定的關(guān)聯(lián)與區(qū)別。如圖3 所示,首先,語義角色結(jié)構(gòu)的基本元素在成分樹中有對應的短語詞性標簽,比如,短語“小明”的語義角色為Agent,同時在成分樹中承擔了NP 的角色。語義角色結(jié)構(gòu)偏向于刻畫元素之間的語義關(guān)系,但成分樹結(jié)構(gòu)更加關(guān)注句子的成分層級結(jié)構(gòu),以及短語成分的語法角色。

另外,語義角色結(jié)構(gòu)與依存樹結(jié)構(gòu)在句法層面有更為緊密的聯(lián)系,例如,短語“遇到”在依存樹中為核心詞,直接連接著根節(jié)點(Root),同時與其他的各個成分相連接,并與該短語在語義角色結(jié)構(gòu)中的謂詞角色(Predicate)相互照應。因此,語義角色標注任務與依存樹解析任務具有較強的互補作用。然而,相比語義角色結(jié)構(gòu),依存樹結(jié)構(gòu)更加關(guān)注句子中各個元素的語法依賴關(guān)系。

(二)任務和資源

論元識別:針對目標謂詞,檢測出該謂詞的附屬論元。如圖4,對于謂詞“參觀”,需要檢測出對應的三個論元:“很多游客”“迪士尼樂園”“以便……人物形象”。

論元分類:針對所確定的論元,預測其對應的語義類別。比如針對謂詞“參觀”,需要確定“很多游客”的類別為施事,“迪士尼樂園”類別為受事,“以便……人物形象”類別為目標。

圖5 語義角色標注的兩種形式

(三)意義和挑戰(zhàn)

圖6 文本中的事件

四、事件分析

(一)概念

事件作為一種重要的知識與信息表現(xiàn)形式,近年來在語言學和自然語言處理領(lǐng)域受到越來越多的關(guān)注。事件一般被定義為特定的人、物在特定時間和特定地點相互作用的客觀事實,由觸發(fā)詞及其要素共同組成。其中觸發(fā)詞以動詞、動名詞居多,但也有名詞、形容詞等。事件要素包括參與者、時間、地點等。圖6 給出兩個事件描述的實例,其中的觸發(fā)詞分別是“相撞”和“處理”。

表2 事件分析結(jié)果

(二)任務和資源

事件分析主要包括事件觸發(fā)詞識別和事件要素抽取兩個子任務。觸發(fā)詞識別需要判斷觸發(fā)詞的邊界,有些觸發(fā)詞是短語,甚至是模板;事件元素識別包括事件參與者及時間和地點等。

例7:在【伊拉克】,當【一個美國坦克】對著【酒店】〖開火〗時一個【攝影師】〖死去〗了。(新浪網(wǎng))

例7 包含“死去”和“開火”兩個觸發(fā)詞,事件分析的任務包括識別這兩個觸發(fā)詞,給出其事件類型即:“攻擊”和“死亡”,并分析出“伊拉克”是兩個事件的發(fā)生地,“攝影師”是“死亡”事件的參與者,“酒店”與“美國坦克”是“攻擊”事件的參與者,分析結(jié)果如表2 所示。

圖7 ACE 標注結(jié)構(gòu)

圖8 事件要素類型

目前事件標注的主要資源是ACE 2005,這是由語言數(shù)據(jù)聯(lián)盟(LDC)標注的多語種語料庫,包含英語、阿拉伯語和漢語訓練數(shù)據(jù)。該語料共標注了599 篇文章,涵蓋了新聞、對話和微博等多種類型的文本。該語料庫由多種類型的數(shù)據(jù)組成,包括實體、關(guān)系和事件。其中事件類型共分為8 大類33 小類,事件元素共有35 類。其標注結(jié)構(gòu)如圖7所示:

針對中文事件描述,我們完成了3000 篇的標注語料,事件類型包含包括自然災害、社會治安、公共安全、公共衛(wèi)生等。相比其他標注資源,該語料的特點是:第一,該語料的觸發(fā)詞類型是針對新聞報道中的突發(fā)事件,有利于突發(fā)事件的監(jiān)測和預警;第二,觸發(fā)詞可能是單個詞語,也可能是由輕動詞+動詞構(gòu)成的模板,如例8 中,“發(fā)生……冰凍災害”是觸發(fā)詞,這樣可使句子的句法中心輕動詞“發(fā)生”和語義中心“冰凍”關(guān)聯(lián)起來,避免句子分析中句法和語義層面的不一致。第三,增加了事件要素的語義標記,如例8 中,“在……上”是事件要素處所的標記。圖8 給出了該語料的標注內(nèi)容,表3 給出了這些要素的解釋。

表3 事件要素釋義

(三)意義和挑戰(zhàn)

圖9 事件鏈示例(中國西部網(wǎng))

事件分析是自然語言處理的一個核心技術(shù)。首先,對于句子理解來說,事件一般是句子表達的主要信息,因此事件分析是句子理解的關(guān)鍵;其次,對于篇章理解來說,其內(nèi)容主要是事件表達、演化及情感表述,因此事件分析也為篇章理解奠定基礎(chǔ);再次,事件分析作為實體與關(guān)系抽取的上層任務,所包括的信息相對于實體更加完整,也能夠幫助從文本中獲取關(guān)鍵信息,為閱讀理解、自動摘要和輿情監(jiān)測等應用提供支持。

目前事件分析也存在一些挑戰(zhàn)。首先,事件分析大多基于句子級別,但在真實文本場景下,觸發(fā)詞與其要素有可能分布在篇章中的不同句子中,因此需要考慮跨句子信息;其次,事件分析工作大都針對單個事件抽取,未考慮事件間的聯(lián)系,而事件間的聯(lián)系可能有助于事件分析,因此需要考慮更廣的篇章背景;再次,事件分析中事件的類型大都是預定義的,但在真實場景下,常常會遇到新的事件類型,因此需要事件分析具有更強的學習功能??傊录治鲈谄滦畔⒌睦煤烷_放域的背景方面面臨挑戰(zhàn)。

圖10 事件鏈示例(中華軍事網(wǎng))

五、事件鏈

(一)概念

事件鏈是一個語篇所描述的主要事件根據(jù)它們所在句子的順序構(gòu)成的鏈。語篇中所描述的主要事件一般有兩個特點,第一,主要事件一般會出現(xiàn)在標題中;第二,這些主要事件一般存在語義關(guān)系,如上下位、同義、因果等。

圖11 從上至下依次是句子鏈,事件鏈和實體鏈

圖10 給出另一個事件鏈的示例。【】標記的觸發(fā)詞構(gòu)成事件鏈。其中標題中的“派”和“闖入”均可看作“動作頻頻”的下位事件。其他【】標記的觸發(fā)詞要么和標題中的觸發(fā)詞語義相似,如“現(xiàn)身”“逼近”“闖入”等;要么作為標題中的觸發(fā)詞的子事件,如“飛行”“折返”“執(zhí)行”等。

圖12 實體鏈和觸發(fā)詞鏈(中國西部網(wǎng))

事件鏈的提出與語篇連貫性的研究有關(guān)。語篇連貫性的研究大致分為兩類策略,基于句子關(guān)系的模型和基于實體關(guān)系的模型。前者如Wolf 和Gibson等將篇章中描述同一主題的句子劃分為一組,并以句子關(guān)系為基礎(chǔ)探討語篇連貫性。 但是句子關(guān)系的判斷涉及句子內(nèi)容分析,目前面臨不少挑戰(zhàn)?;趯嶓w關(guān)系的模型以詞匯鏈或?qū)嶓w鏈為基礎(chǔ)刻畫篇章的連貫性。但是詞匯鏈和實體鏈僅是語篇連貫的必要條件,而非充分條件,因此僅依靠詞匯鏈無法確保語篇的連貫性。

事件一方面作為句子內(nèi)容的簡化表示,另一方面為詞匯或?qū)嶓w引入結(jié)構(gòu)化表示,因此可以此為基礎(chǔ)探討語篇的連貫性。圖11 給出了實體鏈、事件鏈和句子鏈的示意圖。

(二)任務和資源

事件鏈識別的過程包括兩個步驟:第一,識別觸發(fā)詞鏈;第二,根據(jù)觸發(fā)詞鏈識別事件要素。事件鏈識別的關(guān)鍵在于觸發(fā)詞鏈的識別。觸發(fā)詞鏈實際上是一個謂詞詞匯鏈,其識別策略可分為兩類,一類根據(jù)觸發(fā)詞間的語義關(guān)系,首先確定標題中的觸發(fā)詞,然后根據(jù)觸發(fā)詞間的語義關(guān)系依次確定其它觸發(fā)詞。另一類是先確定實體鏈,再根據(jù)實體和謂詞間的依存關(guān)系確定觸發(fā)詞鏈。圖12 給出了圖9 所含篇章的實體鏈及基于依存關(guān)系確定的觸發(fā)詞。從圖12 可看出,基于實體鏈可大體上確定觸發(fā)詞鏈,但也存在錯判和漏判的情況,如“包圍”被識別為觸發(fā)詞,而“躲”沒有識別出來。

這種基于實體鏈分析的優(yōu)勢在于觸發(fā)詞鏈內(nèi)的語義關(guān)系不好把握,因此直接識別觸發(fā)詞鏈面臨一定困難,而實體鏈一般含有較易把握的詞匯鏈,比如圖12 中的實體鏈含有“美軍”,而且實體與謂詞間的依存關(guān)系也容易把握,因此通過實體鏈及其依存關(guān)系確定的觸發(fā)詞可看作一個候選,最后再根據(jù)語義關(guān)系確定觸發(fā)詞鏈。

針對事件鏈的資源建設(shè),我們選取了3000 篇新聞報道,并根據(jù)以上標注過程標注了觸發(fā)詞鏈和事件要素。

(三)意義和挑戰(zhàn)

事件鏈串聯(lián)了實體鏈和謂詞鏈,為實體鏈賦予了結(jié)構(gòu)信息,也承接了觸發(fā)詞間的語義關(guān)聯(lián),因此事件鏈的識別有助于判斷語篇的連貫性,可用于作文自動打分等系統(tǒng)中。另一方面,事件鏈一定程度上反映篇章的主要內(nèi)容,因此也可應用于閱讀理解和自動文摘等系統(tǒng)中。

事件鏈的分析面臨一些挑戰(zhàn)。首先,事件鏈的資源構(gòu)造方面,篇章描述的主要事件如何界定,它們間的語義關(guān)系的類型和范疇如何確定,需進一步探討;其次,事件鏈的自動識別方面,觸發(fā)詞分布于篇章的不同句子,需要考慮更多的篇章信息才能確定觸發(fā)詞鏈;再次,作為構(gòu)造事件鏈的主要手段,包括觸發(fā)詞間的語義關(guān)系判斷及觸發(fā)詞與實體間的依存關(guān)系判斷都面臨挑戰(zhàn)。

六、事件框架

(一)概念

目前,大多數(shù)事件分析注重于識別以觸發(fā)詞為核心的獨立事件,而忽略事件間存在的關(guān)系,因此為了實現(xiàn)篇章理解,需要從更宏觀的角度分析相關(guān)事件。事件框架是指由突發(fā)事件、誘因事件、處置事件、結(jié)果事件組成的框架。直觀上,事件框架描述突發(fā)事件及其誘因、結(jié)果及其處置情況。

以自然災害事件為例,其核心事件往往是自然災害本身,例如暴雨、山洪、洪水、地震等;誘因事件表示引起自然災害的直接原因,往往是非突發(fā)性氣候條件,如厄爾尼諾現(xiàn)象、副高氣壓影響等;結(jié)果事件表示自然災害導致的結(jié)果,例如造成的人財物損失,如人員傷亡、房屋倒塌、道路阻斷等;處置事件表示針對自然災害采取的措施與行動,如救援工作、災后處置工作等。

目前與事件框架相關(guān)的工作主要是事件關(guān)系分析任務。事件關(guān)系分析旨在于判斷事件間存在的因果、時序、共指等關(guān)系。分析方法可分為基于規(guī)則的方法和基于深度學習的方法。

圖13 突發(fā)事件示例(中國新聞網(wǎng))

圖14 事件框架結(jié)構(gòu)示例

圖15 事件框架標注結(jié)構(gòu)圖

(二)任務和資源

事件框架抽取可看作一種特殊的事件與事件關(guān)系抽取,包括事件抽取與事件關(guān)系分析兩個子任務。

以圖13 所示這篇新聞為例,其中標注部分是我們的抽取目標。【】表示核心事件,〖〗表示誘因事件,[]表示處置事件,{}表示結(jié)果事件,下劃線表示觸發(fā)詞。其事件框架邏輯圖如圖14 所示。

針對事件框架,我們標注了3000 篇新聞語料,其中標注突發(fā)事件、誘因事件、結(jié)果事件和處置事件。該標注語料由3000 個txt 文件及對應的xml文件組成,其中,txt 文本文件存放新聞語料原文,xml文件存放標注數(shù)據(jù),其主要結(jié)構(gòu)如圖15 所示。

(三)意義和挑戰(zhàn)

圖16 事件回指示例(騰訊網(wǎng))

相比事件來說,事件框架刻畫更全局的信息,因此事件框架分析有助于更全面的篇章內(nèi)容理解,反過來也有助于改進單個事件的識別性能。另一方面,事件框架有望在自動文摘、自動問答和閱讀理解等基于篇章理解的應用中發(fā)揮作用。

目前,事件框架分析面臨的挑戰(zhàn)主要在于:首先,篇章信息建模方面,傳統(tǒng)的事件分析以事件為核心,僅在句子或段落層面就可捕獲足夠的上下文信息。而事件框架中的多個事件可能分布在篇章中的不同部位,如何有效的建模覆蓋事件框架的篇章信息成為一大挑戰(zhàn)。其次,蘊含關(guān)系方面,不同于傳統(tǒng)的兩兩事件關(guān)系分析,在事件框架中,事件間的關(guān)系會受到事件框架中其他事件的影響。因此,如何捕獲這種蘊含在事件框架內(nèi)的傳遞性關(guān)系具有一定挑戰(zhàn)性。

七、事件回指

(一)概念

圖17 事件回指標注示例(搜狐網(wǎng))

(二)任務和資源

事件回指分析主要包括三個子任務,第一,識別事件回指語;第二,識別事件描述先行語;第三,識別它們間的回指關(guān)系。

針對回指語是指代短語(如“這次勝利”)的情況,我們建立了一個事件回指標注資源。其中包含4000 篇文檔,共有4406 個事件回指。圖17 給出了一個標注示例,其中包括四個回指語,兩個先行語,它們間的回指關(guān)系如箭頭所示。

(三)意義和挑戰(zhàn)

事件回指的識別對于自然語言處理具有重要意義。首先,事件回指有助于篇章內(nèi)容的深層理解,將上下文有關(guān)同一事件的不同描述關(guān)聯(lián)起來;其次,事件回指識別有助于提高篇章級的信息抽取、話題識別及演化、文本摘要、閱讀理解和自動問答等應用的性能。

目前,事件回指的識別也面臨不少挑戰(zhàn)。首先,關(guān)于事件描述和回指語的類型和邊界,篇章中事件描述有時很長,回指語本身也可能較長;其次,關(guān)于事件描述與回指語關(guān)系的判別,同一個上下文中,可能存在多組事件描述和回指語,它們間的回指關(guān)系不易區(qū)分;再次,事件回指可能存在嵌套情況,即:事件描述中包括回指語和子事件描述。

本文從概念、任務、資源、意義和挑戰(zhàn)等幾個角度分別探討語義分析的若干前沿問題,包括詞匯融合、實體鏈、語義角色標注、事件分析,事件鏈、事件框架和事件回指等。其中詞匯融合和實體鏈分別是詞匯級和實體級的語義分析、語義角色標注是句子級的淺層語義分析,而事件屬句子級較深層的語義分析,事件框架、事件鏈和事件回指則是篇章級的語義分析,詞匯融合和實體鏈也涉及到篇章信息。這些任務都有一個重要特點:既涉及內(nèi)容分析,如事件、語義角色、時間和地點等;又涉及結(jié)構(gòu)分析,如事件框架和實體鏈等。從另一個角度看,這些任務既包含實體分析,包括簡單實體和復雜實體,如語義角色或事件;又包含關(guān)系分析,如回指關(guān)系、因果關(guān)系等。

猜你喜歡
語義短語實體
基于ColBert-EL 和MRC 模型的零樣本實體鏈接
初中英語詞組高頻考點聚焦
實體書店步入復興期?
2017實體經(jīng)濟領(lǐng)軍者
漢語依憑介詞的語義范疇
關(guān)于推動實體書店經(jīng)營發(fā)展的幾點思考