国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

國內(nèi)外事件抽取技術(shù)應(yīng)用研究分析

2022-11-25 03:49閆文浩
科學(xué)與信息化 2022年20期
關(guān)鍵詞:圖譜學(xué)者社交

閆文浩

南京農(nóng)業(yè)大學(xué)信息管理學(xué)院 江蘇 南京 210095

引言

事件抽取是信息抽取的主要任務(wù)之一,其主要任務(wù)是將非結(jié)構(gòu)化文本中的事件以結(jié)構(gòu)化方式抽取出來。與信息抽取任務(wù)中的命名實體識別任務(wù)不同,事件信息中往往包含多個組成元素,并且各個元素相互影響。ACE[1]定義中的事件由事件觸發(fā)詞(Event Trigger)和描述事件結(jié)構(gòu)的元素(Argument)構(gòu)成。因此事件抽取任務(wù)往往需要經(jīng)過觸發(fā)詞識別來判斷事件類型,然后抽取描述事件結(jié)構(gòu)的元素加以分類形成最終的事件信息。

事件抽取作為信息抽取的重要內(nèi)容之一,一直以來也是國內(nèi)學(xué)者關(guān)注的重點。目前國內(nèi)學(xué)者重心在于對事件抽取技術(shù)更迭的歸納探究,還鮮有學(xué)者從事件抽取應(yīng)用領(lǐng)域分析事件抽取技術(shù)應(yīng)用研究的發(fā)展歷程。為了分析國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展與演變過程,本文選取CNKI和Web of Science核心合集的論文數(shù)據(jù)對國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程展開分析。

1 數(shù)據(jù)來源與研究方法

為分析國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,本文分別選取CNKI數(shù)據(jù)庫以及Web of Science核心合集數(shù)據(jù)庫作為本文數(shù)據(jù)來源。在CNKI數(shù)據(jù)庫中,以“事件抽取”為檢索詞,時間跨度為2000年至2022年2月,得到國內(nèi)論文共674篇,并將題錄信息導(dǎo)出。在Web of Science核心合集數(shù)據(jù)中,以“Event Extraction”、“Content Extraction”為檢索詞,時間跨度為2000年至2022年2月,得到國外論文數(shù)據(jù)共1153篇,并將題錄信息導(dǎo)出。

為表現(xiàn)論文主題詞隨時間發(fā)展的變化特點,本文借助Vosviewer工具繪制國內(nèi)外事件抽取研究關(guān)鍵詞疊加時間圖,可以得到各個時期研究主題詞的變化特點以及各時間段國內(nèi)外的研究熱點。

2 事件抽取技術(shù)應(yīng)用方向分析

為探究國內(nèi)外事件抽取技術(shù)應(yīng)用發(fā)展的時間演化趨勢,進(jìn)而對國內(nèi)外事件抽取技術(shù)應(yīng)用研究內(nèi)容進(jìn)行梳理,需要獲取國內(nèi)外相關(guān)研究關(guān)鍵詞各時間段的分布規(guī)律。因此本文選取前文所導(dǎo)出的國內(nèi)外文獻(xiàn)題錄信息導(dǎo)入Vosviewer工具,選擇關(guān)鍵詞出現(xiàn)次數(shù)為5次以上,并為保證準(zhǔn)確性,去除出現(xiàn)頻次最高的“事件抽取”,“Event Extraction”等關(guān)鍵詞,最終得到國內(nèi)外事件抽取研究關(guān)鍵詞疊加時間圖,其中節(jié)點顏色由深到潛分別代表了某個關(guān)鍵詞出現(xiàn)時間從由遠(yuǎn)及近。最終得到的關(guān)鍵詞結(jié)果可大致分為三大塊,分別代表2000至2010年,2010至2017年,2016至2022年間出現(xiàn)的熱門關(guān)鍵詞。

在2000至2010年間,國內(nèi)出現(xiàn)的關(guān)鍵詞主要體現(xiàn)技術(shù)變化,沒有表現(xiàn)出事件抽取技術(shù)的應(yīng)用方向;而國外出現(xiàn)較多的關(guān)鍵詞有蛋白質(zhì),基因等關(guān)鍵詞。在2010至2017年間,國內(nèi)關(guān)鍵詞出現(xiàn)了新聞事件、突發(fā)事件、微博等;這個階段國外的研究熱點詞有生物學(xué)文本挖掘,社交媒體等。在2017至2022年間,國內(nèi)出現(xiàn)了生物醫(yī)學(xué)事件抽取、醫(yī)療事件抽取、知識圖譜、事理圖譜等關(guān)鍵詞;此階段國外與事件抽取技術(shù)應(yīng)用相關(guān)的熱點詞有推特、知識圖譜等。

綜上所述,國內(nèi)外事件抽取技術(shù)的應(yīng)用領(lǐng)域已經(jīng)十分廣泛,主要可分為以下四大類。一是新聞類事件抽取研究。新聞文本作為傳播信息的重要途徑之一,其中蘊含大量事件信息:二是生物醫(yī)學(xué)類事件抽取研究,許多學(xué)者將事件抽取應(yīng)用生物醫(yī)學(xué)領(lǐng)域各類文本,抽取關(guān)鍵信息;三是社交媒體文本事件抽取研究。社交媒體文本蘊含大量生活事件信息;四是知識圖譜構(gòu)建。知識圖譜的構(gòu)建所需要的知識數(shù)據(jù)依賴于實體識別,關(guān)系抽取,事件抽取等技術(shù)的識別結(jié)果。

3 事件抽取技術(shù)應(yīng)用研究現(xiàn)狀分析

由上文分析可知,雖然國內(nèi)外不同時間段研究的側(cè)重點不同,但是總的來說,主要的應(yīng)用方向有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取技術(shù)在事理圖譜、知識圖譜構(gòu)建中的應(yīng)用。

3.1 新聞事件抽取研究

對于新聞文本中事件抽取一直以來就是國內(nèi)外事件抽取技術(shù)應(yīng)用的重點方向之一。在新聞事件文本中,文本規(guī)模大且事件種類繁雜,且不同事件類型數(shù)量分布不均勻,因此如何給新聞事件分類是新聞文本中事件抽取的研究熱點之一。李響[1]等基于支持向量機(jī)模型,融合了詞法、句法和語義三類不同類型的特征,完成了新聞事件的類型識別。此外,國內(nèi)學(xué)者開始關(guān)注外文新聞文本中事件抽取研究,如有些學(xué)者已經(jīng)開始對越南語以及泰語新聞文本中的事件信息進(jìn)行抽取。

目前國內(nèi)外關(guān)于事件抽取技術(shù)在新聞文本上的逐漸趨于成熟,并且我國學(xué)者開始將研究目光轉(zhuǎn)向非中文新聞文本,未來國內(nèi)學(xué)者對于新聞事件抽取的研究可能將不再局限于中文新聞文本,而是面向各種的語言新聞文本。

3.2 生物醫(yī)學(xué)類事件抽取研究

近年來,事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用研究成為國內(nèi)外學(xué)者共同的研究熱點,國外對于生物學(xué)文本事件抽取研究起步更早。

國內(nèi)外對于生物醫(yī)學(xué)類事件抽取研究主要還是對于生物醫(yī)學(xué)事件觸發(fā)詞識別的問題,以及復(fù)雜生物事件信息的抽取等。生物醫(yī)學(xué)領(lǐng)域有一些非常規(guī)的數(shù)據(jù),如生理儀器記錄的測量值等,可以看作是生理信號,其往往是波形數(shù)據(jù)。為了從生物醫(yī)學(xué)信號中提取各類事件,Yazdani[2]等提出了一種名為相對能量(Rel-En)的快速新型非線性濾波方法,可以提取信號中的波形信息,從而識別相應(yīng)的事件。近年來,對醫(yī)療事件的抽取成為國內(nèi)研究的熱點,余輝[3]等基于BiLSTM-CRF模型,提出了一種抽取治療事件的方法,可以有效識別并抽取中文臨床指南中的治療事件信息。

對事件抽取技術(shù)在生物醫(yī)學(xué)類文本上的應(yīng)用一直以來都是國內(nèi)外學(xué)者的研究重點,相關(guān)研究也逐漸趨于成熟,并且開始將事件抽取技術(shù)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域的非常規(guī)數(shù)據(jù)上。事件抽取技術(shù)在生物醫(yī)學(xué)領(lǐng)域中非常規(guī)數(shù)據(jù)上的應(yīng)用將會是未來的研究方向之一?,F(xiàn)有的研究中對于醫(yī)療事件信息的抽取起步相對較晚,研究也較少,近年來越來越多的學(xué)者將自然語言處理技術(shù)應(yīng)用到醫(yī)療信息文本之中,醫(yī)療事件信息抽取將是未來研究的熱點之一。

3.3 社交媒體類文本事件抽取研究

社交媒體類文本包含大量生活文本,其中大部分內(nèi)容往往與民眾生活狀態(tài)息息相關(guān),因此將事件抽取技術(shù)應(yīng)用到社交媒體文本之中是近幾年來國內(nèi)外共同的研究熱點。

國內(nèi)外主流的社交媒體工具有所區(qū)別,國內(nèi)最好文本來源為微博數(shù)據(jù),國內(nèi)諸多學(xué)者就如何抽取微博文本中的事件信息展開研究。微博文本數(shù)量大、信息豐富,同時其文本短小,內(nèi)容種類繁雜,包含大量冗余信息。為了從微博文本中提取更多的有效信息,張炫[4]將實體之間的關(guān)聯(lián)關(guān)系考慮進(jìn)來,提出了基于詞向量的狄利克雷過程事件混合模型為核心的事件信息抽取算法,在微博文本事件抽取實驗中取得了更優(yōu)異的結(jié)果。

國外的主流的社交媒體工具則是推特,因此國對于社交媒體文本事件抽取的研究主要集中在推特文本上。推特文本和微博文本相似,其中蘊含著大量事件信息,如何從中抽取事件信息是國外學(xué)者的研究重點。推特作為國外主流的社交媒體,大量用戶在推特上分析他們的生活日常。為了提取推特文本中的生活事件信息,Yen[5]等利用推特上共享的視覺和文本信息來提取生活事件信息,實驗結(jié)果表明,該方法在生活事件提取上是有效的。

社交媒體信息蘊含著大量事件信息,但同時其包含的事件種類事件元素多而雜,給事件抽取技術(shù)應(yīng)用帶來諸多困擾,國內(nèi)外學(xué)者對于社交媒體文本事件抽取上的主要的研究內(nèi)容就是去除無用信息,盡可能全面的獲取有價值的事件信息,將社交媒體文本中的無序事件信息轉(zhuǎn)換可為可供分析研究的信息是現(xiàn)在以及未來研究的重心所在。

3.4 知識圖譜研究

事理圖譜、知識圖譜是我國近期的研究熱點內(nèi)容之一,而事件抽取是構(gòu)建領(lǐng)域事件知識圖譜重要環(huán)節(jié)之一。國內(nèi)目前許多的知識圖譜研究都需要以事件抽取為基礎(chǔ)。廖豪勁[6]先提出了一個事件抽取模型ON-TLNN,然后提出了ON-LSTM與圖卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型完成了事件關(guān)系抽取任務(wù),最終實現(xiàn)了基于特定場景事理圖譜的知識問答系統(tǒng)。

隨著信息抽取技術(shù)不斷進(jìn)步,現(xiàn)在的學(xué)者已經(jīng)不僅僅滿足于抽取信息,而是將抽取出的信息整合起來構(gòu)建事理圖譜、知識圖譜等,這都要以成熟的事件抽取方法作為基礎(chǔ)。未來隨著事件抽取技術(shù)愈加成熟,也將進(jìn)一步推動知識圖譜構(gòu)建研究。

4 事件抽取技術(shù)應(yīng)用研究發(fā)展趨勢分析

隨著事件抽取技術(shù)不斷成熟,目前事件抽取技術(shù)已經(jīng)有諸多應(yīng)用,結(jié)合上文對事件抽取技術(shù)應(yīng)用研究的梳理,本文認(rèn)為,未來該領(lǐng)域存在一些發(fā)展趨勢。

4.1 應(yīng)用文本種類進(jìn)一步拓展

目前事件抽取技術(shù)已經(jīng)應(yīng)用多種文本之中,除上文所說的生物醫(yī)學(xué)文本、新聞文本、社交媒體文本外,事件抽取技術(shù)還應(yīng)用到了金融文本、古文文本等文本中,都取得了一定的成績。不同種類的文本各有特點,包含獨特的事件信息,將事件抽取技術(shù)應(yīng)用到更多的領(lǐng)域文本之中,是學(xué)者們未來探究的方向之一。

4.2 非常規(guī)文本事件抽取研究

目前生物醫(yī)學(xué)領(lǐng)域已經(jīng)有將事件抽取技術(shù)應(yīng)用到非常規(guī)文本上的研究,并證實了可行性。除了生物醫(yī)學(xué)領(lǐng)域外,其他各領(lǐng)域都也有著非常規(guī)文本的數(shù)據(jù),其中也蘊含不同種類的事件信息。如何將事件抽取技術(shù)應(yīng)用到這些非常規(guī)文本的數(shù)據(jù)之中,提取其中的事件的信息需要學(xué)者們進(jìn)一步展開探索。

5 結(jié)束語

本文以CNKI和Web of Science收錄的論文為數(shù)據(jù)來源,并借助Vosviewer工具獲取國內(nèi)外自2000年至2022年間的熱門研究關(guān)鍵詞來分析梳理國內(nèi)外事件抽取技術(shù)應(yīng)用研究發(fā)展歷程,主要得出以下結(jié)論:①事件抽取技術(shù)主要的應(yīng)用有新聞事件文本抽取研究,生物醫(yī)學(xué)類文本事件抽取研究,社交媒體文本事件抽取研究以及事件抽取在事理圖譜、知識圖譜構(gòu)建中的應(yīng)用;②事件抽取技術(shù)在更多領(lǐng)域文本上的應(yīng)用和非常規(guī)文本上的應(yīng)用是未來需要學(xué)者們進(jìn)一步研究的方向。

猜你喜歡
圖譜學(xué)者社交
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補(bǔ)全
“植物界大熊貓”完整基因組圖譜首次發(fā)布
學(xué)者介紹
學(xué)者簡介
社交牛人癥該怎么治
學(xué)者介紹
聰明人 往往很少社交
社交距離
你回避社交,真不是因為內(nèi)向
圖表
台东市| 沙洋县| 天津市| 壶关县| 儋州市| 卓资县| 广水市| 阿拉尔市| 浦城县| 宜君县| 定州市| 上栗县| 内江市| 彭州市| 成都市| 宁明县| 阳新县| 乐安县| 井冈山市| 潮安县| 宿迁市| 安平县| 托里县| 南漳县| 兴和县| 蒙自县| 逊克县| 元阳县| 南通市| 冷水江市| 深州市| 江口县| 车致| 宜黄县| 吴堡县| 沧州市| 邳州市| 清水河县| 孙吴县| 鹿泉市| 综艺|