吉久明+王鑫+李楠+陳錦輝+孫濟(jì)慶
〔摘 要〕本文將觸發(fā)詞分為時(shí)間類和非時(shí)間類,對(duì)觸發(fā)詞提取算法進(jìn)行改進(jìn),以一定量導(dǎo)電塑料行業(yè)新聞為基礎(chǔ)語(yǔ)料構(gòu)建兩類觸發(fā)詞詞表,并采取時(shí)間類觸發(fā)詞優(yōu)先的事件句識(shí)別策略。基于該觸發(fā)詞詞表對(duì)導(dǎo)電塑料和太陽(yáng)能行業(yè)新聞?wù)Z料進(jìn)行事件句識(shí)別算法有效性實(shí)驗(yàn),開放測(cè)試的召回率和準(zhǔn)確率分別超過(guò)98%和95%。該結(jié)果表明:將觸發(fā)詞進(jìn)行基于時(shí)間特性的分類,并優(yōu)先使用時(shí)間類觸發(fā)詞提取事件句,能取得顯著的效果。
〔關(guān)鍵詞〕事件句;抽??;觸發(fā)詞優(yōu)先
〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2016)12-0046-04
〔Abstract〕This paper focused on efficient event sentences extraction algorithm.A trigger phrase extraction algorithm to extract events sentence based on time or nontime trigger word was presented.Some trigger words were extracted from industry news corpus about conductive plastics based on the algorithm,the opening beta on industry news corpus about conductive plastics and solar higher than 98% recall ratio and 95% accuracy ratio,which indicated the effectiveness of algorithm.
〔Key words〕event sentence extraction;trigger word priority;time trigger word;nontime trigger word
當(dāng)前有關(guān)事件抽取研究中主要以特定行業(yè)新聞事件抽取研究為主,包括金融、軍事、法律、交通等行業(yè),所采用的方法包括模式匹配、觸發(fā)詞和本體方法,觸發(fā)詞方法的使用頻率最高,且綜合效果(微平均)較優(yōu)于單純的模式匹配算法[1]。
觸發(fā)詞也稱事件關(guān)鍵詞,通過(guò)對(duì)事件句的統(tǒng)計(jì)分析后發(fā)現(xiàn),出現(xiàn)某類術(shù)語(yǔ)或詞匯的句子文本中含有事件句的概率非常高,如:包含“發(fā)生”、“襲擊”、“研制”、“生產(chǎn)”、“舉行”、“舉辦”、“開幕”等動(dòng)詞的句子,“今年三月份在地鐵3號(hào)線發(fā)生乘客猝死事件”、“周杰倫將于2010年6月11日在臺(tái)北小巨蛋舉辦周杰倫超時(shí)代演唱會(huì)”等基本為事件句。因此,通過(guò)建立事件觸發(fā)詞詞典獲得事件句集合再進(jìn)行事件抽取能取得較好的效果。
一般地,收集事件觸發(fā)詞的方法主要有兩種:一是建立特定的觸發(fā)詞模型,通過(guò)已有事件句中詞匯的分析統(tǒng)計(jì),提取事件句觸發(fā)詞;二是由領(lǐng)域?qū)<一陬I(lǐng)域經(jīng)驗(yàn)手工構(gòu)建。手工構(gòu)建方法主要依賴專家經(jīng)驗(yàn),一方面需要較長(zhǎng)時(shí)間、較多人力投入,另一方面動(dòng)態(tài)增加的海量事件文本也是一大挑戰(zhàn),觸發(fā)詞模型方法正好彌補(bǔ)了手工方法的缺陷,理論上更容易提高新增事件文本中觸發(fā)詞的查全率,但觸發(fā)詞模型的有效性仍有待進(jìn)一步提升,如文獻(xiàn)[2],在構(gòu)建相似詞匯鏈的基礎(chǔ)上,提出了一種基于詞匯的TFIDF值、在文中的位置及相似詞匯鏈長(zhǎng)度的事件關(guān)鍵詞模型,提取一定數(shù)量的事件關(guān)鍵詞,對(duì)較大樣本的實(shí)驗(yàn)有約74%的事件關(guān)鍵詞為可接受的[2],自動(dòng)提取事件觸發(fā)詞仍需要進(jìn)一步研究[3-5]。
觸發(fā)詞方法強(qiáng)調(diào)了觸發(fā)詞對(duì)提高事件抽取召回率的重要意義,尤其對(duì)于觸發(fā)詞表相對(duì)固定的行業(yè)領(lǐng)域事件抽取而言,能提高事件抽取的效率;模式匹配方法更突出句法或語(yǔ)義角色對(duì)提高事件抽取準(zhǔn)確率的重要意義,對(duì)于句法或語(yǔ)義角色相對(duì)固定的事件抽取任務(wù),同樣能提高事件抽取的效率。因此,將觸發(fā)詞方法和模式匹配方法結(jié)合使用,理論上應(yīng)能取得較好的召回率、準(zhǔn)確率,也能保證一定的效率水平,但實(shí)際效果還有待提高,如文獻(xiàn)[6]或文獻(xiàn)[7]基于觸發(fā)詞及其鄰近特征的動(dòng)態(tài)權(quán)重的KNN算法或支持向量機(jī)判別事件句,準(zhǔn)確率分別為81.8%和87.8%[6-7],且由于涉及特征選擇,實(shí)際執(zhí)行效率不理想。筆者曾設(shè)計(jì)了一種基于觸發(fā)詞句型模版的行業(yè)新聞事件句提取算法,由于過(guò)分強(qiáng)調(diào)“詞”的形式,所選擇的多數(shù)觸發(fā)詞所提取的句子準(zhǔn)確率很低,如:“研制”事件抽取準(zhǔn)確率僅為61.19%,因此需要事先編制大量的觸發(fā)詞句型模版,盡管如此,仍僅有少量觸發(fā)詞句型模版抽取事件的準(zhǔn)確率超過(guò)80%[8]。但筆者發(fā)現(xiàn):若將“研制”改為“研制了”、“制造”改為“制造了”,則僅基于該兩種觸發(fā)詞的事件抽取準(zhǔn)確率即可提高到90%以上。
因此筆者認(rèn)為,對(duì)于觸發(fā)詞表相對(duì)固定的行業(yè)新聞,提高基于觸發(fā)詞的事件抽取準(zhǔn)確率的方法主要在于提高觸發(fā)詞的“專指性”,即利用中文語(yǔ)言的特征尋找具有很強(qiáng)的事件提示功能的觸發(fā)詞或詞組合。而若簡(jiǎn)單地統(tǒng)計(jì)事件中的高頻詞,則不易獲得這類觸發(fā)詞。故本文將進(jìn)一步研究獲得高“專指性”新聞事件觸發(fā)詞的有效方法,進(jìn)而提高基于觸發(fā)詞的事件句抽取的準(zhǔn)確率。
1 基于觸發(fā)詞的行業(yè)事件抽取
1.1 語(yǔ)料特征分析——以導(dǎo)電塑料行業(yè)新聞為例
以“導(dǎo)電塑料”及其同義詞或近義詞為檢索詞,利用搜索引擎檢索相關(guān)導(dǎo)電塑料行業(yè)新聞,共獲得658條語(yǔ)料記錄。根據(jù)新聞撰寫的規(guī)定和相關(guān)理論,新聞導(dǎo)語(yǔ)句一般會(huì)報(bào)導(dǎo)新聞的五個(gè)要素——何時(shí)、何地、何人、何事、何因[9],這五要素正是新聞事件句的必備元素,而后續(xù)的文字則是對(duì)新聞事件的補(bǔ)充說(shuō)明,因此理論上可從導(dǎo)語(yǔ)部分抽取事件。但事實(shí)上658篇語(yǔ)料中,事件句分散在導(dǎo)語(yǔ)及第2、3、4、5、6句,如下列語(yǔ)料的第②句為行業(yè)新聞事件句。
①生意社6月8日訊:想象一下,把一個(gè)USB端口插入一張紙,將它變?yōu)橐粋€(gè)平板電腦。②這可能需要一段時(shí)間,但是北卡羅萊納州立大學(xué)的研究人員已經(jīng)按照這些想法去研究如何將傳導(dǎo)納米涂層應(yīng)用于簡(jiǎn)單的紡織品,如梭織棉布,或者甚至一張紙。
因此,為減少大量非事件句對(duì)事件抽取的干擾,本文暫針對(duì)新聞?wù)Z料的前6句研究新聞事件句觸發(fā)詞的提取。
1.2 行業(yè)新聞事件句觸發(fā)詞詞表構(gòu)建
事件即某時(shí)發(fā)生在某地的某事,或某人某時(shí)在某地參與(見證、實(shí)施、做出、取得了)了某動(dòng)作(決定、成果),對(duì)于新聞事件而言,其中的時(shí)間元素必不可少,但由于語(yǔ)境的關(guān)系,常有事件句的時(shí)間元素被省略的現(xiàn)象。如下列語(yǔ)料:
①人民網(wǎng)上海2月10日電:(記者姜泓冰)防偽紙幣、穿戴設(shè)備……柔性電子技術(shù)研究已成國(guó)際熱點(diǎn)。②近日,復(fù)旦大學(xué)一團(tuán)隊(duì)……取得突破性進(jìn)展……。③復(fù)旦大學(xué)信息科學(xué)與工程學(xué)院仇志軍副教授……,相關(guān)論文已發(fā)表于1月27日出版的國(guó)際權(quán)威性學(xué)術(shù)期刊《自然-通訊》(Nature Communications)。
該語(yǔ)料中第②句、第③句均為事件句,兩句講述的是同一件事,但第③句的時(shí)間元素被省略了。若以“取得”或“提出”為觸發(fā)詞提取事件,則兩句均被命中,需要進(jìn)一步依據(jù)其出現(xiàn)的次序進(jìn)行甄別;而若以“近日”作為新聞事件觸發(fā)詞提取事件句,則可忽略第③句。
同時(shí),筆者注意到以下現(xiàn)象:①通過(guò)設(shè)定觸發(fā)詞準(zhǔn)確率閾值的方法能提高整體的事件提取準(zhǔn)確率。例如,限定在訓(xùn)練語(yǔ)料中的準(zhǔn)確率超過(guò)95%的候選詞為觸發(fā)詞,則整體準(zhǔn)確率將超過(guò)95%。②若過(guò)分強(qiáng)調(diào)觸發(fā)詞的準(zhǔn)確率,則召回率一定會(huì)大大降低,但由于兩個(gè)或兩個(gè)以上的詞組合召回事件句的準(zhǔn)確率可能大于單個(gè)詞召回事件句的準(zhǔn)確率,故有時(shí)可適當(dāng)通過(guò)使用詞的組合形成觸發(fā)詞的方式在保證準(zhǔn)確率的同時(shí)提高查全率。例如,同一子句中含有“據(jù)”和“報(bào)道”的句子為事件句的可能性大于含有“據(jù)”或“報(bào)道”的句子為事件句的可能性,含有“據(jù)”和“報(bào)道”的事件句可通過(guò)兩詞的組合召回。③將訓(xùn)練語(yǔ)料分為事件句和非事件句,選擇召回事件句但不召回非事件句的詞或詞組合是保證事件句提取的準(zhǔn)確率的有效途徑。
因此,設(shè)計(jì)基于時(shí)間元素優(yōu)先的事件觸發(fā)詞字典構(gòu)建方法。算法描述如下:
Step 1 收集各種表示近期的時(shí)間類觸發(fā)詞,如:近日、年…月…日、今日、今天、剛剛、日前、前日、昨日、本周、上周、明天、昨天、正在、下周、周一、周二、周三、周四、周五、周六、周日、近期、最近、前不久、不久前、本月、上月、下月、下個(gè)月、上個(gè)月、今年等;
Step 2 收集一定數(shù)量的行業(yè)新聞?wù)Z料;以“?!?、“?”、“!”為分隔符將語(yǔ)料切分為句子;人工提取新聞事件句;
Step 3 將包含Step 1中詞列表的事件句過(guò)濾掉;
Step 4 從Step 3中的新聞事件句中發(fā)現(xiàn)未列入Step 1中的時(shí)間類詞匯,若該詞召回新聞事件句的準(zhǔn)確率大于給定的閾值P,則添加到Step 1的列表中,并進(jìn)行同義詞擴(kuò)充;
Step 5 重復(fù)Step 4,直至無(wú)法提取新的時(shí)間類觸發(fā)詞;
Step 6 對(duì)前6句進(jìn)行分詞并統(tǒng)計(jì)詞頻(每句出現(xiàn)計(jì)1次);
Step 7 選擇詞長(zhǎng)大于2,僅屬于新聞事件句詞表且頻次大于等于3(非同一事件)的動(dòng)詞或動(dòng)名詞列入非時(shí)間類觸發(fā)詞表,并進(jìn)行同義詞擴(kuò)充;
Step 8 當(dāng)上述觸發(fā)詞或觸發(fā)詞組合的召回率大于R,算法終止,否則進(jìn)入Step 9;
Step 9 將事件句中不包含在非事件句中的2個(gè)詞的共現(xiàn)對(duì)(即兩詞不同時(shí)出現(xiàn)在非事件句,但同時(shí)出現(xiàn)在同一事件句中),且共現(xiàn)頻次大于等于3的2個(gè)詞共現(xiàn)對(duì)列入非時(shí)間類觸發(fā)詞組合列表,直至召回率大于R。
由于時(shí)間類觸發(fā)詞對(duì)于行業(yè)新聞事件句的提取具有較高的召回率和準(zhǔn)確率,一般而言,應(yīng)優(yōu)先抽取含有時(shí)間類觸發(fā)詞的事件句,且每段新聞?wù)Z料僅需提取一句即可。但對(duì)于一些含指代對(duì)象的語(yǔ)料,如語(yǔ)料3:
復(fù)旦大學(xué)信息科學(xué)與工程學(xué)院副教授仇志軍……取得突破性進(jìn)展……。相關(guān)論文近日在《自然—通訊》上發(fā)表。
該語(yǔ)料所描述的事件與語(yǔ)料2描述的事件相同,若以“近日”為觸發(fā)詞,則提取到的事件句為“相關(guān)論文近日在《自然—通訊》上發(fā)表?!保摼渲髡Z(yǔ)為指代詞“相關(guān)論文”,因此,更詳細(xì)的信息需要使用其前句進(jìn)一步補(bǔ)充。因此,設(shè)計(jì)以下行業(yè)新聞事件句提取方案:
Step 1 首先構(gòu)建含有各種指代詞的列表,如:這、相關(guān)、他、她、該、我、上述等;
Step 2 抽取各語(yǔ)料中含有新聞事件觸發(fā)詞的句子各一句(記為句子1,依觸發(fā)詞的次序而行,每段語(yǔ)料僅抽取一句);若基于“年…月…日”所得事件句的發(fā)生時(shí)間與當(dāng)前系統(tǒng)日期的差大于N年,則繼續(xù)以其后的觸發(fā)詞抽取事件句;若所得句子的句首字為Step 1中的指代詞,則將句子1的前句與句子1合并為1句。
其中N為參數(shù),可根據(jù)實(shí)際需要進(jìn)行設(shè)置。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 新聞事件觸發(fā)詞提取
本次實(shí)驗(yàn)關(guān)注導(dǎo)電塑料制備行業(yè)的新聞事件,訓(xùn)練語(yǔ)料描述詳見1.1,觸發(fā)詞算法中的R=P,均設(shè)為95%,所抽取的時(shí)間類觸發(fā)詞及相應(yīng)的準(zhǔn)確率詳見表1。
上述觸發(fā)詞從658篇語(yǔ)料中共抽取到701條事件句,其中:37句事件句主語(yǔ)部分存在“行業(yè)新聞事件句提取方案”Step 2中的指代詞,需要補(bǔ)充前1句;不具新聞性的僅5句,這5句均含有事件發(fā)生的明確時(shí)間,故可根據(jù)系統(tǒng)時(shí)間進(jìn)行過(guò)濾。進(jìn)一步可以對(duì)上述觸發(fā)詞進(jìn)行同義詞擴(kuò)充,如:“周一”、“周四”可以擴(kuò)展為:周二、周三、周五、周日等。
為進(jìn)一步獲得語(yǔ)料中新聞事件句的非時(shí)間類觸發(fā)詞,抽取各篇的前6句共1 322句中的新聞事件句114句。依據(jù)觸發(fā)詞提取算法Step 6~7,提取訓(xùn)練語(yǔ)料新聞事件句中準(zhǔn)確率為100%的非時(shí)間類觸發(fā)詞及召回的句子數(shù)見表2。
計(jì)算這些時(shí)間類和非時(shí)間類觸發(fā)詞對(duì)于前述訓(xùn)練語(yǔ)料的事件句抽取召回率和準(zhǔn)確率分別為93.48%和99.34%,故繼續(xù)采用觸發(fā)詞提取算法Step 9,提取訓(xùn)練語(yǔ)料新聞事件句中準(zhǔn)確率為100%的組合類非時(shí)間類觸發(fā)詞組合召回的句子數(shù)見表3。
注:表3中不含“+”的詞組合表示兩個(gè)詞組成的一個(gè)詞,含有“+”的詞組合表示兩個(gè)詞分別出現(xiàn)在同一句的同一部分(即不含“,”等子句分隔符)。
至此,上述時(shí)間類觸發(fā)詞表、非時(shí)間類觸發(fā)詞表的事件句召回率為96.2%、準(zhǔn)確率為99.34%,達(dá)到算法終止條件。雖然本文選擇了導(dǎo)電行業(yè)新聞?wù)Z料作為提取事件句觸發(fā)詞詞表的語(yǔ)料,但從表3可以看出,所得觸發(fā)詞均不具行業(yè)相關(guān)性,因此可以應(yīng)用于不同行業(yè)的語(yǔ)料的事件句識(shí)別。
2.2 開放測(cè)試實(shí)驗(yàn)
隨機(jī)收集了2015年以來(lái)導(dǎo)電塑料行業(yè)新聞?wù)Z料20篇(簡(jiǎn)稱開放語(yǔ)料1)、太陽(yáng)能電池行業(yè)新聞?wù)Z料20篇(簡(jiǎn)稱開放語(yǔ)料2),共含58條新聞事件句,其中含時(shí)間類和非時(shí)間類觸發(fā)詞的事件句分別為33條、41條,測(cè)試3.1中提取的觸發(fā)詞表提取事件句的效果。
2.2.1 時(shí)間類觸發(fā)詞事件抽取效果
使用前文提取的時(shí)間類觸發(fā)詞表A召回的句子數(shù)見表4,準(zhǔn)確率均為100%。
2.2.2 非時(shí)間類觸發(fā)詞事件抽取效果
對(duì)41篇語(yǔ)料通過(guò)非時(shí)間類觸發(fā)詞表提取語(yǔ)料中的新聞事件句,召回率達(dá)到98.27%,各觸發(fā)詞的抽取準(zhǔn)確率均超過(guò)95%,召回句子數(shù)見表5。
3 結(jié)束語(yǔ)
本文提出的事件觸發(fā)詞抽取技術(shù)與已有的觸發(fā)詞提取技術(shù)不同,在選擇觸發(fā)詞時(shí),更強(qiáng)調(diào)“專指性”。首先充分利用事件句必備的時(shí)間元素及事件觸發(fā)詞相對(duì)固定的特點(diǎn),將觸發(fā)詞分為時(shí)間類和非時(shí)間類。利用一定數(shù)量的語(yǔ)料事件句抽取準(zhǔn)確率很高的兩類觸發(fā)詞或詞組合字典,優(yōu)先使用時(shí)間類觸發(fā)詞提取出多數(shù)事件句后,再以非時(shí)間類觸發(fā)詞或詞組合提取余下的事件句,開放測(cè)試效果良好。
參考文獻(xiàn)
[1]趙小明,朱洪波,陳黎,等.基于多分類器的金融領(lǐng)域多元關(guān)系信息抽取算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(7):2348-2351.
[2]Bao Jiana,Li Tingyu,Yao Tianfang.Event Information Extraction Approach based on Complex Chinese Texts[C]∥IEEE Computer Society.445 Hoes Lane-P.O.Box 1331,Piscataway,NJ 08855-1331,United States:IEEE Computer Society,2012:61-64.
[3]Li Peifeng,Zhu Qiaoming,Diao Hongjun,Zhou guodong.Joint modeling of trigger identification and event type determination in chinese event extraction[C]∥COLING 2012 Organizing Committee.Powai,Mumbai,400076,India:COLING 2012 Organizing Committee,2012:1635-1652.
[4]Pei-Feng Li,Qiao-Ming Zhu,Guo-Dong Zhou.Using compositional semantics and discourse consistency to improve Chinese trigger identification[J].Information Processing & Management,2014,50(2):399-415.
[5]魏小梅,黃鈺,陳波,等.生物事件觸發(fā)詞識(shí)別方法研究[J].計(jì)算機(jī)科學(xué),2015,(10):239-243.
[6]Fu Jianfeng,Liu Zongtian,Zhong Zhaoman,et al.Chinese event extraction based on feature weighting[J].Asian Network for Scientific Information,2010,9(1):184-187.
[7]趙小明,朱洪波,陳黎,等.基于多分類器的金融領(lǐng)域多元關(guān)系信息抽取算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2011,32(7):2348-2351.
[8]陳錦輝.導(dǎo)電塑料產(chǎn)業(yè)新聞事件抽取技術(shù)應(yīng)用研究[D].上海:華東理工大學(xué),2015.
[9]孫曉彥.新聞寫作技巧與范例[M].北京:藍(lán)天出版社,2011.
(責(zé)任編輯:馬 卓)