溫 浩,何茜茹
(西安建筑科技大學(xué)信息與控制工程學(xué)院,西安 710055)
如何有效利用海量文本學(xué)術(shù)資源為人類提供最直接的內(nèi)容知識(shí)問答服務(wù),而不僅僅是信息檢索服務(wù),一直是人工智能在自然語言處理領(lǐng)域研究的目標(biāo)。目前的科技學(xué)術(shù)文摘是以文本方式組織而成的,如果想要利用人工智能技術(shù)解決知識(shí)服務(wù)問題,就需從科技學(xué)術(shù)文摘內(nèi)容中挖掘出具有獨(dú)立存在的創(chuàng)新點(diǎn)事實(shí)單元,將其分解為問題、方法、結(jié)果的實(shí)體和語義關(guān)系,建立以創(chuàng)新點(diǎn)事實(shí)為知識(shí)單元的知識(shí)庫(kù)。文獻(xiàn)[1]對(duì)《計(jì)算機(jī)學(xué)報(bào)》文摘進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,研究了文摘?jiǎng)?chuàng)新點(diǎn)中特征詞匯的句子分布規(guī)律,對(duì)文摘?jiǎng)?chuàng)新點(diǎn)中名詞-動(dòng)詞的語義關(guān)系進(jìn)行了聚類分析,構(gòu)建了期刊文摘?jiǎng)?chuàng)新點(diǎn)的語義本體模型,建立了文摘?jiǎng)?chuàng)新點(diǎn)的對(duì)象名詞與語義動(dòng)詞部分詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,研究具有很好的語義識(shí)別與分類準(zhǔn)確率,但是這一基于統(tǒng)計(jì)學(xué)習(xí)的方法受到詞庫(kù)數(shù)量、領(lǐng)域變化、寫作者風(fēng)格等因素的限制,嚴(yán)重地影響著從中文科技期刊文摘中挖掘表達(dá)創(chuàng)新點(diǎn)的“問題、方法、結(jié)果”三元組知識(shí)單元的挖全率,影響著基于三元組建設(shè)智能化知識(shí)創(chuàng)新點(diǎn)問答服務(wù)系統(tǒng)需求的急迫性。
在前期研究的基礎(chǔ)上,本文對(duì)科技文摘?jiǎng)?chuàng)新點(diǎn)的報(bào)道性、詞匯語義分布的一致性、謂語動(dòng)詞的語義理解性、語用功能的分類性和句法模型的隱含性五種認(rèn)知分析方法進(jìn)行了深入的研究,期望找到科技文摘?jiǎng)?chuàng)新點(diǎn)挖掘的認(rèn)知分析方法,對(duì)基于創(chuàng)新點(diǎn)知識(shí)庫(kù)的建設(shè)和智能問答系統(tǒng)的服務(wù)提供理論和方法的指導(dǎo)作用。
為了規(guī)范文摘編寫和便于國(guó)際化信息交流,國(guó)際標(biāo)準(zhǔn)化組織頒布了國(guó)際標(biāo)準(zhǔn)ISO 214-1976(E)(Documentation-Abstracts for Publications and Docu‐mentation)[2];我國(guó)也公布了相應(yīng)的國(guó)家標(biāo)準(zhǔn)《文摘編寫規(guī)則》(GB 6447-86)[3]和國(guó)家標(biāo)準(zhǔn)《科學(xué)技術(shù)報(bào)告、學(xué)位論文和學(xué)術(shù)論文的編寫格式》(GB 7713-87)[4]。
國(guó)際標(biāo)準(zhǔn)ISO 214-1976(E)指出,文摘是對(duì)原文獻(xiàn)內(nèi)容準(zhǔn)確、扼要而不附加解釋或評(píng)論的簡(jiǎn)略表述,其規(guī)定:文摘應(yīng)包括目的、方法、結(jié)果與結(jié)論以及附帶信息。國(guó)家標(biāo)準(zhǔn)(GB 7713-87)規(guī)定,摘要是報(bào)告、論文的內(nèi)容不加注釋和評(píng)論的簡(jiǎn)短陳述。摘要應(yīng)具有獨(dú)立性和自含性,即不閱讀報(bào)告、論文的全文,就能獲得必要的信息,要便于檢索。摘要應(yīng)說明研究工作的目的、方法、成果和結(jié)論,要突出本論文的新見解,語言精練。
國(guó)家標(biāo)準(zhǔn)(GB 6447-86)還規(guī)定了文摘編寫詳細(xì)規(guī)則的5個(gè)要素:①目的(研究、研制、調(diào)查等的前提、目的和任務(wù),所涉及的主題范圍);②方法(所用的原理、理論、條件、對(duì)象、材料、工藝、結(jié)構(gòu)、手段、裝備、程序等);③結(jié)果(實(shí)驗(yàn)的結(jié)果、研究的結(jié)果、數(shù)據(jù),被確定的關(guān)系,觀察結(jié)果,得到的效果,性能等);④結(jié)論(結(jié)果的分析、研究、比較、評(píng)價(jià)、應(yīng)用,提出的問題,今后的課題,假設(shè),啟發(fā),建議,預(yù)測(cè)等);⑤其他(不屬于研究、研制、調(diào)查的主要目的,但就其見識(shí)和情報(bào)價(jià)值而言也是重要的信息)。
對(duì)于文摘研究的文章有很多,文獻(xiàn)[5]把科技文摘的形式分為4類:報(bào)道性(informative)、指示性(indicative)、混合性(indicative-informative)和評(píng)論性(review abstract)。并強(qiáng)調(diào)報(bào)道性文摘概述原文內(nèi)容的要點(diǎn),特別是創(chuàng)新點(diǎn),向讀者提供定量和定性信息,反映原文的技術(shù)內(nèi)容,包括研究對(duì)象、工作目的、結(jié)果、性質(zhì)、方法和條件等有關(guān)的各種資料,適用于學(xué)術(shù)論文和技術(shù)報(bào)告。
本文對(duì)學(xué)術(shù)文摘的認(rèn)知分析方法可以歸納為:①學(xué)術(shù)文摘是論文內(nèi)容要點(diǎn)的概括;②報(bào)道創(chuàng)新點(diǎn)是學(xué)術(shù)文摘的核心;③文摘具有與原文的獨(dú)立性和自含性;④文摘的功能便于信息檢索;⑤文摘報(bào)道創(chuàng)新點(diǎn)的核心內(nèi)容便于今后用于知識(shí)發(fā)現(xiàn)。
目前,文摘的信息檢索功能已經(jīng)被普遍使用,但由于受到技術(shù)的制約,利用文摘的創(chuàng)新點(diǎn)進(jìn)行知識(shí)發(fā)現(xiàn)還未實(shí)現(xiàn),本文的研究目的就是對(duì)自然語言表述的文摘的創(chuàng)新點(diǎn)語句進(jìn)行詞匯特征統(tǒng)計(jì),語義關(guān)系識(shí)別,語用功能分類、句法模式挖掘,建立以“問題方法-結(jié)果”為三元組結(jié)構(gòu)的知識(shí)庫(kù),基于三元組知識(shí)庫(kù)開展知識(shí)問答服務(wù)、加速新知識(shí)的發(fā)現(xiàn)。
雖然國(guó)際標(biāo)準(zhǔn)和國(guó)家標(biāo)準(zhǔn)均對(duì)文摘的寫作規(guī)范給出了明確的規(guī)定,但作者寫作的語言表達(dá)風(fēng)格卻是不一樣的,因此,智能挖掘文摘?jiǎng)?chuàng)新點(diǎn)首先需要進(jìn)行語義識(shí)別。語言學(xué)家認(rèn)為,作為語義分析的基本單位是從詞(比語素高一層的語言單位)開始的,因?yàn)樵~是語言中能夠獨(dú)立運(yùn)用的最小單位,所以要找出語義的基本單位必須先從詞入手[6]。為揭示學(xué)術(shù)文摘中作者表達(dá)創(chuàng)新點(diǎn)的詞匯語義分布特征,需要了解文摘的語言特點(diǎn),包括高頻詞匯的分布信息。本文從北京萬方數(shù)據(jù)股份有限公司獲得的3410篇《計(jì)算機(jī)學(xué)報(bào)》文摘和8235篇《電子學(xué)報(bào)》文摘,對(duì)這些文摘進(jìn)行動(dòng)詞和名詞的統(tǒng)計(jì)分析工作。統(tǒng)計(jì)方法有:①利用ICTCLAS分詞工具對(duì)文摘進(jìn)行分詞;②統(tǒng)計(jì)文摘?jiǎng)釉~的詞頻和名詞的詞頻;③統(tǒng)計(jì)兩種學(xué)報(bào)文摘的高頻動(dòng)詞和高頻名詞分布的一致性;④統(tǒng)計(jì)文摘?jiǎng)釉~在句子中的分布特征。
統(tǒng)計(jì)結(jié)果表明,3410篇《計(jì)算機(jī)學(xué)報(bào)》文摘的總字?jǐn)?shù)為226111個(gè),動(dòng)詞的數(shù)量為30944個(gè),平均每篇文摘有9.07個(gè)動(dòng)詞,詞頻最高的動(dòng)詞是“提出”,詞頻高達(dá)到5284次,占總動(dòng)詞30944的17.1%,平均每篇文摘有1.55個(gè)“提出”這個(gè)動(dòng)詞。8235篇《電子學(xué)報(bào)》文摘的總字?jǐn)?shù)為1681116個(gè),動(dòng)詞的總數(shù)為224048個(gè),平均每篇文摘有27.02個(gè)動(dòng)詞,頻率最高的動(dòng)詞是“提出”,頻率高達(dá)到8423次,占動(dòng)詞總數(shù)224048個(gè)3.8%,平均每篇文摘有1.023個(gè)“提出”這個(gè)動(dòng)詞。
《計(jì)算機(jī)學(xué)報(bào)》文摘和《電子學(xué)報(bào)》文摘的部分高頻動(dòng)詞和高頻名詞統(tǒng)計(jì)結(jié)果如表1所示。
表1《計(jì)算機(jī)學(xué)報(bào)》文摘和《電子學(xué)報(bào)》文摘的高頻動(dòng)詞和名詞
取兩種學(xué)報(bào)文摘?jiǎng)釉~詞頻最高的前2286個(gè)動(dòng)詞進(jìn)行分析。其中,兩種學(xué)報(bào)共有的動(dòng)詞為1403個(gè),平均一致性為0.61。兩種學(xué)報(bào)文摘共有的動(dòng)詞詞頻最高的是“提出”,兩者前10個(gè)動(dòng)詞共同有的為7個(gè),前50個(gè)動(dòng)詞共同有的為31個(gè),前100個(gè)動(dòng)詞共同有的為61個(gè),前500個(gè)動(dòng)詞共同有的為326個(gè),前1000個(gè)動(dòng)詞共同有的為650個(gè),前2000個(gè)動(dòng)詞共同有的為1262個(gè)。兩種學(xué)報(bào)文摘的高頻動(dòng)詞一致性分布如圖1所示,橫坐標(biāo)為對(duì)數(shù)坐標(biāo)。
圖1 兩種學(xué)報(bào)文摘的高頻動(dòng)詞一致性分布
取兩種學(xué)報(bào)文摘名詞最高的前2949個(gè)名詞,兩種學(xué)報(bào)最高詞頻共同有的名詞為1076個(gè),平均一致性為0.36。兩種學(xué)報(bào)文摘共有的最高詞頻名詞為“算法”,兩者前10個(gè)名詞共同有的為7個(gè),前50個(gè)名詞共同有的為34個(gè),前100個(gè)名詞共同有的為54個(gè),前500個(gè)名詞共同有的為263個(gè),前1000個(gè)名詞共同有的為477個(gè),前2000個(gè)名詞共同有的為810個(gè)。兩種學(xué)報(bào)文摘的高頻名詞一致性分布如圖2所示,橫坐標(biāo)為對(duì)數(shù)坐標(biāo)。
圖2 兩種學(xué)報(bào)文摘的高頻名詞一致性分布
統(tǒng)計(jì)結(jié)果表明,兩種學(xué)報(bào)文摘的動(dòng)詞一致性為0.61,名詞的一致性為0.36。這說明了高頻動(dòng)詞的變化規(guī)律比較平穩(wěn),而高頻名詞隨著專業(yè)的不同和數(shù)量的增大變化比較大。這一結(jié)果說明,建立動(dòng)詞庫(kù)比建立名詞庫(kù)更具有分析文摘?jiǎng)?chuàng)新點(diǎn)特征的價(jià)值。然而,實(shí)驗(yàn)結(jié)果表明,僅使用高頻動(dòng)詞的分類,效果不夠理想,因?yàn)橐粋€(gè)句子中的動(dòng)詞有多個(gè),有的分詞工具會(huì)將名詞分為動(dòng)詞,只采用動(dòng)詞對(duì)文摘進(jìn)行問題、方法和結(jié)果分類的準(zhǔn)確率只能達(dá)到0.36,因此,還需要考慮動(dòng)詞在句子中的位置分布特征。
動(dòng)詞的詞頻變化規(guī)律對(duì)于文摘?jiǎng)?chuàng)新點(diǎn)的分析具有重要意義,同時(shí),高頻動(dòng)詞的句子位置分布特征信息也具有重要價(jià)值。為了尋找高頻動(dòng)詞的句子位置分布規(guī)律,本文對(duì)《計(jì)算機(jī)學(xué)報(bào)》文摘中的高頻動(dòng)詞句子位置分布特征進(jìn)行統(tǒng)計(jì)分析?!队?jì)算機(jī)學(xué)報(bào)》文摘的句子最多為10句、最少為3句。部分高頻動(dòng)詞的句子位置分布如表2所示,表中列出了前23個(gè)高頻動(dòng)詞在文摘的每個(gè)句子中的分布數(shù)量。
從表2可以看出,動(dòng)詞不僅有頻率的分布信息,還有位置的分布信息。動(dòng)詞主要集中分布在文摘句的第1~4句上,每個(gè)動(dòng)詞在句子的分布上具有其一定的位置特征。例如,“提出,利用,分析,提高,證明,得到,研究,解決,處理,建立,介紹”在第1句上分布較多,“實(shí)現(xiàn),具有,采用,使用,能夠,求解,設(shè)計(jì),存在”在第2句上分布較多,“表明”在第4、3、5句上較多,“提供”在第4、5句上分布較多。因此,通過動(dòng)詞在文摘句的位置分布信息可以掌握動(dòng)詞表達(dá)句子的語義信息,但由于位置信息的分布還比較廣泛,通過動(dòng)詞的詞頻和位置信息還難以對(duì)文摘?jiǎng)?chuàng)新點(diǎn)進(jìn)行有效分類。
為了進(jìn)一步對(duì)文摘的動(dòng)詞進(jìn)行深入分析,本文把文摘句進(jìn)一步細(xì)分為以句號(hào)結(jié)尾的句子和以分號(hào)與逗號(hào)結(jié)尾的子句,分析文摘中的動(dòng)詞在某個(gè)句子的某個(gè)子句中的位置信息。表3給出了前10個(gè)高頻動(dòng)詞在前4個(gè)句子中的子句位置上的分布特征。表3中用x表示句子,y表示子句,如x1y2表示每個(gè)文摘中第1個(gè)句子中的第2個(gè)子句中的動(dòng)詞位置數(shù)量。
表2 高頻動(dòng)詞的句子位置數(shù)量分布特征
從表3可以看出,高頻動(dòng)詞在每個(gè)句子和其子句的分布上表現(xiàn)出明顯的個(gè)性化分布特性。例如,“提出”在1個(gè)句子上出現(xiàn)的次數(shù)最高(1932次),在第1句的子句上出現(xiàn)次數(shù)分別是:1047、518、196、92、34、14、5、8、6、3。又如,“表明”在第4句上出現(xiàn)的次數(shù)最高(431次),在第4句的子句上出現(xiàn)的次數(shù)分別是:351、44、23、9、2、0、1、1、0、0。
表3 高頻動(dòng)詞在子句中的位置數(shù)量分布特征
本文利用表2和表3文摘中動(dòng)詞在句子和子句中的分布特性,可以為建立創(chuàng)新點(diǎn)的本體結(jié)構(gòu)圖的語義關(guān)系提供理論依據(jù)和技術(shù)方案。例如,通過問題類的動(dòng)詞{針對(duì)、存在},方法類的動(dòng)詞{提出,利用,采用},結(jié)果類的動(dòng)詞{表明,提高,得到,解決}。問題類的名詞{問題,不足,熱點(diǎn),瓶頸,難題},方法類的名詞{模型,定義,模式,性質(zhì),誤差,算法,方法,理論},結(jié)果類的名詞{策略,效率,優(yōu)點(diǎn),冗余度,指標(biāo),穩(wěn)定性},建立文摘?jiǎng)?chuàng)新點(diǎn)的語義本體結(jié)構(gòu)。
考慮了動(dòng)詞的位置分布特性后,本文對(duì)文摘的問題、方法、結(jié)果分類的準(zhǔn)確率可達(dá)到78%,比未考慮動(dòng)詞位置的準(zhǔn)確率提高了1倍。
研究結(jié)果表明,統(tǒng)計(jì)分析的挖掘方法操作起來比較簡(jiǎn)單,但從表1和表2可以看出,同一個(gè)詞匯被標(biāo)記成動(dòng)詞和名詞,如“研究、分析、設(shè)計(jì)、應(yīng)用、仿真、影響”,這不僅表現(xiàn)出目前的分詞工具質(zhì)量不高的問題,還在于缺乏對(duì)句子的謂語動(dòng)詞的語義識(shí)別,也是影響文摘?jiǎng)?chuàng)新點(diǎn)準(zhǔn)確分類的本質(zhì)問題。
目前,中文分詞工具的準(zhǔn)確性不高會(huì)造成中文句子語義理解的困難。本文采用了三種分詞工具對(duì)《電子學(xué)報(bào)》文摘進(jìn)行分詞實(shí)驗(yàn),下面給出一條文摘(8089號(hào))的分詞結(jié)果。選擇這條文摘是因?yàn)檫@條文摘只有兩句話,第一句話為一條獨(dú)立的句號(hào)句的句子;第二句話是含有14個(gè)逗號(hào)句的句子。這類文摘在以后的分類中也會(huì)帶來很多分類處理上的麻煩。表4~表6分別給出了三種分詞工具對(duì)這條文摘部分內(nèi)容的分詞處理結(jié)果:表4為采用ICTCLAS分詞工具的分詞結(jié)果,表5為采用Stanford Parser分詞工具的分詞結(jié)果,表6為采用哈工大-SecureCRT.rar分詞工具的分詞結(jié)果。展示的(8089號(hào))文摘部分內(nèi)容帶有6個(gè)逗號(hào)、分號(hào)和句號(hào)。比較幾個(gè)分詞工具可以看出,ICTCLAS分出20個(gè)動(dòng)詞,Stan‐ford Parser分出8個(gè)動(dòng)詞,哈工大-SecureCRT.rar分出18個(gè)動(dòng)詞。其中,哈工大-SecureCRT.rar依存樹工具對(duì)這條兩個(gè)句號(hào)的文摘句只給出了一個(gè)句子的謂語動(dòng)詞,另一句話沒有識(shí)別出來。
表4 ICTCLAS分詞處理后的文摘句
表5 Stanford Parser分詞處理后的文摘句
表6 哈工大-SecureCRT.rar分詞處理后的文摘句
通過表4~表6的分詞結(jié)果可以看出,Stanford Parser分詞工具分詞的準(zhǔn)確性相對(duì)較高,對(duì)逗號(hào)句也能給出謂語動(dòng)詞,但仍然有分錯(cuò)的地方。例如,在這一例子中,Stanford Parser分詞處理結(jié)果中的“支持/VV,并行/VV,存在/VV,面臨/VV”,這4個(gè)動(dòng)詞都不是謂語動(dòng)詞。在ICTCLAS分詞處理結(jié)果中的“構(gòu)/v,計(jì)算/v,構(gòu)/v,編程/v,支持/v,應(yīng)用/v,構(gòu)/v,構(gòu)/v,構(gòu)/v,并行/v,優(yōu)化/v,構(gòu)/v,存在/v,面臨/v,挑戰(zhàn)/v”,這15個(gè)動(dòng)詞都不是句子的謂語動(dòng)詞。在哈工大-SecureCRT.rar分詞處理結(jié)果中的“異v,計(jì)算v,發(fā)展v,支持v,應(yīng)用v,發(fā)展v,并行v,編程v,優(yōu)化v存在v,面臨v,挑戰(zhàn)v”,這12個(gè)詞也不是句子的謂語動(dòng)詞。
目前,常用的分詞工具雖然取得了很大的進(jìn)展,但還存在一些問題:①準(zhǔn)確率還需要進(jìn)一步提高;②對(duì)名詞等不起語法和語義作用的詞進(jìn)行了過細(xì)的劃分。例如,“提出了一種能夠解決現(xiàn)有問題的方法?!苯?jīng)過分詞系統(tǒng)的劃分之后,能夠/解決/有/都被標(biāo)定為動(dòng)詞,那么這些詞就有可能被誤判為這句話的謂詞。然而,這句話的謂語應(yīng)該是“提出了”。所以對(duì)名詞再進(jìn)行細(xì)分有時(shí)候是得不償失的;③有些介詞雖然不是句子的核心成分(謂語),但是卻起到了引導(dǎo)特定類別句子、短語的引導(dǎo)詞的作用。例如,“針對(duì)這個(gè)問題,提出了一種算法?!痹谶@句話中,“針對(duì)”是個(gè)介詞,當(dāng)然也不是這句話的謂語,然而這個(gè)詞卻引出了問題句的短語,相應(yīng)的該問題句應(yīng)該被分離出來。所以綜合這三個(gè)問題,現(xiàn)有的分詞工具還不能被用于進(jìn)行語義單元的提取。
因此,利用目前的分詞工具進(jìn)行分詞和詞性處理后的句子,仍然達(dá)不到機(jī)器語義理解的要求。
在對(duì)句法、語義關(guān)系這個(gè)語法學(xué)中心問題的研究上,中外許多語法學(xué)家和語法流派都十分強(qiáng)調(diào)動(dòng)詞是敘事句的中心。文獻(xiàn)[7]認(rèn)為,“從語義結(jié)構(gòu)探討句子的形式與意義的關(guān)系,有益于正確認(rèn)識(shí)句子的表層結(jié)構(gòu)(形式結(jié)構(gòu)、結(jié)構(gòu)模式)和深層結(jié)構(gòu)(語義模式)之間的相互聯(lián)系,加深理解句子形式與意義的關(guān)系?!蔽墨I(xiàn)[8]認(rèn)為,“動(dòng)詞是句子的中心、核心、重心,別的成分都跟它掛鉤,被它吸引。”文獻(xiàn)[9]認(rèn)為,“以動(dòng)詞謂語句而言,謂語動(dòng)詞是語義結(jié)構(gòu)的核心(動(dòng)核),而句中的名詞性成分都是這一核心的種關(guān)系(動(dòng)元)?!蔽墨I(xiàn)[10]認(rèn)為,“動(dòng)詞跟受其支配的語義成分可以構(gòu)成一個(gè)最小的語義結(jié)構(gòu)。這些最小的語義結(jié)構(gòu),都具有一定的表述性,能表達(dá)一個(gè)相對(duì)完整的命題或意義,能投射成一個(gè)具有相對(duì)獨(dú)立表述功能的意義自足的最小主謂句。”
更為重要的是,因?yàn)橐粋€(gè)漢語句子可以有多個(gè)動(dòng)詞,每個(gè)逗號(hào)短語句都可包含有謂語成分的語義關(guān)系。文獻(xiàn)[11]認(rèn)為,“漢語多動(dòng)詞謂語句是漢語句子基本結(jié)構(gòu)的一個(gè)重要特點(diǎn)。理解這類句子時(shí),必須分析這些動(dòng)詞之間的語義聯(lián)系,譯成英語時(shí),常常只將其中的一個(gè)動(dòng)詞譯成英語謂語動(dòng)詞,而將其他動(dòng)詞轉(zhuǎn)換成非謂語動(dòng)詞或其他形式?!蔽墨I(xiàn)[12]認(rèn)為,“在確定一個(gè)句子和基本單元時(shí),把句點(diǎn)顯性標(biāo)識(shí)的一個(gè)語言片段稱為句子,以逗號(hào)分隔的語言片段稱為小句,認(rèn)為小句對(duì)應(yīng)于句子關(guān)系的基本單元?!币虼?,本文認(rèn)為對(duì)于科技文摘?jiǎng)?chuàng)新點(diǎn)句子的謂語動(dòng)詞分析,不僅僅是句子結(jié)構(gòu)的分析,還要從最小的逗號(hào)句進(jìn)行分析,所以識(shí)別句子的謂語動(dòng)詞,挖掘句子的主謂賓結(jié)構(gòu)是文摘?jiǎng)?chuàng)新點(diǎn)句子理解的關(guān)鍵。由此漢語文本語言的語義識(shí)別的核心問題可以看作是尋找句子和逗號(hào)子句(或小句)準(zhǔn)確的謂語動(dòng)詞的難題。
因此,本文提出了通過句子的謂語動(dòng)詞的識(shí)別來解決語義理解的認(rèn)知分析方法結(jié)構(gòu),開發(fā)了一套《中文科技文摘句謂語動(dòng)詞識(shí)別與句子的主謂賓結(jié)構(gòu)轉(zhuǎn)換軟件工具》,這個(gè)軟件工具能夠?qū)⒅形目萍嘉恼浜芎玫霓D(zhuǎn)換為機(jī)器理解所需要的語義關(guān)系結(jié)構(gòu),并且這種語義結(jié)構(gòu)的句子在后續(xù)建立知識(shí)庫(kù)和謂詞的語義推理中將發(fā)揮重要作用。
為了建立高準(zhǔn)確率的文摘句的謂語動(dòng)詞的語義識(shí)別率,為今后的謂詞推理建立可靠的基礎(chǔ),本文研究了句子謂語動(dòng)詞的智能識(shí)別問題,先利用ICT‐CLAS分詞工具對(duì)《電子學(xué)報(bào)》文摘句進(jìn)行了分詞;然后對(duì)分詞后的文摘句進(jìn)行謂語動(dòng)詞識(shí)別,并將句子的其他標(biāo)記成分取掉,把句子改造成為主謂賓結(jié)構(gòu)。表7給出用中文科技文摘句子謂語動(dòng)詞識(shí)別與主謂賓轉(zhuǎn)換軟件對(duì)文摘(8089號(hào))處理的結(jié)果。
表7 句子謂語動(dòng)詞識(shí)別與主謂賓轉(zhuǎn)換后的文摘句
由表7可以看出,文摘(8089號(hào))為2個(gè)句號(hào)句子,14個(gè)逗號(hào)子句,共識(shí)別出16個(gè)謂語動(dòng)詞。每個(gè)由“逗號(hào)、分號(hào)、句號(hào)”組成的句子都包含有謂語動(dòng)詞,這些謂語動(dòng)詞準(zhǔn)確的表達(dá)了句子的語義和語用關(guān)系,去掉了其他多余的詞性標(biāo)記會(huì)更能清晰的表達(dá)句子的語用功能,這對(duì)機(jī)器理解中文文本的語義和語用功能帶來了更大的好處。
按照文摘中句子所表達(dá)語用功能的特征,本文把文摘句子分為6種語用類型:第1類(問題句)、第2類(方法句)、第3類(結(jié)果句)、第4類(問題句、方法句)、第5類(方法句、結(jié)果句)、第6類(問題句、方法句、結(jié)果句)。先進(jìn)行第一次6分類,然后將6分類中的第4、5、6類混合類進(jìn)行二次單一類分類,最后與第一次分出的第1、2、3類句合并,完成三種語用功能的分類任務(wù)。
本次研究對(duì)象來自萬方數(shù)據(jù)庫(kù)提供的文摘,經(jīng)過預(yù)處理后為8235條(32686個(gè)句號(hào)句),平均每條文摘3.48句,最長(zhǎng)的一條文摘為13個(gè)句號(hào)句子。表8是本文對(duì)8235條文摘進(jìn)行第一次6分類結(jié)果的統(tǒng)計(jì)數(shù)據(jù)。
表8 語用功能的文摘句子6分類數(shù)量分布
我們把表8分為兩部分,第一部分為可直接分類為第1、2、3類的單一類句子,這類句子表達(dá)的語用功能單一。第1、2、3類的句子數(shù)為26382,占總句子32686的81%。此外,從表8可以看出,第1類主要分布在第一句、第二句、第三句上,第2類主要分布在第二句、第一句、第三句上,第3類主要分布在第三句、第四句、第二句上。第二部分為第4、5、6類句子,這類句子的語用功能結(jié)構(gòu)復(fù)雜、有多個(gè)語用關(guān)系,不能直接分為第1、2、3類。第4、5、6類句子數(shù)量為6304,占總句子32686的19%。第4、5、6類句子屬于混合類句,需要進(jìn)行二次分類。此外,第4類主要分布在第一句、第二句上,第5類分布在第二句、第三句上,第6類分布在第一句、第二句上。
第4~6類句子的二次分類結(jié)果如表9所示。
由表9可以看出,“句子大序號(hào)”是本文對(duì)《電子學(xué)報(bào)》8235條文摘按逗號(hào)分句后建立的數(shù)據(jù)庫(kù)順序號(hào);“文摘號(hào)”是數(shù)據(jù)庫(kù)的文摘編號(hào);“文摘內(nèi)句子號(hào)”是對(duì)每條文摘中句子的編號(hào),其中,1、2分別表示這條文摘的第1個(gè)句號(hào)句和第2個(gè)句號(hào)句,這條文摘只有2個(gè)句號(hào)句子;“原分類號(hào)”指的是經(jīng)過第一次6分類后給出的分類結(jié)果,其中,6表示這個(gè)文摘的第2句被分為第6類;“新分類號(hào)”是經(jīng)過二次分類后給出的分類號(hào),文摘號(hào)為8098文摘的第2句話被第二次分類分成了1、2、3類,并分成了14個(gè)逗號(hào)句。
經(jīng)過二次分類與一次分類的1、2、3類合并后,全部文摘分類的1、2、3總分類句的數(shù)量分布如表10所示。一次分類的句子(句號(hào)句)數(shù)量為32685,二次分類合并后的句子(逗號(hào)、分號(hào)、句號(hào))為43999。
由表10可以看出《電子學(xué)報(bào)》文摘?jiǎng)?chuàng)新點(diǎn)的1、2、3類的分布有兩個(gè)特點(diǎn):①第1類占總句(包括逗號(hào)、分號(hào)、句號(hào))的31.1%,第2類占總句的45%,第3類占總句的24%,說明了文摘表達(dá)第2類的句子數(shù)量比較多。②第1類主要分布在第1、2、3、4句,第2類分布在2、1、3、4句,第3類主要分布在第3、2、4、5、1句。
通過人工抽查驗(yàn)證,本文提出的按照文摘句的語用功能進(jìn)行6分類,再二次分類方法操作簡(jiǎn)單,且取得的分類準(zhǔn)確率較高。經(jīng)過人工對(duì)300條文摘檢驗(yàn),準(zhǔn)確率高到達(dá)96%以上。
參與實(shí)際分類的《電子學(xué)報(bào)》文摘數(shù)為8235條,經(jīng)過二次分類合并后每條文摘同時(shí)含有第1、2、3類的文摘數(shù)量為6505條,占84%;同時(shí),含有第1、2、3類的句子數(shù)為37399句(包括逗號(hào),分號(hào),句號(hào)),占85%。如表11所示。
表9 二次分類(新分類)與一次分類的對(duì)比舉例
表10 全部文摘的1、2、3類句數(shù)量分布
表11 同時(shí)含有第1、2、3類的文摘數(shù)量
由表11可以看出,①第1類占總文摘的84%,第2類占總文摘的96.6%,第3類占總文摘的91%。②每篇文摘中同時(shí)都含有第1、2、3類的文摘只到達(dá)到84%。因此,尋找第1類句子缺失的問題就變成為文摘寫作語言模式的深度認(rèn)知分析方法的任務(wù)。
經(jīng)過大量統(tǒng)計(jì)分析發(fā)現(xiàn)《電子學(xué)報(bào)》文摘不直接給出表達(dá)問題句和結(jié)果句的概率很高。這一特點(diǎn)表現(xiàn)在《電子學(xué)報(bào)》文摘的第一句為第2類的文摘達(dá)到25615條,占總文摘8235條的31.1%,而且此類文摘沒有直接的顯性問題句,這是《電子學(xué)報(bào)》文摘的特點(diǎn),也是提取問題句的難點(diǎn)。為了方便研究,本文把這類文摘句稱為“問題隱含特殊句”。經(jīng)過二次分類合并后《電子學(xué)報(bào)》文摘的這種“問題隱含特殊句”有1571條,占總文摘數(shù)8235的19.0%。
“問題隱含特殊句”的舉例:本文/r提出了/V一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)的在線算法/n。
為此,本文從語言學(xué)的角度對(duì)這類文摘句進(jìn)行語法結(jié)構(gòu)分析。語言學(xué)文獻(xiàn)[13]指出,“謂詞特別是謂語動(dòng)詞是整個(gè)句子的中心,與謂語動(dòng)詞左側(cè)最近的名詞短語鄰居即為主語,與名詞左側(cè)最近的形容詞或形容詞性短語鄰居即為定語,與動(dòng)詞左側(cè)最近的副詞或副詞短語鄰居為狀語,與動(dòng)詞右側(cè)最近的副詞短語、介賓短語、動(dòng)詞短語、孤立形容詞鄰居(不修飾名詞)為補(bǔ)語,除此之外的名詞或名詞短語為賓語?!睂?duì)于賓語來說,在很多情況下,賓語的核心詞并沒有包含太多的信息,而賓語前的定語卻包含了很多信息。因此就會(huì)出現(xiàn),“問題隱含特殊句”這種情況,即“問題隱含特殊句”是由賓語前的定語包含了要解決的問題的信息的句子。例如,將一個(gè)文摘的例句表達(dá)成下面的結(jié)構(gòu):
{[主語]本文/r}||{[謂語]提出了/V}||{[定語]一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)/v與跟蹤/v運(yùn)動(dòng)目標(biāo)的}||{[賓語]在線算法/n}。
在上述的例子中,“一種在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中用高斯混合體模型(GMM)檢測(cè)與跟蹤運(yùn)動(dòng)目標(biāo)的”是“在線算法”的定語。在這個(gè)定語中,指明了直接賓語“在線算法”的適用范圍、前提條件和適用目的。也就表明了“在線算法”所要解決的問題。因此,把這類“問題隱含特殊句”的寫作方式可歸納為如表12所示的模板。
表12“問題隱含特殊句”的句法結(jié)構(gòu)
按照表12處理“問題隱含特殊句”的模板結(jié)構(gòu),本文對(duì)“問題隱含特殊句”進(jìn)行模式識(shí)別,并把定語中的“在XXXXXX中”和“處理對(duì)象ZZZZZZ”等抽取出來,為該文摘補(bǔ)充兩條第1類短語。這樣上述舉例文摘的第1類可以補(bǔ)充為:在相控陣?yán)走_(dá)回波數(shù)據(jù)序列中,運(yùn)動(dòng)目標(biāo)的檢測(cè)與跟蹤。
通過對(duì)“問題隱含特殊句”的處理,使得總文摘的第1類的數(shù)量由84%提高到92%,第1、2、3類全有的文摘數(shù)量由80%提高到89%,有效的解決了由于科技文摘寫作語言表述的豐富性帶來的分類和挖掘的困難,大大提高了科技文摘?jiǎng)?chuàng)新點(diǎn)的準(zhǔn)確分類和有效挖掘的目標(biāo)。為建立“問題(p)”“方法(M)”“結(jié)果(R)”三元組知識(shí)庫(kù)的問答服務(wù)系統(tǒng)提供了知識(shí)挖掘的理論和方法。
通過對(duì)本文提出的學(xué)術(shù)文摘?jiǎng)?chuàng)新點(diǎn)挖掘的5個(gè)認(rèn)知分析方法的實(shí)驗(yàn),驗(yàn)證了這5個(gè)認(rèn)知分析方法在文本挖掘過程中具有明顯的階段性和遞增性現(xiàn)實(shí)特點(diǎn),其是實(shí)現(xiàn)科技文摘?jiǎng)?chuàng)新點(diǎn)挖掘需要考慮的5個(gè)認(rèn)知分析方法。經(jīng)過5個(gè)階段的實(shí)驗(yàn),驗(yàn)證了科技文摘中的創(chuàng)新點(diǎn)具有一定的事實(shí)性和動(dòng)詞分布的一致性,謂語動(dòng)詞的語義對(duì)語用分類的理解具有重要的決定性作用,科技文摘為了突出其創(chuàng)新點(diǎn)的表達(dá),常常會(huì)采用復(fù)雜的句子和隱含的表達(dá)方式。下面將幾個(gè)認(rèn)知階段的研究結(jié)果匯總在一起,如圖3和圖4所示。
圖3 識(shí)別率改善的幾個(gè)階段
圖4 考慮隱含句法的第1、2、3類全有的文摘數(shù)量
科技文摘最初設(shè)置的目的不僅是為了快速檢索,其有標(biāo)題和關(guān)鍵詞的檢索功能,更重要的是表達(dá)文章創(chuàng)新點(diǎn)的核心功能。經(jīng)過上百年來的發(fā)展,科技文摘的核心功能并沒有變,但承載科技文摘的介質(zhì)從紙質(zhì)形式上升到了數(shù)字化形式,數(shù)字化的形式使得人們對(duì)科技文摘的利用方式已不再只是人工閱讀的方式了,借助計(jì)算機(jī)技術(shù)和人工智能技術(shù)可能使科技文摘成為智能化的問答方式為人們服務(wù)。但是科技文摘?jiǎng)?chuàng)新點(diǎn)內(nèi)容的表現(xiàn)方式不是結(jié)構(gòu)化數(shù)據(jù),而是人類使用的自然語言形式。目前的計(jì)算機(jī)技術(shù)和人工智能技術(shù)使用的是機(jī)器語言形式,自然語言形式和機(jī)器語言形式不能直接交流,需要將人類自然語言形式通過智能的模式轉(zhuǎn)換為機(jī)器可以理解的模式。本文對(duì)科技文摘的創(chuàng)新點(diǎn)做了認(rèn)知分析方法的研究,從創(chuàng)新點(diǎn)的報(bào)道功能、詞匯語義分布的一致性、謂語動(dòng)詞的語義理解性、語用功能的分類性和句法模型的隱含性五個(gè)方面進(jìn)行了深入研究,期望能夠?yàn)闄C(jī)器處理自然語言的研究提供智能認(rèn)幫助,對(duì)基于創(chuàng)新點(diǎn)知識(shí)庫(kù)建設(shè)和智能問答系統(tǒng)建立提供理論和方法的認(rèn)知分析方法。后續(xù)的工作將建立創(chuàng)新點(diǎn)知識(shí)庫(kù),進(jìn)一步研究智能問答系統(tǒng)的推理技術(shù),探索文摘?jiǎng)?chuàng)新點(diǎn)的智能化服務(wù)。