張文敏,李華勇,邵艷秋
(北京語言大學 信息科學學院,北京 100083)
復合名詞短語在日常生活中應用廣泛,在語言使用中占有較大比重。據(jù)Leonard[1]統(tǒng)計,近兩個世紀以來,在小說體散文中使用復合名詞短語的次數(shù)呈現(xiàn)穩(wěn)定持續(xù)增長的態(tài)勢,同時復合名詞短語的種類也有顯著的增長,且其語法結(jié)構(gòu)較為獨特,語義關(guān)系較為復雜,因此在語言分析中扮演著非常重要的角色。通過對它的定界識別和語義分類,可以有效改善句子語義分析的質(zhì)量,進行信息的準確抽取。
對于復合名詞短語的研究,國外很早就有相關(guān)的語義關(guān)系體系的建設研究,關(guān)于短語的邊界識別和語義分析,也相對于國內(nèi)而言較為成熟,詳見文獻[2-9]。
國內(nèi)以往對漢語基本名詞短語的研究,主要是基于邊界識別和自動釋義,而針對短語內(nèi)部構(gòu)成成分之間的語義關(guān)系體系建設卻相對較少,目前較完整的是劉鵬遠等[10]針對名名復合形式短語語義知識庫的構(gòu)建,但該文只是單純從語言學角度進行了語義分類,做了一些初步的統(tǒng)計分析,并沒有將包含動詞的復合名詞短語納入研究范圍,且抽取得到的復合名詞短語脫離語境,缺少句子級別的信息。目前也沒有在句子中進行復合名詞短語自動定界和語義關(guān)系分類的研究工作。
針對國內(nèi)對于復合名詞短語語義知識庫構(gòu)建相對薄弱的特點,我們參照北京大學《現(xiàn)代漢語語義詞典》的語義類別標簽并結(jié)合語料的實際情況建立一個語義關(guān)系體系,標注構(gòu)建了一個包含句子信息的復合名詞短語語義關(guān)系知識庫,短語的構(gòu)成成分包括名詞和動詞?;谥R庫,對語義關(guān)系類型的分布情況和詞性分布的特點做了統(tǒng)計分析。最后基于此知識庫,我們構(gòu)建了相應的數(shù)據(jù)集,采用BERT+Bi-LSTM+CRF模型做了定界識別和語義關(guān)系分類的實驗。針對實驗結(jié)果進行了分析總結(jié),并討論了未來可能的改進方向。
本文后續(xù)內(nèi)容組織如下: 第1節(jié)對以往相關(guān)研究工作進行綜述;第2節(jié)解釋語義關(guān)系體系內(nèi)容;第3節(jié)介紹知識庫的基本情況,包括語料的來源、標注過程、統(tǒng)計分析等;第4節(jié)介紹實驗模型的相關(guān)情況;最后一節(jié)對全文進行總結(jié)。
國內(nèi)外關(guān)于復合名詞短語語義關(guān)系的研究主要采用兩種方法,一種是通過整理總結(jié)復合名詞短語內(nèi)部各成分之間的語義關(guān)系類來定義其語義關(guān)系,另一種是基于謂詞語義類來確定復合名詞短語內(nèi)部成分的語義關(guān)系。
國外研究中,Downing[11]針對英語復合名詞短語提出了12類語義關(guān)系;Levi[12-13]通過刪除謂詞,提出了12類名名復合名詞短語成分之間的語義關(guān)系;Warren[14]認為復合名詞短語的語義關(guān)系由4個層級組成,最頂層有6類粗粒度語義關(guān)系,各個粗粒度關(guān)系下又分為其他細粒度的關(guān)系類型;2010年SemEval[15]組織了一項評測“Classification of Sematic Relations between Nominals”,定義了7種語義關(guān)系。
Tratz和Hovy[16]建立了目前最大的英語復合名詞短語語義關(guān)系知識庫,含17 509條短語,12類語義關(guān)系,每一類關(guān)系下又分了小類,并做了關(guān)系標注。
漢語方面,馬洪海[17]考察“名+名”組合,偏正結(jié)構(gòu)分為7類語義關(guān)系,復指結(jié)構(gòu)分為8類語義關(guān)系;魏雪等[18]針對漢語復合名詞短語歸納出26種語義組合關(guān)系;Jinglei Zhao等[19]參考動詞的語義角色為300個名詞短語標注了4種粗粒度語義關(guān)系;劉鵬遠等[10]為名名組合的復合名詞短語定義了14種語義關(guān)系。
關(guān)于知識庫的構(gòu)建,目前有魏雪和袁毓林[18,20]以識別隱含謂詞和自動釋義為目的而建立的名名搭配知識庫,但是該知識庫目前尚未開源。劉鵬遠等[10]對18 281條名名復合名詞短語進行標注而形成了一個知識庫,該知識庫不僅標注了兩個名詞之間的語義關(guān)系,同時也標注了兩個名詞各自的語義類,但語義類組合和語義關(guān)系呈現(xiàn)多對多的情況,嚴重影響了數(shù)據(jù)分析。若要解決此問題,又需進一步進行更細的名詞語義分類,這對后續(xù)工作增加了更大的難度和人力投入。
早期國內(nèi)對于名詞性短語的邊界識別研究經(jīng)常與語法分析聯(lián)系在一起,多使用基于統(tǒng)計的方法。趙軍等[21]將表示baseNP內(nèi)部句法組成結(jié)構(gòu)模板,與體現(xiàn)上下文約束條件的N元模型結(jié)合起來,形成一個新的模型,識別結(jié)果準確性明顯優(yōu)于單純基于詞性標注的N元模型,但不足之處是對上下文句法特征不明顯的baseNP識別精確率較低;孟迎等[22]從語料庫中自動抽取基本名詞短語的詞性模板及其相應的上下文信息,并采用算法形成相應的決策樹來識別漢語名詞短語。但以上實驗都著重于名詞性短語句法結(jié)構(gòu)的研究,對短語內(nèi)部語義關(guān)系沒有作深入的探討,且研究對象基本未包含動詞在內(nèi)。
?;奂裑23]采用三種方法對長度在2~10不等的復合名詞短語進行邊界識別,所研究的短語對象雖包含了動詞,但只是針對動詞采取詞性細分類標注來提高識別準確率;孫玉祥[24]提出一種融合統(tǒng)計機器學習與后處理規(guī)則的識別策略,但后續(xù)的處理規(guī)則同樣未涉及短語內(nèi)部成分之間的語義特征。其他相關(guān)研究主要采用統(tǒng)計和規(guī)則兩種方法進行邊界識別,并沒有將語義關(guān)系應用于邊界識別的任務當中來。
在漢語詞匯研究中,趙軍等[21]從限定性定語出發(fā)對漢語基本名詞短語(BNP)進行了形式化的定義:
Base NP → Base NP+Base NP
Base NP → Base NP +名詞|名動詞
Base NP →限定性定語+Base NP
Base NP →限定性定語+名詞|名動詞
限定性定語 → 形容詞|區(qū)別詞|動詞|名詞|處所詞|西文字串|(數(shù)詞+量詞)
以往針對漢語名詞性短語的研究工作大都基于此概念,另外還有孫玉祥[24]基于基本名詞短語和最長名詞短語提出的簡單名詞短語(SNP),SNP按其結(jié)構(gòu)特點分為7類,內(nèi)部不僅包含復雜的并列或嵌套結(jié)構(gòu),還包含動賓和專有名詞性結(jié)構(gòu),粒度大于BNP,因此我們選擇以趙軍定義的基本名詞短語為準。
由于漢語屬于意合語言,名詞短語在構(gòu)成上較為靈活,構(gòu)成成分通過簡單的組合就可以構(gòu)成短語序列,不需要助詞等連接成分,如“醫(yī)療設備、國際經(jīng)濟政治”;且動詞作為復合名詞短語的構(gòu)成成分時沒有變形信息,它既可充當名詞的功能作短語的核心詞,如“工作接洽、多邊會談”,又可以動詞的成分作短語的修飾語或修飾語的一部分,如“行軍路線、安全管理辦法”。本文的研究對象為由動詞和名詞參與構(gòu)成的長度為2的基本復合名詞短語,主要基于以下考慮: 首先,兩個實詞構(gòu)成的基本復合名詞短語在整個名詞性短語中的占比較大,在語言使用中出現(xiàn)頻率較高;其次,在句子語義依存分析中,依存分析的基本單位是分析標注兩個詞之間的語義關(guān)系,針對長度更大的短語分析也都是建立在兩個詞關(guān)系分類基礎(chǔ)上的;最后形容詞參與構(gòu)成基本復合名詞短語時其語義功能和語法組合類型都較為單一,語義分類和邊界識別的任務相對來說簡單。
關(guān)于“V+N”中“V”是否可以被劃分為名動詞,陸儉明[25]認為能直接作定語的動詞只是動詞的一個小類,叫名動詞;邵敬敏[26]認為如果將直接修飾N的V認定是名動詞,那么名動詞的范圍會無限擴大,需要限制其范圍;尹世超[27]以動詞是否能直接作定語,將動詞分為可定動詞和不可定動詞。雖然語言學家各有論斷,但是都認為動詞處于修飾語位置上時其本身的性質(zhì)有所變化,有必要劃分出名動詞的類別,所以,在本文以下表示中,我們將處于限定詞位置上的動詞標明為名動詞,而將被修飾的動詞還是標明為動詞。
基于趙軍等的基本名詞短語定義,我們將本文所研究的基本復合名詞短語形式化表示為:
基本復合名詞短語 = 限定詞+核心詞
限定詞 → 名詞|名動詞
核心詞 → 名詞|動詞
其中可能出現(xiàn)的組合形式有: 名詞+名詞、名詞+動詞、名動詞+名詞三大類,其中名詞包含有普通名詞、專有名詞(人名、地名、機構(gòu)名、品牌名)、時間名詞、處所名詞等。
本文采用的語義關(guān)系標注規(guī)范參考北京大學的《現(xiàn)代漢語語義詞典》中的語義分類標簽,并結(jié)合本文具體任務做了一些調(diào)整,最后確定10種語義關(guān)系,即時間、處所、領(lǐng)域、名稱、材料、并列、式樣、用途、內(nèi)容、一般修飾。
由于基本復合名詞短語的構(gòu)成成分有名詞和動詞,且二者排列次序不等,所以在此我們以“詞1+詞2”的形式表示短語。
(1) 時間
詞1是時間名詞,表明詞2所處的時間狀態(tài)或具有的時間屬性。
例1他們的談話,若能記錄下來,一定是歷史學家極感興趣的中國近代城鄉(xiāng)的變遷史料。
說明: 在近代形成的城鄉(xiāng)
例2一個成年男子看著一個小孩在小溪里玩耍。
說明: 處于成年時段的男子
(2) 處所
詞1是處所名詞,表明詞2所處的空間地理位置。
例1四名年輕女子圍在廚房柜臺前,面前擺著一盤布朗尼蛋糕。
說明: 擺放在廚房的柜臺
例2古代亞歷山大的事件預計會對港口活動產(chǎn)生重大影響。
說明: 在港口舉辦的活動
(3) 名稱
詞1是專有名詞,包括人名、地名、國名、品牌名、機構(gòu)名等,處于限定語的位置,交代了詞2的國別、品牌、稱謂等信息。
例1我感覺卡文迪許太太把它藏起來了。
例2一個穿著紅色阿迪達斯運動衫,戴著紅色太陽鏡,戴著紅色帽子的男人穿過小鎮(zhèn)。
(4) 式樣
詞1表示詞2的款式、顏色、形狀、架構(gòu)等外部特征或表面形態(tài)。
例1一個穿著條紋襯衫的男孩牽著一條小狗。
說明: 襯衫的表面圖案呈條紋狀
例2一個女人在小亭子上裝飾著杯形蛋糕,旁邊的人仔細地觀察著這個技巧。
說明: 外觀形狀像杯子狀的蛋糕
例3旁觀者從露天看臺觀看時,一匹馬在競技場上搶走了它的騎手。
說明: 看臺的建筑架構(gòu)是露天無頂?shù)?/p>
(5) 材料
詞1是構(gòu)成詞2的原材料,詞2一般表示人工制成品。
例1如果粗糙的紡織品不吸引人,那么你也可以找到漂亮的刺繡品,比如棉布、亞麻桌布和餐巾。
說明: 用亞麻編織成的桌布
例2一個穿牛仔夾克的男人走過一個華麗的石頭拱門。
說明: 由石頭堆砌成的拱形門
(6) 并列
詞1和詞2的語義信息平行,語法地位等同,組合構(gòu)成并列。
例1一個金發(fā)碧眼的女人在俱樂部唱歌。
例2街坊鄰居現(xiàn)在最常一起做的娛樂就是到俱樂部來運動。
(7) 用途
詞1表示詞2產(chǎn)生的目的,即作何用處。
例1印第安納州正在研究文件匯編軟件,伊利諾伊州正在研究音頻視頻會議與文件匯編的結(jié)合。
說明: 用來對文件進行匯編的軟件
例2一個拿著購物袋的女人從地鐵旁走過。
說明: 購物時使用的專用袋子
(8) 領(lǐng)域
詞2通常是較為抽象或概括性較強的詞語,詞1表示詞2領(lǐng)域范圍中的一類或?qū)υ~2的具體化解釋說明。
例1一群足球運動員正在踢足球。
說明: 運動項目是踢足球的運動員
例2四名男性建筑工人站在一起,其中三名身穿黃色襯衫。
說明: 從事建筑行業(yè)的工人
(9) 內(nèi)容
一般詞2具有容載性,而詞1表示詞2的內(nèi)容或詞2所包含傳達的信息。
例195%的當?shù)匦侣剤蟮婪缸锖蜑碾y畫面,5%是可愛的動物片段。
說明: 呈現(xiàn)內(nèi)容是災難場景的畫面
例2她后來的表現(xiàn)打破了傳統(tǒng)黨外女性的參政經(jīng)驗,一改鮮明的受難者家屬形象,展現(xiàn)了女性政治人物的主體性。
說明: 有關(guān)于參政的經(jīng)驗
(10) 一般修飾
這一語義關(guān)系類別包括以上語義關(guān)系類型之外的其他所有可能類型,但主要是詞1表示詞2的屬性、類型或領(lǐng)屬,但也包含其他類別。
例如:
① 屬性:
例1畜牧業(yè)的過度發(fā)展還使大片草原變成沙漠。
說明: 大片的草原
例2審核員應使用他們的專業(yè)判斷,來確定溝通的形式和內(nèi)容。
說明: 專業(yè)的判斷
② 類型:
例1兩名男子玩電子游戲。
說明: 電子類的游戲
例2最近國際發(fā)布了全球三十八個國家的國中生自然科學和數(shù)學成績報告。
說明: 數(shù)學科目的成績
③ 領(lǐng)屬:
例1不但如此,肉食吃多了,動物脂肪會使血管漸漸失去彈性,久而久之極易引起動脈硬化,從而誘發(fā)高血壓和心臟病。
說明: 動物體內(nèi)的脂肪
例2每個人用左手按住飯盆或菜盆的邊兒,用右手手指抓自己面前的飯和菜,放入口中。
說明: 右手包括手指
④ 其他:
例1世平覺得單身女子需要這樣的設備。
說明: 處于單身狀態(tài)的女子
例2與其稱之為樂團,不如將她們看做美少女偶像團體。
說明: 走偶像路線的團體組合
基于2.2節(jié)中定義的語義關(guān)系體系,我們建立了一個語義關(guān)系知識庫。不同于現(xiàn)有知識庫,我們的知識庫同時提供句子和句子中復合名詞短語的邊界以及語義關(guān)系信息。構(gòu)建知識庫需要先收集大量的多領(lǐng)域句子,再經(jīng)過數(shù)據(jù)清洗和預篩選,得到待標注數(shù)據(jù),然后借助標注平臺,由標注員進行標注。標注員首先需要標識出基本復合名詞短語在句子中的位置,然后對其做語義關(guān)系分類。與此同時我們借助標注平臺對標注的質(zhì)量和一致性進行監(jiān)督。整個知識庫的構(gòu)建過程可以分為: (1)生語料收集和預篩選;(2)組織標注;(3)語料統(tǒng)計分析。
為了使最后的知識庫在有限數(shù)據(jù)量的情況下盡可能包含各種自然語言現(xiàn)象,同時體現(xiàn)語義關(guān)系的真實占比,我們收集了多個不同領(lǐng)域的無標注數(shù)據(jù),分別來自新聞、論壇、現(xiàn)代小說、現(xiàn)代散文、劇本、中小學語文課本等6個不同領(lǐng)域?;跇它c符號,對所有文本進行句子切分,篩除長度過長(超過100個字)和過短(不足10個字)的句子,最后得到約10萬句生語料。
由于生語料的規(guī)模比較大,為了提高知識庫建設的速度,減輕標注員的工作量,我們需要對生語料做預篩選,盡可能排除不包含復合名詞短語的語料。根據(jù)本文定義的基本復合名詞短語,限定詞和核心詞在語義依存分析結(jié)果中應當存在依存弧,又因為限定詞和核心詞主要為名詞和動詞,因此我們可以基于詞性標簽和依存弧對文本做進一步篩選過濾,最終我們篩選得到了約4.5萬句待標注的句子。
復合名詞短語知識庫的標注過程分為兩個子任務: 一是在句中確定有無基本復合名詞短語,如果有則需要標識出基本復合名詞短語的邊界,如果沒有則標“無NP”;二是對標識出的基本復合名詞短語做語義關(guān)系分類。
為了方便標注過程,我們開發(fā)了一個Web標注工具,同時組織5名語言學專業(yè)的碩士研究生進行標注工作。在正式標注前,對標注員進行了為期兩天的培訓,每個標注員試標500句,然后根據(jù)標注結(jié)果再進行統(tǒng)一修正。
標注過程如圖1所示。首先,將每一句待標注文本分別發(fā)送給A、B、C 3位標注員,3位標注員獨立完成所有標注后系統(tǒng)會自動計算結(jié)果的一致性。如果一致性大于或等于85%,則認為標注結(jié)果可靠,此時會隨機抽取一個人的標注結(jié)果作為最終標注結(jié)果,保存進知識庫。如果一致性小于85%,系統(tǒng)會將該文本自動發(fā)送給D、E兩位標注員,同時舍棄A、B、C的標注結(jié)果,由D、E做第二輪標注,然后系統(tǒng)計算第二輪的標注一致性,如果一致性大于90%,則認為標注可靠,此時會隨機抽取一個人的標注結(jié)果作為最終結(jié)果,存入知識庫。如果第二輪的標注一致性小于90%,則舍棄該文本。
在整個標注過程中,標注平臺會自動為標注員動態(tài)分配標注身份,標注員不知道自己處在第幾輪標注中,也無法看到其他標注員的標注結(jié)果,這樣就保證標注過程互不干擾,同時確保了標注一致性的可信度。
最終,我們得到了27 007條有效標注句子,整體復合名詞邊界一致性為96%,復合名詞語義關(guān)系一致性為87%。
標注完成之后,我們對知識庫進行了基本的統(tǒng)計分析。語料來源的分布情況如圖2所示。
圖2 基本復合名詞短語語料來源分布
圖3 基本復合名詞短語語義關(guān)系分布
語義關(guān)系分布如圖3所示,排名靠前的語義關(guān)系分別有: 一般修飾、內(nèi)容、名稱。一方面是因為我們的語料一半以上來源于新聞領(lǐng)域,新聞用語較為正式規(guī)范,構(gòu)成名詞短語的兩個成分呈領(lǐng)屬關(guān)系的可能性較大,而領(lǐng)屬關(guān)系包含在我們所定義的一般修飾關(guān)系當中,另一方面是因為一般修飾關(guān)系下關(guān)系類型較為錯綜復雜,構(gòu)成成分比較多,因此構(gòu)成復合名詞的兩個詞之間呈一般修飾關(guān)系較為普遍;其次占比較多的是“內(nèi)容”關(guān)系類型,這說明名詞短語的第二個詞表抽象概括性的居多,而第一個詞起縮小第二個詞范圍的作用,或代表第二個詞所指事物的領(lǐng)域;名詞的屬性就是具有指稱性,所有表名稱義的詞基本都是名詞,包括人名、地名、品牌名、行政單位名稱等,所以復合名詞短語的語義關(guān)系中表名稱語義關(guān)系的占比自然也是排在前位的。
我們對所有基本復合名詞短語的詞性組合分布進行了統(tǒng)計,如表1所示,數(shù)據(jù)結(jié)果和語義關(guān)系的分布占比結(jié)果具有一致性,兩個普通名詞進行組合的數(shù)量最多,大部分情況下構(gòu)成了“一般修飾”關(guān)系;名稱名詞和基本名詞組合構(gòu)成“名稱”語義關(guān)系,排第三位。
表1 基本復合名詞短語的詞性組合統(tǒng)計
由上可以初步推斷、“內(nèi)容”語義關(guān)系的基本復合名詞短語的構(gòu)成成分多包含動詞,因此我們進一步統(tǒng)計了名動詞和動詞在各個語義關(guān)系中的出現(xiàn)頻次,如圖4和圖5所示。動詞在一般修飾關(guān)系中出現(xiàn)最多,說明名詞位于動詞之前主要就是起修飾限定的作用,比如“國民儲蓄、常規(guī)表演、商務旅行”等,語法上這些組合中的第二個詞都是動詞,語義上屬于一般修飾關(guān)系中的被修飾成分;排第二位是“領(lǐng)域”,是因為動詞“比賽”在領(lǐng)域關(guān)系標簽中出現(xiàn)次數(shù)較多;動詞在“內(nèi)容”語義關(guān)系中的出現(xiàn)頻次也就較多,說明對于部分名詞性“N+V”短語,N是V的受事、對象。因此,當名詞位于動詞之前構(gòu)成一個名詞性短語時,名詞對動詞的語義特征主要有修飾限定、領(lǐng)域分類、受事對象。
名動詞的動作性較弱,具有名詞的某些特點,一般敘述的是某一類事物,可以被解釋為“關(guān)于V的N”,因此基本表示的是關(guān)于名詞的某些內(nèi)容,其次還有部分名動詞表示事物穩(wěn)固的功能屬性,例如“實驗設備、分析方法”等,因此在用途語義關(guān)系中也有出現(xiàn)。
圖4 動詞在語義關(guān)系中的分布情況
圖5 名動詞在語義關(guān)系中的分布情況
為了進一步研究該知識庫對自然語言處理任務的幫助,我們初步嘗試了基于知識庫對基本復合名詞短語進行自動定界和自動語義分類的任務。由于該知識庫中不同語義關(guān)系的數(shù)據(jù)量差異較大,同時復合名詞的語義分類需要較多的語言學知識,因此自動定界和語義分類任務具有一定的挑戰(zhàn)性。
我們將基本復合名詞短語的定界和語義分類建模為一個序列標注任務[28]。對于輸入句子X=x1,x2,x3,…,xn,模型需要為序列中的每個詞(或者字)預測出對應的標簽Y=y1,y2,y3,…,yn,其中yi∈{B,I,O}。BI標簽同時帶有語義關(guān)系分類標簽。這樣,我們就將復合名詞定界與語義關(guān)系分類組合為一個序列標注任務。同時,我們將標注后的知識庫導出為序列標注格式文件,采用BIO標注體系。然后隨機打亂順序,劃分為訓練集、驗證集和測試集。整個數(shù)據(jù)集的統(tǒng)計結(jié)果如表2所示。
表2 數(shù)據(jù)集基本信息
我們選擇基于上下文語境詞向量BERT+雙向LSTM+CRF[29]的模型作為實驗的強基線模型,如圖6所示,整個模型包含三個部分: BERT編碼層、雙向LSTM表示層、CRF解碼層。
圖6 基線模型網(wǎng)絡示意圖
我們使用Google開源的中文字符級預訓練BERT模型,使其首先在超大規(guī)模的語料上進行預訓練,得到良好的語義表示能力之后再將其接入到下游任務中充當表示層或者編碼層。不同于傳統(tǒng)的Word2Vec或者GloVe詞向量模型,BERT輸出的詞(字)向量考慮了句子的語境,能夠更好地表示詞(字)的多義現(xiàn)象和語境信息。
之后我們連接一層雙向LSTM作為深度表示層,通過復合名詞定界和語義分類任務的訓練,表示層能夠從BERT的豐富語義中有效抽取對我們?nèi)蝿照嬲行У男畔?,同時舍棄不必要的干擾信息。最后我們接入一層CRF解碼層,CRF能夠建模條件概率P(y|x),在解碼時,CRF利用上下文信息作為特征,同時執(zhí)行全局歸一化,能夠更好地預測標簽序列。
從表3可以看出,我們的模型整體識別能力仍有很大提升空間,大部分類別的F1得分都較低,最高值為“式樣”語義關(guān)系,最低值為“并列”語義關(guān)系。從召回率和精準率上看,大部分語義關(guān)系的召回率都明顯低于精準率,說明模型在識別正例的時候過于嚴格。根據(jù)數(shù)據(jù)集的特點,我們認為現(xiàn)有模型的問題主要有:
(1) 在一層CRF中同時解碼復合名詞的邊界和語義關(guān)系,難度較大;
(2) 對于不同語義關(guān)系的區(qū)分,缺少背景知識,由模型直接做10分類難度很大;
(3) 數(shù)據(jù)集分布不平衡,部分語義關(guān)系的數(shù)據(jù)較少,模型難以學習到差別。
表3 實驗結(jié)果
基于強基線模型的結(jié)果和錯誤分析,我們認為,復合名詞短語的定界和語義分類是一項具有一定挑戰(zhàn)性的任務,未來的模型嘗試可以考慮如下幾個方向:
(1) 拆分定界任務和語義關(guān)系識別任務,采用多任務模型聯(lián)合學習;
(2) 引入語言學背景知識,提升模型的語義分類能力;
(3) 基于偽數(shù)據(jù)增強的方式,緩解數(shù)據(jù)集的不平衡問題;
(4) 基于few-shot學習的方式,緩解少樣本下的學習困難問題。
本文從來自多個領(lǐng)域的句子中標識包含動詞的基本復合名詞短語,基于北京大學《現(xiàn)代漢語語義詞典》的語義類并作修改建立了基本復合名詞短語的語義關(guān)系體系,對標識出的短語進行語義關(guān)系標注,構(gòu)建一個語義知識庫?;谠撝R庫做了詞性和語義類型的統(tǒng)計分析,并用BERT和雙向LSTM+CRF的強基線模型對基本復合名詞短語進行定界和語義分類,希望為以后復合名詞短語語義關(guān)系的研究提供語言資源方面的支持,為今后對復合名詞短語的定界識別和自動語義分類提供幫助。
語義關(guān)系體系中,一般修飾的包含成分較為復雜多樣,導致不同語義關(guān)系類的數(shù)據(jù)差異性明顯,直接影響了后期的模型試驗結(jié)果,所以其下位關(guān)系還需進一步探討研究。此外,動詞作為復合名詞短語的構(gòu)成成分,其自身的語義特征對短語內(nèi)部成分的語義關(guān)系具有非常重要的意義,我們還需盡量多地收集包含動詞的名詞性短語,逐步完善各種組合形式的復合名詞短語研究。下一步工作的重點是對一般修飾類的語義關(guān)系進行進一步的梳理切分,逐步完善語義關(guān)系類別,對語料來源再擴大范圍,盡量使知識庫中的復合名詞短語更具代表性。