譚紅葉,郭少茹,陳 鑫,王素格,李 茹,2,張 虎,楊陟卓,陳 千,錢揖麗,王元龍,關 勇,呂國英
(1. 山西大學 計算機與信息技術學院,山西 太原 030006; 2. 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006 )
面向人類的標準化測試被認為是人工智能領域的一個挑戰(zhàn)性問題[1-2],這類測試通過提供多樣化的問題,考察被測試者掌握的各種知識與能力,如語言理解、數學計算、邏輯推理、常識建模等。雖然目前對機器智能沒有嚴格給出定義,但人們對類人機器智能期待的目標之一是: 像人一樣回答各種各樣的問題,并通過標準化測試。
為了促進機器智能向類人智能邁進,研究者提出了利用標準化測試對機器智能進行有效和實用的評價,各國政府或研究機構也設立了許多相關項目,旨在讓機器通過面向人的標準化測試。例如,美國艾倫人工智能研究所設立的“Aristo”項目[3],日本國立情報學研究所曾開展的“東大機器人項目”(Todai Robot Project)[4],以及我國政府推出的以高考試題為測試背景的“基于大數據的類人智能關鍵技術與系統(tǒng)”項目[5]。
閱讀理解任務是給定一篇文本,要求測試者根據文本的內容對相應問題做出回答。該任務不僅是標準化測試的一項重要內容,而且能夠客觀反映并促進機器智能的發(fā)展,因此,近幾年受到學術界和企業(yè)界廣泛關注,已成為自然語言處理領域一個重要的研究分支。例如,微軟、谷歌、百度、斯坦福大學、卡耐基梅隆大學等頂級 IT 公司與大學分別創(chuàng)建并發(fā)布各自的閱讀理解測試數據集[6-17](如: MS-Marco、CNN/DailyMail,Dureader、SQuAD、HotpotQA、MCTest等)以推動相關技術的發(fā)展。在這些數據集的支持下,研究者提出了一系列基于深度學習的閱讀理解模型和算法,并取得了令人振奮的進展。例如,一些深度學習模型在 SQuAD 數據集上的性能已經超越人類的表現。然而,這些數據集任務要么相對簡單,要么偏重于某一方面的理解或推理能力。因此,模型所具備的語言理解能力與人的期望相差很遠。
近幾年,山西大學中文信息處理團隊在科技部項目“基于大數據的類人智能關鍵技術與系統(tǒng)”的支持下,面向高考語文閱讀理解任務,針對類型更豐富、更具挑戰(zhàn)性的復雜語言問題,在語義表示、候選句抽取、鑒賞分析等閱讀理解核心任務上進行了重點研究,并構建了包含多個答題引擎的現代文閱讀理解答題系統(tǒng)。
本文將詳細介紹這些研究內容,組織結構安排如下: 第1節(jié)分析高考語文閱讀理解任務的特點;第2節(jié)介紹構建的閱讀理解答題系統(tǒng);第3節(jié)針對系統(tǒng)進行了實驗,并對實驗結果進行分析;最后給出項目組對閱讀理解未來研究的思考與展望。
高考語文現代文閱讀理解要求考生能根據不同閱讀目的,針對閱讀材料特點,運用恰當方法閱讀多種文本,并回答相關問題。以北京高考為例,通過分析近10年高考語文閱讀理解題目,發(fā)現其特點與難點主要體現在以下幾個方面。
高考語文現代文閱讀理解體裁主要包括科技文和散文。科技文閱讀材料多為最新的科學技術、研究及發(fā)現等內容。例如,2021年為“人工智能深度學習技術”,2020年為“嫦娥四號”和“玉兔二號”,2019年為“城市化與生物多樣性”。散文閱讀材料涉及許多作家的文學作品,2021年為作家牛漢的散文“心靈的呼吸”,2020年為作家沈從文先生的“從音樂和美術認識生命”,2019年為作家趙園的“北京的大與深”。這些材料的主題、用詞與寫作風格迥然不同,已有的詞典與訓練語料無法做到全覆蓋。
閱讀理解題目從形式上看主要包括選擇題和問答題,從內容上看主要包含: 文中重要詞語、句子的理解和解釋;文中信息的分析、篩選、整合、運用;對多個信息的比較、辨別,文本結構、作者思路的梳理和分析;文本內容的歸納和概括;作者思想感情、觀點態(tài)度的理解、分析和概括;依據文本內容進行的合理推斷;文學作品思想內容、作者情感的把握和評價;文學作品語言、表現手法和藝術形象的賞析(如2016年24題為: 文章第四段運用了多種手法,表達了作者對老腔的感受。請結合具體語句加以賞析);從不同角度和層面對文本內容或形式的體察、闡發(fā)和評價(如2017年23題為: 文章敘寫了瑪利亞烏熱爾圖和走出山林的人們,請分別概括他們各自: 根河之戀的表現。作者這樣構思體現了怎樣的匠心?);基于知識積累和生活經驗對文本意蘊的思考、領悟和闡釋(如2019年21題為: 試借助這種由表及里的感知方式,來談談你對自己所生活的周邊世界(如城鎮(zhèn)、社區(qū)、學校、 家庭等)的認識與思考)。
可以看出,閱讀理解類考題要求考生從不同層面、不同角度把握作品的基本內容、寫作手法、結構安排與情感主旨。
我們將閱讀理解高考語文并解答提問所需的能力總結歸納為以下3個層次。
層次1: 文本細節(jié)信息的捕獲與理解,具體表現為細節(jié)推理能力。從高考題目表現形式來看,主要指區(qū)分選項與原文之間的細微語義差異的題目。這類題目的選項與原文在大多時候詞重疊程度很高,僅存在一些如修飾語、數量詞方面的細微差異。
層次2: 文本局部信息的整合與推理,具體表現為句子之間不同語義關系的理解。
層次3: 全局信息的整合與推理,具體表現為對整個文本主旨思想、組織結構、作者情感與態(tài)度的理解。
結合高考語文題目特點,基于閱讀理解核心技術,構建了高考語文閱讀理解答題系統(tǒng)。該系統(tǒng)包含資源層、技術層、引擎層以及展示層,如圖1所示。
圖1 高考語文閱讀理解答題系統(tǒng)架構
資源層為高考語文閱讀理解自動解答提供資源支持,主要包括兩類資源: 一類是自然語言領域中已有的資源,如同義詞庫、HowNet等;另一類是針對高考語文閱讀理解問題構建的特色資源,包括試題庫(科技文題目總數為16 096,散文題目總數為7 916)、漢語框架語義知識庫(框架總數為1 320個,詞元總數為21 145個,例句總數為19 165句,篇章總數為1 002篇)、表現手法庫(1 025條)、修辭格庫(15 117條)、語言風格庫(7 064條)、規(guī)模為近20萬條的情感詞典、意向知識庫(1 224條)等。這些特色資源都是從文本中自動抽取樣例,再經過人工標注與校對建立而成。
技術層為高考閱讀理解自動答題提供技術支持。本文將閱讀理解相關技術分為兩類: ①NLP基礎技術,該類技術為自然語言領域中相對成熟的技術,如分詞、詞性標注、句法分析等; ②閱讀理解關鍵技術,指實現高考閱讀理解自動解答必不可少且具有特色的技術,如文本語義表示、候選句抽取、鑒賞分析等技術。
其中,候選句抽取技術作為閱讀理解基礎技術,為各個答題引擎提供基礎技術支撐。文本表示技術主要基于句法框架語義等多源信息,增強科技文選擇題和問答題的解答。鑒賞分析技術從語言鑒賞的角度,支撐散文鑒賞題的解答。
引擎層通過將不同核心技術進行有效結合,實現對高考語文閱讀理解問題的自動解答。核心引擎包括: 科技文選擇題引擎、科技文問答題引擎、散文選擇題解答引擎(文意理解選擇題引擎、詞義辨析題引擎)、散文問答題解答引擎(理解概括題引擎、語言鑒賞題引擎)等。
展示層通過多種方式、多種途徑呈現系統(tǒng)的答題結果,包括: Web在線答題、在線測試、人機交互問答、答題應用程序、過程演示、答題診斷分析等。
2.2 閱讀理解關鍵技術2.2.1 基于框架的文本語義表示
閱讀理解材料體裁多樣、風格迥異,因此如何有效獲取不同主題、不同風格的文本語義表示是解答問題的前提與挑戰(zhàn)。針對該問題,本文提出了基于框架的文本語義表示技術,旨在利用場景信息獲取文本的語義表示。
基于框架的句子表示句子語義表示是機器閱讀理解核心關鍵技術。針對如何有效利用知識進行句子語義表示問題,我們提出了基于框架的句子表示模型,通過建模句子蘊含的框架語義場景圖式化信息,達到豐富句子語義信息的目的。利用框架關系建模文本中框架間的語義關聯,采用聚合函數將句子的多個框架語義結構信息進行有效集成,獲取包含框架語義信息的句子表示[18]。相關實驗表明,該方法能有效提升機器閱讀理解模型對文本語義場景的理解能力。
融合句法和框架的句子表示句法和語義信息是句子理解的重要組成部分。針對如何構建多源知識表示學習模型問題,提出了基于句法和框架語義的句子表示模型,通過將句法和框架映射到相同的語義空間,實現句法和框架聯合增強的句子表示。采用位置感知融合方法,充分利用句子中每個標記的句法和框架語義信息,獲取同時蘊含句法和框架信息的句子表示[19]。相關實驗表明,句法和框架語義信息能有效提升模型的閱讀理解性能。
2.2.2 候選句抽取
從形式上,閱讀理解材料篇幅過長,包含大量與解題無關的冗余信息,因此如何有效篩選材料關鍵信息,進而對問題進行解答,顯得尤為重要。從內容上看,閱讀理解任務考察了系統(tǒng)對信息的篩選、整合等能力。候選句抽取作為一種可以有效建模重要信息的技術,為解答閱讀理解問題提供重要技術支撐。
基于框架語義的候選句抽取通過抽取與問題相關的候選句,可有效減少噪聲數據對模型的影響。針對候選句抽取,我們提出了基于框架語義的候選句抽取方法,通過分析句子所涉及的語義場景,得到句子間的語義關系。利用框架詞元庫標注選項和句子的目標詞和框架,根據標注結果計算框架之間的相關性和目標詞之間的關系,抽取與問題語義一致的句子作為候選句[20]。
基于多模塊聯合的候選句抽取針對候選句數據集中存在正負樣本不均衡及多步推理問題中的候選句難以直接抽取的問題,提出了基于多模塊聯合的候選句抽取模型。首先采用部分標注數據微調預訓練模型;然后通過TF-IDF遞歸式抽取多步推理問題中的候選句;最后結合無監(jiān)督方式進一步篩選模型預測結果,降低冗余性。該方法從相關性、覆蓋率、冗余性三個角度提升候選句抽取的效果,有效抽取出與選項相關的候選句[21]。
基于網絡圖答案句抽取為了正確抽取隱含答案句,我們提出基于網絡圖的方法。通過建模問句與候選句之間的語義、邏輯關系,對答案句進行分析、篩選和推理。構建問句與候選答案句的關聯矩陣,該矩陣不僅包括問句和候選句之間的問答語義關聯,同時包括候選句之間的篇章語義關聯;綜合利用各種語義關系對候選句進行全局優(yōu)化排序;最后選取分數最高的Top-6候選句作為最終的答案句[22]。
2.2.3 鑒賞分析
語言鑒賞問題是在理解文本語義的基礎上,針對文本采用的語言技巧等多種手法進行賞析。因此,需要從語言學及認知學等多個角度,針對修辭格及隱喻識別開展相關的研究,支撐該類題目的解答。
基于多任務學習的修辭格及情緒識別方法文學作品常利用修辭格增強語言表達效果,含蓄地傳遞創(chuàng)作者的情緒。修辭格與情緒識別是語言鑒賞過程中的核心任務。通過數據統(tǒng)計發(fā)現,修辭格與情緒類別間具有強關聯性。因此,針對數據的這一特性,提出了一種基于多任務學習的修辭格及情緒識別方法,使兩個識別任務的性能相互促進。具體地,在句子語義及句法表示的基礎上,分別設計修辭格及情緒分類器,獲取句子的修辭格及情緒關聯分布表示,并提出融入關聯表示的修辭格與情緒的多標簽預測,從而得到句子的修辭格及情緒標簽集[23]。
基于語義場景不一致的隱喻序列標注方法隱喻是認知領域中利用具體概念理解抽象概念的一種機制。文學作品中常利用隱喻形象地刻畫抽象概念,為文本的語義理解帶來了很大的挑戰(zhàn)。然而,前人的研究忽略了隱喻句中詞語語義場景不一致的特性。因此,提出了一種基于語義場景不一致的隱喻序列標注方法,通過度量句子中詞語間的語義場景不一致,提升隱喻詞語的識別效果。具體地,設計抽象分布表示刻畫句子中每個單詞的語義場景,利用分布表示間的距離衡量詞語的語義場景不一致,并將其作為損失函數的正則項,使得模型更準確地識別句子中的隱喻詞[24]。
科技文選擇題解答引擎科技文選擇題基于對文章的理解從多個選項中選出最佳答案。首先,利用多模塊聯合的候選句抽取方法獲取與問題相關的候選句;其次,通過詞性標注工具標注句中的名詞成分,結合句法分析將句中名詞成分及與其具有直接句法關聯的元素抽出,名詞與其具有直接句法關聯的元素一同組成關鍵元素圖節(jié)點;然后,使用GAT(Graph Attention Networks)[25]對關鍵元素圖中的節(jié)點進行學習,將所得的圖節(jié)點表示融入BERT,得到文本增強表示;最后將信息輸入模型表示層,進而預測問題答案[26]。
科技文問答題解答引擎科技文問答題需要抽取文章中與問題相關聯的內容,并對相關聯的內容進行理解與分析,進而歸納概括出問題答案。首先,采用基于框架語義的候選句抽取方法獲取候選句與問句之間的語義關聯;其次,利用基于圖網絡答案句抽取技術獲取問題的答案,構建基于圖神經網絡的異構網絡圖,將豐富的節(jié)點(句子節(jié)點、詞語節(jié)點)和節(jié)點之間的關系(框架關系、篇章主題關系)引入圖神經網絡模型;然后,采用GAT對圖中的關鍵節(jié)點進行表示學習,在網絡圖中,問句與候選句節(jié)點不僅可以通過中繼節(jié)點交互,還可以通過框架語義和篇章主題關系相互更新;最后,將候選句節(jié)點的表示輸入模型預測層,把分數最高的6個候選句標記為答案句。
散文選擇題解答引擎主要解答兩類選擇題: ①文意理解題,需要通過分析文本與選項之間的語義蘊含關系來選取問題的答案。首先,將文本的詞性特征、命名實體特征、字符嵌入特征等多特征進行聚合;其次,采用雙向GRU網絡完成對文本序列的上下文嵌入表示;再次,利用多重注意力[27]機制對候選句抽取和蘊含分析進行聯合建模;最后,使用多向匹配策略[28]進行特征融合,通過對矩陣進行聚合及歸一化處理,得到最終的蘊含分數。實驗結果顯示,本文模型能有效消除pipeline方法的誤差累積問題。②詞義辨析題,指給定目標詞及其釋義,判斷該釋義是否符合目標詞所在上下文。采用基于語義與情感一致性的計算方法,首先,對文檔與選項進行預處理,選取被抽取詞語所在句子及上下各一句作為所需要的語境;然后,計算被解釋詞語所在句子與釋義替換后句子的語義相似度,并加入情感極性和上下文修飾語信息進行輔助判別;最后,根據最終分數進行排序,得到詞義辨析的最佳答案[29]。
散文問答題解答引擎主要解答兩類問答題: ①理解概括題。根據問題,結合背景材料概括生成答案。首先,通過LDA進行主題聚類,并結合詞性、詞頻等特征篩選,將問題與背景材料詞語進行主題關聯;然后,利用Word2Vec進行語義相似度計算,獲取擴展主題詞;最后,在問題解答過程中,依據問題關聯的主題詞,與背景材料句子進行相似度計算,從而獲取問題的答案句。②語言鑒賞題,針對特定文本,從語言風格、修辭格、隱喻及寫作手法等多個角度進行鑒賞,并結合答題模板生成答案。首先,對特定文本,利用基于多任務學習的修辭格及情緒識別方法與基于語義場景不一致的隱喻序列標注方法,分別進行語言技巧識別;然后,依據識別結果及問題包含的語言風格、修辭格及寫作手法類別,抽取系統(tǒng)知識庫中相應模板,融合生成最終答案。
為了對比本文系統(tǒng)與基線模型,我們構建了一個數據集GCRC(A New MRC Dataset from Gaokao Chinese for Explainable Evaluation)[30]。該數據集包含5 000多篇文本、8 700多道選擇題(含近15 000個選項)。所有題目均來自近10年的高考測試題,題目質量高,但難度大。具體信息如表1所示。
表1 GCRC數據集相關信息
3.2.1 選擇題總體實驗結果
表2在GCRC數據集上對比了本文構建的系統(tǒng)和現有基線模型的答案準確率。與目前性能最優(yōu)的XLNet相比,本文構建的系統(tǒng)獲得了明顯的性能提升。
表2 GCRC數據集實驗結果
3.2.2 高考科技文與散文具體得分結果
我們還進一步分析了系統(tǒng)在高考科技文和散文閱讀理解上的具體得分與表現。
(1) 科技文實驗結果分析
表3展示了系統(tǒng)在2016—2020年高考真題及模擬題上的答題效果?,F階段科技文選擇題答題引擎在文本細節(jié)信息的捕獲與理解上效果比較好,如2020年第3題,對“月背遙操作技術五個部分”的理解,選項D“休眠、喚醒: 受月球環(huán)境影響,玉兔二號需在每個地球日休息半日、工作半日”,原文信息為“休眠和喚醒與月球的環(huán)境有關。月球的一天為 27個地球日左右……為確保安全,在月夜到來之前,需讓月球車車體……進入休眠狀態(tài)”,系統(tǒng)通過分析“地球日”與“月球日”之間的差異,給出問題的答案?,F階段科技文問答題答題引擎能夠利用相關句抽取技術從文章中抽取與問題相關的句子,如模擬測試卷E中問答題,“結合以上三則材料,談談實施鄉(xiāng)村振興戰(zhàn)略需要哪些方面共同努力?并簡述各方面所起的作用”,系統(tǒng)總結出三篇材料的核心內容并進行歸納,答案涵蓋了實施鄉(xiāng)村振興戰(zhàn)略三個方面內容及其作用,與題目要求一致。
表3 高考語文科技文自動答題系統(tǒng)得分
(2) 散文實驗結果分析。
表4展示了系統(tǒng)在2016—2020年高考真題及模擬題上的答題效果。答題系統(tǒng)在散文閱讀理解中,具備結合問題從背景材料中篩選信息的能力。如2017年20題選項A“傳統(tǒng)的鄂溫克人生活在山里,以打獵為生,馴鹿是他們生活、勞動的重要幫手”;2019年20題的簡答題,根據題干: 作者為什么說“你在沒有走進這些胡同人家之前,關于北京文化的理解,是不便言深的”?請結合上下文具體說明。答題系統(tǒng)可以正確從文中抽取答案支撐句。但是散文文體語言抽象,題目包含對背景材料深度概括、主旨抽取及其語言鑒賞等多種題型。目前系統(tǒng)依賴抽取相關句設計答題模板,針對不同題型給出相應的答案。目前對于高度抽象的選項,涉及主旨概括、標題理解、不常用修辭格鑒賞的簡答題,答題結果不盡人意。
表4 高考語文散文自動答題系統(tǒng)得分
3.3.1 選擇題錯誤分析
通過對回答錯誤的選擇題進行分析,本文將系統(tǒng)回答錯誤的題目劃分為3種類型,如表5所示。
表5 選擇題錯誤題目示例
續(xù)表
(1) 外部知識或常識類選項。該類問題需要模型利用外部常識知識,結合文本內容找到符合文章主旨或特定要求的選項。此類題目要求模型具有外部知識理解能力。例如,表5中第1題,需要系統(tǒng)對選項中成語與文本語義對比分析,選出正確答案。由于模型難以正確理解“身臨其境”等成語的語義,因此不能正確回答該類題目。
(2) 概括分析類選項。該類題目需要模型對文章有多層次的解讀與歸納(如文章主旨、段落大意等)。例如,表5中第2題,需要從文章的2、3、4段歸納出“國外媒體關注點”,然后與選項中內容匹配,選出正確答案。由于模型現有答題流程中缺少對文章層次結構的分析,因此難以回答該類題目。
(3) 時間推理類選項。該類題目需要模型從原文多個事件涉及的時間中推理某個事件的發(fā)生時間。此類題目要求模型具有時間推理能力。例如,表5中第3題,需要從“蛟龍?zhí)栂聺摰?759米”的時間“2010年”與“蛟龍?zhí)栂聺摰? 000米”的時間“2011年7~8月”,推理出題干中的“蛟龍?zhí)柺状蜗聺摰? 000多米”的時間為“2011年”。由于模型尚不具有時間推理能力,所以回答錯誤。
3.3.2 簡答題錯誤分析
針對系統(tǒng)在高考閱讀理解簡答題上的解答結果,將其失分原因劃分為兩種類型。具體示例如下:
問題: 【2017年北京高考】23.文章敘寫了瑪利亞烏熱爾圖和走出山林的人們,請分別概括他們各自: 根河之戀的表現。作者這樣構思體現了怎樣的匠心?
系統(tǒng)答案: 烏熱爾圖是根河的兒子; 出乎意料的是,烏熱爾圖后來辭去京官重返故鄉(xiāng); 烏熱爾圖在回到草原以后的日子里,完成了《呼倫貝爾筆記》等一系列著作和攝影作品,那是他數十載的文化尋根,是他作為一個鄂溫克的兒子,對母親的深情眷戀與報答; 生活在根河的大多數鄂溫克人戀戀不舍地告別了山林,將更多的空間留給了無邊的草木以及馴鹿、黑熊、狼、灰鼠和蝴蝶; 在離城市不遠的一個地方,新建了童話般的家園,這座小城就叫了根河; 走到窗前一看,根河就在眼前,河對面的廣場上已經有許多人在翩翩起舞,似乎這個小城的人都聚集在此了。
標準答案:
表現: 瑪麗亞索——恬然的生活在鹿群里
烏熱爾圖——辭去京官重返故鄉(xiāng)
走出山林的人們——將更多的空間留給無邊的草木和動物,對根河對、自然的摯愛。
匠心: 他們代表了鄂溫克人幾種典型的生活狀態(tài),雖然生活方式和具體做法不同,但是都表現出對根河、對大自然的無限深摯的愛戀。
(1) 系統(tǒng)答案缺乏概括。答題系統(tǒng)抽取出烏熱爾圖與走出山林的鄂溫克人對根河表現的支撐句,但未對其做進一步概括。
(2) 系統(tǒng)未能挖掘深層主旨信息。對于題干“構思體現了怎樣的匠心”,系統(tǒng)缺乏對背景材料深層主旨信息的提煉。
面向人類的標準化測試是人工智能領域一項長期的挑戰(zhàn)性任務。本文針對高考語文閱讀理解核心技術與答題系統(tǒng)進行研究,在相關數據集上取得了一定效果,表明系統(tǒng)可以獲得一定程度的語言理解與推理能力,但該項研究只是邁向類人語言理解道路上的第一步,未來還需要深入研究更有效的語義表示方法與模型,探索不同類型知識的統(tǒng)一表征與知識聚合方法,探究對抗學習、遷移學習等前沿技術在閱讀理解中的應用,促進模型具備融入外部知識的復雜綜合推理能力、概括分析能力、語言鑒賞能力。