何東 于曉昕 葉子銘 于中華 陳黎
摘 要: 抽取式閱讀理解是自然語(yǔ)言處理的重要任務(wù),需要機(jī)器在閱讀理解自然語(yǔ)言文本的基礎(chǔ)上,從中抽取給定問(wèn)題的答案(輸入文本中的片段),并在問(wèn)題不可回答時(shí)拒絕回答. 這種不可回答情況的存在使機(jī)器閱讀理解更具有挑戰(zhàn)性,特別是在輸入文本含有似是而非文本片段時(shí),現(xiàn)有模型很容易將這樣的片段混淆為問(wèn)題答案,進(jìn)而錯(cuò)誤判斷問(wèn)題的可回答性. 為了進(jìn)一步提高抽取式機(jī)器閱讀理解模型的效果,本文將SQuAD 2. 0 數(shù)據(jù)集中的似是而非答案看成對(duì)抗樣本,將其既作為答案文本片段抽取的正例,也作為問(wèn)題可回答性的負(fù)例,在現(xiàn)有模型答案交叉熵?fù)p失的基礎(chǔ)上增加排序損失. 在SQuAD 2. 0 上進(jìn)行的實(shí)驗(yàn)表明,本文方法可以提高現(xiàn)有模型的閱讀理解能力,明顯提升可回答性判斷及答案文本片段抽取的效果.
關(guān)鍵詞: 閱讀理解; 不可回答問(wèn)題; 對(duì)抗樣本
中圖分類(lèi)號(hào): TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 022001