張嘯巖 張慧 陳宇
摘要:緬甸語屬于低資源語言,收集大量緬語文本進行預訓練是一項耗時耗力的工作。目前已存在一些在多種語言(包括緬甸語)上預訓練的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一種新方法,即在多語言(包括緬甸語)預訓練模型的基礎上,利用緬語文本進行再預訓練,以提升模型的分詞性能。首先,構建了緬語預訓練語料庫,并使用它制作了一個僅包含緬甸語的tokenizer。然后,重置了多語言預訓練模型的詞嵌入層和位置編碼層,并在重置后的多語言預訓練模型上使用自制的tokenizer加入緬語預訓練語料庫進行再預訓練。最后,在自建的以及公開的分詞標注數(shù)據(jù)集上進行了微調。與未進行再預訓練的情況相比,模型在F1值上分別提高了2.23%和1.2%,且自建數(shù)據(jù)集的提升幅度高出公開數(shù)據(jù)集的1.34%。
關鍵詞:緬甸語;自然語言處理;自動分詞;Roberta;語料庫
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)11-0022-07