国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多語言預訓練模型的緬甸語分詞研究

2024-06-03 05:04:11張嘯巖張慧陳宇
電腦知識與技術 2024年11期
關鍵詞:自然語言處理語料庫

張嘯巖 張慧 陳宇

摘要:緬甸語屬于低資源語言,收集大量緬語文本進行預訓練是一項耗時耗力的工作。目前已存在一些在多種語言(包括緬甸語)上預訓練的模型,例如bert-base-multilingual-cased和xlm-roberta-base。因此,文章提出了一種新方法,即在多語言(包括緬甸語)預訓練模型的基礎上,利用緬語文本進行再預訓練,以提升模型的分詞性能。首先,構建了緬語預訓練語料庫,并使用它制作了一個僅包含緬甸語的tokenizer。然后,重置了多語言預訓練模型的詞嵌入層和位置編碼層,并在重置后的多語言預訓練模型上使用自制的tokenizer加入緬語預訓練語料庫進行再預訓練。最后,在自建的以及公開的分詞標注數(shù)據(jù)集上進行了微調。與未進行再預訓練的情況相比,模型在F1值上分別提高了2.23%和1.2%,且自建數(shù)據(jù)集的提升幅度高出公開數(shù)據(jù)集的1.34%。

關鍵詞:緬甸語;自然語言處理;自動分詞;Roberta;語料庫

中圖分類號:TP391 文獻標識碼:A

文章編號:1009-3044(2024)11-0022-07

猜你喜歡
自然語言處理語料庫
《語料庫翻譯文體學》評介
基于語料庫“隱秘”的詞類標注初步探究
把課文的優(yōu)美表達存進語料庫
基于組合分類算法的源代碼注釋質量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學規(guī)范化
求知導刊(2016年10期)2016-05-01 14:09:25
漢哈機器翻譯中的文字轉換技術研究
HowNet在自然語言處理領域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)
漯河市| 普定县| 循化| 神池县| 英山县| 金乡县| 崇仁县| 内丘县| 苍溪县| 原平市| 株洲县| 洛川县| 南宫市| 五大连池市| 定边县| 海原县| 庆阳市| 合作市| 张北县| 将乐县| 武冈市| 肥东县| 饶阳县| 八宿县| 随州市| 洞头县| 泾川县| 自贡市| 儋州市| 梨树县| 武清区| 佛山市| 同心县| 昌乐县| 绿春县| 长海县| 津市市| 澄江县| 庄浪县| 师宗县| 阳山县|