国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

<del id="smu6s"></del>

?

基于多語言預訓練模型的緬甸語分詞研究

2024-06-03 05:04:11張嘯巖張慧陳宇

電腦知識與技術 2024年11期

關鍵詞：自然語言處理語料庫

張嘯巖張慧陳宇

摘要：緬甸語屬于低資源語言，收集大量緬語文本進行預訓練是一項耗時耗力的工作。目前已存在一些在多種語言（包括緬甸語）上預訓練的模型，例如bert-base-multilingual-cased和xlm-roberta-base。因此，文章提出了一種新方法，即在多語言（包括緬甸語）預訓練模型的基礎上，利用緬語文本進行再預訓練，以提升模型的分詞性能。首先，構建了緬語預訓練語料庫，并使用它制作了一個僅包含緬甸語的tokenizer。然后，重置了多語言預訓練模型的詞嵌入層和位置編碼層，并在重置后的多語言預訓練模型上使用自制的tokenizer加入緬語預訓練語料庫進行再預訓練。最后，在自建的以及公開的分詞標注數(shù)據(jù)集上進行了微調。與未進行再預訓練的情況相比，模型在F1值上分別提高了2.23%和1.2%，且自建數(shù)據(jù)集的提升幅度高出公開數(shù)據(jù)集的1.34%。

關鍵詞：緬甸語；自然語言處理；自動分詞；Roberta；語料庫

中圖分類號：TP391 文獻標識碼：A

文章編號：1009-3044（2024）11-0022-07

猜你喜歡

自然語言處理語料庫

《語料庫翻譯文體學》評介

天津外國語大學學報(2020年1期)2020-03-25 13:29:26

基于語料庫“隱秘”的詞類標注初步探究

廣東蠶業(yè)(2019年3期)2019-05-14 05:37:40

把課文的優(yōu)美表達存進語料庫

作文評點報·低幼版(2017年13期)2017-04-18 18:15:11

基于組合分類算法的源代碼注釋質量評估方法

計算機應用(2016年12期)2017-01-13 01:24:36

面向機器人導航的漢語路徑自然語言組塊分析方法研究

電腦知識與技術(2016年10期)2016-06-16 21:16:32

詞向量的語義學規(guī)范化

求知導刊(2016年10期)2016-05-01 14:09:25

漢哈機器翻譯中的文字轉換技術研究

電腦知識與技術(2016年5期)2016-04-14 11:12:38

HowNet在自然語言處理領域的研究現(xiàn)狀與分析

科技視界(2016年5期)2016-02-22 11:41:39

基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)

語言與翻譯(2015年4期)2015-07-18 11:07:45

基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設計與實現(xiàn)

電腦知識與技術(2015年11期)2015-06-24 11:51:27

電腦知識與技術2024年11期

電腦知識與技術的其它文章: 基于小學生計算思維培養(yǎng)的項目式教學模式構建與實踐研究; BOPPPS 參與式課程思政教學案例設計; 混合式BOPPPS 教學模式的Scratch 編程教學設計; CDIO-OBE 工程教育理念下的Java程序設計課程改革探析; 信號處理類課程教學中信號頻譜的對偶性總結; 新工科背景下Multisim 在電工電子技術課程教學中的應用研究

漯河市| 普定县| 循化| 神池县| 英山县| 金乡县| 崇仁县| 内丘县| 苍溪县| 原平市| 株洲县| 洛川县| 南宫市| 五大连池市| 定边县| 海原县| 庆阳市| 合作市| 张北县| 将乐县| 武冈市| 肥东县| 饶阳县| 八宿县| 随州市| 洞头县| 泾川县| 自贡市| 儋州市| 梨树县| 武清区| 佛山市| 同心县| 昌乐县| 绿春县| 长海县| 津市市| 澄江县| 庄浪县| 师宗县| 阳山县|

<del id="og2km"><dfn id="og2km"></dfn></del>