国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python 的文本數(shù)據(jù)增強(qiáng)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2021-07-30 08:15:12韓會(huì)珍劉立波
寧夏工程技術(shù) 2021年2期
關(guān)鍵詞:批量蟲(chóng)害枸杞

韓會(huì)珍,劉立波

(寧夏大學(xué) 信息工程學(xué)院,寧夏 銀川 750021)

近年來(lái),人工智能正逐漸改變著世界,而自然語(yǔ)言處理已成為計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域內(nèi)一個(gè)重要方向,在各個(gè)行業(yè)應(yīng)用越來(lái)越廣泛[1—2]。隨著深度學(xué)習(xí)的出現(xiàn)和計(jì)算能力的提升,自然語(yǔ)言處理中情感分析和主題分類(lèi)等文本分類(lèi)任務(wù)都取得了很高的準(zhǔn)確性,但高性能往往取決于訓(xùn)練數(shù)據(jù)的大小和質(zhì)量[3],文本數(shù)據(jù)的收集往往是十分困難的,文本增強(qiáng)技術(shù)的出現(xiàn)很好地解決了這類(lèi)問(wèn)題。

在實(shí)際的文本數(shù)據(jù)收集中,正常文本與敏感文本的數(shù)量很容易失衡,但又要求訓(xùn)練出的模型能夠召回較為全面的敏感文本[4—6]。這就需要文本“數(shù)據(jù)增強(qiáng)”,來(lái)擴(kuò)展敏感文本數(shù)量,讓數(shù)據(jù)更豐富。傳統(tǒng)文本數(shù)據(jù)增強(qiáng)方法中,同義詞替換(SR)方法是對(duì)文本中的一些詞語(yǔ)進(jìn)行替換來(lái)完成數(shù)據(jù)增強(qiáng),方式實(shí)現(xiàn)較為簡(jiǎn)單,但生成的文本與原文本相似度太高。采用VAEHD 文本生成模型可以學(xué)習(xí)文本中的潛在性解釋?zhuān)删哂刑囟ㄇ楦袑傩缘奈谋綶7]。但是該模型實(shí)現(xiàn)過(guò)程較為繁瑣,且需要額外的數(shù)據(jù)。本文采用一種簡(jiǎn)單文本增強(qiáng)(EDA)方法,不需要額外的數(shù)據(jù),而且同義詞替換、隨機(jī)交換、隨機(jī)插入、隨機(jī)刪除4 種方式的結(jié)合能更好地?cái)U(kuò)充語(yǔ)義,實(shí)現(xiàn)起來(lái)也較為簡(jiǎn)單。因此,依據(jù)實(shí)際需求,首先對(duì)文本進(jìn)行預(yù)處理,以處理亂碼、換行符冗余等問(wèn)題,然后再利用EDA 方法進(jìn)行文本數(shù)據(jù)增強(qiáng)。采用Python 語(yǔ)言結(jié)合Flask 框架設(shè)計(jì)實(shí)現(xiàn)了Web 網(wǎng)頁(yè)版單文本和批量文本數(shù)據(jù)增強(qiáng)系統(tǒng)[8—12],對(duì)于處理少樣本場(chǎng)景下樣本不均衡性、數(shù)據(jù)量不足易導(dǎo)致模型過(guò)擬合有較好的應(yīng)用價(jià)值。

1 文本數(shù)據(jù)收集

該系統(tǒng)開(kāi)發(fā)和測(cè)試均采用實(shí)驗(yàn)室構(gòu)建的枸杞蟲(chóng)害文本描述數(shù)據(jù)集,包含大青葉蟬、負(fù)泥蟲(chóng)、木虱等17種常見(jiàn)枸杞蟲(chóng)害。由于該數(shù)據(jù)集的文本描述的是人工撰寫(xiě),耗時(shí)耗力,搜集到各類(lèi)枸杞蟲(chóng)害的描述信息有限,因此在構(gòu)建數(shù)據(jù)集時(shí),有的蟲(chóng)害種類(lèi)文本描述數(shù)量過(guò)少,有的蟲(chóng)害種類(lèi)文本描述數(shù)量較多,造成了數(shù)據(jù)集的樣本不均衡,且枸杞蟲(chóng)害數(shù)據(jù)集文本總量只有1 670,對(duì)模型訓(xùn)練來(lái)說(shuō)數(shù)據(jù)量不足,所以選取該數(shù)據(jù)集作為該文本數(shù)據(jù)增強(qiáng)系統(tǒng)的訓(xùn)練和測(cè)試數(shù)據(jù)。

2 系統(tǒng)設(shè)計(jì)思路

2.1 功能模塊設(shè)計(jì)

基于Python 設(shè)計(jì)的文本數(shù)據(jù)增強(qiáng)系統(tǒng),以實(shí)驗(yàn)構(gòu)建的樣本不均衡且數(shù)據(jù)量不足的枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),前端界面用Flask 框架結(jié)合Python 語(yǔ)言響應(yīng)處理實(shí)現(xiàn)Web 網(wǎng)頁(yè)交互[13]。該系統(tǒng)主要分為預(yù)處理模塊、單文本數(shù)據(jù)增強(qiáng)模塊、批量文本數(shù)據(jù)增強(qiáng)模塊。具體功能模塊見(jiàn)圖1。

圖1 文本數(shù)據(jù)增強(qiáng)系統(tǒng)功能模塊

2.2 系統(tǒng)流程設(shè)計(jì)

文本數(shù)據(jù)增強(qiáng)系統(tǒng)流程圖見(jiàn)圖2。

圖2 文本數(shù)據(jù)增強(qiáng)流程圖

該系統(tǒng)流程設(shè)計(jì)主要包含:①文本數(shù)據(jù)預(yù)處理;②單文本或批量文本數(shù)據(jù)增強(qiáng);③設(shè)置文本原路徑和增強(qiáng)后文本路徑;④EDA 中各增強(qiáng)方式比例設(shè)置;⑤保存增強(qiáng)后生成的文本。

文本數(shù)據(jù)增強(qiáng)是對(duì)文本數(shù)據(jù)進(jìn)行擴(kuò)充。該系統(tǒng)采用改進(jìn)的EDA 文本數(shù)據(jù)增強(qiáng)技術(shù),其文本數(shù)據(jù)增強(qiáng)4 種方式含義見(jiàn)表1。

表1 文本數(shù)據(jù)增強(qiáng)4 種方式含義

3 系統(tǒng)實(shí)現(xiàn)

3.1 功能實(shí)現(xiàn)

該系統(tǒng)主要采用實(shí)驗(yàn)室構(gòu)建的少樣本枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本預(yù)處理及數(shù)據(jù)增強(qiáng)操作。

3.1.1 文本預(yù)處理實(shí)現(xiàn) 由于撰寫(xiě)文本時(shí),編碼格式不同,操作方式有誤,可能會(huì)導(dǎo)致文本中出現(xiàn)中英文夾雜、亂碼、換行符冗余等文本不規(guī)范問(wèn)題,通過(guò)文本預(yù)處理技術(shù)實(shí)現(xiàn)文本的規(guī)范化很有必要。

本文通過(guò)hanzi API 實(shí)現(xiàn)了對(duì)中文文本字符的替換和刪除,并通過(guò)re 正則表達(dá)式解決了刪除空行、亂碼等問(wèn)題,實(shí)現(xiàn)了文本數(shù)據(jù)的規(guī)范化。

3.1.2 文本數(shù)據(jù)增強(qiáng)實(shí)現(xiàn) 針對(duì)單文本和批量文本的數(shù)據(jù)增強(qiáng),首先通過(guò)os.path.isfile(filename)函數(shù)判斷要增強(qiáng)的是單個(gè)文本還是批量文本。對(duì)單個(gè)文本直接進(jìn)行數(shù)據(jù)增強(qiáng);而批量文本則先利用函數(shù)os.listdir(filename)獲取輸入文件夾路徑下的所有文本文件,再用循環(huán)語(yǔ)句分別對(duì)單個(gè)文本進(jìn)行數(shù)據(jù)增強(qiáng)。批量處理可以選擇輸入包含100,200,500 等多個(gè)文本的文件夾,系統(tǒng)會(huì)根據(jù)獲取路徑對(duì)文本進(jìn)行增強(qiáng)操作。

在數(shù)據(jù)增強(qiáng)過(guò)程中,首先,獲取需要增強(qiáng)的文本原路徑和增強(qiáng)后的保存路徑;然后,通過(guò)stop words list 過(guò)濾掉一些出現(xiàn)過(guò)于頻繁但實(shí)際意義不大的詞來(lái)對(duì)文本進(jìn)行清理,利用EDA 技術(shù)中synonym_replacement()函 數(shù)、random_deletion()函數(shù)、random_swap()函數(shù)、random_insertion()函數(shù),分別對(duì)文本數(shù)據(jù)進(jìn)行同義詞替換、隨機(jī)刪除、隨機(jī)交換、隨機(jī)插入來(lái)增強(qiáng)文本數(shù)據(jù);其次,設(shè)置num_aug 參數(shù)確定要生成文本的數(shù)量,即文本數(shù)據(jù)增強(qiáng)倍數(shù),設(shè)置4 種數(shù)據(jù)增強(qiáng)方式的參數(shù)值范圍為0~1;最后,將增強(qiáng)后的文本數(shù)據(jù)寫(xiě)入保存路徑下的新建文件夾。

3.2 關(guān)鍵技術(shù)

Python 語(yǔ)言是近年來(lái)人工智能編程方向潮流的計(jì)算機(jī)編程語(yǔ)言。Flask 是一個(gè)輕量級(jí)的Web 框架,簡(jiǎn)單易上手,靈活小巧。Flask 中的route 路徑及各種封裝函數(shù),使用方便快捷,能快速高效地開(kāi)發(fā)該系統(tǒng)。

該系統(tǒng)采用Python 為主要開(kāi)發(fā)工具,F(xiàn)lask 框架進(jìn)行Web 端界面布局設(shè)計(jì),搭建系統(tǒng)環(huán)境。之后通過(guò)Flask 框架將HTML 頁(yè)面保存的表單數(shù)據(jù)提交到Python 后臺(tái)進(jìn)行響應(yīng)處理,完成數(shù)據(jù)增強(qiáng)操作。

環(huán)境搭建所需注意:①安裝nltk 自然語(yǔ)言處理工具包pip install -U nltk;②下載WordNet,將壓縮包放入C:UsersPublic.DESKTOPPUC4DFJAppDataRoaming ltk_datacorpora,并解壓在該文件夾內(nèi)。

4 系統(tǒng)測(cè)試

4.1 系統(tǒng)界面

該系統(tǒng)以Flask 框架結(jié)合HTML 設(shè)計(jì)編寫(xiě)簡(jiǎn)單的Web 操作界面,采用實(shí)驗(yàn)室構(gòu)建的枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本數(shù)據(jù)增強(qiáng)。該系統(tǒng)界面包含文本預(yù)處理頁(yè)面和文本數(shù)據(jù)增強(qiáng)頁(yè)面,分別見(jiàn)圖3 和圖4。

圖3 文本預(yù)處理界面

圖4 文本數(shù)據(jù)增強(qiáng)界面

圖4 中生成數(shù)量表示一個(gè)原句子生成多少個(gè)新句子,即單個(gè)文本數(shù)據(jù)增強(qiáng)4 倍,生成后文本數(shù)量共5 句。同義替換比例、隨機(jī)插入比例、隨機(jī)交換比例、隨機(jī)刪除比例設(shè)置參數(shù)值為0.1。

4.2 文本數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)界面

該系統(tǒng)測(cè)試時(shí),分別對(duì)單個(gè)文本和批量文本進(jìn)行數(shù)據(jù)增強(qiáng)操作。原始單文本和增強(qiáng)后的文本效果見(jiàn)圖5 和圖6。圖5 是格式不規(guī)范的單個(gè)文本,圖6是5 倍增強(qiáng)后生成的文本。

圖5 單個(gè)原文本界面

圖6 單文本增強(qiáng)后的界面

批量原文本和增強(qiáng)后的文本見(jiàn)圖7 和圖8。圖7 是原文件夾里的所有文本,圖8 是5 倍增強(qiáng)后生成的所有的文本。

圖7 批量原文本的界面

圖8 批量文本增強(qiáng)后的界面

4.3 文本增強(qiáng)效果分析

為體現(xiàn)該文本數(shù)據(jù)增強(qiáng)系統(tǒng)的魯棒性及有效性,該實(shí)驗(yàn)采用枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行不同訓(xùn)練集、不同增強(qiáng)倍數(shù)的分類(lèi)準(zhǔn)確率測(cè)試,對(duì)文本數(shù)據(jù)增強(qiáng)效果的魯棒性和效率進(jìn)行分析研究。

(1)文本數(shù)據(jù)增強(qiáng)效果。該實(shí)驗(yàn)分別選取了枸杞蟲(chóng)害文本描述數(shù)據(jù)集200、500、1 000、Full Data(枸杞蟲(chóng)害文本描述總數(shù),共1 670 個(gè)文本描述)不同訓(xùn)練集大小的文本數(shù)據(jù),在增強(qiáng)倍數(shù)分別為1 倍、2倍、4 倍、8 倍、16 倍、32 倍的條件下進(jìn)行數(shù)據(jù)增強(qiáng),并將增強(qiáng)后的文本數(shù)據(jù)作為訓(xùn)練集輸入到TextCNN 模型進(jìn)行文本分類(lèi)識(shí)別,結(jié)果見(jiàn)圖9。

圖9 不同訓(xùn)練集分類(lèi)效果評(píng)價(jià)圖

對(duì)于小數(shù)量數(shù)據(jù)集,過(guò)擬合的可能性更大,所以生成許多增廣的句子會(huì)大大提高性能。對(duì)于較大的訓(xùn)練集,每個(gè)原始句子增加過(guò)多的增廣句子是沒(méi)有幫助的,因?yàn)楫?dāng)有大量真實(shí)數(shù)據(jù)可用時(shí),模型傾向于適當(dāng)?shù)剡M(jìn)行歸納。基于這些結(jié)果,由圖9 可以得出表2 的結(jié)果。

表2 推薦的文本增強(qiáng)倍數(shù)

由圖9 可以看出,利用該系統(tǒng)進(jìn)行不同訓(xùn)練集規(guī)模數(shù)據(jù)增強(qiáng)后得到的枸杞蟲(chóng)害文本描述在4 倍數(shù)據(jù)增強(qiáng)時(shí)分類(lèi)效果最好,準(zhǔn)確率達(dá)到了85.3%。

(2)實(shí)驗(yàn)方法的增強(qiáng)效果。該實(shí)驗(yàn)對(duì)枸杞蟲(chóng)害文本描述數(shù)據(jù)集中500 個(gè)文本,分別采用SR、VAEHD、本文EDA 方法進(jìn)行16 倍數(shù)據(jù)增強(qiáng),并對(duì)增強(qiáng)后的數(shù)據(jù)采用TextCNN 分類(lèi)模型進(jìn)行分類(lèi)識(shí)別,評(píng)價(jià)指標(biāo)采用準(zhǔn)確率和時(shí)間,結(jié)果見(jiàn)表3。

表3 不同數(shù)據(jù)增強(qiáng)方式文本分類(lèi)結(jié)果對(duì)比

由表3 可知,該系統(tǒng)采用的EDA 數(shù)據(jù)增強(qiáng)方法比SR 和VAEHD 方法在文本分類(lèi)實(shí)驗(yàn)中的準(zhǔn)確率分別提高了11.1%和3.7%,且文本數(shù)據(jù)增強(qiáng)時(shí)間分別減少了0.129 s 和0.065 s,說(shuō)明該系統(tǒng)采用的方法比傳統(tǒng)數(shù)據(jù)增強(qiáng)方法效果更好。

(3)系統(tǒng)的效率。為了驗(yàn)證該系統(tǒng)文本數(shù)據(jù)增強(qiáng)的快速性和高效性,對(duì)數(shù)據(jù)集中100 個(gè)、500 個(gè)文本分別進(jìn)行5 倍、10 倍批量文本增強(qiáng),并統(tǒng)計(jì)增強(qiáng)后文本總數(shù)量和增強(qiáng)所用時(shí)間,實(shí)驗(yàn)結(jié)果見(jiàn)表4。

表4 批量文本數(shù)據(jù)增強(qiáng)效果

由表4 可知,該系統(tǒng)能在0.47 s 和2.50 s 內(nèi)分別完成對(duì)100 個(gè)、500 個(gè)文本的批處理數(shù)據(jù)增強(qiáng),說(shuō)明該系統(tǒng)能快速高效地完成批量文本數(shù)據(jù)增強(qiáng)。

根據(jù)以上實(shí)驗(yàn)結(jié)果可以看出,該系統(tǒng)不僅可以高效地進(jìn)行單文本增強(qiáng),還能實(shí)現(xiàn)批量文本增強(qiáng)操作。增強(qiáng)后的文本數(shù)據(jù)在文本分類(lèi)實(shí)驗(yàn)中也取得了較好的準(zhǔn)確率。實(shí)驗(yàn)采用枸杞蟲(chóng)害文本描述數(shù)據(jù)集進(jìn)行文本數(shù)據(jù)增強(qiáng),對(duì)該數(shù)據(jù)集進(jìn)行4 倍數(shù)據(jù)增強(qiáng),增強(qiáng)后的文本數(shù)量達(dá)到8 350,解決了樣本不均衡問(wèn)題,完成了對(duì)枸杞蟲(chóng)害文本描述數(shù)據(jù)集的數(shù)據(jù)擴(kuò)充。

5 結(jié)論

本文基于Python 文本數(shù)據(jù)增強(qiáng)系統(tǒng)實(shí)現(xiàn)了對(duì)文本數(shù)據(jù)的擴(kuò)充增強(qiáng),并完成了單文本數(shù)據(jù)增強(qiáng)和批量文本數(shù)據(jù)增強(qiáng)的功能。對(duì)解決小樣本場(chǎng)景下樣本數(shù)量不足容易導(dǎo)致模型過(guò)擬合、樣本間不均衡的問(wèn)題十分有效,而且可根據(jù)數(shù)據(jù)增強(qiáng)中的同義詞替換、隨機(jī)交換、隨機(jī)刪除、隨機(jī)插入進(jìn)行文本局部調(diào)整。該系統(tǒng)完成了枸杞蟲(chóng)害文本描述數(shù)據(jù)集的文本數(shù)據(jù)增強(qiáng),解決了該數(shù)據(jù)集的樣本不均衡、數(shù)據(jù)量不足的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,實(shí)驗(yàn)采用的枸杞蟲(chóng)害文本描述數(shù)據(jù)集在4 倍數(shù)據(jù)增強(qiáng)時(shí)分類(lèi)效果最好,準(zhǔn)確率達(dá)到了85.3%。相比傳統(tǒng)的SR 方法以及VAEHD方法,本文采用的EDA 方法在500 個(gè)文本16 倍數(shù)據(jù)增強(qiáng)條件下,文本分類(lèi)準(zhǔn)確率提高了11.1%和3.7%。此外,該系統(tǒng)能在0.47 s 內(nèi)和2.50 s 內(nèi)分別完成對(duì)100 個(gè)、500 個(gè)文本10 倍的批處理數(shù)據(jù)增強(qiáng),表明該系統(tǒng)的快速高效性。

該系統(tǒng)采用Web 操作界面,簡(jiǎn)單易懂,但存在一些不足。目前該系統(tǒng)只能對(duì)txt 文本進(jìn)行操作,且存在字符長(zhǎng)度限制問(wèn)題,但對(duì)傳統(tǒng)文本數(shù)據(jù)集是一個(gè)簡(jiǎn)單實(shí)用的系統(tǒng)。下一步工作將會(huì)繼續(xù)改進(jìn)和完善系統(tǒng)功能,提高系統(tǒng)的兼容性,優(yōu)化系統(tǒng)的長(zhǎng)文本功能,進(jìn)一步提高文本數(shù)據(jù)增強(qiáng)的水平。

猜你喜歡
批量蟲(chóng)害枸杞
枸杞
是酸是堿?黑枸杞知道
學(xué)與玩(2022年2期)2022-05-03 09:46:45
批量提交在配置分發(fā)中的應(yīng)用
桃樹(shù)主要蟲(chóng)害及防治方法
采枸杞
不用農(nóng)藥也能治蟲(chóng)害
枸杞到底是怎么養(yǎng)生的?
淺析白三葉的蟲(chóng)害防治
行道樹(shù)香櫞主要蟲(chóng)害及其防治
淺議高校網(wǎng)銀批量代發(fā)
陈巴尔虎旗| 雅安市| 盐源县| 南华县| 田东县| 孟州市| 大厂| 新野县| 尚志市| 镇平县| 博客| 霍邱县| 德庆县| 西林县| 永宁县| 建平县| 修水县| 荆州市| 长沙市| 双峰县| 永德县| 开远市| 广河县| 景洪市| 四川省| 浦东新区| 怀安县| 绥阳县| 延寿县| 固原市| 宜丰县| 安龙县| 定州市| 株洲县| 临泽县| 克什克腾旗| 霍城县| 昌图县| 辽宁省| 呼和浩特市| 固镇县|