基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2022-04-02 01:25曹湘華

電腦知識(shí)與技術(shù) 2022年33期

關(guān)鍵詞：識(shí)別機(jī)器學(xué)習(xí)數(shù)據(jù)

曹湘華

摘要：傳統(tǒng)Word文檔數(shù)據(jù)識(shí)別系統(tǒng)識(shí)別精度一般較低，面對(duì)數(shù)據(jù)量龐大的Word文檔數(shù)據(jù)時(shí)，系統(tǒng)響應(yīng)時(shí)間較長(zhǎng)，無(wú)法采用統(tǒng)一的識(shí)別方法完成數(shù)據(jù)識(shí)別，制約文檔數(shù)據(jù)的信息化、高效化發(fā)展。針對(duì)此問(wèn)題在傳統(tǒng)Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的基礎(chǔ)上，引入機(jī)器學(xué)習(xí)原理，實(shí)現(xiàn)了新的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)設(shè)計(jì)。系統(tǒng)硬件采用C/S架構(gòu)，為各個(gè)硬件的穩(wěn)定運(yùn)行提供環(huán)境保障。軟件通過(guò)提取與預(yù)處理Word文檔數(shù)據(jù)，放大文檔數(shù)據(jù)信息；采用穿線法，識(shí)別文檔數(shù)據(jù)特征；利用機(jī)器學(xué)習(xí)原理，設(shè)計(jì)系統(tǒng)Word文檔數(shù)據(jù)識(shí)別模塊。應(yīng)用結(jié)果表明，基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)，其文檔數(shù)據(jù)識(shí)別結(jié)果的準(zhǔn)確率均在96.58%以上，識(shí)別結(jié)果誤報(bào)率均小于0.34%，具有較高的可行性。

關(guān)鍵詞：機(jī)器學(xué)習(xí)；文檔；Word；數(shù)據(jù)；識(shí)別；系統(tǒng)

中圖分類號(hào)：TP303? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）33-0017-02

Word文檔數(shù)據(jù)識(shí)別系統(tǒng)作為信息化社會(huì)發(fā)展背景下處理海量文檔數(shù)據(jù)的方式之一，對(duì)提升數(shù)據(jù)處理、錄入、存儲(chǔ)的效率具有重要意義[1]。Word文檔數(shù)據(jù)識(shí)別系統(tǒng)與傳統(tǒng)的文檔數(shù)據(jù)人工處理方式相比，極大程度地減少了數(shù)據(jù)處理的人力資源消耗，將紙質(zhì)文檔信息轉(zhuǎn)換為電子數(shù)據(jù)信息，上傳至識(shí)別系統(tǒng)。系統(tǒng)通過(guò)信息化、智能化的運(yùn)行方式，對(duì)數(shù)據(jù)進(jìn)行識(shí)別、錄入、處理與存儲(chǔ)，降低了數(shù)據(jù)錄入與識(shí)別的錯(cuò)誤率[2]。現(xiàn)階段，我國(guó)在Word文檔數(shù)據(jù)識(shí)別系統(tǒng)方面的研究逐漸接近成熟，然而，其中仍然存在一定的不足，主要體現(xiàn)在針對(duì)數(shù)據(jù)量較龐大的Word文檔數(shù)據(jù)，系統(tǒng)識(shí)別響應(yīng)的時(shí)間較長(zhǎng)，無(wú)法采用統(tǒng)一的識(shí)別方式完成數(shù)據(jù)識(shí)別，且文檔數(shù)據(jù)識(shí)別結(jié)果的準(zhǔn)確率較低[3]。機(jī)器學(xué)習(xí)技術(shù)能夠有效地改善這一問(wèn)題，通過(guò)靜態(tài)分析與動(dòng)態(tài)分析相結(jié)合的方式，對(duì)識(shí)別系統(tǒng)的運(yùn)行特征進(jìn)行全方位的分析與學(xué)習(xí)，提高系統(tǒng)運(yùn)行的準(zhǔn)確率與完備性[4]。

基于此，本文在傳統(tǒng)Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的基礎(chǔ)上，引入機(jī)器學(xué)習(xí)原理，實(shí)現(xiàn)了新的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)設(shè)計(jì)，為促進(jìn)Word文檔數(shù)據(jù)識(shí)別的信息化、智能化發(fā)展作出貢獻(xiàn)。

1 識(shí)別系統(tǒng)硬件設(shè)計(jì)

本文設(shè)計(jì)的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)采用C/S硬件架構(gòu)，在運(yùn)行過(guò)程中，能夠?yàn)橄到y(tǒng)內(nèi)其他硬件提供穩(wěn)定高效的運(yùn)行環(huán)境。系統(tǒng)硬件接口采用I/O接口方式，主要負(fù)責(zé)為系統(tǒng)中各個(gè)硬件提供電源、輸入系統(tǒng)外部觸發(fā)信號(hào)以及控制硬件輸出[5]。接口采用RT36型號(hào)的千兆以太網(wǎng)接口，分別將網(wǎng)線兩端插入接口。系統(tǒng)的網(wǎng)絡(luò)交換機(jī)采用S Series系列的交換機(jī)，端口為48×10/100/1000BASE-T RJ45， 8×10G SFP+，交換容量為256Gbps，PoE標(biāo)準(zhǔn)協(xié)議采用IEEE 802.3af/at，為了保證識(shí)別系統(tǒng)運(yùn)行的效率，設(shè)置網(wǎng)絡(luò)交換機(jī)的最小延時(shí)為2.2μs，最大延時(shí)為64.69μs，包轉(zhuǎn)發(fā)率為192 Mpps。為了提升系統(tǒng)文檔數(shù)據(jù)識(shí)別、傳輸與接收的速度，本文采用芯片型號(hào)為Intel X710-BM2的英特爾網(wǎng)卡，其端口為雙光口，與系統(tǒng)主機(jī)的接口為PCIe 3.0×8類型，在系統(tǒng)內(nèi)的布線類型為SFP+光模塊/DAC/AOC，支持系統(tǒng)VT-c連通性。

2 識(shí)別系統(tǒng)軟件設(shè)計(jì)

2.1 Word文檔數(shù)據(jù)提取與預(yù)處理

為了更好地識(shí)別Word文檔數(shù)據(jù)，本文首先對(duì)Word文檔數(shù)據(jù)進(jìn)行提取與預(yù)處理。由于文檔數(shù)據(jù)量龐大，將Word文檔數(shù)據(jù)轉(zhuǎn)換為圖像存儲(chǔ)的形式，輸入系統(tǒng)中，利用系統(tǒng)的自動(dòng)掃描功能，掃描圖像中存儲(chǔ)的Word文檔數(shù)據(jù)[6]。將轉(zhuǎn)換后的Word文檔數(shù)據(jù)存儲(chǔ)圖像進(jìn)行增強(qiáng)處理，提高圖像的灰度級(jí)范圍與對(duì)比度，使圖像中存儲(chǔ)的數(shù)據(jù)信息更加清晰。采用伽馬變換的增強(qiáng)方法，增強(qiáng)圖像對(duì)比度，增強(qiáng)處理公式為：

[m=arγ，γ∈0，1]

其中，[a]表示圖像低灰度值；[r]表示原始圖像的灰度級(jí)；[γ]表示伽馬參數(shù)。通過(guò)上述公式，對(duì)系統(tǒng)中輸入的Word文檔數(shù)據(jù)存儲(chǔ)圖像進(jìn)行增強(qiáng)預(yù)處理，增強(qiáng)圖像的灰度部分細(xì)節(jié)，放大文檔數(shù)據(jù)信息，為后續(xù)系統(tǒng)的高效識(shí)別提供基礎(chǔ)保障。

2.2 穿線法識(shí)別文檔數(shù)據(jù)特征

對(duì)上述Word文檔數(shù)據(jù)進(jìn)行提取與預(yù)處理后，系統(tǒng)采用穿線法，對(duì)Word文檔數(shù)據(jù)的自身特征進(jìn)行識(shí)別，識(shí)別流程如圖1所示。

如圖1所示，穿線法識(shí)別流程為：系統(tǒng)通過(guò)自動(dòng)查找的方式，獲取文檔數(shù)據(jù)的單個(gè)數(shù)字輪廓；設(shè)置三條線，將數(shù)字輪廓進(jìn)行均分處理；根據(jù)數(shù)字輪廓的相交方式，確定各個(gè)數(shù)字輪廓之間的交點(diǎn)個(gè)數(shù)；選取兩條線將所有Word文檔數(shù)據(jù)平均劃分為左右兩個(gè)部分，利用第三條線穿過(guò)左右兩個(gè)部分所有的數(shù)字輪廓，根據(jù)線與數(shù)字輪廓交點(diǎn)的個(gè)數(shù)，獲取對(duì)應(yīng)的Word文檔數(shù)據(jù)特征。

2.3 基于機(jī)器學(xué)習(xí)設(shè)計(jì)文檔數(shù)據(jù)識(shí)別模塊

在文檔數(shù)據(jù)特征識(shí)別結(jié)束后，采用機(jī)器學(xué)習(xí)技術(shù)，設(shè)計(jì)系統(tǒng)中Word文檔數(shù)據(jù)識(shí)別模塊。文檔數(shù)據(jù)識(shí)別模塊作為系統(tǒng)中的核心模塊，對(duì)系統(tǒng)識(shí)別結(jié)果的準(zhǔn)確率具有直接影響[7]。通過(guò)機(jī)器學(xué)習(xí)技術(shù)，識(shí)別系統(tǒng)中輸入的文檔數(shù)據(jù)通道類型，利用模塊端口的子檢測(cè)識(shí)別模塊，過(guò)濾大量非Word文檔數(shù)據(jù)，提高數(shù)據(jù)的有效負(fù)載識(shí)別精度。

利用模塊中機(jī)器學(xué)習(xí)模塊的深度挖掘功能，對(duì)各個(gè)數(shù)據(jù)通道類型進(jìn)行細(xì)致劃分，劃分為文字消息數(shù)據(jù)、文件傳輸數(shù)據(jù)與文檔數(shù)據(jù)三個(gè)類型。其中，文字消息數(shù)據(jù)主要通過(guò)系統(tǒng)中的傳輸窗口，基于UDP協(xié)議進(jìn)行數(shù)據(jù)的傳輸與上傳；文件傳輸數(shù)據(jù)作為客戶端傳輸文檔數(shù)據(jù)的通道，在上傳與傳輸過(guò)程中具有較高的加密性；文檔數(shù)據(jù)為上述兩種數(shù)據(jù)的總和，綜合性較強(qiáng)，且數(shù)據(jù)量龐大。通過(guò)系統(tǒng)識(shí)別模塊，識(shí)別出各個(gè)通道類型的數(shù)據(jù)上傳方式，檢測(cè)數(shù)據(jù)端口的特征與有效負(fù)載長(zhǎng)度，結(jié)合機(jī)器學(xué)習(xí)原理，建立機(jī)器學(xué)習(xí)識(shí)別模型，識(shí)別Word文檔數(shù)據(jù)的數(shù)量、初始窗口長(zhǎng)度、數(shù)據(jù)屬性等信息。

綜上所述為本文提出的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的整體設(shè)計(jì)流程，分別從系統(tǒng)硬件與軟件兩個(gè)方面進(jìn)行了設(shè)計(jì)，實(shí)現(xiàn)了Word文檔數(shù)據(jù)高效識(shí)別的目標(biāo)。

3 系統(tǒng)測(cè)試

為了驗(yàn)證本文設(shè)計(jì)的基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的有效性，進(jìn)行了相關(guān)的實(shí)驗(yàn)測(cè)試。按照上述系統(tǒng)硬件與軟件設(shè)計(jì)內(nèi)容與要求，建立文檔數(shù)據(jù)識(shí)別系統(tǒng)，在此基礎(chǔ)上，對(duì)系統(tǒng)測(cè)試的開發(fā)環(huán)境進(jìn)行搭建。本次測(cè)試操作的開發(fā)環(huán)境由AMD Athlon（tm） II X2 215 Processor 型號(hào)的CPU、GCC 4.4型號(hào)的編譯器、15×800MHz， 1×2400MHz型號(hào)的CPU主頻、VIM+CTags+Tlist的編輯工具共同組成，其中，硬盤大小為250G，內(nèi)存為16G，網(wǎng)卡包括千兆網(wǎng)卡、4個(gè)串行接口與2個(gè)光纖接口。先采用黑盒測(cè)試方法，對(duì)系統(tǒng)文檔數(shù)據(jù)識(shí)別模塊的功能進(jìn)行測(cè)試，測(cè)試流程如圖2所示。

如圖2所示，文檔數(shù)據(jù)識(shí)別模塊功能測(cè)試流程為：在識(shí)別系統(tǒng)內(nèi)輸入Word文檔數(shù)據(jù)，在系統(tǒng)端口對(duì)數(shù)據(jù)進(jìn)行預(yù)處理；根據(jù)文檔數(shù)據(jù)的有效負(fù)載長(zhǎng)度，選取系統(tǒng)運(yùn)行協(xié)議；采用Gtalk文字流處理方式，對(duì)文檔數(shù)據(jù)進(jìn)行處理；基于機(jī)器學(xué)習(xí)模型，對(duì)文檔數(shù)據(jù)進(jìn)行檢測(cè)識(shí)別，判斷識(shí)別文檔數(shù)據(jù)的有效負(fù)載長(zhǎng)度是否大于0，若大于0，則輸出數(shù)據(jù)識(shí)別結(jié)果，完成識(shí)別流程；若數(shù)據(jù)有效負(fù)載長(zhǎng)度小于0，則返回并重復(fù)上述步驟，直至文檔數(shù)據(jù)的有效負(fù)載長(zhǎng)度大于0為止。根據(jù)系統(tǒng)文檔數(shù)據(jù)識(shí)別模塊檢測(cè)識(shí)別的結(jié)果，判斷該模塊的運(yùn)行狀況。

系統(tǒng)功能模塊測(cè)試完畢后，再采用白盒測(cè)試的方法，對(duì)系統(tǒng)的性能進(jìn)行測(cè)試分析。選取系統(tǒng)性能測(cè)試使用的數(shù)據(jù)集，為了保證測(cè)試結(jié)果的客觀性與準(zhǔn)確性，本次測(cè)試使用NIMS的公開數(shù)據(jù)集作為性能測(cè)試數(shù)據(jù)集，其中包括Word文檔數(shù)據(jù)368024條，非Word文檔數(shù)據(jù)531672條。由于原數(shù)據(jù)集的數(shù)據(jù)量龐大，不利于系統(tǒng)測(cè)試操作，因此，本次測(cè)試從NIMS數(shù)據(jù)集中，隨機(jī)抽取15000條Word文檔數(shù)據(jù)和15000條非Word文檔數(shù)據(jù)，共同組成訓(xùn)練數(shù)據(jù)集，然后從剩余的NIMS數(shù)據(jù)集中，隨機(jī)選取5000條Word文檔數(shù)據(jù)組成測(cè)試數(shù)據(jù)集，對(duì)測(cè)試數(shù)據(jù)集進(jìn)行標(biāo)號(hào)處理，分別標(biāo)記為1、2、3、4、5，測(cè)試數(shù)據(jù)集Word文檔數(shù)據(jù)分布如表1所示。

為了驗(yàn)證文檔數(shù)據(jù)識(shí)別系統(tǒng)性能的可行性，本次測(cè)試采用對(duì)比分析方法，將本文設(shè)計(jì)的基于機(jī)器學(xué)習(xí)的文檔數(shù)據(jù)識(shí)別系統(tǒng)，與傳統(tǒng)的基于OCR技術(shù)的文檔數(shù)據(jù)識(shí)別系統(tǒng)進(jìn)行對(duì)比，分別使用兩種系統(tǒng)對(duì)相同Word文檔數(shù)據(jù)的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練，在此基礎(chǔ)上，對(duì)5個(gè)Word文檔數(shù)據(jù)的測(cè)試數(shù)據(jù)集進(jìn)行數(shù)據(jù)識(shí)別測(cè)試，對(duì)比兩種系統(tǒng)識(shí)別結(jié)果的準(zhǔn)確率，如表2所示。

根據(jù)表2的對(duì)比結(jié)果，在兩種文檔數(shù)據(jù)識(shí)別系統(tǒng)中，本文設(shè)計(jì)的基于機(jī)器學(xué)習(xí)的文檔數(shù)據(jù)識(shí)別系統(tǒng)，其在不同測(cè)試數(shù)據(jù)集中，文檔數(shù)據(jù)識(shí)別結(jié)果的準(zhǔn)確率均在96.58%以上，識(shí)別結(jié)果誤報(bào)率均小于0.34%，與傳統(tǒng)識(shí)別系統(tǒng)相比，數(shù)據(jù)識(shí)別結(jié)果的準(zhǔn)確率更高且誤報(bào)率更低，說(shuō)明本文系統(tǒng)在Word文檔數(shù)據(jù)識(shí)別上的效果更佳、更具有優(yōu)勢(shì)。

4 結(jié)束語(yǔ)

綜上所述，為了改善傳統(tǒng)Word文檔數(shù)據(jù)識(shí)別系統(tǒng)識(shí)別精度較低且海量文檔數(shù)據(jù)下系統(tǒng)識(shí)別速率較慢的情況，本文在傳統(tǒng)數(shù)據(jù)識(shí)別系統(tǒng)的基礎(chǔ)上，引入機(jī)器學(xué)習(xí)理念，實(shí)現(xiàn)了新的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)設(shè)計(jì)。應(yīng)用結(jié)果證明，該系統(tǒng)有效地提升了文檔數(shù)據(jù)識(shí)別結(jié)果的準(zhǔn)確率，降低了系統(tǒng)識(shí)別的誤報(bào)率，對(duì)海量文檔數(shù)據(jù)處理的信息化、高效化發(fā)展具有重要意義。

參考文獻(xiàn)：

[1] 李洪波，廖詳剛，陳立.基于機(jī)器學(xué)習(xí)One-stage目標(biāo)檢測(cè)算法的塑料自動(dòng)識(shí)別系統(tǒng)[J].塑料科技，2020，48（12）：86-89.

[2] 楊思怡，付相祥，吳曉華，等.Tesseract-OCR的文檔掃描識(shí)別系統(tǒng)[J].電子世界，2021（20）：98-100.

[3] 吳麗華，龍海俠，馮建平.智能機(jī)器的認(rèn)知學(xué)習(xí)機(jī)理及計(jì)算模型研究[J].電子技術(shù)與軟件工程，2021（21）：106-109.

[4] 徐琳宏，丁堃，林原，等.基于機(jī)器學(xué)習(xí)算法的引文情感自動(dòng)識(shí)別研究——以自然語(yǔ)言處理領(lǐng)域?yàn)槔齕J].現(xiàn)代情報(bào)，2020，40（1）：35-40，48.

[5] 殷倩倩，申鑫欣，夏祎.大數(shù)據(jù)背景下機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘中的應(yīng)用[J].數(shù)字技術(shù)與應(yīng)用，2022，40（5）：21-23.

[6] 肖治鴻，韓曄彤，鄒永攀.基于多源數(shù)據(jù)和邏輯推理的行為識(shí)別技術(shù)研究[J].計(jì)算機(jī)科學(xué)，2022，49（S1）：397-406.

[7] 于楚凡，郭大亮，張秋霞，等.基于大數(shù)據(jù)挖掘的發(fā)電系統(tǒng)異常數(shù)據(jù)識(shí)別系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程，2022，30（6）：131-135.

【通聯(lián)編輯：張薇】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于機(jī)器學(xué)習(xí)的Word文檔數(shù)據(jù)識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)