摘 要:隨著標(biāo)準(zhǔn)電子文件在各個領(lǐng)域的廣泛應(yīng)用,文件格式的轉(zhuǎn)換及其后續(xù)校驗工作變得日益重要。本研究聚焦于探討標(biāo)準(zhǔn)文檔格式轉(zhuǎn)換為Word格式的過程中所面臨的挑戰(zhàn),并提出了一個全面的校驗流程,以確保轉(zhuǎn)換的準(zhǔn)確性和高效性。闡述了標(biāo)準(zhǔn)電子文件在石油等領(lǐng)域的廣泛應(yīng)用以及轉(zhuǎn)換為Word格式的必要性,強調(diào)了校驗過程的重要性,旨在確保轉(zhuǎn)換后的文件與原始文件在錯誤率萬分之五以內(nèi)的一致性。
關(guān)鍵詞:標(biāo)準(zhǔn)行業(yè),標(biāo)準(zhǔn)電子文件轉(zhuǎn)換,Word校驗,OCR識別,文件質(zhì)量控制
DOI編碼:10.3969/j.issn.1002-5944.2024.16.005
0 引 言
近年來,隨著數(shù)字化轉(zhuǎn)型,標(biāo)準(zhǔn)電子文件準(zhǔn)確轉(zhuǎn)換至Word格式變得至關(guān)重要,尤其是在石油等關(guān)鍵行業(yè)。本研究針對455個標(biāo)準(zhǔn)PDF文件的轉(zhuǎn)換過程,探討在格式丟失、排版錯誤等問題中保持原始內(nèi)容和格式的一致性的挑戰(zhàn)。這些問題不僅影響文件可讀性,也妨礙有效信息傳遞。
我們提出一套包括初驗、復(fù)驗和終驗在內(nèi)的全面校驗流程,并運用OCR識別與專業(yè)文檔處理工具。通過這一流程,本研究旨在提高文件轉(zhuǎn)換的準(zhǔn)確性,確保關(guān)鍵信息的正確傳遞,為標(biāo)準(zhǔn)電子文件的質(zhì)量控制和管理提供可靠指導(dǎo)。
1 研究背景
Word校驗研究旨在探索和發(fā)展一種方法或技術(shù),以驗證標(biāo)準(zhǔn)電子文件在轉(zhuǎn)換為Word格式時的準(zhǔn)確性和一致性。在本次研究中,主要針對于國家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)三種標(biāo)準(zhǔn)類型,合計455個PDF文件,轉(zhuǎn)化成為的455個Word文件,共25,052頁標(biāo)準(zhǔn)正文進行Word校驗的研究分析。
1.1 標(biāo)準(zhǔn)電子文件的廣泛應(yīng)用
標(biāo)準(zhǔn)電子文件在各個領(lǐng)域和行業(yè)中廣泛應(yīng)用,如標(biāo)準(zhǔn)文件、法律文件、科技報告、學(xué)術(shù)論文、技術(shù)規(guī)范等。這些文件的正確轉(zhuǎn)換和準(zhǔn)確呈現(xiàn)至關(guān)重要,以確保信息的傳遞和共享的有效性[1]。本次研究涵蓋的方向主要為石油相關(guān)的標(biāo)準(zhǔn)文件。Word作為主流的文件格式,Microsoft Word是一個常用的文件處理工具,廣泛用于創(chuàng)建、編輯和共享文件。因此,將標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為Word格式是很常見的需求,但轉(zhuǎn)換過程中可能會引入錯誤或?qū)е赂袷綋p失。
1.2 轉(zhuǎn)換過程中潛在的問題
在將標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為Word格式的過程中,可能會遇到多種問題,如格式丟失、排版錯誤、內(nèi)容損失、圖像失真以及特殊公式及符號的展示問題等。這些問題可能會導(dǎo)致文件與原版PDF內(nèi)容的不一致性和錯誤[2],從而大大降低標(biāo)準(zhǔn)文件的可讀性和可用性。
1.3 校驗的重要性
針對上述的轉(zhuǎn)換過程中存在的一些潛在的問題,對于重要的標(biāo)準(zhǔn)電子文件,確保轉(zhuǎn)換后的文件與原始文件一致非常重要。校驗過程可以幫助發(fā)現(xiàn)潛在的問題和錯誤,并提供修復(fù)或改進的機會,從而提高文件轉(zhuǎn)換的質(zhì)量和準(zhǔn)確性,并保障校驗后的Word內(nèi)容的錯誤率在萬分之五以內(nèi)。
2 校驗過程
校驗過程是為了驗證轉(zhuǎn)換后的Word文件與原始文件的一致性和準(zhǔn)確性。本次研究在將標(biāo)準(zhǔn)的PDF電子文件轉(zhuǎn)化為Word的過程中,針對于Word文件的準(zhǔn)確性校驗主要分為三個步驟,分別為初驗、復(fù)驗、終驗。
初驗過程是對于標(biāo)準(zhǔn)的PDF格式電子文件在進行OCR識別轉(zhuǎn)換的過程中有錯誤標(biāo)識提示內(nèi)容進行初步糾改,包含且不局限于文字錯誤、符號錯誤、圖片錯誤以及表格識別錯誤等;
復(fù)驗過程是對于所有進行OCR識別轉(zhuǎn)換后的Word文件進行統(tǒng)一的全內(nèi)容復(fù)審,包含且不局限于文本內(nèi)容格式錯誤、列表及編號錯誤、頁眉頁腳錯誤等;
終驗是對于復(fù)驗結(jié)果進行抽查驗證的過程,針對復(fù)驗后的文件選擇抽查多組標(biāo)準(zhǔn)電子文件樣本,確保抽查出來的樣本具有不同的特征和復(fù)雜性水平,以覆蓋潛在的識別問題,是對復(fù)驗后Word文件的可讀性和正確性的最終核對評判。
以此三個環(huán)節(jié)來對文件的正確性和規(guī)范性進行審核并修改,用以保障標(biāo)準(zhǔn)Word文件內(nèi)容的錯誤率低于萬分之五的標(biāo)準(zhǔn)。
3 校驗方法步驟
3.1 校驗工具選擇
在本次標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的校驗研究過程中,主要使用的文件準(zhǔn)確性校驗工具如下文所示:
Micr osof t Wor d:Micr osof t O f f ice Word是微軟公司的一個文字處理器應(yīng)用程序。它最初是由R icha rd Brodie為了運行DO S的I BM計算機而在1983年編寫的。隨后的版本可運行于AppleM a c i n t o s h(19 8 4年)、S C O U N I X和M i c r o s o f tWindows(1989年),并成為了Microsoft Office的一部分。一直以來,Microsoft Office Word 都是最流行的文字處理程序。
Microsoft Edge PDF Document:Microsoft Edge是由微軟開發(fā)的一款網(wǎng)頁瀏覽器,它內(nèi)置了許多功能,其中之一是對PDF(Portable Document Format,便攜式文件格式)文件的支持。Microsoft Edge可以作為一個PDF文件查看器,并提供了一些基本的PDF 閱讀和操作功能。
ABBYY FineReader PDF 15:ABBYY FineReaderPDF 15是一款功能強大的PDF軟件,由ABBYY公司開發(fā)。它提供了廣泛的PDF處理和管理功能,使用戶能夠更輕松地編輯、轉(zhuǎn)換、注釋和管理PDF文件。該軟件集成了強大的OCR(光學(xué)字符識別)技術(shù),可以將掃描的紙質(zhì)文件和圖像文件轉(zhuǎn)換為可編輯的文本和可搜索的PDF文件。這使得處理紙質(zhì)文件更加便捷,并提高了文件的可搜索性[3]。
Ma t hTy p e:Ma t hTy p e是一款專業(yè)的數(shù)學(xué)公式編輯器,它可以在各種文件中創(chuàng)建和編輯高質(zhì)量的數(shù)學(xué)公式和數(shù)學(xué)符號,包括Microsoft Word、PowerPoint、Google Docs、LaTeX等。MathType具有強大的數(shù)學(xué)編輯功能,提供豐富的數(shù)學(xué)符號、表達式和結(jié)構(gòu),為本次標(biāo)準(zhǔn)研究中存在的數(shù)學(xué)公式及符號編撰提供有效幫助。
3.2 OCR識別初驗校正
標(biāo)準(zhǔn)電子文件PDF格式需要通過軟件ABBYYFineReader PDF 15來進行OCR識別并轉(zhuǎn)換為Word格式標(biāo)準(zhǔn)。在進行OCR的過程對標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的初驗,將掃描過后的PDF格式文件包含文字、圖片、表格等信息轉(zhuǎn)換為可編輯的文本和可搜索的Word文件中存在的部分存疑字符進行標(biāo)識,以及對文字、圖片、表格進行分色域的標(biāo)注區(qū)分。通過左側(cè)欄目框的PDF格式的原文本與右側(cè)欄目框中識別出的可編輯文本格式內(nèi)容做參照對比,對識別過后文件的可編輯文本內(nèi)容進行初步校對核驗以及修改。
3.3 Word文本復(fù)驗校正
3.3.1 建立校驗標(biāo)準(zhǔn)
建立校驗標(biāo)準(zhǔn)是確保文件質(zhì)量和一致性的重要步驟,以下是本次研究中針對OCR識別轉(zhuǎn)換后的Word文件建立校驗標(biāo)準(zhǔn)的相關(guān)內(nèi)容:
校驗?zāi)康模罕敬涡r灅?biāo)準(zhǔn)的目的是為了確保標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word文件后標(biāo)準(zhǔn)內(nèi)容的規(guī)范性和正確性檢驗。保障識別轉(zhuǎn)換后的Word文件正文內(nèi)容的準(zhǔn)確性、格式的正確性以及對于復(fù)雜數(shù)學(xué)公式的可編輯性。在標(biāo)準(zhǔn)電子文件的PDF原文本與轉(zhuǎn)換后的Word文本整體的基本一致性下,保證兩者相參照對比后,識別轉(zhuǎn)換后的Word文件內(nèi)容的錯誤率在萬分之五以內(nèi)。
創(chuàng)建文件標(biāo)準(zhǔn)模板:針對PDF格式標(biāo)準(zhǔn)電子秤文件轉(zhuǎn)換成的Word標(biāo)準(zhǔn),特邀請在本行業(yè)的標(biāo)準(zhǔn)方面專家對于轉(zhuǎn)換后的Word文本文件進行審查糾改,并提出專業(yè)性的修改意見,確保識別后標(biāo)準(zhǔn)的正確性與準(zhǔn)確性。并基于這一修改意見對Word文件進行不斷糾改、版本迭代、再進行專家審核,直至形成準(zhǔn)確性與一致性兼容的標(biāo)準(zhǔn)文件模板,并在此基礎(chǔ)上對其它標(biāo)準(zhǔn)電子文件轉(zhuǎn)換后的Word文件進行校驗。
創(chuàng)建校驗清單及檢查表:針對本次研究課題中共455個PDF標(biāo)準(zhǔn)電子文件轉(zhuǎn)換后的Word文本文件,合計25,052頁內(nèi)容建立在線文件,進行各標(biāo)準(zhǔn)文件的明細(xì)錄入,包含標(biāo)準(zhǔn)類型、名稱、頁數(shù)、審核情況、審核日期、審核人、問題清單等字段注明。
3.3.2 格式一致性校驗
由標(biāo)準(zhǔn)電子文件轉(zhuǎn)換的Word文件中可能存在一些文件格式的錯誤,在Word文件的審核過程中,使用上文專家定義好的文件標(biāo)準(zhǔn)模板中的文本樣式,在標(biāo)題、段落、正文、引用等方面,確保每種樣式的字體、字號、行距、縮距等屬性的一致性。
文件中包含的標(biāo)題和子標(biāo)題,確保他們按照正確的層次結(jié)構(gòu)進行排列展示。使用Word中的標(biāo)題展示(例如標(biāo)題1、標(biāo)題2等)來定義不同級別的標(biāo)題,并確保這些標(biāo)題與原PDF文件一直且按照正確的順序出現(xiàn)。
審核文件中的段落格式,包括對齊方式、縮進、行距和間距等。確保同一類型的段落采用相同的格式設(shè)置,并保持與原PDF文件的一致性。
3.3.3 文本內(nèi)容校驗
針對標(biāo)準(zhǔn)電子文件轉(zhuǎn)換而成的Word文件,對于轉(zhuǎn)換后的文本內(nèi)容的正確性以及與原PDF文件的一致性的校驗審查。對于正文文本內(nèi)容的拼寫和語法檢查,啟用Word自帶的拼寫與檢查功能,用以捕捉在文本內(nèi)容中存在的一些拼寫錯誤、語法問題和錯誤的用法。Word會在文件中標(biāo)記存在的一些潛在問題和錯誤,并針對這些問題提出相應(yīng)的修改建議。
對于Wor d文本中存在的數(shù)據(jù)和數(shù)字進行一致性檢查。若文件中涉及數(shù)字和一些數(shù)據(jù)信息,為確保數(shù)據(jù)信息的準(zhǔn)確性和與原文件的一致性,故針對于數(shù)據(jù)格式、數(shù)值的內(nèi)容進行必要的驗證流程。
3.3.4 圖片和表格校驗
對于轉(zhuǎn)換后的Word文本文件,對于包含圖片和表格的文本要對圖片信息和表格信息進行校驗。
圖片的準(zhǔn)確性校驗要確保插入的圖片與文件內(nèi)容相符合,并且展示的圖片與原文件一致。要對圖片的清晰度校驗,檢查插入的圖片是否高清可辨識,避免圖片過于模糊失真等問題。對于圖片的大小校驗,要確認(rèn)插入的圖片大小適合當(dāng)前文件的排版布局,保證文件的美觀性和可讀性。對于圖片的對齊校驗,要檢查圖片的對齊方式,避免圖片與文本折疊從而影響文件的完整性。
對于表格內(nèi)容正確性的校驗,要注意表格結(jié)構(gòu),檢查表格結(jié)構(gòu)是否完整準(zhǔn)確,包括列數(shù)、行數(shù)、表頭等關(guān)鍵信息內(nèi)容是否缺失。確保表格的布局清晰,并與原文件保持一致。表格邊框和間距確保保持一致,使整體外觀統(tǒng)一。確保數(shù)據(jù)一致性,檢驗表格信息數(shù)據(jù)是否完整、準(zhǔn)確,避免出現(xiàn)混亂和錯誤的現(xiàn)象。
3.3.5 列表和編號校驗
確保整個文件采用相同的列表格式、檢查列表的縮進和對齊方法一致,且與原PDF文件保持一致。針對于編號順序和層次結(jié)構(gòu),要檢查編號列表的順序是否一致以及編號的層次結(jié)構(gòu)正確和對齊,并與原PDF文件保持一致。
3.3.6 特殊符號及公式校驗
若文件中存在特殊符號以及數(shù)學(xué)公式,要確保整個Word文件中的所有特殊格式符號正確性及準(zhǔn)確性,避免存在亂碼問題,且利用MathType軟件對公式及特殊符號進行編碼,以保證每個公式的可編輯性。
3.3.7 文件結(jié)構(gòu)校驗
檢查轉(zhuǎn)換后文件的結(jié)構(gòu)是否與原始文件相同,包括章節(jié)標(biāo)題、目錄、分頁等,保證轉(zhuǎn)換后的Word文件與原PDF文件保持一致。
3.4 Word文本終驗校正
Word文本的終驗校正環(huán)節(jié)是確保文件質(zhì)量和準(zhǔn)確性的最終步驟。
3.4.1 檢驗樣本選擇
本次研究采用分層抽樣的抽樣方法,將總體劃分為國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)三個模塊,然后從三個模塊中進行等比的隨機抽樣,以確保每個層級的代表性在最終審核的樣本中得到體現(xiàn)。檢驗標(biāo)準(zhǔn)同復(fù)驗的檢驗標(biāo)準(zhǔn)。
3.4.2 兼容性校驗
將轉(zhuǎn)換后的Word文件在不同版本的Word軟件中打開,確保文件能夠正確顯示并保持格式不變,且保障文本內(nèi)容的完整性和準(zhǔn)確性。
4 記錄和結(jié)果分析
根據(jù)上述對于標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的校驗方法和校驗流程,記錄校驗過程中的結(jié)果和發(fā)現(xiàn)的問題,并進行分析。如果發(fā)現(xiàn)問題,可以追蹤問題的原因,并采取適當(dāng)?shù)拇胧┻M行修復(fù)或改進。并通過三位一體的審查體系,最終保障轉(zhuǎn)換后的Word文件的準(zhǔn)確性和與原PDF文件的一致性標(biāo)準(zhǔn),確保上述校驗標(biāo)準(zhǔn)的PDF電子文件轉(zhuǎn)換為Word文件后錯誤率在萬分之五以內(nèi)。
參考文獻
[1]許芳,周庶江,張樹梅,等.電子文件格式轉(zhuǎn)換及歸檔[J].中國檔案,2004(9):40-41.
[2]孫文順,趙秀萍.PDF文件轉(zhuǎn)換的問題探討[J].印刷質(zhì)量與標(biāo)準(zhǔn)化,2011(6):59-61.
[3]張秀常.中英文混合識別的利器——ABBYY FineReader[J].中國教育信息化,2012(18):64-65.
作者簡介
譚笑,碩士研究生,高級工程師,從事標(biāo)準(zhǔn)研究工作。
王海虹,碩士研究生,教授級高工,從事標(biāo)準(zhǔn)研究工作。
楊萌,碩士研究生,教授級高工,從事產(chǎn)品質(zhì)量檢驗及標(biāo)準(zhǔn)化研究工作。
張勁松,本科,高級工程師,從事標(biāo)準(zhǔn)化工作。
梅朗一,專科,助理工程師,從事標(biāo)準(zhǔn)化工作。
(責(zé)任編輯:張瑞洋)