摘 要:本研究關(guān)注于標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為XML格式的校驗(yàn)方法,目的是確保轉(zhuǎn)換過(guò)程中內(nèi)容的準(zhǔn)確性和一致性。涉及455個(gè)國(guó)家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)的PDF文件,轉(zhuǎn)換為Word后再編程為機(jī)器可讀的XML格式。研究應(yīng)對(duì)轉(zhuǎn)換中出現(xiàn)的內(nèi)容錯(cuò)亂、標(biāo)簽錯(cuò)誤等問(wèn)題,強(qiáng)調(diào)校驗(yàn)的重要性。采用IntelliJ IDEA、Notepad++和Acrobat Adobe等工具,在初驗(yàn)、復(fù)驗(yàn)和終驗(yàn)三個(gè)階段執(zhí)行校驗(yàn)。通過(guò)建立嚴(yán)格的校驗(yàn)標(biāo)準(zhǔn)和檢查表,本研究將XML內(nèi)容錯(cuò)誤率控制在萬(wàn)分之五以下,有效支持標(biāo)準(zhǔn)文件的數(shù)字化轉(zhuǎn)型。
關(guān)鍵詞:標(biāo)準(zhǔn)行業(yè),標(biāo)準(zhǔn)電子文件轉(zhuǎn)換,XML格式校驗(yàn),機(jī)器可讀標(biāo)準(zhǔn)
DOI編碼:10.3969/j.issn.1002-5944.2024.16.006
0 引 言
隨著數(shù)字化轉(zhuǎn)型的深入,將標(biāo)準(zhǔn)電子文件有效轉(zhuǎn)換為XML格式并確保其機(jī)器可讀性成為一項(xiàng)關(guān)鍵任務(wù)。XML校驗(yàn)研究解決轉(zhuǎn)換過(guò)程中出現(xiàn)的內(nèi)容錯(cuò)亂、標(biāo)簽錯(cuò)誤等問(wèn)題,強(qiáng)調(diào)準(zhǔn)確性校驗(yàn)的重要性。本研究涵蓋455個(gè)標(biāo)準(zhǔn)文件的轉(zhuǎn)換工作涉及復(fù)雜的編程和準(zhǔn)確的校驗(yàn)過(guò)程。通過(guò)一系列細(xì)致的校驗(yàn)步驟,確保了轉(zhuǎn)換后XML文件的高度準(zhǔn)確性和機(jī)器可讀性。
1 研究背景
XML校驗(yàn)研究旨在探索和發(fā)展一種方法或技術(shù),以驗(yàn)證是標(biāo)準(zhǔn)電子文件在轉(zhuǎn)換為XML格式時(shí)的準(zhǔn)確性和一致性。在本次分析研究中,主要針對(duì)于國(guó)家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)三種標(biāo)準(zhǔn)類型,合計(jì)455個(gè)PDF文件,轉(zhuǎn)化成為的455個(gè)Word文件后,通過(guò)程序轉(zhuǎn)換成機(jī)器可讀的XML文件,共25,052頁(yè)標(biāo)準(zhǔn)進(jìn)行XML校驗(yàn)的研究分析。
1.1 標(biāo)準(zhǔn)電子文件機(jī)器可讀應(yīng)用
2021年10月發(fā)布的《國(guó)家標(biāo)準(zhǔn)化發(fā)展綱要》[1]明確要求,發(fā)展機(jī)器可讀標(biāo)準(zhǔn),推動(dòng)標(biāo)準(zhǔn)化工作向數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)型。利用HTML、XML、JSON等文件結(jié)構(gòu)化描述語(yǔ)言對(duì)現(xiàn)有標(biāo)準(zhǔn)內(nèi)容進(jìn)行重構(gòu)或編寫,可以實(shí)現(xiàn)標(biāo)準(zhǔn)內(nèi)容的結(jié)構(gòu)化,實(shí)現(xiàn)標(biāo)準(zhǔn)的機(jī)器可讀[2]。目前各標(biāo)準(zhǔn)化組織最廣泛使用的是基于XML格式的標(biāo)準(zhǔn)[3]。
1.2 轉(zhuǎn)換過(guò)程中潛在的問(wèn)題
在將標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為XML格式的過(guò)程中,可能會(huì)遇到多種問(wèn)題,如內(nèi)容錯(cuò)亂、標(biāo)簽錯(cuò)誤、標(biāo)簽丟失、標(biāo)簽內(nèi)容錯(cuò)誤等。這些問(wèn)題可能會(huì)導(dǎo)致XML文件與原版PDF內(nèi)容的不一致性和錯(cuò)誤,從而大大降低標(biāo)準(zhǔn)文件的機(jī)器可讀性和可用性。
1.3 校驗(yàn)的重要性
針對(duì)上述的轉(zhuǎn)換過(guò)程中存在的一些潛在的問(wèn)題,對(duì)于重要的標(biāo)準(zhǔn)文件,確保轉(zhuǎn)換后的文件與原始文件一致非常重要。校驗(yàn)過(guò)程可以幫助發(fā)現(xiàn)潛在的問(wèn)題和錯(cuò)誤,并提供修復(fù)或改進(jìn)的機(jī)會(huì),從而提高文件轉(zhuǎn)換的質(zhì)量和準(zhǔn)確性,并保障校驗(yàn)后的XML內(nèi)容的錯(cuò)誤率在萬(wàn)分之五以內(nèi)。
2 校驗(yàn)過(guò)程
校驗(yàn)過(guò)程是為了驗(yàn)證轉(zhuǎn)換后的XML文件與原始文件的一致性和準(zhǔn)確性。本次研究在將標(biāo)準(zhǔn)的電子文件轉(zhuǎn)化為XML的過(guò)程中,針對(duì)于XML文件的準(zhǔn)確性校驗(yàn)主要分為三個(gè)步驟,分別為初驗(yàn)、復(fù)驗(yàn)、終驗(yàn)。
初驗(yàn)過(guò)程是程序在生成XML時(shí),遇到標(biāo)簽未閉合、非XML所需標(biāo)簽、正文序號(hào)異常、特殊符號(hào)亂碼等問(wèn)題時(shí),程序會(huì)報(bào)錯(cuò)并生成錯(cuò)誤日志,根據(jù)報(bào)錯(cuò)日志修改程序。
復(fù)驗(yàn)過(guò)程是人工對(duì)程序生成的XML文件進(jìn)行審核,記錄存在問(wèn)題,及時(shí)修改程序或數(shù)據(jù)問(wèn)題,并對(duì)修改數(shù)據(jù)或程序后生成的XML文件進(jìn)行再次審核。
終驗(yàn)是對(duì)于復(fù)驗(yàn)結(jié)果進(jìn)行抽查驗(yàn)證的過(guò)程,針對(duì)復(fù)驗(yàn)后的文件選擇抽查多組標(biāo)準(zhǔn)電子文件樣本,確保抽查出來(lái)的樣本具有不同的特征和復(fù)雜性水平,以覆蓋潛在的識(shí)別問(wèn)題,是對(duì)復(fù)驗(yàn)后XML文件的可讀性和正確性的最終校驗(yàn)評(píng)判。
以此三個(gè)環(huán)節(jié)來(lái)對(duì)文件的正確性和規(guī)范性進(jìn)行審核并修改,用以保障標(biāo)準(zhǔn)XML文件內(nèi)容的錯(cuò)誤率低于萬(wàn)分之五的標(biāo)準(zhǔn)。
3 校驗(yàn)方法步驟
3.1 校驗(yàn)工具選擇
在本次標(biāo)準(zhǔn)電子文件轉(zhuǎn)XML的校驗(yàn)研究過(guò)程中,主要使用的文件準(zhǔn)確性校驗(yàn)工具如下文所示:
(1)IntelliJ IDEA:IntelliJ在業(yè)界被公認(rèn)為最好的Java開(kāi)發(fā)工具,尤其在智能代碼助手、代碼自動(dòng)提示、重構(gòu)、JavaEE支持、各類版本工具(git、svn等)、JUnit、CVS整合、代碼分析、創(chuàng)新的GUI設(shè)計(jì)等方面的功能可以說(shuō)是超常的。IDEA所提倡的是智能編碼,是減少程序員的工作,IDEA對(duì)所有流行框架的XML文件都支持全提示。
(2)Notepad++:Windows操作系統(tǒng)下的一套文本編輯器(軟件版權(quán)許可證: GPL),有完整的中文化接口及支持多國(guó)語(yǔ)言編寫的功能(UTF8技術(shù))。
功能比 Windows 中的 Notepad(記事本)強(qiáng)大,除了可以用來(lái)制作一般的純文字說(shuō)明文件,也十分適合編寫計(jì)算機(jī)程序代碼。Notepad++ 不僅有語(yǔ)法高亮度顯示,也有語(yǔ)法折疊功能,并且支持宏以及擴(kuò)充基本功能的外掛模組。
(3)Acrobat Adobe:由Adobe公司開(kāi)發(fā)的一款PDF(Portable Document Format,便攜式文檔格式)編輯軟件??梢砸訮DF格式制作和保存文檔,以便于瀏覽和打印,或使用更高級(jí)的功能。PDF 格式的文檔能如實(shí)保留原來(lái)的面貌和內(nèi)容,以及字體和圖像。
3.2 初驗(yàn)校正
通過(guò)IntelliJ IDEA開(kāi)發(fā)工具對(duì)生成XML的JAVA程序進(jìn)行初驗(yàn)校正。在IntelliJ IDEA工具中,對(duì)代碼進(jìn)行自動(dòng)分析,檢測(cè)不符合JAVA規(guī)范、預(yù)定義規(guī)范的,存在風(fēng)險(xiǎn)的代碼,任何不符合規(guī)范的都將在頁(yè)面中加亮顯示,根據(jù)加亮顯示的內(nèi)容進(jìn)行初步校對(duì)核驗(yàn)以及修改JAVA程序。
3.3 復(fù)驗(yàn)校正
3.3.1 建立校驗(yàn)標(biāo)準(zhǔn)
建立校驗(yàn)標(biāo)準(zhǔn)是確保文件質(zhì)量和一致性的重要步驟,以下是本次研究中針對(duì)轉(zhuǎn)換的XML文件建立校驗(yàn)標(biāo)準(zhǔn)的相關(guān)內(nèi)容:校驗(yàn)?zāi)康模?/p>
本次校驗(yàn)標(biāo)準(zhǔn)的目的是為了確保標(biāo)準(zhǔn)電子文件轉(zhuǎn)XML文件后標(biāo)準(zhǔn)內(nèi)容的規(guī)范性、正確性以及機(jī)器可讀性的檢驗(yàn)。保障轉(zhuǎn)換后的XML的標(biāo)簽、正文內(nèi)容以及文件圖表等的正確性。在標(biāo)準(zhǔn)電子文件的原文本與轉(zhuǎn)換后的XML文本內(nèi)容一致性下,保證兩者相參照對(duì)比后,識(shí)別轉(zhuǎn)換后的XML文件內(nèi)容以及標(biāo)簽的錯(cuò)誤率在萬(wàn)分之五以內(nèi)。
創(chuàng)建校驗(yàn)清單及檢查表:針對(duì)本次研究課題中共455個(gè)PDF標(biāo)準(zhǔn)電子文件轉(zhuǎn)換后的XML文本文件,合計(jì)25,052頁(yè)內(nèi)容建立在線文件,進(jìn)行各標(biāo)準(zhǔn)文件的明細(xì)錄入,包含標(biāo)準(zhǔn)類型、名稱、頁(yè)數(shù)、審核情況、審核日期、審核人、問(wèn)題清單等字段注明。
邀請(qǐng)?jiān)诒拘袠I(yè)的標(biāo)準(zhǔn)方面專家對(duì)于轉(zhuǎn)換后的XML文本文件進(jìn)行審查糾改,并提出專業(yè)性的修改意見(jiàn),確保識(shí)別后標(biāo)準(zhǔn)的正確性與準(zhǔn)確性。并基于這一修改意見(jiàn)對(duì)XML程序進(jìn)行不斷糾改、版本迭代、再進(jìn)行專家審核,直至形成準(zhǔn)確性與一致性以及機(jī)器可讀性兼容的標(biāo)準(zhǔn)文件。
3.3.2 校驗(yàn)標(biāo)準(zhǔn)正文
校驗(yàn)標(biāo)準(zhǔn)正文字段內(nèi)容,確保和標(biāo)準(zhǔn)PDF中標(biāo)準(zhǔn)正文內(nèi)容部分文字順序、換行一致。正文中附錄標(biāo)題如果有換行需要去掉。校驗(yàn)正文中標(biāo)簽內(nèi)容如表1所示。
3.3.3 校驗(yàn)公告
校驗(yàn)公告字段內(nèi)容,確保和標(biāo)準(zhǔn)PDF中公告正文內(nèi)容部分文字順序、換行一致。校驗(yàn)公告正文中標(biāo)簽內(nèi)容如表2所示。
3.3.4 校驗(yàn)條文說(shuō)明
校驗(yàn)條文說(shuō)明字段內(nèi)容,確保和標(biāo)準(zhǔn)PDF中條文說(shuō)明正文內(nèi)容部分文字順序、換行一致。校驗(yàn)條文說(shuō)明正文中標(biāo)簽內(nèi)容如表3所示。
3.3.5 校驗(yàn)封皮字段
根據(jù)標(biāo)準(zhǔn)PDF封皮校驗(yàn)如表4所示字段內(nèi)容。
3.3.6 校驗(yàn)?zāi)看?/p>
校驗(yàn)T A B L E O F C O N T E N T 目次、TABLEOFCONTENTENG英文目錄內(nèi)容,目次中缺少附錄或參考文獻(xiàn),但是正文中有附錄或參考文獻(xiàn)的,需要補(bǔ)充目次內(nèi)容。目次中一行是一個(gè)一級(jí)標(biāo)題,若出現(xiàn)一個(gè)標(biāo)題多行的情況需要去掉換行。
3.3.7 校驗(yàn)前言
校驗(yàn)FOREWORD前言字段,確保和標(biāo)準(zhǔn)PDF中標(biāo)準(zhǔn)前言內(nèi)容部分文字順序、換行一致。根據(jù)前言內(nèi)容拆分字段內(nèi)容如表5所示。
3.3.8 校驗(yàn)引言
校驗(yàn)INTRODUCTION引言字段,確保和標(biāo)準(zhǔn)PDF中標(biāo)準(zhǔn)引言內(nèi)容部分文字順序、換行一致。根據(jù)引言內(nèi)容拆分字段內(nèi)容如表6所示。
3.4 終驗(yàn)校正
本次研究采用分層抽樣的抽樣方法,將總體劃分為國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)三個(gè)模塊,然后從三個(gè)模塊中進(jìn)行等比的隨機(jī)抽樣,以確保每個(gè)層級(jí)的代表性在最終審核的樣本中得到體現(xiàn)。檢驗(yàn)標(biāo)準(zhǔn)同復(fù)驗(yàn)的檢驗(yàn)標(biāo)準(zhǔn)。
4 XML文件常見(jiàn)問(wèn)題
針對(duì)XML文件遇到常見(jiàn)問(wèn)題進(jìn)行匯總,具體內(nèi)容如下。
4.1 特殊符號(hào)
根據(jù)標(biāo)準(zhǔn)PDF內(nèi)容進(jìn)行修改,一般需要改成~,\" 需改成 “。如圖1所示。
4.2 正文標(biāo)題換行錯(cuò)誤
根據(jù)標(biāo)準(zhǔn)PDF內(nèi)容進(jìn)行修改,標(biāo)題序號(hào)與標(biāo)題內(nèi)容之間的換行需要去掉。如圖2所示。
4.3 多余符號(hào)
需要去掉“?!焙汀癐I”。如圖3所示。
4.4 術(shù)語(yǔ)中文多余展示英文
術(shù)語(yǔ)中文標(biāo)簽內(nèi)容中需要去掉英文內(nèi)容。如圖4所示。
4.5 圖名錯(cuò)誤
圖名標(biāo)簽內(nèi)容應(yīng)該是標(biāo)準(zhǔn)中圖片下方的以“圖+序號(hào)”開(kāi)頭的內(nèi)容。如圖5所示。
4.6 正文多余內(nèi)容
需要去掉多余的標(biāo)簽內(nèi)容,例如lt;Pgt;B lt;/Pgt;,lt;Pgt; lt;/Pgt;。如圖6所示。
4.7 正文中標(biāo)準(zhǔn)號(hào)引用標(biāo)簽
正文中或者表格中涉及到標(biāo)準(zhǔn)號(hào)的需要添加reference引用標(biāo)簽。如圖7所示。
4.8 標(biāo)題正文錯(cuò)位
需要根據(jù)標(biāo)準(zhǔn)PDF內(nèi)容校驗(yàn)標(biāo)題和標(biāo)題對(duì)應(yīng)的正文內(nèi)容。如圖8所示。
4.9 標(biāo)題標(biāo)簽缺失
帶序號(hào)的標(biāo)題需要添加標(biāo)題標(biāo)簽。如圖9所示。
4.10 正文中示例標(biāo)簽
正文中帶有示例的內(nèi)容需要添加example示例標(biāo)簽。如圖10所示。
5 記錄和結(jié)果分析
根據(jù)上述對(duì)于標(biāo)準(zhǔn)電子文件轉(zhuǎn)XML的校驗(yàn)方法和校驗(yàn)流程,記錄校驗(yàn)過(guò)程中的結(jié)果和發(fā)現(xiàn)的問(wèn)題,并進(jìn)行分析。如果發(fā)現(xiàn)了問(wèn)題,可以追蹤問(wèn)題的原因,并采取適當(dāng)?shù)拇胧┻M(jìn)行修復(fù)或改進(jìn)。并通過(guò)三位一體的審查體系,最終保障轉(zhuǎn)換后的XML文件的準(zhǔn)確性和與原PDF文件的內(nèi)容一致性標(biāo)準(zhǔn),確保了上述校驗(yàn)標(biāo)準(zhǔn)的PDF電子文件轉(zhuǎn)換為XML文件后錯(cuò)誤率在萬(wàn)分之五以內(nèi)。
參考文獻(xiàn)
[1]國(guó)家標(biāo)準(zhǔn)化發(fā)展綱要[J].大眾標(biāo)準(zhǔn)化,2023(10):200.
[2]陳家賓,趙鑫,王琮,等.機(jī)器可讀標(biāo)準(zhǔn)表達(dá)方式探討[J].信息技術(shù)與標(biāo)準(zhǔn)化,2022(10):43-46.
[6]陳雙玲,宋青霞.為何文本文件歸檔推薦采用XML格式[C]//山東省檔案學(xué)會(huì).齊魯檔案論壇——山東省檔案學(xué)會(huì)2009年學(xué)術(shù)年會(huì)會(huì)刊.濟(jì)鋼集團(tuán)有限公司辦公室,2009:5.
作者簡(jiǎn)介
王海虹,碩士研究生,教授級(jí)高工,從事標(biāo)準(zhǔn)研究工作。
楊萌,碩士研究生,教授級(jí)高工,從事產(chǎn)品質(zhì)量檢驗(yàn)及標(biāo)準(zhǔn)化研究工作。
張勁松,本科,高級(jí)工程師,從事標(biāo)準(zhǔn)化工作。
譚笑,碩士研究生,高級(jí)工程師,從事標(biāo)準(zhǔn)研究工作。
羅小強(qiáng),本科,中級(jí)職稱(應(yīng)急工程),從事應(yīng)急救援工作。
(責(zé)任編輯:張瑞洋)
中國(guó)標(biāo)準(zhǔn)化2024年16期