唐雪梅
(中石化西南油氣分公司 勘探開發(fā)研究院,四川 德陽 618000)
隨著成果資料的海量增長,成果資料格式檢查工作量十分繁重。為解決各種地質(zhì)科研項(xiàng)目成果提交的文檔格式需與上級要求的歸檔標(biāo)準(zhǔn)格式嚴(yán)格相符的問題,技術(shù)人員經(jīng)常面對電腦屏幕進(jìn)行檢查。而對于電子文檔屏幕上展示的格式,如果不認(rèn)真核對資料格式,就不能得到修正。作者在長期從事檢查資料格式的過程中,從研究電子文檔的不同格式入手,找到了Word文檔的XML格式這個(gè)切入點(diǎn),從自己熟悉的編程語言入手,編制了一個(gè)功能較全的Word電子文檔格式檢查工具,可以快速地輔助解決進(jìn)行資料歸檔前與標(biāo)準(zhǔn)歸檔格式的匹配問題[16],大大減少了人工進(jìn)行資料翻閱的強(qiáng)度,提高了文檔糾錯(cuò)率。
XML即可擴(kuò)展標(biāo)記語言(eXtensible Markup Language)。標(biāo)記是指計(jì)算機(jī)所能理解的信息符號,通過此種標(biāo)記,計(jì)算機(jī)之間可以處理包含各種信息的文章等[15]。如何定義這些標(biāo)記,既可以選擇國際通用的標(biāo)記語言(比如HTML),也可以使用象XML這樣由相關(guān)人士自由決定的標(biāo)記語言,這就是語言的可擴(kuò)展性。XML是一套定義語義標(biāo)記的規(guī)則,這些標(biāo)記將文檔分成許多部件并對這些部件加以標(biāo)識(shí);它也是元標(biāo)記語言,即定義了用于定義其他與特定領(lǐng)域有關(guān)的、語義的、結(jié)構(gòu)化的標(biāo)記語言的句法語言。用戶可以定義自己需要的標(biāo)記,這些標(biāo)記必須根據(jù)某些通用的原理來創(chuàng)建,但是在標(biāo)記的意義上,也具有相當(dāng)?shù)撵`活性。一個(gè)簡單的XML格式描述的錯(cuò)誤信息表示為:
簡單說,XML就是一種數(shù)據(jù)的描述語言,雖然它是語言,但是通常情況下,它并不具備常見語言的基本功能即被計(jì)算機(jī)識(shí)別并運(yùn)行[6]。只有依靠另一種語言,來解釋它,使它達(dá)到你想要的效果或被計(jì)算機(jī)所接受作為一種便捷的數(shù)據(jù)操作和數(shù)據(jù)傳輸?shù)臉?biāo)準(zhǔn),在如今各種網(wǎng)絡(luò)應(yīng)用系統(tǒng)開發(fā)過程中發(fā)揮著越來越重要的作用。特別是現(xiàn)在,各單位、企業(yè)都不止一個(gè)應(yīng)用系統(tǒng),數(shù)據(jù)不同步、數(shù)據(jù)不共享已經(jīng)給人們工作中帶來了許多麻煩。而各系統(tǒng)的數(shù)據(jù)庫不同,開發(fā)平臺(tái)不同也直接給數(shù)據(jù)共享的實(shí)現(xiàn)帶來了很大的困難,XML所具有的靈活性恰恰可以解決這一數(shù)據(jù)傳輸問題,使得不同平臺(tái)數(shù)據(jù)庫的數(shù)據(jù)有了一個(gè)自定義的標(biāo)準(zhǔn),開發(fā)人員可以利用XML跨越不同平臺(tái)和不同數(shù)據(jù)庫系統(tǒng),利用程序把數(shù)據(jù)轉(zhuǎn)換為XML進(jìn)行共享。
WordProcessingML(簡稱 WordML)即 Word標(biāo)記語言,它是傳統(tǒng)Word文檔格式和內(nèi)容的一種鏡像處理格式。這種標(biāo)記語言其實(shí)派生于結(jié)構(gòu)定義比較廣泛的XML格式。自Microsoft Office Word 2003伊始,新增了支持WordML的功能,引入了生成 WordML文檔的“Save as XML”命令。這種XML支持是其最令人興奮和最強(qiáng)大的功能之一,它針對XML進(jìn)行了完整設(shè)計(jì),并支持WordML的原生XML詞匯。從這以后,當(dāng)雙擊一個(gè)由Word生成的XML文檔時(shí),Windows加載程序會(huì)自動(dòng)將該文件與Word進(jìn)行關(guān)聯(lián)。WordML非常強(qiáng)大和靈活,足以捕獲整個(gè)往返過程中Word文檔的所有多信息編輯和格式。如果在Word中創(chuàng)建一個(gè)普通文檔,將其保存為WordML,然后再從Word中打開它,該文檔就能保證與原始文檔一樣。Word文檔的宏觀WordML描述結(jié)構(gòu)如下:
從上面的格式也可以看出,XML與WordML格式是同承一脈,只是WordML是專門針對Word文檔定義的一種標(biāo)記語言。WordML格式的文檔使用的根標(biāo)記必須是“w:wordDocument”,根元素的名稱“wordDocument”來自http://schemas.microsoft.com/office/word/2003/WordML 命 名 空間。在WordML中,一般使用前綴“w”來引用這個(gè)命名空間。然后在根標(biāo)記對之間結(jié)合使用其它的標(biāo)記進(jìn)行文檔屬性、字體、列表、樣式以及包括部分段落實(shí)體等的詳細(xì)描述。當(dāng)從Windows資源管理器中雙擊該文件時(shí),Windows會(huì)自動(dòng)確定它是WordML文檔(通過檢查頂部的mso-application處理說明),然后啟動(dòng)Word來處理它。
批量檢查Word文檔的可行性。眾所周知,包含有圖片、文字等復(fù)雜對象的Word文檔是不可識(shí)別的二進(jìn)制代碼,文檔撰寫人在沒有Word編輯器的情況下,是不能直接通過文檔本身對其進(jìn)行編輯和修改的,如果強(qiáng)行修改會(huì)導(dǎo)致文檔格式錯(cuò)誤。即使能夠修改,也需要利用OfficeVBA、OLE對象、自動(dòng)化控件或者支持其相關(guān)操作的控件等編程實(shí)現(xiàn)。但如果能夠?qū)ord文檔呈現(xiàn)為XML格式,這種編輯和修改將會(huì)變得方便和容易,而且具有很好的通用性[3]。圖1是 Word文檔按照 WordML描述的一種文檔模型,展示了其清楚的結(jié)構(gòu)模型和良好的層次關(guān)系。圖2則是一段示例文本片段的XML格式段落描述圖。正如Word編輯器中一樣,WordML中的描述結(jié)構(gòu)也以段落標(biāo)記對<p></p>體現(xiàn)。這種描述格式不僅使對象和內(nèi)容一目了然,更重要的是它非常強(qiáng)大和靈活的格式,保證了與Word文檔的完美互換。如果熟悉WordML格式,用戶僅用簡單的記事本工具就可以完成很多的文檔修訂工作。鑒于此,我們通過WordML格式標(biāo)記進(jìn)行解析,將標(biāo)準(zhǔn)歸檔文件的XML數(shù)據(jù)和準(zhǔn)備提交的成果資料數(shù)據(jù)的XML數(shù)據(jù)進(jìn)行對比統(tǒng)計(jì)分析,找到與標(biāo)準(zhǔn)格式的差別,并通過自動(dòng)或者手工修改,這就具備了批量檢查Word文檔的可行性。
圖1 WordML描述文檔框架結(jié)構(gòu)Fig.1 The frame structure of WordML document
WordML(WordProcessingML)是自 Office 2003 Reference Schemas開始的后續(xù)版本提供的一種XML方案,它描述了如何將一份Word文檔以及相關(guān)聯(lián)的部分(如字形、字體、表格、圖形等諸如此類),以XML文檔的形式表現(xiàn)。通過對WordML編程來操作Word,就可以在不用引入第三方庫的情況下,把Word當(dāng)作XML文本來操作,并且可以在沒有安裝Word的機(jī)器上運(yùn)行。最簡單的WordML文檔僅僅包含五種基本元素和一個(gè)命名空間(namespace),基本結(jié)構(gòu)由document和body元素組成,后跟一個(gè)或多個(gè)塊級元素,如表示段落的p[12]。一個(gè)段落包含一個(gè)或多個(gè)r元素。r代表一段連續(xù)文本,它是具有一組共同屬性(如格式設(shè)置)的文本區(qū)域。一段連續(xù)文本包含一個(gè)或多個(gè)t元素,t元素包含一個(gè)文本區(qū)域。表1列出了document、body、p、r和t元素在WordML中的含義。
如圖2中選擇部分的段落描述和字體描述。我們通過讀?。紁>標(biāo)記的元素就能夠獲取有關(guān)文檔段落的信息,再通過其中的子元素標(biāo)記<pPr>可以獲得段落屬性,通過<r>就可以獲取與運(yùn)行屬性相關(guān)的一系列參數(shù)。如果對<r>再細(xì)分下去,可以通過<rFonts>獲取字體格式,通過<t>獲取段落之中的文本片段。如果對其中的所有項(xiàng)目進(jìn)行解析,就可以獲取Word文檔包括內(nèi)容和格式的完整信息。圖3代表只包含一個(gè)文字片段“如何快速檢查成果資料格式”的XML格式標(biāo)識(shí)和Word編輯工具顯示格式的匹配關(guān)系。
表1 Document、body、p、r和t元素在 WordML中的含義Tab.1 Meaning of"document","body","p","r"and"t"element in the WordML document
圖2 Word轉(zhuǎn)換的XML格式段落標(biāo)記片段Fig.2 A part of the mark language for the paragraph of XML format transferred from the Word document
在 .Net編程過程中,利用XMLReader、XMLWriter等操作類進(jìn)行XML格式數(shù)據(jù)的讀取和篩選操作,這種解析方式具有很大的通用性,而且可以隨機(jī)地解析WordML中的任何一個(gè)部分,也可以解析整個(gè)文檔,但是這要求編程的時(shí)候結(jié)構(gòu)考慮要周到,否則隨著解析量的增加,組合方式的變化,程序的編制工作將會(huì)越來越復(fù)雜。
圖3 Word文檔XML描述與Word編輯器顯示對比舉例Fig.3 Comparison of format description based on XML for Word document and Office Word editor show styles
地質(zhì)成果資料是復(fù)雜的,每種資料的歸檔格式要求不盡相同。編制格式檢查工具的時(shí)候要盡量使其具有通用性,這樣才能夠以不變應(yīng)萬變。其實(shí)縱觀各種歸檔資料的檢查對比工作,均脫離不了兩個(gè)主要的檢查點(diǎn):①內(nèi)容的糾錯(cuò);②格式的檢查。在要求標(biāo)準(zhǔn)的歸檔格式之后,無論是成果報(bào)告、還是科研報(bào)告,既有共同點(diǎn),也有不同點(diǎn)。共同點(diǎn)是各種成果報(bào)告均會(huì)涉及標(biāo)題、目錄、正文、參考文獻(xiàn)等類似的版塊,均涉及到內(nèi)容是否有錯(cuò)和段落、字體格式等是否有統(tǒng)一標(biāo)準(zhǔn)等問題。而不同點(diǎn)是不同的報(bào)告或者論文不同的版塊可能出現(xiàn)的位置不一樣,體現(xiàn)的形式如版面設(shè)置、段落格式、字體格式等不一樣。在編制批量檢查工具時(shí),需要把對格式要求明顯的標(biāo)題、目錄、正文、參考文獻(xiàn)等版塊分離出來,然后對每個(gè)版塊的標(biāo)題格式、正文格式、所在位置、頁碼、頁眉頁腳、邊距等格式進(jìn)行標(biāo)準(zhǔn)設(shè)置,并獨(dú)立保存為一個(gè)標(biāo)準(zhǔn)的格式文檔,并轉(zhuǎn)換成WordML格式描述文件(見圖3)。
將成果資料的每個(gè)關(guān)注版塊獨(dú)立出來,格式和內(nèi)容都清楚明了,便于對比和檢查,更能夠保證在格式檢查時(shí)其相對獨(dú)立性,即使其中某個(gè)版塊檢查可能出現(xiàn)錯(cuò)誤,也不會(huì)影響到其它的版塊的檢查正確與否,這樣就能全面控制成果資料歸檔格式的檢查的準(zhǔn)確率。要能準(zhǔn)確地檢查一份歸檔成果資料,首要條件是設(shè)置標(biāo)準(zhǔn)的成果資料格式。格式設(shè)置主要有:紙型、頁邊距,字體大小,顏色,行高等。對于不同部份分別設(shè)置不同的格式,如標(biāo)題是小二號字、內(nèi)容是四號字等。讓被檢查的歸檔資料與這標(biāo)準(zhǔn)格式進(jìn)行匹配和對比,匹配不成功就生成錯(cuò)誤報(bào)告或者發(fā)現(xiàn)與標(biāo)準(zhǔn)格式異常的部分就提出糾錯(cuò)建議。整個(gè)檢查工作的流程歸結(jié)起來如圖4所示。
圖4 歸檔資料與標(biāo)準(zhǔn)格式檢查對比流程圖Fig.4 Flow chart of contrast examination of format of archiving data and standard of presupposition
資料格式檢查對比功能是本文討論的重點(diǎn)。程序可以直接完成Word到WordML格式的轉(zhuǎn)換工作,然后與標(biāo)準(zhǔn)XML文檔模板進(jìn)行比較,將對比檢查結(jié)果或者修改意見通過檢查工具以信息或者輸出文件的方式展現(xiàn)給用戶。因?yàn)槭褂昧艘环N易適配、易轉(zhuǎn)換的XML通用數(shù)據(jù)格式,所以各個(gè)模塊轉(zhuǎn)換和傳遞的數(shù)據(jù)都有統(tǒng)一的格式和標(biāo)準(zhǔn),可以為后續(xù)檢查功能的增加提供方便靈活的接口。檢查工具目前具備如下的幾項(xiàng)檢測功能:
(1)頁面設(shè)置檢查。頁面格式檢查較為簡單,利用標(biāo)準(zhǔn)格式提供的頁面設(shè)置參數(shù)與提供的歸檔資料XML格式對比主要參數(shù),如遇主要設(shè)置參數(shù)有差異,便在輸出報(bào)告中進(jìn)行輸出和提醒,并給出正確的頁面設(shè)置參數(shù):
(2)封面和扉頁的格式檢查。目前所涉及的地質(zhì)歸檔資料封面和扉頁的格式相對簡單,對照標(biāo)準(zhǔn)格式的頁碼范圍、題目格式,設(shè)置參數(shù)和子項(xiàng)目格式設(shè)置參數(shù)進(jìn)行掃描并逐條對比,并按照格式的先后檢查輸出結(jié)果就可以。主要區(qū)別點(diǎn)在于段落的行間距、字體、字號等的區(qū)別。
(3)標(biāo)題和正文的格式檢查。在 Word文檔中,標(biāo)題的體現(xiàn)方式有很多種,但在一個(gè)標(biāo)準(zhǔn)格式的報(bào)告中,標(biāo)題格式只需要規(guī)定需要的級數(shù)即可,WordML中通過使用<wx:sub-section>標(biāo)記的嵌套表示標(biāo)題的級數(shù)和上下級關(guān)系(見圖5)。在進(jìn)行格式檢查的時(shí)候,可將首次遇到的標(biāo)題級別標(biāo)志設(shè)置為“0”,遇到與規(guī)定標(biāo)題格式相一致的定義則將級別的標(biāo)志增加“1”,如果遇到與定義格式不匹配的標(biāo)題格式,則與正文格式進(jìn)行匹配,如果找不到標(biāo)題和正文的匹配項(xiàng),則輸出不匹配信息和提出修改警告,如果遇到同級標(biāo)題匹配結(jié)束,則將檢查標(biāo)題的級別標(biāo)志相應(yīng)減“1”。直到標(biāo)題級別標(biāo)志編程為“0”時(shí),則表示完成了報(bào)告中某一部分的不同級別的格式對比檢查,如此循環(huán)整個(gè)文檔,就可以完成所有部分和級別的標(biāo)題格式檢查。
圖5 有<wx:sub-section>標(biāo)記分級標(biāo)題(上)和使用普通格式的標(biāo)題分級的WordML格式(下)Fig.5 Format of using"<wx:sub-section>"mark(upper)and normal format(lower)of classification title
正文格式的提取和檢測在格式檢查過程中是最簡單的,如果僅是正文格式的判斷,則會(huì)相對容易。在小篇幅的文檔,人工操作也容易解決,如果是超大篇幅的成果報(bào)告,僅憑手工檢查,工作量是非常巨大。此時(shí)最好還是編程實(shí)現(xiàn)檢查,但無論文件的大小與否,想通過WordML操作,都將會(huì)變得非常復(fù)雜。同時(shí),在WordML描述之中,標(biāo)題和正文是沒有嚴(yán)格的區(qū)分界限的,如果文檔沒有嚴(yán)格按照標(biāo)題樣式來定義,那么確定標(biāo)題之間的順序或者確定標(biāo)題和正文就會(huì)相當(dāng)困難。例如不同的標(biāo)題使用相同的格式,將很難檢測出上下級標(biāo)題;另外,如果標(biāo)題使用正文的格式,也將無法判斷這種版式,因?yàn)樵赪ordML中,標(biāo)題和正文都是當(dāng)作段落來處理,用<w:p>標(biāo)記表示。因此,在程序編制中只能增加輔助判斷“×.×”或者“×.×.×”的格式進(jìn)行近似匹配來確定,并將所有的標(biāo)題按名稱和級別輔助羅列出來供用戶檢查對比。
(4)圖表格式編號檢查。圖表內(nèi)容在現(xiàn)代圖文并茂風(fēng)格的報(bào)告中也占據(jù)相當(dāng)大的比例,手工檢查圖表格式也相對容易,畢竟圖表的顯示狀態(tài)很直觀,尺寸、版式稍有變化就很容易體現(xiàn)出其不同之處。但文章中編號的檢查就沒有那么容易了,必須逐項(xiàng)進(jìn)行對比檢查,否則就會(huì)出現(xiàn)錯(cuò)誤和遺漏。在成果報(bào)告的編排中,一般圖表的標(biāo)題和引用,均有一定的格式要求,在編程中進(jìn)行檢查判斷也是可行的。如利用“圖”“表”后跟數(shù)字一般均為圖表項(xiàng),利用其所在的章節(jié)數(shù)或者圖表的編號,就可以判斷圖表是否連續(xù)編號并判斷引用的圖表號是否在圖表索引號范圍之內(nèi)。下面列出圖表的引用編號及其標(biāo)題說明格式示例:
以上為標(biāo)準(zhǔn)格式中圖、表標(biāo)題的WordML描述,其樣式和字體都已清楚說明。
(5)文字及拼寫錯(cuò)誤檢查。在WordML中,錯(cuò)別字的檢測是較容易實(shí)現(xiàn)的。Word XML文檔對象模型中,通過對XMLShowAdvancedErrors屬性的設(shè)置,可返回包含關(guān)于錯(cuò)別字的信息。Word文檔編輯器中錯(cuò)別字是以下滑波浪線形式注明的(見圖6(a))。在 WordML中,則以proofErr標(biāo)記注明(見圖6(b))。
在程序中,直接對proofErr節(jié)點(diǎn)進(jìn)行解析,然后在檢查信息輸出文件中將前后的上下文與找到的錯(cuò)誤信息文本一并顯示和提示,給用戶提出錯(cuò)別字修正意見。
由于歸檔資料來源不同,其格式也會(huì)有些差異,如科研報(bào)告和成果報(bào)告文檔格式都來自各研究部門和各地震施工隊(duì)伍提交的成果資料報(bào)告,如何快速地進(jìn)行提交文檔的格式檢測是十分必要的。經(jīng)作者在多份成果資料的檢查工作中測試,此檢查工具運(yùn)行正常,能夠較快地輸出提交成果資料與標(biāo)準(zhǔn)格式的對比結(jié)果,甚至將從提交資料中發(fā)現(xiàn)的格式異常點(diǎn)進(jìn)行全部輸出,方便后續(xù)的人工檢查和核對。圖7顯示了某份成果資料檢查的整個(gè)過程,圖7(a)是檢查報(bào)告格式之前設(shè)置的標(biāo)準(zhǔn)格式,圖7(b)為其部分XML格式數(shù)據(jù)。檢查工具的工作界面如圖8所示,輸出的檢查結(jié)果見圖9。
經(jīng)過測試,本系統(tǒng)的準(zhǔn)確率在90%以上,其中的10%包括能夠正確指出的成果報(bào)告格式異常點(diǎn)但程序無法處理的部分。因?yàn)槭巧婕暗酱罅康奈谋窘馕?,對于較大成果資料解析耗時(shí)相對較長,但一般的200頁左右的成果報(bào)告,數(shù)秒鐘之內(nèi)就能夠完成成果資料的快速逐行掃描檢查,同時(shí)生成錯(cuò)誤格式報(bào)告以及糾正方法。但如果使用單純?nèi)斯頇z查對比的話,至少要花費(fèi)數(shù)十分鐘至數(shù)小時(shí)的時(shí)間,而且還經(jīng)常出現(xiàn)遺漏的錯(cuò)誤。因此利用此檢查工具協(xié)助人工操作,可以極大地提高檢查效率和結(jié)果準(zhǔn)確率。
圖8 軟件檢查過程運(yùn)行界面截圖Fig.8 Screen-capture of software running interface
圖9 某地質(zhì)成果報(bào)告檢查輸出結(jié)果Fig.9 Checked result of one report of geological results
Office系列辦公工具已經(jīng)是一個(gè)功能非常強(qiáng)大的文字編輯工具,如今支持開放式標(biāo)記語言XML格式,更讓其如虎添翼,它不但極大地提高了人們的工作效率和改變了人們的辦公習(xí)慣,更多的為用戶提供了方便和靈活的文字編輯方式,通過這種能使數(shù)據(jù)更易適配或更易轉(zhuǎn)換的通用數(shù)據(jù)格式,XML正在徹底改變應(yīng)用程序和用戶間的交互方式。利用XML格式進(jìn)行格式解析和檢查判斷只是成果資料管理手段之一,它充分利用計(jì)算機(jī)快速運(yùn)算的特點(diǎn),來輔助人工進(jìn)行部分格式檢查核實(shí),但其檢查工作的正確與否最終要靠人工檢查來核實(shí)確認(rèn)。這種檢查方式不僅能應(yīng)用于成果歸檔資料的格式檢查工作,還可以應(yīng)用于類似如論文、報(bào)紙、雜志等出版行業(yè)的書寫格式檢查工作。通過這樣的一種智能化、自動(dòng)化的檢查步驟,可以很大程度地減少人工工作強(qiáng)度,改變以往效率低、耗時(shí)長、檢查不全面、出錯(cuò)率高等弊端。雖然不能替代Word的功能,但在一定程度上可提高人們的工作效率。當(dāng)然,檢查工具的穩(wěn)定性和實(shí)用性還需要進(jìn)一步的測試和完善,作者將在今后的工作中進(jìn)一步優(yōu)化檢測判斷方法,增加錯(cuò)誤自動(dòng)修訂等功能,讓軟件的功能更加智能化,這將成為后期工作中最具期待性的目標(biāo)。
[1]劉俊崝,陸現(xiàn)采,徐士進(jìn),等.基于XML的地質(zhì)信息共享與交換模型[J].物探化探計(jì)算技術(shù),2001,23(2):160-165.
[2]肖曉玲,盧正鼎,張翔.VC與Fortran混合編程及其在大地電磁測深中的應(yīng)用[J].物探化探計(jì)算技術(shù),2000,22(1):82-85.
[3]陳國勝,何宗明.基于XML技術(shù)的Word文檔錄入及格式檢測系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)時(shí)代,2009(4):35-37.
[4]徐東風(fēng),彭紅星.廖俊杰.基于Java的文檔格式檢查技術(shù)的研究及其應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(19):4309-4315.
[5]陳呈超,秦勃.基于學(xué)術(shù)論文質(zhì)量模型的檢索排序算法研究[J].中國海洋大學(xué)學(xué)報(bào),2008,38(1):135-138.
[6]Charles F Goldfarb.XML實(shí)用技術(shù)[M].北京:清華大學(xué)出版社,1999.
[7]唐洪彬.Word、Excel自動(dòng)閱卷系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].宿州教育學(xué)院學(xué)報(bào),2004,7(2):55-57.
[8]曹益華,張昱.DTD可選的XML訪問控制研究[J].微型計(jì)算機(jī)系統(tǒng),2008(1):73-79.
[9]余雙,曹冬磊,戴蓓潔,等.高效XML驗(yàn)證技術(shù)的實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(4):937-941.
[10]吳潔.XML應(yīng)用教程[M].北京:清華大學(xué)出版社,2005.
[11]丁躍潮,張濤.XML實(shí)用教程[M].北京:北京大學(xué)出版社,2006.
[12]李文峰,段紅亮.Java實(shí)現(xiàn) Word文檔到XML文檔的轉(zhuǎn)換淺析[J].現(xiàn)代計(jì)算機(jī),2008(3):158-160.
[13]晶辰工作室.Word 2000VBA開發(fā)實(shí)例指南[M].北京:電子工業(yè)出版社,2000.
[14]李貴林,李建中,楊艷.用Plug-in實(shí)現(xiàn)對PDF文件的信息提?。跩].計(jì)算機(jī)應(yīng)用,2003(2):110-112
[15]開放的XML開發(fā)官方網(wǎng)站[N/OL].http://openxmldeveloper.org/default.aspx.
[16]石油天然氣勘探與開發(fā)地質(zhì)成果報(bào)告編制要求[S].中石油化工集團(tuán)公司企業(yè)標(biāo)準(zhǔn)Q/SH 0166-2008.