劉羽,王輝,王賀
摘要:目的:研究基于PDF文件解析的圖譜數(shù)據(jù)提取方法,解決“數(shù)據(jù)孤島”問(wèn)題,實(shí)現(xiàn)數(shù)據(jù)的有效整合。方法:通過(guò)對(duì)PDF格式的圖譜報(bào)告頁(yè)面結(jié)構(gòu)進(jìn)行拆解、分析、歸納,逐步以示例展示PDF格式圖譜文件的數(shù)據(jù)提取方法。一方面說(shuō)明現(xiàn)有的PDF文本提取技術(shù)的原理,另一方面進(jìn)一步研究對(duì)圖譜曲線(xiàn)采用坐標(biāo)變換進(jìn)行還原以獲得逼近原始數(shù)據(jù)真實(shí)值的數(shù)據(jù)的方法,并就處理后的圖譜數(shù)據(jù)的應(yīng)用方向進(jìn)行了展望。結(jié)論:本文的研究結(jié)果表明,以PDF格式文件為媒介,可以將各類(lèi)圖譜報(bào)告的轉(zhuǎn)化為自定義的數(shù)據(jù),實(shí)現(xiàn)有效整合實(shí)驗(yàn)室資源,并為圖譜報(bào)告的數(shù)據(jù)挖掘及AI應(yīng)用創(chuàng)造條件。
關(guān)鍵詞:PDF;圖譜;Python;數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):R95? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)34-0134-07
1 引言
儀器分析是現(xiàn)代科學(xué)研究的重要手段,在研究中,通常會(huì)采用不同的方法(如液相色譜、氣相色譜、質(zhì)譜、核磁共振、熱分析等)對(duì)同一目標(biāo)從多角度進(jìn)行研究,其產(chǎn)生的圖譜直接或間接地反映出了被研究對(duì)象特定的物理化學(xué)性質(zhì)[1-3]。這種研究策略在藥學(xué)類(lèi)的檢驗(yàn)及研究領(lǐng)域極為常見(jiàn)。
現(xiàn)代分析儀器通常采用儀器+PC+工作軟件/工作站的形式組成功能完整的系統(tǒng):處理后的樣品通過(guò)儀器上不同原理的傳感器檢測(cè),獲得模擬的電信號(hào),經(jīng)過(guò)模擬電信號(hào)/數(shù)字信號(hào)之間的轉(zhuǎn)換,成為PC設(shè)備可以處理的二進(jìn)制數(shù)據(jù),再通過(guò)PC所搭載的工作軟件/工作站中所包含相關(guān)函數(shù)的處理,得到可進(jìn)行各類(lèi)計(jì)算的圖譜數(shù)據(jù),并生成各類(lèi)專(zhuān)屬格式的數(shù)據(jù)文件,報(bào)告管理程序通過(guò)調(diào)用報(bào)告模板和圖譜數(shù)據(jù)生成圖譜報(bào)告。
商業(yè)化的工作軟件或工作站通常因?yàn)楣ぷ髂繕?biāo)、開(kāi)發(fā)時(shí)間、編寫(xiě)語(yǔ)言的不同,形成了相對(duì)封閉的系統(tǒng),其專(zhuān)有文件的數(shù)據(jù)結(jié)構(gòu)無(wú)法被其他軟件識(shí)別。
隨著儀器分析及網(wǎng)絡(luò)信息技術(shù)的發(fā)展,為了提高工作效率,面向數(shù)據(jù)整合與管理為目的的科學(xué)數(shù)據(jù)管理系統(tǒng)(SDMS:Scientific Data Management System)及由此拓展而開(kāi)發(fā)的實(shí)驗(yàn)室信息管理系統(tǒng)(LIMS: Laboratory Information Management System)正逐漸普及[4-6],此類(lèi)系統(tǒng)通常是由第三方開(kāi)發(fā)的,與分析儀器的原生工作軟件或工作站存在兼容性的問(wèn)題,也無(wú)法直接使用專(zhuān)有格式的數(shù)據(jù)文件。
而各儀器廠(chǎng)商所推出的配套網(wǎng)絡(luò)版數(shù)據(jù)管理系統(tǒng)僅對(duì)自有品牌的儀器進(jìn)行支持,與其他品牌的儀器之間也存在兼容性問(wèn)題。
大量的相關(guān)數(shù)據(jù)以不同的文件格式分布于各類(lèi)的系統(tǒng)之中,形成了相互隔絕而又內(nèi)容豐富的數(shù)據(jù)孤島[7]。上述問(wèn)題對(duì)數(shù)據(jù)的獲取、集成與處理提出了挑戰(zhàn)。
為了解決數(shù)據(jù)交換兼容性的問(wèn)題,存在兩種方案,一種是以許可授權(quán)的形式獲得其他儀器企業(yè)的技術(shù)支持,從而獲得接近原生儀器操作的用戶(hù)體驗(yàn)。另一種是通過(guò)協(xié)調(diào)與推動(dòng)通用文件的形式解決圖譜數(shù)據(jù)交換的兼容性問(wèn)題,例如從NetCDF發(fā)展而來(lái)的.cdf文件格式[8]。
但出于商業(yè)利益、技術(shù)壁壘、整合難度等因素,上述兩個(gè)方案并沒(méi)有得到廣泛的支持。
2 PDF文件解析
2.1 PDF在實(shí)驗(yàn)室的應(yīng)用
PDF文件作為獨(dú)立于硬件、操作系統(tǒng)、應(yīng)用程序的用于文件交換的電子文檔,在實(shí)驗(yàn)室信息化的過(guò)程中得到了廣泛的應(yīng)用。報(bào)告管理程序通過(guò)PDF的虛擬打印功可以將各類(lèi)圖譜報(bào)告文件保存為統(tǒng)一的PDF格式。PDF以其便利性、高精度成為事實(shí)上的實(shí)驗(yàn)室報(bào)告?zhèn)鬟f通用文檔。
在上述背景下,基于PDF文件解析的數(shù)據(jù)獲取方案應(yīng)運(yùn)而生,對(duì)現(xiàn)有的第三方SDMS/LIMS進(jìn)行功能改進(jìn)和開(kāi)發(fā),通過(guò)對(duì)PDF這種通用的數(shù)據(jù)格式的圖譜報(bào)告文件匯總、整理與解析實(shí)現(xiàn)對(duì)實(shí)驗(yàn)室檢驗(yàn)數(shù)據(jù)的整合。與各類(lèi)儀器廠(chǎng)商所提供的網(wǎng)絡(luò)版工作站方案相比,該方案的優(yōu)勢(shì)在于:
1)技術(shù)難度低。利用現(xiàn)有的各類(lèi)開(kāi)源庫(kù)和極少量的代碼就可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的抓取和管理。
2)投入少。在硬件上,不需要進(jìn)行進(jìn)一步的投入,例如增加專(zhuān)用的數(shù)據(jù)交換模塊或是升級(jí)硬件以適配網(wǎng)絡(luò)工作站的版本;在軟件上,不需要購(gòu)買(mǎi)網(wǎng)絡(luò)工作站的授權(quán);在管理上,可以采用一種方案適用于大多數(shù)應(yīng)用場(chǎng)景,降低了開(kāi)發(fā)和維護(hù)難度。
3)兼容性高。對(duì)于大多數(shù)不同類(lèi)型,不同廠(chǎng)家,不同操作系統(tǒng)版本的儀器,能輸出標(biāo)準(zhǔn)PDF格式的報(bào)告,具備局域網(wǎng)連接條件,就具備實(shí)施方案的可能性。
該方案的缺陷在于,目前只能對(duì)圖譜報(bào)告中的結(jié)論性的部分文本信息進(jìn)行抓取,不能夠?qū)崿F(xiàn)對(duì)圖譜報(bào)告數(shù)據(jù)內(nèi)容的充分利用。
2.2 PDF解析的基本原理
PDF格式其核心是由頁(yè)面描述語(yǔ)言PostScript為基礎(chǔ)發(fā)展而來(lái)的一種先進(jìn)成像模塊(Advanced Imaging Model ),可以以相對(duì)設(shè)備獨(dú)立的方式描述影像,而不依賴(lài)特定設(shè)備特性為參照,避免了輸出圖像時(shí)對(duì)設(shè)備的依賴(lài)。可以實(shí)現(xiàn)高精度、高清晰度的圖像輸出。
作為一種特殊的文件格式,PDF文檔并沒(méi)有傳統(tǒng)意義上的順序數(shù)據(jù)結(jié)構(gòu)。一個(gè)PDF文檔是通過(guò)稱(chēng)為“對(duì)象”的模塊組合而成。PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語(yǔ)言的特點(diǎn),通過(guò)頁(yè)面描述指令在頁(yè)面各個(gè)準(zhǔn)確位置引用文件中的文本、圖片、圖形等對(duì)象實(shí)現(xiàn)內(nèi)容展示。從這個(gè)意義上而言,PDF頁(yè)面更類(lèi)似于一種特殊的圖片。
PDF其中各類(lèi)對(duì)象的位置(position)、尺寸(size)、方向(orientation)的描述是通過(guò)建立頁(yè)面坐標(biāo)系實(shí)現(xiàn)[9]。
通過(guò)對(duì)PDF頁(yè)面中各類(lèi)對(duì)象的坐標(biāo)系進(jìn)行重建,可以獲得相應(yīng)的位置信息,通過(guò)對(duì)指定位置的對(duì)象屬性信息進(jìn)行解讀就可以實(shí)現(xiàn)對(duì)圖譜特定數(shù)據(jù)的獲取。
2.3 圖譜報(bào)告的形式和數(shù)據(jù)
常見(jiàn)的圖譜報(bào)告可以歸納為三種基本形式:文本型、圖型、圖文混合型。如下圖所示:
上述報(bào)告中的數(shù)據(jù)可以歸納為兩類(lèi),一類(lèi)為文本,一類(lèi)為圖形。因此通過(guò)解析圖譜報(bào)告PDF文件其中的文本對(duì)象或圖形對(duì)象就可以達(dá)到獲得數(shù)據(jù)的目的。
2.4 圖譜報(bào)告PDF文件的文本解析
PDF通過(guò)兩種方式實(shí)現(xiàn)文本(Text)的應(yīng)用展示:方式1,將字型(Glyph)以包括文本狀態(tài)(Text state),文本對(duì)象和運(yùn)算符(Text objects and operators),字體數(shù)據(jù)結(jié)構(gòu)(Font data structures)組合的方式嵌入系統(tǒng),作為文本對(duì)象與文件一同傳輸。這種文本應(yīng)用的方式是以字符(Character)組合的形式保存字符串(String),以參數(shù)(parameters)的形式保存字體(Fonts),以字型(Glyph)方式進(jìn)行頁(yè)面描繪。
方式2, 對(duì)于特殊字型是采用矢量繪圖的方式進(jìn)行描繪。所展示出的字型不是以字符串和字體參數(shù)的形式保存,而是以繪圖圖形的形式保存。
通過(guò)上述兩種方式可以最大程度還原版面的文字效果,實(shí)現(xiàn)打印頁(yè)面的精確輸出。而以方式1輸出的PDF文件可以通過(guò)對(duì)文本對(duì)象進(jìn)行對(duì)象屬性分析獲得對(duì)應(yīng)的字符/字符串,經(jīng)整理后而獲得所需要的數(shù)據(jù)。
隨著信息技術(shù)的發(fā)展,現(xiàn)有多種開(kāi)源的軟件可供選擇,現(xiàn)以Pdfplumber為演示工具,以文本型報(bào)告實(shí)例為數(shù)據(jù)源,對(duì)文本數(shù)據(jù)抓取操作進(jìn)行演示。
Pdfplumber是基于Pdfminer二次開(kāi)發(fā)由Python語(yǔ)言編寫(xiě)的PDF文檔解析庫(kù),尤其對(duì) PDF文件中的表格內(nèi)容進(jìn)行了針對(duì)性的優(yōu)化,使用方便。通過(guò)極少的代碼就可以實(shí)現(xiàn)數(shù)據(jù)的讀取。
以下是相關(guān)代碼和解析效果示意圖。
通過(guò)上述代碼是通過(guò)默認(rèn)的功能對(duì)PDF頁(yè)面中的表格進(jìn)行整體的識(shí)別和讀取,并不具備對(duì)特定數(shù)據(jù)處理的功能。
通過(guò)變更解析模式,采用定位識(shí)別和讀取導(dǎo)出的方式,就可以獲得指定數(shù)據(jù)。示例采用導(dǎo)出到微軟Office辦公軟件EXCEl中的方式進(jìn)行演示:
以下為相關(guān)代碼:
以下為代碼運(yùn)行結(jié)果:
在上述示例中,采用的是python語(yǔ)言編寫(xiě)的xlwings庫(kù)作為數(shù)據(jù)導(dǎo)出工具,這是一種支持操作Excel文件的Python第三方庫(kù)。同樣的,通過(guò)引入支持?jǐn)?shù)據(jù)庫(kù)的應(yīng)用工具也可以實(shí)現(xiàn)圖譜指定數(shù)據(jù)抓取到數(shù)據(jù)庫(kù)的功能。通過(guò)上述方法或類(lèi)似方法就可以實(shí)現(xiàn)對(duì)圖譜報(bào)告PDF文件的指定文本數(shù)據(jù)的抓取。
2.5 圖譜報(bào)告PDF文件的圖形解析
2.5.1 典型圖譜的分解
圖譜報(bào)告的PDF文件是通過(guò)一系列圖形對(duì)象與文本對(duì)象的搭配實(shí)現(xiàn)圖譜的輸出。如下圖所示:
通過(guò)將圖譜進(jìn)行歸納分析可知,典型圖譜可以被歸納為兩大類(lèi)對(duì)象,文本對(duì)象及圖形對(duì)象。
文本對(duì)象通常是對(duì)圖譜的指示和說(shuō)明,如樣品信息,刻度單位,刻度值,這種文本說(shuō)明可以便于圖譜的使用者更有效的利用圖譜。
圖譜的圖形是通過(guò)圖形對(duì)象組合而來(lái),其中的圖形對(duì)象可以歸納為長(zhǎng)方形、直線(xiàn)、曲線(xiàn)3類(lèi)細(xì)分圖形對(duì)象。例如作為整個(gè)圖譜框架的長(zhǎng)方形對(duì)象,描繪圖譜的曲線(xiàn)對(duì)象,作為坐標(biāo)軸和坐標(biāo)刻度以及在某些情況下作為積分線(xiàn)的直線(xiàn)對(duì)象。
2.5.2 PDF文件中的路徑對(duì)象與矢量圖
PDF的顯著優(yōu)勢(shì)在于繼承了PostScript語(yǔ)言的特點(diǎn),通過(guò)頁(yè)面描述指令對(duì)指定區(qū)域進(jìn)行著色繪制頁(yè)面,可以通過(guò)路徑描述的方式描繪出可以任意放大和縮小的矢量圖。
常見(jiàn)的照片為位圖,亦稱(chēng)為點(diǎn)陣圖像或柵格圖像,是由稱(chēng)作像素(圖片元素)的單個(gè)點(diǎn)組成的。
而矢量圖是通過(guò)數(shù)學(xué)公式計(jì)算獲得,具有編輯后不失真的特點(diǎn)。微軟Office辦公軟件EXCEl中通過(guò)表格數(shù)據(jù)所繪制的散點(diǎn)圖就是通過(guò)矢量繪圖的方式實(shí)現(xiàn)。
PDF文件中的矢量圖通常是采用路徑對(duì)象(Path Object)的形式實(shí)現(xiàn),該類(lèi)對(duì)象中又包含直線(xiàn)(Line),曲線(xiàn)(Curve)(含三次貝塞爾曲線(xiàn)(Cubic Bézier Curve)),長(zhǎng)方形(Rectangle)等細(xì)分對(duì)象。這些路徑對(duì)象包含一些繪圖運(yùn)算符(Painting operators)作為對(duì)象屬性實(shí)現(xiàn)圖像細(xì)節(jié)的描繪,如邊框繪制(Stroke)或填充(Fill),其中還包括線(xiàn)形、寬度、顏色等細(xì)節(jié)參數(shù)。
矢量圖是通過(guò)一系列的點(diǎn)通過(guò)線(xiàn)連接繪制而成。不同的點(diǎn)通過(guò)順序組合描繪圖形,點(diǎn)與點(diǎn)之間的先后順序決定了圖形的形狀。各點(diǎn)之間連接的先后順序發(fā)生改變,則相同坐標(biāo)的點(diǎn)所組成的圖形也會(huì)存在差異。
點(diǎn)是最基本的繪圖元素。點(diǎn)的位置通過(guò)頁(yè)面坐標(biāo)的形式進(jìn)行確定。對(duì)這些組成這些圖形對(duì)象的路徑點(diǎn)的解析就可以將所繪制的圖形進(jìn)行還原。
矢量圖示例如圖10所示。
通過(guò)采用Python語(yǔ)言編寫(xiě)的文檔解析庫(kù)Pdfminer作為演示工具,對(duì)上述矢量圖形進(jìn)行解析,通過(guò)對(duì)矢量圖形(或稱(chēng)路徑對(duì)象)的pts屬性進(jìn)行分析,可以獲得生成矢量圖的各點(diǎn)坐標(biāo),解析結(jié)果見(jiàn)圖11。
其中的LTRect對(duì)應(yīng)的是長(zhǎng)方形對(duì)象;LTLine對(duì)應(yīng)的是直線(xiàn)對(duì)象;LTCurve對(duì)應(yīng)的是曲線(xiàn)對(duì)象。
由上述示例可知,示例1,3,5的規(guī)則圖形和示例2,4的不規(guī)則圖形都可以通過(guò)路徑繪圖的方式進(jìn)行圖形的輸出,其路徑點(diǎn)的坐標(biāo)都可以被解析。
2.5.3 PDF頁(yè)面的坐標(biāo)系與對(duì)象框架
頁(yè)面的繪圖是基于PDF頁(yè)面的坐標(biāo)系進(jìn)行頁(yè)面定位。坐標(biāo)決定了文本對(duì)象,圖形對(duì)象,圖片對(duì)象的位置(position)、方向(orientation)、尺寸(size)。通常采用的是以頁(yè)面的左下角作為坐標(biāo)系的原點(diǎn)(0,0),以橫向的頁(yè)面寬度和縱向的頁(yè)面高度分別作為坐標(biāo)系的縱向和橫向坐標(biāo)范圍。
不同的對(duì)象根據(jù)頁(yè)面排布情況依據(jù)相對(duì)原點(diǎn)的距離被賦予不同的坐標(biāo)。可以采用x0,y0,x1,y1的數(shù)據(jù)賦值方式確定排布范圍。其中 x0代表對(duì)象的左下角橫坐標(biāo),y0代表對(duì)象的左下角縱坐標(biāo),其中 x1代表對(duì)象的右上角橫坐標(biāo),y1代表對(duì)象的右上角縱坐標(biāo)。
以(x0,y0)與(x1,y1)所定義出來(lái)的矩形范圍即為對(duì)象的框架范圍,框架作為對(duì)象的容器,決定對(duì)象的頁(yè)面位置和的大小。各類(lèi)對(duì)象都在框架中進(jìn)行展示。
組成路徑對(duì)象的路徑點(diǎn)的坐標(biāo)也是以上述坐標(biāo)系為參照所設(shè)定獲得。通過(guò)獲得路徑對(duì)象的坐標(biāo)信息并加以整理就可以實(shí)現(xiàn)對(duì)圖譜曲線(xiàn)數(shù)據(jù)的提取。
2.5.4 圖譜的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)
對(duì)于圖譜曲線(xiàn)的解析需要引入絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的概念。
絕對(duì)坐標(biāo)指通過(guò)實(shí)驗(yàn)所獲得的定位數(shù)據(jù),這一定位方式所依據(jù)的是確定的實(shí)驗(yàn)數(shù)據(jù)之間一一匹配的關(guān)系,如X衍射法中的2θ角與衍射強(qiáng)度、液相氣相等分離色譜測(cè)定法的保留時(shí)間與峰高、差熱分析法中的溫差和溫度。
相對(duì)坐標(biāo)指依據(jù)PDF頁(yè)面的坐標(biāo)系而獲得的定位數(shù)據(jù),是以對(duì)象所處頁(yè)面位置通過(guò)算法折算獲得的數(shù)據(jù)。隨頁(yè)面布局及排版的變化,其坐標(biāo)也會(huì)發(fā)生相應(yīng)的改變。
圖譜曲線(xiàn)上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。根據(jù)絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)之間的這種一一匹配的關(guān)系,依據(jù)坐標(biāo)變換的原理,尋找到坐標(biāo)變換的規(guī)律就可以將數(shù)據(jù)從相對(duì)坐標(biāo)轉(zhuǎn)化為絕對(duì)坐標(biāo)。
通過(guò)已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的變換[10]。
Xj1-Xj2=kh*(Xx1-Xx2)
Yj1-Yj2=kz*(Yx1-Yx2)
其中,Xj1,Xj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的橫坐標(biāo),Xx1、Xx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的橫坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。
其中,Yj1,Yj2分別為已知的兩點(diǎn)絕對(duì)坐標(biāo)的縱坐標(biāo),Yx1、Yx2分別為已知的兩點(diǎn)相對(duì)坐標(biāo)的縱坐標(biāo)。kh、kz分別為橫坐標(biāo)校正系數(shù)和縱坐標(biāo)校正系數(shù)。
當(dāng)任一點(diǎn)的相對(duì)坐標(biāo)已知為(Xx0,Yx0),則可以通過(guò)已知條件進(jìn)行推導(dǎo),獲得其絕對(duì)坐標(biāo)(Xj0,Yj0)。
Xj0= kh*(Xx0-Xx1)+Xj1
Yj0= kZ*(Yx0-Yx1)+Yj1
通過(guò)上述的處理就可以實(shí)現(xiàn)將PDF文件頁(yè)面上的圖譜曲線(xiàn)的逼真還原。
2.6 圖譜報(bào)告PDF文件的圖形解析步驟示例
以常見(jiàn)的圖文混合型圖譜作為解析素材,通過(guò)PDF閱讀軟件福昕高級(jí)PDF編輯器及Python語(yǔ)言編寫(xiě)的Pdfminer庫(kù)對(duì)圖譜圖形進(jìn)行分析,步驟如下:
2.6.1 定位圖譜圖形位置
圖譜一般是通過(guò)工作站或工作軟件調(diào)用報(bào)告模板讀取報(bào)告數(shù)據(jù)生成。在報(bào)告模板中對(duì)于圖譜圖形的調(diào)用,通常會(huì)存在圖譜圖形模塊的框架。該框架在生成圖譜PDF文件的過(guò)程中會(huì)以長(zhǎng)方形對(duì)象的形式寫(xiě)入PDF頁(yè)面中。在頁(yè)面上通常表現(xiàn)為范圍最大的長(zhǎng)方形對(duì)象。
通過(guò)尋找這一范圍框架,可以精確定位所需要提取分析的圖譜曲線(xiàn)。這一范圍框架的通常為整個(gè)頁(yè)面上最大的長(zhǎng)方形。通過(guò)篩選頁(yè)面上符合這一條件的圖形對(duì)象就可以得到。通過(guò)對(duì)這一范圍的確定,可以提高分析效率。
2.6.2 圖譜曲線(xiàn)初步分析
在本示例中,可通過(guò)PDF編輯軟件對(duì)其進(jìn)行初步的分析:圖譜曲線(xiàn)是由三個(gè)曲線(xiàn)拼接組合而成,另有三條曲線(xiàn)以積分線(xiàn)的形式出現(xiàn)。
2.6.3 圖譜曲線(xiàn)的進(jìn)一步分析
對(duì)其中的一條曲線(xiàn)進(jìn)行進(jìn)一步分析,可得到下圖:
明顯可見(jiàn)曲線(xiàn)是通過(guò)順序連接點(diǎn)串接構(gòu)成。通過(guò)Pdfminer工具對(duì)該段曲線(xiàn)進(jìn)行分析,讀取該對(duì)象的.pts數(shù)據(jù),可知組成該段曲線(xiàn)的點(diǎn)共計(jì)512個(gè)。
2.6.4 圖譜曲線(xiàn)的特定點(diǎn)的分析示例
對(duì)曲線(xiàn)上的各點(diǎn)可進(jìn)行進(jìn)一步分析獲得各點(diǎn)的位置信息,以上述圖譜的峰位置為例:
通過(guò)篩選該段圖譜曲線(xiàn)上的最高點(diǎn),即縱坐標(biāo)最大的點(diǎn),就可以得知該點(diǎn)為512個(gè)繪圖點(diǎn)中的第104個(gè),坐標(biāo)為(211.2,541.92)。
2.6.5 圖譜曲線(xiàn)的特定點(diǎn)的絕對(duì)坐標(biāo)與相對(duì)坐標(biāo)
圖譜曲線(xiàn)上,任意的繪圖點(diǎn)在具有絕對(duì)坐標(biāo)的同時(shí),也存在對(duì)應(yīng)的相對(duì)坐標(biāo)。示例曲線(xiàn)所采用的是保留時(shí)間與峰高的匹配關(guān)系。以上述峰位置為例,其絕對(duì)坐標(biāo)(4.101(保留時(shí)間),1273.69031(峰高))所對(duì)應(yīng)的相對(duì)坐標(biāo)為(211.2,541.92)。
這一絕對(duì)坐標(biāo)在數(shù)據(jù)匯總表有相關(guān)的記錄,可以通過(guò)對(duì)數(shù)據(jù)匯總表文本對(duì)象的解析獲得。
通過(guò)獲得兩組或兩組以上的絕對(duì)坐標(biāo)/相對(duì)坐標(biāo)的配對(duì),就可以采用坐標(biāo)變換的方法,推算曲線(xiàn)上其他已知相對(duì)坐標(biāo)的點(diǎn)所對(duì)應(yīng)的絕對(duì)坐標(biāo),從而完成對(duì)圖譜曲線(xiàn)的解析。
2.6.6 坐標(biāo)變換準(zhǔn)確性評(píng)估
在所選擇的演示圖譜中有三個(gè)有記錄的峰,按照坐標(biāo)變換原理,可以通過(guò)已知絕對(duì)坐標(biāo)及對(duì)應(yīng)相對(duì)坐標(biāo)的兩點(diǎn)就可以實(shí)現(xiàn)對(duì)其他任意已知絕對(duì)坐標(biāo)或已知相對(duì)坐標(biāo)的點(diǎn)與所對(duì)應(yīng)的相對(duì)坐標(biāo)或絕對(duì)坐標(biāo)的推算。
通過(guò)三點(diǎn)之間的相互推算,我們就可以得到實(shí)際坐標(biāo)的理論值,通過(guò)理論值與實(shí)際值的差異來(lái)評(píng)估這個(gè)坐標(biāo)變換的準(zhǔn)確性。
通過(guò)對(duì)圖譜的分析,可以獲得示例中三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的實(shí)際值。結(jié)果見(jiàn)表1:
通過(guò)三點(diǎn)之間的相互推導(dǎo),我們就可以得到三個(gè)峰的絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的理論值。結(jié)果見(jiàn)表2:
通過(guò)計(jì)算獲得理論值與實(shí)際值偏差(%)。結(jié)果見(jiàn)表3:
在表3 數(shù)據(jù)中,可以發(fā)現(xiàn)除一個(gè)點(diǎn)(峰3, 絕對(duì)坐標(biāo)Y)外,其他點(diǎn)的偏差絕對(duì)值都在1%以下。這一情況是由于參與計(jì)算縱坐標(biāo)校正系數(shù)kh的點(diǎn)之間縱坐標(biāo)的差值過(guò)小導(dǎo)致。
通過(guò)比較可以得知,點(diǎn)(峰1,絕對(duì)坐標(biāo)Y)與點(diǎn)(峰1,相對(duì)坐標(biāo)Y)與同列的其他點(diǎn)相比偏差最小,而點(diǎn)(峰2,絕對(duì)坐標(biāo)X)與點(diǎn)(峰2,相對(duì)坐標(biāo)X)與同列的其他點(diǎn)相比偏差最小。
在計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz時(shí),參與計(jì)算的兩點(diǎn)之間的坐標(biāo)位置差異越大,則獲得的偏差越小,相應(yīng)的數(shù)據(jù)坐標(biāo)變換越準(zhǔn)確,還原度越高。
通過(guò)謹(jǐn)慎選擇可以保證結(jié)果的準(zhǔn)確性,上述方法進(jìn)行坐標(biāo)變換其偏差值在可接受范圍內(nèi)。
2.6.7 圖譜曲線(xiàn)相關(guān)的文本信息分析示例:
可通過(guò)在圖譜框架范圍內(nèi)進(jìn)行文本對(duì)象分析獲得文本的位置信息和內(nèi)容信息。分析示例見(jiàn)圖19:
文本對(duì)象的使用決定了其頁(yè)面布局。根據(jù)其布局位置信息的規(guī)律性,可以識(shí)別并獲得相關(guān)的文本內(nèi)容信息。
此外,作為縱坐標(biāo)/橫坐標(biāo)刻度標(biāo)記的文本對(duì)象其中也包含有絕對(duì)坐標(biāo)和相對(duì)坐標(biāo)的信息,也可以用于計(jì)算橫/縱坐標(biāo)校正系數(shù)kh和kz。
在其中,由于峰標(biāo)注采用的排版方式問(wèn)題,其讀取的內(nèi)容信息存在一定的錯(cuò)誤,這與進(jìn)行文本對(duì)象分析時(shí)所采用的水平掃描方式有關(guān),可通過(guò)進(jìn)一步的優(yōu)化加以改善。
2.6.8? 圖譜數(shù)據(jù)的輸出
通過(guò)對(duì)上述圖形對(duì)象和文本對(duì)象的解析,我們可以將原PDF文件中的圖譜曲線(xiàn)分解為曲線(xiàn)坐標(biāo)列表,積分線(xiàn)坐標(biāo)列表,刻度標(biāo)記及標(biāo)注,樣品信息等可歸類(lèi)的單獨(dú)數(shù)據(jù),可將這些解析出的數(shù)據(jù)匯總以自定義圖譜的形式輸出。所解析出的數(shù)據(jù)也可以供在Origin或者Excel中進(jìn)行數(shù)據(jù)圖譜的描繪。這將使得數(shù)據(jù)的使用及分析更加自由。
以下采用python語(yǔ)言編寫(xiě)的matplotlib庫(kù)作為圖譜的輸出工具演示輸出效果,實(shí)例可見(jiàn)圖21:
所輸出的顯示效果與相關(guān)工作站軟件所提供的離線(xiàn)瀏覽功能類(lèi)似,可以通過(guò)鼠標(biāo)移動(dòng)獲得曲線(xiàn)上的各位置信息,也可以放大、拖拉,可以更方便地解讀圖譜。
通過(guò)設(shè)定參數(shù),也可以采用3D繪圖的方式將原先的平面圖形轉(zhuǎn)換為可以拖動(dòng)的3D圖形進(jìn)行分析。實(shí)例可見(jiàn)圖22:
通過(guò)的編程處理,也可以將重疊圖譜進(jìn)行拆分、轉(zhuǎn)換。實(shí)例可見(jiàn)圖23、24。
3 應(yīng)用與展望
本文所探討的內(nèi)容,是通過(guò)對(duì)PDF格式圖譜文件的解析獲得逼真的圖譜數(shù)據(jù),將各類(lèi)私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的、便于使用和交換的通用數(shù)據(jù)格式,為數(shù)據(jù)的進(jìn)一步應(yīng)用提供足夠的便利性和自由度。使得圖譜數(shù)據(jù)的分析可以不再受限于工作站和專(zhuān)用軟件而困于一個(gè)個(gè)信息孤島。通過(guò)與數(shù)據(jù)庫(kù)的結(jié)合,為圖譜數(shù)據(jù)的應(yīng)用提供了新的發(fā)展方向。
在本文所述的研究中,對(duì)指定文本信息的提取技術(shù)較為成熟,已廣泛應(yīng)用于各類(lèi)SDMS系統(tǒng)及由此拓展得到的LIMS系統(tǒng),以Star-Lims較為典型,在藥檢所/院為代表的檢驗(yàn)機(jī)構(gòu)中多有采用。
而對(duì)于基于PDF文件的圖譜圖形數(shù)據(jù)提取的研究,鮮見(jiàn)相關(guān)文獻(xiàn)的報(bào)道。而通過(guò)這一研究使得SDMS可以采集的pdf圖譜文件的數(shù)據(jù)對(duì)象從數(shù)據(jù)匯總表中的檢驗(yàn)數(shù)據(jù)文本對(duì)象擴(kuò)大到圖譜曲線(xiàn)圖形對(duì)象,采集的數(shù)據(jù)更加全面。對(duì)可形成連續(xù)圖譜曲線(xiàn)的實(shí)驗(yàn)報(bào)告(包括液相、氣相、紅外、紫外分光、差熱分析)都可以通過(guò)此方法處理。
在圖譜報(bào)告中,圖譜曲線(xiàn)所蘊(yùn)含的信息量要遠(yuǎn)多于數(shù)據(jù)匯總表中的記載,而這一研究可以提升圖譜數(shù)據(jù)的利用效率。相比檢驗(yàn)型的儀器分析,對(duì)于研究型的儀器分析,該項(xiàng)研究更具意義。
通過(guò)對(duì)報(bào)告功能的改進(jìn)開(kāi)發(fā),采用該方案可以實(shí)現(xiàn)所輸出的報(bào)告內(nèi)容采用自定義的圖譜曲線(xiàn)外觀,使得報(bào)告整體風(fēng)格更加的統(tǒng)一,而避免采用原始圖譜附件的形式。可以滿(mǎn)足實(shí)驗(yàn)室的出具報(bào)告、結(jié)果分析的基本需求。
通過(guò)數(shù)據(jù)庫(kù)前端的進(jìn)一步開(kāi)發(fā),就可以對(duì)圖譜曲線(xiàn)數(shù)據(jù)進(jìn)行檢索、處理和比對(duì),部分實(shí)現(xiàn)商業(yè)化儀器網(wǎng)絡(luò)工作站的功能。這些功能的開(kāi)發(fā)可根據(jù)自身情況,例如所采用的 LIMS編制語(yǔ)言、功能需求進(jìn)行自行定制,在使用上具有更高的自由度。
儀器分析在中國(guó)的發(fā)展已經(jīng)超過(guò)了20年。在使用單位的各類(lèi)型儀器上都累積了大量的實(shí)驗(yàn)數(shù)據(jù)。以藥檢系統(tǒng)為例,每年各級(jí)藥檢機(jī)構(gòu)的國(guó)抽、省抽任務(wù)及各類(lèi)研究項(xiàng)目所涉及的檢驗(yàn)數(shù)據(jù)量就非??捎^。隨著大數(shù)據(jù)研究及AI技術(shù)的日益進(jìn)步,技術(shù)條件已成熟,對(duì)這些“沉睡”數(shù)據(jù)的有效使用必將促進(jìn)研究的進(jìn)一步發(fā)展。
作為輔助研究的有效工具,數(shù)據(jù)挖掘技術(shù)可將數(shù)據(jù)之中所蘊(yùn)含的信息經(jīng)過(guò)聚類(lèi)分析、分類(lèi)分析、相關(guān)性分析等手段應(yīng)用于分析方法開(kāi)發(fā)、風(fēng)險(xiǎn)趨勢(shì)研究等方向,為將來(lái)的研究提供指導(dǎo),從而提高研究的效率。
現(xiàn)有的累積數(shù)據(jù)也可以作為訓(xùn)練數(shù)據(jù)集應(yīng)用于AI模型的開(kāi)發(fā),實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)判斷和結(jié)果的自動(dòng)輸出,進(jìn)一步提高工作效率。
規(guī)范的數(shù)據(jù)是實(shí)現(xiàn)上述應(yīng)用遠(yuǎn)景的基礎(chǔ)。以PDF文件為媒介,將各類(lèi)私有數(shù)據(jù)格式轉(zhuǎn)化為規(guī)范的,便于使用和交換的通用數(shù)據(jù)格式,可以實(shí)現(xiàn)跨儀器類(lèi)型、跨生產(chǎn)廠(chǎng)家、跨研究機(jī)構(gòu)的數(shù)據(jù)整合。這將使得針對(duì)數(shù)據(jù)研究可以在統(tǒng)一的資源環(huán)境下實(shí)施。
這種應(yīng)用遠(yuǎn)景的配套條件也需要逐步完善,例如與圖譜信息直接相關(guān)的樣品信息、樣品處理方法、檢測(cè)條件、檢測(cè)參數(shù)等圖譜中不能完全反映的問(wèn)題,也需要納入對(duì)應(yīng)的數(shù)據(jù)庫(kù)中;此外還有數(shù)據(jù)來(lái)源合法性、數(shù)據(jù)交換規(guī)范、有效數(shù)據(jù)認(rèn)可及機(jī)構(gòu)間協(xié)作等事務(wù)性問(wèn)題需要解決。
參考文獻(xiàn):
[1] 常周鑫,崔玉花,李洋洋,等.大型儀器檢測(cè)無(wú)機(jī)非金屬元素含量的研究[J].分析儀器,2021(5):59-65.
[2] 李蕾,黃鵬,闞家義,等.微量熱法用于檢出藥品中污染金黃色葡萄球菌的可行性探討[J].藥物分析雜志,2021,41(2):300-305.
[3] 蒲婧哲,張亞中,朱夜琳,等.基于物種特異性PCR方法的雞內(nèi)金真?zhèn)舞b別[J].中國(guó)實(shí)驗(yàn)方劑學(xué)雜志,2019,25(17):142-147.
[4] 張玉歌,龐青云,郭洪祝,等.基于NuGenesis的儀器檢測(cè)數(shù)據(jù)的科學(xué)管理[J].中國(guó)藥事,2016,30(1):17-23.
[5] 林偉強(qiáng).廣東省藥品檢驗(yàn)所LIMS應(yīng)用[J].今日藥學(xué),2008,18(4):88-90.
[6] 鄭正,汪海宣,劉業(yè)飛.LIMS系統(tǒng)在食品藥品檢驗(yàn)檢測(cè)機(jī)構(gòu)中的實(shí)施[J].中小企業(yè)管理與科技(中旬刊),2017(7):139-140.
[7] Petter Moree.打破制藥行業(yè)數(shù)據(jù)孤島 實(shí)現(xiàn)數(shù)據(jù)完整性[J].流程工業(yè),2020(4):46-47.
[8] ASTEM E1947-98(2014). Standard Specification for Analytical Data Interchange Protocol for Chromatograpgic Data[S].2014.
[9] PDF 32000-1:2008.Document management-Portable document format-Part 1[S].2008.
[10] 劉羽.基于PDF文件解析的圖譜數(shù)據(jù)還原方法:CN112861821A[P].2021-05-28.
【通聯(lián)編輯:李雅琪】