陳忠煜
(鄭州市第七人民醫(yī)院鄭州市心血管病醫(yī)院,河南鄭州 450016)
傳統(tǒng)醫(yī)院檔案大部分是紙質(zhì)檔案,在進(jìn)行管理和保存時(shí)容易出現(xiàn)損壞,同時(shí)存儲(chǔ)所需實(shí)體空間大,儲(chǔ)存成本高[1]。對醫(yī)院檔案進(jìn)行信息化管理,將檔案存儲(chǔ)至醫(yī)院數(shù)據(jù)平臺(tái),無需擔(dān)心檔案被自然環(huán)境破壞,也可保證檔案的完整性,減少資源浪費(fèi)[2]。電子檔案就是數(shù)字檔案,利用計(jì)算機(jī)磁盤等裝置進(jìn)行保存,和紙質(zhì)檔案相對應(yīng),但電子檔案來源不僅局限于紙質(zhì)檔案,還包含原生性電子文件。為了保證電子檔案的完整性,設(shè)計(jì)一種大數(shù)據(jù)背景下醫(yī)院電子檔案歸檔管理系統(tǒng)。在檔案管理的信息化研究中,我國檔案學(xué)術(shù)界從檔案管理系統(tǒng)的各個(gè)方面進(jìn)行了深入研究,包括有學(xué)者對電子檔案的使用規(guī)范進(jìn)行研究,也有學(xué)者研究電子檔案的建設(shè)標(biāo)準(zhǔn),也有學(xué)者進(jìn)行電子檔案安全性技術(shù)研究,但傳統(tǒng)的檔案管理系統(tǒng)設(shè)計(jì)忽略了日常制度建立和使用管理工作。在國外,有研究學(xué)者利用“來源原則”按照各種維度類型對檔案資料進(jìn)行分類操作,繼而實(shí)現(xiàn)檔案管理工作,也有學(xué)者指出檔案管理系統(tǒng)是知識(shí)的存儲(chǔ)載體、咨詢處理和轉(zhuǎn)換的節(jié)點(diǎn),同時(shí)作為檔案管理工作人員要從客觀角度了解真相不受主觀意識(shí)影響。
現(xiàn)如今,在互聯(lián)網(wǎng)的背景下,大數(shù)據(jù)呈現(xiàn)出多元化、結(jié)構(gòu)復(fù)雜化、數(shù)據(jù)海量化,可以為醫(yī)院信息化高效使用提供有效支持,從而提高運(yùn)維質(zhì)量[3]。醫(yī)院利用大數(shù)據(jù)平臺(tái),對電子檔案進(jìn)行優(yōu)化管理與統(tǒng)計(jì),可防止出現(xiàn)傳統(tǒng)模式下檔案歸檔的無序性與準(zhǔn)確性低等問題,有效提高電子檔案的便捷性和可靠性,保證電子檔案管理的綜合質(zhì)量。
B/S架構(gòu)是三層架構(gòu),第一層是客戶端,客戶端是標(biāo)準(zhǔn)瀏覽器,選用JSP動(dòng)態(tài)網(wǎng)絡(luò)技術(shù),把HTML代碼轉(zhuǎn)換為網(wǎng)頁,允許用戶輸入信息,同時(shí)把處理請求發(fā)送至服務(wù)器[4]。第二層是Web服務(wù)器,利用進(jìn)程響應(yīng)請求,通過Spring-MVC框架完成交互,反饋給客戶端瀏覽器。第三層是數(shù)據(jù)庫服務(wù)器,主要用于協(xié)調(diào)服務(wù)器發(fā)出的數(shù)據(jù)庫請求。使用B/S 架構(gòu)不僅維護(hù)費(fèi)用低,而且客戶端僅需安裝瀏覽器即可實(shí)現(xiàn)訪問,方便查詢信息。
SpringMVC 框架是在客戶端的基礎(chǔ)上完成交互的,利用XML 配置把處理器、適配器、解析器等注入Spring容器中[5]。為了簡化開發(fā),SpringMVC 框架提供注解方式,僅需在Java 類上輸入對應(yīng)注解名,即可通過掃描自動(dòng)注入。
SpringMVC工作流程用圖1進(jìn)行描述。
圖1 SpringMVC工作流程圖
JSP(Java Server Page)是一種運(yùn)行于服務(wù)器端的Java技術(shù),主要用于對動(dòng)態(tài)網(wǎng)頁進(jìn)行開發(fā),也就是說JSP為腳本語言[6]。
在JSP 頁面中不僅能夠編寫前端代碼,還能夠編寫Java代碼,每次對頁面進(jìn)行求解時(shí),均可在服務(wù)端編譯后顯示。JSP 能夠提供特有的標(biāo)簽、指令、EL 表達(dá)式等,以達(dá)到動(dòng)態(tài)網(wǎng)頁的開發(fā)要求。JSP還存在四個(gè)作用域,包括應(yīng)用于整個(gè)程序、應(yīng)用于一次會(huì)話、應(yīng)用于當(dāng)前頁面以及應(yīng)用于請求域。利用上述作用域和對應(yīng)內(nèi)置對象即可完成應(yīng)用程序數(shù)據(jù)的共享與傳輸。
醫(yī)院電子檔案中包含了大量的紙質(zhì)檔案,在系統(tǒng)設(shè)計(jì)中首先需要對檔案中的數(shù)據(jù)信息進(jìn)行提取,包括文字信息提取與字符信息提取,詳細(xì)分析如下所述。
3.1.1 文字信息提取
在系統(tǒng)中導(dǎo)入紙質(zhì)文檔后,首先對檔案信息進(jìn)行預(yù)處理,在進(jìn)行預(yù)處理的過程中,常采用的預(yù)處理方式為線性歸一化方式,最重要的步驟是刪除信息中的白噪聲,預(yù)處理的目的是對醫(yī)院紙質(zhì)檔案關(guān)鍵信息進(jìn)行提取[7]。其次對檔案信息關(guān)聯(lián)程度進(jìn)行篩選,利用變量處理工具令經(jīng)處理后的信息和圖像更加容易被識(shí)別,提高系統(tǒng)識(shí)別性能。針對醫(yī)院檔案中的圖像信息,利用字符圖像完成線性歸一化操作,不同問題下的歸一化處理是存在差異的,在對醫(yī)院檔案信息進(jìn)行處理時(shí),把漢字信息字符組成的點(diǎn)陣圖移動(dòng)至指定位置,從而減少漢字在點(diǎn)陣圖上的位置誤差,從而實(shí)現(xiàn)位置歸一化操作。
通常情況下位置歸一化處理方式包括兩種,分別為將文字外邊框當(dāng)成參照物完成位置歸一化操作,以及將質(zhì)心當(dāng)成參照物完成位置歸一化操作。將文字外邊框當(dāng)成參照物完成位置歸一化操作的方式首先需要對文字外邊框進(jìn)行求解,再借助文字外邊框獲取文字中心,最后把依據(jù)外邊框的文字中心移動(dòng)至既定位置與區(qū)域。將質(zhì)心當(dāng)成參照物的位置歸一化操作方式首先需要對漢字質(zhì)心進(jìn)行求解,再把漢字質(zhì)心移動(dòng)至指定位置。本研究主要選擇基于外邊框的文字位置歸一化與線性大小歸一化相結(jié)合的方式來完成歸一化操作,通過上述分析,在對信息進(jìn)行提取與管理之前,要完成待識(shí)別文字字符與圖像的歸一化操作,才可進(jìn)行特征值提取。除此之外,需完成待識(shí)別文字位置的歸一化操作,獲取待識(shí)別文字邊框,而后對邊框中心點(diǎn)陣圖進(jìn)行保存。
最后針對保存的邊框中間點(diǎn)陣圖完成線性歸一化操作,獲取標(biāo)準(zhǔn)點(diǎn)陣圖,公式描述如下:
式中,r用于描述文字外邊框點(diǎn)陣,r*用于描述完成線性大小歸一化操作后點(diǎn)陣,h、w依次用于描述的高與寬,h*與w*依次用于描述歸一化操作后的高與寬。
3.1.2 字符信息提取
完成上述對醫(yī)院檔案文字信息的預(yù)處理后,對字符輪廓進(jìn)行提取,如果白點(diǎn)周圍四個(gè)方位均和一個(gè)黑點(diǎn)相鄰,則該黑點(diǎn)即為輪廓上的點(diǎn)。利用字符輪廓黑點(diǎn)對特征向量進(jìn)行提取,即使一般字符會(huì)存在污點(diǎn),通常會(huì)丟失部分污點(diǎn)處的信息,有時(shí)會(huì)導(dǎo)致字符受損嚴(yán)重,但依舊可以通過存在于筆畫與輪廓中的特征進(jìn)行提取。提取特征值可通過字符輪廓保存后進(jìn)行,如果當(dāng)前字符輪廓出現(xiàn)毛刺,則是由于成像質(zhì)量不好而具有干擾因素,所以本研究通過模板法針對處理中的特征值進(jìn)行平滑處理,以降低噪聲干擾,完成對輪廓邊緣的平滑處理。黑點(diǎn)輪廓中需要進(jìn)行平滑處理的點(diǎn)和其相應(yīng)的利用模板法進(jìn)行平滑處理后的點(diǎn)的排序狀態(tài)用圖2進(jìn)行描述。
圖2 消除輪廓中直角邊平滑處理前后比較
圖2中,黑點(diǎn)標(biāo)識(shí)黑像素,空白部分標(biāo)識(shí)白像素,九方格可代表兩種像素。針對字符輪廓中的所有黑點(diǎn),首先需對其周圍的8個(gè)相鄰像素進(jìn)行考察,如果圖像中黑點(diǎn)和周圍相鄰像素排序組合成圖像的任何一個(gè)文字,則把該黑像素轉(zhuǎn)換成白像素。如果字符輪廓周圍相鄰像素排序和任意黑像素排序一致,那么將該黑像素濾除,通過圖2所示的排序情況,利用平滑操作替代被濾除的黑色像素,從而刪除字符輪廓中的小的突起。
不管是醫(yī)院傳統(tǒng)模式下的紙質(zhì)檔案歸檔,還是大數(shù)據(jù)背景下的電子檔案歸檔,在進(jìn)行實(shí)際管理時(shí),安全性都是所需解決的重要問題。然而當(dāng)前醫(yī)院電子檔案歸檔管理在安全性方面較為薄弱,首先,防火墻訪問安全性較低。防火墻作為醫(yī)院內(nèi)網(wǎng)與外網(wǎng)間的屏障,可以有效提高醫(yī)院電子檔案歸檔管理安全性[8],但當(dāng)前絕大多數(shù)醫(yī)院并未意識(shí)到防火墻的關(guān)鍵程度,通常情況下,防火墻軟件是利用網(wǎng)絡(luò)下載的,安全性較差,會(huì)導(dǎo)致醫(yī)院電子檔案管理安全性得不到保障;其次,網(wǎng)絡(luò)入侵檢測能力需增強(qiáng)。醫(yī)院電子檔案中包含很多醫(yī)學(xué)工作信息資料以及患者治療檔案,當(dāng)前很多醫(yī)院在網(wǎng)絡(luò)入侵檢測能力方面還不夠強(qiáng)大,日常工作中會(huì)影響到檔案管理的安全性。
為了令醫(yī)院電子檔案歸檔管理水平提升,需對檔案的安全管理進(jìn)行強(qiáng)化。一方面,提高檔案防火墻防護(hù)性能,避免使用安全性低的防火墻軟件,不僅要在醫(yī)院內(nèi)網(wǎng)與外網(wǎng)間建立防火墻,還要針對醫(yī)院電子檔案保密級(jí)別設(shè)置對應(yīng)防火墻,提高安全性。另一方面,提高對網(wǎng)絡(luò)入侵檢測模塊的開發(fā),不僅要提高對外部入侵的檢測,還要針對內(nèi)部數(shù)據(jù)進(jìn)行檢測防范,增強(qiáng)檔案管理的安全性。不僅如此,還需建立病毒防御模塊,防止病毒與黑客入侵,提高電子檔案管理的安全程度[9]。
在醫(yī)院電子檔案信息流和入侵檢測端口中間搭建滑動(dòng)映射連接關(guān)系矩陣,公式描述如下:
式中,WBD用于描述信息流延遲,N用于描述信息流種類,m用于描述入侵檢測端口數(shù)量,λ用于描述入侵概率,γ用于描述映射權(quán)重,Nj用于描述電子檔案信息流,△W用于描述關(guān)系壓縮權(quán)重。
滑動(dòng)關(guān)系用圖3進(jìn)行描述。
圖3 信息流映射關(guān)系
電子檔案信息流和網(wǎng)絡(luò)端口中間利用分布式協(xié)同處理,按照病毒種類、滑動(dòng)窗口大小以及入侵方式,對醫(yī)院電子檔案服務(wù)器節(jié)點(diǎn)進(jìn)行選擇,為不同種類的電子檔案信息流提供安全保障。上述方案會(huì)實(shí)時(shí)搭建映射關(guān)系元組。
本研究大數(shù)據(jù)環(huán)境下數(shù)據(jù)庫選用NoSQL 數(shù)據(jù)庫[10],該數(shù)據(jù)塊泛指非關(guān)系型數(shù)據(jù)庫,NoSQL 數(shù)據(jù)庫所有數(shù)據(jù)均獨(dú)立設(shè)計(jì),便于將數(shù)據(jù)劃分至不同服務(wù)器上,減少所有服務(wù)器數(shù)據(jù)量,面對大規(guī)模數(shù)據(jù)的寫入操作更加便于處理。NoSQL數(shù)據(jù)庫不但可通過節(jié)點(diǎn)解決了關(guān)系數(shù)據(jù)庫結(jié)構(gòu)定義無法改變以及對數(shù)據(jù)定長的問題,而且可在不定義表結(jié)構(gòu)的情況下正常工作,支持復(fù)雜的查詢條件,將大數(shù)據(jù)環(huán)境下醫(yī)院內(nèi)不同非結(jié)構(gòu)化電子檔案數(shù)據(jù)集合在一起,獲取電子檔案數(shù)據(jù)庫架構(gòu),如圖4所示。
圖4 電子檔案數(shù)據(jù)庫架構(gòu)
NoSQL 數(shù)據(jù)庫支持對多種類型醫(yī)院檔案進(jìn)行存儲(chǔ),存儲(chǔ)方式主要包括系統(tǒng)主動(dòng)分片存儲(chǔ)方式與用戶自定義分片存儲(chǔ)方式。
分片存儲(chǔ)基本思想如下:把二進(jìn)制文件劃分為若干個(gè)數(shù)據(jù)段,所有數(shù)據(jù)段均以一條記錄的形式在NoSQL數(shù)據(jù)庫中存儲(chǔ),為了達(dá)到負(fù)載均衡,NoSQL數(shù)據(jù)庫提供分片機(jī)制,令一個(gè)檔案信息數(shù)據(jù)的若干個(gè)分塊被保存在分片服務(wù)器中,所有分片服務(wù)器對全部檔案數(shù)據(jù)子集進(jìn)行映射以實(shí)現(xiàn)管理,用戶不用了解檔案數(shù)據(jù)具體被保存的位置,而是通過mongos路由進(jìn)程進(jìn)行管理,在查詢時(shí),路由進(jìn)程將自動(dòng)調(diào)用相關(guān)程序,從而得到被保存的電子檔案的查詢結(jié)果,供用戶使用。
分布式文件存儲(chǔ)部分結(jié)構(gòu)圖如圖5所示。
圖5 分布式文件存儲(chǔ)部分結(jié)構(gòu)圖
將本文設(shè)計(jì)的大數(shù)據(jù)背景下醫(yī)院電子檔案歸檔管理系統(tǒng)應(yīng)用于某醫(yī)院,將文獻(xiàn)[2]提出的電子檔案多維度風(fēng)險(xiǎn)防控體系系統(tǒng)和文獻(xiàn)[3]提出的基于大數(shù)據(jù)的特性及運(yùn)用的檔案管理方法作為對照組進(jìn)行測試,對應(yīng)用三種系統(tǒng)的工作人員進(jìn)行問卷調(diào)查,獲取不用工作人員使用系統(tǒng)的滿意程度,分?jǐn)?shù)最低為0分,最高為1分。
為了驗(yàn)證本文設(shè)計(jì)的大數(shù)據(jù)背景下醫(yī)院電子檔案歸檔管理系統(tǒng)的有效性,提高用戶使用滿意度,用于整體滿意度提高,將平均滿意度、最小滿意度兩個(gè)指標(biāo)作為衡量系統(tǒng)性能的指標(biāo)。
對平均數(shù)進(jìn)行統(tǒng)計(jì)可體現(xiàn)整體的一般水平,或者整個(gè)數(shù)據(jù)的集中趨勢,而平均滿意度可體現(xiàn)優(yōu)選結(jié)果的一般水平。
最小滿意度可體現(xiàn)使用系統(tǒng)的醫(yī)院工作人員滿意度最差情況,該值越小,那么存在特別不滿意情況的可能性越大。而如果只有某個(gè)或幾個(gè)工作人員非常不滿意,則不可代替整體情況。
平均滿意度實(shí)驗(yàn)結(jié)果用圖6進(jìn)行描述。
圖6 平均滿意度實(shí)驗(yàn)結(jié)果
應(yīng)用本文系統(tǒng)的工作人員對本文系統(tǒng)平均滿意度較高,在大部分?jǐn)?shù)據(jù)中,平均滿意度都是最優(yōu),只在部分科室略低于文獻(xiàn)[2]系統(tǒng),經(jīng)查證,這主要是因?yàn)槲墨I(xiàn)[2]系統(tǒng)考慮了檔案管理路徑優(yōu)化問題。
最小滿意度實(shí)驗(yàn)結(jié)果用圖7進(jìn)行描述。
圖7 最小滿意度實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明,針對大部分使用系統(tǒng)的醫(yī)院工作人員而言,本文系統(tǒng)最小滿意度普遍高于文獻(xiàn)[2]系統(tǒng)與文獻(xiàn)[3]系統(tǒng),然而在部分需求上,本文系統(tǒng)最小滿意度低于其它兩種系統(tǒng),這主要是由于本文系統(tǒng)注重安全性、快速響應(yīng)性以及準(zhǔn)確性,可滿足大部分工作人員需求。
在本文設(shè)計(jì)系統(tǒng)中,紙質(zhì)檔案信息提取非常重要,關(guān)系到后續(xù)查詢時(shí)的信息完整性,因此需單獨(dú)進(jìn)行實(shí)驗(yàn)分析。從信息錄入到綜合運(yùn)維,對200張紙質(zhì)檔案信息進(jìn)行提取,將電子標(biāo)簽數(shù)據(jù)提取方式作為對照組,結(jié)果見圖8。
圖8 信息提取量比較
由圖8中的數(shù)據(jù)可知,在進(jìn)行紙質(zhì)檔案信息提取時(shí),使用本文系統(tǒng)方法的信息提取量明顯多于電子標(biāo)簽提取方式,在大數(shù)據(jù)背景下,本文系統(tǒng)采用的提取方法可有效提高錄入率,由錄入信息量可知,本文系統(tǒng)錄入質(zhì)量更高,為醫(yī)院電子檔案歸檔管理提供了便利。
針對當(dāng)前醫(yī)院對電子檔案歸檔管理存在的普遍弊端,設(shè)計(jì)了一種大數(shù)據(jù)背景下醫(yī)院電子檔案歸檔管理系統(tǒng)。針對紙質(zhì)檔案,通過有效的信息提取方式將信息提取出來,便于查詢與管理。通過分布式大數(shù)據(jù)映射方式能夠有效提高電子檔案管理安全性,利用分片存儲(chǔ)思想可以減少存儲(chǔ)空間,繼而提高系統(tǒng)響應(yīng)速度。
自動(dòng)化技術(shù)與應(yīng)用2022年1期