魏源+葛勇
摘 要: 對醫(yī)院信息系統(tǒng)(HIS)中的目標(biāo)處方信息進(jìn)行篩選時,當(dāng)前目標(biāo)處方信息篩選方法特征選擇的特征向量空間維數(shù)較多,導(dǎo)致篩選過程消耗的能量較高,篩選結(jié)果不準(zhǔn)確。在醫(yī)院HIS系統(tǒng)中提出一種目標(biāo)處方信息篩選方法,對目標(biāo)處方信息進(jìn)行特征選擇,控制目標(biāo)處方信息的特征向量空間維數(shù),降低篩選過程中的能量消耗。通過醫(yī)院HIS系統(tǒng)的分類器,對目標(biāo)處方信息的權(quán)重進(jìn)行計算,提高目標(biāo)處方信息篩選結(jié)果的精準(zhǔn)度。實(shí)驗結(jié)果表明,該方法對醫(yī)院HIS系統(tǒng)中的目標(biāo)處方信息進(jìn)行篩選時,能量消耗較少,篩選結(jié)果較為精準(zhǔn),其成果對該領(lǐng)域的研究發(fā)展具有重要的指導(dǎo)意義。
關(guān)鍵詞: HIS; 目標(biāo)處方信息; 信息篩選; 能量消耗; 權(quán)重計算; 特征向量選擇
中圖分類號: TN911?34; TP393.08 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2018)05?0028?05
Abstract: For the target prescription information screening in hospital information system (HIS), the current target prescription information screening method for feature selection has high dimensionality of characteristic vector space, which may cause the high energy consumption in screening process and inaccurate screening results. A method of target prescription information screening in HIS is put forward to perform the feature selection of target prescription information, control the feature vector space dimensionality of the target prescription information, and reduce the energy consumption in the screening process. The weight of the target prescription information is calculated by means of the classifier of the HIS to improve the accuracy of the target prescription information screening results. The experimental results show that the method used to screen the target prescription information in HIS has low energy consumption and accurate screening results, and its achievements have important guiding significance for the research and development of this field.
Keywords: hospital information system; target prescription information; information screening; energy consumption; weight calculation; feature vector selection
0 引 言
互聯(lián)網(wǎng)信息經(jīng)濟(jì)的快速發(fā)展,使信息在當(dāng)代社會的作用越來越重要[1]。信息收集、整理和篩選的目的是提供及時、全面、準(zhǔn)確的信息[2]。在信息時代,信息的含金量普遍提高,含有大量的經(jīng)濟(jì)利益和商機(jī)[3]。但信息給人們帶來商機(jī)和利益的同時,也存在著海量的虛假信息,這些虛假信息會導(dǎo)致工作出現(xiàn)錯誤,并造成嚴(yán)重的后果[4]。
HIS是醫(yī)療活動和醫(yī)院管理中進(jìn)行聯(lián)機(jī)操作和信息管理的計算機(jī)應(yīng)用系統(tǒng),是覆蓋醫(yī)院所有業(yè)務(wù)和業(yè)務(wù)過程的信息管理系統(tǒng)[5]。HIS系統(tǒng)的主要目標(biāo)是支持醫(yī)院事物處理業(yè)務(wù)和行政管理業(yè)務(wù),減少事物處理人員的勞動強(qiáng)度,輔助高層領(lǐng)導(dǎo)的決策和醫(yī)院的管理工作[6]。對醫(yī)院HIS系統(tǒng)中的目標(biāo)處方信息進(jìn)行篩選,可以快速地找到目標(biāo)處方,減少查詢時間,降低處方查詢?nèi)藛T的勞動強(qiáng)度[7]。
近紅外光譜信息篩選方法采用近紅外漫反射光譜對信息進(jìn)行鑒別。通過Norris平滑處理光譜、二階導(dǎo)數(shù)和光譜標(biāo)準(zhǔn)偏差選擇光譜波段,篩選出目標(biāo)信息的主成分。利用模群迭代奇異樣本診斷方法去除數(shù)據(jù)庫中的異樣信息,采用子窗口重排、競爭自適應(yīng)重加權(quán)法、遺傳算法和蒙特卡洛?無信息變量消除法四種方法進(jìn)行信息篩選。該方法對目標(biāo)信息篩選的結(jié)果較為精準(zhǔn),但篩選過程中消耗的能量較多[8]。信息篩選與聚類的處理方法對目標(biāo)處方信息提出了一種基于信息聚類的特征變化和特征選擇方法,通過詞匯在處方中出現(xiàn)的頻率選擇進(jìn)行聚類的詞匯,并根據(jù)詞匯出現(xiàn)頻率的模型定義特征變化函數(shù),使信息篩選的速度加快,該方法根據(jù)詞匯出現(xiàn)的頻率對信息進(jìn)行篩選時,篩選的結(jié)果難免會存在誤差[9]。基于信息敏感性的目標(biāo)信息篩選方法通過主成分占總指標(biāo)集信息的比例和被保留主成分對目標(biāo)信息的偏導(dǎo)數(shù)乘積的和,對原始目標(biāo)信息的影響度進(jìn)行分析。根據(jù)目標(biāo)信息的敏感性指標(biāo)對積累的信息進(jìn)行篩選。該方法對信息進(jìn)行篩選時,計算量較大,過程較為復(fù)雜,能耗較高[10]。為解決上述問題,本文提出一種醫(yī)院HIS系統(tǒng)中目標(biāo)處方信息篩選方法。endprint
1 信息篩選
1.1 特征選擇
醫(yī)院HIS系統(tǒng)的數(shù)據(jù)庫中儲存了大量關(guān)于處方的信息,處方信息中每段信息的詞匯均不相同,導(dǎo)致醫(yī)院HIS系統(tǒng)數(shù)據(jù)庫中文本樣本集的特征向量空間維數(shù)較多。特征向量的空間維數(shù)一般是副詞、標(biāo)點(diǎn)符號、助詞和虛詞,還有一部分是長度為1的詞匯,這些詞匯對目標(biāo)處方信息篩選是不需要的,對這些詞匯進(jìn)行篩選不僅會耗費(fèi)計算資源,還會造成“過擬合問題”,影響醫(yī)院HIS系統(tǒng)中目標(biāo)處方信息篩選的結(jié)果,對分詞詞匯進(jìn)行特征篩選減少向量空間的維數(shù)。
當(dāng)前常用的特征選擇方法有、信息爭議、詞頻和互信息等。本文采用統(tǒng)計方法進(jìn)行目標(biāo)處方信息的特征選擇。統(tǒng)計用來度量類別和特征值的獨(dú)立程度,當(dāng)越大時,信息的獨(dú)立性就越小,相關(guān)性越大。統(tǒng)計量特征選擇方法又成為CHI,用來衡量處方信息類別和特征之間統(tǒng)計的相關(guān)性。
是目標(biāo)處方信息數(shù)理統(tǒng)計中的統(tǒng)計量。設(shè)為醫(yī)院HIS系統(tǒng)數(shù)據(jù)庫中的某個詞,為醫(yī)院HIS系統(tǒng)數(shù)據(jù)庫中某個類別,的計算公式如下:
式中:代表和在HIS系統(tǒng)中共同出現(xiàn)的頻數(shù);是目標(biāo)處方信息中包含的文件;為不屬于類中的頻數(shù);代表類文件中不包含的詞匯頻數(shù);表示出現(xiàn)既不包括類文件頻數(shù)也不包括類文件頻數(shù)的文件;代表目標(biāo)處方信息中的總文件數(shù)。當(dāng)時,是獨(dú)立的。
在醫(yī)院HIS系統(tǒng)中,不同類別的處方信息特征值的重合程度越高,表示不同類別的處方信息之間的特征值區(qū)別越小,篩選難度越大。
判別率代表區(qū)分度特征中最大的可分性。表示醫(yī)院HIS系統(tǒng)中處方信息的每一維,的判別率的計算公式如下:
式中:代表不同類別的處方信息;分別代表在第維特征下,該處方信息類別的標(biāo)準(zhǔn)差和均值。在醫(yī)院HIS系統(tǒng)數(shù)據(jù)庫的數(shù)據(jù)集復(fù)雜度中,處方信息特征最大的判別率為越大,處方信息的區(qū)分度越好。
代表特征間重合區(qū)域的體積,的計算公式如下:
式中表示醫(yī)院HIS系統(tǒng)中數(shù)據(jù)集特征維數(shù)。越大,處方信息的重合度越大,篩選越困難。
代表最大特征效率,是處方信息特征重合區(qū)域外的處方信息占總處方信息的比例。越大,代表在特征重合區(qū)域之外存在更多的處方信息,特征的區(qū)分度較好。通過去停用詞清理法和目標(biāo)處方信息的詞性標(biāo)注過濾法對醫(yī)院HIS系統(tǒng)中的特征詞向量空間維度進(jìn)行選擇性的降低,控制特征選擇的空間維數(shù),降低目標(biāo)處方信息篩選需要的能耗。
1.2 目標(biāo)處方信息篩選結(jié)果精準(zhǔn)度的提高
給定醫(yī)院HIS系統(tǒng)中的數(shù)據(jù)庫樣本集為:,當(dāng)時,代表樣本中的第個元素,代表與樣本中對應(yīng)元素的屬性值。醫(yī)院HIS系統(tǒng)數(shù)據(jù)庫中的每一個樣本都分配一個權(quán)重,由這些樣本權(quán)重構(gòu)成向量。將初始化數(shù)據(jù)庫樣本的權(quán)重設(shè)定為表示每個數(shù)據(jù)庫中的樣本權(quán)重都是相同的。設(shè)表示樣本集中最大的循環(huán)次數(shù),計算醫(yī)院HIS系統(tǒng)分類器在權(quán)值為情況下的錯誤率:
在醫(yī)院HIS系統(tǒng)分類器的第二次訓(xùn)練中,對樣本的權(quán)重進(jìn)行調(diào)整,第一次對正確樣本進(jìn)行分類時,權(quán)重會降低。第一次對錯誤樣本進(jìn)行分類時,權(quán)重會提高。為醫(yī)院HIS系統(tǒng)中所有分類器都分配一個權(quán)重值。權(quán)重值是根據(jù)醫(yī)學(xué)HIS系統(tǒng)中弱分類器的錯誤率進(jìn)行計算的,計算公式如下:
完成值的運(yùn)算后,對權(quán)重向量進(jìn)行更新處理,降低正確分類的處方信息樣本權(quán)重,更新處方信息樣本的權(quán)值公式為:
完成目標(biāo)處方信息樣本的權(quán)值計算后,開始下一輪的迭代,直到醫(yī)院HIS系統(tǒng)弱分類器的數(shù)目達(dá)到指定值或錯誤率為0,提高目標(biāo)處方信息篩選結(jié)果的精準(zhǔn)度。
1.3 目標(biāo)處方信息篩選
定義醫(yī)院HIS系統(tǒng)中目標(biāo)處方信息篩選中的相關(guān)變量:
式中:代表篩選處方信息對象集;代表可識別的處方信息;表示用戶對處方的目標(biāo)值。
目標(biāo)處方信息篩選可以描述為。其中代表篩選處方信息對象集到信息類映射的關(guān)系;表示信息類用戶目標(biāo)度映射的關(guān)系。目標(biāo)處方信息篩選根據(jù)對輸入醫(yī)學(xué)HIS系統(tǒng)的處方信息進(jìn)行分類;通過計算用戶輸入HIS系統(tǒng)處方信息類的目標(biāo)值,并根據(jù)目標(biāo)閾值判斷其取舍。
圖1為目標(biāo)處方信息篩選的過程,包括:
1) 用戶目標(biāo)體系的描述,對用戶的目標(biāo)和信息需求進(jìn)行描述;
2) 醫(yī)院HIS系統(tǒng)接收輸入的信息;
3) 對輸入醫(yī)院HIS系統(tǒng)的處方信息進(jìn)行分類;
4) 根據(jù)用戶的目標(biāo)值對輸入醫(yī)院HIS系統(tǒng)的信息處理行為進(jìn)行判斷:是否通過醫(yī)院HIS系統(tǒng)的篩選器,判斷輸入醫(yī)院HIS系統(tǒng)的信息是否進(jìn)入處方信息篩選結(jié)果集;
5) 用戶評價處方信息篩選的結(jié)果集;
6) 對用戶的目標(biāo)描述進(jìn)行修正。
2 實(shí)驗分析
本次實(shí)驗在Microsoft.NET Framework環(huán)境下完成,并使用Microsoft Visual Studio編寫Web服務(wù)和客戶端應(yīng)用程序。實(shí)驗數(shù)據(jù)從醫(yī)院HIS系統(tǒng)中收集,信息收集的標(biāo)準(zhǔn)是包含目標(biāo)處方信息,標(biāo)為目標(biāo)處方信息的數(shù)據(jù)約為100條。隨機(jī)對醫(yī)院HIS系統(tǒng)中的處方信息進(jìn)行劃分,通過多次迭代進(jìn)行平均。實(shí)驗的評價指標(biāo)為綜合指標(biāo)、召回率和采用準(zhǔn)確率計算公式如下:
在醫(yī)院HIS系統(tǒng)進(jìn)行目標(biāo)處方信息篩選時要避免漏報目標(biāo)處方信息,并注重召回率。實(shí)驗評估了本文方法和LiDAR目標(biāo)處方信息篩選方法,實(shí)驗結(jié)果如表1,表2所示。
表1為本文方法的實(shí)驗結(jié)果,分析表1可知,本文的采用準(zhǔn)確率平均為0.24,召回率平均為0.83,綜合指標(biāo)平均為0.66。表2為LiDAR目標(biāo)處方信息篩選方法的實(shí)驗結(jié)果,分析表2可知,LiDAR目標(biāo)處方信息篩選方法的采用準(zhǔn)確率平均為0.13,召回率平均為0.26,綜合指標(biāo)平均為0.33。對比表1、表2可知,本文方法的篩選結(jié)果要優(yōu)于LiDAR目標(biāo)處方信息篩選方法,篩選結(jié)果較為精準(zhǔn),適合醫(yī)院HIS系統(tǒng)的目標(biāo)處方信息篩選任務(wù)。endprint
選取四種特征選擇方法進(jìn)行實(shí)驗,四種特征選擇方法的空間維數(shù)分別為400,600,800,1 000,1 200,得到的宏平均值如表3所示。
分析表3可知,四種特征選擇方法的宏平均值均在特征維數(shù)為1 000時最高,篩選的結(jié)果最為準(zhǔn)確,當(dāng)特征空間維數(shù)過多時,會導(dǎo)致特征選擇的特征詞中存在噪聲信息,篩選的計算量增大,導(dǎo)致目標(biāo)處方信息篩選的結(jié)果不準(zhǔn)確。為了驗證本文方法的特征選擇性能,分別選取MI特征選擇方法和IG特征選擇方法與本文方法的特征選擇方法進(jìn)行測試,三種不同方法的測試結(jié)果如圖2所示。
由表3可知,當(dāng)特征維數(shù)為1 000個時,特征選擇方法效果達(dá)到最佳,目標(biāo)處方信息篩選的結(jié)果最為準(zhǔn)確,分析圖2可知,在測試時,本文方法的特征維數(shù)保持在1 000左右,此時的特征選擇方法達(dá)到最佳,對目標(biāo)處方信息篩選的結(jié)果較為準(zhǔn)確。使用MI特征選擇方法進(jìn)行實(shí)驗時,該方法的特征維數(shù)超過1 000個,此時的特征空間維數(shù)過多,導(dǎo)致特征選擇的特征詞中存在噪聲信息,使篩選的計算量增大,篩選結(jié)果不準(zhǔn)確。使用IG特征選擇方法進(jìn)行測試時,特征維數(shù)沒有達(dá)到1 000個,此時的特征空間維數(shù)較少,不能完全篩選出含有特征的目標(biāo)處方信息,導(dǎo)致篩選結(jié)果不準(zhǔn)確。
為了驗證醫(yī)院HIS系統(tǒng)中目標(biāo)處方信息篩選方法的性能,分別采用本文方法和SEF目標(biāo)處方信息篩選方法進(jìn)行測試,對比兩種不同方法進(jìn)行目標(biāo)處方信息篩選時的能耗,能耗越低,篩選方法的可用性越高,實(shí)驗結(jié)果如圖3所示。
分析圖3可知,本文方法進(jìn)行目標(biāo)處方信息篩選時的能量消耗要低于SEF方法進(jìn)行目標(biāo)處方信息篩選時的能量消耗。SEF方法對目標(biāo)信息進(jìn)行篩選時利用中間節(jié)點(diǎn)的概率,因為SEF方法各個節(jié)點(diǎn)之間的公共密鑰概率比較低,所以非目標(biāo)處方信息需要通過較多的跳出傳輸才能被過濾出去,消耗了較多的能量,使SEF的能耗較高。
3 結(jié) 論
對醫(yī)院HIS系統(tǒng)中的目標(biāo)處方信息進(jìn)行篩選,可以快速地找到目標(biāo)處方信息,減少查詢所用的時間。當(dāng)前的目標(biāo)處方信息篩選方法存在能量消耗較高,篩選結(jié)果不準(zhǔn)確的問題,本文提出一種醫(yī)院HIS系統(tǒng)中目標(biāo)信息篩選方法,在解決上述問題的基礎(chǔ)上進(jìn)行提升,并通過實(shí)驗得到驗證。
1) 采用本文方法和LiDAR目標(biāo)處方信息篩選方法根據(jù)綜合指標(biāo)召回率和采用準(zhǔn)確率進(jìn)行篩選結(jié)果的測試,驗證本文方法的篩選結(jié)果較為精準(zhǔn)。
2) 根據(jù)特征維數(shù)對MI特征選擇方法、IG特征選擇方法和本文方法進(jìn)行測試,驗證本文方法的篩選結(jié)果精準(zhǔn)度較高。
3) 采用本文方法和SEF目標(biāo)處方信息篩選方法進(jìn)行能耗測試,驗證本文方法對目標(biāo)處方信息進(jìn)行篩選時所用的能量較低。
參考文獻(xiàn)
[1] 高凌潔.實(shí)時互聯(lián)網(wǎng)信息過濾系統(tǒng)的設(shè)計及實(shí)現(xiàn)研究[J].電子設(shè)計工程,2016,24(19):51?53.
GAO Lingjie. The design and implementation of real time Internet information filtering system [J]. Electronic design engineering, 2016, 24(19): 51?53.
[2] 馬媛媛,楊磊.最優(yōu)乒乓球運(yùn)動員身體特征尋優(yōu)篩選挖掘建模[J].計算機(jī)仿真,2015,32(6):382?385.
MA Yuanyuan, YANG Lei. Modeling of optimization screening mining for optimal table tennis athletes physical characteristics [J]. Computer simulation, 2015, 32(6): 382?385.
[3] 王欣,黃莉莉,陶祥,等.SPD系統(tǒng)在醫(yī)院藥品管理中的應(yīng)用[J].科技通報,2017,33(2):231?234.
WANG Xin, HUANG Lili, TAO Xiang, et al. Application of SPD system for pharmaceutical management [J]. Bulletin of science and technology, 2017, 33(2): 231?234.
[4] 馬胡雙,石永革,高勝保.基于特征增益與多級優(yōu)化的協(xié)同過濾個性化推薦算法[J].科學(xué)技術(shù)與工程,2016,16(21):272?277.
MA Hushuang, SHI Yongge, GAO Shengbao. A recommendation algorithm based on collaborative filtering by feature augmentation and cascade tactics [J]. Science technology and engineering, 2016, 16(21): 272?277.
[5] 孟祥萍,周來,王暉,等.云計算技術(shù)在未來智能電網(wǎng)信息處理平臺中的應(yīng)用[J].計算機(jī)測量與控制,2015,23(10):3508?3511.
MENG Xiangping, ZHOU Lai, WANG Hui, et al. Applications of cloud computing technology for information processing platform in future smart grid [J]. Computer measurement & control, 2015, 23(10): 3508?3511.
[6] 張瑞昕,卜方玲,惠毅.一種適用于多數(shù)據(jù)鏈網(wǎng)絡(luò)的信息過濾轉(zhuǎn)發(fā)策略[J].計算機(jī)工程與應(yīng)用,2015,51(8):89?91.endprint
ZHANG Ruixin, PU Fangling, HUI Yi. Information filtering and forwarding strategy suitable for multiple data link networks [J]. Computer engineering and applications, 2015, 51(8): 89?91.
[7] 李云瑋,馬蕾.基于SVM的物聯(lián)網(wǎng)大數(shù)據(jù)有效信息過濾挖掘[J].控制工程,2016,23(10):1533?1537.
LI Yunwei, MA Lei. Big data effective information filtering mining of Internet of Things based on SVM [J]. Control engineering of China, 2016, 23(10): 1533?1537.
[8] 王元忠,趙艷麗,張霽,等.近紅外光譜信息篩選在瑪咖產(chǎn)地鑒別中的應(yīng)用[J].光譜學(xué)與光譜分析,2016,36(2):394?400.
WANG Yuanzhong, ZHAO Yanli, ZHANG Qi, et al. Study on application of NIR spectral information screening in identification of Maca origin [J]. Spectroscopy and spectral analysis, 2016, 36(2): 394?400.
[9] 李陽,杜垚.文本情報信息篩選與聚類的一種處理方法[J].火力與指揮控制,2017,42(2):172?175.
LI Yang, DU Yao. A text clustering method using word appea?rance probability [J]. Fire control & command control, 2017, 42(2): 172?175.
[10] 遲國泰,陳洪海.基于信息敏感性的指標(biāo)篩選與賦權(quán)方法研究[J].科研管理,2016,37(1):153?160.
CHI Guotai, CHEN Honghai. A study of index screening and weighting method based on information sensitivity [J]. Science research management, 2016, 37(1): 153?160.endprint