国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字符余弦相似度的地址數(shù)據治理方法

2019-10-23 02:27:08李慶豐張治國梁會營夏慧敏
中國醫(yī)學裝備 2019年10期
關鍵詞:余弦彈性文字

張 帆 鄧 慧 李慶豐 張治國 梁會營* 夏慧敏

地址信息的準確性對于病案上傳、傳染病上報、地理信息系統(tǒng)(geographic information system,GIS)分析、醫(yī)院內部科研及發(fā)病地區(qū)統(tǒng)計至關重要。目前,多數(shù)醫(yī)院對于患者地址信息的獲得主要依賴于患者主動填寫的地址,信息從掛號入口進入醫(yī)院內部系統(tǒng)后,各使用部門所對照的規(guī)范數(shù)據集不相同。通常,病案上傳要求5級地址,而傳染病報病只需4級地址,兩者包含的行政街道并不完全一致,每年更新的時間也不一致。為了實現(xiàn)數(shù)據治理的目標,本研究提出基于字符余弦相似度的地址數(shù)據治理方法,將患者填寫的原始地址在不同的數(shù)據規(guī)范集進行數(shù)據映射[1-6]。

1 資料與方法

1.1 一般資料

待清洗的數(shù)據來自2018年1月至2019年4月廣州市婦女兒童醫(yī)療中心的掛號患者,按掛號時間先后選用了其中100萬例患者的地址信息作為分析集。

1.2 相關技術

將患者提供的地址信息中殘缺地址與標準地址進行字符編碼,通過余弦相似度以及彈性距離找到合適的映射地址。從熱力圖上看,數(shù)據治理后的地址比治理前提供了更多的信息增益,并且達到了90%的修復率。

1.2.1 余弦相似度算法

在兩份文本相似度上,“余弦相似度”算法[7]被廣泛使用。通過將兩個文本出現(xiàn)的單詞,建立A、B兩個向量,并且計算這兩個向量的余弦值。其數(shù)學表達為公式1:

式中A、B為文本編碼后的向量;cos_Similarity(A,B)∈(0,1)代表了為兩個文本的相似度,當兩份文本越相似,越接近1。

1.2.2 彈性距離算法

由于余弦相似度算法本身是在向量空間里面計算兩份文本的相似度,并不考慮字符的前后次序關系。為了表示這一特征,并且最大程度從患者填寫地址中提取連貫的片段信息,定義“彈性距離”這一數(shù)學量,其概念表達見圖1。

圖1 彈性距離計算方法

將患者地址映射到標準地址相同的文字上,再檢查標準地址上有多少個文字是相連的,最后數(shù)出相連的文字對數(shù),標記為彈性距離。若有多種映射方式,則選取最大的作為映射距離,其具有同時表示文字的次序和文字的緊密程度的優(yōu)點。即便患者寫出“北京市朝陽區(qū)廣州市”的地址信息,也能正確地根據“北京市朝陽區(qū)”這段緊密相連的文字得到更大的權重,排除“廣州市”相對于標準地址無關的信息干擾。

彈性距離數(shù)學表達設患者地址文字序列為A=a1a2…ai,標準地址序列為B=b1b2…bj,患者地址文字第l塊片段Cl=cl1cl2…clk,其中Cl∈A且Cl∈B,則彈性距離為公式2:

因為文字片斷匹配的過程滿足動態(tài)規(guī)劃的后無效性要求,所以可以使用動態(tài)規(guī)劃方法求解。

1.2.3 地址綜合得分

計算患者地址對于每個標準地址的余弦相似性,將結果按高分排在前面,取前10個相似的地址,再對10個地址分別計算彈性距離,并將彈性距離的得分在10個地址的組內歸一化,再與余弦相似性相加作為10個地址的最后得分,取最高分作為映射地址:

1.3 研究方法

1.3.1 數(shù)據特點

患者手填地址有著和文本不同的特點。文本除虛詞“的”、“了”外,多數(shù)詞匯出現(xiàn)次數(shù)不止一次,因此可從詞匯整體出現(xiàn)的概率去提取表示位置的實體,但地址信息除省、市、區(qū)前三級在標準地址表里出現(xiàn)頻繁外,第四級的鎮(zhèn)、鄉(xiāng)、縣、街道的命名則種類繁多,大量名詞只在標準庫中出現(xiàn)一次,而由于出現(xiàn)頻率低,故無法有效提取與位置實體有關的詞匯。對100萬名患者填寫的地址進行分析,發(fā)現(xiàn)標準地址具有統(tǒng)計特點:地址的長度一般為(21±6)個字符,當>2個標準差以后(9個字符、33個字符),地址的質量堪憂,其統(tǒng)計特點無論是統(tǒng)計5000個地址,還是100萬個地址,皆保持穩(wěn)健。多種患者的不良地址類型見表1。

表1 不良地址類型舉例

對于標準地址表《全國街道鄉(xiāng)鎮(zhèn)級以上行政區(qū)劃》的分析則表現(xiàn)出以下規(guī)律:①規(guī)范地址使用3100個漢字,除建設兵團用編號標注外,極少使用阿拉伯數(shù)字;②使用“省”“市”“鎮(zhèn)”“縣”“鄉(xiāng)”“州”“街道”“區(qū)”“農場”“建設兵團”“團”“單位”“公司”“場”“管理處”“園”“管委會”“自治州”等文字進行級別劃分;③在個別地區(qū)并不使用省、市、區(qū)這種類型的行政區(qū)劃,如“建設兵團直屬單位兵團機關”。

1.3.2 數(shù)據處理流程

構建一份字向量字典,將規(guī)范地址表中的文字進行one-hot編碼。通過字向量字典對患者填寫地址與規(guī)范地址進行編碼,去除數(shù)字和空格等非規(guī)范字符后,獲得患者地址與規(guī)范地址向量;依次按算法處理患者地址,得到唯一地址,其流程見圖2。

1.3.3 統(tǒng)計學方法

采用統(tǒng)計學軟件IBM SPSS Statistics19.0對數(shù)據進行統(tǒng)計分析,數(shù)據不符合正態(tài)分布,采用t檢驗方式。

2 結果

圖2 數(shù)據處理流程

通過地址質量較差的標準(字符數(shù)<9個,>33個)從100萬名患者地址中篩選58 900個地址作為數(shù)據集。通過隨機抽取樣本,并且人工判斷的方法檢查算法的處理情況,通過t檢驗[7]進行估計,每200個地址以95%置信區(qū)間(confidence interval,CI)可以正確修復170~186個地址,見表2。

表2 不良地址修復統(tǒng)計

未能修復的地址在于患者使用了“街道”一詞進行地址描述,并且該街道未出現(xiàn)在規(guī)范地址集里面。盡管余弦相似度與彈性距離得分均較低,但按算法流程依然篩選了一個映射地址,因此,對關鍵詞進行過濾可以增強地址修復率。地址經過治理后呈現(xiàn)出良好的有序對照關系,方便病案室、科研人員進行下一步處理,并且在不同的數(shù)據規(guī)范中相互映射也有著良好的效果。對于列為“不詳”的地址,醫(yī)院在患者下次來院時給予提示,請患者填入現(xiàn)住址進行更正,見表3。

表3 地址治理后修復結果

從58 900的低質量地址中隨機選取4800個地址進行修復,并于修復前后通過“百度地圖開放平臺”進行熱力圖信息增益對比[8-10]。當?shù)刂肺粗卫砬?,根據熱力圖繪制的原理,地址被分散到各個不同的經緯坐標當中,結果不明顯。而地址數(shù)據治理以后,因為更多的地址被歸總映射到同一個經緯坐標下,因此熱力圖明晰可辨,見圖3。

圖3 治理后信息增益熱力圖

3 結論

本研究提出的簡單且有用的地址映射算法對患者地址數(shù)據進行治理,由于“余弦相似性”及“彈性距離”均為一種統(tǒng)計上的先驗規(guī)律,與其他先驗規(guī)律得到的知識一樣,其算法也有其限制因素:①當患者使用道路作為登記地址的時候,因為道路名稱可能在全國其他省份使用,因此需要結合更多的信息進行校準;②當患者寫錯別字或字序顛倒時,需要先對原始數(shù)據進行清洗;③患者使用了樓盤的名稱或未進入標準地址的道路名稱時,算法無法找到正確的對應地址,而要結合GIS尋找該患者地址最大可能的位置,再匹配行政街道進行修正。

本研究拓展與改進患者地址數(shù)據治理規(guī)律的適普性,并從不同角度加以完善,可以使得患者地址數(shù)據治理工作更加完整。

猜你喜歡
余弦彈性文字
為什么橡膠有彈性?
軍事文摘(2021年18期)2021-12-02 01:28:12
為什么橡膠有彈性?
文字的前世今生
熱愛與堅持
當我在文字中投宿
文苑(2020年12期)2020-04-13 00:55:10
注重低頻的細節(jié)與彈性 KEF KF92
彈性夾箍折彎模的改進
模具制造(2019年4期)2019-06-24 03:36:40
兩個含余弦函數(shù)的三角母不等式及其推論
分數(shù)階余弦變換的卷積定理
圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
子洲县| 大田县| 新兴县| 湘潭市| 霸州市| 凤庆县| 常熟市| 江孜县| 永嘉县| 武威市| 高密市| 宁远县| 海南省| 延安市| 泾川县| 阳曲县| 象山县| 邵武市| 双桥区| 沙洋县| 兰溪市| 卢龙县| 香格里拉县| 吉隆县| 砀山县| 景泰县| 苍梧县| 五寨县| 湖南省| 庆阳市| 枞阳县| 临高县| 永善县| 昔阳县| 常山县| 宾阳县| 陵水| 连南| 景泰县| 永兴县| 顺昌县|