国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web醫(yī)療數據的互聯網醫(yī)療用戶研究

2017-04-26 12:30馮洪海孫遠燦李利敏宋舒晗黃俊輝
計算機時代 2017年4期

馮洪海+孫遠燦+李利敏+宋舒晗+黃俊輝

摘 要: 互聯網醫(yī)療的蓬勃發(fā)展帶來了大量的數據積累,如何有效的利用這些數據是當前面臨的問題。通過開發(fā)爬蟲軟件,獲取了截至2017年2月尋醫(yī)問藥網中內科和外科的131894條咨詢數據。針對這些數據,用統(tǒng)計學方法調查用戶的性別和年齡分布,通過程序識別咨詢數據中的癥狀和疾病,統(tǒng)計了現階段互聯網醫(yī)療用戶癥狀和疾病的分布。

關鍵詞: 互聯網醫(yī)療; 網頁爬蟲; 癥狀分布; 疾病分布

中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)04-41-03

Abstract: The rapid development of the Internet medical has brought a lot of data, and how to make effective use of these data is the problem currently faced. In this paper, a crawler is developed to have acquired 131,894 internal and surgical medicine enquiry data by February 2017, from medicine websites. According to these data, the distribution of users' gender and age are investigated by the statistical methods, and the distribution of the symptoms and diseases of the Internet medical users at this stage are counted by the identification.

Key words: Internet medical; Web crawler; symptom distribution; disease distribution

0 引言

醫(yī)療一直是人們關注的熱點話題,與人們的生活緊密相關,隨著互聯網的發(fā)展,越來越多的人選擇在網上咨詢醫(yī)生關于健康的問題。中國互聯網絡信息中心(CNNIC)發(fā)布的《第37次中國互聯網絡發(fā)展狀況統(tǒng)計報告》顯示,2015年,中國互聯網醫(yī)療用戶數量為1.52億。網絡醫(yī)療咨詢提供了一個新的方式,讓用戶可以不用實地見到醫(yī)生,就可以咨詢病情[1],能夠幫助用戶方便快捷的了解自身的健康信息?;ヂ摼W醫(yī)療行業(yè)積累了大量的用戶疾病數據,如何有效的利用這些數據是現階段面臨的主要問題。目前已有一些學者從不同角度對在線醫(yī)療咨詢數據的信息挖掘進行了研究。Silver MP[2]研究了患者在線健康信息搜索的相關問題。石思優(yōu)[3]應用Med-LDA 模型研究醫(yī)療數據中病癥和用藥的獨立關系和相互聯系。Ullah Z[4]等人認為使用數據挖掘算法可以提高預測、診斷和疾病分類的質量,研究了數據挖掘技術的成本、性能、速度和準確性。魏強[5]通過研究醫(yī)療數據存儲與分析系統(tǒng),對疾病間關聯關系進行分析。Walczak等人[6]研究了病人的醫(yī)療檢查信息在提高計算機診斷準確性方面的應用。陳遷[7]研究了醫(yī)療數據在分析糖尿病住院患者基本信息、治療醫(yī)囑、生化指標、費用明細等方面的應用。閆茜[8]提出了一種用于數據處理的基于統(tǒng)計樹和增量計算的海量醫(yī)療數據快速統(tǒng)計查詢方法。許杰[9]提出了一種基于數據不一致率的新型數據分類方法。李萍[10]研究了醫(yī)療數據質量的特點,如統(tǒng)一性、可靠性、“多粒度”級別、高可用性、高適用性。蔣良孝[11]對醫(yī)療數據挖掘的主要特點、基本過程、關鍵技術、計算智能方法以及發(fā)展方向進行了探討。

本文通過開發(fā)爬蟲軟件獲取截至2017年2月尋醫(yī)問藥網中內科和外科的131894條醫(yī)療咨詢數據。針對這些數據,用統(tǒng)計學的方法調查用戶的年齡分布、性別分布。通過識別醫(yī)療數據中的癥狀和疾病,對不同年齡段、不同性別的用戶的癥狀和患病情況進行調查,得出了現階段我國互聯網醫(yī)療用戶的特征和分布。

1 獲取數據

通過分析網站的結構,本文采用多級網頁爬蟲的方式獲取數據,首先獲得一級科室的鏈接,然后獲取每個一級科室下屬的二級科室鏈接。每個一級和二級科室的頁面中都有用戶的問題咨詢列表,本文獲取了內科和外科中的所有問題集合,并對集合進行去重操作,最后共得到網頁鏈接131894個。針對每一個網頁,我們獲取的用戶信息包括性別、年齡、咨詢的內容和醫(yī)生的回復內容。

在具體的爬蟲代碼中,為了防止頻繁訪問網站導致的爬蟲被網站限制,本文采用用戶代理(User Agent)和程序隨機休眠相結合的方法。User Agent是一個特殊字符串頭,使得服務器能夠識別客戶使用的操作系統(tǒng)及版本、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等,如("User-Agent","Mozilla/4.0(compatible; MSIE 5.0; Windows NT; DigExt)"。

程序的最大獲取連接時間。為了保證程序不在某一個頁面花費過多的時間甚至導致程序長期處于連接獲取的等待階段,本文對程序的最大連接獲取時間進行限制,如果程序在m毫秒內不能獲取到網頁的連接,程序將跳過此網頁,經過反復實驗,我們設置m為6000,即允許每個網頁的等待時間為6秒,以此來應對網頁不可獲取和網絡不穩(wěn)定帶來的問題。

程序隨機休眠。如果獲取的網頁內容為空,那么程序將休眠,,休眠時間在0-n毫秒之間隨機生成。如果休眠后仍然不能獲取到數據,那么將跳過此頁面,以此來保證爬蟲的效率,在經過多次實驗后,本文設置n為200。

采用SQLite數據庫存儲數據,其中用戶咨詢的內容可以表示為:用戶的提問即提問標題和咨詢內容的描述。數據的類型如表1所示。

2 癥狀和疾病識別

2.1 癥狀識別

通過網頁爬蟲,從39健康網和尋醫(yī)問藥網收集癥狀總數7632種,為了準確匹配用戶的口語化表達詞語,比如用戶使用“肚子痛”、“肚子疼”等詞來描述癥狀,本文構建了用戶的口語表達詞語與規(guī)范詞匯對應列表,如“肚子痛”和“肚子疼”對應為“腹痛”。通過這樣的方式統(tǒng)一用戶的口語化表達。通過人工瀏覽咨詢數據,本文共獲得606種癥狀中的用戶口語表達詞語716種。識別用戶癥狀以后的數據類型如表2所示。

2.2 疾病識別

本文通過網頁爬蟲從互聯網收集疾病21464種;從39健康網和尋醫(yī)問藥網收集疾病9095種;兩個疾病集合去除重復的疾病,本文構建的疾病詞典Ddict中共包含疾病28143種。醫(yī)療咨詢分為用戶的提問與醫(yī)生的回復,考慮到用戶缺乏相應的醫(yī)學專業(yè)知識,在對疾病進行識別的過程中,如果不能識別出用戶提問中涉及的疾病,程序將在醫(yī)生的回復中繼續(xù)進行疾病匹配,程序對癥狀和疾病的識別流程為圖1所示。

在疾病匹配時,把疾病詞典按照疾病的字符長度從大到小進行排序,按照最大匹配原則對數據中的疾病進行識別,如,先匹配“丙型肝炎”如果沒有匹配到,繼續(xù)匹配“肝炎”等,精確用戶的咨詢內容和醫(yī)生的回復內容,得到用戶的疾病數據。識別疾病以后的數據類型如表3所示。

3 實驗結果

3.1 性別和年齡分布

在131894條咨詢數據中,男性用戶數量為61338,占所有用戶數量的46.51%;女性用戶數量為70556,占所有用戶數量的53.49%。

通過劃分年齡階段對每個年齡段的用戶數量進行統(tǒng)計,結果顯示年齡在21-30之間的用戶最多,數量為35412,占所有用戶數量的26.84%;年齡在31-40之間的用戶數量為16917,占所有用戶數量的12.82%。各年齡階段的用戶數量分布如圖2所示。

3.2 癥狀和疾病分布

通過對用戶提問數據的癥狀識別,對識別結果進行統(tǒng)計,結果顯示用戶的咨詢數據中 “頭痛”出現的次數最多,為4585,占所有咨詢數量的3.47%;“胃氣上逆”出現的次數為4554,占所有咨詢數量的3.45%。出現次數最多的前十種癥狀如圖3所示。

通過對醫(yī)療咨詢數據的疾病識別,對識別結果進行統(tǒng)計,結果顯示醫(yī)療咨詢中出現“肢端肥大癥”的次數最多,為11171,占所有咨詢數量的8.47%;“感染”出現的次數為5377,占所有咨詢數量的4.07%。出現次數最多的前十種疾病如圖4所示。

4 結束語

本文通過開發(fā)爬蟲軟件獲取了尋醫(yī)問藥網中的131894條醫(yī)療咨詢數據,在程序中采用用戶代理和程序隨機休眠的方法提高爬蟲的效率。針對這些醫(yī)療數據,通過統(tǒng)計學方法調查用戶的性別和年齡分布;通過獲取癥狀詞典和疾病詞典對醫(yī)療咨詢中的癥狀和疾病進行識別,加入了對用戶口語表達詞匯的提取,統(tǒng)計了現階段互聯網醫(yī)療用戶的癥狀和疾病分布。未來的研究可以從以下幾方面著手:①對更多的咨詢數據進行調查;②對醫(yī)生的回復特征進行研究;③移動醫(yī)療APP。

參考文獻(References):

[1] Umefjord G, Petersson G, Hamberg K. Reasons for Consulting a Doctor on the Internet: Web Survey of Users of an Ask the Doctor Service. Journal of Medical Internet Research,2003.5(4):e26

[2] Silver MP. Patient perspectives on online health

information and communication with doctors: a qualitative study of patients 50 years old and over. Journal of Medical Internet Research,2015.17(1):e19

[3] 石思優(yōu).基于主題模型的醫(yī)療數據挖掘研究[D].廣東技術師范學院碩士學位論文,2015.

[4] Ullah Z, Fayaz M, Iqbal A. Critical Analysis of Data MiningTechniques on Medical Data[J]. International Journal of Modern Education & Computer Science,2016.

[5] 魏強.基于云計算的醫(yī)療數據處理技術研究[D].貴州大學碩士學位論文,2015.

[6] Walczak, Paczkowski A /, Micha?. Medical data prepro-cessing for increased selectivity of diagnosis[J]. Bio-Algorithms and Med-Systems,2016.12(1):39-43

[7] 陳遷.糖尿病醫(yī)療數據處理及藥物利用研究[D].第二軍醫(yī)大學碩士學位論文,2014.

[8] 閆茜.海量醫(yī)療數據挖掘平臺的研究與設計[D].武漢理工大學碩士學位論文,2014.

[9] 許杰.基于醫(yī)療數據挖掘的在線病情分析系統(tǒng)研究與開發(fā)[D].浙江工業(yè)大學碩士學位論文,2013.

[10] 李萍.醫(yī)療數據質量的問題探索和解決模式[J].計算機應用與軟件,2013.8:217-219

[11] 蔣良孝.基于神經網絡的醫(yī)療數據挖掘研究[D].中國地質大學碩士學位論文,2004.

静宁县| 溆浦县| 静乐县| 乌海市| 三穗县| 新化县| 富裕县| 镇坪县| 大安市| 定陶县| 应用必备| 金阳县| 饶阳县| 肇州县| 通城县| 富宁县| 修文县| 金阳县| 华阴市| 区。| 邻水| 商丘市| 珲春市| 普陀区| 榆社县| 天水市| 六盘水市| 青岛市| 丁青县| 章丘市| 日土县| 尤溪县| 会东县| 兴安盟| 中牟县| 柳江县| 太原市| 天台县| 平乐县| 新蔡县| 青田县|