国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的患者就醫(yī)影響因素研究

2021-02-04 10:48:26佟金鐸郭鳳英陳曉倩
醫(yī)學(xué)信息 2021年2期
關(guān)鍵詞:畫像可視化醫(yī)生

佟金鐸,郭鳳英,翟 興,李 巖,陳曉倩

(北京中醫(yī)藥大學(xué)管理學(xué)院,北京 100029)

隨著互聯(lián)網(wǎng)開始普及,信息技術(shù)水平不斷提高,社會各行各業(yè)信息化程度也隨之逐漸加深。醫(yī)療行業(yè)作為一個與健康密切相關(guān)的行業(yè),在信息技術(shù)改革的影響下,其醫(yī)療模式、醫(yī)療形態(tài)都有了巨大的改變,在傳統(tǒng)就醫(yī)模式的基礎(chǔ)上發(fā)展形成了“在線醫(yī)療”的新型就醫(yī)模式?;颊呖梢宰悴怀鰬簦ㄟ^在線醫(yī)療網(wǎng)站選擇合適醫(yī)生進行問診,隨之產(chǎn)生了大量的就醫(yī)行為數(shù)據(jù),如醫(yī)生熱度、患者滿意度、患者評價等。這些數(shù)據(jù)信息通過在線醫(yī)療網(wǎng)站也呈現(xiàn)在患者面前,影響著患者的就醫(yī)選擇。在考慮自身經(jīng)濟條件和對癥的同時,醫(yī)生所屬醫(yī)院、醫(yī)生職稱以及患者對醫(yī)生的評價等信息同樣對患者的就醫(yī)選擇有著巨大的影響。對于在線醫(yī)療網(wǎng)站的發(fā)展而言,分析影響患者就醫(yī)選擇的因素,進而為患者提供更加符合個性化需求的在線醫(yī)療服務(wù),具有十分重要的意義[1]。本文主要通過分析患者就醫(yī)的數(shù)據(jù)信息,判斷患者就醫(yī)的傾向性以及影響患者就醫(yī)傾向性的因素,從而完善在線醫(yī)療網(wǎng)站的服務(wù)機制以提高患者的就醫(yī)體驗,為患者提供更加優(yōu)質(zhì)服務(wù)。

1 在線醫(yī)療網(wǎng)站數(shù)據(jù)采集

1.1 網(wǎng)絡(luò)爬蟲 網(wǎng)絡(luò)爬蟲是目前常用的網(wǎng)絡(luò)數(shù)據(jù)采集工具,通過一定的代碼程序?qū)崿F(xiàn)自動檢索目標(biāo)網(wǎng)站網(wǎng)頁信息的功能[2]。它的廣泛應(yīng)用為快速便捷地采集大量網(wǎng)頁數(shù)據(jù)提供了工具和方法,取代了手動采集網(wǎng)頁數(shù)據(jù),對大數(shù)據(jù)技術(shù)的發(fā)展有著巨大的推動作用。

1.2 網(wǎng)頁數(shù)據(jù)抓取的實現(xiàn) 隨著爬蟲技術(shù)的發(fā)展和成熟,市場上出現(xiàn)了許多功能完善的爬蟲軟件。本次主要采用八爪魚爬蟲軟件,這款軟件有簡易采集和自定義兩種采集模式,將數(shù)據(jù)采集過程簡易化、智能化、可視化,極大地減輕了操作者的工作負擔(dān),提高了數(shù)據(jù)采集效率。本次選用自定義模式,共采集776名醫(yī)生的結(jié)構(gòu)化數(shù)據(jù)信息,主要包括以下字段:醫(yī)生姓名、職稱、所屬醫(yī)院、推薦熱度、主治疾病、就診費用和患者評價。

2 數(shù)據(jù)清洗和處理

2.1 原始數(shù)據(jù)集描述 從好大夫在線網(wǎng)站上采集到的原始數(shù)據(jù),存在著數(shù)據(jù)冗余、缺失值等問題,需要進行數(shù)據(jù)清理。Azure Machine Learning 具有對數(shù)據(jù)集進行可視化并從很大的數(shù)據(jù)集中抽樣的能力,可用來完成數(shù)據(jù)清理。在清洗和處理原始數(shù)據(jù)集之前,一般先要了解以下幾個方面:①數(shù)據(jù)集的記錄數(shù);②屬性的數(shù)量;③每個屬性的數(shù)據(jù)類型;④名義屬性有哪些值;⑤連續(xù)屬性的統(tǒng)計分布情況;⑥每個屬性有多少缺失值;⑦每個屬性有多少不同的值。通過創(chuàng)建實驗可視化數(shù)據(jù)集里的原始數(shù)據(jù),見圖1。

通過這些圖表的內(nèi)容,對該數(shù)據(jù)集的整體情況有了初步的認識和了解。在此基礎(chǔ)上,還可以添加Descriptive Statistics 模塊運行實驗,進一步了解該數(shù)據(jù)集。該模塊生成標(biāo)準(zhǔn)統(tǒng)計測量結(jié)果,描述數(shù)據(jù)集里的每個屬性,見圖2。觀察該結(jié)果可以發(fā)現(xiàn)數(shù)據(jù)集存在的問題,包括圖文問診費存在15 個缺失值、電話咨詢費存在22 個缺失值、部分字段重復(fù)等。

圖1 可視化數(shù)據(jù)集

圖2 標(biāo)準(zhǔn)統(tǒng)計測量結(jié)果

2.2 數(shù)據(jù)集的清洗 通過配置Azure Machine Learning 的Clean Missing Data 模塊,設(shè)定清洗規(guī)則,解決數(shù)據(jù)集中包含缺失值和部分重復(fù)字段。

3 用戶畫像構(gòu)建

3.1 用戶畫像概述 在大數(shù)據(jù)時代,互聯(lián)網(wǎng)的數(shù)據(jù)總量逐年激增,海量的數(shù)據(jù)信息聚集在互聯(lián)網(wǎng)上,蘊含著巨大的能量和價值。人們可以通過研究互聯(lián)網(wǎng)上相關(guān)的數(shù)據(jù)信息,分析用戶的屬性和特征,從而有針對性地提供個性化服務(wù)。在充分利用大數(shù)據(jù)進行研究分析的眾多工具和方法中,用戶畫像的應(yīng)用最為廣泛。用戶畫像通過從采集到的數(shù)據(jù)中提取特征化標(biāo)簽,挖掘和刻畫用戶的屬性以及特征,通過給用戶“貼標(biāo)簽”來構(gòu)建畫像模型,可以有效挖掘用戶的個性化需求,制定個性化服務(wù)方案,從而使資源利用效率達到最優(yōu)[3]。

3.2 用戶畫像構(gòu)建流程 一般來說,構(gòu)建用戶畫像大致分為以下三步:①采集數(shù)據(jù):通過訪談、問卷調(diào)查、網(wǎng)絡(luò)爬蟲等方式進行數(shù)據(jù)采集;②提取特征:對采集到的數(shù)據(jù)進行數(shù)據(jù)挖掘和文本分析,從中提取出不同維度的特征化標(biāo)簽;③呈現(xiàn)畫像:可視化特征標(biāo)簽,形成用戶畫像。本次通過網(wǎng)絡(luò)爬蟲來采集好大夫在線網(wǎng)站上的數(shù)據(jù),將醫(yī)生姓名、職稱、所屬醫(yī)院、推薦熱度以及收費標(biāo)準(zhǔn)等特征信息標(biāo)簽化,對患者評價進行文本分析,提取患者評價當(dāng)中的特征詞并分析該評價的情感傾向,歸納整理相關(guān)的特征化標(biāo)簽并將其可視化,最終形成該醫(yī)生的可視化用戶畫像。

3.3 畫像特征的提取 患者評價數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),屬于特定的自然語言,遵循特定的語法和語義。自然語言是人類為滿足自身使用和溝通而形成并演變出來的語言,而不是像計算機編程語言那樣由人工創(chuàng)造和構(gòu)建的語言。語言的“自然性”導(dǎo)致了人們在進行文本分析的時候,不能只考慮文本數(shù)據(jù)本身,還要考慮到它背后的概念、它的本質(zhì)、意義和其中包含的情感。通常相比在客觀內(nèi)容上,情感分析能夠在患者評價這種主觀內(nèi)容上更好地工作。這是因為當(dāng)一個文本擁有客觀的上下文或視角時,文本通常描述一些正常的陳述或事實而不表達任何情感、感覺或情緒。好大夫在線醫(yī)療網(wǎng)站上的患者對醫(yī)生的評價,包含了患者的就醫(yī)體驗和情緒,對它進行分析和挖掘找出患者最為關(guān)心要素,對于改善在線醫(yī)療服務(wù)意義重大[4]。

通過調(diào)用百度AI 平臺的自然語言處理API,對患者評價數(shù)據(jù)進行情感傾向分析。利用client.sentimentClassify(text)命令,對命名為text 的文本進行情感傾向分析。以text='感謝信:診斷準(zhǔn)確、快速!知性女醫(yī)生,讓病人感覺到溫馨!'為例,得到以下結(jié)果'positive_prob':0.991941,'confidence':0.982091,'negative_prob':0.00805927,'sentiment':2。該結(jié)果表示文本內(nèi)容屬于積極類別的概率為0.991941,屬于消極類別的概率為0.00805927,分類的置信度為0.982091,情感極性分類結(jié)果為正向。根據(jù)以上分析結(jié)果可以看出,本條患者評價表達的情感為正向情感且可信度很高,即該患者對其所評價的醫(yī)生很滿意,見圖3。

圖3 情感傾向分析部分結(jié)果

3.4 可視化畫像的實現(xiàn) 從情感傾向分析的角度出發(fā),根據(jù)患者對醫(yī)生所做的評價分析患者的就醫(yī)體驗,在此基礎(chǔ)上提取出該醫(yī)生的特征并形成畫像[5]。首先通過調(diào)用Python 的jieba 庫來進行分詞和統(tǒng)計詞頻的操作。以某醫(yī)生的患者評價為例,從分析結(jié)果中可以發(fā)現(xiàn)在高頻詞當(dāng)中,耐心一詞出現(xiàn)了44次,感謝一詞出現(xiàn)了27 次,認真一詞出現(xiàn)了20 次,熱情一詞出現(xiàn)了18 次,和藹一詞出現(xiàn)了10 次,仔細一詞出現(xiàn)了10 次。由此推斷,患者對該醫(yī)生提供的醫(yī)療服務(wù)很滿意,這是一次愉快的就醫(yī)體驗[6]。將這些高頻詞提取出來,即可作為該醫(yī)生的特征標(biāo)簽,見圖4。再調(diào)用Python 的wordcloud 庫來生成詞云,在jieba 分詞的基礎(chǔ)上,生成該醫(yī)生的詞云,即醫(yī)生畫像,見圖5。

圖4 分詞和統(tǒng)計詞頻的部分結(jié)果

4 基于機器學(xué)習(xí)的相關(guān)性分析

Microsoft Azure Machine Learning 的Filter -BasedFeature Selection 模塊中內(nèi)置了多種相關(guān)性分析算法,這些算法會計算數(shù)據(jù)集中的每個特征和目標(biāo)屬性之間的相關(guān)度,并據(jù)此給該特征一個分數(shù)來表示二者間的相關(guān)度。本文選取的卡方檢驗算法進行患者就醫(yī)影響因素的相關(guān)性分析[7],選定“評分”列作為目標(biāo)屬性計算它和其他特征間的相關(guān)度。經(jīng)計算每個特征和目標(biāo)屬性之間的相關(guān)度如下:“所屬醫(yī)院”:937.940468,“2 年內(nèi)該疾病得票”:620.22737,“該疾病總票”:431.237631,“近兩周答疑數(shù)”:174.726116,“圖文問診費”:141.400486,“電話咨詢費”:128.346698,“職稱”:56.571225。由此可以看出,“所屬醫(yī)院”、“2 年內(nèi)該疾病得票”和“該疾病總票”三個特征和目標(biāo)屬性“評分”之間的相關(guān)度最大。即醫(yī)生所屬醫(yī)院和醫(yī)生口碑與患者就醫(yī)體驗之間的相關(guān)性最大。

圖5 可視化醫(yī)生畫像

使用Power BI 可視化模型,將各個特征和目標(biāo)屬性“評分”之間的相關(guān)關(guān)系通過圖表的形式呈現(xiàn),見圖6~圖8??芍孩佟霸u分”和“所屬醫(yī)院”之間的相關(guān)性很大,“評分”會隨著“所屬醫(yī)院”的改變而改變;②“評分”和“兩年內(nèi)該疾病得票”之間,整體上呈正相關(guān)趨勢;③“評分”和“職稱”之間的相關(guān)性很小,“評分”基本不會隨著“職稱”的改變而改變;④“評分”和“圖文問診費”之間,呈近似正態(tài)分布關(guān)系;⑤“評分”和“該疾病總票”之間,整體上呈正相關(guān)趨勢;⑥“評分”和“電話咨詢費”之間,呈近似正態(tài)分布關(guān)系;⑦“評分”和“近兩周答疑數(shù)”之間的相關(guān)性較小,“評分”在某水平線附近上下波動。其中“評分”代表患者就醫(yī)體驗,“所屬醫(yī)院”代表醫(yī)生所屬醫(yī)院,“兩年內(nèi)該疾病得票”和“該疾病總票”代表醫(yī)生口碑,“職稱”代表醫(yī)生職稱,“圖文問診費”和“電話咨詢費”代表收費標(biāo)準(zhǔn),“近兩周答疑數(shù)”代表醫(yī)生最近的回復(fù)率。

圖6 醫(yī)生口碑和評分間的關(guān)系

圖7 醫(yī)生職稱和評分間的關(guān)系

圖8 收費標(biāo)準(zhǔn)和評分間的關(guān)系

5 總結(jié)

通過對好大夫在線網(wǎng)站上的相關(guān)數(shù)據(jù)進行分析發(fā)現(xiàn),影響患者就醫(yī)的因素主要包括:①該醫(yī)生所屬醫(yī)院在該疾病領(lǐng)域的專業(yè)性;②兩年內(nèi)該疾病得票數(shù);③該醫(yī)生的技術(shù)水平和服務(wù)態(tài)度;④醫(yī)生的收費標(biāo)準(zhǔn)。醫(yī)生所屬醫(yī)院在該疾病領(lǐng)域的專業(yè)性越強,兩年內(nèi)該疾病得票數(shù)越高,服務(wù)態(tài)度越好,收費標(biāo)準(zhǔn)越合理,患者越傾向于選擇該醫(yī)生就診。當(dāng)醫(yī)生的收費標(biāo)準(zhǔn)在200~400 元時,患者對其評價最高。其中,醫(yī)生的服務(wù)態(tài)度對患者就醫(yī)體驗的影響非常大,很大程度上決定了患者下次是否還會選擇該醫(yī)生。而在其他條件相同的情況下,患者對不同職稱醫(yī)生的評價基本相同,從側(cè)面說明了醫(yī)生的服務(wù)態(tài)度才是影響患者就醫(yī)體驗的關(guān)鍵。

在線醫(yī)療網(wǎng)站可以將各個醫(yī)院按照在不同疾病領(lǐng)域的專業(yè)性進行區(qū)分,有針對性地為患者進行推薦。同時制定嚴格的獎懲制度,對在同一疾病領(lǐng)域得票數(shù)高的醫(yī)生給予更多推薦和宣傳資源,對在同一疾病領(lǐng)域得票數(shù)低的醫(yī)生進行限流。獎勵服務(wù)態(tài)度好的醫(yī)生,懲罰服務(wù)態(tài)度差的醫(yī)生(情節(jié)嚴重者封號)。通過激勵和約束平臺上的醫(yī)生,嚴格控制其收費標(biāo)準(zhǔn),為患者提供更加優(yōu)質(zhì)的在線醫(yī)療服務(wù)。

猜你喜歡
畫像可視化醫(yī)生
基于CiteSpace的足三里穴研究可視化分析
威猛的畫像
最美醫(yī)生
基于Power BI的油田注水運行動態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
“00后”畫像
畫像
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創(chuàng)新
傳媒評論(2019年4期)2019-07-13 05:49:14
醫(yī)生
小太陽畫報(2018年3期)2018-05-14 17:19:26
望著路,不想走
文學(xué)港(2018年1期)2018-01-25 12:48:30
惠州市| 金华市| 开阳县| 平凉市| 武汉市| 喜德县| 房产| 玛沁县| 河池市| 玉屏| 东海县| 舒城县| 龙州县| 建始县| 大悟县| 山阴县| 灵丘县| 广饶县| 平远县| 富顺县| 聂拉木县| 阿克陶县| 正宁县| 镇安县| 白水县| 五峰| 巍山| 湾仔区| 乃东县| 荆门市| 无为县| 佛学| 蕲春县| 敦煌市| 崇义县| 镇安县| 荃湾区| 喀什市| 温泉县| 高碑店市| 溧阳市|