羅雨寧 景慎旗
【摘要】? ? 隨著互聯(lián)網(wǎng)應(yīng)用的發(fā)展,越來越多的患者通過在線健康社區(qū)獲取健康信息。以“甜蜜家園”為例,通過描述性統(tǒng)計(jì)和聚類模型,分析用戶行為特征,對論壇用戶生成內(nèi)容進(jìn)行主題聚類并繪制詞云圖以挖掘用戶需求特征,從用戶行為和需求兩個(gè)維度構(gòu)建用戶畫像,以期為在線健康運(yùn)營者提供啟示和建議方法,更好地為用戶提供服務(wù)。
【關(guān)鍵詞】? ? ?在線健康社區(qū)? ? 用戶聚類? ? 主題聚類
引言:
隨著互聯(lián)網(wǎng)、社交媒體的廣泛應(yīng)用,越來越多的患者通過網(wǎng)絡(luò)獲取疾病和診療信息,在線健康社區(qū)(Online Health Community,OHC)應(yīng)運(yùn)而生。有研究指出,慢性病患者會(huì)主動(dòng)通過博客或論壇來尋求健康信息,并與具有相似經(jīng)歷的人群共享信息、彼此支持[1]。通過在線社區(qū),用戶不僅可以互相交流心得、共享醫(yī)療信息、進(jìn)行專家咨詢等,OHC的社交屬性還能夠?yàn)橛脩糍x予個(gè)體對自我意識(shí)的感知,提高自身對群體的情感依賴和社會(huì)認(rèn)同[2]。同時(shí),OHC的技術(shù)特點(diǎn)可以保障用戶信息的匿名性,提供相對安全和可信任的溝通環(huán)境,激勵(lì)用戶創(chuàng)造更多內(nèi)容。
通過用戶大數(shù)據(jù)實(shí)現(xiàn)對OHC用戶的精準(zhǔn)定位,對用戶健康及社區(qū)運(yùn)營發(fā)展至關(guān)重要。深入分析用戶行為特征及用戶生成內(nèi)容(User Generate Content,UGC)有助于論壇運(yùn)營者和社會(huì)各界深入了解患者需求,提升OHC的服務(wù)水平,為患者提供更多個(gè)性化、人性化的服務(wù)內(nèi)容。因此,本文通過采集糖尿病在線社區(qū)“甜蜜家園”(http://bbs.tnbz.com/)的用戶數(shù)據(jù),對其行為特征和需求特點(diǎn)展開分析,實(shí)現(xiàn)用戶行為、需求與用戶屬性的關(guān)聯(lián),旨在為更加有效、精準(zhǔn)的信息服務(wù)提供啟示和建議。
一、相關(guān)研究
在線健康社區(qū)用戶行為指用戶通過社區(qū)平臺(tái)瀏覽信息、發(fā)帖、評論等行為。張敏等通過深度訪談和扎根理論,梳理分析在線健康社區(qū)用戶診療信息求助行為的影響因素及機(jī)理。[3]
翟羽佳等通過采集百度貼吧主題帖、發(fā)帖人、發(fā)帖時(shí)間等信息,對用戶發(fā)表主題和帖子數(shù)、用戶活躍度與存在期以及好友關(guān)系網(wǎng)絡(luò)等信息進(jìn)行分析。研究發(fā)現(xiàn),活躍用戶已經(jīng)形成了穩(wěn)定的群體,但也成為了新用戶加入的壁壘。其次,評估好友關(guān)系對用戶信息發(fā)布行為的影響,發(fā)現(xiàn)社交支持對于在線健康社區(qū)用戶積極性存在較強(qiáng)的正向推動(dòng)作用。[2]
張海濤等從用戶角色和行為、用戶需求維度構(gòu)建在線健康社區(qū)用戶畫像概念模型,并構(gòu)建用戶標(biāo)簽概念格,通過關(guān)聯(lián)規(guī)則挖掘用戶行為規(guī)律。[4]徐孝婷等通過調(diào)查問卷獲取老年用戶健康信息需求,并結(jié)合馬斯洛需求層次理論對信息需求展開分析并提出對策和建議。[5] Liu等通過主題模型分別對男性用戶和女性用戶的發(fā)帖內(nèi)容進(jìn)行對比分析。[6]
本文將從用戶行為、用戶需求兩個(gè)維度對糖尿病在線社區(qū)用戶屬性進(jìn)行分析,展示在線健康社區(qū)用戶基本行為特征,通過對用戶基本特征進(jìn)行聚類,揭示在線健康社區(qū)的用戶角色,進(jìn)一步通過自然語言處理和主題聚類模型挖掘用戶需求特征,全面展現(xiàn)用戶參與社區(qū)交互的行為和需求特征,為社區(qū)運(yùn)營優(yōu)化和服務(wù)升級提供數(shù)據(jù)支撐和方向。
二、數(shù)據(jù)獲取
“甜蜜家園”是國內(nèi)較大的糖尿病在線健康社區(qū),目前擁有約45萬用戶,提供多個(gè)糖尿病主題板塊。利用Python爬蟲工具共采集到454759條用戶數(shù)據(jù),包括性別、年齡、疾病類型、好友數(shù)、發(fā)帖數(shù)、回帖數(shù)、注冊時(shí)間、最近登錄時(shí)間、累計(jì)在線時(shí)長等信息。
經(jīng)過數(shù)據(jù)清洗,剔除“僵尸用戶”,排除缺失值及異常值數(shù)據(jù),最終得到46967條用戶信息。此外,共采集14.4萬條用戶發(fā)帖及其所有回帖,使用結(jié)巴分詞及哈工大停用詞表、百度停用詞表完成對文本數(shù)據(jù)的預(yù)處理。數(shù)據(jù)采集時(shí)間為2019年5月23日。
三、數(shù)據(jù)分析
3.1描述性統(tǒng)計(jì)分析
對46967條用戶數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)。論壇用戶以30多歲的青年人為主,男性用戶明顯多于女性用戶,其中II型糖尿病患者占比最大,家屬占比達(dá)14%。從用戶行為特征來來看,發(fā)帖數(shù)、回復(fù)數(shù)的中位數(shù)都是0,大多數(shù)用戶是“沉默”的。
注冊時(shí)長指用戶注冊時(shí)和數(shù)據(jù)采集時(shí)的時(shí)間間隔,數(shù)值越大則注冊時(shí)間越長,從表1可以看出論壇用戶平均注冊時(shí)長超過3年。最近登錄時(shí)間指最近一次登錄與數(shù)據(jù)采集時(shí)的時(shí)間間隔,數(shù)值小表示用戶近期有登錄行為,可以看出多數(shù)用戶近3年未登錄過論壇。累計(jì)在線時(shí)長中位數(shù)是0,過半用戶累計(jì)在線時(shí)長不到1小時(shí)。
3.2用戶聚類分析
選取性別、年齡、疾病類型、好友數(shù)、發(fā)帖數(shù)、回帖數(shù)、注冊時(shí)間、最近登錄時(shí)間、累計(jì)在線時(shí)長信息,經(jīng)過標(biāo)準(zhǔn)化處理后采用K-means聚類算法進(jìn)行聚類。通過肘部法確認(rèn)聚類簇?cái)?shù),選取3作為最佳k值。對聚類結(jié)果降維,最終得到3個(gè)簇,聚類中心如表2所示。
其中,聚類1中用戶年齡最小,在論壇登錄、發(fā)帖、回復(fù)等行為較活躍,且注冊時(shí)間較短,因此將其定義為活躍新用戶。聚類2中用戶注冊時(shí)間最長,但很不活躍,很多用戶注冊后卻很少登錄論壇,逐漸成為論壇流失用戶。聚類3中用戶年齡相對較大,行為較不活躍,但近期仍有登錄論壇,稱其為沉默用戶。
3.3主題聚類
LDA(Latent Dirichlet Allocation,LDA)模型在文本語義分析中被廣泛應(yīng)用,由Blei等在2003年提出,它是一種三層貝葉斯概率模型,是無監(jiān)督的機(jī)器學(xué)習(xí)模型。[7]LDA模型可以自動(dòng)提取文本主題,解決單詞、主題和文檔間的語義關(guān)聯(lián)問題。[6]
通過抓取論壇數(shù)據(jù),共獲得144209個(gè)論壇帖子,經(jīng)文本預(yù)處理后,采用LDA模型提取主題。經(jīng)過實(shí)驗(yàn),當(dāng)主題數(shù)為9時(shí)模型運(yùn)行結(jié)果較好,如表3所示,論壇用戶話題主要圍繞診療、健康管理、血糖儀、血糖監(jiān)測、胰島素、心得交流等,此外還有很多帖子聚焦新用戶歡迎、好友聊天,具有明顯的社交屬性。
3.4詞云圖
對分詞結(jié)果進(jìn)行詞頻統(tǒng)計(jì),結(jié)果見圖1。詞頻排名前10的詞匯分別是記錄、健康、血糖、糖尿病、胰島素、大家、控制、空腹、運(yùn)動(dòng)、謝謝??梢钥闯?,論壇用戶討論內(nèi)容集中于血糖監(jiān)測和控制。根據(jù)金碧漪[8]提出的八大糖尿病病主題,“甜蜜家園”關(guān)于糖尿病并發(fā)癥、社會(huì)生活、疾病預(yù)防、教育和研究的內(nèi)容較少,內(nèi)容質(zhì)量較低。
四、結(jié)束語
根據(jù)用戶特征分析結(jié)果,一方面可以針對性地實(shí)施增加用戶粘性的舉措,例如:挖掘論壇活躍用戶,做好KOL(Key Opinion Leader)運(yùn)營,向新注冊用戶推薦高質(zhì)量內(nèi)容和用戶,防止新用戶的快速流失,通過移動(dòng)端APP推送消息,提高論壇服務(wù)的易用性等。另一方面,可以進(jìn)一步提升論壇內(nèi)容質(zhì)量,如邀請醫(yī)生、健康管理專家開展在線講座和咨詢活動(dòng),激勵(lì)患者分享經(jīng)驗(yàn)等。
本文聚焦患者用戶的行為特征和需求特征,未關(guān)注醫(yī)生用戶群體,存在一定局限性。后續(xù)研究可以對兩類用戶群體展開對比研究,還可以進(jìn)一步對醫(yī)生論壇和患者論壇做比較分析,充分挖掘在線健康社區(qū)用戶特征,為社區(qū)的進(jìn)步提供更多方向。
參? 考? 文? 獻(xiàn)
[1] Han J Y, Shah D V, Kim E, et al. Empathic exchanges in online cancer support groups: distinguishing message expression and reception effects[J]. Health communication,2011,26(2):185-197.
[2] 翟羽佳,張鑫,王芳.在線健康社區(qū)中的用戶參與行為——以”百度戒煙吧”為例[J].圖書情報(bào)工作,2017,61(7):75-82.
[3] 張敏,劉雪瑞,張艷.在線健康社區(qū)用戶診療信息求助行為形成機(jī)理的概念模型——基于扎根理論的探索性研究[J].情報(bào)科學(xué),2019,37(4):22-28.
[4] 張海濤,崔陽,王丹等.基于概念格的在線健康社區(qū)用戶畫像研究[J].情報(bào)學(xué)報(bào),2018,37(9):912-922.
[5] 徐孝婷,趙宇翔,朱慶華.在線健康社區(qū)老年用戶健康信息需求實(shí)證研究[J].圖書情報(bào)工作,2019,63(10):87-96.
[6] Xuan L,Min S,Jia L.Research on gender differences in online health community[J]. International Journal of Medical Informatics,2018,111:172-181.
[7] David M B,Andrew Y N,Michael I J.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.
[8] 金碧漪,許鑫.網(wǎng)絡(luò)健康社區(qū)中的主題特征研究[J].圖書情報(bào)工作,2015,59(12):100-105.