国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林的健康謠言分享意愿研究

2020-08-13 07:24:49位志廣宋小康朱慶華沈超張玥
現(xiàn)代情報 2020年5期
關(guān)鍵詞:隨機森林

位志廣 宋小康 朱慶華 沈超 張玥

摘 要:[目的/意義]結(jié)合網(wǎng)民個人要素特征和健康謠言信息特征研究社交媒體環(huán)境下健康謠言分享傳播的影響因素,發(fā)現(xiàn)特征對分享意愿的作用模式。[方法/過程]針對數(shù)據(jù)屬性與分布特點選擇隨機森林分類算法進行樣本分析,在對模型深度優(yōu)化調(diào)參之后,結(jié)合特征重要度和決策樹結(jié)構(gòu)特點進行討論。[結(jié)果/結(jié)論]根據(jù)指標重要度和決策樹分析結(jié)果,發(fā)現(xiàn)網(wǎng)民對健康謠言的感知性特征與其分享意愿間有更強的相關(guān)性,4種感知性特征對于分享意愿有不同的作用路徑。采用機器學習分類算法對健康謠言分享意愿進行建模與分析,為阻斷健康謠言的傳播提供干預建議,也為相關(guān)的研究方法拓展做出嘗試。

關(guān)鍵詞:健康謠言;分享意愿;分類算法;隨機森林

DOI:10.3969/j.issn.1008-0821.2020.05.010

〔中圖分類號〕G252.0 〔文獻標識碼〕A 〔文章編號〕1008-0821(2020)05-0078-10

Research on Health Rumor Sharing Intention Based on

Random Forest Classification Algorithm

Wei Zhiguang1 Song Xiaokang2* Zhu Qinghua1,2 Shen Chao3 Zhang Yue1

(1.School of Information Management,Nanjing University,Nanjing 210023,China;

2.School of Engineering Management,Nanjing University,Nanjing 210093China;

3.School of Management,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

Abstract:[Purpose/Significance]We combined the personal characteristics of users and the characteristics of health rumors to study the influencing factors of health rumors sharing in social media environment,aiming to find out the modes of these characteristics on the intention to share.[Method/Process]According to the data attributes and distribution characteristics we selected Random Forest Algorithm to train and test the samples.After deep optimization and parameter adjustment of the model,We combined the importance of features and the structure of decision tree to discuss more.[Result/Conclusion]The results of analysis showed a stronger correlation between the perceived characteristics of health rumors of users and their intention to share,based on which we found the four perceived characteristics having different function routes to sharing intention.Our work provided intervention suggestions for blocking the spread of health rumors and made new attempts to expand research methods in related fields.

Key words:health rumors;sharing intention;classification algorithm;random forest

隨著互聯(lián)網(wǎng)技術(shù)的日益成熟以及社交媒體的快速發(fā)展,越來越多的網(wǎng)民得以通過網(wǎng)絡(luò)獲取健康信息?;ヂ?lián)網(wǎng)的便利性與共享性使得網(wǎng)民可獲得大量關(guān)于運動、飲食、醫(yī)學等相關(guān)的健康信息資源,同時社交媒體低成本低門檻的發(fā)布與分享機制也使得用戶可以自主生成并分享健康信息,進而通過社交平臺引發(fā)更多的關(guān)注與分享[1]。網(wǎng)絡(luò)的開放性與監(jiān)管不力導致了在社交媒體中廣泛傳播的健康信息并不總是權(quán)威的健康知識,還包含大量的健康謠言。健康謠言的廣泛傳播將引發(fā)各種不利后果,如認知混亂,焦慮盲從等[2]。然而由于網(wǎng)絡(luò)的復雜性,想要在短期內(nèi)徹底粉碎社交媒體中傳播的健康謠言是不現(xiàn)實的,比較合理的思路是對傳播中的健康謠言進行識別和干預。相關(guān)研究者從信息屬性角度出發(fā),對健康謠言進行特征提取,比如謠言的長短,主題,有無圖像視頻等[2],但從用戶視角進行健康謠言干預的研究則比較少。然而用戶的個體屬性,知識結(jié)構(gòu)以及認知能力等是導致用戶行為差異的主要因素,為了探究互聯(lián)網(wǎng)環(huán)境下健康謠言分享的影響因素,本文綜合網(wǎng)民個人要素和健康謠言兩個方面的特征進行分析。

機器學習已經(jīng)被廣泛應用于自然語言處理,分類以及預測分析等領(lǐng)域中,它強調(diào)基于已有數(shù)據(jù)提煉經(jīng)驗和領(lǐng)域知識,并據(jù)此改善模型性能,最終應用于新的未知數(shù)據(jù)[3]。從海量數(shù)據(jù)中尋找數(shù)據(jù)潛在的規(guī)律和價值是機器學習算法最普遍的應用場景,而在用戶行為研究領(lǐng)域,隨機森林(RF),支持向量機(SVM)等機器學習算法對于從中小樣本量的用戶數(shù)據(jù)中挖掘隱藏信息也有著卓越的效果[4]。本文利用用戶數(shù)據(jù),使用機器學習算法對用戶個體特征和謠言特征進行建模,識別用戶健康謠言分享意愿,通過特征重要度分析探究具有健康謠言分享意愿用戶的特性,為有效阻斷健康謠言的傳播提供建議,對信息行為研究進行有益拓展。

1 相關(guān)研究

1.1 健康謠言及其特征

謠言作為一種“最古老的傳播媒介”,伴隨著人們語言交際的產(chǎn)生而涌現(xiàn)[5]。美國心理學家Gordon Allport認為,隨著不斷的傳播,謠言自身會變得越來越精簡,更容易使人信以為真,并且進而引發(fā)人們分享[6]。隨著社交媒體的普及,謠言的產(chǎn)生頻率越來越高,傳播速度越來越快,特別是健康相關(guān)的謠言引發(fā)的種種社會危害層出不窮,也越來越受到學界和業(yè)界的重視。健康謠言被界定為未被權(quán)威機構(gòu)證實的健康信息[7],有研究表明,在各種流行的網(wǎng)絡(luò)謠言中,健康謠言是傳播最為廣泛的,同時由于健康謠言往往對用戶有較強的吸引力,并且廣泛分布于社交媒體的健康主題之中,用戶通常難以判斷其真實性[8]。

網(wǎng)絡(luò)的強交互性使得人人都能成為健康信息的制造者和傳播者,而網(wǎng)絡(luò)的匿名性也使得制造和傳播健康謠言者付出的成本和受到懲罰的可能性大大降低,加上監(jiān)管缺位等因素,網(wǎng)絡(luò)空間正在成為健康謠言滋生的溫床[9]。健康謠言通常善用背景資料和科學邏輯,輔以大量數(shù)據(jù)、示意圖及專業(yè)術(shù)語來強化文本信度和感染力,并常常偽造權(quán)威、聲稱來自知名專家學者或?qū)I(yè)機構(gòu)來凸顯其客觀性和權(quán)威性,進而引導受眾閱讀并轉(zhuǎn)發(fā)[10],內(nèi)容形式上偽裝專業(yè)、表達敘事上極盡煽情是健康謠言重要的語言文本特征,也是引發(fā)受眾傳播的重要原因[11]。

1.2 網(wǎng)絡(luò)謠言分享相關(guān)研究

互聯(lián)網(wǎng)為謠言提供了新的傳播平臺和管道,也構(gòu)成了謠言傳播新的生存環(huán)境,網(wǎng)絡(luò)謠言也因此呈現(xiàn)出新的形態(tài)和傳播特點[12]。網(wǎng)絡(luò)謠言制造者往往選取網(wǎng)民感興趣的話題來迎合網(wǎng)民的心理認同感,使網(wǎng)民易于接納并積極參與傳播,而認同感的觸發(fā)點則包含利益相關(guān)或是心理認可等[13]。有研究指出在網(wǎng)絡(luò)謠言傳播中,信任度因素、焦慮因素及認同因素是最被關(guān)注的心理機制,而當謠言主題具有不確定性時,信任程度對網(wǎng)絡(luò)謠言的采納和傳播起著決定性作用[14]。具體到健康謠言領(lǐng)域,目前直接對健康謠言分享和傳播進行討論的研究則主要是從用戶個體特征和健康謠言信息特征兩方面探討。在個體認知特征層面,Chua A Y K等探討了個體認知信念對用戶分享健康謠言傾向的影響,并發(fā)現(xiàn)認知能力較弱的個體較認知能力強的個體更傾向于分享健康謠言[15];他們的另外一項研究還發(fā)現(xiàn)恐懼類謠言相比于希望類謠言更加能夠引起參與者的分享意愿[2]。在人格特征層面,Chen X等討論了性別和五大人格特質(zhì)對謠言信息分享行為的影響,發(fā)現(xiàn)性別對謠言信息分享無顯著性差異,而外向的人更容易為了社交目的而分享謠言信息[16]。Rosnow R L等認為在面對相同的健康謠言時,個體會由于自身經(jīng)驗和認知水平的差異而產(chǎn)生不同的反應[17]。鄧勝利等選取附加信息的圖片、認證與鏈接3個維度,并通過情境實驗發(fā)現(xiàn),認證與鏈接會對用戶信任及分享意愿產(chǎn)生顯著影響,而圖片與鏈接并未對用戶的分享意愿產(chǎn)生顯著影響[18]。本文的研究則同時兼顧了用戶個體和謠言信息兩方面,選擇與健康相關(guān)的個體因素和健康謠言信息特征對健康謠言分享意愿進行研究。

1.3 相關(guān)研究方法

研究角度和方法上,當前網(wǎng)絡(luò)謠言研究主要從網(wǎng)絡(luò)謠言生成、傳播、識別與治理角度出發(fā),對生成機理、傳播特征、識別技術(shù)以及治理對策進行探究,缺乏基于用戶視角的討論[13],對于用戶特征如何影響健康謠言的分享的探討力度不夠。另一方面,在研究方法上還是以傳統(tǒng)方法居多,比如采用定性研究方法對具體謠言的特點與形成機制分析,如汪青云等通過內(nèi)容分析法對突發(fā)事件中的網(wǎng)絡(luò)謠言進行了基于特征的劃分[19];采用定量研究方法對網(wǎng)絡(luò)謠言的傳播機理及治理手段進行討論,如賴勝強通過構(gòu)建SOR模型探討了網(wǎng)絡(luò)謠言對受眾再傳播行為影響的機制[20],王靖元等通過層次分析法構(gòu)建了基于謠言自身特征的網(wǎng)絡(luò)謠言傳播效能評價指標體系[21];雖然也有研究從用戶個人特質(zhì)進行討論,但多是基于結(jié)構(gòu)方程模型的影響因素分析,往往只考慮了單一變量對結(jié)果的影響,缺乏從整體上看問題的視角。在機器學習領(lǐng)域,隨機森林通過組合多個弱分類器,再通過投票或取均值得到最終分類結(jié)果,使得整體模型在處理缺失數(shù)據(jù)和不平衡數(shù)據(jù)時表現(xiàn)穩(wěn)健,具有較高的精度和泛化能力。本文從用戶和謠言信息的綜合視角出發(fā),通過對個體特征和謠言信息特征進行提取,利用隨機森林對用戶分享意愿進行模型構(gòu)建,可以從整體上把握各個特征對結(jié)果的貢獻程度,有效地拓展了研究思路。

2 網(wǎng)民傳播健康謠言意愿的實驗研究

本文從網(wǎng)民個體和健康謠言信息兩方面著手,首先對個體用戶特征和健康謠言信息特征進行提取,并通過問卷調(diào)查來獲取實驗數(shù)據(jù),再對實驗數(shù)據(jù)預處理之后采用3種分類算法進行建模,最終使用性能更為優(yōu)越的算法模型得出各影響因素的相對重要程度,結(jié)合決策樹結(jié)構(gòu)規(guī)律提出干預健康謠言分享傳播的建議。通過文獻梳理與小組訪談來選擇可能影響個體對健康謠言分享傾向的特征,并根據(jù)選擇的特征設(shè)計與制作問卷,最終完成數(shù)據(jù)的收集。

2.1 個體綜合特征選擇

將個體特征分為客觀特征和主觀特征兩方面,其中個人健康狀態(tài)、閱讀分享行為特征、健康素養(yǎng)等是描述個人固有屬性或能力的客觀特征,健康意識和信息感知等則是受心理和思維驅(qū)動而形成的主觀感知特征。

2.1.1 客觀特征

1)個人健康狀態(tài)

用戶的個人健康狀態(tài)是指在具有一定的健康意識、健康知識、健康能力基礎(chǔ)上,通過健康實踐而達到的情形[22]。本文選擇出了3個具體變量代表這一特征,分別是個人健康感知,有無慢性病史,以及有無近期就醫(yī)經(jīng)歷,其中個人健康感知是個體對自身身體健康情況的主觀估計,采用五點Likert量表(1表示很不好,5表示很好)進行測量,后兩者則是客觀反映健康狀態(tài)的二值變量。

2)閱讀和分享行為特征

閱讀健康信息頻率與分享健康信息頻率這兩個變量能反映個體的部分信息,結(jié)合已有文獻研究進行合理推測,喜歡閱讀和分享健康信息的用戶可能出于社交等目的對健康謠言的分享傾向也會更強[16]。

3)健康素養(yǎng)

美國醫(yī)學研究院(IOM)對健康素養(yǎng)的定義為,“個體獲取、處理和理解基本健康信息和服務來做出適當健康決策的能力”[23]。Ledford C J W等研究指出具有更高健康素養(yǎng)的個體可以更好地評估搜索信息的有用性和可信度,從而采取正確的健康信息行為[24]。為了測量個體的健康素養(yǎng),本文將其分為兩個部分:一般意義上的健康素養(yǎng)和電子健康素養(yǎng)。選取Weiss B D等開發(fā)的NVS健康素養(yǎng)量表,通過讓參與者回答問題來表明個體的健康素養(yǎng)水平高低[25];為了適應線上健康謠言傳播的特點,同時考慮了用戶在網(wǎng)絡(luò)環(huán)境下的信息素養(yǎng),即電子健康素養(yǎng),并借鑒Norman C D等編制的eHEALS電子健康素養(yǎng)量表,來評估個體在尋求、應用網(wǎng)絡(luò)健康知識時的自我感知技能[26]。該量表采用五點Likert量表(1表示非常不相符,5表示非常相符)進行測量,本文出于盡可能多地獲得用戶信息特征的目的,在不影響測量主題完整性的情況下,針對具體需求對其進行了改進:將7個問題對應到7個細分特征,分別是:健康信息獲取能力、解答能力、分類能力、搜索能力、利用能力、評估能力、分辨能力。

2.1.2 主觀感知特征

1)健康意識

健康意識是一種驅(qū)動個體健康行為的健康心理取向。研究表明健康意識較強的個體在處理非官方權(quán)威渠道來源的健康信息時更具有靈活性和開放性,并且更容易相信它們[27]。本文使用了Dutta-Bergman開發(fā)的健康意識量表[28],并將其核心提煉為健康重要性感知,健康行為認同度,自我照護意識,疾病預防意識,健康保持信念5個特征屬性。

2)健康主題與健康信念

目前研究指出癌癥和健康飲食已成為社交媒體中的熱門話題,與它們相關(guān)的謠言能夠?qū)θ藗冇休^強的刺激性,該類信息在社交媒體上被廣泛流傳。健康信念理論認為有4個關(guān)鍵因素與行為改變緊密相關(guān),個體會根據(jù)對每一個因素的認知程度來決定行為,分別是:感知疾病的易感性,即個體對自身患某種疾病或出現(xiàn)某種健康問題的可能性的判斷;感知疾病的嚴重性,即個體對疾病會產(chǎn)生多大程度的軀體、心理和社會后果的判斷;感知健康行為的益處,即個體對采納健康行為可能帶來的益處的主觀判斷;感知健康行為的障礙,即個體對采納健康行為可能付出代價的判斷,如時間花費、經(jīng)濟負擔等[29]。為了更好地適應真實場景,結(jié)合健康信念理論對癌癥和飲食分別設(shè)計了問項,用來測量個體對它們的認知情況:癌癥相關(guān)的問項歸納為癌癥風險意識、癌癥恐懼感、癌癥預防意識、癌癥預防成本感知4個感知特征,飲食相關(guān)的問項總結(jié)為健康飲食意識、飲食疾病恐懼、健康飲食認同感、健康飲食成本感知4個感知特征,并分別用Likert五點量表(1表示非常不同意,5表示非常同意)進行測量。

3)信息感知

研究發(fā)現(xiàn)用戶的主觀感知信息質(zhì)量能夠顯著影響其對信息的采納態(tài)度[30],在線健康信息環(huán)境下,本文認為個體對健康謠言的感知同樣會影響其對謠言的分享意愿。從www.piyao.org.cn上檢索與癌癥和飲食相關(guān)的信息,基于得到的謠言標題在微信上搜索并挑選出符合主題的健康謠言。對于一則已知的健康謠言信息,設(shè)計問項采用Likert五點量表測量個體對材料的感知可信度、感知準確度,同時為了探究材料與個體生活場景的貼合度是否會影響個體最終的分享意愿,分別測量個體對材料的感知相關(guān)性和感知重要性。

2.2 健康謠言信息特征選擇

考慮謠言信息對網(wǎng)民的刺激效應,選擇癌癥和飲食相關(guān)的主題作為實驗素材。根據(jù)謠言的情感傾向?qū)⑵渚幋a為恐懼或希望[2]。如將“長期使用塑料制品會致癌”編碼為恐懼類,而將“維生素D有效降低癌癥風險”編碼為希望類。為進一步擴充材料的特征信息,又對每則材料蘊含的線索進行編碼,如將“美國研發(fā)出癌癥疫苗,根治率達97%!”編碼為吸引性線索,而將“美國斯坦福大學”,“《科學轉(zhuǎn)化醫(yī)學》”這類的線索編碼為質(zhì)量性線索?;趶膚ww.piyao.org.cn得到的謠言標題在微信上搜索相關(guān)文章,挑選出符合編碼的健康謠言,經(jīng)過多次隨機選擇和編碼的迭代,得到2(癌癥&飲食)×2(恐懼&希望)分布的4類刺激材料,同時為了消除文本選擇產(chǎn)生的隨機誤差影響,每類刺激素材中包含2則具體信息,每位受試對象分配8則健康謠言素材。

最終,本文得到的個體特征和材料特征信息如表1所示,其中左側(cè)表示網(wǎng)民個體的客觀屬性特征,包括人口統(tǒng)計特征、健康狀態(tài)、行為特征等;右側(cè)上半部分表示網(wǎng)民個體的主觀感知特征,包括對不同健康主題的信念感知和對材料信息的態(tài)度感知;右側(cè)下半部分則是健康謠言材料的信息特征提取結(jié)果。

2.3 問卷發(fā)放與回收

針對提取的33個網(wǎng)民個體特征和4個材料特征,設(shè)計公眾參與的網(wǎng)絡(luò)情境實驗。參與者在2(謠言主題:癌癥,飲食)×2(謠言類型:恐懼、希望)的情境下接觸到8個不同的健康謠言。實驗分3個部分進行,第一部分首先讓參與者報告人口統(tǒng)計特征,個人健康狀態(tài)和相關(guān)行為特征,第二部分測量參與者健康素養(yǎng),健康意識和對不同健康主題的感知信念;第三部分測量參與者對材料的感知性特征和分享意愿,將8則健康謠言材料打亂順序呈現(xiàn)給參與者,告知他們這些為普通的健康信息,參與者依次對每條健康謠言進行閱讀與感知,并給出分享意愿的評價。

分享意愿指個人將給定健康信息分享給他人的傾向[31]。為了測量分享意愿,使用Chua A Y K等[15]設(shè)計的兩個測量項:“我將與他人分享這條健康信息”(確切表示愿意分享)和“我打算與他人分享這條健康信息”(有分享的計劃和打算,但不一定實施,沒有“將要”的意愿強烈),兩個項目分別用Likert五點量表測量,計算二者的平均分作為綜合分數(shù),得分越高表明分享意愿越高。

實驗參與者在問卷星(www.wjx.cn)平臺上付費公開招募,參與者滿足以下條件:1)年滿18周歲;2)意識清楚,有閱讀能力;3)知情同意,愿意配合。為期15天的公開招募中,獲得樣本反饋312人。通過以下3個條件對參與者樣本進一步進行篩選,1)熟悉微信,并在微信上獲取過健康信息;2)熟悉微信分享功能,有信息分享經(jīng)驗;3)整個參與及回答問卷過程不少于10分鐘。最終共有252名參與者完成了本次實驗并符合實驗相關(guān)要求,有效回收率達80.7%。符合要求的參與者中共有104位男性,148位女性,男女比例相對均衡;年齡分布如圖1所示,大致滿足正態(tài)分布,且大部分參與者年齡集中在20~40歲,50歲以上的參與者只有3人;參與者學歷主要集中在大專、本科、碩士研究生、博士研究生及以上,其中又以本科居多,占半數(shù)以上。每個單獨量表和最終整體的問卷克朗巴哈系數(shù)都大于0.7,問卷信度可以接受。

3 實驗數(shù)據(jù)建模分析

252名有效實驗參與者每個人被測量對8則健康謠言的分享意愿。數(shù)據(jù)集包含2 016條數(shù)據(jù)樣例(252個參與者×8則健康謠言)。通過數(shù)據(jù)預處理,對前文得到的特征變量進行離散化與one-hot編碼,最終得到樣本空間大小為2016,特征維度為37

圖1 受試者年齡分布

維的一組特定輸入。健康謠言分享意愿在問卷中以Likert五級評分形式存在,分享意愿從1分到5分依次增強,作為目標變量時則由原來的分值轉(zhuǎn)化為(0,1)變量來進行標識,其中1~3分標記為0,表示分享意愿較弱,4~5分標記為1,表示分享意愿較為強烈。

本文從研究目的,模型特點,以及樣本數(shù)據(jù)特征3個方面來綜合選擇目標模型。決策樹、隨機森林、梯度提升樹(GBDT)等算法模型都能對輸入特征進行基于模型整體貢獻度的排序篩選,而支持向量機等基于結(jié)構(gòu)風險最小化學習策略的算法在處理小樣本數(shù)據(jù)時也能得到較好的效果。進一步結(jié)合模型復雜度和樣本數(shù)據(jù)維度之后,選擇支持向量機、梯度提升決策樹以及隨機森林3種原始模型進行對比。同時不同分類模型的參數(shù)都進行了討論與尋優(yōu),得到的模型精度有進一步提升,解釋力也相對更強。

3.1 RF分類

RF能很好地避免過擬合問題,同時弱分類器的結(jié)構(gòu)多樣化則使它的預測更加精準。RF使用CART決策樹作為弱學習器時,在生成每棵樹的時候選取的特征都僅是隨機選出的少數(shù)特征,保證了所選特征的隨機性。選擇n_estimator、max_depth、max_features、min_samples_leaf參數(shù)進行優(yōu)化,使用數(shù)據(jù)集的70%作為訓練集,30%作為測試集,采用5折交叉驗證的隨機優(yōu)化搜索。最終優(yōu)化結(jié)果如表2所示。與默認參數(shù)下的模型精度83.7%相比較,優(yōu)化精度為85.1%,精度提升相對顯著。

3.2 分類模型比較

為了更進一步確認,比較三者的宏平均準確率,宏平均召回率和宏平均f值,用來評價每種算法對不同類別的區(qū)分性能。從圖2可以看到,隨機森林的宏平均準確率,宏平均召回率和宏平均f值均明顯高于SVM和GBDT。因此接下來本文進一步選擇隨機森林進行深度參數(shù)優(yōu)化和特征分析。

圖2 不同分類器分類綜合效果比較

4 基于隨機森林的特征分析

根據(jù)對不同算法的對比分析,隨機森林對于本文數(shù)據(jù)集具有更好的分類與預測效果,為了挖掘更多關(guān)于用戶特征的隱藏信息,對模型參數(shù)進行進一步調(diào)整,并結(jié)合CART決策樹的結(jié)構(gòu)和統(tǒng)計規(guī)律嘗試對結(jié)果進行解釋。

4.1 深度參數(shù)優(yōu)化

第3節(jié)中采用隨機搜索對模型參數(shù)進行優(yōu)化,每個模型均設(shè)置了較為合理的迭代次數(shù),本節(jié)在已有結(jié)果的基礎(chǔ)上采用搜索范圍更加細化的網(wǎng)格搜索來對模型參數(shù)進一步調(diào)整,通過查找搜索范圍內(nèi)的所有點來確定最優(yōu)值。最終的網(wǎng)格搜索優(yōu)化結(jié)果如表4所示。

4.2 健康謠言傳播的影響因素分析

目前已經(jīng)得到能夠有效識別對健康謠言分享意愿強烈的用戶的分類模型,下文繼續(xù)探討哪些特征在用戶分享意愿的形成過程中起著更為重要的作用以及如何進行作用。

隨機森林模型在建立過程中提供了各特征變量重要性的度量方法,便于本文的討論。目前特征選擇比較流行的方法有很多,如信息熵、基尼系數(shù)、卡方檢驗、最大信息系數(shù)等,而隨機森林的弱學習器CART決策樹正是基于基尼系數(shù)來選擇特征,其選擇標準是每個子節(jié)點達到最高的純度,當子節(jié)點中的所有樣本屬于同一類別時純度最高,基尼系數(shù)最小。最終從模型結(jié)果發(fā)現(xiàn),37個特征變量的重要度排序如表8所示。

特征重要度排序結(jié)果顯示,感知重要性、感知可信度、感知準確度、感知相關(guān)性以及分享頻率這5個特征變量對分類模型的整體貢獻程度超過50%,是影響用戶分享意愿的幾個最主要因素。為了進一步探究各個特征的作用規(guī)律,選擇排名前十的特征重新構(gòu)造CART決策樹,對決策樹深度進行調(diào)整之后得到如圖3的結(jié)構(gòu)示意圖。

圖3 決策樹示意圖

可以看到,基于基尼系數(shù)的CART決策樹在建立整體模型時以感知重要性作為根節(jié)點,感知可信度和感知準確度則作為根節(jié)點的子節(jié)點,當深度為3時決策樹的各節(jié)點對應特征和隨機森林確定的前幾個重要特征基本一致。根據(jù)決策樹的特性,如果取更大的樹深度,每條分支路徑對應的特征會更加多元,最終分類的準確性會更高,但規(guī)則的復雜程度也會隨之提高,進而導致泛化能力下降。

由此可以解釋,當個體用戶面對一則健康謠言時,首先是根據(jù)主觀印象對其重要性進行評估,如果用戶判斷該則信息對自己很重要,接下來會進一步對健康謠言的準確度進行評估,當感知準確度也較高時,已經(jīng)可以基本確定用戶會有較強的分享意愿(對應分支:invove2→pre_cre1→benefit_can);當感知準確度較低但感知可信度較高時也會更傾向于分享(對應分支:invove2→pre_cre1→pre_cre2)。另一方面,當用戶主觀判斷該則信息相對沒那么重要時,又會進一步關(guān)注健康謠言的可信度,當感知可信度較高并且感知相關(guān)性也較高時仍有可能具有高分享意愿(對應分支:invove2→pre_cre2→invove1)。除上述路徑外的其余情況分享意愿則較低。

根據(jù)初始設(shè)計,用戶對健康謠言的感知重要性和感知相關(guān)性反映了健康謠言與用戶日常生活場景的契合程度,其中感知重要性反映用戶是否覺得該信息對自己的日常生產(chǎn)生活很重要,而感知相關(guān)性反映用戶是否覺得該信息與自己的生活息息相關(guān),這兩個特征均是用戶在結(jié)合自身生活實際后對客觀信息的主觀感受,很大程度上依賴于用戶的生活經(jīng)歷與所處環(huán)境等因素。用戶對健康信息的感知準確度和感知可信度也在其分享決策中扮演了重要角色。在原始設(shè)計中,感知可信度和感知準確度反映健康謠言給用戶帶來的權(quán)威性印象,其中感知可信度反映用戶是否覺得該信息值得信賴,感知準確度反映用戶是否覺得該信息表述準確,二者代表了用戶對健康信息的認可程度。一般而言,類似“美國科學院發(fā)現(xiàn)……”,“100例實驗樣本有91例取得成功……”之類的陳述明顯給用戶更強的感知可信度和感知準確度,因為人們往往會迷信權(quán)威或?qū)I(yè)機構(gòu),并且對含有大量數(shù)據(jù)或?qū)I(yè)術(shù)語的信息深信不疑[10]。

根據(jù)決策樹發(fā)現(xiàn)的第一條規(guī)則,感知重要性較高時,用戶對健康謠言信息的準確度判斷在其分享決策中扮演著至關(guān)重要的角色,這意味著當特定謠言信息同時給人重要性以及準確性感受時,可以激發(fā)出用戶更強的分享意愿。根據(jù)此項規(guī)則,我們可以通過影響用戶的感知重要性和感知準確度來干預其分享行為,其中用戶對謠言內(nèi)容的主觀重要性評估可能與謠言內(nèi)容的某些特征有關(guān),也可能依賴于用戶本身的某些特征,本文受限于模型功能未對其進行探索,但仍可以通過民意調(diào)查等手段來發(fā)現(xiàn)用戶群體共同重視的健康話題內(nèi)容;而感知準確度與謠言內(nèi)容是否含有大量的質(zhì)量性線索密切相關(guān)[10],因此可以結(jié)合以上兩點對相應話題內(nèi)容進行監(jiān)管與篩查,同時對刻意偽造和虛構(gòu)科學證據(jù)的健康謠言發(fā)布者進行嚴厲處罰,從源頭上抑制。根據(jù)另一條規(guī)則,當感知準確度較低但感知可信度較高時,用戶也會更加傾向于分享該則健康謠言,此時質(zhì)量性線索的效力已經(jīng)不夠充分,需要后續(xù)進一步探究用戶對謠言信息可信度判斷的影響因素,進而制定相應干預措施。

另一方面,決策樹規(guī)則還顯示,即使謠言信息沒能給人以重要性感受,較高的可信度和相關(guān)性感知仍然可能使用戶產(chǎn)生較強的分享意愿。這進一步說明用戶對健康謠言可信度的判斷對其分享決策會產(chǎn)生顯著影響,而感知可信度的具體判斷標準將影響后續(xù)采取哪些干預手段;從感知相關(guān)性考慮,加強相應平臺對和生活息息相關(guān)的健康話題內(nèi)容的識別與監(jiān)測不失為一種有效的干預手段。

5 結(jié) 語

本文重點圍繞用戶展開討論,對用戶特征和健康謠言特征進行選擇與提取,并通過問卷獲取數(shù)據(jù),結(jié)合機器學習算法構(gòu)建了用戶分享意愿模型,最終得出不同特征對于模型結(jié)果的相對重要程度,并結(jié)合特征分析提出了相應干預措施。將機器學習算法引入健康謠言分享意愿的判定中,為用戶的分享行為研究提供了新的思路,也為后續(xù)對健康謠言的傳播進行干預提供了方向:一方面需要從源頭出發(fā),由相關(guān)部門和平臺共同努力對群眾廣泛關(guān)注的熱點問題進行監(jiān)測,對偽造和虛構(gòu)大量迷惑性質(zhì)量線索的健康謠言發(fā)布者從重處罰;另一方面則需要減弱特定用戶對于健康謠言的盲目信任和關(guān)注,有針對性地對他們進行健康教育和生活常識科普,提升用戶群體的信息鑒別與搜索能力等,進而提升整體健康素養(yǎng)水平。

本文的研究也存在一定的局限性:實驗使用問卷形式來采集數(shù)據(jù),不可避免受數(shù)據(jù)量的限制,難以真正達到機器學習算法普遍要求的海量數(shù)據(jù)集,進而導致模型整體精度還有較大提升空間;另一方面,本文提取的各類特征指標并沒有覆蓋所有可能對分享決策產(chǎn)生影響的因素,比如點贊、評論等互動行為可能也會對分享意愿產(chǎn)生影響。未來研究可以進一步完善特征指標的提取,同時考慮加入更多健康謠言材料本身的信息,以提高模型的完整性和泛化能力。

參考文獻

[1]Li H,Sakamoto Y.Social Impacts in Social Media:An Examination of Perceived Truthfulness and Sharing of Information[J].Computers in Human Behavior,2014,41:278-287.

[2]Chua A Y K,Banerjee S.To Share or Not to Share:The Role of Epistemic Belief in Online Health Rumors[J].International Journal of Medical Informatics,2017,108:36-41.

[3]田梅,朱學芳.基于支持向量機的大學生網(wǎng)絡(luò)信息偶遇影響因素研究[J].圖書情報工作,2018,(8):84-92.

[4]辛憲會,葉秋果,滕惠忠.中小樣本機器學習算法的特性分析與應用[J].海洋測繪,2007,27(3):16-19.

[5]讓-諾埃爾·卡普費雷.謠言——世界最古老的傳媒[J].鄭若麟,譯.書摘,2009.

[6]奧爾波特.謠言心理學[M].劉水平,梁元元,黃鸝,譯.沈陽:遼寧教育出版社,2003.

[7]池慧娟.微信公眾號健康謠言的傳播與治理[J].數(shù)字傳媒研究,2018,35(5):33-36.

[8]Liang C,Chou W S,Hsu Y L.The Factors of Influencing College Students Belief in Consumption-type Internet Rumors[J].International Journal of Cyber Society and Education,2009,2(1):37-46.

[9]李瑋佳.健康謠言在微信平臺中傳播的成因探析[J].西部廣播電視,2017,(15):12-13.

[10]郭澤萍.微信平臺健康謠言的特征與治理思路——基于微信小程序“微信辟謠助手”的樣本分析[J].現(xiàn)代視聽,2019,(6):44-47.

[11]羅政鋒,韓雋.微信健康類謠言的框架特征及其心理動力機制探析[J].新聞知識,2017,(9).

[12]陳紅梅.網(wǎng)絡(luò)謠言傳播的特點及其應對[J].編輯學刊,2009,(6):37-41.

[13]葉辛.探析網(wǎng)絡(luò)謠言傳播特點及應對措施[J].傳媒論壇,2018,1(15):95,97.

[14]鄧勝利,付少雄.網(wǎng)絡(luò)謠言特征分析與預測模型設(shè)計:基于用戶信任視角[J].情報科學,2017,(11):10-14,24.

[15]Chua A Y K,Banerjee S.Intentions to Trust and Share Online Health Rumors:An Experiment with Medical Professionals[J].Computers in Human Behavior,2018,87:1-9.

[16]Chen X,Sin S C J.‘Misinformation?What of It?Motivations and Individual Differences in Misinformation Sharing on Social Media[J].Proceedings of the American Society for Information Science and Technology,2013,50(1):1-4.

[17]Rosnow R L,Yost J H,Esposito J L.Belief in Rumor and Likelihood of Rumor Transmission[J].Language & Communication,1986,6(3):189-194.

[18]鄧勝利,付少雄.社交媒體附加信息對用戶信任與分享健康類謠言的影響分析[J].情報科學,2018,36(3):51-57.

[19]汪青云,童玲.突發(fā)事件中的網(wǎng)絡(luò)謠言特征分析——基于 2010-2014年間網(wǎng)絡(luò)謠言的研究[J].新聞知識,2015,(6):6-8.

[20]賴勝強.網(wǎng)絡(luò)謠言對受眾再傳播行為的影響機理研究[J].情報雜志,2014,33(5):153-156.

[21]王靖元,張鵬,劉立文.網(wǎng)絡(luò)謠言傳播效能評價研究[J].情報雜志,2016,35(1):105-109.

[22]賈欣欣.老年人群健康狀況及其影響因素研究[D].南京:南京醫(yī)科大學,2016.

[23]Kindig D A,Panzer A M,Nielsen-Bohlman L.Health Literacy:A Prescription to End Confusion[M].National Academies Press,2004.

[24]Ledford C J W,Cafferty L A,Russell T C.The Influence of Health Literacy and Patient Activation on Patient Information Seeking and Sharing[J].Journal of Health Communication,2015,20(sup2):77-82.

[25]Weiss B D,Mays M Z,Martz W,et al.Quick Assessment of Literacy in Primary Care:The Newest Vital Sign[J].The Annals of Family Medicine,2005,3(6):514-522.

[26]Norman C D,Skinner H A.eHEALS:The eHealth Literacy Scale[J].Journal of Medical Internet Research,2006,8 (4):583-590.

[27]Gould S J.Consumer Attitudes Toward Health and Health Care:A Differential Perspective[J].Journal of Consumer Affairs,1988,22(1):96-118.

[28]Dutta-Bergman M.Trusted Online Sources of Health Information:Differences in Demographics,Health Beliefs,and Health-Information Orientation[J].Journal of Medical Internet Research,2003,5(3):e21.

[29]靳雪征.健康信念理論的建立和發(fā)展[J].中國健康教育,2007,23(12):945-946.

[30]項典典,易燕娜,范新河.感知信息質(zhì)量對信息采納態(tài)度的影響研究——基于主客觀路徑的比較[J].情報科學,2016,34(7):86-90.

[31]So J C F,Bolloju N.Explaining the Intentions to Share and Reuse Knowledge in the Context of IT Service Operations[J].Journal of Knowledge Management,2005,9(6):30-41.

[32]耿騫,景然,靳健,等.學術(shù)論文引用預測及影響因素分析[J].圖書情報工作,2018,62(14):29-40.

(責任編輯:陳 媛)

猜你喜歡
隨機森林
隨機森林算法在中藥指紋圖譜中的應用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
基于隨機森林的登革熱時空擴散影響因子等級體系挖掘
基于隨機森林的HTTP異常檢測
個人信用評分模型比較數(shù)據(jù)挖掘分析
時代金融(2017年6期)2017-03-25 22:21:13
隨機森林在棉蚜蟲害等級預測中的應用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預報的隨機森林模型及應用
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
基于奇異熵和隨機森林的人臉識別
軟件(2016年2期)2016-04-08 02:06:21
基于隨機森林算法的B2B客戶分級系統(tǒng)的設(shè)計
新宁县| 辉南县| 三原县| 囊谦县| 天门市| 襄汾县| 新蔡县| 白城市| 师宗县| 临沭县| 彭阳县| 高碑店市| 措美县| 房山区| 广宗县| 临汾市| 西城区| 迁西县| 东乡| 紫阳县| 华亭县| 白水县| 太康县| 常熟市| 伊通| 新乡市| 长岭县| 安龙县| 海宁市| 广西| 合山市| 长兴县| 石河子市| 福州市| 石楼县| 唐河县| 敦煌市| 文安县| 邯郸市| 宜川县| 砚山县|