■ 宋美杰
?
數(shù)據(jù)密集型科學(xué)與大數(shù)據(jù)視域下的健康信息行為研究*
■ 宋美杰
本文以健康信息行為研究這一健康傳播分支領(lǐng)域為個案,對前沿科研項目的數(shù)據(jù)來源、研究對象、研究應(yīng)用以及范式變革進行了探討,認(rèn)為傳統(tǒng)以經(jīng)驗或?qū)嵶C的方法研究社會現(xiàn)象的社會行為范式將理論發(fā)現(xiàn)限制在人們現(xiàn)有的認(rèn)知能力范圍內(nèi)。大數(shù)據(jù)時代的到來,使數(shù)據(jù)密集科學(xué)從第三范式中分離出來,放棄對因果關(guān)系的執(zhí)著,轉(zhuǎn)而關(guān)注相關(guān)關(guān)系,倡導(dǎo)數(shù)據(jù)處理先于理論假設(shè)并有可能得出之前未知的理論,為健康傳播理論創(chuàng)新創(chuàng)造了條件,新媒體技術(shù)、可穿戴設(shè)備、精準(zhǔn)醫(yī)療給健康傳播帶來了新的研究問題。
健康信息行為;大數(shù)據(jù);第四范式;理論模型
“模型皆有誤,或尤建奇功(All models are wrong,but some are useful)”,幾乎每個統(tǒng)計學(xué)家和科學(xué)工作者都熟知30多年前喬治·伯克斯(George E.P.Box)提出的論斷。但一直以來研究者別無選擇,因果關(guān)系的構(gòu)建引發(fā)了科學(xué)體系的建立,從宇宙哲學(xué)方程到人類日常行為,只有使用模型才能不完美的解釋我們周圍的世界(Anderson,2008)①。這一范式的隱憂就在于理論和參數(shù)決定了數(shù)據(jù)的搜集范圍。理論模型的精簡,要求研究者在重要與不重要的參數(shù)之間進行取舍。然而那些被排除在數(shù)據(jù)采集范圍外的、非重要參數(shù)在某些條件下或許就起到了關(guān)鍵作用。
步入21世紀(jì),隨著信息與網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,新型傳感器和基礎(chǔ)設(shè)施可以實時獲取從宏觀到微觀、從自然到社會的海量數(shù)據(jù)。大數(shù)據(jù)時代最大的轉(zhuǎn)變,就是放棄對因果關(guān)系的執(zhí)著,轉(zhuǎn)而關(guān)注相關(guān)關(guān)系,與之相適應(yīng)數(shù)據(jù)處理先于理論假設(shè)并有可能得出之前未知的理論。大數(shù)據(jù)也正在嘗試為社會科學(xué)脫下“準(zhǔn)科學(xué)”的外衣。與海量數(shù)據(jù)計算緊密相關(guān)的輿情分析、情感分析、社會化媒體研究都在嘗試創(chuàng)新研究路徑,發(fā)現(xiàn)以往研究范式無法實現(xiàn)的規(guī)律、知識。
在這一宏觀背景下,數(shù)據(jù)密集型科學(xué)與大數(shù)據(jù)給傳播學(xué)研究提供了更多的方法與可能:跨越多種媒介渠道的統(tǒng)合數(shù)據(jù)分析;跨時期的宏觀數(shù)據(jù)與微觀數(shù)據(jù)結(jié)合;計算機內(nèi)容分析與傳統(tǒng)內(nèi)容分析交互驗證;數(shù)據(jù)挖掘和機器學(xué)習(xí)處理社交媒體上數(shù)量龐大的關(guān)系與行為數(shù)據(jù)。傳播學(xué)領(lǐng)域的頂級期刊《傳播學(xué)刊》(Journal of Communication)出版了《傳播學(xué)研究中的大數(shù)據(jù)》特刊,收錄了政治傳播、健康傳播、新媒體研究等領(lǐng)域以大數(shù)據(jù)為支撐的研究成果。作為跨越自然科學(xué)醫(yī)學(xué)、社會科學(xué)傳播學(xué)的新研究領(lǐng)域,大數(shù)據(jù)與數(shù)據(jù)密集型科學(xué)對健康傳播的研究范式變革最為突出。
健康傳播研究發(fā)端于20世紀(jì)70年代,以理論關(guān)照下的實證研究為主流,通過理論模型(Conceptual model)和實測模型(Measurement model)的構(gòu)建來研究具體的健康相關(guān)問題。中國健康傳播研究起步遲、受美歐影響大、國際學(xué)術(shù)話語影響力極為有限②,且鮮有影響公眾實際健康行為的成果。當(dāng)前的健康傳播研究也面臨著研究領(lǐng)域的拓展與工具方法的創(chuàng)新:一方面,醫(yī)學(xué)、認(rèn)知科學(xué)、生物系統(tǒng)、醫(yī)療服務(wù)等領(lǐng)域的數(shù)據(jù)密集型科學(xué)研究取得了重要進展;另一方面,新媒體技術(shù)、可穿戴設(shè)備、精準(zhǔn)醫(yī)療也給健康傳播帶來更廣泛的研究問題。本文以健康信息行為研究(Health Information-Seeking Behavior,HISB)這一健康傳播的分支領(lǐng)域為代表,探討大數(shù)據(jù)對健康傳播以及傳播學(xué)研究中的數(shù)據(jù)來源、研究對象、研究方法乃至整體研究范式上的變革。
1.健康信息行為的模型構(gòu)建
信息行為是建立在信息資源和信息渠道基礎(chǔ)上的所有人類行為的總和,包括主動與被動的信息查詢與使用行為③。信息行為研究涉及政治廣告、恐怖襲擊、健康風(fēng)險以及環(huán)境問題等諸多領(lǐng)域。健康信息行為屬于健康傳播與信息行為研究的交叉領(lǐng)域,即人們通過某些渠道獲取健康信息、了解健康風(fēng)險以及疾病預(yù)防知識④(Brashers,Goldsmith,& Hsieh,2002)。與健康傳播研究的其它領(lǐng)域類似,美歐主流的健康信息行為研究多采用模型構(gòu)建的方式展開研究,以結(jié)構(gòu)方程模型(Structural Equation Modeling)的手段處理數(shù)據(jù)。
作為對現(xiàn)實事件內(nèi)在機制直觀、簡潔的描述,模型隱含了對相關(guān)性的判斷,這種判斷又可以抽象為某種理論。如果一個模型具有可操作性,便可以轉(zhuǎn)化為實測模型、用數(shù)據(jù)來證偽。在近30年的研究歷程中,健康信息行為研究者發(fā)展了諸多理論模型來解釋個體主動/被動/避免尋求健康信息的原因,使用較多的模型包括:信息尋求模型(Information Seeking model,Lenz’s,1984),健康信息采集模型(Health Information Acquisition Model ,Freimuth,Stein,& Kean,1989),信息尋求綜合模型(The Comprehensive Model of Information Seeking ,Johnson,1997,2003),信息尋求行為擴展模型(The Expanded Model of Health Information-seeking Behaviors,Longo,2005)。模型多以傳播學(xué)、心理學(xué)、圖書情報學(xué)、醫(yī)學(xué)等學(xué)科中的相關(guān)理論為基礎(chǔ),借助相關(guān)或因果關(guān)系構(gòu)造變量間的關(guān)聯(lián)方式,形成可以檢驗的實測模型。上述模型,都指定幾種個人、情境或內(nèi)容因素來檢驗健康信息尋求的主動性(Lambert,& Loiselle,2007)⑤。
2.傳統(tǒng)研究范式的局限與反思
本部分以Johnson(1997)的信息尋求綜合模型(The Comprehensive Model of Information Seeking)為例(見圖1),進一步解釋健康信息行為的典型研究路徑。該模型以使用滿足和意義構(gòu)建理論為基礎(chǔ),認(rèn)為只有人們意識到現(xiàn)有的知識和需要解決的問題之間存在差距,信息尋求行為才會觸發(fā)。因此,模型中涉及的核心變量包括:個體的人口統(tǒng)計特征、以往的媒介使用經(jīng)驗、問題的顯著性和自我效能。以上四個因素影響了人們對各類渠道功用的看法,而這又反過來決定了具體的健康信息尋求行為。
圖1 信息尋求綜合模型(Johnson,1997)⑥
這種基于理論與經(jīng)驗構(gòu)建模型、操作化變量,通過抽樣調(diào)查獲取數(shù)據(jù),用經(jīng)典的統(tǒng)計方法進行檢驗與預(yù)測的實證研究范式,是健康信息尋求研究的主導(dǎo),也是傳播學(xué)量化研究的主流。但社會科學(xué)研究與自然科學(xué)的差異在于,人類行為具有不確定性,很難做到精確量化與預(yù)測。以上述的信息尋求綜合模型為例,人們的個體偏好、媒介使用習(xí)慣、時空環(huán)境、情緒狀況都具有極大的偶然性與特殊性。Johnson(1997,2003)以及其它研究領(lǐng)域多次測試過該模型,發(fā)現(xiàn)對于不同的任務(wù)和目標(biāo),對于某些任務(wù)/人群可能毫無影響的前提變量在另外一些任務(wù)/人群中影響卻是顯著的⑦。這同時也是模擬仿真范式所存在的問題,依據(jù)理論與經(jīng)驗的變量取舍很可能造成結(jié)果的大相徑庭,同時也將理論的發(fā)現(xiàn)與變量間的關(guān)聯(lián)限制在人們現(xiàn)有的認(rèn)知能力范圍內(nèi)。
對于健康信息行為研究,乃至更大范疇的傳播學(xué)量化研究而言,模型僅提取最主要的變量進行描述,排除了眾多干擾因素的同時也喪失了模型的現(xiàn)實應(yīng)用價值。作為一種旨在探索新理論的研究路徑,健康信息行為中往往包含十幾甚至幾十個變量。問卷、量表的數(shù)據(jù)獲取方式會造成數(shù)據(jù)的損失與失真,傳播行為所依存的人際關(guān)系、群體背景與時空情境均被抽象化和剝離。作為一門應(yīng)用科學(xué),這一傳統(tǒng)研究范式的缺陷也為部分質(zhì)化研究者所詬病。很長一段時間以來,健康傳播研究少有突破性的理論發(fā)現(xiàn),大多數(shù)的研究者都在前人鋪就的道路上做著精致而無用的重復(fù)勞動。是否存在更有效的數(shù)據(jù)收集與處理方式?是否有更好方法來解釋和預(yù)測人們的健康信息行為?是否能開創(chuàng)新的范式探索前所未有的理論?研究的成果如何能更直接的應(yīng)用于公眾醫(yī)療與健康促進活動中?數(shù)據(jù)密集型科學(xué)范式與大數(shù)據(jù)技術(shù)提供了具有啟發(fā)意義的解決方案。
科學(xué)數(shù)據(jù)的爆炸式增長給前沿科學(xué)項目帶來了巨大挑戰(zhàn),研究者需要不斷改進科研工具和技術(shù)方法來探索變化中的自然與社會。科學(xué)研究的歷史是一個逐漸趨近真實的進程:實驗歸納(第一范式),實驗為基礎(chǔ)的科學(xué)研究模式,以文藝復(fù)興時期哥白尼、伽利略、開普勒創(chuàng)建的實驗觀察模式為代表;理論推演(第二范式),理論研究為基礎(chǔ)的科學(xué)研究模式,以牛頓微積分和經(jīng)典力學(xué)的模型推演和理論精準(zhǔn)預(yù)測為代表,這一范式在19世紀(jì)末發(fā)展到極致;計算機仿真(第三范式),20世中期馮·諾依曼提出了現(xiàn)代電子計算機架構(gòu),計算機仿真越來越多地取代實驗⑧。利用電子計算機對科學(xué)實驗進行模擬仿真成為科研的常規(guī)方法。
健康信息行為研究的傳統(tǒng)研究路徑與模擬仿真“理論提出—數(shù)據(jù)搜集—計算仿真—理論驗證”的過程一致,同屬于第三范式。詹姆士·格雷 (James Gray)認(rèn)為大數(shù)據(jù)可以使得數(shù)據(jù)密集型科學(xué)(Data-Intensive Scientific Discovery)從第三范式中分離出來,成為一個獨特的科學(xué)研究范式,即“第四范式”⑨。數(shù)據(jù)不再僅是科學(xué)研究的結(jié)果,更成為了科學(xué)研究的對象、工具乃至基礎(chǔ)設(shè)施。傳統(tǒng)以數(shù)學(xué)模型計算為中心的方式將轉(zhuǎn)變?yōu)橐院A繑?shù)據(jù)處理為中心。第四范式在學(xué)術(shù)界尚存在爭議,但這一方法已在商業(yè)實踐中取得了豐碩的成果,梅西百貨應(yīng)用數(shù)據(jù)密集型科學(xué)對千萬種商品進行實時調(diào)價、美國運通基于歷史交易數(shù)據(jù)對消費者進行忠誠度預(yù)測。
說服公眾采取健康的行為習(xí)慣和生活方式是健康傳播研究的終極目的。媒體通過一系列健康傳播活動與健康促進運動來提高人們對風(fēng)險因素的認(rèn)知。咨詢醫(yī)生、搜索信息、親友討論等積極的健康信息行為是態(tài)度轉(zhuǎn)變的前提。大數(shù)據(jù)為健康傳播研究中的大型社交網(wǎng)絡(luò)的分析、自動的數(shù)據(jù)收集和數(shù)據(jù)挖掘、可視化、情感分析、意見挖掘、機器學(xué)習(xí)、自然語言處理以及計算機輔助下的內(nèi)容分析提供了基礎(chǔ)性的可能。以理論、假設(shè)、模型、檢驗為路徑的健康信息行為研究也呈現(xiàn)了一種全新的研究范式。
傳統(tǒng)研究建立在關(guān)系數(shù)據(jù)模型之上,數(shù)理統(tǒng)計是健康傳播與健康信息行為研究的主流方法。利用SAS、STAT等軟件建立模型,根據(jù)假設(shè)對收集到的數(shù)據(jù)進行各種方差分析、回歸分析,通過解讀分析指標(biāo)發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系和隱藏的規(guī)律,從而驗證或推翻假設(shè)。隨著大數(shù)據(jù)技術(shù)的普及,無論是源自自然界、生命和生物、社交媒體的數(shù)據(jù),無論其原始數(shù)據(jù)是結(jié)構(gòu)化的、半結(jié)構(gòu)化、甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù),都可以納入到研究之中。按照之前所綜述的健康信息尋求的經(jīng)典研究路徑,面對如此龐雜的數(shù)據(jù),很難一開始就以一種正式的方式建立模型并描述清關(guān)系。數(shù)據(jù)類型和數(shù)據(jù)量的劇增,使得原有的經(jīng)典研究路徑與數(shù)據(jù)處理方法不適應(yīng)于健康信息行為研究的新趨勢。
1.數(shù)據(jù)來源:從問卷調(diào)查到實時數(shù)據(jù)流
前文歸納了健康信息行為研究的三類核心變量:個人、媒介、情境。當(dāng)涉及特定健康問題,如癌癥、慢性病、保健養(yǎng)生時,則需要考慮信息尋求者的健康狀況及其可能獲得的醫(yī)療服務(wù)資源。因此,個人特征、健康狀況、社會資源、媒介使用是健康信息尋求研究中必須收集的基礎(chǔ)性數(shù)據(jù)。健康傳播研究中最普遍的數(shù)據(jù)采集方式是問卷調(diào)查,如美國每兩年一次的健康信息全國趨勢調(diào)查。我國衛(wèi)生統(tǒng)計也建起了覆蓋國家、省、市、縣、鄉(xiāng)、村六級、從業(yè)人員達(dá)10萬人的工作網(wǎng)絡(luò),90余萬家醫(yī)療衛(wèi)生機構(gòu)通過統(tǒng)計直報系統(tǒng)上報年報及月報⑩。這類調(diào)查需要集合醫(yī)學(xué)、傳播學(xué)、心理學(xué)等多領(lǐng)域?qū)<以O(shè)計包含健康素養(yǎng)、行為習(xí)慣、渠道依賴、社會保障等諸多變量的問卷。以理論假設(shè)為前提,包含有限問題的問卷結(jié)構(gòu)導(dǎo)致研究角度單一且難以進行數(shù)據(jù)補充,且數(shù)據(jù)獲取成本高昂、周期漫長。
在大數(shù)據(jù)時代,報刊、電視、廣播、互聯(lián)網(wǎng)產(chǎn)生的媒體數(shù)據(jù),個人在社交媒體上發(fā)布的文字、圖片、視頻,以及人們網(wǎng)絡(luò)搜索、瀏覽、點擊、購買行為都在以數(shù)字化的方式記錄存儲下來。地理位置和空間移動信息、社會關(guān)系資料、電子健康檔案、智能醫(yī)療設(shè)備信息也可以被數(shù)據(jù)化存儲分析。作為一種人類信息行為的研究,直接采用行為痕跡數(shù)據(jù)能更好地還原人們尋求健康信息時所處的環(huán)境與情景。大數(shù)據(jù)所提供的多類型數(shù)據(jù)之中包含的信息更為豐富,單位數(shù)據(jù)的研究價值也更高。以生物大數(shù)據(jù)為例,Google和DNAnexus一起打造一個巨大的開放式DNA數(shù)據(jù)庫,并儲存于谷歌的云計算服務(wù)器,免費向醫(yī)學(xué)研究者提供接入服務(wù)。大數(shù)據(jù)技術(shù)為健康信息行為研究提供數(shù)據(jù)來源方面的新路徑。
智能手機、可穿戴設(shè)備可以24小時讀取并傳輸如心率、行走步數(shù)、卡路里燃燒、血糖狀況、心理壓力等生物識別數(shù)據(jù)。智能可穿戴產(chǎn)品所展現(xiàn)的量化自我理念,即通過對人們生理和心理數(shù)據(jù)的采集與分析,實現(xiàn)了人、機、數(shù)據(jù)三元融合,獲得全集數(shù)據(jù)的可能性也使健康傳播學(xué)研究尤其是健康信息行為研究可以不再完全依賴于問卷量表測量以及隨機抽樣。隨著移動互聯(lián)網(wǎng)和可穿戴設(shè)配普及,這種實時更新的動態(tài)數(shù)據(jù)會促使健康傳播延伸出新的研究領(lǐng)域。
2.研究對象:人口統(tǒng)計指標(biāo)到多維標(biāo)簽化
健康傳播與社會科學(xué)中的其他學(xué)科一樣,更關(guān)注社會中小群體的行為特征。健康信息行為研究更著重于特殊年齡(如老年人的HISB、普通成年人的HISB、青少年的HISB)、少數(shù)種族(如非裔美國人、韓裔美國人)、偏遠(yuǎn)地區(qū)(如從城鄉(xiāng)、發(fā)達(dá)國際與發(fā)展中國家等不同地域視角分析健康信息知溝情況)、重點疾病(如癌癥患者、艾滋病人、慢性病患者)人群。以往研究只能以可直接觀測的變量為依據(jù),將大眾細(xì)分為性別、年齡、收入、受教育水平不同的群體,尋找細(xì)分群體差異性與顯著性?;谛袨閿?shù)據(jù)多維度人群的識別與聚類的方式在傳統(tǒng)的傳播學(xué)研究之中是很難實現(xiàn)的。
大數(shù)據(jù)時代數(shù)據(jù)以量級劇增,數(shù)據(jù)結(jié)構(gòu)多元,每個人都可以根據(jù)其自然、社會、行為屬性的區(qū)別貼上更具特色化的標(biāo)簽,如垃圾食品買家、每日運動量1萬步以下、KEEP用戶、社交媒體重度使用者、駕車……通過對行為數(shù)據(jù)的掌握可以實現(xiàn)多維化的人群細(xì)分,設(shè)計出更貼近現(xiàn)實行為的研究假設(shè)與分析視角。行為相關(guān)關(guān)系的群體劃分具有較高的準(zhǔn)確性,這一方法已經(jīng)廣泛應(yīng)用于廣告投放、個性化新聞定制、網(wǎng)絡(luò)購買推薦。
傳統(tǒng)醫(yī)療實踐以病人的臨床癥狀和體征為分類標(biāo)準(zhǔn),給患同一種病的人吃同樣的藥,大數(shù)據(jù)時代的個性化醫(yī)療則可以按照患者的基因序列設(shè)計出最佳治療方案。健康傳播領(lǐng)域的人群標(biāo)簽算法與個性化醫(yī)療相似,根據(jù)生理、行為、環(huán)境屬性將人群進行為多維分類,按照研究目的,可以自由組合多維度、同屬性的子群體。根據(jù)行為特征所劃分的小群體與基于人口統(tǒng)計指標(biāo)的群體劃分方式不同,其依據(jù)的是個人的實際行為而非推斷行為,更符合社會科學(xué)研究的本質(zhì)。
3.研究應(yīng)用:從面向過去到預(yù)測未來
Peter Norvig(谷歌公司的研究部主任)更新了 George Box的座右銘:“所有的模型都是錯誤的,沒有這些模型反而增加你成功的機會(All models are wrong,and increasingly you can succeed without them)”。美國《連線》雜志主編Chris Anderson在其著名的演講“理論的終結(jié):數(shù)據(jù)洪流讓科學(xué)方法過時(The End of Theory:The Data Deluge Makes the Scientific Method Obsolete)”的結(jié)尾提出:海量數(shù)據(jù),以及用來處理這些數(shù)據(jù)的統(tǒng)計性工具,給我們提供了一個理解世界的新方法。關(guān)聯(lián)關(guān)系比因果關(guān)系重要,科學(xué)甚至能在沒有一致模型、統(tǒng)一理論,甚至完全不需要任何解釋的情況下進步。
一直以來,以抽樣調(diào)查為主流的傳播學(xué)量化研究都在試圖將數(shù)據(jù)做“大”,擴大樣本量以滿足置信區(qū)間。但在大數(shù)據(jù)時代,研究的目的是將數(shù)據(jù)做“小”,數(shù)據(jù)的無窮盡性需要研究者在達(dá)到心中設(shè)定的閾值后便停止采集,追求數(shù)據(jù)的質(zhì)量與凈化程度,把大數(shù)據(jù)變?yōu)榭梢岳玫男?shù)據(jù)。不忘初心,方得始終。傳播學(xué)研究者應(yīng)該最明白信息過載所帶來的危害,不要讓大數(shù)據(jù)時代過多的冗余信息迷失了研究的真正目的。
注釋:
① Anderson C.TheEndofTheory:TheDataDelugeMakesScientificMethodObsolete.Wired Magazine,2008,16(7).
② 王積龍:《健康傳播在國際學(xué)界研究的格局、徑路、理論與趨勢》,《上海交通大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)》,2011年第1期。
③ 喬歡:《信息行為學(xué)》,北京師范大學(xué)出版社2010年版,第10頁。
④ Brashers D E,Goldsmith D J,Hsieh E.InformationSeekingandAvoidinginHealthContexts.Human Communication Research,2002,28(2):pp.258-271.
⑤ Lambert,S.D.,& Loiselle,C.G.HealthInformation—SeekingBehavior.Qualitative Health Research,2007,17(8):pp.1006-1019.
⑥ Johnson J D,Johnson D J.Cancer-relatedInformationSeeking.Cresskill,NJ:Hampton Press,1997.
⑦ Johnson J D,Meischke H.AComprehensiveModelofCancer‐RelatedInformationSeekingAppliedtoMagazines.Human Communication Research,1993,19(3):pp.343-367.
⑧ [美]Tony Hey,Stewart Tansley,Kristin Tolle:《第四范式:數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)》,潘教峰、張曉林譯,科學(xué)出版社2012年版,第16頁。
⑨ Hey T,Tansley S,Tolle K.TheFourthParadigm:Data-IntensiveScientificDiscovery.General Collection,2009,317(8):p.1.
⑩ 周光華、辛英、張雅潔、胡婷、李岳峰:《醫(yī)療衛(wèi)生領(lǐng)域大數(shù)據(jù)應(yīng)用探討》,《中國衛(wèi)生信息管理雜志》,2013年第4期。
(作者系福建師范大學(xué)傳播學(xué)院講師)
【責(zé)任編輯:張國濤】
*本文系國家社科基金青年項目“青少年新媒體健康信息行為研究”(項目編號:15CXW025)的研究成果。