国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

去蕪存菁:小議社交媒體分析學中的數(shù)據(jù)質(zhì)量問題

2017-10-21 20:09向征于思
旅游學刊 2017年10期
關(guān)鍵詞:社交旅游分析

向征+于思

近十余年來,社交媒體的發(fā)展日新月異,并通過不同的渠道,以不同的形式,為我們認識、分析和解決眾多社會經(jīng)濟問題提供了海量、豐富的數(shù)據(jù),社交媒體分析學(social media analytics)由此應(yīng)運而生。社交媒體分析學主要通過采集各種類型的社交媒體數(shù)據(jù),使用文本分析、數(shù)據(jù)挖掘、機器學習及計量統(tǒng)計等方法,來發(fā)現(xiàn)、描述并解釋基于傳統(tǒng)數(shù)據(jù)和方法不易發(fā)現(xiàn)和認識的規(guī)律。社交媒體分析學在各個領(lǐng)域取得了長足的進展,旅游管理也不例外。近年來使用社交媒體數(shù)據(jù)的研究紛紛涌現(xiàn),涵蓋旅游及酒店業(yè)各領(lǐng)域,涉及游客滿意度、旅游目的地形象、酒店收入業(yè)績分析等問題,不一而足。其研究對象、數(shù)據(jù)使用和分析方法可謂千姿百態(tài),為旅游管理提供了前所未有的想象空間。

與實驗法、問卷調(diào)查法等傳統(tǒng)研究方法相比,社交媒體分析學的數(shù)據(jù)來源和構(gòu)成不是由研究者預先設(shè)計而生成的,而是使用現(xiàn)成的二手數(shù)據(jù)。用Agarwal和Dhar的話來說,社交媒體數(shù)據(jù)總是“不完美的”。形象地說,社交媒體分析學在方法論上是一個吹糠見米的過程,即通過不完美的數(shù)據(jù)找到盡可能接近現(xiàn)實的答案。目前,社交媒體分析學尚處在初級階段,近年來,Ruths、Pfeffer和Tufekci等社會科學領(lǐng)域的研究人員對這種以數(shù)據(jù)為基礎(chǔ)的新研究范式提出了越來越多的批評,特別是對數(shù)據(jù)來源及數(shù)據(jù)本身的可靠性和合法性存有質(zhì)疑。鑒于此,本文旨在介紹社交媒體作為研究數(shù)據(jù)的一些常見的質(zhì)量問題,并針對性地探討旅游社交媒體研究中存在的潛在問題和挑戰(zhàn)。

社交媒體數(shù)據(jù)質(zhì)量的不完美是指什么?所謂完美和不完美,對研究者來說是一個相對的概念。如果研究的目的是為了認識社交媒體本身的基本特征和規(guī)律,則社交媒體數(shù)據(jù)的不完美和造成這些不完美的原因正好為這些問題的探討提供了“完美的”觀察。但是,如果研究的目的是為了認識或發(fā)現(xiàn)數(shù)據(jù)中能夠代表特定人群的基本特征和規(guī)律,則不完美的數(shù)據(jù)會對研究的合法性造成影響。比如,用“谷歌趨勢”的數(shù)據(jù)預測人群中流感爆發(fā)的不準確,就是由于過高估計數(shù)據(jù)中非相關(guān)的搜索關(guān)鍵詞導致的。

那么,社交媒體數(shù)據(jù)質(zhì)量的不完美是什么原因造成的呢?表現(xiàn)在哪些方面?要認識這個問題,必須理解社交媒體作為信息平臺的本質(zhì)。

首先,盡管幾乎所有的社交媒體都能為消費者提供值得信賴、可以共享的社會知識,然而每個社交媒體平臺本身都是反映不同社會、文化和經(jīng)濟價值取向的復雜技術(shù)系統(tǒng),從形式和內(nèi)容上講可謂千姿百態(tài)。例如,作為微博平臺,Twitter在信息的生成傳播和虛擬社交網(wǎng)絡(luò)的動態(tài)演變上有其獨有特征;在旅游在線平臺中,TripAdvisor屬于開放式的網(wǎng)站,而Expedia只對在該網(wǎng)站有購買經(jīng)歷的消費者開放網(wǎng)評功能。從這個意義上講,不同社交媒體往往代表不同的消費者市場和特定的商業(yè)模式,其數(shù)據(jù)的代表性很大程度上取決于采集數(shù)據(jù)的平臺本身的特征。因此可以說,社交媒體數(shù)據(jù)質(zhì)量有潛在的平臺偏見。

其次,社交媒體個人用戶也是造成數(shù)據(jù)不完美的重要原因。以網(wǎng)評為例,最近Streitfeld在《紐約時報》的一篇文章引用了一位評論人的話,認為產(chǎn)品的網(wǎng)評和打分往往是由“處于網(wǎng)絡(luò)底層的粉絲、仇恨者和操縱者”貢獻的,因而我們不應(yīng)該對它們有過高的期望。Mkono和Tribe在Journal of Travel Research的一篇文章中談到,旅游產(chǎn)品在線評論網(wǎng)站的用戶不僅僅是評論人,而且往往扮演了其他重要的角色,比如活動家、社會精英,甚至惡搞者。從這個意義上講,參與社交媒體的人群本身就具有“選擇性偏見”。Stephens-Davidowitz的研究發(fā)現(xiàn),在與Facebook類似的社交網(wǎng)站上,人們更傾向于分享“成功、富有、有吸引力、悠閑、聰明以及快樂”的經(jīng)歷,但是這并不能夠代表大多數(shù)人的生活經(jīng)歷。此外,社交媒體數(shù)據(jù)尤其是在線網(wǎng)評數(shù)據(jù)不可避免地存在一些錯誤信息,比如拼寫或輸入錯誤。因此可以說,社交媒體數(shù)據(jù)可能存在各種各樣的用戶偏見。

第三,除了個人用戶外,社交媒體的使用者還包括以營銷為主要目的的商家,因此這些數(shù)據(jù)是否都是由真正的消費者生成值得懷疑。例如,Anderson和Simester發(fā)現(xiàn)在某零售商網(wǎng)站上,很大一部分網(wǎng)評是由完全沒有購買該產(chǎn)品記錄的“用戶”提交,因此推斷這些所謂的網(wǎng)評其實是商家雇傭的“水軍”所為。同時,這些網(wǎng)評往往偏于負面,在語言特征上與虛假廣告類似。已有不少研究確認,某些商業(yè)利益會導致網(wǎng)評中參雜一定數(shù)量的垃圾信息,甚至是完全不實的信息。

由此可見,社交媒體數(shù)據(jù)是平臺、個人用戶和商家互動的結(jié)果。在更大范圍內(nèi)講,社交媒體還受各種社會、政治、經(jīng)濟和文化等大環(huán)境的影響。例如,社交網(wǎng)絡(luò)實名制的實施會對群體行為造成一定的影響。這些因素都會影響數(shù)據(jù)的真實性、可信性和代表性。筆者認為,目前旅游社交媒體分析研究中,主要存在以下數(shù)據(jù)質(zhì)量相關(guān)問題:

· 數(shù)據(jù)采集自單一數(shù)據(jù)源。例如,在基于網(wǎng)評數(shù)據(jù)進行相關(guān)研究的文獻中,TripAdvisor是首選。由于存在平臺偏見的可能,這些研究發(fā)現(xiàn)和結(jié)論只能算是眾多的待選解決方案之一,其普適性值得商榷。

· 數(shù)據(jù)抽樣缺乏系統(tǒng)化的方法,對數(shù)據(jù)本身所代表的人群特征也缺乏足夠的認識。當前工作中的數(shù)據(jù)抽樣往往采用了一些經(jīng)驗法則,比如在選擇網(wǎng)評數(shù)據(jù)時用字數(shù)限制作為數(shù)據(jù)質(zhì)量的過濾器,而字數(shù)長度作為標準是沒有可靠依據(jù)的。更有甚者,很多研究對數(shù)據(jù)根本沒有運用任何基本抽樣方法,只是采用所有能夠使用或得到的數(shù)據(jù)。

· 對可疑數(shù)據(jù)缺乏有效的認識手段和可行的甄別方法。例如,在線評論數(shù)據(jù)中存在一些人為錯誤,同時還有灌水數(shù)據(jù),甚至虛假數(shù)據(jù),目前還沒有行之有效的方法對這些可疑數(shù)據(jù)進行識別和剔除。

值得一提的是,近年來社交媒體數(shù)據(jù)質(zhì)量問題已逐漸引起旅游界學者的關(guān)注。在認識社交媒體平臺偏見方面,Mellinas等人發(fā)現(xiàn)預訂網(wǎng)站Booking.com在顯示用戶打分刻度時,可能會誤導用戶;Xiang等人在Tourism Management的一篇文章中,對美國三個最具代表意義的旅游在線評論網(wǎng)站(TripAdvisor,Expedia和Yelp)進行了對比分析,發(fā)現(xiàn)這三個網(wǎng)站的酒店網(wǎng)評在一些重要數(shù)據(jù)特征上存在明顯差異。在認識網(wǎng)評相關(guān)的情感和語義等重要測量指數(shù)的研究中,學者們也開始意識到數(shù)據(jù)質(zhì)量問題,Park和Nicolau用Yelp的餐飲業(yè)網(wǎng)評數(shù)據(jù)進行分析研究,發(fā)現(xiàn)網(wǎng)評情感和用戶打分存在不對稱關(guān)系,這個發(fā)現(xiàn)在Xiang等人的研究中也得到了部分驗證。在鑒別數(shù)據(jù)噪音方面,Schuckert、Liu和Law用網(wǎng)評中的用戶總打分和分項打分之間的不一致性作為可疑網(wǎng)評的甄別手段。最近,Xiang等人的另一篇文章發(fā)現(xiàn),當TripAdvisor在要求網(wǎng)評人填寫旅游目的時,用戶往往提供不準確的信息,形成數(shù)據(jù)噪音,由此,他們開發(fā)了一套基于高質(zhì)量網(wǎng)評的排序算法,來有效剔除噪音。這些研究表明,在社交媒體分析學的研究中,有意識、系統(tǒng)化地進行數(shù)據(jù)采集、預處理和抽樣,對研究結(jié)論的合法性至關(guān)重要。

認識到社交媒體平臺的本質(zhì),我們就能夠有意識、有針對性地認識和處理社交媒體分析過程中可能存在的數(shù)據(jù)質(zhì)量問題。當然,目前這些研究僅僅是一些探索性的工作,關(guān)于旅游相關(guān)的社交媒體研究的本體論和方法論基礎(chǔ),仍然有很多值得深入探討的課題。比如,利用網(wǎng)評和博客來認識旅游目的地形象似乎正在成為一個趨勢,但是,究竟什么樣的數(shù)據(jù)能夠用來描述目的地形象,這也是個合法性的問題。

吹糠見米,去蕪存菁。筆者認為,對社交媒體數(shù)據(jù)質(zhì)量的研究,不僅能夠給旅游管理提供可靠的方法論基礎(chǔ),而且在假信息、假新聞泛濫的今天,更具有迫切的現(xiàn)實意義。

(第一作者系美國弗吉尼亞理工大學酒店和旅游管理系副教授,博士生導師,北京聯(lián)合大學客座教授;第二作者系北京聯(lián)合大學副教授,通訊作者;收稿日期:2017-08-11)endprint

猜你喜歡
社交旅游分析
社交之城
社交牛人癥該怎么治
隱蔽失效適航要求符合性驗證分析
社交距離
電力系統(tǒng)不平衡分析
你回避社交,真不是因為內(nèi)向
旅游
電力系統(tǒng)及其自動化發(fā)展趨勢分析
出國旅游的42個表達
戶外旅游十件貼身帶