何梓翔
隨著移動(dòng)互聯(lián)網(wǎng)和電子商務(wù)的發(fā)展,移動(dòng)電子商務(wù)已經(jīng)得到普及。據(jù)億邦動(dòng)力網(wǎng)2019年1月發(fā)布的報(bào)告現(xiàn)實(shí),2018年的中國(guó)移動(dòng)互聯(lián)網(wǎng)月度活躍智能設(shè)備規(guī)模增至11.3億?;谝苿?dòng)互聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的用戶(hù)存量,電商領(lǐng)域中產(chǎn)生了名為社交電商的新型交付平臺(tái)。社交分享不同于傳統(tǒng)的顧客評(píng)價(jià),它側(cè)重于在社交網(wǎng)站上與朋友分享信息,而傳統(tǒng)的顧客評(píng)價(jià)是與不知名的在線(xiàn)購(gòu)物者分享的。據(jù)研究顯示,83%的網(wǎng)購(gòu)者愿意與朋友分享購(gòu)物信息,67%的網(wǎng)購(gòu)者可能會(huì)根據(jù)社區(qū)的推薦產(chǎn)生購(gòu)買(mǎi)意愿或購(gòu)物決策[2]。由于社交電商的興起,在線(xiàn)旅游平臺(tái)也紛紛嵌入社交功能,通過(guò)旅游平臺(tái)發(fā)布旅游消費(fèi)體驗(yàn)、旅游攻略等,使得在線(xiàn)旅游平臺(tái)加速發(fā)展,據(jù)艾瑞咨詢(xún)發(fā)布《2018年中國(guó)在線(xiàn)旅游行業(yè)研究報(bào)告》,數(shù)據(jù)顯示2018年在線(xiàn)旅游市場(chǎng)交易規(guī)模將突破1.48萬(wàn)億元,相較于2017年的1.17萬(wàn)億元,同比增長(zhǎng)26.3%,再創(chuàng)歷史新高。隨著在線(xiàn)出行市場(chǎng)的成熟,該行業(yè)的增速?gòu)目焖僭鲩L(zhǎng)到相對(duì)平穩(wěn),在網(wǎng)絡(luò)中尋找旅游信息已經(jīng)成為消費(fèi)者的首選。
互聯(lián)網(wǎng)中消費(fèi)者產(chǎn)生的信息在學(xué)術(shù)中稱(chēng)為用戶(hù)產(chǎn)生內(nèi)容(UGC, user-generated content),UGC有很多不同的形式,比如Twitter的推文, Facebook狀態(tài)更新,YouTube上的視頻等。經(jīng)過(guò)學(xué)者們的研究發(fā)現(xiàn),該類(lèi)型的數(shù)據(jù)直接或間接地影響相關(guān)企業(yè)的績(jī)效,關(guān)于UGC的研究對(duì)企業(yè)具有強(qiáng)烈的管理意義,而如何批量采集UGC數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析是技術(shù)上的關(guān)鍵一環(huán)。該文章旨在為無(wú)編程基礎(chǔ)的研究人員提供數(shù)據(jù)采集建議。
基于口碑營(yíng)銷(xiāo)(WOM),消費(fèi)者在使用產(chǎn)品或者服務(wù)之后傾向于與家人或朋友分享消費(fèi)體驗(yàn),由于電子口碑營(yíng)銷(xiāo)(e-WOM)的跨空間性,消費(fèi)者能夠很容易地與廣大潛在消費(fèi)者分享他們對(duì)產(chǎn)品或服務(wù)的看法,并引起他們的消費(fèi)欲望(Albarq, 2014)。Gretzel and Yoo (2008)經(jīng)過(guò)調(diào)查發(fā)現(xiàn),超過(guò)70%的旅游者在計(jì)劃旅游時(shí),會(huì)將網(wǎng)絡(luò)中其他有經(jīng)驗(yàn)的消費(fèi)者的在線(xiàn)評(píng)論作為主要的參考信息。因此,從營(yíng)銷(xiāo)學(xué)、旅游學(xué)和管理學(xué)的視角來(lái)看,對(duì)于在線(xiàn)旅游的消費(fèi)行為研究是學(xué)者們的研究重點(diǎn)。
Parra-Lopez等(2011)分析了旅行者在計(jì)劃旅行時(shí)使用社交媒體意愿的影響因素,經(jīng)過(guò)研究發(fā)現(xiàn)使用社交媒體的功能性、心理性、享樂(lè)性和社會(huì)性的感知利益顯著影響使用意愿。Aluri等(2016)通過(guò)比較使用嵌入式社交媒體渠道的酒店網(wǎng)站和沒(méi)有使用嵌入式社交媒體渠道的酒店網(wǎng)站的用戶(hù)體驗(yàn),研究了游客滿(mǎn)意度、滿(mǎn)意度和購(gòu)買(mǎi)意愿之間的關(guān)系。目前多數(shù)學(xué)者主要使用TAM、ELM等模型,通過(guò)調(diào)查問(wèn)卷來(lái)獲取數(shù)據(jù),再進(jìn)行結(jié)構(gòu)方程模型或回歸分析后得出結(jié)論。值得注意的是,利用網(wǎng)絡(luò)爬蟲(chóng)等抓取UGC的方式來(lái)對(duì)消費(fèi)者行為進(jìn)行研究已經(jīng)成為一大熱點(diǎn),目前,結(jié)合網(wǎng)絡(luò)爬蟲(chóng)的技術(shù)對(duì)在線(xiàn)旅游消費(fèi)者的研究尚有不足之處。
針對(duì)于旅游網(wǎng)站的數(shù)據(jù)采集需求有多種類(lèi)型。Duan等(2008)通過(guò)采集yahoo!電影等三個(gè)電影評(píng)論網(wǎng)站的相關(guān)數(shù)據(jù),考察了用戶(hù)的在線(xiàn)評(píng)論對(duì)日常票房表現(xiàn)的說(shuō)服效應(yīng)和認(rèn)知效應(yīng)。鄭聰(2017)使用爬蟲(chóng)對(duì)網(wǎng)絡(luò)平臺(tái)上的旅游滿(mǎn)意度輿情數(shù)據(jù)進(jìn)行采集和分析, 生成可視化圖表結(jié)果,為相較于以往的旅游滿(mǎn)意度調(diào)查提供一種新的思路。李勇等(2018)采用內(nèi)容分析法對(duì)在線(xiàn)旅游平臺(tái)及問(wèn)答社區(qū)的旅游提問(wèn)信息文本進(jìn)行,研究了用戶(hù)對(duì)九寨溝旅游相關(guān)信息的關(guān)注內(nèi)容,發(fā)現(xiàn)不同游客對(duì)同一信息的側(cè)重點(diǎn)也不同,并提出了相應(yīng)的管理建議。高佳美(2017)通過(guò)采集互聯(lián)網(wǎng)上的大量旅游文記,基于文本挖掘的方法改進(jìn)個(gè)性化推薦技術(shù),幫助用戶(hù)快速準(zhǔn)確地找到適合自己需求的旅游攻略。綜上所述,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集在線(xiàn)旅游問(wèn)答社區(qū)、在線(xiàn)旅游電商平臺(tái)等UGC,分析UGC對(duì)旅游商品或服務(wù)銷(xiāo)量的影響機(jī)制,或是利用文本分析的方法進(jìn)行詳細(xì)的內(nèi)容分析或情感分析等,用來(lái)探討企業(yè)績(jī)效的影響因素等。
本文以使用“八爪魚(yú)采集器”抓取攜程網(wǎng)(https://www.ctrip.com/)中“九寨溝景區(qū)”自由行攻略的UGC為案例,為無(wú)編程基礎(chǔ)的研究人員提供一個(gè)新的采集思路和收集數(shù)據(jù)方法,以達(dá)到論文研究的目的。
目前的爬蟲(chóng)技術(shù)一般基于python語(yǔ)言編程,而由于python技術(shù)所需要的編程基礎(chǔ)相對(duì)較高,對(duì)于非計(jì)算機(jī)專(zhuān)業(yè)而又需要數(shù)據(jù)采集的研究人員來(lái)說(shuō),短時(shí)間掌握python比較困難。而八爪魚(yú)采集器(https://www.bazhuayu.com)的便捷性、易用性可以滿(mǎn)足上述人員的需求。
實(shí)驗(yàn)前需要明確實(shí)驗(yàn)框架,確定論文所需要的數(shù)據(jù)以及對(duì)所需數(shù)據(jù)的抓取流程。一般來(lái)說(shuō),需要抓取UGC的相關(guān)數(shù)據(jù)來(lái)撰寫(xiě)論文的研究人員需要經(jīng)過(guò)如下關(guān)鍵步驟:
(1)確定論文主題,建立論文研究模型,明確相關(guān)變量。研究者需明確論文研究的目的,在建模之后,擬定數(shù)據(jù)來(lái)源,目前消費(fèi)者日常使用的網(wǎng)站或手機(jī)app中,由于平臺(tái)的防采集、反爬蟲(chóng)很?chē)?yán)格,部分?jǐn)?shù)據(jù)是無(wú)法抓取或者比較難抓取的,并且每個(gè)平臺(tái)的數(shù)據(jù)不一定都會(huì)有顯示,例如京東商城的商品評(píng)價(jià)數(shù)超過(guò)一萬(wàn)條時(shí),不會(huì)顯示精確到個(gè)位數(shù)的數(shù)量。
(2)選取數(shù)據(jù)來(lái)源網(wǎng)站或平臺(tái),利用八爪魚(yú)采集器抓取所需數(shù)據(jù)。在使用八爪魚(yú)軟件的過(guò)程中,框選研究所需要變量的數(shù)據(jù),然后進(jìn)行數(shù)據(jù)采集,目前八爪魚(yú)采集器僅限于采集網(wǎng)站數(shù)據(jù),手機(jī)app應(yīng)用的數(shù)據(jù)需通過(guò)fiddler或wireshark等抓包軟件進(jìn)行抓包。
(3)清洗并整理數(shù)據(jù)。將采集的數(shù)據(jù)進(jìn)行整理是必不可少的,這樣可以避免后續(xù)的數(shù)據(jù)分析產(chǎn)生偏差。如果研究人員跳過(guò)了清洗數(shù)據(jù)這一環(huán),可能會(huì)導(dǎo)致將重復(fù)數(shù)據(jù)導(dǎo)入到分析軟件,從而使得研究結(jié)果不準(zhǔn)確,最后給出的管理建議也會(huì)偏離標(biāo)準(zhǔn)。
(4)最后,進(jìn)行相應(yīng)的數(shù)據(jù)分析。將所需的數(shù)據(jù)進(jìn)行整理之后,研究者需要依據(jù)論文的目的,進(jìn)行不同的數(shù)據(jù)分析,例如回歸分析、內(nèi)容文本分析等。
旅游者在制定旅游計(jì)劃時(shí),消費(fèi)者傾向于在網(wǎng)絡(luò)中搜尋相關(guān)信息,最終作出旅游相關(guān)決策,在旅行結(jié)束之后,部分消費(fèi)者又會(huì)在社交電商平臺(tái)中分享旅游信息,從而產(chǎn)生一個(gè)信息傳遞閉環(huán)。
攜程網(wǎng)(https://www.ctrip.com/)作為中國(guó)領(lǐng)先的綜合型在線(xiàn)旅游服務(wù)平臺(tái),擁有超過(guò)1億的用戶(hù)注冊(cè)量,提供全球超過(guò)60000個(gè)旅游目的地的旅游攻略評(píng)等相關(guān)資訊。本案例以采集攜程網(wǎng)為對(duì)象,采集“四川九寨溝”景點(diǎn)旅游攻略中,每條攻略的標(biāo)題、發(fā)布者信息、瀏覽量、收藏量、評(píng)論數(shù)、評(píng)論內(nèi)容等網(wǎng)頁(yè)中顯示的內(nèi)容。
(1)打開(kāi)八爪魚(yú)采集器,點(diǎn)擊自定義采集,在“網(wǎng)址”欄中輸入“九寨溝自由行攻略”的網(wǎng)站https://you.ctrip.com/place/jiuzhaigou25.html,并點(diǎn)擊保存。
(2)將頁(yè)面拉到底端,點(diǎn)擊“下一頁(yè)”按鈕,并選擇“循環(huán)選擇下一頁(yè)”,此時(shí)點(diǎn)擊軟件右上方的“流程”,可以看到已經(jīng)建立了“循環(huán)翻頁(yè)”,這表示選擇采集該景點(diǎn)下所有頁(yè)面的旅游攻略。
(3)找到網(wǎng)頁(yè)中第一條攻略的“標(biāo)題”,點(diǎn)擊“選擇全部”,選擇“循環(huán)點(diǎn)擊每個(gè)元素”,這一步驟即選擇采集該頁(yè)面中所有的九寨溝旅游攻略。
(4)進(jìn)入到第一條攻略頁(yè)面之后,選擇攻略標(biāo)題,點(diǎn)擊“采集該元素的文本”,同理選擇其他所需要的文本信息即可。選擇所有需要采集的信息之后,保存并點(diǎn)擊“開(kāi)始采集——啟動(dòng)本地采集”
(5)采集完成之后選擇“導(dǎo)出數(shù)據(jù)”,選擇需要保存的文件格式,并點(diǎn)擊保存,最后即完成數(shù)據(jù)采集,最終以可視化的方式呈現(xiàn)。
由于移動(dòng)互聯(lián)網(wǎng)和社交電商的發(fā)展,對(duì)UGC進(jìn)行深入研究是目前營(yíng)銷(xiāo)學(xué)、管理學(xué)等多種學(xué)科中的研究重點(diǎn)。而相較于編程類(lèi)的數(shù)據(jù)采集技術(shù),使用八爪魚(yú)等數(shù)據(jù)采集軟件進(jìn)行數(shù)據(jù)抓取所需的技術(shù)要求較低,對(duì)于非計(jì)算機(jī)專(zhuān)業(yè)或無(wú)編程基礎(chǔ)的研究人員來(lái)說(shuō),能夠通過(guò)簡(jiǎn)單的實(shí)驗(yàn)步驟輕松地獲取到所需數(shù)據(jù)。
使用采集軟件獲取數(shù)據(jù)雖然相對(duì)容易,但是也有許多局限性。八爪魚(yú)采集軟件是針對(duì)于各種網(wǎng)頁(yè)版的可見(jiàn)數(shù)據(jù)進(jìn)行采集,目前許多企業(yè)已經(jīng)關(guān)閉網(wǎng)頁(yè)版官網(wǎng)或商城,轉(zhuǎn)向投入到手機(jī)app應(yīng)用的開(kāi)發(fā)與研究,但對(duì)于八爪魚(yú)采集軟件來(lái)說(shuō),抓取手機(jī)app應(yīng)用的數(shù)據(jù)目前是無(wú)法實(shí)施的。據(jù)了解,想要獲取手機(jī)app應(yīng)用的數(shù)據(jù),需要先下載研究對(duì)象的客戶(hù)端,在保持手機(jī)與電腦在同一局域網(wǎng)的情況下,使用Fiddler、Charles、Wireshark等抓包軟件進(jìn)行抓包,結(jié)合python等編程語(yǔ)言進(jìn)而達(dá)到數(shù)據(jù)抓取的目的。