李彪
摘要:
本文結(jié)合大數(shù)據(jù)對社會輿情研究的影響,從研究視角、研究方法、數(shù)據(jù)庫支持、研究主體、研究重點等方面討論了大數(shù)據(jù)背景下社會輿情研究的轉(zhuǎn)向,在此基礎(chǔ)上分析了大數(shù)據(jù)時代社會輿情研究在數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)呈現(xiàn)等幾個方面的做點。
關(guān)鍵詞:
大數(shù)據(jù) 社會輿情 輿情預(yù)警 數(shù)據(jù)挖掘 可視化
一、大數(shù)據(jù)為輿情研究創(chuàng)造了新機遇
在當(dāng)下網(wǎng)絡(luò)輿情研究的進(jìn)程中,大數(shù)據(jù)的價值表現(xiàn)極為突出。面對數(shù)億網(wǎng)民和浩如煙海的網(wǎng)絡(luò)言論,網(wǎng)絡(luò)輿情的監(jiān)測和分析越來越依賴輿情大數(shù)據(jù)分析技術(shù)與平臺。
1. 大數(shù)據(jù)成為 “人類的儀表盤”,更有利于輿情研究。大數(shù)據(jù)可完整記錄社會輿情和民意。網(wǎng)民在網(wǎng)上產(chǎn)生的海量數(shù)據(jù),記錄著他們的思想、行為乃至情感,這是信息時代現(xiàn)實社會與網(wǎng)絡(luò)空間深度融合的產(chǎn)物,蘊涵著豐富的內(nèi)涵和很多規(guī)律性信息。通過分析相關(guān)數(shù)據(jù),可了解大眾需求、訴求和意見。一定程度上,大數(shù)據(jù)成了人類生存痕跡和心理變化的記錄儀,成為不折不扣的“人類儀表盤”。通過這一指示器,可清楚地記錄當(dāng)下社會民眾的所思所想。
2. 大數(shù)據(jù)成為社會輿情研究的“利器”。美國麻省理工學(xué)院斯隆管理學(xué)院的經(jīng)濟(jì)學(xué)家埃里克·布呂諾爾夫松(Erik Brynjolfsson)說,要想領(lǐng)會大數(shù)據(jù)的潛在影響,你得看看顯微鏡。發(fā)明于4個世紀(jì)之前的顯微鏡,使得人們以前所未有的細(xì)胞級水平觀看和測量事物。這是測量的一次革命。布呂諾爾夫松教授解釋說,數(shù)據(jù)的測量正是顯微鏡的現(xiàn)代等價物。[1]大數(shù)據(jù)可使對社會輿情的監(jiān)測和測量達(dá)到個體級水平,而不再是傳統(tǒng)web1.0時代輿情監(jiān)測的整體性描述,大數(shù)據(jù)使得細(xì)節(jié)化、即時化地測量個體的行為和情緒變成了可能,并通過一定的隱私保護(hù),通過其“電子痕跡”對個體進(jìn)行社會行為刻畫,在此基礎(chǔ)上展現(xiàn)出個體的社會心理變化。
3. 大數(shù)據(jù)是社會關(guān)系的“沉淀池”,改變傳統(tǒng)輿情只見“內(nèi)容”不見“關(guān)系”的境況。目前,從整體發(fā)展來看,社會科學(xué)的研究已發(fā)生轉(zhuǎn)向,由原來對“個體屬性”的關(guān)注轉(zhuǎn)向為對“社會關(guān)系”的關(guān)注,相應(yīng)的研究方法也由傳統(tǒng)的抽樣研究到現(xiàn)在的社會網(wǎng)絡(luò)分析,正如人們常常指出的那樣,調(diào)查是一種社會學(xué)的絞肉機,它把個體從其所在的社會情境中抽離出來,并確保研究對象之間不存在聯(lián)系。[2]傳統(tǒng)的抽樣研究很容易只見樹木不見森林。正如傳統(tǒng)的社會輿情監(jiān)測只注重網(wǎng)民“說什么”,不重視網(wǎng)民之間的“關(guān)系”,這種輿情監(jiān)測很可能只抓住比較淺層次的社會語義表達(dá),不能把握網(wǎng)民“為什么這樣說”背后的社會心理和其所處的社會關(guān)系網(wǎng)。大數(shù)據(jù)不僅僅記錄網(wǎng)民的話語和內(nèi)容,還記錄網(wǎng)民之間的社會互動和社會交往方式,乃至網(wǎng)絡(luò)族群之間的界限和相互勾連。通過一定的數(shù)據(jù)分析手段,不僅可描繪出網(wǎng)民的“社會話語表達(dá)”,且能夠清晰地描繪出網(wǎng)民的“社會關(guān)系網(wǎng)絡(luò)”和“心理文化地圖”,從而改變web1.0時代單向度的輿情監(jiān)測。
4. 大數(shù)據(jù)的預(yù)測性可以解決目前輿情研究的尷尬。目前的網(wǎng)絡(luò)輿情監(jiān)測和研究,是對已有事件的影響力和擴(kuò)散范圍進(jìn)行量化描述,沒有能夠做社會輿情預(yù)警的,即使有個別機構(gòu)宣稱自己的輿情系統(tǒng)能夠進(jìn)行輿情監(jiān)測,要么是噱頭,要么預(yù)測的準(zhǔn)確率很低,基本上不可以用于實踐。全球大數(shù)據(jù)研究權(quán)威巴拉巴西認(rèn)為:“93%的人類行為是可以預(yù)測的,當(dāng)我們將生活數(shù)字化、公式化以及模型化的時候,我們會發(fā)現(xiàn)其實大家都非常相似。生活如此抵觸隨機運動,渴望朝更安全、更規(guī)則的方向發(fā)展,人類行為看上去很隨意、很偶然,卻極其容易被預(yù)測?!盵3]如美國麻省理工學(xué)院副教授 Devavrat Shah 和學(xué)生 Stanislav Nikolov 發(fā)明的新算法在預(yù)測 Twitter 熱門話題時準(zhǔn)確率在 95% 以上,且平均比 Twitter 官方熱門話題出來的時間早 90 分鐘,甚至有些熱門話題能夠提前 5 小時預(yù)測出來,沒有時間的限制,可以分析任何時間出現(xiàn)的任何話題,就像不停變化的股票市場、電影票價或每個人的乘車時間一樣,Twitter 上任何隨機發(fā)生的話題,都可以拿來分析。分析的結(jié)果,不僅能預(yù)測熱門話題的趨勢,還可幫助品牌推廣或營銷人員確定人們的關(guān)注點,甚至可用來監(jiān)控輿論;另外臉書(Facebook)在首次公開募股上市(IPO)的當(dāng)天,一個社交平臺機構(gòu)監(jiān)測了Twitter上的情感傾向與臉書(Facebook)股價波動的關(guān)聯(lián)。在開盤前推特上的情感逐漸轉(zhuǎn)向負(fù)面,25分鐘之后,臉書的股價便開始下跌;而當(dāng)推特上的情感轉(zhuǎn)向正面時,其股價在8分鐘之后也開始了回彈;當(dāng)股市接近收盤時,推特上的情感轉(zhuǎn)向負(fù)面,10分鐘后股價又開始下跌。當(dāng)然,大數(shù)據(jù)被用于網(wǎng)絡(luò)輿情研究也存在一定的負(fù)面性,這種精準(zhǔn)化的社會存儲、社會測量方式被大規(guī)模運用時,一方面容易引起個體隱私的泄露,通過大數(shù)據(jù)研究就像透過透明的玻璃魚缸觀察魚群游動的行為乃至其中每一條魚的表情活動;另一方面容易使一些別有用心的人或組織,輕易地操縱和控制輿論,但這些弊端都可通過一定的規(guī)則設(shè)定來進(jìn)行有效規(guī)避。
二、大數(shù)據(jù)視域下輿情研究的轉(zhuǎn)向
大數(shù)據(jù)對傳統(tǒng)輿情研究產(chǎn)生了深刻的影響,在這種大背景下,社會輿情研究需進(jìn)行相關(guān)轉(zhuǎn)向,實現(xiàn)學(xué)科的調(diào)試和適應(yīng),具體主要包括以下幾點。
1. 研究視角的轉(zhuǎn)向:從單向度的內(nèi)容研究轉(zhuǎn)向“內(nèi)容+關(guān)系”的多維度研究。隨著大數(shù)據(jù)時代的到來,傳統(tǒng)輿情研究只重視網(wǎng)民話語表達(dá)的單向度研究的視角必將改變,話語作為一種外在的社會表達(dá),屬于淺表層面,不能夠有效窺探出網(wǎng)民群體的社會行為、社會心理和社會訴求。借助大數(shù)據(jù),輿情研究的視角將更加多元化,未來輿情研究的視角將轉(zhuǎn)向?qū)ι鐣捳Z表達(dá)、社會關(guān)系呈現(xiàn)、社會心理描繪、社會訴求預(yù)測等多方面、多向度的研究,通過這樣的研究轉(zhuǎn)型,社會輿情研究將真正成為一門與多學(xué)科交叉的社會顯學(xué),成為一門學(xué)科。改變目前輿情研究“策為上、術(shù)為主、學(xué)匱乏”的尷尬學(xué)術(shù)現(xiàn)實。
2. 研究方法的轉(zhuǎn)向:由輿情信息采集轉(zhuǎn)向數(shù)據(jù)加工、可視化等。由于輿情監(jiān)測的前端界面呈現(xiàn)的方式上同質(zhì)化程度較高,目前的輿情監(jiān)測和輿情研究主要集中在輿情信息的采集及信息源的擴(kuò)展方面。無論是北大方正輿情產(chǎn)品還是拓爾思(TRS),在對新聞網(wǎng)站、微博賬號進(jìn)行監(jiān)測時,須將網(wǎng)站地址和微博賬號的微號設(shè)定好,甚至新聞網(wǎng)站的網(wǎng)站設(shè)計樣板也要進(jìn)行設(shè)定,被監(jiān)測的網(wǎng)站一旦改版,后臺監(jiān)測也必須調(diào)整相應(yīng)的網(wǎng)頁樣板。各種輿情軟件間的競爭,主要集中在信息采集源覆蓋的范圍以及數(shù)據(jù)分析后臺的算法上,但呈現(xiàn)出來的前端頁面則是“千網(wǎng)一面”。大數(shù)據(jù)將目前輿情信息采集的環(huán)節(jié)拉回到一個競爭層面上來,未來輿情監(jiān)測和研究的數(shù)據(jù)源可能來自于同一個大數(shù)據(jù)庫支撐,輿情研究主體競爭的是各類算法的精細(xì)化、準(zhǔn)確化,并在呈現(xiàn)給用戶的前端界面上進(jìn)行優(yōu)化,增強前端界面的友好程度,整個競爭的鏈條就會不斷下移,更加適合用戶的需求。
3. 數(shù)據(jù)庫支持的轉(zhuǎn)向:由簡單的、有限的數(shù)據(jù)庫轉(zhuǎn)向非結(jié)構(gòu)化的大數(shù)據(jù)庫。目前的輿情監(jiān)測和研究所依據(jù)的數(shù)據(jù)庫相對來說比較簡單,結(jié)構(gòu)單一、數(shù)據(jù)量有限,還停留在TB級別,主要因為這些數(shù)據(jù)庫的數(shù)據(jù)源要么是基于抽樣進(jìn)行數(shù)據(jù)抓取的,要么僅抓取重點網(wǎng)絡(luò)站點,數(shù)據(jù)量有限,數(shù)據(jù)庫標(biāo)準(zhǔn)相對較低,能針對小規(guī)模、有結(jié)構(gòu)或類結(jié)構(gòu)的數(shù)據(jù)進(jìn)行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。大數(shù)據(jù)的數(shù)據(jù)體量巨大,從TB級別,躍升到PB乃至ZB級別,因此大數(shù)據(jù)所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具進(jìn)行處理和識別,需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力,這需要巨大的數(shù)據(jù)庫作為支撐。另外,大數(shù)據(jù)的數(shù)據(jù)資源相對駁雜,是一種非結(jié)構(gòu)化的數(shù)據(jù)呈現(xiàn),因此需要相應(yīng)的非結(jié)構(gòu)化的數(shù)據(jù)庫與之相對接。
4. 輿情研究主體的轉(zhuǎn)向:由小作坊式的單打獨斗、面面俱到的輿情監(jiān)控轉(zhuǎn)向分工明確、高度聚合集約的輿情分析。目前實踐中的輿情監(jiān)測和研究主體比較多,僅用于商業(yè)運營的軟件監(jiān)測主體就有幾百家之多,這些輿情監(jiān)測主體多半是軟件服務(wù)商,通過網(wǎng)絡(luò)爬蟲技術(shù)、分詞技術(shù)和議題聚合等技術(shù),開發(fā)出相關(guān)軟件,為企業(yè)、政府部門和科研院所安裝和維護(hù),進(jìn)行簡單的數(shù)據(jù)采集和分析,類似于小作坊式的輿情監(jiān)測方法,這種運作方式急功近利,為了眼前的商業(yè)利益,不重視產(chǎn)品研發(fā)和數(shù)據(jù)源的擴(kuò)充,通過吃回扣等商業(yè)賄賂方式盡量多賣幾套“軟件”。各輿情主體之間的競爭呈低層次化和粗放型。未來大數(shù)據(jù)使得輿情研究主體在同一個層面上,即數(shù)據(jù)處理和呈現(xiàn)的能力上競爭,在大家可以獲得同一數(shù)據(jù)源的前提下,雙方的競爭必將在數(shù)據(jù)處理、算法精進(jìn)、界面友好、可視化等層面展開,分工會進(jìn)一步明晰,行業(yè)內(nèi)部會進(jìn)一步聚合集約,行業(yè)洗牌加速,行業(yè)有機化程度增強。
5. 輿情研究重點的轉(zhuǎn)向:由輿情監(jiān)測轉(zhuǎn)向輿情預(yù)警乃至預(yù)測,從單向度的危機應(yīng)對、品牌營銷轉(zhuǎn)向各領(lǐng)域的綜合信息服務(wù)。目前的網(wǎng)絡(luò)輿情研究主要集中在監(jiān)測,主要是對一些顯著性事件的輿情動態(tài),包括傳播范圍、影響力等進(jìn)行監(jiān)測和研判,類似于相面術(shù)的“麻衣相”,只知道事件發(fā)展的過去,不知道事件發(fā)展的未來。大數(shù)據(jù)的核心是預(yù)測,可通過分析處理整群數(shù)據(jù),而不再大量依賴隨機采樣,通過自然語言處理、模式識別及機器學(xué)習(xí)等人工智能技術(shù),結(jié)合人工經(jīng)驗,研判未來輿情發(fā)展的態(tài)勢和影響,并在此基礎(chǔ)上實現(xiàn)超出人類經(jīng)驗范疇之外的精準(zhǔn)化預(yù)測。如國外研究人員已發(fā)現(xiàn),Google搜索請求中諸如“流感癥狀”和“流感治療”之類的關(guān)鍵詞出現(xiàn)的高峰要比一個地區(qū)醫(yī)院急診室流感患者增加出現(xiàn)的時間早兩三個星期(而急診室的報告往往要比瀏覽慢兩個星期左右);而在經(jīng)濟(jì)預(yù)測方面,Google上房產(chǎn)相關(guān)搜索量的增減趨勢相對于地產(chǎn)經(jīng)濟(jì)學(xué)家的預(yù)測而言是一個更加準(zhǔn)確的預(yù)言者。另一方面,目前由于數(shù)據(jù)量和技術(shù)等限制,輿情研究還主要集中在危機應(yīng)對和品牌營銷等,這種應(yīng)用主要是基于輿情監(jiān)測和研判這一功能進(jìn)行的,未來隨著大數(shù)據(jù)在輿情研究中的使用,輿情研究的功能指向必將更加多元化,為政府部門、企業(yè)和個人提供更加綜合化的信息挖掘服務(wù)。
三、大數(shù)據(jù)視域下輿情研究的若干做點
不容置疑的是目前大數(shù)據(jù)的研究還處于起步階段,所有關(guān)注大數(shù)據(jù)的機構(gòu)和個人都知道大數(shù)據(jù)是未來很有價值的信息資產(chǎn),至于如何開發(fā)和應(yīng)用還是未知數(shù),很多研究者的心態(tài)是先把數(shù)據(jù)下載存下來。
目前來看,大數(shù)據(jù)的分析和對比框架還比較缺乏,缺乏各行業(yè)通用的數(shù)據(jù)分析模型和精確化的數(shù)據(jù)算法,對社會輿情研究來說,未來大數(shù)據(jù)的可能出路和做點有以下幾方面。
1. 大數(shù)據(jù)收集:盡量多地擴(kuò)大信息源。目前的社會輿情信息源主要基于網(wǎng)絡(luò)站點,對社會化媒體輿情關(guān)注的信息相對較少,未來的輿情信息收集要多元化,不僅僅收集社會化媒體中的輿情信息,還要加大對物聯(lián)網(wǎng)中的信息的采集,要給這些來自物聯(lián)網(wǎng)和各類機構(gòu)信息系統(tǒng)的數(shù)據(jù)附上時空標(biāo)志,去偽存真,盡可能收集異源甚至是異構(gòu)的數(shù)據(jù),必要時還可與歷史數(shù)據(jù)對照,多角度驗證數(shù)據(jù)的全面性和可信性。
2. 大數(shù)據(jù)存儲:注意集約化。要達(dá)到低成本、低能耗、高可靠性目標(biāo),通常要用到冗余配置、分布化和云計算技術(shù),在存儲時要按照一定規(guī)則對數(shù)據(jù)進(jìn)行分類,進(jìn)行多元、立體化的標(biāo)簽標(biāo)注系統(tǒng),通過信息噪音過濾和去重,減少存儲量,同時加入便于日后檢索的標(biāo)簽。
3. 大數(shù)據(jù)處理:注意提純和結(jié)構(gòu)化。有些行業(yè)的數(shù)據(jù)涉及上百個參數(shù),其復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)、多實體和多(下轉(zhuǎn)第19頁)(上接第15頁)空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復(fù)雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語義分析,從大量動態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,導(dǎo)出可理解的內(nèi)容。綜合來看,未來的大數(shù)據(jù)處理要注意以下幾方面:一是小型基礎(chǔ)數(shù)據(jù)庫的支撐和建設(shè),大數(shù)據(jù)庫作為信息母體,需要若干小型數(shù)據(jù)庫作為檢索源,因此必須加大基礎(chǔ)小型數(shù)據(jù)庫的支撐,比如如果想了解大數(shù)據(jù)庫中民眾社會幸福感的高低,必須有能夠衡量和指示社會主觀幸福感的相關(guān)小型數(shù)據(jù)庫作為支撐,以小型數(shù)據(jù)庫的數(shù)據(jù)作為搜索元單位進(jìn)行檢索,去偽存真,經(jīng)過這一步才能實現(xiàn)信息的基本提純。二是將大數(shù)據(jù)結(jié)構(gòu)化的算法。大數(shù)據(jù)作為一種非結(jié)構(gòu)化的數(shù)據(jù),需要進(jìn)行一些結(jié)構(gòu)化的解讀和梳理,這就需要相關(guān)的數(shù)據(jù)結(jié)構(gòu)化的算法,這種算法可稱之為數(shù)據(jù)模型,通過構(gòu)建一定的指標(biāo)體系或結(jié)構(gòu)算法,來有效地對大數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,如同樣對大數(shù)據(jù)庫的社會幸福感的測量,在進(jìn)行相應(yīng)的社會語義提純后須進(jìn)行結(jié)構(gòu)化計算,研究衡量社會幸福感的各類指標(biāo)之間的相關(guān)關(guān)系,在此基礎(chǔ)上進(jìn)行賦值計算,從而形成適合衡量社會幸福感的大數(shù)據(jù)結(jié)構(gòu)化算法。三是大數(shù)據(jù)處理千萬不能剝離大數(shù)據(jù)產(chǎn)生的時空特征。數(shù)據(jù)自身是不懂社會背景的,現(xiàn)實生活中人類的決策不是離散的事件,而是鑲嵌在時間序列和背景之中的,正像Big Data-Context = Bad一樣,大數(shù)據(jù)被抽離了社會語境后就是壞數(shù)據(jù)。
4. 大數(shù)據(jù)結(jié)果呈現(xiàn):低門檻和可視化。大數(shù)據(jù)作為一種社會應(yīng)用工具,其真正的價值不在于成為一些IT從業(yè)者孤芳自賞的專利,而在于其能夠服務(wù)于社會,被社會大眾所容易理解和使用,因此大數(shù)據(jù)的呈現(xiàn)必須要界面友好,使用和識別門檻不高,結(jié)果直觀便于洞察。新媒體尤其是社會化媒體的發(fā)展促進(jìn)了UGC(用戶生產(chǎn)內(nèi)容)的繁盛,UGC必然產(chǎn)生大數(shù)據(jù),因此大數(shù)據(jù)是新媒體發(fā)展的題中之義,大數(shù)據(jù)一方面描繪社會現(xiàn)階段信息流動和傳播的特征,另一方面給人們的生活、工作和思維也帶來了變革。作為具有“社會的皮膚”之稱的社會輿情研究必須更有效地組織和使用大數(shù)據(jù),促進(jìn)社會輿情研究的研究轉(zhuǎn)型,只有這樣才能實現(xiàn)學(xué)科自身的救贖和涅槃。
參考文獻(xiàn):
[1] 郭曉科.大數(shù)據(jù)[M].北京:清華大學(xué)出版社,2013:3.
[2] 劉軍.整體網(wǎng)分析講義:UCINET軟件實用指南[M].上海:格致出版社,2009:34.
[3] [美]艾伯特-拉斯洛·巴拉巴西.爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維[M].馬慧,譯.北京:中國人民大學(xué)出版社,2012:2.
(作者單位:中國人民大學(xué))