靳銳 張宏莉
摘 要:隨著社交網絡在世界范圍內的蓬勃發(fā)展,社交網絡公眾意見分析成為了一個重要的研究領域,通過分析社交網絡產生的數據研究公眾意見。社交網絡中公眾意見在許多領域,如政治、經濟、商業(yè)、金融、貿易、公共政策實行等,都扮演著重要的角色。然而,相關的理論與技術并不成熟,面臨著很多挑戰(zhàn),如不確定性問題的定量化計算、機器學習方法與自然語言處理在社交網絡公眾意見分析中的應用、公眾意見分析理論體系的構建等。本文對社交網絡公眾意見分析的研究現狀進行了綜述。
關鍵詞:公眾意見分析;社交網絡;社會計算;機器學習;自然語言處理
文章編號:2095-2163(2019)04-0327-05 中圖分類號:TP391.41 文獻標志碼:A
0 引 言
公眾意見分析領域的研究由來已久,自從政府形態(tài)出現以來,公眾意見分析的相關研究與應用即已日漸突顯其重要的實用價值。政府在執(zhí)行政策的時候,如收稅等,需要了解公眾對政府政策的態(tài)度,這也是早期開展公眾意見分析的宗旨意圖,不過系統的學術研究卻是近代才見到、并得到發(fā)展的[1-3]。
隨著社交網絡在世界范圍內的廣泛應用,人們越來越習慣于通過社交網絡進行公眾意見表達。近年來,存在于社交網絡空間內的公眾意見對政治選舉、政策施行、金融交易、自然災害避險、群體性事件的形成與爆發(fā)、經濟發(fā)展、以及商業(yè)、貿易、市場營銷等領域產生重大影響,相關領域的網絡公眾意見成為重要的、甚至決定事件成敗的情報信息,為此準確把握公眾意見的走向已然成為當下亟待獲取有效成果的研究熱點課題之一。
隨著社交網絡的發(fā)展,社會計算[4]思想開始出現,這是社交網絡數據分析的理論基礎之一。2007年底在哈佛大學舉辦了計算社會學研討會,2008年4月,美國軍方在亞利桑那州立大學舉辦了社會計算、行為建模和預測研討會。在此基礎上,2009年Lazer等人[5]在《Science》雜志上提出計算社會學的概念,指出社交網絡上的大量信息,如博客、論壇、聊天、消費記錄、電子郵件等,都是對現實社會的人及組織行為的映射,網絡數據可用來分析個人和群體的行為模式,標志著計算科學和社會科學在社交網絡數據分析領域的研究出現交叉與融合,社會計算的相關研究正成為世界范圍內新的前沿科學探討和應用焦點。
社會計算思想提出后,受到學界研究人員的充分重視,相關的研究人員依據該思想開始對社交網絡信息進行研究與分析,獲得一系列的研究成果,并將其陸續(xù)融入應用在計算機產業(yè)當中,創(chuàng)造出可觀社會價值[6-8]。
在911恐怖事件的影響推動下,2003年美國首創(chuàng)情報與安全信息學的概念,其核心思想則立足于研究如何開發(fā)智能算法通過數據信息處理技術、安全策略的集成等使情報采集和安全分析更加系統化、科學化,保障國際安全、國家安全、社會安全、商業(yè)安全和個人安全。美國亞利桑那大學關于國家社會安全問題做出了周密考查,進而開啟了“情報與安全信息學(ISI)”[6]的全面深入研究,卡內基梅隆大學也開展了公共衛(wèi)生事件等領域的學術研討。
當前,社會計算方法廣泛用于社區(qū)發(fā)現、用戶商業(yè)推薦分析、金融交易傾向分析、社會媒體挖掘,如社區(qū)與意見領袖發(fā)現、社交網絡用戶行為分析、網絡觀點與態(tài)度分析等[7-9]。
公眾意見分析領域的研究仍然處于發(fā)展初期階段,理論體系還沒有完全建立起來,在各個領域的實際應用還有很大的潛力有待挖掘。本文首先討論了網絡公眾意見分析的相關研究與關鍵技術,然后綜述當前研究現狀,并指出該領域后續(xù)可能的研究方向。對此可得研究論述如下。
1 公眾意見分析研究的背景
公眾意見分析領域的研究,起源于政府機構為了執(zhí)行政府政策而進行的民意調查,并在人類社會的各個時代一直發(fā)揮著重要的作用,著名公眾意見研究專家V.O. Key, Jr.曾經說過一句很經典的話,“即使是最殘酷的暴君也需要知道民眾的想法,即使僅僅是為了更好地鎮(zhèn)壓他們?!盵10],這句話透徹地指出,在國家政府事務運行過程中,對公眾意見進行調查分析與研究是不容回避的工作,而且可以盡量避免社會沖突,從而降低社會成本。
在社交網絡時代到來后,民眾開始使用社交網絡進行公眾意見的表達,大量的網絡公眾意見匯集在一起并相互交織,從而形成了一個帶有鮮明感情色彩、意見多樣化并相對統一的主流觀點,而且往往代表普通民眾的廣泛意見,在此基礎上則對社會中的其它人群產生重大影響[7-9]。
1.1 公眾意見分析研究的起源
公眾意見研究和政府形式是同時出現的,最早期的公眾意見表達形式是叛亂與起義反抗,在人類歷史進程中,不斷有農民起義事件發(fā)生,當大范圍的農民起義涌現時,統治者可以得到了一個明確的信息:政府正在喪失民眾支持。拒絕納稅是另外一個明顯的表現,當國王看到自己派出去的納稅官員被殺死的時候,即會知曉民眾正在反對其高壓統治。之后,統治者們逐漸認識到對公眾意見施以調查分析的重要性,開始針對公眾意見進行調查與分析研究,并即時調整政府政策,而不是繼續(xù)使矛盾趨于激化。于是對公眾意見進行處理研究的各種方法即已轉入活躍發(fā)展期[10]。
1931年,Droba發(fā)表了一篇名為《用于測量公眾意見的5種方法》的學術論文,在文中系統總結了5種對公眾意見進行分析與度量的方法。一般認為,這篇文獻是近代公眾意見分析學術研究領域起點之一[1]。1962年,Key發(fā)表了另外一篇非常重要的學術論文,在該文章中闡述了公眾意見與政治制度之間的關系[2]。1973年,Mueller[3]發(fā)表了題為《戰(zhàn)爭、總統、公眾意見》的文章,進一步強調了公眾意見在國家政治活動中的重要地位。
1.2 社交網絡時代公眾意見的社會角色
2010~2012年間,在非洲大陸與阿拉伯世界國家中,經歷了一次舉世矚目的社會變革運動,史稱Arab Spring運動[7]。社交網絡在此次社會變革中發(fā)揮了關鍵性作用,其顯著的社會功能受到相關研究人員的廣泛重視。研究可知,這些國家有著一些共性,均存在一定的社會矛盾,如貧富差距大、失業(yè)率高等;主流媒體的社會覆蓋面與作用不完備,社交網絡媒體在一定程度上承擔了信息傳播的功能;民眾利用社交網絡渠道選擇發(fā)布信息或個人觀點,形成了強大的公眾意見;網絡公眾意見在很大程度上決定了社會現實中的民意走向。有學者指出,這些國家利用社交網絡技術所帶來的便利,可以提高社會發(fā)展動力并降低社會成本,但同時也必須準備面對社交網絡廣泛使用帶來的社會現實局面[11-12]。在社交網絡時代,網絡公眾意見似乎獲得了更重要的社會角色。
1.3 社交網絡時代公眾意見的重要性
在當今的社交網絡時代,公眾意見發(fā)揮了重要作用,政府工作運轉與政策實行等必然受到網絡輿論監(jiān)督;在其它領域,如金融交易、國際貿易、商業(yè)實體發(fā)展、市場營銷等,網絡公眾意見也開始占據至關重要的位置。例如,當一個商業(yè)實體的產品在社交網絡空間中獲得了更多的負面評價,那么后果往往是,商業(yè)實體可能要面臨著巨大的經濟損失。在社交網絡時代,網絡公眾意見的社會功能與作用是不能被忽視的,在某些條件下,還可能會起到決定性作用[7,9,12]。
2 社交網絡公眾意見分析關鍵技術
2.1 社會計算
2.1.1 社會計算理論
(1)社會計算思想。2009年,Lazer等人在《Science》上發(fā)表了著名的學術觀點,指出,在社交媒體,如博客、論壇、聊天記錄、日志文件、電子郵件等所發(fā)布的內容和相應的網絡行為都是社會中個人或組織行為的映射。這個學術思想的提出具有劃時代意義,為通過分析和計算社交網絡中的用戶行為數據來判斷社會人群的傾向性、挖掘社區(qū)行為、分析公眾意見等研究提供了理論依據[5]。
(2)小世界理論。1998年,Watts 和 Strogatz在《Nature》上發(fā)表了一篇重要的學術論文,文中提出著名的“小世界理論”。該理論與社會計算思想類似,提供了在社交網絡上信息傳播六步距離的基本理論描述,這是分析社交網絡信息傳播規(guī)律的基礎理論依據之一[13]。
2.1.2 網絡結構模型
自從Watts and Strogatz (1998)與Barabási and Albert (1999)研究社交網絡結構建模開始,網絡建模已經獲得了長足進步。一個社交網絡的結構示例如圖1所示[13-15]。
這里,針對研究中的網絡數學模型可具體描述如下。
2.1.3 社交網絡分析的技術指標
定量化的分析方法已全面應用于社交網絡分析中,相關的研究人員提出了眾多技術指標的數學定義,用來輔助技術分析或表示社交網絡特征,對此內容可做解析論述如下。
2.1.3.1 聚類系數
社交網絡具有強社區(qū)結構特性,在一個群體中的人傾向于與群體內的人交流的程度比群體外的人要大,這個特性可用聚類系數表示。
聚類系數用來計算與一個節(jié)點連接的友好節(jié)點數量密度。當一個社交網絡具有強社區(qū)結構時,則往往會有較高的平均聚類系數。
2.1.3.2 中心性
(1)度中心性。 度中心性的定義如下:
(2)緊密度中心性。緊密度中心性評測的是一個節(jié)點相對于其它節(jié)點的緊密度。其定義可寫作如下數學形式:
時下,還有其它度量中心性的指標,限于篇幅,這里從略。
2.1.3.3 連接強度
2.1.4 社會計算方法
(1)確定性問題。確定性問題的計算,可以應用表1中的技術參數與網絡數學模型進行計算,當前這種方法獲得了大范圍的應用,諸如可用于社區(qū)發(fā)現,網絡用戶行為分析等。
(2)不確定性問題。社會計算任務中,存在著諸多不確定性問題需要進行各類定量化的計算與分析,如公眾事件信息熵的計算,大眾心理壓力指數計算、網絡輿論攻擊強度計算、網絡社會性話題爭議度計算、群體性行為復雜度計算、網絡群體社會性攻擊行為計算等等。
有相關的研究人員提出一種計算方法,可以用來解決這類不確定性研究中的定量化計算問題[17]。
2.2 社交網絡數據挖掘
社交網絡數據挖掘技術的任務是對社交網絡中的關系型數據進行分析,往往不涉及文本內容,多是用于研究關注用戶群體的社區(qū)關系,挖掘群體行為等,是當前的研究熱點之一。
社交網絡公眾意見分析有一部分工作需要借助社交網絡數據挖掘算法進行分析,如相似意見社區(qū)發(fā)現,相似或不同意見表達者的用戶行為分析、公眾意見的社交網絡傳播模式分析等。
2.3 自然語言處理
自然語言處理技術是網絡文本分析的基礎,在公眾意見分析領域中占有重要地位,有很多工作需要借助自然語言技術對網絡公眾意見進行過濾與分析,因而成為應用基礎性技術之一。
2.4 機器學習
社交網絡公眾意見分析研究中有很多任務需要進行數據分類處理或計算優(yōu)化,如社交網絡用戶分類、公眾事件分類、評論類別分類、情感信息分類等等,機器學習是一種有效的方法。機器學習是數據分析中強有力的模型工具,通過使用機器學習算法可以獲得普通方法無法得到的優(yōu)異結果。
2.5 博弈論
公眾意見與生俱來特性決定了其在社會政治活動、經濟發(fā)展、社會群體行為組織等各項事務中的重要角色[7,10,12]。因而就必然經常處于多個社會角色的博弈當中,并且最終發(fā)揮重要作用。
3 結束語
社交網絡公眾意見分析研究涉及多個領域的技術,如信息論、最大熵理論、社會計算、社交網絡數據挖掘、自然語言處理、博弈論等。尤其在海量社交網絡數據分析的背景下,網絡公眾意見分析研究對相關的研究人員提出了挑戰(zhàn)。網絡公眾意見是社會各項事務能夠合理運行的博弈因素之一,對其探索、及付諸應用則屬于網絡空間安全的研究范疇,在未來工作中可能會加入更多的社會性因素,其涉及的安全問題往往帶有社會性。
參考文獻
[1]DROBA D D. Methods used for measuring public opinion[J]. American Journal of Sociology, 1931,37(3):410-423.
[2] SHAPIRO R Y. Public opinion and American democracy[J]. American Journal of Sociology, 1963, 69(1):982-1017.
[3] MUELLER J E. War, presidents and public opinion[M]. New York:Wiley, 1973.
[4] Wikipedia. Social computing[EB/OL]. [2017-01-05]. https://en.wikipedia.org/wiki/Social_computing.
[5] LAZER D, PENTLAND A, ADAMIC L, et al. Computational social science[J]. Science, 2009,323(5915) :721-723.
[6] CHEN H, WANG F Y, ZENG D. Intelligence and security informatics for homeland security:Information,communication, and transportation[J]. IEEE Transactions on Intelligent Transportation Systems , 2004, 5(4):329-341.
[7] LERMAN K,GILDER A, DREDZE M, et al. Reading the markets:Forecasting public opinion of political candidates by news analysis[C]// Proceedings of the 22nd International Conference on Computational Linguistics (Coling 2008). Manchester, United Kingdom:ACM, 2008,1:473-480.
[8] AKCORA C G, BAYIR M A, DEMIRBAS M, et al. Identifying breakpoints in public opinion[C]//1st Workshop on Social Media Analytics (SOMA 10). Washington, DC, USA:ACM, 2010:62-66.
[9] LI Juan, ZHOU Xueguang, CHEN Bin. Research on analysis and monitoring of Internet Public Opinion[M]//Du Z. Proceedings of the 2012 International Conference of Modern Computer Science and Applications. Advances in Intelligent Systems and Computing. Berlin/ Heidelberg:Springer, 2013,191:449-453.
[10]BROOKER R, SCHAEFER T. Public opinion in the 21st century:Let the people speak[M]. United States:Houghton Mifflin,2005.
[11]Wikipedia. Arab spring[EB/OL]. [2017-01-05]. https://en.wikipedia.org/wiki/Arab_Spring.
[12]KHONDKER H H. Role of the new media in the Arab Spring[J]. Globalizations,2011,8(5):675-679.
[13]WATTS D J, STROGATZ S H. Collective dynamics of ‘smallworld networks[J]. Nature, 1998, 393(6684):440-442.
[14]BARABSI A, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439):509-512.
[15]CHAKRABARTI D, FALOUTSOS C. Graph mining:Laws, generators and algorithms[J]. ACM Computing Surveys, 2006, 38(1):2.
[16]TANG L, LIU H. Community detection and mining in social media[M]//HAN Jiawei, GETOOR L, WANG Wei,et al. Synthesis Lectures on Data Mining and Knowledge Discovery. California, USA:Morgan & Claypool Publishers,2010, 2(1):1-137.
[17]JIN R, ZHANG H L, ZHANG Y, et al. Calculation method of Chinese public event information entropy[J]. Journal of Software, 2016,27(11):2855-2869.