楊 陽,林鴻飛,楊 亮,任巨偉
(1. 大連理工大學(xué) 信息檢索研究室,遼寧 大連 116023; 2. 大連理工大學(xué) 網(wǎng)絡(luò)—信息—科學(xué)—經(jīng)濟計量實驗室,遼寧 大連 116023)
大數(shù)據(jù)時代的計算政治學(xué)研究
楊 陽1,2,林鴻飛1,楊 亮1,任巨偉1
(1. 大連理工大學(xué) 信息檢索研究室,遼寧 大連 116023; 2. 大連理工大學(xué) 網(wǎng)絡(luò)—信息—科學(xué)—經(jīng)濟計量實驗室,遼寧 大連 116023)
政治學(xué)研究一直是社會科學(xué)領(lǐng)域的熱點研究方向。政治理論、比較政治、公共政策和國際政治等,這些經(jīng)典的政治學(xué)研究課題吸引了大批的政治學(xué)學(xué)者。從傳統(tǒng)政治學(xué)研究中的道德哲學(xué)和法理主義,到行為主義政治學(xué)研究中的科學(xué)方法論和定量分析,再到一些自然科學(xué)工作者開始涉足政治學(xué)領(lǐng)域,政治學(xué)的研究方法一直在發(fā)展與演變。該文在對傳統(tǒng)政治學(xué)研究的方法進行簡要總結(jié)的基礎(chǔ)上,針對互聯(lián)網(wǎng)時代,“大數(shù)據(jù)”驅(qū)動下的政治學(xué)研究,闡述了計算政治學(xué)的起源、定義及其主要的研究內(nèi)容和方法,論述了目前研究的熱點政治傾向性及政治觀點識別、沖突觀點檢測、選舉預(yù)測和分析可視化的研究進展。
計算政治學(xué);計算社會科學(xué);大數(shù)據(jù);研究方法
隨著大數(shù)據(jù)時代的來臨,無論是在電視、報刊、廣播等傳統(tǒng)媒體,還是在門戶網(wǎng)站、博客、微博等網(wǎng)絡(luò)媒體,都能看到對其大幅的報道與轉(zhuǎn)載。《大數(shù)據(jù)時代》的作者維克托指出,我們正處于一個生活、工作與思維大變革的時代。在這個時代中無論是政客、商人還是學(xué)者,都會有意無意的與這些數(shù)據(jù)打交道。一條條購物記錄,一段段微博留言,一趟趟航空旅行,都會化為一條條的電子數(shù)據(jù),記錄著生活的軌跡,鐫刻著生命的歷程。如何從這些數(shù)據(jù)中挖掘其潛藏的價值,就成為了如今學(xué)者們研究的熱點。
對于大數(shù)據(jù)的定義,至今沒有特別權(quán)威的解釋,不同的專業(yè)領(lǐng)域,不同的學(xué)科背景,不同的應(yīng)用場景都有著不同的闡釋。“大數(shù)據(jù)”一詞最早源于自然科學(xué)研究中,如天文學(xué)、生物學(xué)、計算機科學(xué)等。但如今,這個概念幾乎應(yīng)用到了所有人類工作、學(xué)習(xí)和生活的領(lǐng)域中。如圖1所示,在知網(wǎng)中以“大數(shù)據(jù)”進行關(guān)鍵字檢索。從2012~2013年,國內(nèi)學(xué)者對于大數(shù)據(jù)的研究開始變熱,文章數(shù)量呈井噴式的增長。從文章標(biāo)題和所發(fā)期刊來分析,大多數(shù)是計算機科學(xué)領(lǐng)域?qū)Υ髷?shù)據(jù)的研究,其中包括對大數(shù)據(jù)的存儲、并發(fā)計算,以及機器學(xué)習(xí)、文本分析等方法的論述。也有部分文章是在大數(shù)據(jù)時代下對社會科學(xué),如管理學(xué)、社會學(xué)、經(jīng)濟學(xué)等研究的探討,具體包括對大數(shù)據(jù)背景下產(chǎn)品評論挖掘、情感傾向性分析、企業(yè)競爭情報的研究、數(shù)據(jù)新聞報道等。
圖1 與“大數(shù)據(jù)”相關(guān)的文獻數(shù)量
在微博、微信、人人網(wǎng)等社交媒體存在的今天,人們幾乎每天都會在各大平臺上分享自己的生活,表達(dá)一些觀點和意見。而這些言論所形成的文本數(shù)據(jù),以及附帶的圖片、聲音等多媒體數(shù)據(jù),對社會科學(xué)研究者來說,無疑是最寶貴的財富。如何去獲取這些數(shù)據(jù),如何從這些數(shù)據(jù)中分析管理學(xué)、社會學(xué)和其他社會科學(xué)所關(guān)心的問題,以及如何保護用戶隱私,這些都是“大數(shù)據(jù)”時代下從事社會科學(xué)研究的人員所值得關(guān)注的問題,這也使得計算社會科學(xué)應(yīng)運而生。
2009年,隨著論文Lifeinthenetwork:thecomingageofcomputationalsocialscience在《科學(xué)》雜志上發(fā)表,計算社會科學(xué)這一嶄新的學(xué)科,得到了前所未有的關(guān)注。自然科學(xué)的計算思維與人文社會科學(xué)的相容,無疑給社會科學(xué)的研究者們帶來了新的思路,同時多學(xué)科的交叉,也加強了研究者們彼此間的交流與合作。
圖2 豐富的社會科學(xué)學(xué)科
政治學(xué)是一門研究政治行為、政治體制以及政治相關(guān)領(lǐng)域的社會科學(xué)學(xué)科[1]。如圖2所示,其與法學(xué)、社會學(xué)等其他社會科學(xué)學(xué)科有許多交叉內(nèi)容,從而產(chǎn)生了許多邊緣學(xué)科和交差學(xué)科如政治哲學(xué)、政治社會學(xué)、政治心理學(xué)等。在大數(shù)據(jù)時代,計算社會科學(xué)大力發(fā)展的背景下,政治學(xué)研究者與其他社會科學(xué)研究者一樣,面臨著許多機遇與挑戰(zhàn),諸如,如何從大量的非結(jié)構(gòu)化的數(shù)據(jù)中,分析政治現(xiàn)象及其背后隱含的關(guān)系?如何挖掘個人及團體對某類政治事件的政治傾向?本文將對這兩個問題做出回答。
政治學(xué)研究的問題最早可以溯源到公元前,當(dāng)時的政治學(xué)研究主要停留于哲學(xué)層面,最具有代表性的學(xué)者是柏拉圖。其著作《理想國》將道德哲學(xué)與一般的社會問題研究融為一體,注重哲學(xué)的思辨和抽象的論證,熱衷于探討國家的抽象本質(zhì),并以實現(xiàn)“正義”的、“善”的國家為最高目標(biāo)。
從19世紀(jì)末開始,亞里士多德認(rèn)為人類對自然界進行研究,應(yīng)當(dāng)通過實驗和邏輯分析,從而得出自己的結(jié)論。這種反傳統(tǒng)、反迷信的主張,對后續(xù)的社會科學(xué)以及自然科學(xué)研究產(chǎn)生了深遠(yuǎn)的影響。他所開創(chuàng)的政治科學(xué)研究方法,逐漸替代以哲學(xué)思辨和抽象論證為主導(dǎo)地位的研究方法。從史實出發(fā),對希臘100多個城邦進行比較和研究。在對比中,探討國家的產(chǎn)生、發(fā)展及其功能。這一研究方法還接受19世紀(jì)中期孔德的實證社會學(xué)和在歐洲興起的實證法學(xué)的影響,強調(diào)以經(jīng)驗為根據(jù),著重從法律角度來研究國家、政府機關(guān)和司法機構(gòu)行使權(quán)力的問題。這一學(xué)派被稱為“法理主義”、“國家主義”,又因其把政治的研究偏重法律一端又被稱為“法律形式主義”。
傳統(tǒng)政治學(xué)理論的方法如歷史方法、法律方法和機構(gòu)方法,帶有濃烈的道德和哲學(xué)色彩。政治學(xué)要成為一門“科學(xué)”,必須拋棄這種方法,對政治現(xiàn)象做“系統(tǒng)的、經(jīng)驗的和因果的解釋”,以便使政治學(xué)能夠成為一門“經(jīng)驗科學(xué)”[2]。
20世紀(jì)初,資本主義全面向壟斷階段過渡。隨著各種非政府利益集團以及壟斷組織對現(xiàn)實政治過程影響日益加劇,而法理主義學(xué)派對政治學(xué)的研究方法,卻依舊停留在對法律體制的靜態(tài)描述上。當(dāng)時部分學(xué)者認(rèn)為,國家的法規(guī)和政策的制定權(quán),已經(jīng)不在政府機構(gòu)手中,而是掌握在非正式組織和立法機構(gòu)的一些非正式委員會手里。他們認(rèn)為,由于傳統(tǒng)學(xué)派只分析政治制度而忽略了對人的分析,無法反映現(xiàn)實政治過程。隨著阿瑟·本特利和戴維·杜魯門《政府的過程》*《政府的過程》(1908)一書被認(rèn)為是團體理論的代表著作。一書的出版,行為主義政治學(xué)*行為主義是指20世紀(jì)40年代末50年代初在美國崛起并逐漸占居主流的一個政治學(xué)流派,稱之為行為主義政治學(xué)派,或行為主義學(xué)派,它以拉斯韋爾、阿爾蒙德、達(dá)爾、尤勞等著名政治學(xué)家為代表。流派之一的集團理論登上歷史的舞臺。該書把非政府機構(gòu)的一些委員會和利益集團的政治行為作為政治分析的中心,通過過程分析和衡態(tài)分析方法進行分析,得出國家機構(gòu)的立法和政府的決策,是由于這些機構(gòu)彼此之間的相互斗爭、妥協(xié)平衡的結(jié)果。
二戰(zhàn)期間針對集團政治行為研究的方法逐漸從衡態(tài)方法轉(zhuǎn)向為多學(xué)科、協(xié)同式的研究方法,重點研究“權(quán)力”理論,這也是行為主義政治學(xué)方法論的早期發(fā)展階段。二戰(zhàn)之后,50~60年代,自然科學(xué)的迅猛發(fā)展以及計算機的出現(xiàn),為行為主義政治學(xué)方法論全面展開提供了可能。同時行為主義政治學(xué)家也竭力利用這一時期自然科學(xué)的研究新成就,全面系統(tǒng)地展開研究。
行為主義政治學(xué)的研究者們在理論和方法上取得了令人矚目的成就,主要有伊斯頓的政治系統(tǒng)論、阿爾蒙德的結(jié)構(gòu)功能主義、多伊奇的通信理論和西蒙的決策理論[3]。這些理論通過計算機輔助調(diào)查和基于統(tǒng)計學(xué)、數(shù)學(xué)、運籌學(xué)的定量分析,形成了嚴(yán)謹(jǐn)?shù)幕跀?shù)學(xué)公式的問題求解方法。這種定量分析的方法一直延用至今。
行為主義政治學(xué)方法,強調(diào)運用實證方法研究個體或團體的政治行為,主張政治學(xué)研究的“價值中立”*“價值中立”,是相對于價值判斷而言的。由于價值判斷是審美偏好和情感偏好的表達(dá),缺乏客觀性,所以“價值中立”這一原則的主旨在于要求科學(xué)家在從事的研究中應(yīng)當(dāng)保持客觀態(tài)度,不受個人主觀好惡或價值觀念的影響。,但隨著行為主義政治學(xué)派的終結(jié),逐漸被后行為主義政治學(xué)繼承和改造,并得以揚棄[4]。在“價值中立”這個問題上,一些西方學(xué)者認(rèn)為 “價值中立”觀,脫離了民主與自由,放棄了自己的社會責(zé)任,絕對的價值中立會阻礙政治學(xué)研究的發(fā)展。也正是基于這種新的認(rèn)識,政治研究者們提出在政治研究的過程中,應(yīng)當(dāng)高度關(guān)注人的價值,不能對社會矛盾和社會危機視而不見。就此,政治學(xué)研究進入了后行為主義時代。
如圖3所示,政治學(xué)研究的方法一直在發(fā)展與演變。針對互聯(lián)網(wǎng)時代,尤其是以大數(shù)據(jù)云計算為基礎(chǔ),社交媒體、電子商務(wù)、移動終端等新平臺,結(jié)構(gòu)與非結(jié)構(gòu)信息數(shù)據(jù)爆發(fā)的時代背景下,光靠傳統(tǒng)的統(tǒng)計定量分析方法去挖掘這些數(shù)據(jù)背后的政治問題已經(jīng)非常乏力。有必要結(jié)合計算機科學(xué)領(lǐng)域的自然語言處理、分布式計算、機器學(xué)習(xí)、數(shù)據(jù)挖掘等相關(guān)技術(shù),多學(xué)科、多角度地研究與分析。
研究政治科學(xué)的方法通常包括正式的理論構(gòu)建、敘事分析、定量分析和個案分析等[5]。其中定量分析的方法在20世紀(jì)的后半葉出現(xiàn)了一個研究的小高潮,并在21世紀(jì)演變成大數(shù)據(jù)的計算分析[6],且該趨勢得到了社會科學(xué)研究者的不斷肯定[7-8]。由于數(shù)據(jù)驅(qū)動下的計算社會科學(xué)具備收集并分析大規(guī)模數(shù)據(jù)的能力,因此,社會科學(xué)中的政治科學(xué)的研究范圍逐步從個體發(fā)展到群體及社會[7]。
馬薩諸塞大學(xué)阿姆赫斯特分校政治系給了計算政治科學(xué)[9]的定義: 計算政治科學(xué)不但包含了對網(wǎng)絡(luò)、傳感器、通信、電子媒體或電子數(shù)據(jù)庫等計算機生成數(shù)據(jù)的分析,而且使用計算形式及語言來描述和分析政治現(xiàn)象。主要計算研究方法包括社會網(wǎng)絡(luò)分析、文本分析,基于主題的建模,動態(tài)關(guān)系或集群模型,數(shù)據(jù)挖掘等。
目前政治科學(xué)的主要研究領(lǐng)域包括: 政治理論、公共政策、國際關(guān)系、比較政治。計算政治學(xué)也包括以上研究領(lǐng)域,但并不是簡單地使用計算機進行計算, 而是采用計算機科學(xué)和信息科學(xué)的技術(shù)手段分析研究政治科學(xué)。計算政治學(xué)同樣不同于基于統(tǒng)計的政治科學(xué)。由于基于統(tǒng)計方法只能對少量的數(shù)據(jù)進行處理和分析,其分析方法的精確性依賴于采樣的隨機性,如果采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠(yuǎn)。這就是為什么在大數(shù)據(jù)背景下,科學(xué)家們提倡利用所有的數(shù)據(jù),而不再僅僅依靠一小部分抽樣數(shù)據(jù)的原因[10]。
圖3 政治學(xué)研究方法的發(fā)展歷程
在計算政治學(xué)中,文本分析通常指計算機自動內(nèi)容分析或標(biāo)注,主要涉及詞分析[11-12]、分類聚類[13]、情感分析[14]、主題模型[15]等。政治科學(xué)和其他社會科學(xué)類似,主要研究人類的生存、競爭、合作、妥協(xié)以及社會中的交互,從而計算政治學(xué)也少不了對社交網(wǎng)絡(luò)的分析,其中主要利用圖論技術(shù)來分析并反映上所述各種關(guān)系。
目前,國外有很多學(xué)者和組織已經(jīng)展開了計算政治學(xué)的研究,主要涉及的方面包括在線政治博客挖掘[16]、人與人之間的社網(wǎng)分析(包括傳統(tǒng)的議會分析[17]、支持總統(tǒng)提名的網(wǎng)絡(luò)分析[18])、組與組間的社網(wǎng)分析(例如黨派,興趣組等[19])、互聯(lián)網(wǎng)對現(xiàn)實世界的影響及如何在互聯(lián)網(wǎng)上改進政治等[20]。Hindman等人發(fā)現(xiàn)了政治信息在互聯(lián)網(wǎng)上也可以被高度地關(guān)注,并且有一些鏈接會被多次引用[21],如一些關(guān)于某些政策的網(wǎng)站。在他的工作的基礎(chǔ)上,很多政治學(xué)家在電子政府文件上開展了大量的研究,如博弈論、數(shù)理邏輯等被視為計算機科學(xué)的子領(lǐng)域,也被很好地應(yīng)用到如選舉投票等方面[22]。還有一些學(xué)者利用云計算的特性探討了政治問題的產(chǎn)生[23]。
4.1 政治傾向性及政治觀點識別
對于某類政治事件,不同個人、不同群體、不同階層都有著不同的觀點及看法。如何從微博、博客等這些社交媒體的數(shù)據(jù)中,判斷個人的政治傾向,進而分析不同群體、不同階層的政治主張,如選民支持率與地域以及階層的關(guān)系、個人政治信息的刻畫等,都成為了國外學(xué)者主要研究的內(nèi)容。
Marchetti-Bowick[24]從微博中挖掘公眾的當(dāng)前情緒,進行政治預(yù)測,提出了一種Distant Superision方法來提高主題識別和情感分析的性能,并在一個關(guān)于奧巴馬演講的微博數(shù)據(jù)集上進行了驗證。Balasubramanyan從政治博客帖子中預(yù)測評論的極性,對于一個特定政治群體的成員,預(yù)測其對不同新聞消息的情感傾向性以及根據(jù)帖子的內(nèi)容預(yù)測評論的情感傾向性[25]。也有學(xué)者對Twitter用戶所發(fā)的內(nèi)容進行潛在語義分析,從用戶大量的Twitter數(shù)據(jù)中分析用戶的政治傾向[26]。Abbott分別使用了meta-post特征、上下文特征、依存特征和基于詞的特征、問答特征等多種特征來識別在線討論專欄中的政治觀點。結(jié)果表明,使用上下文特征和問答特征能取得68%的準(zhǔn)確率[27]。
在政治世界中,有很多人樂于不斷跟蹤觀察某個候選人,一些人甚至建議直接分析Twitter數(shù)據(jù)中對不同候選人的情感傾向性可以比傳統(tǒng)的投票結(jié)果更好,可見傾向性分析成為了計算政治學(xué)研究中的一個重要組成部分。值得一提的是Philip Resnik*Philip Resnik認(rèn)為計算政治學(xué)的興起得益于計算社會科學(xué),其主要在計算政治學(xué)領(lǐng)域中研究以下三個方面: 實時投票,計算模型在分析政治對話中的作用或效果,傾向性分析。,他沒有重點研究文本數(shù)據(jù)中情感傾向性的正反,而是將主要精力放在研究如何使用語言來對某一事件產(chǎn)生積極或者消極的影響,例如發(fā)現(xiàn)故意制造某些爭論的社會現(xiàn)象[28]等。
4.2 沖突觀點檢測
醫(yī)療、教育、住房等這些關(guān)乎民生的話題,在社交媒體中經(jīng)常會受到關(guān)注。對于某項政策的頒布或修改,不同的個人或者團體都有著各自的觀點與看法,不同的觀點在表達(dá)的同時,會有不同的響應(yīng)。有些觀點切中要害與部分人看法吻合,會被大量的轉(zhuǎn)發(fā)和支持;某些觀點違背了部分人的意愿,也會被大量的轉(zhuǎn)發(fā)與質(zhì)疑。對于某類政治事件,往往會有多方觀點共存,這些觀點有的互相補充,有的卻大相徑庭。針對這類問題的研究,包括沖突觀點的識別、檢測與分析,也成為了計算政治學(xué)主要研究的內(nèi)容。
在美國,政治論述越來越兩極化。兩極化導(dǎo)致對同樣的新聞事件,不同的政治團體有不同的反應(yīng)。針對這種不同反應(yīng)的研究,可以分析團體的性質(zhì)、政治主張等。對此許多學(xué)者做了相關(guān)的研究,Balasubramanyan提出了一個多目標(biāo)、半監(jiān)督潛變量模型——MCR-LDA[29]來模擬這個過程,通過分析不同政治組織的政治博客和評論來預(yù)測新聞話題引起的兩極化程度。Fang定義和提出了一種挖掘?qū)Ρ扔^點的模型,對于一個給定的主題和一系列多觀點評論,首先逐一分析各個觀點,然后量化各個觀點的不同,從而挖掘政治文本中的對立觀點[30]。
針對政治觀點的沖突檢測,研究者所采用的語料大多來自于微博、政論博客、社區(qū)論壇等。這些自由的言論幾乎都是非結(jié)構(gòu)化數(shù)據(jù),用以往的研究方式和傳統(tǒng)方法很難去定量的分析。于是諸多研究者們開始采用主題模型、文本分類聚類這些計算機文本分析的方法來解決相關(guān)問題。
4.3 選舉預(yù)測
淘寶可以推薦人們需要的商品,微博可以知道人們的興趣、愛好,騰訊QQ可以猜出人們認(rèn)識的人是誰,并準(zhǔn)確的將其分類。試想,如果人們擁有大量的電子病例檔案,是否可以提前預(yù)測疾病,以及推薦合適的治療措施?所以說大數(shù)據(jù)的核心就是預(yù)測[10]。通過以往的數(shù)據(jù)來預(yù)測即將發(fā)生的事情,這是多么美妙的一件事情。在計算政治學(xué)的研究中,選舉預(yù)測也毫無例外的成為了其研究的核心。
選舉預(yù)測多指通過分析社交媒體中關(guān)于大選的文本內(nèi)容,量化情感變量,刻畫情感走勢,進而預(yù)測大選結(jié)果。PLEAD*PLEAD是CIKM一個專門針對政治學(xué)的Workshop,其核心是分析在大選中互聯(lián)網(wǎng)上的大數(shù)據(jù)扮演著怎么樣的角色。該Workshop的宗旨是將涉及社會網(wǎng)絡(luò)分析的各個研究者集中在一起,解決計算社會科學(xué)和計算政治學(xué)中的問題。指出在2012年的美國大選中來自互聯(lián)網(wǎng)及移動終端的數(shù)據(jù)對選舉結(jié)果及預(yù)測方面起到了重要的作用。此外,也有一些其他方面的預(yù)測研究,如預(yù)測某些事件對于股票走勢的影響,預(yù)測哪些政論帖子會受到較高的關(guān)注,哪些會得到更多的評論[31-32],通過Twitter進行實時事件檢測[33],社會事件擴散的提前預(yù)警[34]等。
針對選舉的預(yù)測,國外有大量的學(xué)者從事相關(guān)的研究,并取得了一定的研究成果[35-37]。2012年美國總統(tǒng)大選時,Nate Silver計算出競選雙方并非處于旗鼓相當(dāng)?shù)木置?,成功預(yù)測奧巴馬將有90.9%機會獲得大多數(shù)選票,最后也成功預(yù)測了美國50個州的投票結(jié)果。事實上,2008年的總統(tǒng)大選他也預(yù)測對了最終結(jié)果,美國50個州的投票結(jié)果他預(yù)測對了49個,并于2008年大選之后出版《信號與雜音: 預(yù)測學(xué)的藝術(shù)與科學(xué)》一書。同樣做相關(guān)研究的斯坦福大學(xué)教授Simon Jackman*Simon Jackman現(xiàn)為斯坦福大學(xué)PSCL(Political Science Computational Laboratory)主任。主頁地址http://jackman.stanford.edu/pscl/開發(fā)了以貝葉斯統(tǒng)計理論為基礎(chǔ)的可用于計算政治學(xué)領(lǐng)域的R語言工具包。但并非所有的學(xué)者都支持和認(rèn)同這種選舉預(yù)測,Daniel Gayo-Avello[38]認(rèn)為大選預(yù)測不但有趣,而且很難!但是大多數(shù)的研究者傾向于表明正面的結(jié)果,卻不提供有效可再現(xiàn)的方法。Twitter預(yù)測大選的能力被過分夸大,許多研究難題依然存在。同時他還指出在利用Twitter數(shù)據(jù)預(yù)測大選時存在很多缺陷,如并沒有一個有效的Baseline,預(yù)測都是基于假設(shè)所有的Twitter數(shù)據(jù)都是有價值的等相關(guān)問題。
類似于互聯(lián)網(wǎng)改變了我們的生活習(xí)慣,大數(shù)據(jù)也將給政治學(xué)研究帶來新的方向。各方的爭論,不同思想的碰撞是必不可少的。但無論結(jié)果好壞,這將是一場思維的變革。
4.4 可視化研究
可視化是利用計算機圖形和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換成圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術(shù)。它涉及計算機圖形學(xué)、圖像處理、計算機視覺、計算機輔助設(shè)計等多個領(lǐng)域[39]。
政治學(xué)研究中的可視化,旨在幫助人們更加直觀地理解數(shù)據(jù),分析數(shù)據(jù)中的規(guī)律,總結(jié)政治現(xiàn)象。Philip Resnik在對實時投票的研究中,利用Analyzing Twitter工具,開發(fā)了React Lab系統(tǒng),該系統(tǒng)可以觀測在線政治爭論。當(dāng)事件發(fā)生時,用戶可通過手機等移動終端實時地討論事件,生成動態(tài)的反應(yīng),如圖4所示。
圖4 React Lab系統(tǒng)
也有學(xué)者通過數(shù)據(jù)挖掘分析出緊急沖突并對其進行可視化[40],用戶可通過系統(tǒng)進行反饋交互,獲得更好的效果。目前對于政治學(xué)領(lǐng)域的可視化研究,學(xué)者們并不需要研究可視化底層的知識,大多數(shù)都是根據(jù)自身研究的情況,依托于已經(jīng)成型的可視化系統(tǒng),更加友好、人性化、交互式地展現(xiàn)自己的研究成果。
目前,大數(shù)據(jù)思維已滲入并影響著諸多研究領(lǐng)域,多數(shù)學(xué)者通常采用4V(Volume、Variety、Velocity、Value) ,即數(shù)據(jù)體量大、數(shù)據(jù)類型多、處理速度快和價值密度低,來概括大數(shù)據(jù)的特征,并以此為基礎(chǔ)在各自領(lǐng)域開展相應(yīng)的研究工作。然而在社會科學(xué)的諸多領(lǐng)域中,受限于數(shù)據(jù)的規(guī)?;蚣夹g(shù)手段,許多研究工作仍步履維艱,其存在的共性難題主要為以下兩點: 一方面是面對海量數(shù)據(jù),缺乏高效的處理方式;另一方面則是數(shù)據(jù)不足或缺失時,收集領(lǐng)域相關(guān)數(shù)據(jù)代價巨大或無法獲取必要的數(shù)據(jù)資源。
大數(shù)據(jù)時代下的海量數(shù)據(jù)資源,再次點燃了社會科學(xué)研究者們的研究熱情,讓他們看到了收集和處理相關(guān)信息的希望。面對多元異構(gòu)的數(shù)據(jù)源,尤其是社交媒體、網(wǎng)絡(luò)博客、垂直型論壇和問答社區(qū)的出現(xiàn),使得用戶可以更加自由地在這些平臺上表達(dá)自己的觀點,而這些觀點也更加貼近民眾的訴求。通過主動挖掘社交媒體等數(shù)據(jù)源中隱含的知識及模式,可以更為全面、實時、便捷地了解用戶的政治傾向等信息,相比于以往的問卷調(diào)查等被動收集數(shù)據(jù)的方式,前者無疑給政治學(xué)研究者們帶來了更廣闊的研究空間,且諸多的機遇也蘊含其中。
與此同時,海量的數(shù)據(jù)標(biāo)簽及連通的數(shù)據(jù)網(wǎng)絡(luò)(如地理位置、用戶自然信息、偏好、人際圈等),也極大地豐富了政治學(xué)研究的內(nèi)容,拓展了他們的研究視野。分布式存儲及并行計算能力的不斷提高,也降低了大數(shù)據(jù)的計算和分析大數(shù)據(jù)的成本,成為解剖大數(shù)據(jù)的一大利器。情感分析、文本挖掘、自然語言處理、機器學(xué)習(xí)以及信息檢索等[41-42]方法的不斷發(fā)展,更是為其提供了一套完整的收集、整理、分析、整合知識的方法體系,點亮了計算政治學(xué)研究的前路。
面對指數(shù)式增長的數(shù)據(jù),研究者對處理和分析數(shù)據(jù)的能力提出了更高的要求。如何合理且高效地運用如自然語言處理、數(shù)據(jù)挖掘以及機器學(xué)習(xí)等在內(nèi)的相關(guān)技術(shù)?如何將思辨分析的模式與這些技術(shù)更好地融合,是政治學(xué)研究者必須要面對的挑戰(zhàn)。同時,日常生活中密不可分的智能移動終端,五花八門的社交應(yīng)用,也使得大數(shù)據(jù)的分析成為了一把“雙刃劍”,竊密事件的層出不窮,絕對的隱私與我們漸行漸遠(yuǎn)。因此,如何在大數(shù)據(jù)時代的研究中保護個人隱私,并規(guī)范相應(yīng)的制度,引入必要的道德標(biāo)準(zhǔn),也是政治學(xué)研究者們必須要解答的難題。綜上所述,大數(shù)據(jù)時代下的計算政治學(xué)研究路途雖坎坷,但前途仍光明。
在計算政治學(xué)的研究中總是離不開對信息的分析和處理。信息一般分為兩類: 一類是個人信息,另一類是事件信息。個人信息不但包括了個體的自然屬性(名稱、性別、出生日期、職務(wù)、特長、愛好等),也包括了個體的社會關(guān)系(關(guān)系人、關(guān)系類型、稱呼、關(guān)系強度),通過這些數(shù)據(jù)構(gòu)建的數(shù)據(jù)畫像,能夠反映人作為一個獨立個體和社會成員的全面特征。從個人信息出發(fā),進一步探究人與人的各種關(guān)系鏈條,并逐步擴展成為關(guān)系網(wǎng)絡(luò),發(fā)現(xiàn)特殊群體及奇異個體等重要信息,進而實現(xiàn)從點到面地挖掘不同組織、團體、黨派之間的競爭與合作。
事件信息是另一類研究重點,主要包括各類的政治話題、政治活動等。這類信息在社交網(wǎng)絡(luò)的傳播狀態(tài)大相徑庭,有的經(jīng)久不衰,時常見到,如國際沖突、恐怖主義等;有的卻如霎那煙花,曇花一現(xiàn),但仍迸發(fā)出巨大的能量,激起社會情緒的一時波瀾。對于這類信息的傳播過程,我們不但應(yīng)考量影響信息本身傳播的因素,也應(yīng)計算并挖掘出哪些個人、團體或黨派在傳播過程中起到了至關(guān)重要的作用。
在大數(shù)據(jù)時代,對于政治學(xué)的研究應(yīng)該是多維度的,和諸多社會科學(xué)一樣,其也會發(fā)生潛在的變化并與時俱進地發(fā)展。為促進國內(nèi)政治學(xué)研究方法的進一步深入并實現(xiàn)與大數(shù)據(jù)時代的接軌,本文在對傳統(tǒng)政治學(xué)研究方法進行簡要綜述的基礎(chǔ)上,重點介紹了近年來國外學(xué)者對于計算政治學(xué)領(lǐng)域的研究,為廣大的政治學(xué)研究者提供借鑒與參照,希望對政治學(xué)研究,尤其是計算政治學(xué)方面工作的開展有所幫助。
[1] 楊光斌.政治學(xué)導(dǎo)論[M].北京: 中國人民大學(xué)出版社,2011.
[2] 王滬寧.西方政治學(xué)行為主義學(xué)派述評[J].復(fù)旦學(xué)報(社會科學(xué)版),1985,(2): 93-98.
[3] 謝宗范.西方政治學(xué)研究方法的邏輯發(fā)展[J].上海社會科學(xué)院學(xué)術(shù)季刊,1988,(4): 104-106.
[4] 葉娟麗.行為主義政治學(xué)方法論研究論綱[J].武漢大學(xué)學(xué)報(社會科學(xué)版),2002,55(5): 594-599.
[5] Political science[EB/OL].http://en.wikipedia.org/wiki/Political science.2014.
[6] Watts D J. A twenty-first century science[J]. Nature, 2007, 445(7127): 489-489.
[7] Lazer D, Pentland A S, Adamic L, et al. Life in the network: the coming age of computational social science[J]. Science (New York, NY), 2009, 323(5915): 721.
[8] Butz W P, Torrey B B. Some frontiers in social science[J]. Science, 2006, 312(5782): 1898-1900.
[9] Leilei Zhu. Computational Political Science Literature Survey[EB/OL]. http://www.personal.psu.edu/luz113/, 2010.
[10] 維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.盛楊燕,周濤,譯.大數(shù)據(jù)時代[M].杭州: 浙江人民出版社,2013.
[11] Slapin J B, Proksch S O. A scaling model for estimating time-series party positions from texts[J]. American Journal of Political Science, 2008, 52(3): 705-722.
[12] Monroe B L, Colaresi M P, Quinn K M. Fightin′words: Lexical feature selection and evaluation for identifying the content of political conflict[J]. Political Analysis, 2008, 16(4): 372-403.
[13] Purpura S, Hillard D. Automated classification of congressional legislation[C]//Proceedings of the 2006 international conference on Digital government research. Digital Government Society of North America, 2006: 219-225.
[14] Thomas M, Pang B, Lee L. Get out the vote: Determining support or opposition from Congressional floor-debate transcripts[C]//Proceedings of the 2006 conference on empirical methods in natural language processing. Association for Computational Linguistics, 2006: 327-335.
[15] Quinn K M, Monroe B L, Colaresi M, et al. How to analyze political attention with minimal assumptions and costs[J]. American Journal of Political Science, 2010, 54(1): 209-228.
[16] Adamic L A, Glance N. The political blogosphere and the 2004 US election: divided they blog[C]//Proceedings of the 3rd international workshop on Link discovery. ACM, 2005: 36-43.
[17] Fowler J H. Connecting the Congress: A study of cosponsorship networks[J]. Political Analysis, 2006, 14(4): 456-487.
[18] Hans Noel. “A Social Networks Analysis of Internal Party Cleavages in Presidential Nominations, 1972-2008”.[EB]/[OL]. 2009.Available at:http://works.bepress.com/hans_noel/9/.
[19] Koger G, Masket S, Noel H. Partisan webs: information exchange and party networks[J]. British Journal of Political Science, 2009, 39(03): 633-653.
[20] Han J, Kim Y. Obama Tweeting and Twitted: sotomayor’s nomination and health care reform[C]//Processings of the APSA 2009 Toronto Meeting Paper. 2009.
[21] Hindman M, Tsioutsiouliklis K, Johnson J A. Googlearchy: how a few heavily-linked sites dominate politics on the web[C]//Processings of the annual meeting of the Midwest Political Science Association. 2003, (4): 1-33.
[22] Jakulin A, Buntine W, et al. Analyzing the US Senate in 2003: Similarities, networks, clusters and blocs[J]. Political Analysis 2009, 17(3):291-310.
[23] Jaeger P T, Lin J, Grimes J M. Cloud computing and information policy: Computing in a policy cloud?[J]. Journal of Information Technology & Politics, 2008, 5(3): 269-283.
[24] Marchett Bowick M, Chambers N. Learning for microblogs with distant supervision: Political forecasting with twitter[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2012: 603-612.
[25] Balasubramanyan R, Cohen W W, Pierce D, et al. What pushes their buttons?: predicting comment polarity from the content of political blog posts[C]//Proceedings of the Workshop on Languages in Social Media. Association for Computational Linguistics, 2011: 12-19.
[26] Conover M D, Gon?alves B, Ratkiewicz J, et al. Predicting the political alignment of twitter users[C]//Processings of the ieee third international conference on and 2011 ieee third international conference on social computing (socialcom). IEEE, 2011: 192-199.
[27] Abbott R, Walker M, Anand P, et al. How can you say such things?!?: Recognizing disagreement in informal political argument[C]//Proceedings of the Workshop on Languages in Social Media. Association for Computational Linguistics, 2011: 2-11.
[28] Greene S, Resnik P. More than Words: Syntactic Packaging and Implicit Sentiment[C]//Proceedings of Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics, Boulder, Colorado, USA. DBLP, 2009: 503-511.
[29] Balasubramanyan R, Cohen W W, Pierce D, et al. Modeling polarizing topics: when do different political communities respond differently to the same news?[C]//Processings of the ICWSM. 2012.
[30] Fang Y, Si L, Somasundaram N, et al. Mining contrastive opinions on political texts using cross-perspective topic model[C]//Proceedings of the fifth ACM international conference on Web search and data mining. ACM, 2012: 63-72.
[31] Yano T, Smith N A. What’s Worthy of Comment? Content and Comment Volume in Political Blogs[C]//Processings of the ICWSM. 2010.
[32] Yano T, Cohen W W, Smith N A. Predicting response to political blog posts with topic models[C]//Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2009: 477-485.
[33] Sakaki T, Okazaki M, Matsuo Y. Earthquake shakes Twitter users: real-time event detection by social sensors[C]//Proceedings of the 19th international conference on World wide web. ACM, 2010: 851-860.
[34] Colbaugh R, Glass K. Early warning analysis for social diffusion events[J]. Security Informatics, 2012, 1(1): 1-26.
[35] Bermingham A, Smeaton A F. On Using Twitter to Monitor Political Sentiment and Predict Election Results[C]//Proceedings of the Workshop on Sentiment Analysis where AI meets Psychology (SAAIP). IJCNLP, 2011.
[36] Tumasjan A, Sprenger T O, Sandner P G, et al. Predicting Elections with Twitter: What 140 Characters Reveal about Political Sentiment[J]. ICWSM, 2010, 10: 178-185.
[37] Skoric M, Poor N, Achananuparp P, et al. Tweets and votes: A study of the 2011 singapore general election[C]//Processings of the 2012 45th Hawaii International Conference on. IEEE, 2012: 2583-2591.
[38] Gayo-Avello D. “I Wanted to Predict Elections with Twitter and all I got was this Lousy Paper”--A Balanced Survey on Election Prediction using Twitter Data[J]. arXiv preprint arXiv: 1204.6441, 2012.
[39] 可視化. [EB]/[OL]. http://baike.baidu.com/view/69230.htm. 2014
[40] Johansson F, Brynielsson J, Horling P, et al. Detecting emergent conflicts through web mining and visualization[C]//Processings of the Intelligence and Security Informatics Conference (EISIC), 2011 European. IEEE, 2011: 346-353.
[41] 楊亮,林鴻飛,基于情感分布的微博熱點事件發(fā)現(xiàn),中文信息學(xué)報[J],2012,26(1): 84-90.
[42] 魏現(xiàn)輝,張紹武,楊亮,林鴻飛.基于加權(quán)SimRank 的跨領(lǐng)域文本傾向性分析[J].模式識別與人工智能, 2013,26(11): 1004-1009.
ComputationalPoliticalScienceintheEraofBigData
YANG Yang1,2, LIN Hongfei1, YANG Liang1, REN Juwei1
(1. Information Retrieval Laboratory, Dalian University of Technology, Dalian, Liaoning 116023, China;2. WISE Laboratory, Dalian University of Technology, Dalian, Liaoning 116023, China)
The study of politics has been a hot research spot in the field of social science, such as political theory, comparative politics, public policy, and international politics. From the moral philosophy and legal theory in the traditional politics, to the scientific methodology and quantitative analysis in behavioristic politics, further to the involvement of natural science researchers, the research methods in politics have been developing and evolving. After a brief summary of previous methods in political science research, this paper discusses the origin, definition and development of computational political science at the age of the Internet, especially in the era of big data. It reviews the progress of political orientation, opinion recognition, conflict point detection, election prediction and political analysis visualization.
computational political science;computational social science;big data;research methodology
楊陽(1989—),博士研究生,主要研究領(lǐng)域為專利挖掘、情感計算、科技管理等。
林鴻飛(1962—),博士,教授,博士生導(dǎo)師,主要研究領(lǐng)域為自然語言處理、情感分析與觀點挖掘、信息檢索與信息推薦、社會計算與輿情分析、面向生物醫(yī)學(xué)領(lǐng)域的文本挖掘等。
楊亮(1986—),博士,講師,主要研究領(lǐng)域為情感計算、文本挖掘、自然語言處理等。
1003-0077(2017)03-0009-08
2015-04-07定稿日期: 2016-01-09
國家自然科學(xué)基金(60673039,60973068);國家高技術(shù)研究發(fā)展計劃(863計劃)(2006AA01Z151)
TP391
: A