王惟晉
[內(nèi)容提要] 文本是國際關(guān)系研究必不可少的資料形式。為了更方便地管理和分析文本,西方國際關(guān)系學(xué)界越來越多地將文本內(nèi)容轉(zhuǎn)化為數(shù)據(jù)并整合成庫。信息技術(shù)的發(fā)展使機器逐步代替研究者進(jìn)行文本數(shù)據(jù)的搜集、編碼和分析,對基于文本開展的國際關(guān)系研究貢獻(xiàn)良多。然而,數(shù)據(jù)本質(zhì)上是意義單一的符號,數(shù)據(jù)化的過程會排除話語的背景信息和深刻內(nèi)涵,若研究者以不適當(dāng)?shù)姆绞教幚頂?shù)據(jù)化文本資料,則研究結(jié)論的可靠性就會大打折扣。對此,國際關(guān)系研究者應(yīng)加強發(fā)展后實證主義方法,確保研究的內(nèi)在邏輯性,重視通過人際交流檢驗結(jié)論,以克服數(shù)據(jù)化文本資料的局限性。
國際關(guān)系研究者常常借助媒體報道、歷史檔案、政府報告、學(xué)術(shù)文獻(xiàn)等文字材料觀察和研究國家間的現(xiàn)象和行為。但是,研究者搜集的原始文本資料內(nèi)容通常龐雜無序,這讓研究者很難找到問題中的關(guān)鍵因子,*蔣建忠:“模糊集合、質(zhì)性比較與國關(guān)研究”,《國際政治科學(xué)》,2016年第2期,第148頁。無法進(jìn)行有效的分析操作。對此,許多國際關(guān)系研究者將搜集到的文本資料進(jìn)行數(shù)據(jù)化處理,建立了大量數(shù)據(jù)庫,實時記錄和分析國際事件等。由于存在重視實證主義與定量研究方法的學(xué)術(shù)傳統(tǒng),美國學(xué)界在國際關(guān)系研究文本的數(shù)據(jù)化方面可謂世界的領(lǐng)導(dǎo)者,擁有世界上大部分的著名數(shù)據(jù)庫;單就公眾輿論數(shù)據(jù)庫而言,美國校際政治及社會研究聯(lián)盟(Inter-University Consortium for Political and Social Research)在2011年前后便已收錄1889個,當(dāng)中包含500多萬組變量,規(guī)模遠(yuǎn)超其他國家。*ICPSR, “Find & Analyze Data”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/(上網(wǎng)時間:2018年3月2日);郭銳、王蕭軻:“國際關(guān)系定量研究與數(shù)據(jù)庫建設(shè)——評《中外關(guān)系鑒覽1950-2005——中國與大國關(guān)系定量衡量》”,《世界經(jīng)濟與政治》,2011年第7期,第133頁;劉豐、陳沖:“國際關(guān)系研究的定量數(shù)據(jù)庫及其應(yīng)用”,《世界經(jīng)濟與政治》,2011年第5期,第38~39頁。美國還是先行者,最早在國際關(guān)系研究領(lǐng)域開展和應(yīng)用文本資料數(shù)據(jù)化,還及時將大數(shù)據(jù)技術(shù)引入至數(shù)據(jù)庫建設(shè)中,現(xiàn)已建立了相對成熟的國際關(guān)系大數(shù)據(jù)分析系統(tǒng)。歐洲的學(xué)術(shù)傳統(tǒng)則更注重抽象思辨,更多學(xué)者以詮釋學(xué)的路徑開展研究,因此對數(shù)據(jù)化的文本資料采取了更謹(jǐn)慎的態(tài)度,所建此類數(shù)據(jù)庫數(shù)量上比美國少,*比如,在國際關(guān)系數(shù)據(jù)庫建設(shè)相對發(fā)達(dá)的北歐,著名的“斯德哥爾摩和平研究所數(shù)據(jù)庫”(SIPRI Database)、“烏普薩拉沖突數(shù)據(jù)項目”(Uppsala Conflict Data Program)和奧斯陸和平研究所的“武裝沖突數(shù)據(jù)”(Armed Conflict Dataset)提供的是戰(zhàn)爭傷亡、軍費開支、武器交易等客觀數(shù)據(jù),還沒有提供從話語文本轉(zhuǎn)化而來的數(shù)據(jù)。但也取得了不少成果,近年亦有學(xué)術(shù)團隊正以大數(shù)據(jù)技術(shù)建設(shè)國際關(guān)系數(shù)據(jù)庫。許多中國國際關(guān)系學(xué)者認(rèn)為,這是大勢所趨并將在技術(shù)層面引起分析手段和決策模式的革命。*蔡翠紅:“國際關(guān)系中的大數(shù)據(jù)變革及其挑戰(zhàn)”,《世界經(jīng)濟與政治》,2014年第5期,第124~143頁;董青嶺:“大數(shù)據(jù)外交:一場即將到來的外交革命?”《歐洲研究》,2015年第2期,第130~144頁;董青嶺:“反思國際關(guān)系研究中的大數(shù)據(jù)應(yīng)用”,《探索與爭鳴》,2016年第7期, 第92頁。然而,在信息科學(xué)領(lǐng)域,學(xué)者們一致認(rèn)為,文本數(shù)據(jù)即便質(zhì)量再好,歸根到底也無法表達(dá)話語中的隱晦含義。*Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.167.這種含義能體現(xiàn)國際行為體的價值觀、規(guī)范和身份認(rèn)同,因此,經(jīng)過數(shù)據(jù)化處理的文本資料可對國際關(guān)系研究產(chǎn)生潛在影響。換言之,文本信息數(shù)據(jù)化對于國際關(guān)系研究的影響不但在于數(shù)據(jù)分析技術(shù)層面,還可源自文本內(nèi)容本質(zhì)。但是,目前,從數(shù)據(jù)本質(zhì)的角度對文本信息數(shù)據(jù)化的影響進(jìn)行的思考尚有不足,這導(dǎo)致學(xué)界對于國際關(guān)系研究數(shù)據(jù)化的認(rèn)識還有很大空間。本文擬對此做出進(jìn)一步探討,以期更好地認(rèn)識數(shù)據(jù)的本質(zhì)和文本資料數(shù)據(jù)化對國際關(guān)系研究的影響,進(jìn)而使國際關(guān)系的文本數(shù)據(jù)處理能夠更好地服務(wù)于學(xué)術(shù)研究與國家決策。
數(shù)據(jù)是人類觀察自然和社會后用于表達(dá)事物、時間、地點等信息的標(biāo)記或符號,其內(nèi)容意義被抽離于具體的歷史社會環(huán)境。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2. 2007, p.170; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationships”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-62.數(shù)據(jù)化是將研究材料編碼整理成為可用于操作分析的符號之過程,也是人們將自己無形的主觀理解轉(zhuǎn)化為有形的客觀事實之過程。研究者分析數(shù)據(jù)的目的是創(chuàng)造信息、知識和智慧。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Chun Wei Choo,“The Knowing Organization: How Organizations Use Information to Construct Meaning, Create Knowledge and Make Decisions”, International Journal of Information Management, Vol.16, No.5, 1996, pp.329-340; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.166; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50.
為了更好地分析國際社會的現(xiàn)象和行為,西方國際關(guān)系研究者很早便搜集和編碼新聞報道、歷史檔案、政府文件等文本資料,將文本內(nèi)容轉(zhuǎn)化成數(shù)據(jù)并整合成庫。自20世紀(jì)60年代至今,國際關(guān)系文本資料數(shù)據(jù)庫的建設(shè)從開始興起到加速發(fā)展,*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.呈現(xiàn)出三個突出特點。
第一個特點是自動化數(shù)據(jù)挖掘。在20世紀(jì)90年代前,文本資料的收集和編碼均由人工處理。比如在美國,查爾斯·麥克蘭德(Charles McClelland)于1966年創(chuàng)立“世界事件互動調(diào)查數(shù)據(jù)庫”(World Event Interaction Survey)時,其研究團隊成員自行搜集《紐約時報》的報道,閱讀報道內(nèi)容,用紙、筆將相關(guān)內(nèi)容轉(zhuǎn)化成各種變量,再將變量整合為數(shù)據(jù)集、組合成庫。*Charles McClelland, World Event/Interaction Survey, 1966-1978, Ann Arbor: Inter-University Consortium for Political and Social Research, 1999, pp.2-3; Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.類似的著名數(shù)據(jù)庫還有大衛(wèi)·辛格(David Singer)于1963年建立的“戰(zhàn)爭相關(guān)指數(shù)數(shù)據(jù)庫”(the Behavioral Correlates of War);愛德華·阿扎爾(Edward Azar)主持的“沖突與和平數(shù)據(jù)庫”(The Conflict and Peace Data Bank)項目。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, pp.146-150.在歐洲,歐共體于1974年建立“歐洲晴雨表”(Eurobarometer),將研究者通過訪談民眾得來的文本資料轉(zhuǎn)化成為量化數(shù)據(jù),以便監(jiān)測與研究輿情的變化。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網(wǎng)時間:2018年3月2日)。由于收集與編碼文本均依賴人力,這些數(shù)據(jù)庫建設(shè)效率相對低下,比如“戰(zhàn)爭相關(guān)指數(shù)數(shù)據(jù)庫”中的數(shù)據(jù)集經(jīng)歷數(shù)年才更新一次,*劉豐、陳沖:“國際關(guān)系研究的定量數(shù)據(jù)庫及其應(yīng)用”,《世界經(jīng)濟與政治》,2011年第5期,第23頁。這讓數(shù)據(jù)庫無法緊貼時勢發(fā)展,影響學(xué)術(shù)價值。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.119; Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.20世紀(jì)90年代起,西方國際關(guān)系學(xué)者編寫程序?qū)ξ谋举Y料進(jìn)行編碼,*Min Chen, Shiwen Mao and Yunhao Liu, “Big Data: A Survey”, Mobile Networks and Applications, Vol.19, No.2, 2014, pp.171-209.建庫效率大幅提升。在這個時期,此類有影響力的數(shù)據(jù)庫集中在美國。典型的例子有德博拉·格爾納(Deborah Gerner)主持開發(fā)的”堪薩斯事件數(shù)據(jù)系統(tǒng)”(Kansas Events Data System),*Deborah Gerner, Philip Schrodt, Ronald Francisco and Judith Weddle, “Machine Coding of Event Data Using Regional and International Sources”, International Studies Quarterly, Vol.38, No.1, 1994, pp.91-119; Philip Schrodt, “Event Data in Foreign Policy Analysis”, in Laura Neack, Patrick Haney and Jeanne Hey, eds., Foreign Policy Analysis: Continuity and Change in Its Second Generation, New York: Prentice Hall, 1993, pp.145-165.加里·京格(Gary King)與威爾·洛維(Will Lowe)構(gòu)建的“事件分析綜合數(shù)據(jù)”(the Integrated Data for Events Analysis),*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.約翰·戴維斯(John Davies)開發(fā)的“全球事件數(shù)據(jù)系統(tǒng)”(The Global Event-Data System),*John Davies and Chad McDaniel, “A New Generation of International Event-data,” International Interactions, Vol.20, No.1-2, 1994, pp.55-78.肖恩·奧布萊恩(Sean O’Brien)開發(fā)的“整合性沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System)等等。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, p.94.但是,這些數(shù)據(jù)庫只在文本編碼層面實現(xiàn)了自動化,研究者仍須自行搜集文本資料、錄入程序中加以編碼,*Gary King and Will Lowe, “ An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design,” International Organization, Vol.53, No.3, 2003, pp.618-619; Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, pp.90-91; Rebecca Best, Christine Carpino and Mark Crescenzi, “An Analysis of the TABARI Coding System”, Conflict Management and Peace Science, Vol.30, No.4, 2013, p.336.依然難以做到根據(jù)形勢實時更新數(shù)據(jù),令數(shù)據(jù)庫的學(xué)術(shù)價值同樣受限。
2010年后,大數(shù)據(jù)技術(shù)深刻地影響國際關(guān)系文本資料的數(shù)據(jù)化進(jìn)程。此時計算機已能代替研究者自行收集文本,以每天甚至每小時的頻率對文本編碼并更新數(shù)據(jù)庫。在美國國際關(guān)系學(xué)界,卡里夫·利塔魯(Kalev Leetaru)與菲利普·施羅德(Philip Schrodt)于2013年建立的“全球事件話語數(shù)據(jù)庫”(the Global Database of Event Language and Tone)正以每日更新約70億字節(jié)的速度自動記錄1979年1月1日迄今全球媒體報道國內(nèi)和國際層面發(fā)生的事件。*The GDELT Project, “Google Big Query”, https://www.gdeltproject.org.(上網(wǎng)時間:2018年2月15日).基于Python語言構(gòu)建的“鳳凰實時事件數(shù)據(jù)集”(Pheonix Near-Real-Time Event Dataset)則能每小時自動從400多個網(wǎng)站上搜集文本資料并對其編碼。*John Beieler, ”Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網(wǎng)時間:2018年2月20日).在歐洲,荷蘭萊頓大學(xué)的“和平情報實驗室”(Peace Informatics Lab)下屬“未來基地”(Future Base)計劃開發(fā)新的軟件自動搜集、整合和分析全球的文本資料數(shù)據(jù),以幫助國家安全部門制定最佳的防務(wù)政策。*Peace Informatics Lab, “FutureBase”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).由于文本收集和編碼均實現(xiàn)自動化,新的國際關(guān)系文本數(shù)據(jù)庫大幅提升了數(shù)據(jù)生產(chǎn)效率,使數(shù)據(jù)庫建設(shè)可緊貼國際形勢的變化。
第二個特點是大數(shù)據(jù)體量動態(tài)增長。1990年前,國際關(guān)系文本資料數(shù)據(jù)庫體量主要以百萬字節(jié)(MB)為單位。20世紀(jì)60年代建立的“世界事件互動調(diào)查數(shù)據(jù)庫”數(shù)據(jù)集的大小只有30多MB。*ICPSR,“World Event/Interaction Survey (WEIS) Project, 1966-1978 (ICPSR 5211)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/5211.(上網(wǎng)時間:2018年2月15日).“沖突與和平數(shù)據(jù)庫”項目在20世紀(jì)60年代中期至1978年的數(shù)據(jù)體量也是30多MB。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, p.150.同時期建立的“戰(zhàn)爭相關(guān)指數(shù)項目數(shù)據(jù)庫”記錄1816~1979年戰(zhàn)爭變量的單個數(shù)據(jù)總量不過2MB。*ICPSR,“Behavioral Correlates of War, 1816-1979 (ICPSR 8606)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/8606#.(上網(wǎng)時間:2018年2月15日).這些數(shù)據(jù)庫的體量增長依靠研究者手工勞動補充數(shù)據(jù)集,受制于經(jīng)費或人事變動等現(xiàn)實因素,數(shù)據(jù)增長進(jìn)程容易遭遇干擾或中斷而缺乏持續(xù)性,所以研究者無法以接近實時的方式更新數(shù)據(jù),數(shù)據(jù)庫的體量增長往往有限而且容易窮盡。
20世紀(jì)90年代國際關(guān)系文本資料編碼實現(xiàn)自動化后,數(shù)據(jù)庫的體量依然不大。由于研究的文本資料來源主要依賴《紐約時報》、路透社等權(quán)威媒體,*Patrick Brandt, John Freeman and Philip Schrodt, “Real Time, Time Series Forecasting of Inter- and Intra-State Political Conflict”, Conflict Management and Peace Science, Vol.28, No.2, 2011, p.47.當(dāng)時數(shù)據(jù)庫體量增加幅度有限。菲利普·施羅德通過“堪薩斯事件數(shù)據(jù)系統(tǒng)”構(gòu)建的一個數(shù)據(jù)集體量只有幾百KB(千字節(jié))左右。*John Reuters, “A New Generation of International Event-Data”, International Interactions, Vol.20, No.1-2, p.55.“整合性沖突早期預(yù)警系統(tǒng)”一年更新的數(shù)據(jù)量約為200MB。*Harvard University, “Dataverse”, https://dataverse.harvard.edu/file.xhtml?fileId=3107463&version=RELEASED&version=.0. (上網(wǎng)時間:2018年2月18日).
大數(shù)據(jù)技術(shù)應(yīng)用后,國際關(guān)系數(shù)據(jù)庫的文本來源不再局限于權(quán)威媒體,而是借助現(xiàn)代信息技術(shù)有了大幅拓寬,人們在社交網(wǎng)絡(luò)上發(fā)布的內(nèi)容亦可成為分析對象。*Kenneth Cukier and Viktor Mayer-Sch?nberger, “The Rise of Big Data: How It’s Changing the Way We Think About the World”, Foreign Affairs, Vol.92, 2013, p.21; Amir Gandomi and Murtaza Haider, “Beyond the Hype: Big Data Concepts, Methods, and Analytics”, International Journal of Information Management, Vol.35, No.2, 2015, pp.137.加上云儲存技術(shù)的不斷發(fā)展為大體量數(shù)據(jù)的管理和分享創(chuàng)造了空間,2010年后,國際關(guān)系文本資料的數(shù)據(jù)庫體量呈現(xiàn)指數(shù)級別增長,從過往的千字節(jié)級別發(fā)展至萬億字節(jié)(TB)甚至千萬億字節(jié)(PB)級別。由于實現(xiàn)了機器自動收集和編碼文本,數(shù)據(jù)庫體量可自動增加,若研究者能妥善經(jīng)營,數(shù)據(jù)庫的體量并不會窮盡。在美國,“鳳凰實時事件數(shù)據(jù)集”平均每天能自動記錄全球約3000項事件。*John Beieler, “Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網(wǎng)時間:2018年2月20日).而“全球事件話語數(shù)據(jù)庫”一年的數(shù)據(jù)體量便超過2.5TB,其間記錄超過7500億條人們對國際事件的態(tài)度和15億條國際事件發(fā)生的位置數(shù)據(jù)。*The GDELT Project, “Intro”, https://www.gdeltproject.org. (上網(wǎng)時間:2018年2月15日).在歐洲,國際關(guān)系學(xué)界應(yīng)用大數(shù)據(jù)不如美國早和快,但也在不斷進(jìn)展。比如“和平情報實驗室”項目計劃在2018~2023年間建成大數(shù)據(jù)平臺的數(shù)據(jù)體量也能自動實現(xiàn)增長,及時為公共及私營部門提供決策建議依據(jù)。*Peace Informatics Lab, “Data Pool”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).
第三個特點是機器代替人成為數(shù)據(jù)分析的主體。過去的電腦只擅長處理重復(fù)、規(guī)律的計算工作,并沒有解讀數(shù)據(jù)意義的能力,即便20世紀(jì)90年后機器代替研究者對文本進(jìn)行編碼,計算機仍無法取代研究者進(jìn)行數(shù)據(jù)分析,只能作為研究者的分析工具。在大數(shù)據(jù)技術(shù)和理念進(jìn)入國際關(guān)系研究領(lǐng)域后,數(shù)據(jù)分析須實時進(jìn)行,而人單憑自身有限的時間和精力難以適應(yīng)。隨著人工智能技術(shù)特別是自然語言處理技術(shù)的發(fā)展,機器具備了從持續(xù)的數(shù)據(jù)歸納總結(jié)中學(xué)習(xí)的能力,這使計算機分析技術(shù)不再局限于從數(shù)學(xué)模型和公式中推導(dǎo)出結(jié)果,電腦對于文字的處理不再拘泥于句法和語義規(guī)則的理性分析,而是更多通過機器學(xué)習(xí)的方法,逐漸提升解讀文本中意義的能力。*馮志偉:“自然語言處理的歷史和現(xiàn)狀”,《中國外語》,2008年第1期,第21~22頁。
由于有了結(jié)合環(huán)境解讀文本意義的能力,計算機能從無結(jié)構(gòu)的文本內(nèi)容中辨別說話者的行為模式,當(dāng)下的機器由此具備了一定的沖突預(yù)測能力。*董青嶺:“機器學(xué)習(xí)與沖突預(yù)測——國際關(guān)系研究的一個跨學(xué)科視角”,《世界經(jīng)濟與政治》,2017年第7期,第100-105頁?,F(xiàn)今許多國際關(guān)系數(shù)據(jù)庫不但可提供數(shù)據(jù)挖掘服務(wù),還可幫助研究者進(jìn)行數(shù)據(jù)分析。在美國,基于“堪薩斯事件數(shù)據(jù)系統(tǒng)”發(fā)展而成“帕盧斯分析系統(tǒng)”(Parus Analytical System)能自動分析和預(yù)測國際沖突。由于機器分析能節(jié)省大量人力物力,開發(fā)者彼得·施羅德憑一己之力便可成立一家公司,為全球客戶提供咨詢服務(wù)。*Parus Analytics, “About Us”, http://parusanalytics.com/about.html.(上網(wǎng)時間:2018年1月27日).IMB公司依據(jù)自然語言處理技術(shù)開發(fā)了Watson系統(tǒng),該系統(tǒng)能通過不斷與人交流逐漸理解文本話語的意義,也具備分析國際問題的能力。*IBM,“Watson Discovery Visual Insights”, https://visual-insights.bluemix.net.(上網(wǎng)時間:2018年1月27日).在歐洲,塞浦路斯大學(xué)的安得利斯·安德魯(Andreas Andreou)和希臘銀行研究部的喬治·祖巴納基斯(George Zombanakis)也宣稱使用機器學(xué)習(xí)技術(shù)成功預(yù)測了希臘與土耳其的軍備競賽態(tài)勢。*董青嶺:“機器學(xué)習(xí)與沖突預(yù)測——國際關(guān)系研究的一個跨學(xué)科視角”,《世界經(jīng)濟與政治》,2017年第7期,第110頁。簡而言之,此時計算機從過往被人操作的分析工具逐漸轉(zhuǎn)變?yōu)檠芯糠治鑫谋镜闹黧w,有能力實時監(jiān)測國際關(guān)系形勢,為決策者提供行動建議。
綜上所述,數(shù)據(jù)化趨勢為國際關(guān)系的文本研究提供了越來越大的便利,日益深刻地影響到國際關(guān)系研究的形式和內(nèi)容,發(fā)揮了不可替代的重要作用。
文本研究數(shù)據(jù)化為分析、研究活動帶來了空前的便利和效率,促進(jìn)了國際關(guān)系研究在形式和內(nèi)容上的革新,具有重大的歷史性貢獻(xiàn)。
第一,數(shù)據(jù)化可提升國際關(guān)系文本研究的靈活性。原始文本資料的內(nèi)容不如數(shù)字般有大小之分,許多文字、詞組表達(dá)常是多義的,內(nèi)涵容易混淆,內(nèi)容結(jié)構(gòu)不明顯。這使研究者在大容量的閱讀后即便思維再敏銳也難以準(zhǔn)確區(qū)分不同內(nèi)容間的主次關(guān)系,無法提取關(guān)鍵變量或概念進(jìn)行分析處理,只能依賴主觀判斷進(jìn)行詮釋。
對此,研究者可通過數(shù)據(jù)化將復(fù)雜的話語內(nèi)容轉(zhuǎn)化成表達(dá)精煉的文字或數(shù)字標(biāo)簽,由于這些標(biāo)簽通常是單義的,能最大限度避免歧義,由此可以更確切無誤地將各類內(nèi)容信息分類整理,避免混淆,讓不同內(nèi)容之間的結(jié)構(gòu)變得清晰,明確文本描述的事物之間相互關(guān)系。*若文本內(nèi)容被編碼為精煉的文字標(biāo)簽,研究者則可通過計算不同標(biāo)簽出現(xiàn)的次數(shù)衡量不同內(nèi)容的重要性差異?;诖?,研究者能更容易地從文本資料中辨認(rèn)并提煉分析所需的變量或概念,繼而可用更多分析工具和設(shè)計技巧研究文本資料,提升國際關(guān)系文本研究模式的多樣性。比如克里斯蒂安·格萊迪許(Kristian Gleditsch)和邁克爾·沃德(Michael Ward)在“戰(zhàn)爭相關(guān)指數(shù)數(shù)據(jù)庫”的基礎(chǔ)上將國家間的政治親密度轉(zhuǎn)換成連續(xù)型變量并建立數(shù)據(jù)庫,其他研究者便可更輕松地應(yīng)用各類統(tǒng)計學(xué)模型對媒體報道內(nèi)容進(jìn)行計量分析,大幅提升了文本內(nèi)容的可操作性。*Kristian Gleditsch, “Measuring Space: A Minimum-Distance Database and Applications to International Studies”, Journal of Peach Research, Vol.38, No.6, 2001, pp.749-758.查理·卡彭特(Charli Carpenter)收集訪談資料后,用質(zhì)性編碼的手段將因戰(zhàn)時性暴力而出生的兒童面臨的困境精煉成意義單一的文字標(biāo)簽,而后根據(jù)不同標(biāo)簽在文本資料出現(xiàn)的次數(shù)判斷這些兒童面臨的主要危機,以客觀的方式驗證這些兒童得不到國際倡議組織關(guān)注的原因,讓基于文本操作的國際關(guān)系研究實現(xiàn)理論檢驗的功能。*Charli Carpenter, “Studying Issue (non)-Adoption in Transnational Advocacy Networks”, International Organization, Vol.61, No.3, 2007, pp.643-667.隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,更多能夠探尋事物相關(guān)關(guān)系(correlation)的方法也將引入國際關(guān)系文本研究中。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.由此說來,文本資料數(shù)據(jù)化后,國際關(guān)系研究者可應(yīng)用更多社會科學(xué)方法與技巧加以分析,能提升文本研究操作的靈活性和文本資料的學(xué)術(shù)價值。鑒于國際關(guān)系比一般的社會關(guān)系更加抽象且復(fù)雜多變,更多樣、靈活的文本研究設(shè)計方案能幫助研究者厘清國際形勢的發(fā)展脈絡(luò),進(jìn)而從錯綜復(fù)雜的表象中正確剖析事件的內(nèi)在聯(lián)系。
第二,數(shù)據(jù)化可增強國際關(guān)系文本研究的科學(xué)性。廣義上的科學(xué)應(yīng)是嚴(yán)謹(jǐn)、系統(tǒng)的知識體系,應(yīng)建立在前人的基礎(chǔ)上,為后續(xù)的研究提供重復(fù)、檢驗、證偽的可能。然而,原始文本資料的字里行間常帶有深刻、隱晦的含義,這些含義需要研究者主觀解讀和詮釋,但這種分析過程常依賴直覺,透明度低,分析結(jié)果不夠精確,以致文本研究具有較大的隨意性且流程無法重復(fù),結(jié)論難以檢驗而在可靠性方面受到削弱或質(zhì)疑。
無論文本被編碼成量化數(shù)據(jù)還是質(zhì)性數(shù)據(jù),數(shù)據(jù)化都是將文本資料中最確鑿無疑的核心內(nèi)容提取為分析對象,使之變得相對客觀和穩(wěn)定。鑒于研究者須根據(jù)研究對象的特質(zhì)選擇方法和技巧設(shè)計分析流程,分析數(shù)據(jù)的手段須客觀、標(biāo)準(zhǔn),一些更縝密的實證主義方法便可應(yīng)用于文本研究中,進(jìn)而得出更精確的分析結(jié)果。即便是純粹的質(zhì)性研究,研究者也可應(yīng)用相對客觀的理論框架或模型分析數(shù)據(jù)化文本內(nèi)容,這方便研究者公開分析流程細(xì)節(jié),其他研究者能更輕易地重復(fù)開展其研究,國際關(guān)系文本研究的結(jié)論可因此變得更可靠。比如尼古拉·史密斯(Nicola Smith)和科林·黑爾(Colin Hay)在開展英國與愛爾蘭關(guān)于全球化、歐洲一體化的政治觀念對比研究時,將兩國政治家的講話文本錄入Nvivo軟件中進(jìn)行質(zhì)性編碼并將文本內(nèi)容濃縮整合為六項主題,而后根據(jù)主題設(shè)計調(diào)查問卷、詢問兩國議員對于主題內(nèi)容的認(rèn)可程度,再用數(shù)字?jǐn)?shù)據(jù)對比兩國對于全球化與歐洲一體化的態(tài)度差異。在該項研究中,文本中數(shù)據(jù)化的政治態(tài)度變得具體,因此研究者可明確問卷問題和選項,提升分析流程透明度,得出相對精確的結(jié)論,為研究結(jié)論留下了被檢驗的可能性。*Nicola Smith and Colin Hay, “Mapping the Political Discourse of Globalisation and European Integration in the United Kingdom and Ireland Empirically”, European Journal of Political Research, Vol.47, No.3, 2008, pp.359-382.
這種處理可讓前人的成果為后續(xù)的研究打下基礎(chǔ),后人也更容易站在前人的肩膀上進(jìn)一步攀登學(xué)術(shù)高峰,令國際關(guān)系學(xué)科內(nèi)的知識能不斷加以檢驗和完善,進(jìn)而更連貫地發(fā)展,日益增加“科學(xué)”特質(zhì)。*Carl Popper, The Logic of Scientific Discovery, London: Routledge, 1992, pp.57-73.再者,由于基于數(shù)據(jù)得到的分析結(jié)論相對精確,研究者由此發(fā)現(xiàn)的社會規(guī)律更加可靠,更具應(yīng)用價值,進(jìn)而為決策者提供更切實可行的建議,讓扎根于文本的國際關(guān)系研究具有更真實的科學(xué)價值和實踐意義,推動國際關(guān)系學(xué)科發(fā)展,使其向真正的科學(xué)研究靠攏,創(chuàng)造更多社會價值。
第三,數(shù)據(jù)化可突破小樣本研究的局限。原始文本資料中的無關(guān)內(nèi)容會占據(jù)大量儲存空間,增加了管理與分享資料的難度,還降低研究者的閱讀效率。因此,國際關(guān)系研究者基于文本使用質(zhì)性方法(如內(nèi)容分析法、案例分析法等)開展研究時常無法有效提升樣本量,不能確保抽樣方法充分合理,從而容易取巧地選擇對論證有利的案例進(jìn)行分析,令研究出現(xiàn)選擇性偏差。國際關(guān)系行為體的話語經(jīng)過數(shù)據(jù)化處理后,無關(guān)內(nèi)容被剔除,文本資料的儲存容量大大降低,比如“全球事件話語數(shù)據(jù)庫”僅以10MB左右的儲存空間便可記錄世界范圍內(nèi)一天發(fā)生的超過20萬項事件。*The GDELT Project, “Master CSV Data File List”, http://data.gdeltproject.org/events/index.html.(上網(wǎng)日期:2018年1月20日)由于信息儲存效率大大提高,研究者可大量收集和整理文本資料,加上通訊技術(shù)高速發(fā)展,數(shù)據(jù)傳播的速度日與俱增,當(dāng)下的國際關(guān)系研究者可以輕易地分享到大量經(jīng)數(shù)據(jù)化處理后的文本資料。比如,哈佛大學(xué)建立的數(shù)據(jù)分享平臺(Harvard Dataverse)收錄了超過25000種數(shù)據(jù)庫供國際關(guān)系研究者使用。*Harvard University, “Harvard Dataverse”, https://dataverse.harvard.edu. (上網(wǎng)日期:2018年1月20日)密歇根大學(xué)校際政治與社會研究聯(lián)合會的網(wǎng)站提供了超過25萬份社會與行為科學(xué)領(lǐng)域的數(shù)據(jù)文件,亦可作為國際關(guān)系研究的重要數(shù)據(jù)來源。*ICPSR,“About ICPSR”, https://www.icpsr.umich.edu/icpsrweb/content/about/. (上網(wǎng)日期:2018年1月20日)
另外,數(shù)據(jù)化使用計算機程序定位或篩選話語內(nèi)容,可為研究者大幅提升閱讀資料的速度,在單位時間內(nèi)、以同樣的精力能認(rèn)識和理解比過去更多的話語文本案例,進(jìn)而提升研究的樣本量。即便是全程依賴研究者自行記錄、整理、閱讀話語資料并編碼數(shù)據(jù)的國際關(guān)系文本研究,樣本量也能增至數(shù)百甚至上千,遑論量化研究者使用當(dāng)今普通的家用電腦便可瞬間處理數(shù)十億字節(jié)的文本數(shù)據(jù)。更大的樣本量能使文本中的離群值或特殊案例變得不顯著,在應(yīng)用大數(shù)據(jù)技術(shù)后,國際關(guān)系文本研究更有可能實現(xiàn)全樣本分析,避免數(shù)據(jù)抽樣帶來的弊端。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.概要地說,在確保數(shù)據(jù)質(zhì)量的情況下,研究者使用數(shù)據(jù)化文本資料可克服小樣本分析的局限,在研究操作中極大地降低選擇性偏差的概率。*Marie Gillespie, “Security, Media, Legitimacy: Multi-ethnic Media Publics and the Iraq War 2003”, International Relations, Vol.20, No.4, pp.467-469; Erin Denton, “International News Coverage of Human Trafficking Arrests and Prosecutions: A Content Analysis”, Women & Criminal Justice, 2010, pp.13-15.基于此,國際關(guān)系研究者分析數(shù)據(jù)化的文本資料能讓研究在統(tǒng)計意義上能得出更全面的結(jié)論,進(jìn)而能更好地監(jiān)測和預(yù)判國際事件的緣起和發(fā)展,為國家提供風(fēng)險更低更準(zhǔn)確的政策建議。
受限于自然語言處理技術(shù)的水平,加上數(shù)據(jù)化會剔除文本意義和背景信息,文本資料的數(shù)據(jù)化在短期內(nèi)對國際關(guān)系研究難免存在消極影響。第一,不利于思想意識領(lǐng)域的研究。國際行為體以話語進(jìn)行交流,其行為不是單純地逐利,*Nicholas Onuf, Making Sense, Making Worlds: Constructivism in Social Theory and International Relations, New York: Routledge, 2013, pp.3-4.它們往往都具有深刻的含義,能表現(xiàn)行為體的規(guī)范、價值觀和身份認(rèn)同,這些均是重要的國際關(guān)系研究對象。研究者須結(jié)合具體的歷史文化背景深入理解這些行為規(guī)范、價值觀和身份認(rèn)同,用翔實的語言對其詮釋,才能充分解釋國際行為體之間的現(xiàn)象和行為。然而,數(shù)據(jù)是意義單一、表述精練的符號,無法描述深刻隱晦的含義和豐富的背景信息,研究者單憑數(shù)據(jù)無法深入詮釋每個案例下國際行為體的規(guī)范、價值觀和身份認(rèn)同。再者,當(dāng)下的人工智能技術(shù)亦未能完全準(zhǔn)確地詮釋話語中復(fù)雜、隱晦的含義。對于數(shù)據(jù)化的文本,研究者只能轉(zhuǎn)而采納實證主義的認(rèn)識論和方法論進(jìn)行分析。因為實證主義的認(rèn)識論不要求研究者對話語和行為中的深刻含義進(jìn)行詮釋,而是讓研究者在分析過程中保持價值中立,強調(diào)引入自然科學(xué)的方法分析社會科學(xué)問題。因此,數(shù)據(jù)化的趨勢讓量化方法成為學(xué)者學(xué)習(xí)和引進(jìn)的重點。*劉豐、陳沖:“國際關(guān)系研究的定量數(shù)據(jù)庫及其應(yīng)用”,《世界經(jīng)濟與政治》,2011年第5期,第19頁;龐珣:“國際關(guān)系研究的定量方法:定義、規(guī)則與操作”,《世界經(jīng)濟與政治》,2014年第1期,第5頁。比較之下,基于主觀詮釋進(jìn)行操作的質(zhì)性研究方法在國內(nèi)外均得不到重視,*蔣建忠:“國際關(guān)系研究中的質(zhì)性研究”,《國際關(guān)系研究》,2016年第4期,第3頁。也讓規(guī)范、價值觀和身份認(rèn)同時常成為國際關(guān)系科學(xué)研究的規(guī)避對象,*高尚濤:“試析國際關(guān)系研究的實證問題”,《世界經(jīng)濟與政治》,2006年第11期,第37頁。令話語意義中這些無法量化的研究對象得不到足夠的關(guān)注,而規(guī)范、價值觀和身份認(rèn)同往往是國際現(xiàn)象或行為的重要動因,缺乏這方面的研究不利于國際關(guān)系科學(xué)的整體發(fā)展。
第二,可能讓研究產(chǎn)生內(nèi)在邏輯矛盾。系統(tǒng)、嚴(yán)謹(jǐn)?shù)难芯繎?yīng)講究存在論和認(rèn)識論的邏輯連貫。*Linda Smircich, “The Case for Qualitative Research”, Academy of Management Review, Vol.5, No.4, 1980, pp.491-492; Mark Thompson, “Ontological Shift or Ontological Drift? Reality Claims, Epistemological Framework, and Theory Generation in Organization Studies”, Academy of Management Review, Vol.36, No.4, 2011, p.755.換言之,研究者不可以客觀標(biāo)準(zhǔn)計算、衡量沒有物質(zhì)形態(tài)的思維觀念,亦不能通過話語感受和詮釋并無深刻含義的客觀事物,否則在研究前提上便已產(chǎn)生內(nèi)在矛盾。文本記錄的是國際關(guān)系行為體之間的狀態(tài)、話語或行為。國家和國際組織本身并不純粹由物質(zhì)構(gòu)成,*Friedrich Kratochwil and John Ruggie, “International Organization: A State of the Art on an Art of the State”, International Organization, Vol.40, No.4, 1986, pp.753-775; Alexander Wendt, “Anarchy is What States Make of It: The Social Construction of Power Politics”, International Organization, Vol.46, No.2, 1992, pp.391-425.國際現(xiàn)象或行為并不都是可以直接觀察(比如美國通過世界銀行推廣“華盛頓共識”)的,而是常常無法加以充分衡量。數(shù)據(jù)化后的文本資料不再是研究者理解和感受的對象,而僅作為操作的研究對象,因此,數(shù)據(jù)化也是一個將主客體進(jìn)行分離的過程,數(shù)據(jù)化后的文本資料成為研究者處理的“客體”,而研究者成為處理文本的主體,換言之,數(shù)據(jù)化是讓基于文本開展的國際研究自然進(jìn)入笛卡爾式主體-客體二元對立的邏輯前提。*Elizabeth St. Pierre and Alecia Jackson, “Qualitative Data Analysis After Coding,” Qualitative Inquiry, Vol. 20, No.6, 2014, pp.715-716.事實上,這種前提假設(shè)正被不假思索地全盤引入至國際關(guān)系研究中。*[英] 臺樂怡:“與權(quán)力做斗爭——拒絕美國國際關(guān)系研究中的實證主義”,《世界經(jīng)濟與政治》,2010年第2期,第134頁。隨著文本信息數(shù)據(jù)化的發(fā)展,記錄國際關(guān)系事件中的任何文本都在逐漸數(shù)據(jù)化,像“全球事件話語數(shù)據(jù)庫”這樣的大型數(shù)據(jù)庫甚至將國際事件中人們的喜怒哀樂皆量化成為數(shù)據(jù)供研究者分析。*The GDELT Project, “The Datasets of GDELT as of February 2016”, March 13, 2016, https://blog.gdeltproject.org/the-datasets-of-gdelt-as-of-february-2016/. (上網(wǎng)日期:2018年1月20日)此類研究對象并沒有物質(zhì)形態(tài),*雖說人的情感來源于大腦中的神經(jīng)元,但科學(xué)仍未能解釋神經(jīng)元如何通過物質(zhì)傳遞讓人產(chǎn)生情感,基于此,不應(yīng)認(rèn)為喜怒哀樂有具體的物質(zhì)形態(tài)。無法進(jìn)行計算。文本中的思維觀念與情感本應(yīng)加以詮釋、解讀,若研究者將其強行數(shù)據(jù)化并使其變得客觀,容易形成存在論與認(rèn)識論之間的脫節(jié)甚或矛盾,即研究得出了具體的結(jié)論,卻無法解釋結(jié)論具體到底是什么,因而降低了研究的科學(xué)價值。
第三,數(shù)據(jù)化的過程無法根除文本內(nèi)容中的個人偏見。許多記錄國際事件的數(shù)據(jù)庫材料都來源于國際新聞、歷史材料等,*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-618.這些材料經(jīng)過記者或者檔案人員處理后在內(nèi)容中難免帶有個人偏見。*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, p.617.比如在“戰(zhàn)爭相關(guān)指數(shù)”數(shù)據(jù)庫中,關(guān)于戰(zhàn)爭的性質(zhì)的分類型變量本身就是研究者的主觀判斷。*比如,海灣戰(zhàn)爭對美國人來說是解放科威特的正義戰(zhàn)爭,對伊拉克人來說是入侵者發(fā)動的不義之戰(zhàn)。若研究者不能通過意義詮釋排除偏見,即便研究的數(shù)據(jù)量再大,模型的擬合程度再高,分析的結(jié)果再顯著,檢測得到的信度再高,也無法確保最終結(jié)論完全可靠。這種偏見時常不易被察覺,因為數(shù)據(jù)化文本資料容易獲取,諸多國際關(guān)系研究者并不是通過親身實踐或調(diào)查獲取文本資料。研究者在得到具體的數(shù)據(jù)后,受限于有限的時間和精力,通常很難與獲得第一手資料的記者或檔案人員建立直接聯(lián)系,無法感受這些資料收集者在觀察和記錄國際關(guān)系現(xiàn)象或行為時產(chǎn)生的思想與情感,更無法排除數(shù)據(jù)中的個人偏見。即便機器已開始代替研究者成為分析主體,且當(dāng)下的自然語言處理技術(shù)也取得重要進(jìn)展,仍然無法真正還原人的思想情感,機器及其應(yīng)用技術(shù)的便捷性反而助推國際關(guān)系研究者更多地坐到計算機前,遠(yuǎn)離真實的場景與感受,包含在數(shù)據(jù)中的偏見更難根除,而是“客觀地”呈現(xiàn)在分析結(jié)果中,導(dǎo)致研究結(jié)論不可避免有所偏頗。
由于存在以上的局限性,許多基于這種數(shù)據(jù)庫的研究并不能得到政府的認(rèn)可。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.124.即便是美國政府和軍方資助的“整合性沖突早期預(yù)警系統(tǒng)”(the Integrated Conflict Early Warning System)也不能做到準(zhǔn)確分析國際事件形勢變化,效果未如理想。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research”, International Studies Review, Vol.12, No.1, 2010, p.95.因此,國際關(guān)系研究者應(yīng)反思如何處理和應(yīng)用文本資料,而不是隨波逐流,盲目地一味將文本資料數(shù)據(jù)化,更要從多方面下功夫解決數(shù)據(jù)化的局限問題。
第一,重視發(fā)展后實證主義方法論。研究者將話語文本數(shù)據(jù)化的目的是創(chuàng)造智慧,但數(shù)據(jù)化并不是創(chuàng)造智慧的唯一途徑。在國際規(guī)范、價值觀和身份認(rèn)同等思維觀念領(lǐng)域,后實證主義的分析路徑能為研究者提供巨大支持。詮釋學(xué)和現(xiàn)象學(xué)是此類分析陣營中的典型代表,總體而言,詮釋學(xué)是一門對文本的意義進(jìn)行理解和解釋的技藝,遵循這種分析路徑的研究者不但要理解文本的語言意義,也要結(jié)合具體的歷史環(huán)境理解研究對象的主觀世界。*李少軍:“國際關(guān)系研究與詮釋學(xué)方法”,《世界經(jīng)濟與政治》,2006年第10期,第7頁。而現(xiàn)象學(xué)則是一種激進(jìn)的、反傳統(tǒng)的哲學(xué)思潮,強調(diào)研究者要借助自身的意識和體驗全面地感受現(xiàn)象并描述現(xiàn)象,進(jìn)而去理解世間真相。*Dermot Moran, Introduction to Phenomenology, London: Routledge, 2000, p.4無論是采用現(xiàn)象學(xué)的先驗、體驗、或是解釋學(xué)的路徑進(jìn)行研究,后實證主義研究始終與數(shù)據(jù)化保持距離,重視保留完整的背景信息和話語中深刻、隱晦的內(nèi)涵。*Matthew Miles, and Michael Huberman, Qualitative Data Analysis: An Expanded Sourcebook, Thousand Oaks: Sage, 1994, p.8.這種范式亦可包容研究資料中的偏見,鼓勵研究者帶著個人偏見去理解各種現(xiàn)象和行為,借助真實的社會場景解釋各種現(xiàn)象和行為。*劉良華;“何謂‘現(xiàn)象學(xué)的方法’”,《全球教育展望》,2013年第8期,第44頁。研究者循此路徑分析將耗費更多時間在研究田野中而不是計算機前,重視采用訪談甚至以直接參與活動的方式與研究對象進(jìn)行交流,觀察和感受研究對象的行為模式和思想觀念,用靈動的語言記錄最為真實的場景進(jìn)行論證。事實上,歐洲學(xué)界已意識到這點,荷蘭萊頓大學(xué)“和平情報實驗室”項目明確指出,國際關(guān)系大數(shù)據(jù)分析不能脫離基于具體社會環(huán)境進(jìn)行主觀詮釋。*Peace Informatics Lab, “Defining Peace Informatics”, http://www.peaceinformaticslab.org/data-pool.html. (上網(wǎng)日期:2018年1月20日).歐盟的“歐洲晴雨表”系列數(shù)據(jù)自1987年起便已公開未經(jīng)數(shù)據(jù)化處理的訪談資料,方便研究者使用原始文本資料詮釋話語中隱含的意義。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網(wǎng)時間:2018年3月2日)。研究者通過這種方式創(chuàng)造的知識和智慧可避免數(shù)據(jù)語言意義單一帶來的局限,能更好地探索蘊藏在國際關(guān)系文本中的思想觀念?;诖?,學(xué)者應(yīng)深入地開發(fā)詮釋學(xué)、現(xiàn)象學(xué)此類方法論在國際關(guān)系研究中的應(yīng)用途徑,讓規(guī)范、價值觀、身份認(rèn)同等思維要素不再是國際關(guān)系科學(xué)研究的規(guī)避對象,*李少軍;“國際關(guān)系研究與詮釋學(xué)方法”,《世界經(jīng)濟與政治》,2006年第10期,第7頁。促進(jìn)國際關(guān)系學(xué)科的全面發(fā)展。
第二,強化串聯(lián)研究的存在論和認(rèn)識論意識。研究背后的哲學(xué)邏輯是研究的前提和根基,而數(shù)據(jù)化本身只是處理研究資料的一種方法,屬于研究設(shè)計的末枝。文本資料數(shù)據(jù)化對于國際關(guān)系研究的科學(xué)貢獻(xiàn)須建立在存在論與認(rèn)識論連貫一致的基礎(chǔ)上,否則再精妙、高效的數(shù)據(jù)處理與分析技巧只會讓研究顯得金玉其外、敗絮其中。為了避免研究出現(xiàn)存在論與認(rèn)識論不連貫一致的情況,研究者在搜集資料時應(yīng)清楚了解研究對象是什么以及最不可劃分的層次會是什么。具體而言,若研究對象本身并不具有深層次的意義或是理性逐利行為(比如純粹的貿(mào)易往來),研究者大可遵循實證主義的認(rèn)識論,構(gòu)建嚴(yán)謹(jǐn)縝密的數(shù)學(xué)模型,對數(shù)據(jù)進(jìn)行分析,得到更精確的分析結(jié)果。倘若研究對象是沒有物質(zhì)形態(tài)且無法加以直接觀察的心理現(xiàn)象或意識觀念(比如民族認(rèn)同感),研究者要小心處理數(shù)據(jù)化的文本資料,謹(jǐn)慎使用實證主義的分析路徑開展研究,此時若研究者能重視感受和理解研究對象的心理狀態(tài),則更容易實現(xiàn)存在論和認(rèn)識論層面的連貫一致,進(jìn)而提高研究的科學(xué)價值。也就是說,只有在研究的內(nèi)在邏輯連貫的基礎(chǔ)上,研究者才可選擇適當(dāng)?shù)姆椒?、設(shè)計合理的流程進(jìn)行分析。
第三,通過人際學(xué)術(shù)交流檢驗結(jié)論。如上文所述,數(shù)據(jù)化會篩除文本中的深刻內(nèi)涵和背景信息,可導(dǎo)致結(jié)論出現(xiàn)偏頗,研究者用數(shù)學(xué)公式進(jìn)行結(jié)論檢驗并不能完全反映實際狀況。因此,在得到數(shù)據(jù)分析的結(jié)果后,研究者應(yīng)深入思考數(shù)據(jù)背后的歷史文化背景是什么、研究對象的話語和行為有著怎樣的意義、分析過程中會省略掉哪些意義、在完成數(shù)據(jù)分析后應(yīng)詮釋哪些意義等。帶著以上的問題,研究者應(yīng)嘗試與研究對象或同行專家直接交流,將研究結(jié)果呈現(xiàn)給對方,通過面對面的話語交談更深入地理解研究對象的意識、情感,加強對國際現(xiàn)象或行為之時代背景的認(rèn)識,征求對于研究結(jié)論的意見和建議,使研究盡可能完整地還原文本資料中被抽離的背景信息和深刻內(nèi)涵,彌補數(shù)據(jù)分析的缺陷。研究者在確認(rèn)結(jié)論充分可靠前,應(yīng)將其研究交與同行專家或研究對象審閱并認(rèn)可。比如安東尼·菲爾(Anthony Fee)和蘇珊·麥克格拉芙-尚普(Susan McGrath-Champ)探究國際非政府組織如何保護(hù)海外員工的安全后,不但將編碼分析的結(jié)果發(fā)受訪者以尋求反饋,還約見兩位國際安全領(lǐng)域的專家咨詢詮釋結(jié)果的合理性。*Anthony Fee and Susan McGrath-Champ, “The Role of Human Resources in Protecting Expatriates: Insights from the International Aid and Development Sector”, The International Journal of Human Resource Management, Vol.28, No.14, 2016, p.8.如此通過與研究對象或同行保持密切的交流,研究者能夠最大程度地限制數(shù)據(jù)化研究的不足和弊端,確保分析結(jié)論能夠盡量貼近實際,讓國際關(guān)系研究真正得益于文本資料的數(shù)據(jù)化?!?/p>