數(shù)字方法的興起：Web在社會與文化研究中的重定位

2018-01-23 06:01陳鵬

哲學分析 2018年2期

陳鵬

萬維網(wǎng)（Web）自其在20世紀90年代誕生以來，大致經(jīng)歷了三個階段。第一個階段是超空間時代，在這個階段中沖浪是網(wǎng)絡訪問的主要行為，網(wǎng)站之間通過彼此的鏈接緊密地聯(lián)系在一起。第二個階段是公眾空間時代，在這個階段中，搜索代替了沖浪，同時公眾空間以議題空間的方式被逐步分化為一系列的社交網(wǎng)絡圈，我們通常將這個時代的Web稱為網(wǎng)絡空間。第三個時代是當前所處的情境感知時代，這個時代中，虛擬已經(jīng)終結(jié)，互聯(lián)網(wǎng)的無地域性已經(jīng)消失，曾經(jīng)被認為是獨立于物理空間的網(wǎng)絡空間已經(jīng)作為現(xiàn)實空間的一個維度與現(xiàn)實空間融合在一起。

伴隨著網(wǎng)絡的發(fā)展，我們需要不斷地調(diào)整對互聯(lián)網(wǎng)的認識，不斷地調(diào)適我們與網(wǎng)絡之間的互動關系。網(wǎng)絡從虛擬空間轉(zhuǎn)換到現(xiàn)實空間的維度，給科學研究，尤其是給人文和社會科學研究帶來了挑戰(zhàn)和機遇。網(wǎng)絡提供的不僅僅是一種工具，也不僅僅是傳統(tǒng)意義上的媒體，它本身就是一個研究對象和研究陣地。網(wǎng)絡研究的終點也不再訴諸實地的驗證，網(wǎng)絡本身就可以作為研究驗證的場所。

如果我們以新的視角去認識和研究網(wǎng)絡，首先要明確網(wǎng)絡中的研究客體，現(xiàn)代網(wǎng)絡平臺中主要保存著原生數(shù)字對象和數(shù)字化對象兩種類型，所謂的原生數(shù)字對象是指在網(wǎng)絡中產(chǎn)生的且其生命周期完全融入網(wǎng)絡平臺生態(tài)中的對象，典型的例子包括：超鏈接（URL）、點擊、點贊、標簽、時間戳、維基百科上的文章、PageRank、評論，等等。數(shù)字化對象是相對于原生數(shù)字對象而言的，通常是將在網(wǎng)絡之外生成的數(shù)字對象以導入的方式進入網(wǎng)絡平臺，典型的例子包括：掃描的照片、文件等。

接下來，針對這些研究客體，我們應該用何種方式對它們開展研究？從認識論層次而言，網(wǎng)絡中的原生數(shù)字對象是相對比較新的客體，如何認識網(wǎng)絡？如何認識這些新的對象？從方法論層面，針對這些新生對象，我們應該采取什么樣的方法？

理查德·羅杰斯（Richard Rogers）在《數(shù)字方法》一書①理查德·羅杰斯：《數(shù)字方法》，成素梅、陳鵬、趙彰譯，上海：上海譯文出版社2018年即將出版。中就給出了一種“數(shù)字方法”來應對上述的一些問題。在理查德·羅杰斯看來，數(shù)字方法不同于從計算機科學或者相關領域角度對Web的研究，譬如計算機科學對搜索引擎的研究更多地是搜索引擎優(yōu)化、個性化提升搜索精準性等。數(shù)字方法作為研究實踐，遵從媒介演化方法，審視數(shù)字對象（超鏈接、點擊數(shù)、點贊、標簽、時間戳）的可獲得性和可發(fā)現(xiàn)性，對可列出的一些網(wǎng)絡元素（主題標簽、用戶名、用戶位置、短網(wǎng)址、@replies）的重組形成一個令人信服的事件敘述。數(shù)字方法也對文化和社會問題進行診斷。

一、數(shù)字方法的認識論基礎：虛擬的終結(jié)

或許，我們已經(jīng)習慣將由計算機、信息與網(wǎng)絡技術構(gòu)筑的互聯(lián)網(wǎng)絡稱為一種網(wǎng)絡空間（Cyberspace）或者虛擬空間，將這個空間視為與物理空間平行的一種新空間。然而，正如德勒茲將虛擬視為實在的一個方面，事實上，所謂的“網(wǎng)絡空間”并不真正地獨立于現(xiàn)實物理空間，也并不與物理空間存在某種真正的隔離，從某種意義上來講，網(wǎng)絡空間是物理空間的一個維度與延展。

在網(wǎng)絡空間從物理空間中孕育、脫離、發(fā)展，再到融入回歸的整個過程中，伴隨著時空觀的變遷。最初想要進入網(wǎng)絡，需要做非常復雜的技術工作，令人產(chǎn)生類似于進入“外太空”的感覺。在1987年，為準備與國際互聯(lián)網(wǎng)絡連接的條件，中國兵器工業(yè)計算機研究所做了數(shù)月的技術準備，從德國引進了計算設備和系統(tǒng)軟件，才最終成功發(fā)送了第一封電子郵件。即使到了20世紀90年代的時候，我們進入網(wǎng)絡都需要一個復雜的撥號連接過程。顯式的“登入”和“退出”操作，成為網(wǎng)絡空間與物理空間之間一個顯明的界面。此外，早期的電子公告板（BBS）、即時通信工具、網(wǎng)絡游戲等網(wǎng)絡應用都旨在給用戶一個獨立于其物理身份的網(wǎng)絡身份，許多人試圖將網(wǎng)絡行為看成是有別于現(xiàn)實生活的“第二人生”，這些都會促使人們將網(wǎng)絡空間視為一個獨立的、自治的、有別于物理空間的空間。

然而隨著技術的進一步深入發(fā)展，網(wǎng)絡空間憑借著信息本身的表征、意義建構(gòu)能力，給人們一種網(wǎng)絡空間吞噬物理空間的假象，萬物都可以數(shù)字化，一切都可以虛擬化。相比于現(xiàn)實物理空間，網(wǎng)絡空間表現(xiàn)出許多優(yōu)勢，遠程視頻會議、遠程監(jiān)控、遠程運維等網(wǎng)絡應用跨越了物理空間的障礙，互聯(lián)網(wǎng)主張一切都是平等的，最初的博客、社交網(wǎng)絡都是以自我為中心的，點對點網(wǎng)絡、分布式網(wǎng)絡、區(qū)塊鏈都為去中心化提供了堅實的技術基礎，網(wǎng)絡空間展現(xiàn)了很強的信息無摩擦性、無地域性和無中心性等特征。然而，當網(wǎng)絡空間與物理空間真正深度融合的時候，我們發(fā)現(xiàn)物理空間重塑了網(wǎng)絡空間。其中最為典型的是關于網(wǎng)絡空間的無地域性的消失。在此之前，Web對于全球而言，確實是同一個Web，然而現(xiàn)在，我們每個人都擁有了不同的Webs。當我們訪問谷歌的時候，谷歌會根據(jù)我們的地理位置，默認給我們重定向到本地化的谷歌，例如：在法國的用戶在瀏覽器中輸入www.google.com去訪問谷歌時，谷歌會將用戶重定向到法國谷歌www.google.fr。我們在任何地方訪問互聯(lián)網(wǎng)的時候，大多數(shù)網(wǎng)絡平臺都裝配有IP轉(zhuǎn)化為地理位置的工具，會根據(jù)你的地理位置返回不同的服務，包括語種、服務目錄等。推動網(wǎng)絡的地理空間回歸的一次關鍵性事件是一起法國的訴訟案。

2000年，法國猶太學生聯(lián)盟和對抗種族主義與反猶太主義同盟，向巴黎大審法院對雅虎提出訴訟。訴訟的原因是，當時法國的網(wǎng)絡用戶能夠訪問在美國Yahoo.com中納粹紀念品的網(wǎng)頁，而兩家法國非政府組織希望在法國不能訪問這些頁面。這起訴訟案件最終在2000年11月做出裁決，要求阻止位于法國的網(wǎng)絡用戶訪問雅虎的納粹紀念品網(wǎng)站。這起訴訟案推動IP-to-geo（IP到地理位置）技術的推廣應用，自那以后，雅虎、谷歌、YouTube等全球性的網(wǎng)絡平臺都紛紛地采用IP-to-geo技術，根據(jù)不同地址的用戶返回不同的內(nèi) 容。

地理位置的回歸，宣告了網(wǎng)絡空間的消亡。從一個細微之處，我們亦能發(fā)現(xiàn)這種空間觀的變遷。在20世紀90年代，主流的瀏覽器的名字是網(wǎng)景導航者（Netscape Navigator）、微軟的互聯(lián)網(wǎng)探索者（Microsoft’s Internet Explorer）和蘋果的游獵（Apple’s Safari），這些都與導航相關，都是指引人們在信息的海洋、空間或叢林中探險的。最近，隨著網(wǎng)絡空間的消亡，這些網(wǎng)絡地理學工具已經(jīng)讓位于那些不太關注導航本身的瀏覽器（或瀏覽器名字），比如Mozilla’s Firefox 和Google’s Chrome等。

也許網(wǎng)絡的地理回歸本身就有其必然性，考慮全球的13臺域名根服務器的位置，根服務器的布局圖顯示出南北的差異，更表明“互聯(lián)網(wǎng)”被美國及其盟國所控制，是它們“統(tǒng)治了互聯(lián)網(wǎng)的基礎” （rule the root）。此外，如果我們繪制互聯(lián)網(wǎng)流量地圖的話，會發(fā)現(xiàn)這種地理位置布局所帶來的一些現(xiàn)象。當追蹤阿姆斯特丹和津巴布韋之間的路由時，我們會發(fā)現(xiàn)它們之間的數(shù)據(jù)包流經(jīng)美國，而不是從北到南的直線線路。

值得一提的是，人類學家丹尼爾·米勒（Daniel Miller）和多恩·斯拉特（Don Slater），在特里尼達和多巴哥開展的關于“互聯(lián)網(wǎng)”用途的調(diào)查研究中①Daniel Miller，Don Slater，The Internet：An Ethnographic Approach，New York：Oxford University Press，2001.，得出的結(jié)論是，特里尼斯人（Trinis）利用互聯(lián)網(wǎng)來展現(xiàn)自己的文化，使互聯(lián)網(wǎng)適用于他們自己的文化實踐。

對于虛擬終結(jié)的另一個有力的實證是互聯(lián)網(wǎng)存檔項目的衰敗以及國家Web存檔的興起。創(chuàng)立于1996年的“互聯(lián)網(wǎng)存檔” （Internet Archive，https://archive.org）是網(wǎng)絡空間時代的典型產(chǎn)物，然而隨著網(wǎng)絡空間的消亡，它正在逐步被各個國家自建的國家Web存檔所取代。

二、數(shù)字方法研究的主要進路：遵從媒體

如果我們嚴肅地轉(zhuǎn)向?qū)ヂ?lián)網(wǎng)的研究，首先要從互聯(lián)網(wǎng)這一媒體的特殊性出發(fā)。作為媒體的互聯(lián)網(wǎng)所展現(xiàn)的特殊性并不在于麥克盧漢（Marshall McLuhan）的感官參與②對于麥克盧漢而言，媒體對感官訓練的方式是獨特的。，或者是威廉姆斯（Raymond Williams）的社會塑造的形式③對威廉姆斯而言，媒體的特殊性在它們假定的形式上，即，由占主導的參與者為了滿足興趣所形成的那些形式。例如，為了滿足收視率和廣告宣傳的需要，創(chuàng)造了“流”這一術語，意指電視如何按順序編排節(jié)目，才能使電視觀眾持續(xù)觀看。，也并非在于海爾斯（Katherine Hayles）的物質(zhì)性。互聯(lián)網(wǎng)的特性在于它從某種意義上而言是一種元媒體①列夫·馬諾維奇（Lev Manovich）也持類似觀點。，計算媒體不僅重塑其他媒體，而且還嵌入到其他媒體的生產(chǎn)形式中。

另一個出發(fā)點是互聯(lián)網(wǎng)中的研究對象通常是不穩(wěn)定的，它有一種快速、持續(xù)演進的特性。十年前盛行一時的游戲在現(xiàn)在主流的計算機和網(wǎng)絡環(huán)境下或許已經(jīng)運行不起來了，甚至完全消失了。與此同時，搶先報道（scoop）更是司空見慣。

基于對互聯(lián)網(wǎng)特殊性的深刻認識，數(shù)字方法的研究最主要的進路是遵從媒體：遵從媒體方法的演進，借鑒主流工具對原生數(shù)字對象的處理方式，以及沿著這些對象處理方法和工具的思路進行思考，以便在它們的基礎上進行重組和重構(gòu)。

遵從媒體首先要掌握媒體對象、格式、工具還有平臺，這里的對象包括URL、thread、tag、PageRank、Wikipedia edit、robots.txt、post、comment、trackback、pingback、IP address URL、whois、rimestamp、permalink、 social bookmart和 profile，等等。工具包括各類數(shù)字對象的工具，如：網(wǎng)站存檔工具、排序工具、IP-to-geo工具、爬蟲工具、自動提醒工具，等等。平臺包括搜索引擎、維基百科、社交網(wǎng)站、博客平臺等。在此基礎上，沿著媒體方法，我們將審視重新應用這些工具和平臺，我們會有一些什么樣的洞見？例如，通過超鏈接分析，即再利用主流算法的洞見，能夠完成哪種研究呢？如何運用“互聯(lián)網(wǎng)存檔”進行社交研究？為什么要捕獲網(wǎng)站的歷史？如何研究搜索引擎結(jié)果，來展現(xiàn)信任等級的變化，以及Web圈、新聞圈與博客圈之間，在來源的可靠性方面的差異呢？能夠改造geo-IP定位技術，來概述國家和文化的形象嗎？社交網(wǎng)站研究有可能揭示文化品位和偏好嗎？軟件機器人如何改變維基百科質(zhì)量內(nèi)容的維護方式呢？研究軟件機器人能做什么呢？等等。

在《數(shù)字方法》一書中，羅杰斯引入和介紹了幾種數(shù)字方法：源距離方法（source distance）、截屏紀錄片、跨圈分析方法（cross sphere analysis）、后人口統(tǒng)計方法（postdemographics），等等。

源距離方法中的“源”通常指通過超鏈接（URL）所標識的網(wǎng)頁或者其他數(shù)字對象，而“源距離”指的是“源”離某種源裁定工具（例如：谷歌搜索）所確定的頂端或者中心的距離。從某種意義上而言，“源距離”代表在某種源裁定工具下所確定的等級體系的位置。從敘事的角度而言，如果將“源”視為對一個故事的敘述，那么在搜索引擎搜索這個故事的時候，該“源”在返回結(jié)果中與頂端的距離就是“源距離”。源距離與所選擇的權威工具相關，這些權威工具通常是搜索引擎。我們以研究氣候變化的懷疑論者為例，在谷歌搜索引擎中進行源距離分析通常采取兩個步驟：首先，查詢搜索引擎，在搜索引擎中輸入查詢項“氣候變化”。剝離前100個或更多結(jié)果的描述文本和所有其他內(nèi)容，以便只保留URL。每個URL（或每個唯一的主機）都被插入到谷歌抓取器中，可以通過某種查詢策略（例如，查詢氣候變化懷疑論者的姓名），以便識別該網(wǎng)站是否氣候變化懷疑論友好的網(wǎng)站。谷歌抓取器針對每個關鍵詞，查詢每個網(wǎng)站。它以源云（source cloud）的形式輸出結(jié)果，從每個源云中刪除http或www，以便只保留通俗域名，每個域名根據(jù)提及關鍵詞的次數(shù)來調(diào)整大小。通過這種研究，我們就能發(fā)現(xiàn)在對“氣候變化”的頂端敘述中，持有氣候變化懷疑論的敘述的位置以及所占的比例等。

源距離方法能反映出某種Web認識論，因為它解決了如何通過搜索引擎來刻畫搜索源的特權問題。源距離方法還可以被用于捕獲和分析搜索源特權的機制。也就是說，對于一個給定的主題，哪些搜索源被極力推薦？如何研究引擎的返回結(jié)果？進行每次查詢時，某些源距離頂部有多遠？頂部的搜索源具有共同的特殊類型或傾向嗎？此外，從縱向的角度分析，頂部的搜索源是穩(wěn)定的嗎？在不同的時候，查詢同樣的內(nèi)容，返回結(jié)果的頂部會有波動嗎？這樣，源距離方法的研究還能擴展到對搜索引擎排名的優(yōu)化和操縱上。

截屏紀錄片方法是以網(wǎng)頁或者網(wǎng)站作為數(shù)字對象，遵循主流的Web存檔工具“互聯(lián)網(wǎng)存檔”中的“網(wǎng)站時光倒流機”，以縱向時間的角度，依照史學研究中的傳記方式，開展的網(wǎng)頁或者網(wǎng)站傳記研究。人們能夠研究單個網(wǎng)頁（或者多個網(wǎng)頁）隨時間的演化，例如，從一個頁面編入索引的日期開始收集網(wǎng)頁快照，然后，把它們像延時攝影一樣重放。羅杰斯和他的同事采用截屏紀錄片方法研究十年的谷歌首頁變遷，他們在網(wǎng)站時光倒流機中輸入Google.com，獲得十年間不同的谷歌首頁，然后將這些首頁裝載到一個幻燈片中，并以延時拍攝或截屏紀錄片的方式來播放它們，用配音講述谷歌自1998年到2007年界面變化的歷史。

跨圈分析方法以圈為其主要的研究對象。“圈”指的是一個主導的裁定工具所劃分的集合，例如由谷歌Web搜索劃定的Web圈、由Technorati劃定的博客圈，還有由谷歌新聞搜索劃定的新聞圈?？缛Ψ治鲱愃埔环N比較媒體分析，將不同的圈視為不同的媒體，在跨媒體的形式比較要點、覆蓋面和故事情節(jié)的意義上，來建構(gòu)比較媒體分析。在跨圈分析中，人們考慮在每個圈的每次查詢中，排名搜索源的情況，并對這些搜索源進行比較。對于不同的圈，可以考慮處理鏈接、新鮮度等的不同方式。此外，可以研究特定的搜索源，它居于某個圈的核心，那么它在另一個圈內(nèi)也是核心嗎？另外，通過對搜索源和源距離、跨圈之間的比較，能夠告訴我們?nèi)Φ馁|(zhì)量如何嗎？羅杰斯和他的同事利用跨圈分析開展了一項題為“議題動物”（Issue Animals）的研究，這個案例中的關鍵詞是與氣候變化相關的動物。在Web圈、博客圈和新聞圈的主流引擎中，查詢氣候變化這個術語，他們發(fā)現(xiàn)新聞圈將北極熊列為第一議題動物，這一結(jié)果在博客圈內(nèi)被放大；然而，在Web圈內(nèi)，議題動物的關鍵詞更加分散，這表明Web是一個信息更加平等的領域，不太容易聚焦一個動物作為其圖標。

后人口統(tǒng)計方法遵循社交網(wǎng)絡平臺，其關注的數(shù)字對象是在社交網(wǎng)絡平臺的個人資料中所反映的用戶愛好和品位等相關信息，后人口統(tǒng)計方法以聚合的方式研究有社會意義或文化意義的畫像，并探究它們之間的相互關系。相比于傳統(tǒng)的人口統(tǒng)計方法，后人口統(tǒng)計方法的興趣已經(jīng)從傳統(tǒng)的人口統(tǒng)計信息的種族、民族、年齡、收入和教育層次等轉(zhuǎn)向品位、興趣、喜好、群體、接受的邀請、安裝的APP以及包含在線資料及其附屬看法的其他信息。羅杰斯和他的同事采用后人口統(tǒng)計方法對奧巴馬的支持者及其競爭對手約翰·麥凱恩的支持者進行了統(tǒng)計分析，通過基于社交網(wǎng)站的個人資料信息，聚合奧巴馬和麥凱恩各自支持者的社交網(wǎng)絡信息，研究各自的支持者是否會聽相同的音樂、看相同的電影和電視節(jié)目、讀相同的書以及是否擁有相同的偶像。

在網(wǎng)絡的研究中，唯一不變的就是不斷的變化。正如前面所述，互聯(lián)網(wǎng)作為一種媒體，動態(tài)演變是其本質(zhì)特征，源距離方法、截屏紀錄片、跨圈分析方法、后人口統(tǒng)計方法都只是列舉或者說已經(jīng)開發(fā)的一些方法，這個列表還會繼續(xù)增加，此外已經(jīng)開發(fā)的方法也會不斷演變。在數(shù)字方法中，核心的原則便是遵從媒體，遵從互聯(lián)網(wǎng)的演變，沿著互聯(lián)網(wǎng)自身的數(shù)字對象和平臺的思考路線，將互聯(lián)網(wǎng)工具重新應用到我們所思考的問題和研究中去。

三、數(shù)字方法的應用：面向主導性權力平臺的綜合實踐

除了上述我們介紹的一些基本的數(shù)字方法以外，數(shù)字方法尤其關注互聯(lián)網(wǎng)的一些主導性平臺，例如谷歌、維基百科、亞馬遜、推特、臉書等。這些平臺在互聯(lián)網(wǎng)中起著主導性作用，它們構(gòu)成了互聯(lián)網(wǎng)領域的權貴。在此意義下，對這些權力平臺進行人文和社會的審視，監(jiān)督它們的算法權力，審計它們的行為就顯得極其重要了。

（一）谷歌化與谷歌的權力校勘

谷歌應該是最有權力的一個互聯(lián)網(wǎng)平臺，它是整個互聯(lián)網(wǎng)的入口。谷歌的權力源于其搜索引擎的排序算法PageRank，當用戶在谷歌中輸入查詢項的時候，谷歌根據(jù)其排序算法按順序返回結(jié)果。從這個意義上而言，谷歌決定我們能夠看到什么，或者說谷歌決定我們對互聯(lián)網(wǎng)的認識。

對于谷歌的研究，至少可以從兩個角度進行：一是谷歌對整個互聯(lián)網(wǎng)的影響，或者說谷歌化現(xiàn)象；一是谷歌搜索引擎算法的客觀公正性。

谷歌化（googlizaiton）是2003年由約翰·巴特利（John Battelle）及亞歷克斯·索克埃爾（Alex Salkever）首次提出的一個術語，用于描述谷歌搜索技術及美學擴張到其他網(wǎng)絡應用領域，甚至還滲透到類似圖書館這類的傳統(tǒng)行業(yè)。以數(shù)字方法的視角研究谷歌化，至少有三個方面值得考量：一是模式的谷歌化，二是前端的谷歌化，三是后端的谷歌化。模式的谷歌化是以服務換取資料的商業(yè)模式，谷歌搜索是免費的，但是它通過免費的服務獲取的是用戶的個人行為習慣，從而應用于個性化精準廣告推薦。這種模式在互聯(lián)網(wǎng)中已經(jīng)得到廣泛的推廣和應用。前端的谷歌化是指谷歌首頁的極簡模式，在首頁中一條簡單的搜索框，一個搜索按鈕就構(gòu)成了這個后臺擁有上百萬臺機器的巨型應用系統(tǒng)界面。這種簡潔美學成為互聯(lián)網(wǎng)中幾乎所有搜索引擎所遵循的審美，也影響到了眾多的互聯(lián)網(wǎng)應用。后端的谷歌化是指后端的推薦算法的興起，伴隨著人工專家的消亡，另外每一個主要的引擎采用的算法，都試圖效仿谷歌的PageRank，已經(jīng)出現(xiàn)了所謂的算法集中（algorithm concentration）。

谷歌搜索引擎的算法能夠決定我們對Web的認識。從媒體學者的角度而言，谷歌正在扮演著并重新定義守門人的角色。一方面，存在各種針對谷歌的引擎垃圾、內(nèi)容農(nóng)場以及谷歌炸彈等惡意操縱搜索引擎結(jié)果的行為；另一方面，針對谷歌本身的壟斷和不公平性也存在眾多的爭議。2017年6月27日，歐盟委員會以谷歌存在違反歐盟競爭監(jiān)管規(guī)定的行為為由，對谷歌進行了巨額罰款。但谷歌一直強調(diào)自身的客觀中立性，也一直承諾不進行人工干預。

在關于谷歌算法的客觀性問題上，有一個例子非常值得關注。在2004年，如果在谷歌中輸入查詢“jew”，在谷歌返回結(jié)果的首位居然是一家反猶太人的網(wǎng)站jewwatch.com。這個事件讓谷歌備受爭議，同時也遭到許多猶太人的強烈反對，然而，谷歌堅持不去人工干預搜索結(jié)果，而只是在這個搜索結(jié)果的頁面中給出一個提示框，上面寫道：“冒犯性的搜索結(jié)果。我們也同樣受此結(jié)果的困擾。”對于谷歌的這種處理方式，美國的反誹謗聯(lián)盟（ADL）給予了肯定的回應。ADL在其網(wǎng)站上的一篇標題為《谷歌對仇恨網(wǎng)站的搜索排名并非有意為之》的文章中說道：“雖然在使用某些搜索項時，確實出現(xiàn)了仇恨網(wǎng)站，這是真的，但是，仇恨網(wǎng)站的出現(xiàn)和排名，都不是由谷歌控制的。谷歌采用的技術是，基于稱為算法的一個復雜公式，對網(wǎng)站自動排名。Jewwatch等仇恨網(wǎng)站的排名，絕不是由于谷歌的刻意選擇，而完全是這個自動排名系統(tǒng)的結(jié)果?！惫雀鑼Υ耸录奶幚?，在反映出谷歌堅持不去操縱算法結(jié)論的立場的同時，也從某個角度表現(xiàn)出谷歌的兩難抉擇。

另外一個可以令谷歌逃離人們責難漩渦的事實是搜索結(jié)果的個性化。在十多年前，我們在谷歌中輸入相同的關鍵詞，得出的結(jié)果是完全相同的，然而，現(xiàn)在已經(jīng)不是如此了。由于個性化技術的興起，谷歌會存儲和分析用戶以往搜索的、瀏覽的網(wǎng)站的信息，并形成所謂的用戶個人畫像。谷歌的搜索排序算法會將個人畫像中所表現(xiàn)的偏好以及個性化因素考慮在內(nèi)，因此如今，不同的人在谷歌中輸入相同的關鍵詞，結(jié)果會不同。從敘事的角度而言，可以說是我們和谷歌共同編撰了這個故事，這樣的話，對于搜索結(jié)果，我們和谷歌共同分擔責任。

（二）國家Web的劃界與健康狀況

伴隨著網(wǎng)絡空間的消亡，在互聯(lián)網(wǎng)中，不僅僅是地理空間位置的回歸，而且還有國家、民族與政治的回歸，國家Web的興起就是一個例證。最初的互聯(lián)網(wǎng)存檔項目是跨越國家，面向全球的，然而隨著網(wǎng)絡空間的消亡，很多國家開始自己建立自己的國家網(wǎng)絡存檔。要想建立本國的Web存檔，首先面臨的一個問題便是如何定義本國的Web，或者說如何為本國Web劃界。

以中國為例，我們可以將中國的國家Web按照如下四種方式進行定義：

（1）使用漢語或者滿語、蒙語、藏語等其他中國少數(shù)民族語言，并且在中國注冊的網(wǎng)站。

（2）使用任意語種，并且在中國注冊的網(wǎng)站。

（3）使用漢語或者滿語、蒙語、藏語等其他中國少數(shù)民族語言，在中國以外地區(qū)注冊的網(wǎng)站。

（4）使用任意語種，在中國以外地區(qū)注冊，主題與中國相關的網(wǎng)站。

我們會發(fā)現(xiàn)這四種方式定義的網(wǎng)站差異會較大，且從可行性而言，檢測注冊地和檢測語種已經(jīng)有比較好的技術，然而判定討論的主題是否和中國相關還存在一定的難度。在這種意義上，可以說，我們目前對于如何定義國家Web還沒有一個非常精確的概念。在各國開展國家Web存檔實踐中，通常會結(jié)合一些專家篩選和人工判斷的過程。

在國家Web的視域下，我們可以開展許多的研究，例如：我們可以研究某個國家Web的審查制度是否有效，國家Web中占據(jù)主導地位的工具文化情況如何，國家Web的演進，不同國家的國家Web對比研究，等等。除了這些研究領域，羅杰斯在《數(shù)字方法》一書中提出了一種國家Web的健康指數(shù)研究。

在對國家Web劃界后，我們可以研究國家Web的一些特征。從內(nèi)容的角度，可以研究語種、網(wǎng)頁大小、網(wǎng)頁的壽命、每個站點的網(wǎng)頁數(shù)量、每個域名的站點數(shù)量和頁面數(shù)量；從鏈接的角度，可以研究導入鏈接和導出鏈接數(shù)量、排序、Web結(jié)構(gòu)等；從技術的角度，可以研究URL長度、HTTP的響應碼、媒體和文檔格式、圖像格式、不能夠正確爬取的站點、Web服務器軟件、動態(tài)網(wǎng)頁的編程語言等。基于這些Web特征，羅杰斯構(gòu)建了一個國家Web的健康指數(shù)。

（三）維基百科與文化參照

維基百科成立于2001年，到目前為止，大約有270種語言版本（或wikipedia.org的子域，比如，中文的zh.wikipedia.org）?？死锼埂ぐ驳律–hris Anderson）在《長尾理論》一書中認為：“維基百科可以說是世界上最好的百科全書：它甚至比大英百科全書更大、更新，在很多情況下，更具深度?！本S基百科上約有2000萬個詞條，維基百科的規(guī)模在Web上是龐大的，這顯而易見。它的至關重要的意義是，維基百科的詞條出現(xiàn)在谷歌搜索引擎結(jié)果的頂部，這使得《大英百科全書》的負責人將谷歌和維基百科的關系稱為“共生性的”。維基百科有三大核心原則：觀點中立（NPOV）、可驗證性和非原創(chuàng)性研究。觀點中立意味著，所編撰的詞條代表公正、均衡、盡可能沒有偏見。所有重要的觀點，都是發(fā)表過的，都有可靠的資料來源。可驗證性原則要求，所有的詞條都立足于維基百科以外的可靠的資料來源，經(jīng)常會用導出鏈接轉(zhuǎn)接到那些資料來源。據(jù)說，讀者應該獨立于編輯所寫的內(nèi)容，能夠核實材料，如果發(fā)現(xiàn)錯誤，自己就能變成編輯并糾正錯誤。第三個原則是非原創(chuàng)性研究：維基百科是一個現(xiàn)有的“公認知識”的來源。這三個原則意味著它具有隨時間流逝的累積效應。維基百科指出，在更多的用戶撰稿時，撰稿人的目標是達成共識，內(nèi)容應該變得更加可靠和中立。

關于維基百科的研究，通常會從如下兩個角度開展：一是維基百科如何授權用戶為“編輯”，二是維基百科鼓勵繼續(xù)參與的協(xié)作回報文化。從數(shù)字方法出發(fā)，維基百科中的協(xié)作機制、編輯文化、組織體系、軟件機器人等都是非常值得關注和研究的。

在關于維基百科的質(zhì)量和準確性的研究中，有不少研究者采取故意插入錯誤的方法，來測試和檢驗維基百科的體系。有一位研究人員通過插入錯誤檢驗準確性時，試圖戰(zhàn)勝此類自動化的監(jiān)控實踐，他通過把錯誤插入詞條中，每次只插入三種錯誤，每組的插入，都來自一個不同的IP地址，最后的研究結(jié)果發(fā)現(xiàn)，大約有一半的不準確得到了糾正。

另外，基于維基百科，我們可以開展文化參照的研究。羅杰斯在《數(shù)字方法》一書中介紹了一個具體的維基百科詞條在不同語種的維基百科之間的斗爭與演化的研究。這個詞條是關于1995年7月發(fā)生在波斯尼亞和黑塞哥維那的斯雷布雷尼察事件，圍繞這個事件，荷蘭語、英語、波斯尼亞語、克羅地亞語、塞爾維亞語、塞爾維亞克羅地亞語等不同語種的維基百科都創(chuàng)立了相應的詞條，然而詞條本身無論是標題、內(nèi)容、犧牲者人數(shù)、圖片、情緒態(tài)度等都存在著較大的不同，且隨著時間變化，各語種的詞條相互間發(fā)生較大的關聯(lián)，甚至引發(fā)了激烈的編輯戰(zhàn)。

四、結(jié)語

對互聯(lián)網(wǎng)的研究可謂已經(jīng)汗牛充棟，然而類似理查德·羅杰斯所發(fā)起的“數(shù)字方法”的研究應該算是獨樹一幟。數(shù)字方法研究的認識論相對于其他互聯(lián)網(wǎng)研究有所區(qū)分。不同于許多互聯(lián)網(wǎng)研究所基于的網(wǎng)絡空間理論，數(shù)字方法研究認為虛擬已經(jīng)終結(jié)，網(wǎng)絡空間正與物理空間發(fā)生深度融合，網(wǎng)絡空間時代已經(jīng)終結(jié)，互聯(lián)網(wǎng)進入了后網(wǎng)絡空間時代——一個位置感知、情境感知的網(wǎng)絡時代。正是在這種認識下，數(shù)字方法的研究完全采用了不同的研究方法，也甚至將研究的基準不僅可以放在實地，也可以直接在網(wǎng)絡上完成。

此外，在以往的互聯(lián)網(wǎng)研究領域中，科學技術與人文社會研究存在一個明確的分界線。人文社會研究會忽略互聯(lián)網(wǎng)一些本質(zhì)的、原生的數(shù)字對象，例如超鏈接、點贊、評論等，這種研究實質(zhì)上沒有抓住互聯(lián)網(wǎng)的本質(zhì)。數(shù)字方法研究的核心進路便是遵從媒體，遵從互聯(lián)網(wǎng)媒體的本質(zhì)屬性，把握互聯(lián)網(wǎng)中的原生數(shù)字對象、工具和平臺，以此為基礎開展各類人文社會研究。此外數(shù)字方法研究也遵從互聯(lián)網(wǎng)的快速演變特性。數(shù)字方法在實踐過程中，已經(jīng)積累了類似于源距離方法、截屏紀錄片、跨圈分析方法、后人口統(tǒng)計方法等許多具體的研究方法。用新的認識論，裝備上新的研究方法，數(shù)字方法對谷歌、維基百科、臉書、推特、Youtube、亞馬遜等主導性的網(wǎng)絡平臺進行更深入的研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)字方法的興起：Web在社會與文化研究中的重定位

一、數(shù)字方法的認識論基礎：虛擬的終結(jié)

二、數(shù)字方法研究的主要進路：遵從媒體

三、數(shù)字方法的應用：面向主導性權力平臺的綜合實踐

（一） 谷歌化與谷歌的權力校勘

（二） 國家Web的劃界與健康狀況