王 晶
(中山大學,廣州 510275;重慶郵電大學,重慶 400065)
提 要:近年來,我國的信息通信技術(ICT)產(chǎn)業(yè)高速發(fā)展,如何應用新媒體中的科學傳播話語建構“信息通信技術”這一概念成為本研究的課題。本文通過數(shù)據(jù)挖掘建立新媒體ICT 科學傳播語料庫,應用T-LAB 軟件展開類符/形符比、詞頻、語義韻和主題詞分析,考察“信息通信技術”在語料庫中如何表現(xiàn),并對語料庫做出整體的聚類分析,以此反映當下ICT 科學傳播話語所涵蓋的主要內(nèi)容。
由于生產(chǎn)、復制和傳播的便捷性以及來源的多元性,新媒體中的科學傳播文本與傳統(tǒng)媒介相比數(shù)量極其龐大。如此大數(shù)據(jù)的科學傳播文本,對于信息通信技術(ICT)知識的傳播和普及無疑很有益處?!皢蝹€文本是微不足道的,傳媒的影響力是通過累積而來,是通過對某一事件的因果關系、事件主體反復刻意的描述以及對讀者的反復教導等手段來完成的?!保‵airclough 1989:54)對于這樣的研究對象,大數(shù)據(jù)的語料庫是開展話語分析的最佳輔助工具。本研究基于大數(shù)據(jù)挖掘和語料庫,運用大量真實的文本數(shù)據(jù)厘清ICT 科學傳播的話語現(xiàn)狀,并探究新媒體中的科學傳播話語如何建構“信息通信技術”這一科學概念。
在信息社會,新媒體在建構ICT 的科學概念、培育公眾的ICT 科學素養(yǎng)方面起著舉足輕重的作用。第九次中國公民科學素質調查報告①顯示,公民利用互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)獲取科技信息的比例達到53.4%,比2010年的26.6%提高一倍多,已經(jīng)超過報紙(38.5%),僅次于電視(93.4%),位居第二?;ヂ?lián)網(wǎng)已成為具備科學素質公民獲取科技信息的第一渠道。
Gerbner 指出,傳媒對讀者的影響是長久深遠的,這種影響起初是細微的,但隨著時間的推移和文字或圖像的反復,其影響力將呈幾何式的增長(Gerbner 1986)。傳媒與讀者的關系復雜且相互影響。Fairclough(1989),Conboy(2010)等都曾論述過傳媒、話語與讀者的關系,并且一致認為,傳媒會根據(jù)其代表的價值觀和權力關系用話語對現(xiàn)實進行重構,也會根據(jù)特定的讀者群來選擇特定的語言變體,從而幫助讀者實現(xiàn)身份認同,并潛移默化地建構讀者的思想。但讀者并不總是被動地被構建,不總是信息的被動接收者,讀者也能影響傳媒的話語策略和文體方式。意義是在文本和讀者的互動中創(chuàng)造出來的(McⅠlvenny 1996),或者說,傳媒、信息與讀者通過話語實現(xiàn)相互的建構。在新媒體的特定語境下,話語和讀者在科學傳播的過程中相互影響和掣肘,從而完成對科學概念的建構。
新媒體所傳播的科學內(nèi)容涵蓋各門各類,非常龐雜,我們選擇ICT 領域作為研究對象的理由有二。首先,信息通信技術是第三次和第四次工業(yè)革命的技術基礎。其次,根據(jù)2016 移動互聯(lián)網(wǎng)網(wǎng)民科普獲取及傳播行為研究報告②,從2016年度網(wǎng)民對科普內(nèi)容的關注度分布上看,信息科技成為移動端網(wǎng)民最關注的科普主題,用戶關注份額為24.8%。這也是筆者將ICT 領域的科學傳播文本作為研究對象的一個重要原因。
基于網(wǎng)站流量和Alexa 排名,我們從中國的科學傳播綜合網(wǎng)站中選出12 個最有影響力且最具代表性的網(wǎng)站,作為收集語料庫文本的平臺,并使用網(wǎng)絡爬蟲軟件抓取出共7,276 個ICT 科學傳播文本,這些文本的發(fā)布時間段是2015年1月1日至2016年12月31日之間。運用 T-LAB 軟件基于以上文本建立新媒體ICT 科學傳播語料庫,類符(types)123,184 個,形符(tokens)5,888,541 個,類符/形符比(type-token ratio,TTR)為0.021,可見該語料庫中的文本詞匯密度(lexical density)并不高。其中出現(xiàn)頻率僅一次的形符數(shù)量為62,178 個。值得注意的是,T-LAB 的詞匯密度計算不包括停用詞。
首先考察“信息通信技術”這一概念在語料庫中的表現(xiàn)?!?0世紀70年代以后,語言學研究……將詞匯看成語言的核心”(陳功 梁茂成2017:18),我們將“信息”“通信”“技術”拆分并兩兩組合之后進行考察,得出各個詞及詞組的詞頻(參見表1)?!靶畔⑼ㄐ偶夹g”一詞(包括“信息和通信技術”“信息與通信技術”的形式)雖然是本語料庫的主題,但在所有文本中出現(xiàn)的頻數(shù)卻很低,只有24 次,而其英文縮寫ICT 出現(xiàn)的頻數(shù)反而較高,達到270 次。這說明新媒體的科學傳播更傾向于用便捷的英文縮寫來代替。而且“信息通信”這種多詞組合在科學傳播文本中也并不受青睞,總共出現(xiàn)54 次,因此,“信息通信技術”和“信息通信”可以不作為研究考察的重點。
表1 本語料庫及參照語料庫CNC 的“信息通信技術”詞頻對比
在很多文本中,常常將“信息技術”與“通信技術”分開表述,而這二者在科學傳播中的分布并不均衡,“信息技術”儼然成為關注的重點,出現(xiàn)的頻數(shù)高達1,711 次,而“通信技術”只有264次,這大概與“信息技術”和“通信技術”的學科側重點有關。相較之下,信息技術與公眾的生活更為接近,作為科學傳播的內(nèi)容更能引起讀者的興趣,這反映出當下新媒體科學傳播中“讀者中心”的發(fā)展傾向。尤其值得一提的是,“信息化”一詞出現(xiàn)的頻率非常高,甚至超過“信息技術”,達到3,123次,可見信息化是當下網(wǎng)絡傳播中的一個熱點。
圖1 “技術”的搭配情況
此外,“信息”“通信”“技術”在語料庫中的詞頻數(shù)都很高,但這3 個詞的詞頻率需要和參照語料庫進行對比,才能顯示出如此高的詞頻率是本語料庫特有還是普遍的現(xiàn)象。本研究所選擇的參照語料庫為國家語委現(xiàn)代漢語語料庫,簡稱CNC③。通過和CNC 的對比可以看出,“信息”“通信”兩詞的詞頻率明顯高于CNC,說明本語料庫與信息通信領域存在緊密的關系。但“技術”的詞頻率略低于CNC.“技術”是比較寬泛的概念,可以和很多領域的詞搭配使用,并不限定于信息通信領域,因此其頻率的高低不能反映本語料庫的核心內(nèi)容,這一點可從“技術”在本語料庫中的搭配看出。顯然,不能孤立地看語料庫中的詞,還須考察該詞的搭配。早在20世紀50年代,英國語言學家Firth 就提出“搭配”的概念,他認為搭配是詞語之間的結伴關系。在語料庫索引行中,以節(jié)點詞為中心,左右的詞數(shù)之和為跨距(span),跨距內(nèi)每個位置上出現(xiàn)的詞即節(jié)點詞的搭配詞。根據(jù)Baker 等人的研究(2013:36),本研究將跨距設置為5。圖1清晰地顯示出主題詞“技術”在本語料庫中的主要搭配:在排名前19 位的各個搭配詞中,大部分(13 個)都指向信息通信專業(yè)范疇的技術內(nèi)容的搭配,如虛擬現(xiàn)實、人工智能、AR,成像等,兩個形容詞搭配(先進、成熟)具有明顯的積極語義傾向,這可以顯示當下在科學傳播中對信息通信技術的態(tài)度是正面、褒揚的。剩下的4 個搭配(利用、研發(fā)、試驗、手段)都不具備強烈的語義傾向,較為中性??梢?雖然“技術”一詞在本語料庫中的詞頻率略低于CNC,但其語義指向集中,且非常明確,與語料庫的主題密切相關。
除分析“技術”一詞的搭配情況外,進一步考查“信息”“通信”兩個詞的搭配情況能提供科學傳播文本中對于信息通信技術這一主題更多的信息??茖W傳播中對于“信息”的表述更偏向與公眾日常生活相關的內(nèi)容,如“身份證”“辦公室”等。即使“信息技術”一詞在語料庫中的頻數(shù)達到1,711 次,也未能排進“信息”一詞的搭配熱詞前20 位。20 個搭配詞中,動詞占據(jù)半壁江山(提取、傳遞、交換、泄露、竊取、查詢、發(fā)送、收集、獲取、傳輸),分析這些動詞的索引行可以看出,其中8 個是中性詞匯,另2 個具有強烈的負面語義韻(semantic prosody)(泄露、竊?。!靶孤丁薄案`取”兩個詞頻繁地與“風險”“安全”“擔心”“摧毀”等詞共現(xiàn),體現(xiàn)出科學傳播文本對于個人信息、數(shù)據(jù)信息安全事件的充分關注。與之相應,“安全”一詞位居“信息”搭配熱詞的第19 位,可以看出,在對“信息”相關的科學傳播內(nèi)容中,科學原理并不占據(jù)重要的地位,反而是與民生相關的信息安全、信息服務等內(nèi)容成為傳播的主要對象,這與“通信”一詞的情況正好相反。
圖2 “通信”的搭配詞
在“通信”的搭配熱詞中(參見圖2),“信息”與“技術”都位于前20 位,分別是第10 位和第15位,這說明,當“通信”一詞出現(xiàn)的時候,兩個詞的共現(xiàn)頻率也比較高。這20 個搭配熱詞的分布充分體現(xiàn)出科學傳播中關于“通信”的內(nèi)容大致分布在3 個話題中,首先是基礎通信設施和運營商,這包括“基站”“寬帶”“電信”“運營商”“網(wǎng)絡”“業(yè)務”“服務”“互聯(lián)網(wǎng)”“公司”“手機”和“用戶”共11 個詞,其次是與通信技術有關的內(nèi)容,包括“傳輸”“無線”“信息”“技術”,最后是和通信的大環(huán)境相關的內(nèi)容,如“工信部”“中國”“發(fā)展”等。這與“信息”主要搭配公眾民生的選擇大相徑庭,“通信”一詞的共現(xiàn)熱詞更多的是從宏觀或者技術的角度來展開。以上的分析呈現(xiàn)出本語料庫中單個文本分析無法顯示的詞語搭配傾向,雖然人們習慣將“信息通信技術”視為一個整體,但在實際的新媒體科學傳播中,傳播者對這一概念所包含的3 個詞儼然區(qū)別對待,這或許是文本生產(chǎn)者自己都沒有意識到的。“詞語像人類一樣聚群”(梁茂成等2010:86),在語言運用的橫向序列中,一些詞總是與其他詞共同使用,具有很高的共現(xiàn)頻率;而在縱向聚合關系中,一些特定的詞語群也總是會被觸發(fā),表達相同或相似的主題。通過T-LAB對以上3 個詞的索引及搭配熱詞的分析,揭示出隱藏在海量文本下的語用習慣,為我們對“信息通信技術”科學傳播話語的認識開啟新的視角。
雖然對“信息通信技術”這一概念在本語料庫中的話語狀況已有基本的認識,但本語料庫的文本爬取工作是以筆者選取的64 個ICT 關鍵詞為標準展開,這64 個ICT 關鍵詞涵蓋ICT 領域的各個方面。要對本語料庫的內(nèi)容有一個整體的把握,僅僅考察“信息通信技術”概念顯然不夠,還需要對文本進行整體的聚類主題分析,以便研究者對龐雜的ICT 科學傳播所呈現(xiàn)的主題有了解。T-LAB 軟件的基礎文本主題分析功能(thematic analysis of elementary contexts)最終的聚類結果顯示,ICT 科學傳播文本共聚焦于9 個主題,各主題的信息參見表2。
從各主題的文本數(shù)量來看,排在前3 位的主題分別是網(wǎng)絡安全(15.12%)、市場(14.97%)、人工智能(14.57%)。這3 個主題占據(jù)整個語料庫近一半的文本,可見ICT 的科學傳播中側重于以上3 個方面的普及。根據(jù)《2016年泰爾 ICT 深度觀察》,“自2012年以來,全球網(wǎng)絡與信息安全事件數(shù)量連年增加。截止到2015年10月,安全事件數(shù)量達到近6000萬起,較2014年增加38%,超過2012年安全事件數(shù)量的2 倍”(中國信息通信研究院2016:175)。目前,網(wǎng)絡安全形勢不容樂觀,攻防對抗不斷升級,增加網(wǎng)絡安全教育成為迫在眉睫的事情,因此這一主題成為ICT 科學傳播的首要關注也在情理之中。排在后3 位的主題分別是數(shù)字出版(7.23%)、手機電腦及操作系統(tǒng)(7.85%)、運營商與監(jiān)管(7.92%),這是ICT科學傳播話語中相對較少關注的領域。
表2 語料庫聚類主題信息
除了文本在各個主題內(nèi)的分布,我們還可以考察各個主題中文本的來源情況。本語料庫中的文本爬取自12 個科學傳播網(wǎng)站,圖3是文本來源與文本所屬主題的分布柱狀圖,該柱狀圖并未顯示各來源的文本在數(shù)量上的差別,而是顯示每個科學傳播網(wǎng)站中的文本在各個主題的分布情況。雖然圖中顯示人工智能與量子通信所占的比重最大,但當把各個來源的文本數(shù)量考慮進來時,各個主題在語料庫中所占比重就與此圖所顯示的不同??梢钥闯?主題分布最為單一的是科學松鼠會(SONGSHUHUI),該網(wǎng)站的文本全部是人工智能的主題,網(wǎng)站的文本數(shù)量最少,只有7 篇,這7 篇中有4 篇是名為“計算的極限”的系列文章,出自同一個作者,還有2 篇是關于阿爾法狗,1 篇關于奧創(chuàng),有限的文本與作者導致其主題的單一性。值得注意的是,與科學松鼠會屬于同一創(chuàng)始人的果殼網(wǎng)(GUOKR,86篇)雖然有5 個主題,但各主題間的分布極不均衡,人工智能主題依然占據(jù)該網(wǎng)站絕大多數(shù)的文本。通過科學傳播文本主題的對比,從側面反映出這兩個網(wǎng)站的同源本質,即使一個為公益網(wǎng)站,一個為商業(yè)網(wǎng)站,但在科學傳播的主題偏好上,仍然具有極大的相似度。
主題分布不均的還有新浪網(wǎng)(SINATECH)、微科普(WKEPU)與中國科普博覽(KEPU)。新浪網(wǎng)(204 篇)與微科普(29 篇)的絕大部分文本分布在人工智能與量子通信主題上,中國科普博覽除了這兩個主題之外,還有相當一部分的文本是關于網(wǎng)絡安全。在這12 個科學傳播網(wǎng)站中,主題最全面、分布最均衡的是騰訊科學(TECHQQ),不僅涵蓋9 大科學傳播的主題,難能可貴的是這9 個主題的柱狀格幾乎是均等的。作為網(wǎng)絡科學傳播事業(yè)的領頭羊,騰訊科學在傳播文本的數(shù)量(4,580 篇)上遙遙領先于其他的科學傳播網(wǎng)站;在文本的質量上,從把握科學傳播主題的均衡性來看,也對其余網(wǎng)站有壓倒性優(yōu)勢。對文本主題的分布情況分析進一步證明,騰訊科學網(wǎng)站在ICT 傳播中起著重要的作用。另外一個主題分布較為均衡的網(wǎng)站是科普中國(KEPUCHINA),該網(wǎng)站為本語料庫只提供24 個文本,在科學傳播文本的生產(chǎn)數(shù)量上還明顯不足。
圖3 各來源文本的主題分布情況
我們不僅可以通過聚類分析了解本語料庫的主題以及其文本分布,還可以查看各個主題之間的關系。通過關聯(lián)分析(correspondence analysis),能在二維圖表(圖4)中顯示以上9 個主題之間的親疏遠近關系,從而將話語中隱含的各個主題的關聯(lián)用可視化的方式呈現(xiàn)出來。
圖4 9 個聚類主題的關系二維圖
關聯(lián)分析能發(fā)現(xiàn)在大量數(shù)據(jù)集中的關聯(lián)性或相關性,從而描述語料庫中某些屬性同時出現(xiàn)的規(guī)律和模式。在圖4中,以 X 軸和 Y 軸的0 點為中心,9 個聚類主題分布在X 軸與Y 軸的正負兩極,各主題距離越近相關性就越高,反之則相關性越低。我們展開關聯(lián)分析的目的是要找出具有強相關性的主題,即哪個主題出現(xiàn)時,另一個主題有可能共現(xiàn)。關聯(lián)分析的結果顯示,9 個主題中關聯(lián)系數(shù)最高的是互聯(lián)網(wǎng)社交—投資(0.467),其次是手機電腦及操作系統(tǒng)—網(wǎng)絡安全(0.414)、手機電腦及操作系統(tǒng)—市場(0.357)。呈弱相關的關聯(lián)系數(shù)集中在運營商與監(jiān)管這個主題上,分別是運營商與監(jiān)管—人工智能(0.000)、運營商與監(jiān)管—市場(0.024)、運營商與監(jiān)管—量子通信(0.027)。以上對聚類主題的關聯(lián)分析可幫助研究者探索ICT 科學傳播文本的各個主題在生產(chǎn)過程和傳播過程中的潛在規(guī)律,如科學文本作者在創(chuàng)作互聯(lián)網(wǎng)社交主題相關的文本時,最可能同時寫到的是與投資相關的內(nèi)容;而在創(chuàng)作人工智能主題的科普文本時,基本不會提及運營商與監(jiān)管方面的話題。
新媒體中的ICT 科學傳播話語是一個龐雜、多元、動態(tài)、碎片化且高速增長的研究對象,傳統(tǒng)的話語分析方式難以全面地呈現(xiàn)其特征與話語體系。本研究嘗試將語料庫語言學、話語分析和數(shù)據(jù)挖掘等領域嫁接起來,在T-LAB 軟件的輔助下,探索新媒體話語對ICT 科學知識的建構。本研究發(fā)現(xiàn),“信息通信技術”和“信息通信”在真實的ICT 科學傳播中并不受青睞,“信息技術”和“信息化”是更為常用的詞匯,而且“信息”“通信”“技術”的搭配和語義韻傾向差別較大。此外,語料庫整體的聚類分析結果顯示,“網(wǎng)絡安全”“市場”“人工智能”這3 個大類是ICT 科學傳播中最側重的內(nèi)容,“數(shù)字出版”“手機電腦及操作系統(tǒng)”“運營商與監(jiān)管”方面則較少涉及,而各科學傳播網(wǎng)站文本的主題分布并不均衡。從整體來看,網(wǎng)絡ICT 科學傳播表現(xiàn)最突出的是騰訊科學,不僅文本數(shù)量遙遙領先,主題分布也最為均衡。Stubbs 曾說,“重復的話語結構能證明某種評價性信息不僅僅是個人的判斷,也不是乖僻的論斷,而是在話語社區(qū)中具有廣泛的共識。一個單詞、短語或句式可以引發(fā)一種文化定型”(cultural stereotype)(Stubbs 2001:215)。在新媒體中重復出現(xiàn)的話語(結構)會日積月累地、潛移默化地影響它的讀者。通過語料庫的分析,能清晰地呈現(xiàn)其對文本對象,即ICT 的傳播定型和塑造,為當下的ICT 科學傳播話語做出描畫和解析。
注釋
①http://education.news.cn/2015-09/19/c_128247007.htm,2017.
②http://news.qq.com/cross/20170303/K23DV6O1.html#2,2017.
③http://www.aihanyu.org/cncorpus/index.aspx,2017.