官方微博與門戶網(wǎng)站新聞?wù)Z體的計(jì)量對(duì)比分析

2014-10-22 00:28張瑛趙雪

理論與現(xiàn)代化 2014年4期

張瑛+趙雪

摘要：官方微博新聞與門戶網(wǎng)站新聞同屬于網(wǎng)絡(luò)新聞?wù)Z體，二者的詞匯密度均在80%以上，擬聲詞和嘆詞的總比值都很低，而陳述句的總比值都很高。二者的不同之處是官方微博新聞比門戶網(wǎng)站新聞更傾向于書面語體。官方微博新聞的詞匯密度、平均詞長、成語的總比值均高于門戶網(wǎng)站新聞，詞型例比、3字及3字以下詞的總比值、慣用語的總比值均低于門戶網(wǎng)站新聞，11個(gè)詞類的詞型使用頻率遠(yuǎn)不及門戶網(wǎng)站新聞均衡，多用長句，句長分布比門戶網(wǎng)站新聞更集中、更接近，而破碎度和直接引語的數(shù)量均低于門戶網(wǎng)站新聞。

關(guān)鍵詞：官方微博新聞；門戶網(wǎng)站新聞；語體；計(jì)量；對(duì)比

中圖分類號(hào)：G20 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1003-1502（2014）04-0107-05

一、引言

官方微博新聞是由微博平臺(tái)官方認(rèn)證的企業(yè)、機(jī)構(gòu)、媒體等非個(gè)人組織發(fā)布的新聞。在官方微博新聞中，不僅有文字，還可以有圖片、視頻、網(wǎng)絡(luò)鏈接等。一般來說，每篇官方微博新聞的字?jǐn)?shù)限制在140字內(nèi)。門戶網(wǎng)站新聞是以各大門戶網(wǎng)站名義發(fā)布的新聞。與官方微博新聞一樣，門戶網(wǎng)站新聞中也可以有文字、圖片、視頻、網(wǎng)絡(luò)鏈接等。然而與官方微博新聞不同的是，門戶網(wǎng)站新聞并沒有篇幅上的限制。

計(jì)量語體分析就是采用計(jì)量的方法來研究語體。計(jì)量語體分析“隱含著對(duì)比的原則，因?yàn)槿魏巍吭谡Z體研究中作用的發(fā)揮和大小，取決于與另外一個(gè)或幾個(gè)量的對(duì)比”。[1]雖然官方微博新聞和門戶網(wǎng)站新聞都屬于網(wǎng)絡(luò)新聞，但是由于它們?cè)趥鞑シ绞?、目的以及受眾等方面不盡相同，所以二者在語體上也存在著一些差異。本文在真實(shí)語料的基礎(chǔ)上，采用計(jì)量的方法對(duì)官方微博新聞與門戶網(wǎng)站新聞進(jìn)行對(duì)比分析，探討它們?cè)谡Z體上的差異。

二、語料及研究方法

本文語料包括官方微博新聞樣本和門戶網(wǎng)站新聞樣本兩部分。官方微博新聞樣本選自新浪新聞中心官方微博的“頭條新聞”，我們隨機(jī)選取了其中的100篇原創(chuàng)新聞為樣本（共12381字），組建了官方微博新聞文本語料集合，命名為GFWB。門戶網(wǎng)站新聞樣本選自中國廣播網(wǎng)、中國新聞網(wǎng)、新華網(wǎng)等門戶網(wǎng)站，我們隨機(jī)抽樣選取了其中的100篇原創(chuàng)新聞為樣本（共142382字），組建了門戶網(wǎng)站新聞文本語料集合，命名為MHWZ。

在獲取樣本之后，我們采用中國傳媒大學(xué)“有聲媒體語言資源網(wǎng)傳媒語料庫”的在線分詞標(biāo)注系統(tǒng)，①按照粗顆粒度②對(duì)GFWB和MHWZ進(jìn)行切詞和詞語標(biāo)注，提取出詞匯層面和語法層面語體標(biāo)記的數(shù)據(jù)；在數(shù)據(jù)分析的基礎(chǔ)上，我們探討了官方微博新聞與門戶網(wǎng)站新聞?wù)Z體上的差異。

三、詞匯層面上的差異

我們選取詞匯密度（lexical density）、詞型例比（type and token ratio）、詞長、縮略語、成語和慣用語，作為官方微博新聞與門戶網(wǎng)站新聞詞匯層面的語體標(biāo)記。

（一）詞匯密度

學(xué)者Ure[2]將詞匯密度定義為文本實(shí)詞數(shù)與文本詞匯總數(shù)之比。她的研究表明，英語口頭語體的詞匯密度在40%以下，書面語體的詞匯密度高于口頭語體。詞匯密度的計(jì)算公式如下：

詞匯密度=■ （公式1）

按照公式1，我們計(jì)算出GFWB的詞匯密度為82.06%，MHWZ的詞匯密度為80.87%。官方微博新聞的詞匯密度略高于門戶網(wǎng)站新聞。一般來說，詞匯密度越大，書面化程度就越高。

（二）詞型例比

詞型例比是詞例數(shù)（type）與詞型數(shù)（token）之比。詞型例比越低，詞匯就越豐富，“書面語體一般比較舒展、嚴(yán)密，詞匯量也較口語豐富”。[3]詞型例比的計(jì)算公式如下：

詞型例比=■ （公式2）

按照公式2，我們計(jì)算出GFWB中的詞型例比為2.47，MHWZ中的詞型例比為7.22。官方微博新聞中的詞型例比明顯低于門戶網(wǎng)站新聞。也就是說，在詞數(shù)相同的情況下，官方微博新聞中的詞匯比門戶網(wǎng)站新聞更豐富。

（三）詞長

我們?cè)谠~長這部分主要分析了平均詞長和詞長分布。

平均詞長是總字?jǐn)?shù)與總詞數(shù)之比。書面語體的平均詞長高于口頭語體。平均詞長的計(jì)算公式如下：

平均詞長=■ （公式3）

按照公式3，我們計(jì)算出GFWB的平均詞長為1.82，MHWZ中的平均詞長為1.68。官方微博新聞的平均詞長略高于門戶網(wǎng)站新聞。

我們還對(duì)GFWB和MHWZ中的詞長分布進(jìn)行了統(tǒng)計(jì)，見下表：

從表1來看，GFWB中1字詞和2字詞的總比值略低于MHWZ，而3字詞以上（含3字詞）的總比值卻高于MHWZ。GFWB和MHWZ中3字及3字以下詞的總比值分別是0.95698和0.98174。這說明官方微博新聞更傾向于使用3字及3字以上的詞，門戶網(wǎng)站新聞則更傾向于使用3字及3字以下的詞?！霸~長在一定程度上代表了語言單位的復(fù)雜性”。[4]鄧耀臣、馮志偉的研究表明，“音節(jié)數(shù)較少（小于等于3）的詞匯在口語體中的平均使用頻數(shù)明顯高于書面語體”。

（四）縮略語、成語和慣用語

縮略語是“從已相對(duì)穩(wěn)固了的較復(fù)雜的詞或短語中抽取其主要成分，形成簡(jiǎn)短的詞語，表示與原詞語相同的意義”。[5]“成語是指歷史上沿用下來或群眾中長期流傳、見解精辟并含有特定意義的固定短語”。[6]“慣用語是口語中形成的表達(dá)一種習(xí)慣含義的固定詞組”。[6]（143）

我們對(duì)GFWB和MHWZ中縮略語、成語和慣用語的總比值進(jìn)行了統(tǒng)計(jì)?？偙戎荡砟愁愒~語在語料中所占的比重。詞語的總比值越高，使用頻次就越高。GFWB和MHWZ中的縮略語、成語和慣用語的總比值見下表：

根據(jù)表2中的數(shù)據(jù)，我們計(jì)算出GFWB中縮略語的總比值比MHWZ高79.11%，成語的總比值比MHWZ高5.52%，而慣用語的總比值則比MHWZ低3.81%。③

官方微博新聞中縮略語的總比值較高，這是由于受篇幅所限，官方微博新聞在語言上力求簡(jiǎn)練。而縮略語形式短小，恰恰符合了官方微博新聞篇幅上的要求。

官方微博新聞中成語的總比值高于門戶網(wǎng)站新聞，而慣用語的總比值則低于門戶網(wǎng)站。通常，成語多用于書面語體；慣用語多用于口頭語體。

四、語法層面上的差異

我們選取詞類、句長、破碎度和句類，作為官方微博新聞與門戶網(wǎng)站新聞?wù)Z法層面的語體標(biāo)記。

（一）詞類

按照朱德熙（1982）詞類劃分標(biāo)準(zhǔn)，[7]我們將GFWB和MHWZ中的詞劃分為17個(gè)類別。我們對(duì)這17個(gè)詞類進(jìn)行了t-檢驗(yàn)（置信區(qū)間取95%）。檢驗(yàn)結(jié)果表明， GFWB中的代詞、方位詞、介詞、連詞、語氣詞、助詞與MHWZ并無統(tǒng)計(jì)學(xué)意義上的差異，這6個(gè)詞類在GFWB和MHWZ中的均值、總比值都很接近。也就是說，在詞數(shù)相同的前提下，這6個(gè)詞類的詞型豐富程度在GFWB和MHWZ中相差無幾，也許與這6個(gè)詞類都屬于封閉性詞類④有關(guān)。檢驗(yàn)結(jié)果還表明，GFWB與MHWZ中名詞、處所詞、時(shí)間詞、區(qū)別詞、數(shù)詞、量詞、動(dòng)詞、形容詞、副詞、擬聲詞、嘆詞的數(shù)據(jù)具有統(tǒng)計(jì)學(xué)意義上的差異。我們對(duì)GFWB和MHWZ中的這11個(gè)詞類的總比值、均值和標(biāo)準(zhǔn)差進(jìn)行了統(tǒng)計(jì)，見下表：

從表3來看，雖然名詞、處所詞、時(shí)間詞、區(qū)別詞、數(shù)詞、量詞、動(dòng)詞、形容詞、副詞、擬聲詞、嘆詞這11個(gè)詞類的總比值差異較小，但是它們的均值差異較大。在總比值差異較小的情況下，均值越大，詞型就越少。由此可知，官方微博新聞中這11個(gè)詞類的詞型豐富度均不及門戶網(wǎng)站新聞。

值得注意的是，擬聲詞和嘆詞在GFWB中的總比值均為0，也就是說，在官方微博新聞中未出現(xiàn)擬聲詞和嘆詞。擬聲詞和嘆詞在MHWZ中的總比值分別為0.0044和0.0033?？梢哉f，官方微博新聞和門戶網(wǎng)站新聞中擬聲詞和嘆詞的總比值都很低。這也許是因?yàn)閿M聲詞和嘆詞多用于口頭語體和文藝語體，而官方微博新聞和門戶網(wǎng)站新聞都屬于新聞?wù)Z體的緣故。我們對(duì)MHWZ中擬聲詞和嘆詞的分布情況進(jìn)行了進(jìn)一步考察，發(fā)現(xiàn)它們大多出現(xiàn)在直接引語中。

GFWB中11個(gè)詞類的標(biāo)準(zhǔn)差均高于MHWZ。標(biāo)準(zhǔn)差反映了詞型使用頻率的離散程度，標(biāo)準(zhǔn)差越大，詞型使用頻率波動(dòng)就越大。這表明GFWB中這11個(gè)詞類的詞型使用頻率遠(yuǎn)不如MHWZ均衡，GFWB中11個(gè)詞類的詞頻差距要比MHWZ大很多。詞頻差異越大，話題就越集中。這說明官方微博新聞的話題比門戶網(wǎng)站新聞的話題更集中。人們大多認(rèn)為書面語體中的話題相對(duì)固定，口頭語體中的話題則往往不夠集中。

（二）句長

“長句中有較多的修辭成分，所以使用長句，就能夠更準(zhǔn)確、更嚴(yán)密地表達(dá)思想。也正是因?yàn)殚L句容量大，就可以對(duì)事物做詳盡的描述”，[8]而短句“形體較小，字?jǐn)?shù)較少，結(jié)構(gòu)較簡(jiǎn)單……明白易懂，簡(jiǎn)潔有力，明快活潑”。[8]長句多用于書面語體，短句多用于口頭語體。我們對(duì)GFWB和MHWZ中的句長分別進(jìn)行了統(tǒng)計(jì)，見以下圖表：

圖1顯示，在GFWB中，31至40字的句長所占比值最高；而在MHWZ中，則是11至20字的句長所占比值最高。GFWB句長的眾數(shù)為38，MHWZ句長的眾數(shù)僅為11。這些數(shù)據(jù)都表明官方微博新聞中的句子更長，更傾向于使用長句。

從表4來看，GFWB的標(biāo)準(zhǔn)差比MHWZ低7.7247，方差低352.701。標(biāo)準(zhǔn)差越低，句長分布越聚集；而方差越低，則說明句長分布越趨于平均值。這表明GFWB的句長比MHWZ更集中，且多接近句長平均值37.9365字（見圖1）。由此可見，在官方微博新聞中，句長分布整齊，結(jié)構(gòu)相同或相似的句子數(shù)量較多，而“句長相近、結(jié)構(gòu)相似”的句子大多出現(xiàn)于書面語體中。

（三）破碎度

“破碎度，是指一句話中停頓次數(shù)，即一句話的零散程度”。[9]闞明剛的研究表明，書面語體的破碎度要低于口頭語體。破碎度計(jì)算公式如下：

破碎度=■ （公式4）

我們將“句中停頓總次數(shù)”理解為句內(nèi)點(diǎn)號(hào)的數(shù)量，將“語料中總句數(shù)”理解為句末點(diǎn)號(hào)的數(shù)量。根據(jù)黃伯榮和廖序東關(guān)于點(diǎn)號(hào)的劃分標(biāo)準(zhǔn)和公式4，[10]我們計(jì)算出GFWB的破碎度為2.6，MHWZ的破碎度為2.9，即官方微博新聞的破碎度略低于門戶網(wǎng)站新聞。通常書面語體的語言較為流暢，其破碎度往往低于口頭語體。

（四）句類

“句類是句子按照不同語氣功能劃分出來的類型。一般分為陳述句、疑問句、祈使句和感嘆句”。[9]我們對(duì)GFWB和MHWZ句類的總比值進(jìn)行了統(tǒng)計(jì)，見表5。

從表5來看，無論是在GFWB中，還是在MHWZ中，陳述句的總比值都遠(yuǎn)遠(yuǎn)高于疑問句、祈使句和感嘆句。官方微博新聞與門戶網(wǎng)站新聞都屬于網(wǎng)絡(luò)新聞?wù)Z體，網(wǎng)絡(luò)新聞的主要功能是傳遞信息、陳述事實(shí)，所以在官方微博新聞與門戶網(wǎng)站新聞中，陳述句的數(shù)量比疑問句、感嘆句和祈使句多。

表5中的數(shù)據(jù)還表明，GFWB中疑問句、感嘆句和祈使句的總比值與MHWZ有較大差異。根據(jù)表5，我們計(jì)算出GFWB中疑問句總比值比MHWZ低49.76%，感嘆句總比值比MHWZ低52.94%，祈使句總比值比MHWZ低85.13%。⑤我們發(fā)現(xiàn)這三個(gè)句類大多出現(xiàn)在直接引語中。顯而易見，上述差異是由于官方微博新聞中的直接引語數(shù)量較少，門戶網(wǎng)站新聞中直接引語數(shù)量較多而形成的。

結(jié) 語

通過對(duì)官方微博新聞?wù)Z體和門戶網(wǎng)站新聞?wù)Z體進(jìn)行計(jì)量對(duì)比分析，我們得出以下幾點(diǎn)結(jié)論：

第一，官方微博新聞與門戶網(wǎng)站新聞都屬于網(wǎng)絡(luò)新聞?wù)Z體，二者書面化程度都很高。官方微博新聞和門戶網(wǎng)站新聞的詞匯密度均在80%以上；擬聲詞、嘆詞的總比值都很低；而陳述句的總比值都很高。

第二，官方微博新聞比門戶網(wǎng)站新聞更傾向于書面語體。官方微博新聞的詞匯密度、平均詞長、成語的總比值均高于門戶網(wǎng)站新聞；官方微博新聞中的詞型例比、3字及3字以下詞的總比值、慣用語的總比值均低于門戶網(wǎng)站新聞；官方微博新聞中11個(gè)詞類的詞型使用頻率遠(yuǎn)不及門戶網(wǎng)站新聞均衡，即官方微博新聞的話題更集中；官方微博新聞中多用長句，句長分布比門戶網(wǎng)站新聞更集中，也更接近；官方微博新聞中的破碎度低于門戶網(wǎng)站新聞，直接引語的數(shù)量少于門戶網(wǎng)站新聞。

本文的不足之處主要有以下兩點(diǎn)：第一，由于受到語言處理工具的限制，我們未能提取出語體的所有標(biāo)記，因而我們所揭示的官方微博新聞?wù)Z體與門戶網(wǎng)站新聞?wù)Z體的差異，只不過是冰山一角而已。第二，我們所選用的語料樣本數(shù)量有限，這在一定程度上影響了統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性。

今后，我們將擴(kuò)大語料規(guī)模，探索出自動(dòng)提取語體標(biāo)記的方法，為語體研究盡綿薄之力。

注釋：

① http：//ling.cuc.edu.cn/cucseg/

② 粗顆粒度與細(xì)顆粒度切分標(biāo)準(zhǔn)請(qǐng)參看《面向語言監(jiān)測(cè)的自動(dòng)分詞標(biāo)注規(guī)范研究報(bào)告》。

③ 計(jì)算公式為：差異=■×100%

④ 封閉性詞類（closed-class word）的成員數(shù)目有限，變化較少，一般可以窮盡列舉。

⑤計(jì)算公式為：差異=■×100%

參考文獻(xiàn)：

[1] 丁金國.語體風(fēng)格分析綱要[M].廣州：暨南大學(xué)出版社，2006.249.

[2] Ure J. Lexical density and register differentiation[A]. G.E. Perren，J.L.M. Trim. Applications of Linguistics： Selected Papers of the Second International Congress of Applied Linguistics[ C]. Cambridge： CUP，1971. 443-452.

[3] 梁奇，鄭方，徐明星，等.基于trigram語體特征分類的語言模型自適應(yīng)方法[J].中文信息處理，2006，20（4）：68-74.

[4] 鄧耀臣，馮志偉.詞匯長度與詞匯頻數(shù)關(guān)系的計(jì)量語言學(xué)研究[J].外國語，2013，36（3）：29-39.

[5] 鄭陽壽. 縮略語簡(jiǎn)論[J].山東教育學(xué)院學(xué)報(bào)，2000，77（1）：43-45.

[6] 邵敬敏.現(xiàn)代漢語通論[M].上海：上海教育出版社，2007.140.

[7] 朱德熙.語法講義[M].北京：商務(wù)印書館，1982.213.

[8] 趙雪.芻議廣播電視語言中的長短句[J].現(xiàn)代傳播，1996，（2）.

[9]闞明剛.幾個(gè)語體參數(shù)的定量對(duì)比研究——以新聞報(bào)道和訪談對(duì)話為例[J].語文學(xué)刊，2011，（9）.

[10] 黃伯榮，廖序東.現(xiàn)代漢語[M].北京：高等教育出版社，2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Abstract： The genre of news on official microblogs and the genre of portal webs are both subgenres of internet news. The lexical density of them is over 80 percent； the total ratio of onomatopoeic words and interjections in them is rather low while the ratio of declarative sentences is high. However， the genre of news on official microblogs is more inclined to written style： its lexical density， average length of words and the total ratio of idioms are higher； token to type ratio， total ratio of words with lengths under 4 characters and total ratio of idiomatic expressions are lower； 11 kinds of parts of speech in it get fewer tokens； its sentences are longer and looser； its degree of fragmentation and ratio of direct speech are lower.

Keywords： News on official microblogs； News on portable webs； Genre； Computational； Comparative

責(zé)任編輯：宋奇

今后，我們將擴(kuò)大語料規(guī)模，探索出自動(dòng)提取語體標(biāo)記的方法，為語體研究盡綿薄之力。

注釋：

① http：//ling.cuc.edu.cn/cucseg/

② 粗顆粒度與細(xì)顆粒度切分標(biāo)準(zhǔn)請(qǐng)參看《面向語言監(jiān)測(cè)的自動(dòng)分詞標(biāo)注規(guī)范研究報(bào)告》。

③ 計(jì)算公式為：差異=■×100%

④ 封閉性詞類（closed-class word）的成員數(shù)目有限，變化較少，一般可以窮盡列舉。

⑤計(jì)算公式為：差異=■×100%

參考文獻(xiàn)：

[1] 丁金國.語體風(fēng)格分析綱要[M].廣州：暨南大學(xué)出版社，2006.249.

[3] 梁奇，鄭方，徐明星，等.基于trigram語體特征分類的語言模型自適應(yīng)方法[J].中文信息處理，2006，20（4）：68-74.

[4] 鄧耀臣，馮志偉.詞匯長度與詞匯頻數(shù)關(guān)系的計(jì)量語言學(xué)研究[J].外國語，2013，36（3）：29-39.

[5] 鄭陽壽. 縮略語簡(jiǎn)論[J].山東教育學(xué)院學(xué)報(bào)，2000，77（1）：43-45.

[6] 邵敬敏.現(xiàn)代漢語通論[M].上海：上海教育出版社，2007.140.

[7] 朱德熙.語法講義[M].北京：商務(wù)印書館，1982.213.

[8] 趙雪.芻議廣播電視語言中的長短句[J].現(xiàn)代傳播，1996，（2）.

[9]闞明剛.幾個(gè)語體參數(shù)的定量對(duì)比研究——以新聞報(bào)道和訪談對(duì)話為例[J].語文學(xué)刊，2011，（9）.

[10] 黃伯榮，廖序東.現(xiàn)代漢語[M].北京：高等教育出版社，2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Keywords： News on official microblogs； News on portable webs； Genre； Computational； Comparative

責(zé)任編輯：宋奇

今后，我們將擴(kuò)大語料規(guī)模，探索出自動(dòng)提取語體標(biāo)記的方法，為語體研究盡綿薄之力。

注釋：

① http：//ling.cuc.edu.cn/cucseg/

② 粗顆粒度與細(xì)顆粒度切分標(biāo)準(zhǔn)請(qǐng)參看《面向語言監(jiān)測(cè)的自動(dòng)分詞標(biāo)注規(guī)范研究報(bào)告》。

③ 計(jì)算公式為：差異=■×100%

④ 封閉性詞類（closed-class word）的成員數(shù)目有限，變化較少，一般可以窮盡列舉。

⑤計(jì)算公式為：差異=■×100%

參考文獻(xiàn)：

[1] 丁金國.語體風(fēng)格分析綱要[M].廣州：暨南大學(xué)出版社，2006.249.

[3] 梁奇，鄭方，徐明星，等.基于trigram語體特征分類的語言模型自適應(yīng)方法[J].中文信息處理，2006，20（4）：68-74.

[4] 鄧耀臣，馮志偉.詞匯長度與詞匯頻數(shù)關(guān)系的計(jì)量語言學(xué)研究[J].外國語，2013，36（3）：29-39.

[5] 鄭陽壽. 縮略語簡(jiǎn)論[J].山東教育學(xué)院學(xué)報(bào)，2000，77（1）：43-45.

[6] 邵敬敏.現(xiàn)代漢語通論[M].上海：上海教育出版社，2007.140.

[7] 朱德熙.語法講義[M].北京：商務(wù)印書館，1982.213.

[8] 趙雪.芻議廣播電視語言中的長短句[J].現(xiàn)代傳播，1996，（2）.

[9]闞明剛.幾個(gè)語體參數(shù)的定量對(duì)比研究——以新聞報(bào)道和訪談對(duì)話為例[J].語文學(xué)刊，2011，（9）.

[10] 黃伯榮，廖序東.現(xiàn)代漢語[M].北京：高等教育出版社，2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Keywords： News on official microblogs； News on portable webs； Genre； Computational； Comparative

責(zé)任編輯：宋奇

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

官方微博與門戶網(wǎng)站新聞?wù)Z體的計(jì)量對(duì)比分析