丁梅 肖松 劉少俊
摘 要:新聞是碎片化、微觀的信息,在一定數(shù)量的前提下可以提取出宏觀、原先未知的知識,如新聞人物分布規(guī)律、熱點人物界定。利用R語言和哈工大“語言云”工具從2015-2016年臺灣《聯(lián)合報》新聞元數(shù)據(jù)中抽取10 000個人名,使用MongoDB和D3.js對查詢結(jié)果進行可視化,形成知識圖譜。研究發(fā)現(xiàn),新聞人物的分布在普通人群中高度集中化(0.943‰)、在新聞人物之間兩極化(2.3%),因此急需建立規(guī)范的人名庫,以便進一步完善人名抽取邏輯。
關(guān)鍵詞:人名抽??;MongoDB;元數(shù)據(jù);新聞人物;知識圖譜
英文摘要Abstract:Under a certain amount of source, we can extract macro and unknown knowledge, such as the distribution of news characters and the definition of hot news figures from fragmented and microscopic news information. R language and Language Cloud produced by Harbin Institute of Technology are both used to extract the top ten thousand names from the metadata of Taiwan United Daily News 2015-2016, while MongoDB and D3.js are employed to visualize the results into graphs. As a conclusion, the overall distribution of news figures features centralization in the general population(0.943‰) and polarization among the news figures themselves(2.3%). Besides, the creation of the standard name database is in urgent need so that the extraction logic of people′s names can be improved.
英文關(guān)鍵詞Key Words:name extraction; MongoDB; metadata; news figures; knowledge graph
0 引言
在現(xiàn)代數(shù)字圖書館中,報紙與期刊論文、學(xué)位論文、會議論文、專利信息等以電子文獻的形式供讀者檢索、閱讀和傳遞。報紙等傳統(tǒng)紙質(zhì)媒體的電子化有以下特點:① 發(fā)行渠道由以前的紙質(zhì)刊物通過郵局發(fā)行轉(zhuǎn)變?yōu)楝F(xiàn)在的電子網(wǎng)絡(luò)發(fā)行;②閱讀界面從黑白到彩色,從模糊的掃描圖像到任意縮放的精確內(nèi)容;③檢索功能從無到有[1]。
目前業(yè)界對多種類型的電子文獻如期刊論文,已經(jīng)發(fā)展并構(gòu)成了比較成熟的研究分析對象及內(nèi)容,例如論文間的引證分析、作者學(xué)術(shù)圈關(guān)系圖譜[2]、論文關(guān)鍵詞對研究熱點的引導(dǎo)分析等[3]。但是對報紙以及新聞的分析并未形成體系[4],從信息管理角度看,需要逐步建立新聞內(nèi)容研究框架。
電子化的報紙信息(新聞)與論文不同,具有較強的時效性和地域特征[5],體現(xiàn)主編個人風(fēng)格,適合淺閱讀。從數(shù)據(jù)管理角度看,其數(shù)據(jù)結(jié)構(gòu)簡單,無需區(qū)別摘要和原文,繼而無法按照統(tǒng)一的主題或者分類規(guī)則對其進行劃分,只能通過標(biāo)引生成用戶可檢索的關(guān)鍵字[6],所以對新聞信息的挖掘異常困難。
報紙是本地信息的實時反映,同時也表現(xiàn)出風(fēng)土人情、社會形勢及當(dāng)代熱點人物。對于報紙新聞文獻的文本挖掘,是抓住輿情動向的重點。輿情監(jiān)控手段依賴于文本挖掘軟件對特定名詞的抽取和詞頻統(tǒng)計。與互聯(lián)網(wǎng)新聞相比,報紙新聞更正式、嚴(yán)謹(jǐn)[7],因而更具有分析價值和意義。在電子出版普及和文本挖掘技術(shù)進步的推動下,對報紙新聞進行分析是可行的。已有學(xué)者提出對新聞中的開放數(shù)據(jù)進行挖掘,可以獲得新聞線索[8]。根據(jù)查雷(Chamley)在媒介可信度研究中對報紙準(zhǔn)確性的研究,報紙新聞與互聯(lián)網(wǎng)新聞最大的區(qū)別在于:報紙新聞的發(fā)布者即是有效信息源,不存在無法溯源的問題。臺灣地區(qū)有4家主要報紙:《中國時報》、《蘋果日報》、《聯(lián)合報》、《自由時報》[9]。其內(nèi)容不僅是研究臺灣問題的學(xué)者關(guān)注對象,也是臺灣普通民眾想要了解的信息,但是由于報紙的地域特征,島外訂購不易實現(xiàn)?,F(xiàn)在,報紙的電子發(fā)行解決了運輸及時效問題[10],使得島外研究人員也可以實時獲得這些報紙中的新聞。
不同的報紙媒體對同一事件采用的不同敘事修辭批評方法,反映出記者、編輯乃至主編的主觀意識,再加上帶有傾向性的辭藻運用,不停沖擊著新聞報道的客觀性[11]。因此,大部分報紙無法成為研究臺灣地區(qū)新聞的載體,只能選取立場公正、客觀的報紙作為了解臺灣地區(qū)熱點新聞人物及其關(guān)系的媒介。立場一貫中立的《聯(lián)合報》是學(xué)者們了解臺灣地區(qū)政治、經(jīng)濟、文化、民生的有效渠道,作者通過單位訂購獲得了以年度為單位的新聞元數(shù)據(jù)信息,以此作為研究載體,不僅為臺灣問題研究提供可靠、易獲得的信息來源;也為關(guān)心臺灣形勢的普通數(shù)字圖書館讀者提供查閱和了解的渠道[11]。本研究從宏觀角度分析報紙對熱點人物的關(guān)注度,通過編程和統(tǒng)計分析工具挖掘新聞人物之間的關(guān)系,結(jié)合人工分析提煉相關(guān)知識。
媒體人往往注重把握新聞內(nèi)容對讀者的影響以及與報紙整體風(fēng)格、立場的一致性[12]。因此不會從宏觀角度控制新聞人物曝光次數(shù)及由曝光量累積而顯現(xiàn)出來的信息。所以,排除主觀意識對數(shù)據(jù)的影響后,本研究通過數(shù)據(jù)直接得出一段時間內(nèi)的宏觀信息,為分析臺灣地區(qū)的其它報紙、其它地區(qū)的報紙,乃至電視新聞和簡訊中的熱點人物提供分析模板。
1 研究設(shè)計
本研究所需的2015全年、2016全年《聯(lián)合報》元數(shù)據(jù)由福建省臺灣文獻信息中心提供,并長期保存于福建省臺灣文獻信息中心。為尊重報紙的知識產(chǎn)權(quán),本研究僅公開元數(shù)據(jù)的統(tǒng)計信息。研究步驟包括:
(1)邏輯處理。采用“語言云”工具從新聞的全文數(shù)據(jù)中抽取臺灣地區(qū)熱點人物姓名,并對數(shù)據(jù)進行頻次和貢獻分析?!罢Z言云”以哈工大社會計算與信息檢索研究中心研發(fā)的“語言技術(shù)平臺(LTP)”為基礎(chǔ),為用戶提供高效精準(zhǔn)的中文自然語言處理云服務(wù)[13]。由于姓名多樣,為確保研究的普遍適應(yīng)性,本文以1 000個常見姓名為參照庫,與新聞內(nèi)容進行比對和記錄,作為本研究數(shù)據(jù)采集范圍。
(2)數(shù)據(jù)處理。采用MySql數(shù)據(jù)庫存儲新聞元數(shù)據(jù)、熱點人物姓名數(shù)據(jù)及分析過程數(shù)據(jù)。使用R語言對過程數(shù)據(jù)進行概覽和標(biāo)準(zhǔn)化處理。
(3)將分析結(jié)果導(dǎo)入MongoDB[14],與D3.js[15]搭配完成對本研究成果數(shù)據(jù)的可視化。
2 數(shù)據(jù)分析
公眾人物的姓名常出現(xiàn)在報紙上,但其出現(xiàn)具有較大隨機性,有的公眾人物由于某些熱點事件,在一段時間內(nèi)頻繁出現(xiàn),有的只是稍微提及??梢?,熱點公眾人物相對于大眾來說,是少量且隨時間變化的。因此可依據(jù)帕累托法則定義熱點人物:①出現(xiàn)次數(shù)排名前20%的人物。根據(jù)帕累托法則,重要人物在所有人中只占20%,即對于本研究的10 000個人名來說,出現(xiàn)次數(shù)前200名的為熱點人物;②占總出現(xiàn)次數(shù)20%的人物。在對10 000個人名的出現(xiàn)次數(shù)進行統(tǒng)計后,計算每個人名在總次數(shù)中的比重(貢獻率),從第一名開始累計,到20%為止,該范圍內(nèi)為熱點人物。
2.1 人名抽取結(jié)果
通過表1和圖2可以看出,姓名出現(xiàn)次數(shù)存在明顯的兩極分化,熱點人物與非熱點人物的被關(guān)注度差距愈加明顯。無論采取哪種定義熱點的方式,表1中的名字都是熱點人物。以2015年熱點人物數(shù)據(jù)為例,第一名“蔡英文”的貢獻與第十名“林佳龍”的比值約為7∶1(1.44%∶0.26%);2015年的數(shù)據(jù)分化更為明顯,約為10∶1(2.12%∶0.24%)。每出現(xiàn)7條提及“蔡英文”的新聞,僅出現(xiàn)1條包含“林佳龍”的新聞,然而“林佳龍”本身已是熱點新聞人物。出現(xiàn)次數(shù)最多的前10個姓名的累計貢獻率存在明顯下滑,由2015年的6.54%下降為2016年的5.69%。與之對比的是,名單第一個姓名(“蔡英文”)的貢獻率明顯增長,由2015年的1.44%上升為2016年的2.12%。2015-2016年,所有10 000個人名的總出現(xiàn)次數(shù)從51萬下降為44萬??梢?,報紙媒體對于熱點人物的關(guān)注趨于集中,同時對于出現(xiàn)次數(shù)較少的人名減少了關(guān)注。對于非熱點人物來說,將面臨越來越少的出現(xiàn)次數(shù),新聞曝光度的馬太效應(yīng)明顯。
從貢獻率曲線的陡峭落差可知,對于人名出現(xiàn)次數(shù)嚴(yán)重不平均,熱點人物與非熱點人物、熱點人物之間均存在較大差距。貢獻率曲線的數(shù)學(xué)模型首先應(yīng)排除正態(tài)分布,且該模型可能服從某種指數(shù)分布。
2.2 人物共現(xiàn)
由表2可以看出,共同出現(xiàn)次數(shù)最多的是蔡英文與馬英九,兩者是工作上的繼任關(guān)系;一同競選過同一職位,也是競爭對手關(guān)系。與友好關(guān)系相比,蔡英文與馬英九之間不友好的關(guān)系更能吸引新聞媒體的關(guān)注和報道(498次),所以蔡英文與林全的合作關(guān)系被關(guān)注得較少(309次)。以柯文哲為中心點的人物關(guān)系中,他與蔡英文的聯(lián)系最為緊密,其次是其發(fā)言人林鶴明。在2016年換屆大選中失敗的前臺灣地區(qū)領(lǐng)導(dǎo)人馬英九仍舊吸引著新聞媒體的目光,與陳水扁、李登輝等并列歷任地區(qū)領(lǐng)導(dǎo)人名單,在多則新聞中被一同提及。
在以10 000個人名為端點、一次共現(xiàn)為一條連線繪制而成的云圖中,2015年度的新聞人物關(guān)系云圖總體棱角較為分明,內(nèi)部色塊分散,有明顯的分區(qū)和抱團,顯示出在該年臺灣地區(qū)主要新聞熱點人物之間的關(guān)系親疏有別。從人力資源管理角度看,2015年為一個團隊發(fā)展過程中的組建期和振蕩期[16]。2016年的云圖渾然一體,色塊過渡柔和,說明人物之間的關(guān)系鏈條或圈子已經(jīng)進入穩(wěn)定狀態(tài),是團隊建設(shè)的規(guī)范期和執(zhí)行期階段。2015-2016年正值臺灣地區(qū)換屆選舉,本研究的數(shù)據(jù)佐證了該事件對臺灣社會關(guān)系造成的影響。
蔡英文的關(guān)系網(wǎng)線段稠密,而陳水扁的則略顯稀疏。在2015-2016年度的新聞內(nèi)體關(guān)注熱點人物中,陳水扁與其他熱點人物的聯(lián)系少于蔡英文。從顏色變化來看,與蔡英文聯(lián)系緊密的熱點人物數(shù)量也多于與陳水扁聯(lián)系的熱點人物數(shù)量。
2.3 數(shù)據(jù)引申
根據(jù)圖5 的分位統(tǒng)計,以2015年數(shù)據(jù)為例,有34人獲得了9.96%的報道次數(shù),其中5人獲得了4.95%的報道次數(shù),占熱點人物曝光度的一半。被關(guān)注的人物占極少部分,從讀者角度看,與移動閱讀APP情況類似[17],每天在報紙上能夠看到的新聞人物約1 409人次,然而總是相同的30余人(大于10%的可能性),馬太效應(yīng)顯著。
根據(jù)文獻計量學(xué)中的齊夫定律,文獻中的詞頻與排名的積為常數(shù)[18]。在本研究中,若將熱點人物的名字作為統(tǒng)計對象,被報道的次數(shù)則可以理解為“詞頻”并予以排名。通過數(shù)據(jù)計算發(fā)現(xiàn),新聞熱點人物被提及的頻率與排名的乘積顯現(xiàn)出單一的增長趨勢(上升凸曲線),未能符合齊夫定律(下降凹直線)。與文獻中的詞語受語法、語義、主題的約束相比,新聞內(nèi)容隨機性更大,所以暫時未見符合統(tǒng)計學(xué)規(guī)律。
3 研究結(jié)論
本研究分析了200名新聞熱點人物,按照新聞所屬的報紙板塊可以分為3類:政治人物、娛樂人物、體育人物。按報道次數(shù)從高到低依次為:政治人物、娛樂人物、體育人物。從報道中提及的政治人物所屬黨派來看,未見《聯(lián)合報》有明顯的關(guān)注度方面的偏向,對各黨派和陣營均給予了相同的曝光頻率?!堵?lián)合報》對娛樂人物的報道在兩個統(tǒng)計年度內(nèi)均未進入前10名。相對于島外娛樂人物,《聯(lián)合報》更關(guān)注本土主持人、諧星、歌手。2015年度,排名最高的娛樂人物(熱點人物總排名第38名)是本土歌手江蕙,她以25場“祝?!毖不匮莩獣鎰e了歌壇。與外界對臺灣歌手的感受不同,島外知名的娛樂人物并不像在島外那樣受關(guān)注,如周杰倫總排名第49,吳宗憲總排名第56?!堵?lián)合報》對于體育人物的關(guān)注度則相反,該報對島外的體育明星有較高關(guān)注度。
與蔡英文共同出現(xiàn)次數(shù)最多的島外政治領(lǐng)導(dǎo)人是習(xí)近平主席,《聯(lián)合報》也同樣關(guān)注美國、日本領(lǐng)導(dǎo)人及其之間的關(guān)系,如川普與希拉蕊(希拉里)、柯林頓(克林頓)、安倍晉三。
在對“語言云”處理過的數(shù)據(jù)進行人工分析時也發(fā)現(xiàn)了一些錯誤和問題。
(1)人名庫亟需進一步完善。本研究采用的文本挖掘邏輯將臺風(fēng)名字“蘇迪勒”、企業(yè)名稱“遠雄”、地名“羅東”、“云林”等誤認(rèn)為人名;“財政部長”“張盛和”被截取為“張盛”,陳水扁的兒子“陳致中”被截取為“陳致”,“臺北市長”柯文哲被截取為“柯文”;蔡英文和小英、陳水扁和阿扁,并未作為同一個人來對待。
(2)雖同為中文文獻,在對不同地域的新聞或文獻進行分析時,需考慮語言使用習(xí)慣。如陳男、林男(分別指姓陳、姓林的男子,在新聞報道中多為代指)、陳情(動詞,意為陳述和表達個人意見)、周休(名詞,指每周休息的天數(shù))被誤認(rèn)為人名并進行了統(tǒng)計。
(3)人物關(guān)系分析需考慮文化背景?!翱滴酢贝_實為人名,但臺灣報紙中的“康熙”是指于2015年停播的一檔很受歡迎的娛樂節(jié)目《康熙來了》?!懊瘛笔菍r任“行政院長”毛治國的尊稱,而非他的名字?!敖痃姟笔桥_灣一年一度的電視制作獎,2015年娛樂人物“吳宗憲”對評獎結(jié)果的不滿將雙方推進到了本研究共同出現(xiàn)次數(shù)的前100名。
4 結(jié)語
對于報紙新聞文獻的統(tǒng)計分析,可以揭示未知但有效的信息和知識。由于新聞的時效性和突發(fā)性導(dǎo)致人們對新聞進行宏觀控制極其困難,所以針對新聞的統(tǒng)計信息是自然、真實的,能夠反映現(xiàn)實情況。不同于人的主觀感受,數(shù)據(jù)能夠揭示與表象不同的現(xiàn)實,例如江蕙并不是大陸民眾普遍認(rèn)可的最受歡迎的臺灣歌手之一?!缎侣劼?lián)播》中常見的以可視化呈現(xiàn)的數(shù)據(jù)新聞,正是對新聞數(shù)據(jù)統(tǒng)計分析的成果[19]。
參考文獻:
[1] 李萌.如何有效提升民眾對數(shù)字出版的接受程度[J].出版廣角,2015,10(8):14-16.
[2] 管淑娟.論網(wǎng)絡(luò)背景下報紙的突圍[J].河南社會科學(xué),2013,21(10):87-89.
[3] 邢毅.報紙新聞報道的敘事修辭批評方法探究[D].重慶:重慶大學(xué),2015.
[4] 丁君朋.以宏觀促微觀 以理論促實踐——從新聞心理學(xué)角度論電視、報紙、網(wǎng)絡(luò)等不同媒介對受眾接受心理的不同影響[J].新聞研究導(dǎo)刊,2016,7(13):70-71.
[5] 楊思洛,邱均平,丁敬達,等.網(wǎng)絡(luò)環(huán)境下國內(nèi)學(xué)者引證行為變化與學(xué)科間差異--基于歷時角度的分析[J].中國圖書館學(xué)報,2016,42(222):18-31.
[6] 白蓓,蒲劍,曹玥,等.基于ESI的臨床醫(yī)學(xué)學(xué)科熱門論文分布及其研究熱點[J].醫(yī)學(xué)信息學(xué)雜志,2016,37(5):63-68.
[7] 劉瓊.中國網(wǎng)絡(luò)新聞可信度研究[D].武漢:華中科技大學(xué),2011.
[8] 畢秋靈.數(shù)據(jù)新聞中的開放數(shù)據(jù)應(yīng)用[J].湖北社會科學(xué),2016,7(7):190-194.
[9] 楊敏.近代中國報紙數(shù)字資源的建設(shè)和利用研究[J].圖書館工作與研究,2014,6(220):60-64.
[10] 祁濤.報紙信息數(shù)據(jù)庫建設(shè):現(xiàn)狀、空間及營銷路徑[J].中國出版,2015,23(12):36-38.
[11] 郝麗偉.英國《衛(wèi)報》數(shù)據(jù)新聞研究[D].保定:河北大學(xué),2014.
[12] 陳小.臺灣報紙風(fēng)險傳播研究[J].新聞界,2013,16(10):56-59.
[13] 哈工大社會計算與信息檢索研究中心.語言技術(shù)平臺云[EB/OL].http://www.ltp-cloud.com/.
[14] MongoDB,Inc..MongoDB[EB/OL].http://www.mongodb.com/.
[15] BOSTOCKM Inc..D3 Data-Driven Documents[EB/OL].https://d3js.org/.
[16] 李雨桐,黨延忠.基于交互記憶系統(tǒng)的團隊發(fā)展?fàn)顩r分析方法[J].管理科學(xué)學(xué)報,2016,19(4):16-31.
[17] 李彪.移動閱讀APP的發(fā)展態(tài)勢與社群化發(fā)展戰(zhàn)略[J].現(xiàn)代出版,2016(1):35-38.
[18] 馬費成,宋恩梅.信息管理學(xué)基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2015:90-94.
[19] 徐笛.數(shù)據(jù)新聞:發(fā)展現(xiàn)狀與趨勢[J].中國出版,2016,10(10):12-15.
(責(zé)任編輯:江 艷)