呂佳
【摘要】文章通過清華附小蘇軾論文熱點(diǎn)事件引出“大數(shù)據(jù)分析在文學(xué)研究中的應(yīng)用”主題,并通過“什么是大數(shù)據(jù)(分析)”、“歷史上的文學(xué)數(shù)據(jù)分析”、“大數(shù)據(jù)分析與小閱讀”展開論述,強(qiáng)調(diào)了在小閱讀引導(dǎo)下的大數(shù)據(jù)分析是文學(xué)研究的重要途徑之一。
【關(guān)鍵詞】大數(shù)據(jù)分析 文學(xué)研究 應(yīng)用
一,什么是大數(shù)據(jù)(分析)
隨著互聯(lián)網(wǎng)的飛速發(fā)展,“大數(shù)據(jù)”成了最近幾年的流行詞和熱門詞。幾乎人人在談“大數(shù)據(jù)”,但是,“大數(shù)據(jù)”到底是什么?
大數(shù)據(jù),即巨量數(shù)據(jù)的集合(IT行業(yè)用語)。具體來說,大數(shù)據(jù)(hig data),是一種數(shù)據(jù)集合,也是一種信息資產(chǎn)。它無法在一定時(shí)間范圍內(nèi)利用常規(guī)軟件工具進(jìn)行捕捉、管理和處理,同時(shí),它也需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。在這個(gè)數(shù)據(jù)爆炸的時(shí)代,大數(shù)據(jù)現(xiàn)象在日常生活中俯拾即是:不斷更新的微博以及粉絲的跟帖產(chǎn)生的數(shù)據(jù)量,銀行業(yè)務(wù)和信用卡的交易產(chǎn)生的數(shù)據(jù)量,電子商務(wù)的交易產(chǎn)生的數(shù)據(jù)量等等。
若我們僅僅停留在獲取數(shù)據(jù)這個(gè)低級(jí)層面,其意義是十分有限的,我們更感興趣的是知識(shí)。那么,如何將數(shù)椐轉(zhuǎn)變成知識(shí)呢?這涉及到四個(gè)層面的轉(zhuǎn)變,即從數(shù)據(jù)到信息到知識(shí)再到智慧。通過大數(shù)據(jù)分析,借助軟件采集和處理到的信號(hào)形成數(shù)據(jù),經(jīng)處理后變成信息,再通過挖掘形成知識(shí),最后通過分析上升到智慧層次。
大數(shù)據(jù)分析可為我們的決策方案提供依據(jù),有利于我們及時(shí)做出調(diào)整。商業(yè)中,銷售數(shù)據(jù)能及時(shí)反饋客戶的需求變化,從而發(fā)現(xiàn)商業(yè)規(guī)律、扭轉(zhuǎn)敗局;教育中,學(xué)生的成績數(shù)據(jù)能反應(yīng)學(xué)生的不足和優(yōu)勢,從而教師能及時(shí)做出相關(guān)的教改方案。同樣,在進(jìn)行文學(xué)分析和研究時(shí),我們也可以與時(shí)俱進(jìn)地利用大數(shù)據(jù)分析展開探討數(shù)據(jù)背后作者的用意和情感的研究。
二,歷史上的文學(xué)數(shù)據(jù)分析
大數(shù)據(jù)概念雖然近幾年才被人們耳熟能詳,但早在19世紀(jì),人們就開始用定量分析的方法研究分析文學(xué)作品了。美國科學(xué)家Thomas Corwin Mendenhall于1887年在《科學(xué)》雜志上發(fā)表一篇題為《文章的特征曲線》的文章。他認(rèn)為,通過“詞譜”或“特征曲線”也能表征一篇文章,正如光譜線的模式可以表明存在著某化學(xué)元素一樣。他以狄更斯的《霧都孤兒》和薩克雷的《名利場》為研究對(duì)象,考察兩人的“詞譜”差異,結(jié)果顯示,差異不足以區(qū)分開兩個(gè)作者。
美國“數(shù)字人文學(xué)”先驅(qū)Lucius Adelno Sherman的博士論文題目是《古英語詩歌“貓頭鷹與夜鶯”的語法分析》,他通過定量研究統(tǒng)計(jì)了這首詩歌中用了多少介詞、連詞和否定式表達(dá)。
1893年.Sherman發(fā)表了一部題為《文學(xué)分析學(xué):關(guān)于如何對(duì)英語散文與詩歌進(jìn)行客觀研究的手冊(cè)》的著作。他在講授英語文學(xué)演變的過程中,發(fā)現(xiàn)從14世紀(jì)的詩人杰弗雷·喬叟,到17世紀(jì)的戲劇家威廉·莎士比亞,再到19世紀(jì)的文學(xué)家拉爾夫·沃爾多·愛默生,他們寫出的句子越來越簡單,擺脫了過去那種“凝重”和繁復(fù)。為了論證,他從每個(gè)作家的作品中抽取500個(gè)句子,統(tǒng)計(jì)其平均句長。結(jié)果表明,以Robert Fabyan為代表的16世紀(jì)初的平均句長為63個(gè)單詞,以愛默生為代表的19世紀(jì)只有20.5個(gè)單詞。
在計(jì)算機(jī)尚未問世時(shí),英國統(tǒng)計(jì)學(xué)家G.Udny Yule和C.B.Williams曾嘗試通過句長的差異來表征不同的文學(xué)風(fēng)格并識(shí)別不同的作者。
20世紀(jì)美國著名統(tǒng)計(jì)學(xué)家Frederick Mosteller和David LWallace曾對(duì)《聯(lián)邦黨人文集》中also、an、by、of等常見詞的詞頻進(jìn)行統(tǒng)計(jì)分析試圖辨別漢密爾和麥迪遜的文章。
1964年,歷史上第一個(gè)主題為“文學(xué)數(shù)據(jù)處理”的學(xué)術(shù)會(huì)議召開,討論題目包括“計(jì)算文體學(xué)”以及在計(jì)算機(jī)輔助下就彌爾頓對(duì)雪萊之影響做出的估計(jì)等。
三,“大數(shù)據(jù)”分析與小閱讀
大數(shù)據(jù)分析技術(shù)作為人類認(rèn)識(shí)客觀世界的一種工具,給我們帶來了難以想象的進(jìn)步。借助計(jì)算機(jī)數(shù)據(jù)來分析文本需要小閱讀的思維方式和問題意識(shí)作為分析的重要導(dǎo)向。機(jī)器進(jìn)行數(shù)據(jù)處理時(shí),需要研究的主體下指令“告訴”它們?nèi)绾尾僮?。一方面,機(jī)器能夠發(fā)現(xiàn)肉眼和人腦不關(guān)注的問題信息:另一方面,研究的主體借助計(jì)算機(jī)這個(gè)好用的工具來統(tǒng)計(jì)研究者需要統(tǒng)計(jì)的指標(biāo)。清華附小蘇軾論文之一的《大數(shù)據(jù)分析幫你進(jìn)一步認(rèn)識(shí)蘇軾》中,作者利用數(shù)據(jù)分析將蘇軾的3458首詩詞與9552位作者創(chuàng)作的276545首唐宋詩詞做對(duì)比證明了蘇軾是位高產(chǎn)作家:作者又通過蘇軾的3458首詩詞中找出的排名前50的高頻詞和高頻字來分析蘇軾的人生經(jīng)歷:作者還通過111首蘇軾的包含“歸來”的詩的年代的統(tǒng)計(jì)而制作出的次數(shù)分布圖印證了他們的猜想:每次被謫結(jié)束之后,蘇軾詩中出現(xiàn)的“歸來”的次數(shù)都會(huì)有所增加,從而從一個(gè)新的角度認(rèn)識(shí)了這位文學(xué)巨匠。
研究的主體進(jìn)行“小閱讀”是重要的,也是必要的。正如莫萊蒂所言,即使你研究200本小說,也還不到19世紀(jì)出版的小說總數(shù)的1%,這樣的研究必然受限制。的確,利用計(jì)算機(jī)進(jìn)行大數(shù)據(jù)分析可以發(fā)現(xiàn)某個(gè)文學(xué)體裁的形式上的普遍特征。但是,每個(gè)研究的主體甚至每個(gè)讀者對(duì)文學(xué)作品的認(rèn)識(shí)和感悟是不同的,正是每個(gè)人不同的難以捕捉的理解與感悟才是文學(xué)闡釋的核心焦點(diǎn)。
四,總結(jié)
大數(shù)據(jù)與文學(xué),一個(gè)是理性工具,一個(gè)是感性思維,看起來似乎不沾邊。但在大數(shù)據(jù)浪潮席卷全球的今天,二者的聯(lián)系卻日益緊密。人腦和電腦在閱讀文本的時(shí)候所用的方法和關(guān)注的角度不同,分析出來的東西也可能截然不同。人腦對(duì)文本的分析闡釋與電腦的大數(shù)據(jù)分析,往往相互補(bǔ)充,取長補(bǔ)短。文學(xué)的大數(shù)據(jù)分析和研究主體的小閱讀之間有著很多交融之處。我們需要借助計(jì)算機(jī)進(jìn)行文本數(shù)據(jù)分析,將個(gè)人化的文學(xué)闡釋和歷史性思索有機(jī)地結(jié)合起來,發(fā)現(xiàn)一些有價(jià)值的研究途徑,為打造新的文學(xué)史和新的文學(xué)價(jià)值理論提供可能性。
參考文獻(xiàn):
【1】金雯,李繩.“大數(shù)據(jù)”分析與文學(xué)研究【J】.中國圖書評(píng)論,2014 (04)
【2】顧君忠.大數(shù)據(jù)與大數(shù)據(jù)分析【J】.軟件產(chǎn)業(yè)與工程,2013(04)
【3】歷史上的文學(xué)大數(shù)據(jù)分析【EB/OL】.中國科學(xué)報(bào),2014 (10)