岑嶸
早在2002年,谷歌就有了一個(gè)類似的將“全世界無產(chǎn)者聯(lián)合起來”的理想,這個(gè)理想就是把全世界的數(shù)字圖書館項(xiàng)目統(tǒng)一起來,谷歌由此開啟了Google Print項(xiàng)目。
到2010年,谷歌已經(jīng)掃描了1500萬冊(cè)書,這時(shí)谷歌決定將已經(jīng)掃描過的書的某些統(tǒng)計(jì)結(jié)果公開,這便是Google Books Ngrams。也就是說,書的內(nèi)容不一定公開,但關(guān)于書的詞頻統(tǒng)計(jì)結(jié)果可以公開。輸入任意一個(gè)詞語,都會(huì)出來一幅像股票價(jià)格走勢(shì)一樣的詞頻走勢(shì)曲線圖。
當(dāng)我們輸入“市場(chǎng)”和“價(jià)格”這兩個(gè)詞語后,會(huì)發(fā)現(xiàn)“價(jià)格”詞頻走勢(shì)的第一個(gè)高點(diǎn)出現(xiàn)在1955年,然后就一個(gè)猛子扎進(jìn)海底;到了1967年,這個(gè)詞語幾乎消失在詞語的海洋中;然而在1976年,這個(gè)詞語以45度角的姿態(tài)重新躍出水面,向上飛騰。
而“市場(chǎng)”這個(gè)詞的詞頻走勢(shì)表現(xiàn)更讓人驚嘆,它的曲線在20世紀(jì)40年代只是有一些小的波動(dòng),和“價(jià)格”一樣,它在1976年左右猛然爆發(fā),但是它的體量更加驚人,仿佛一頭座頭鯨,并且以接近90度角的勢(shì)頭向上攀升,如同一支射出的箭,到了1997年才到達(dá)頂點(diǎn)開始回落。
如果輸入“國家”和“個(gè)人”這兩個(gè)詞,我們會(huì)發(fā)現(xiàn)“國家”這條詞頻曲線總是遠(yuǎn)遠(yuǎn)高于“個(gè)人”這條曲線。從1970年到1990年,“國家”的詞頻曲線一路上揚(yáng),而“個(gè)人”的詞頻曲線則波瀾不驚,呈現(xiàn)出一條幾乎和橫坐標(biāo)軸平行的曲線。
當(dāng)我們將詞語換成“黑暗”和“光明”時(shí),得到的詞頻曲線和詞語本身的文學(xué)性一樣復(fù)雜,“黑暗”和“光明”互相糾纏,彼此追逐。1964年到1971年間,“光明”獲得了短暫的勝利,把我們帶到這一段“陽光燦爛的日子”,然而有意思的是,在1972年“黑暗”超過“光明”之后,雖然彼此一直很接近,但“光明”再也沒有沖破“黑暗”。
我們來看看“腐敗”和“廉潔”的詞頻曲線吧。“廉潔”這個(gè)詞一直是躺在“地平線”上,從20世紀(jì)80年代開始抬頭向上攀緣,而“腐敗”的個(gè)詞頻曲線則野性十足,從1984年到1998年經(jīng)歷了第一輪波瀾壯闊的“牛市”,指數(shù)從2000點(diǎn)一直上漲到9000點(diǎn),一路上揚(yáng)勢(shì)不可當(dāng),從1998年到2002年經(jīng)過短暫的調(diào)整以后,2003年以更加凌厲的速度繼續(xù)上攻,輕松突破1萬點(diǎn)。
“敵人”和“偉大”這兩個(gè)詞的詞頻曲線從1940年開始飆升,在1974年同時(shí)達(dá)到最高峰后一路下滑,到了2004年,近9成的“敵人”被消滅,“偉大”也縮水了8成。
最后,我們來說說“人民”“群眾”和“公民”吧?!叭嗣瘛钡脑~頻曲線從1945年筆直上揚(yáng),整個(gè)圖形像青藏高原一樣壯觀,而“群眾”的詞頻在20世紀(jì)50年代到70年代也頗具規(guī)模,只有“公民”就像在山腳下修建的一條小路,低調(diào)而含蓄。
那些如恒河沙數(shù)般的詞匯正靜悄悄地躺在電腦磁盤中,這些詞匯將為我們揭示出一部部隱秘的歷史。