潘 俊,吳宗大
(1. 浙江科技學(xué)院理學(xué)院大數(shù)據(jù)科學(xué)系,杭州 310023;2. 紹興文理學(xué)院計(jì)算機(jī)系,紹興 312000;3. 南京大學(xué)信息管理學(xué)院,南京 210093)
詞匯是語言系統(tǒng)中具有明確語義的基本單位,詞匯的語義表示屬于自然語言處理領(lǐng)域的基礎(chǔ)研究,在詞義消歧、智能檢索、機(jī)器翻譯、自動(dòng)問答、 知識(shí)工程等領(lǐng)域具有廣泛的應(yīng)用價(jià)值[1]。 然而,隨著時(shí)間的推移,詞匯的語義會(huì)因政治、經(jīng)濟(jì)、科技和文化等因素的影響而發(fā)生擴(kuò)大、縮小或遷移等現(xiàn)象。例如,“跳水” 最初指的是一項(xiàng)水上體育運(yùn)動(dòng),隨著社會(huì)經(jīng)濟(jì)的發(fā)展,“跳水” 的詞義得到擴(kuò)大,產(chǎn)生了新的含義,是指金融領(lǐng)域股票或基金價(jià)格的大幅下跌。又如,“云”“收官”“雙簧”“催化劑”“接軌”“旗艦”“軟件”“防火墻” 等詞匯,分別從自然、圍棋、戲曲、化學(xué)、交通、軍事、計(jì)算機(jī)、建筑等領(lǐng)域,逐漸擴(kuò)展到其他領(lǐng)域,并形成新的意義。如何從歷時(shí)的角度獲得時(shí)序敏感的詞匯語義表示,對(duì)優(yōu)化現(xiàn)有的語義處理系統(tǒng),具有十分重要的意義[2]。 此外,詞匯語義的歷時(shí)變化,與人類社會(huì)的發(fā)展息息相關(guān),其中記錄著人類認(rèn)識(shí)世界、改變世界的過程,蘊(yùn)含著反映社會(huì)生活整體變化的方方面面的知識(shí),是計(jì)算社會(huì)學(xué)和知識(shí)工程研究的重要課題[3]。
詞匯語義歷時(shí)研究的基礎(chǔ)是歷時(shí)語料,其來源主要包括圖書、報(bào)紙、期刊、網(wǎng)絡(luò)文本等具有明確時(shí)序標(biāo)注的語料數(shù)據(jù)。早期,相關(guān)工作主要集中在對(duì)歷時(shí)語料的詞頻分析上[4-10],這些研究的思路是統(tǒng)計(jì)詞匯在特定文本或語料中的使用頻率,根據(jù)詞頻隨時(shí)間變化的情況,探討語言演變與社會(huì)變遷的關(guān)聯(lián),已經(jīng)取得許多重要的發(fā)現(xiàn)。詞頻模型雖然直觀、簡(jiǎn)單,但是難以刻畫詞匯語義內(nèi)涵的變化,也不能反映詞匯之間語義關(guān)系的變化情況,在追蹤深層次的詞匯語義歷時(shí)變化時(shí)效果有限。
近年來,隨著深度學(xué)習(xí)等技術(shù)的研究進(jìn)展,分布式表示逐漸成為詞匯表示的主流[11]。這類方法旨在將符號(hào)形式的詞匯表示成數(shù)學(xué)形式的向量,并具有語義可計(jì)算的特點(diǎn):一方面,向量表示可以作為自然語言處理多種任務(wù)的輸入;另一方面,利用向量的一些幾何性質(zhì),可以度量詞匯的語義相關(guān)性,或進(jìn)行語義推理等,已經(jīng)在知識(shí)組織和語言智能等領(lǐng)域得到廣泛應(yīng)用。本質(zhì)上,詞匯分布式表示是對(duì)語料使用模式和偏好的反映[12],因此,若將語料打上時(shí)間戳標(biāo)記,用不同時(shí)期的語料分別訓(xùn)練詞向量模型,則可以得到反映時(shí)代特征的時(shí)序敏感的歷時(shí)詞向量。對(duì)此,信息科學(xué)領(lǐng)域的學(xué)者已經(jīng)給出了一些有效的學(xué)習(xí)模型[13-19]。同時(shí),基于詞匯的歷時(shí)詞向量,研究者在詞匯語義演變規(guī)律[16,20-21]、詞匯歷時(shí)語義關(guān)系抽取[22-24]、社會(huì)文化變遷[3,19]、輿情事件預(yù)測(cè)[25-26]等方面也取得了許多的成果。
然而,縱觀現(xiàn)有研究,針對(duì)中文詞匯的歷時(shí)語義研究數(shù)量較少,僅有的工作主要集中在對(duì)詞頻的歷時(shí)考察上[9-10,27-28],對(duì)分布式歷時(shí)詞向量的研究還極少。此外,已有的詞匯歷時(shí)語義表示學(xué)習(xí)主要針對(duì)學(xué)習(xí)模型,沒有從知識(shí)發(fā)現(xiàn)的角度考慮歷時(shí)詞向量的應(yīng)用價(jià)值問題。隨著信息技術(shù)的迅速發(fā)展,數(shù)據(jù)獲取方式日益便捷,語料數(shù)據(jù)的積累速度也在不斷加快,如何有效地對(duì)各類語料數(shù)據(jù)進(jìn)行整理和挖掘,實(shí)現(xiàn)從文本到數(shù)據(jù)再到知識(shí)的轉(zhuǎn)化,已成為需要迫切解決的任務(wù)。在此背景下,本研究嘗試建立一個(gè)通用的詞匯歷時(shí)語義挖掘框架,將語料預(yù)處理、歷時(shí)詞向量訓(xùn)練、語義計(jì)算等封裝成服務(wù)的形式以供業(yè)務(wù)邏輯調(diào)用,并提出基于XML (extensi‐ble markup language) 配置的數(shù)據(jù)定制和分析方法,以支撐詞匯歷時(shí)語義計(jì)算和知識(shí)挖掘的實(shí)際需求。基于該框架,本研究以1946 年5 月—2003 年12 月的《人民日?qǐng)?bào)》 文本為數(shù)據(jù)來源,構(gòu)建了一個(gè)多維度、深層次的知識(shí)發(fā)現(xiàn)和語義計(jì)算平臺(tái),以展示詞匯歷時(shí)詞向量在數(shù)字人文和社會(huì)計(jì)算研究中的可能應(yīng)用模式。本研究提出的方法框架具有較好的通用性,通過二次開發(fā),能靈活構(gòu)建面向知識(shí)發(fā)現(xiàn)的各類應(yīng)用,并可方便推廣到對(duì)其他歷時(shí)語料的知識(shí)挖掘,從而為人文學(xué)者根據(jù)學(xué)術(shù)興趣和研究關(guān)注點(diǎn)展開具體的應(yīng)用研究提供輔助。
研究詞匯歷時(shí)演變最直接的方法是計(jì)算詞頻隨時(shí)間變化的情況,通過對(duì)詞匯使用頻次、分布等變化的統(tǒng)計(jì),可以測(cè)量詞匯的穩(wěn)定性,發(fā)現(xiàn)語言的使用規(guī)律,觀察語言變化與社會(huì)文化、科學(xué)技術(shù)、政治經(jīng)濟(jì)發(fā)展的歷時(shí)聯(lián)系等。相關(guān)工作主要涉及三類歷時(shí)文本:①圖書文本。例如,谷歌公司于2011 年發(fā)布全球圖書詞頻統(tǒng)計(jì)數(shù)據(jù)庫①http://books.google.com/ngrams,可對(duì)1800—2000年出版的共5195769 本圖書的單詞和詞組進(jìn)行歷時(shí)頻次統(tǒng)計(jì),研究者利用該數(shù)據(jù)庫和詞頻工具進(jìn)行定量分析和知識(shí)挖掘,取得了一系列發(fā)現(xiàn)[4-6];歐陽劍[27]搜集大規(guī)模中國古籍文本并建立歷時(shí)語料庫,以詞頻分析統(tǒng)計(jì)為核心,構(gòu)建了古籍詞頻歷時(shí)統(tǒng)計(jì)分析平臺(tái),獲得了若干基于量化分析的結(jié)果。②報(bào)紙期刊。例如,金觀濤等[28]整理近代報(bào)紙期刊文獻(xiàn),通過分析不同時(shí)期表達(dá)相同觀念的不同詞匯的詞頻變化,考察中國現(xiàn)代政治術(shù)語的形成和演變;荀恩東等[9]搜集了約60 年的同質(zhì)新聞?wù)Z料,開發(fā)了現(xiàn)代漢語歷時(shí)檢索系統(tǒng),通過可視化技術(shù)直觀顯示詞頻的歷時(shí)變化。 ③網(wǎng)絡(luò)文本。 例如,Leskovec等[8]從互聯(lián)網(wǎng)上采集海量新聞和博客文章,抽取其中的熱門短語和短句,跟蹤這些短語短句的歷時(shí)頻率變化,為美國政治文化的發(fā)展潮流和變遷研究提供新的視角。
基于上述詞頻模型的研究,主要關(guān)注海量語料中詞匯的頻次、頻率、頻序、分布等經(jīng)典表征形式,直觀簡(jiǎn)單,但難以刻畫詞匯語義內(nèi)涵的變化,也不能表達(dá)詞匯間的語義關(guān)聯(lián)。要表達(dá)詞義,有一種方式是使用分布式表示[11,29],即將詞匯表示成稠密實(shí)向量,用詞匯之間的向量距離來表示語義相關(guān)度。如何通過歷時(shí)語料獲得時(shí)序敏感的詞向量,研究人員已經(jīng)給出了不少有效方法,大致可分為以下三類。
(1) 基于共現(xiàn)統(tǒng)計(jì)的方法,使用詞匯的歷時(shí)性上下文語境來表達(dá)詞義。例如,Gulordava 等[30]使用詞匯的2-gram 來刻畫歷時(shí)詞義,并使用了局部互信息(local mutual information,LMI) 來構(gòu)建共現(xiàn)矩陣。Zou 等[31]使用詞匯所在子句的其他詞匯來刻畫語義,并使用點(diǎn)互信息(pointwise mutual informa‐tion,PMI) 來構(gòu)建共現(xiàn)矩陣。這一類方法的缺點(diǎn)是,所構(gòu)建的共現(xiàn)矩陣存在高維稀疏問題,且缺乏概率意義上的解釋。
(2) 基于概率的動(dòng)態(tài)主題模型,其思想是利用詞匯在主題上的分布來刻畫詞義,進(jìn)而挖掘詞匯語義的歷時(shí)變化[26,32-34]。將主題模型應(yīng)用于詞匯聚類,能有效識(shí)別聚類中詞匯的語義變化,但在追蹤單個(gè)詞匯語義的變化時(shí)效果有限。
(3) 基于預(yù)測(cè)的動(dòng)態(tài)詞向量模型,將歷時(shí)語料按時(shí)期劃分為不同的數(shù)據(jù)集,采用詞匯表示學(xué)習(xí)模型來學(xué)習(xí)詞義[13-15,17-18]。這些工作的基礎(chǔ)可追溯到Bengio 等[35]于2003 年提出的神經(jīng)網(wǎng)絡(luò)概率語言模型(neural probabilistic language model,NPLM),即把詞向量作為神經(jīng)網(wǎng)絡(luò)模型的參數(shù)來訓(xùn)練,通過對(duì)語言模型(預(yù)測(cè)一個(gè)詞出現(xiàn)在給定詞序列之后的概率) 的學(xué)習(xí),得到詞匯的向量表示。
基于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)模型的參數(shù)是隨機(jī)初始化的[36],在不同時(shí)期數(shù)據(jù)集上訓(xùn)練得到的詞向量,并不處于同一個(gè)語義空間,因此,不能直接計(jì)算語義相關(guān)度。對(duì)齊語義空間的思路,主要有兩種。一種思路是在模型訓(xùn)練時(shí)保持詞向量的連續(xù)性。例如,Kim 等[13]采用了遞增迭代更新的SGNS (skip-gram with negative sampling) 模型,用前一個(gè)時(shí)間周期的訓(xùn)練結(jié)果作為下一時(shí)間周期的輸入;Peng 等[14]和Kaji 等[15]的工作均借鑒這一迭代更新的思想來訓(xùn)練歷時(shí)詞向量。另一種思路是假設(shè)大部分詞匯的語義具有一定的穩(wěn)定性,通過線性變換將不同時(shí)期的詞向量對(duì)齊到同一個(gè)語義空間。例如,Kulkarni 等[17]采用正交分解法,通過最小化t時(shí)刻和t-1 時(shí)刻相同單詞之間的距離,將t時(shí)刻的向量空間轉(zhuǎn)變到t-1 時(shí)刻的向量空間;Yao 等[19]進(jìn)一步提出t時(shí)刻的向量空間不僅受前后時(shí)刻的影響,還與其他時(shí)刻的向量空間有關(guān),并據(jù)此對(duì)齊語義空間。
建立在歷時(shí)語料上的歷時(shí)詞向量兼具語義可計(jì)算性和時(shí)序敏感性,其應(yīng)用目前主要有兩方面。一方面,是通過觀測(cè)詞匯語義變化,研究詞匯語義演變的規(guī)律,例如,文獻(xiàn)[16]通過對(duì)4 種語言歷時(shí)200年語料的分析,總結(jié)出語義變遷的兩條規(guī)律:一致性規(guī)律表明高詞頻詞匯語義傾向于穩(wěn)定,革新性規(guī)律表明多義詞的語義變化更為劇烈。另一方面,是挖掘分析詞匯語義變背后隱藏著的社會(huì)、政治、文化等方面變遷的知識(shí)[37-38],例如,Garg 等[37]以十年為單位,通過歷時(shí)詞向量探討了近百年來美國社會(huì)在性別和種族兩方面的社會(huì)偏見趨勢(shì),研究結(jié)果表明特定的偏見存在隨著時(shí)間推移而減少的趨勢(shì),也展示了其他類型的刻板印象隨時(shí)間增加的現(xiàn)象。此外,通過實(shí)時(shí)分析短時(shí)期內(nèi)詞匯語義的變化,國外相關(guān)研究人員還對(duì)民眾騷亂,以及政治抗議集會(huì)預(yù)測(cè)進(jìn)行了研究[25-26]。
綜上所述,針對(duì)歷時(shí)語料的詞匯語義表示及其應(yīng)用研究,已經(jīng)取得許多成果。研究人員對(duì)歷時(shí)詞向量的訓(xùn)練模型進(jìn)行了研究,有些模型已被應(yīng)用于詞匯語義變化規(guī)律發(fā)現(xiàn)、社會(huì)事件監(jiān)測(cè)等領(lǐng)域。同時(shí),相關(guān)工作還存在一些不足:①目前歷時(shí)詞向量研究多針對(duì)英文,而漢語詞匯的歷時(shí)語義研究主要集中在詞頻模型上,這限制了更深層次的知識(shí)發(fā)現(xiàn);②現(xiàn)有工作主要針對(duì)具體而分散的領(lǐng)域主題,沒有形成一個(gè)通用完整的模型框架,難以支撐對(duì)各類學(xué)術(shù)問題的知識(shí)挖掘需求;③雖然研究者已提出多種歷時(shí)詞向量的訓(xùn)練方法,但在應(yīng)用方面,還未發(fā)現(xiàn)面向中文詞匯知識(shí)發(fā)現(xiàn)的歷時(shí)語義計(jì)算研究。
針對(duì)上述不足,本文重點(diǎn)從兩方面展開研究:①設(shè)計(jì)一個(gè)通用的詞匯歷時(shí)語義挖掘框架,建立松耦合的可配置的服務(wù)式架構(gòu),底層提供數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范化、歷時(shí)詞向量訓(xùn)練等服務(wù),中間層通過XML 配置制定基礎(chǔ)數(shù)據(jù)的抽取策略并完成界面映射,上層通過對(duì)服務(wù)的組合,實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)、可視化等業(yè)務(wù)邏輯,框架應(yīng)具有高可擴(kuò)展性,能夠即插即用地通過維度篩選和服務(wù)組合來構(gòu)建具體應(yīng)用。②以《人民日?qǐng)?bào)》 歷時(shí)語料為數(shù)據(jù)源,構(gòu)建一個(gè)支持多維挖掘并可快速定制的詞匯歷時(shí)語義計(jì)算平臺(tái),以展示本文框架的落地應(yīng)用。
本文提出的面向知識(shí)發(fā)現(xiàn)的詞匯歷時(shí)語義挖掘框架如圖1 所示。主要步驟為:①收集歷時(shí)語料數(shù)據(jù)并按照規(guī)范進(jìn)行清洗和標(biāo)注;②構(gòu)建歷時(shí)詞向量訓(xùn)練和詞匯語義計(jì)算等關(guān)鍵服務(wù),并生成面向主題的數(shù)據(jù)集;③依據(jù)研究主題選擇歷時(shí)詞向量數(shù)據(jù)集,完成知識(shí)挖掘與可視化。具體處理過程描述如下。
(1) 深加工歷時(shí)語料庫的建立。首先,確定語料庫類型和數(shù)據(jù)來源,語料數(shù)據(jù)應(yīng)具備相當(dāng)規(guī)模,并有明確的時(shí)間信息。其次,制定加工規(guī)范,并對(duì)語料進(jìn)行加工。以報(bào)紙語料為例,對(duì)每一則語料,可提取版面、欄目等信息,打上刊發(fā)日期時(shí)間戳標(biāo)記;再次,對(duì)語料進(jìn)行清洗,去掉冗余噪音數(shù)據(jù)(如聲明、符號(hào)、亂碼或無關(guān)字符);最后,完成分詞和詞性標(biāo)注,并通過統(tǒng)計(jì)TF-IDF (term frequen‐cy-inverse document frequency)值或利用TextRank等關(guān)鍵詞抽取算法,從語料中提取關(guān)鍵詞,最終得到規(guī)范化的加工歷時(shí)語料庫。
(2) 關(guān)鍵服務(wù)的實(shí)現(xiàn)和管理。將歷時(shí)詞向量訓(xùn)練、歷時(shí)語義相關(guān)度計(jì)算、詞向量聚類、詞向量類比推理等計(jì)算任務(wù),封裝為服務(wù)的形式并提供外部調(diào)用。利用配置文件定制數(shù)據(jù)抽取策略,建立各類主題數(shù)據(jù)集:①通過時(shí)期、版面欄目、關(guān)鍵詞等各個(gè)維度篩選得到所關(guān)注的熟語料;②通過對(duì)時(shí)間粒度、詞向量訓(xùn)練模型、訓(xùn)練參數(shù)的不同設(shè)置,在同一語料數(shù)據(jù)集上訓(xùn)練得到不同的歷時(shí)詞向量;③通過詞性、命名實(shí)體類型等維度配置和映射,建立各類面向主題的歷時(shí)詞匯數(shù)據(jù)集。
(3) 知識(shí)發(fā)現(xiàn)與可視化模塊的構(gòu)建。根據(jù)研究者的學(xué)術(shù)興趣,選擇相關(guān)歷時(shí)詞向量數(shù)據(jù)集或主題數(shù)據(jù)集,調(diào)用數(shù)據(jù)語義計(jì)算服務(wù),實(shí)現(xiàn)歷時(shí)語義近鄰詞、語義變遷、歷時(shí)關(guān)系類比等知識(shí)發(fā)現(xiàn)任務(wù)。
從圖1 的系統(tǒng)架構(gòu)可以看出:①通過將語料加工、詞向量訓(xùn)練、語義計(jì)算等任務(wù)分解為各個(gè)獨(dú)立的細(xì)粒度服務(wù),能夠?qū)崿F(xiàn)業(yè)務(wù)邏輯的松耦合,便于任務(wù)類型的擴(kuò)展。②采用XML 作為熟語料庫和歷時(shí)詞向量數(shù)據(jù)集的維度配置元數(shù)據(jù)描述語言,能支持研究者根據(jù)學(xué)術(shù)關(guān)注點(diǎn)進(jìn)行數(shù)據(jù)定制。③通過配置文件和數(shù)據(jù)語義計(jì)算服務(wù)的組合,在提供知識(shí)挖掘及可視化的同時(shí),提供底層語料級(jí)別的循證數(shù)據(jù),使得知識(shí)發(fā)現(xiàn)有語料級(jí)別的數(shù)據(jù)支撐。
圖1 面向知識(shí)發(fā)現(xiàn)的歷時(shí)詞匯語義挖掘系統(tǒng)架構(gòu)
綜上所述,本文框架具有可熱插拔的優(yōu)點(diǎn),表現(xiàn)在對(duì)深加工語料各種維度的配置,以及對(duì)歷時(shí)詞向量各種特征維度的篩選定制上,研究者可根據(jù)研究興趣建立各類數(shù)據(jù)集,為上層的可視化知識(shí)發(fā)現(xiàn)定制基礎(chǔ)數(shù)據(jù)。
基于第3 節(jié)提出的系統(tǒng)框架,本文以《人民日?qǐng)?bào)》 歷時(shí)語料為例進(jìn)行實(shí)證研究,構(gòu)建面向知識(shí)發(fā)現(xiàn)的現(xiàn)代漢語詞匯歷時(shí)語義計(jì)算平臺(tái),一方面從共時(shí)角度分時(shí)段展示特定時(shí)期詞匯語義的相關(guān)度情況,另一方面從歷時(shí)角度分析詞匯語義的時(shí)序變遷過程。
報(bào)紙是構(gòu)建歷時(shí)語料的理想來源,報(bào)紙語言具有規(guī)范、簡(jiǎn)潔的特點(diǎn),與社會(huì)生活息息相關(guān),并具有明確的時(shí)序信息?!度嗣袢?qǐng)?bào)》 作為中國共產(chǎn)黨中央委員會(huì)機(jī)關(guān)報(bào),自創(chuàng)辦以來一直承擔(dān)著宣傳黨的理論和路線方針政策以及中央重大決策部署等的使命,完整地記錄了不同時(shí)期中國政治、經(jīng)濟(jì)、文化和社會(huì)生活等方方面面的變遷,其語料具有重要價(jià)值,圖情文獻(xiàn)領(lǐng)域的許多研究就是建立在《人民日?qǐng)?bào)》 語料的基礎(chǔ)上的,但從歷時(shí)角度切入的研究工作還較少,尤其缺少對(duì)歷時(shí)詞向量的研究。為此,本研究選用了1946—2003 年刊出的《人民日?qǐng)?bào)》 文本作為語料數(shù)據(jù)源(其中1946 年5 月15 日至1948 年6 月15 日為晉冀魯豫《人民日?qǐng)?bào)》),并展開實(shí)證研究。
在數(shù)據(jù)預(yù)處理階段,首先構(gòu)建停用詞表,去除標(biāo)點(diǎn)符號(hào)、拉丁字母、數(shù)學(xué)符號(hào)、特殊符號(hào)及其他停用詞,并使用NLPIR (natural language processing and information retrieval) 漢語分詞組件和命名實(shí)體抽取組件對(duì)語料庫進(jìn)行分詞、詞性標(biāo)注和命名實(shí)體識(shí)別[39]。由于部分專題研究需要觀察特定詞組的語義演變,因此,在分詞時(shí)使用自定義詞典供用戶構(gòu)建特定分詞與短語,例如,“中國人民的老朋友”“不受歡迎的人” 等屬于《人民日?qǐng)?bào)》 話語體系的自定義短語詞匯。
為了方便研究者根據(jù)學(xué)術(shù)興趣從各個(gè)維度篩選歷時(shí)語料并訓(xùn)練詞向量,本研究從每一則語料中,抽取版面、專欄、標(biāo)題、關(guān)鍵詞等信息作為維度,其中,語料關(guān)鍵詞的識(shí)別采用TF-IDF 算法。歷時(shí)語料需要時(shí)間戳標(biāo)記,并要對(duì)原始?xì)v時(shí)語料作單位分割,一般來說,較高的粒度(十年甚至百年) 更容易發(fā)現(xiàn)語言的變化規(guī)律,較小的粒度則多用于分析社會(huì)文化的變遷。早期,不少研究都采用了較大的粒度[4,7,30],近年來的一些工作開始以低粒度(如以年為單位) 考察詞匯語義變遷,更關(guān)注實(shí)際問題[13,17,19,22]。本研究為每一則語料打上時(shí)間戳標(biāo)記,方便后續(xù)研究根據(jù)具體需要,按不同粒度將所篩選的語料劃分為不同的片段并進(jìn)行訓(xùn)練。表1 給出了經(jīng)過預(yù)處理后的標(biāo)注結(jié)果的一則樣例。
表1 經(jīng)過預(yù)處理的一則語料
4.2.1 歷時(shí)詞向量訓(xùn)練服務(wù)
歷時(shí)詞向量的學(xué)習(xí)過程可以形式化表示為:令D={d1,d2,…,dn}表示歷時(shí)文本數(shù)據(jù)集,每一則文本di∈D具有時(shí)間戳tdi∈T,文本數(shù)據(jù)集D中的詞匯集合記為W={w1,w2,…,wk},學(xué)習(xí)目標(biāo)是從D中為W中的詞匯學(xué)習(xí)時(shí)序敏感的詞向量。
本研究采用三種歷時(shí)詞向量的代表性方法,并提供服務(wù)調(diào)用:①使用word2vec 中基于負(fù)采樣的Skip-Gram 模型(SGNS) 模型[36],對(duì)每個(gè)時(shí)間周期的語料進(jìn)行詞向量訓(xùn)練;②使用顯式的正向點(diǎn)互信息(positive pointwise mutual information,PPMI) 表示[40],即為詞匯wi∈V構(gòu)建一個(gè)高維稀疏的詞-上下文共現(xiàn)矩陣,上下文定義為目標(biāo)詞左右窗口內(nèi)的詞,使用PPMI 值作為矩陣元素;③使用增量訓(xùn)練方式的Skip-Gram 模型,即將語料數(shù)據(jù)按時(shí)期分割后,用時(shí)期t語料上訓(xùn)練得到的詞向量來初始化時(shí)期t+ 1 的詞向量,依次訓(xùn)練直至收斂[13]。三種訓(xùn)練方法采用python 編寫并提供調(diào)用,python 服務(wù)器維護(hù)一個(gè)輪詢進(jìn)程與Web 客戶端進(jìn)行socket 通信,接到請(qǐng)求后開啟處理線程服務(wù)計(jì)算,并返回結(jié)果,服務(wù)調(diào)用界面如圖2 所示。Hamilton 等[16]研究表明,不同訓(xùn)練方式得到的歷時(shí)詞向量,在不同任務(wù)上的性能存在差異。因此,研究者可針對(duì)專題研究特點(diǎn),選用不同的時(shí)間粒度和詞向量訓(xùn)練方式,并將訓(xùn)練后的歷時(shí)詞向量數(shù)據(jù)集存儲(chǔ)到關(guān)系型數(shù)據(jù)庫中以作進(jìn)一步分析。
圖2 歷時(shí)詞向量訓(xùn)練的服務(wù)調(diào)用
4.2.2 語義相關(guān)度計(jì)算服務(wù)
基于預(yù)測(cè)的方法訓(xùn)練得到的詞向量,通常不能直接計(jì)算其歷時(shí)語義相關(guān)度,這是由于詞向量算法具有隨機(jī)性,即使是在同一語料上的同一個(gè)算法,也會(huì)得到不同的向量表示。這意味著一個(gè)詞的歷時(shí)語義即使非常穩(wěn)定,其向量距離仍可能相隔很遠(yuǎn)。為此,對(duì)采用傳統(tǒng)SGNS 訓(xùn)練得到的詞向量,在計(jì)算不同時(shí)段詞匯的語義相關(guān)度時(shí),可通過計(jì)算相關(guān)詞的交集來判定兩個(gè)詞的語義相關(guān)度。若某個(gè)詞在兩個(gè)不同時(shí)期的近鄰詞的交集越小,則可認(rèn)為詞義的變化程度越大,定義時(shí)期tm的詞匯wi和時(shí)期tn的詞匯wj的語義相關(guān)度為
由于KNN (k-nearest neighbors) 算法時(shí)間開銷較大,本研究采用近似近鄰的隨機(jī)投影方法[41]將每個(gè)節(jié)點(diǎn)中的數(shù)據(jù)投影到一維子空間,然后在子空間中進(jìn)行近鄰詞的劃分。
對(duì)另外兩種歷時(shí)詞向量訓(xùn)練方式,即正向點(diǎn)互信息(PPMI) 和增量訓(xùn)練Skip-Gram 模型,所得到的詞向量是自然對(duì)齊的。其中,PPMI 的詞向量每一列都顯式地對(duì)應(yīng)于特定上下文,而增量訓(xùn)練方式每一次迭代,均保持了上一階段詞向量的信息,使得每個(gè)時(shí)期訓(xùn)練所得的詞向量處于可比較的語義空間內(nèi),因此,兩者均可直接使用余弦距離或歐幾里得距離來計(jì)算不同時(shí)期詞匯的語義相關(guān)度。
4.2.3 維度配置與數(shù)據(jù)映射
“維” 是觀察數(shù)據(jù)的視角,本研究提供的維度挖掘主要有兩方面。一方面,研究者根據(jù)研究興趣和關(guān)注內(nèi)容,在訓(xùn)練歷時(shí)詞向量之前,依據(jù)年代、專欄、版面、關(guān)鍵字等標(biāo)注特征,從深加工語料庫中篩選出相關(guān)語料,進(jìn)行歷時(shí)詞向量訓(xùn)練,建立各種面向主題的數(shù)據(jù)集。例如,要考察《人民日?qǐng)?bào)》 政治話語體系的變遷和建構(gòu),可根據(jù)版面和專欄特征,從語料庫中抽取《人民日?qǐng)?bào)》 社論、評(píng)論員文章等語料,分時(shí)期訓(xùn)練歷時(shí)詞向量以構(gòu)建專題詞匯數(shù)據(jù)集。另一方面,對(duì)于特定主題數(shù)據(jù)集,可以通過XML 文件來配置多維數(shù)據(jù)集,并自動(dòng)生成可視化界面,以方便研究者從多個(gè)維度深入觀察數(shù)據(jù),進(jìn)行知識(shí)發(fā)現(xiàn)與挖掘。 例如,對(duì) “人民日?qǐng)?bào)社論專題數(shù)據(jù)集” 的一個(gè)多維配置描述如圖3 所示。
圖3 XML數(shù)據(jù)集多維配置
該配置定義了 “詞性”“命名實(shí)體類型”“起止日期” 等維度作為知識(shí)挖掘所需數(shù)據(jù)的過濾條件,并提供詞匯、詞向量、命名實(shí)體類型、詞頻、對(duì)應(yīng)語料、所在句子等普通列供選擇,通過配置文件與界面邏輯的映射,可以靈活高效地完成主題數(shù)據(jù)集的構(gòu)建,并通過向?qū)浇缑娅@得所需數(shù)據(jù)(圖4),使領(lǐng)域?qū)W者從技術(shù)細(xì)節(jié)中解脫出來,將精力投入于問題本身。
圖4 XML配置映射成的數(shù)據(jù)集維度過濾界面
通過對(duì)關(guān)鍵語義服務(wù)的調(diào)用,可以定制針對(duì)各項(xiàng)研究專題的知識(shí)發(fā)現(xiàn)和可視化模塊,并展開定量分析。本節(jié)通過三個(gè)實(shí)際主題的知識(shí)發(fā)現(xiàn)實(shí)例,介紹可視化分析及應(yīng)用的構(gòu)建方法。
4.3.1 詞匯歷時(shí)近鄰關(guān)鍵詞可視化
詞匯歷時(shí)近鄰詞可視化的目的在于直觀、快速地觀察詞匯的語義變遷情況,其依據(jù)是詞匯語義的分布式假設(shè)[42],即認(rèn)為詞匯的語義由其上下文確定,相似的概念在空間中的距離也相近,通過詞匯的近鄰詞可以表達(dá)其語義。通過統(tǒng)計(jì)詞匯在某一語料中的詞頻及總語料中的詞頻(即TF-IDF 值),能篩選得到關(guān)鍵詞匯。因此,通過對(duì)詞匯近鄰關(guān)鍵詞的可視化展現(xiàn),可以直觀地觀察詞匯的語義演化趨勢(shì),進(jìn)而對(duì)一些社會(huì)現(xiàn)象進(jìn)行分析。
《人民日?qǐng)?bào)》 的詞匯與中國社會(huì)政治生活密切相關(guān),各個(gè)版面均記錄了中國每個(gè)時(shí)期在社會(huì)、政治、經(jīng)濟(jì)、科技、文化等領(lǐng)域的變化和進(jìn)步,具有強(qiáng)烈的時(shí)代色彩。本研究參照中國現(xiàn)代史重大事件[43],將1946 年5月15日至2003年12月21日的《人民日?qǐng)?bào)》 全庫語料,分為四個(gè)時(shí)期:時(shí)期一為1946—1965 年,時(shí)期二為1966—1976 年,時(shí)期三為1977—1992 年,時(shí)期四為1993—2003 年,并采用傳統(tǒng)Skip-Gram 的訓(xùn)練方式,訓(xùn)練得到每個(gè)時(shí)期的詞匯語義向量。圖5 以詞匯 “經(jīng)濟(jì)”“農(nóng)業(yè)” 為例,展示了詞匯近鄰關(guān)鍵詞隨時(shí)間變遷而變化的可視化過程。
圖5 詞匯歷時(shí)近鄰關(guān)鍵詞
由圖5 可以看出:①1946—1965 年,這一時(shí)期是社會(huì)主義建設(shè)的過渡和探索時(shí)期,“經(jīng)濟(jì)” 的近鄰關(guān)鍵詞包括 “國民經(jīng)濟(jì)”“合營”“購銷”“公營企業(yè)”“棉紗”“計(jì)劃調(diào)節(jié)” 等反映經(jīng)濟(jì)領(lǐng)域的三大改造和高度集中的計(jì)劃經(jīng)濟(jì)體制的詞匯;“農(nóng)業(yè)” 的近鄰關(guān)鍵詞則有 “互助組”“初級(jí)社”“自給性”“飛躍發(fā)展”“全力” 等,反映了這一時(shí)期集體農(nóng)業(yè)建設(shè)的面貌以及對(duì)增收增產(chǎn)的迫切需求。②1966—1976 年,“經(jīng)濟(jì)” 的近鄰關(guān)鍵詞包括 “經(jīng)濟(jì)主義”“唯生產(chǎn)力論”“多快好省”“三自一包” 等,在這一時(shí)期,經(jīng)濟(jì)與政治緊密關(guān)聯(lián),與經(jīng)濟(jì)建設(shè)直接相關(guān)的詞匯比較少見;“農(nóng)業(yè)” 的近鄰詞包括 “春播”“大寨”“國防”“備荒” 等,反映了這一時(shí)期農(nóng)業(yè)建設(shè)停滯的狀況以及農(nóng)業(yè)學(xué)大寨運(yùn)動(dòng)的時(shí)代特征。③1977—1992 年,這一時(shí)期是改革開放建設(shè)時(shí)期,“經(jīng)濟(jì)” 的近鄰關(guān)鍵詞有 “資金”“市場(chǎng)經(jīng)濟(jì)”“生產(chǎn)力”“生產(chǎn)關(guān)系”“按勞分配”“市場(chǎng)調(diào)節(jié)”“經(jīng)濟(jì)效益” 等一系列具有改革開放典型時(shí)代特征的詞匯,反映了改革開放后我國經(jīng)濟(jì)蓬勃興旺的發(fā)展態(tài)勢(shì)?!稗r(nóng)業(yè)” 的近鄰關(guān)鍵詞則包括 “開荒”“高產(chǎn)”“雙季稻”“商品糧”“科學(xué)種田”“科技興農(nóng)”“農(nóng)副產(chǎn)品” 等詞匯,反映了這一時(shí)期開荒造田以及科技發(fā)展農(nóng)業(yè)的趨勢(shì)。④1993—2003 年,這一時(shí)期是改革開放的深化期,“經(jīng)濟(jì)” 的近鄰關(guān)鍵詞包括 “交易所”“股票”“利用外資”“擴(kuò)大開放” 等,表明隨著市場(chǎng)經(jīng)濟(jì)地位的確立,我國經(jīng)濟(jì)建設(shè)進(jìn)入一個(gè)新的歷史階段?!稗r(nóng)業(yè)” 的近鄰關(guān)鍵詞包括 “農(nóng)業(yè)投入”“支農(nóng)”“信息化”“精準(zhǔn)”“觀光農(nóng)業(yè)”“綠色食品”“無公害” 等詞匯,表明了農(nóng)業(yè)管理隨著現(xiàn)代農(nóng)業(yè)的發(fā)展變得更為精細(xì)化,“三農(nóng)” 問題提上日程,綠色環(huán)保成為熱點(diǎn)主題。
4.3.2 詞匯語義變遷考察
根據(jù)詞匯的歷時(shí)詞向量,可以計(jì)算出不同時(shí)期單個(gè)詞向量與初始詞向量的相關(guān)度,若相關(guān)度變化不顯著,則表明該詞匯的語義相對(duì)穩(wěn)定。本研究以每三年為時(shí)間分片,從深加工《人民日?qǐng)?bào)》 語料庫中,構(gòu)建語料訓(xùn)練集,并選擇增量Skip-Gram 模型進(jìn)行訓(xùn)練,得到詞匯在每一階段的向量。部分詞匯特別是一些后期出現(xiàn)的新詞,在早期的文本中沒有或很少出現(xiàn)。例如,“軟件” 一詞在《人民日?qǐng)?bào)》中最早出現(xiàn)的時(shí)間是1976 年2 月,在74-76 時(shí)間分片(即1974—1976 年) 中僅出現(xiàn)了2 次,如果按正向時(shí)間周期訓(xùn)練會(huì)帶來語義失真的問題。為此本研究采用文獻(xiàn)[44]的方法,訓(xùn)練時(shí)采用從后向前訓(xùn)練的方式,即從2001—2003 年開始訓(xùn)練,并反向初始化,最后,計(jì)算每個(gè)階段詞匯與起始階段詞匯的語義距離,以觀察詞匯的語義變化程度。在圖6 中,以 “井噴”“縮水”“防火墻”“孵化” 等12 個(gè)具有代表性的詞匯為例,展示了選定詞匯的詞義變化趨勢(shì)圖。
圖6 詞匯語義變化歷時(shí)曲線圖
從總體上看,詞匯在語義空間中的位置會(huì)隨著時(shí)間的推移而發(fā)生偏移,若偏移程度較大,則表明在這個(gè)時(shí)期詞匯的語義發(fā)生了變化。例如,“下?!薄把矍颉?的語義變化曲線分別在1989-91 時(shí)期(即1989—1991 年),以及1995-97 時(shí)期(即1995—1997年) 有顯著下降,則表明這段時(shí)間語義發(fā)生了較為劇烈的變化。通過查詢?cè)~匯轉(zhuǎn)義期前后的近鄰關(guān)鍵詞,可以觀察具體的詞義變化情況(表2)。
表2 部分詞匯的近鄰關(guān)鍵詞詞變遷
結(jié)合圖6 和表2 可以發(fā)現(xiàn),第一,隨著社會(huì)的發(fā)展和時(shí)間的推移,有些詞匯從各個(gè)學(xué)科和行業(yè)中表示具體概念的本義,逐漸泛化為表示抽象概念的隱喻義,涉及的學(xué)科既包括戲曲、軍事、醫(yī)藥、物理等領(lǐng)域,也包括金融、計(jì)算機(jī)、互聯(lián)網(wǎng)等新興行業(yè)。通過檢索詞匯所在語料,可以分析詞匯語義變遷的具體語境。以 “旗艦” 為例,其原意是指載有海軍將官或艦隊(duì)、分艦隊(duì)司令官并懸掛旗幟的軍艦,例如,“去年九月二日在東京灣的密蘇里旗艦上舉行了日本投降的簽字典禮(1946-08-11) ”;在1998 年之后,“旗艦” 逐漸泛化到商業(yè)領(lǐng)域,比喻同類中起主導(dǎo)作用的產(chǎn)品或機(jī)構(gòu),例如,“由我國軟件旗艦企業(yè)浪潮軟件為北京市民政局開發(fā)的‘北京市城鄉(xiāng)居民最低生活保障管理服務(wù)系統(tǒng)’一期工程開通(2003-07-18) ”。 第二,在詞義變化過程中,有些詞的色彩意義發(fā)生了變化。在20 世紀(jì)90年代之前,“策劃” 的近鄰關(guān)鍵詞主要包括 “陰謀”“ 蓄 謀”“ 幕后 操縱” 等貶 義 色彩 的 詞,例 如,“ (亞洲人民) 反對(duì)國際戰(zhàn)爭(zhēng)勢(shì)力在任何幌子下策劃新戰(zhàn)爭(zhēng)的罪惡陰謀(1955-02-26) ”;而隨著改革開放的不斷深入,其近鄰關(guān)鍵詞逐漸轉(zhuǎn)為中性,出現(xiàn)了“ 營銷”“ 品牌”“ 文案” 等中性詞,例如,“該中心將與新聞界廣泛聯(lián)系,代理策劃各類公關(guān)和廣告宣傳活動(dòng)(1992-11-01) ”。第三,隨著科技的發(fā)展,有些詞匯的語義逐漸遷移到專業(yè)領(lǐng)域。1996 年之前,“防火墻” 還是建筑學(xué)術(shù)語,其關(guān)鍵近鄰詞包括 “火災(zāi)”“通風(fēng)洞”“隔離墻” 等建筑領(lǐng)域詞匯,例如,“該公司擅自在防火墻上鑿開7 個(gè)通風(fēng)洞(1994-03-01) ”; 在1996 年之后,“ 防火墻” 一詞開始轉(zhuǎn)移到網(wǎng)絡(luò)領(lǐng)域,其近鄰詞包括 “安全漏洞”“主動(dòng)防御” 等隨著互聯(lián)網(wǎng)飛速發(fā)展而出現(xiàn)的詞匯,例如,“通過一種稱為‘防火墻’的多種軟硬件防護(hù)體系即可保護(hù)自己的計(jì)算機(jī)不受侵犯(1995-02-18) ”。由此可見,通過計(jì)算詞匯的歷時(shí)語義變化和觀察其近鄰關(guān)鍵詞的變遷,可以有效輔助對(duì)詞匯語義的具體變化及其背景進(jìn)行分析并舉出例證。
4.3.3 特定詞匯的歷時(shí)標(biāo)簽演變
《人民日?qǐng)?bào)》 詞匯系統(tǒng)與時(shí)代話語體系密切相關(guān),通過對(duì)一些人名、地名、機(jī)構(gòu)名、歷史事件的近鄰詞的變遷的考察,可以窺見特定歷史時(shí)期的時(shí)代特征和觀念的變化過程。例如,要觀察時(shí)代背景制約下《人民日?qǐng)?bào)》 中 “孔子” 的形象變遷,可通過其近鄰詞中標(biāo)簽類詞匯(近鄰名詞、動(dòng)詞、形容詞、命名實(shí)體) 的歷時(shí)變化來觀察(圖7)。
圖7 “孔子”形象歷時(shí)演化
作為儒家文化的創(chuàng)始人,孔子對(duì)中國社會(huì)產(chǎn)生了深遠(yuǎn)影響。以圖7 中的 “孔子” 為例,①1946—1965 年,“孔子” 的近鄰詞主有兩類,第一類是將孔子視作中國古代的學(xué)者,如 “哲學(xué)”“君子”“周禮”“六藝”“學(xué)說” 等,與其相關(guān)的人名則有 “老子”“孟子”“墨子”“荀子”“子貢” 等;第二類是視孔子為封建秩序的維護(hù)者,如 “封建”“貴族”“地主階級(jí)”“奴隸主” 等。這一時(shí)期孔子的形象塑造主要集中在孔子的哲學(xué)思想和孔子的階級(jí)屬性上,反映了當(dāng)時(shí)對(duì)孔子學(xué)術(shù)教育貢獻(xiàn)的客觀評(píng)價(jià),以及對(duì)孔子的階級(jí)屬性的討論。②1966—1976 年,“孔子” 的近鄰詞主要包括 “孔老二”“批林批孔”“孔家店”“復(fù)辟”“反動(dòng)”“上智下愚” 等,表明在這一時(shí)期,孔子及其思想受到大面積的批判,孔子形象跌入低谷。③1977—1992 年,孔子的近鄰詞為“儒家”“傳統(tǒng)”“教育家”“學(xué)術(shù)”“哲學(xué)” 等,這一時(shí)期對(duì)孔子的評(píng)價(jià)已經(jīng)較少有政治上的定性,而主要突出其思想家、教育家的定位。④1993—2003年,孔子的近鄰詞出現(xiàn)了 “夫子廟”“國際”“海內(nèi)外”“文化節(jié)” 等詞匯,反映了隨著國家經(jīng)濟(jì)和文化的發(fā)展,孔子的形象兼具了旅游文化乃至對(duì)外交流的功能。需要說明的是,圖7 中孔子形象的 “標(biāo)簽” 詞,是從歷時(shí)語料中由詞向量算法自動(dòng)學(xué)習(xí)得到的,其本質(zhì)是對(duì)語料使用的反映,因此,可以為觀察不同時(shí)代的孔子形象提供一種新的視角。
在信息技術(shù)飛速發(fā)展的背景下,歷時(shí)文本數(shù)據(jù)正以前所未有的速度增長,試圖從浩瀚的文字海洋中人工觀察社會(huì)變遷的整體面貌,已超出了一般分析理解所能處理的范疇;而機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)的興起,則為文本處理和挖掘提供了更大的研究空間和新的研究可能。在此背景下,本研究提出了一個(gè)面向知識(shí)發(fā)現(xiàn)的詞匯歷時(shí)語義挖掘框架,該框架基于服務(wù)式體系架構(gòu),通過語料預(yù)處理、歷時(shí)詞向量訓(xùn)練、詞匯語義計(jì)算等服務(wù),可實(shí)現(xiàn)從文本到數(shù)據(jù)再到知識(shí)的轉(zhuǎn)化。同時(shí),本研究以《人民日?qǐng)?bào)》歷時(shí)語料為基礎(chǔ),實(shí)現(xiàn)了中文詞匯歷時(shí)語義知識(shí)挖掘平臺(tái),通過數(shù)據(jù)集定制和服務(wù)組合,構(gòu)建了詞匯語義知識(shí)發(fā)現(xiàn)的若干應(yīng)用。本研究工作的特色與優(yōu)勢(shì)有:①具有高可擴(kuò)展性,在松耦合的面向服務(wù)的架構(gòu)下,開發(fā)者可根據(jù)業(yè)務(wù)邏輯靈活構(gòu)建特定的知識(shí)發(fā)現(xiàn)應(yīng)用模塊;②具有高可配置性,通過定義或修改配置文件,可與數(shù)據(jù)集建立映射,實(shí)現(xiàn)即插即用功能;③具有高可用性,人文學(xué)者可根據(jù)學(xué)術(shù)興趣,定制或選擇現(xiàn)有的面向主題的歷時(shí)詞匯數(shù)據(jù)集,從多個(gè)維度觀察數(shù)據(jù),從而發(fā)現(xiàn)線索或得出結(jié)論。
本文的意義在于展現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)的知識(shí)生產(chǎn)范式的潛力,不同于傳統(tǒng)研究主要依賴于對(duì)文獻(xiàn)的辨析、思考和領(lǐng)悟得出相關(guān)結(jié)論,本文所取得的若干結(jié)果是通過大量數(shù)據(jù)的匯集而自動(dòng)涌現(xiàn)的,具有精確、可復(fù)現(xiàn)等自然科學(xué)研究的特點(diǎn)。然而,本研究還需要進(jìn)一步完善和深入。第一,本文采用了三種主流的歷時(shí)詞向量訓(xùn)練方法,但沒有討論不同訓(xùn)練方法得到的詞向量特征的差異。第二,本文的實(shí)證部分使用了《人民日?qǐng)?bào)》 歷時(shí)語料,而沒有使用微博等新興社交媒體語料,主要是因?yàn)闀r(shí)間跨度較長的大規(guī)模語料的獲取較為困難,處理較為煩瑣,而《人民日?qǐng)?bào)》 語料用詞規(guī)范,與社會(huì)生活聯(lián)系緊密,適合作為詞匯歷時(shí)語義挖掘的基礎(chǔ)語料。未來我們將進(jìn)一步采集《人民日?qǐng)?bào)》 的語料數(shù)據(jù),以及《人民文學(xué)》《新聞聯(lián)播》 報(bào)道等記錄中國社會(huì)生活變遷的歷時(shí)語料,對(duì)詞匯系統(tǒng)進(jìn)行更深入的知識(shí)挖掘。