吳海燕,劉 穎
(清華大學人文學院,北京100084)
語體是當代語言學的重要范疇,是語言研究的一個不可忽視的領域,它是人們在使用語言時受到交際對象、目的、內容、環(huán)境等交際條件的限制而形成的一些綜合的語言特點。霍小立[1]指出,語體特征是語體在受交際環(huán)境、目的和內容影響而間接體現(xiàn)語體本質的屬性集合。顧名思義,語體特征區(qū)分度是指特征能區(qū)分不同語體的能力。
語體特征作為語體的本質屬性,具有一定的語體區(qū)分度。在之前的文獻中主要從兩方面進行語體區(qū)分度的研究:一是根據(jù)語言學知識分析哪些特征具有語體區(qū)分度;二是借助計算機模型,通過分析分類準確率或聚類離散程度等來說明哪些特征具有顯著語體區(qū)分度。根據(jù)以往研究方法的不同,本文將它們分為三類:語言學方法、統(tǒng)計學方法及神經網(wǎng)絡方法。
1)語言學方法。很多語言學者對不同語體中具體的字、詞、特定短語、句法結構、句類等都做了詳細的分析研究,并給出了哪些特征具有語體區(qū)分度。例如:2010 年陶紅印等[2]提出“把”字句和“被”字句在不同的語體中具有明顯的差異。馮勝利[3]通過對比研究口語和書面語的語體特征,最后指出單、雙音節(jié)是區(qū)別口語和書面語的基本單位。張豫峰[4]指出“得”在文藝語體、政論語體、科技語體和公文語體中頻率呈遞減趨勢。錢小飛[5]認為“地”字結構可用來區(qū)分不同的語體。句法作為漢語的語言結構組成之一,方梅[6]認為句法特征在不同語體的分布存在差異,它在宏觀上規(guī)定的句子語氣類型和功能類型也存在差異。此外,標點符號也具有語體區(qū)分性,林毓霞[7]曾指出標點符號的運用同語體有著密切的關系,標點符號種類的多寡、頻率的高低取決于語體的形式。
這些研究的共同點是通過語言學分析和基本的計量找出哪些字、詞、短語或句法結構等特征具有語體區(qū)分度,并對其重要性進行解釋說明。這些語言學家細致入微的語言學分析為后續(xù)學者的研究提供了重要的理論依據(jù),但這些分析說明是從語體內在的含義出發(fā),需要逐詞逐句地分析和篩選例句,工作量大,耗時費力,并且缺乏大規(guī)模數(shù)據(jù)上的統(tǒng)計驗證。
2)統(tǒng)計學方法。隨著計算機技術的發(fā)展,學者們逐漸開始借助統(tǒng)計學方法來提取語體特征并將其數(shù)字化表示,例如:頻率、詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)等形式,并在此基礎上進行分類和聚類,通過分析分類和聚類的準確率來說明所選語體特征的重要性。胡駿飛等[8]借助詞頻來分析“弄”字句在會話口語、影視口語及書面語體中的分布,并得出詞類在一定程度上可以反映語體的重要程度,同時從語用功能的角度加以解釋說明。肖天久等[9]利用詞和詞的N 元文法相結合研究《紅樓夢》前八十回與后四十回的關系,結論是前八十回與后四十回有差異,這說明詞和詞的N 元文法對判定語體有重要的作用,即詞和N 元文法具有語體區(qū)分度;但是該文作者并未直接給出這個區(qū)分語體能力的大小,而是通過使用聚類的離散程度來間接說明的。
這些方法的共同點是對所提取的特征都采用了數(shù)值量化表示,與語言學方法相比,特征的形式化表示很容易被計算機處理,并且也取得了很好的效果。事實上,從這些研究所選擇的特征類型來看,學者們已經開始嘗試從更多的角度考慮特征的選擇,唯一不足的是這些特征需要人為選取,這就對研究人員的語言學知識有較高的要求。
3)神經網(wǎng)絡方法。近些年來,基于神經網(wǎng)絡的學習方法在很多領域都有出色的表現(xiàn)。利用神經網(wǎng)絡來挖掘語體的重要特征也是學者們努力研究的方向。周浩[10]利用神經網(wǎng)絡對句法結構進行分析,實驗結果顯示與傳統(tǒng)方法相比,神經網(wǎng)絡能挖掘更好的句法結構來幫助分析語體。還有學者利用復雜神經網(wǎng)絡挖掘語體的關鍵信息,例如Wang等[11]提出了一種基于雙向長短時記憶(Long Short-Term Memory,LSTM)和循環(huán)神經網(wǎng)絡(Recurrent Neural Network,RNN)的關鍵詞自動提取方法。通過對京東的產品評論進行分析,所提取的關鍵詞能很好地區(qū)分不同種類的產品。此外,神經網(wǎng)絡在其他領域也有很好的應用,Bahdanau 等[12]將注意力機制應用到翻譯領域,通過注意力機制找出每一句話的關鍵詞來幫助終端進行翻譯,從而使翻譯效果得到了很大的提升。Pappas 等[13]將注意力機制應用到詞和句子層面上,通過注意力機制找到能區(qū)分文本的關鍵詞和句子,從而提高了文檔分類的準確率。
這些基于復雜神經網(wǎng)絡的方法無論是在特征提取還是分類準確率方面都有了很大的提升。深度學習可以自動獲取語體本身的信息,并使用高維度的向量來表示所提取的特征,使其具有高維度的空間語義屬性[14]。這樣,語體特征的語義信息被挖掘出來,同時也極大地減少了人為參與。不足的是這些模型對硬件要求比較高,訓練時間通常比較長。
通過分析這些方法的優(yōu)缺點,本文利用注意力機制和多層感知機的組合模型——注意力網(wǎng)絡來挖掘能區(qū)分不同語體的重要特征,結構如圖1 所示。本文工作的核心是通過注意力網(wǎng)絡挖掘能區(qū)分小說、新聞及課本的詞、詞類、標點符號、句法結構及它們的2 元特征,并對它們的重要性進行量化表示與分析,主要工作是:
1)利用注意力網(wǎng)絡模型能挖掘出多種能區(qū)分小說、新聞及課本的特征集,主要包含:詞和詞的2 元、詞類和詞類2 元、標點和標點2 元、句法結構以及多種特征組合,從多個語言層面上挖掘出小說、新聞和課本在詞匯、句法和語義使用上系統(tǒng)的差異。
2)從語義角度挖掘出小說、新聞及課本的主題詞及與其依存的從屬詞和句法結構;并進一步挖掘出動詞是三種特征內在聯(lián)系的紐帶,同時證明了動詞對語體的重要性;最后,還逐一挖掘了小說的主人公形象(身體器官、面部表情、內心活動、說話語氣、親屬稱呼、社會角色等)、新聞的事件報道(時間、地點、主題等)及課本的人物描寫和議論主題等的內在聯(lián)系。
3)對注意力網(wǎng)絡進行改進,使得它不但能夠挖掘序列化的特征,也能挖掘非序列化的句法結構;而且它能很好地挖掘出區(qū)分小說、新聞及課本的句法結構集。
4)本文選用注意力網(wǎng)絡模型的優(yōu)點是:能夠挖掘出多種有效特征,同時還能給出每一種特征的語體區(qū)分度;能夠自動過濾掉大量的冗余特征;能夠自動過濾掉停用詞。
在計算機領域,深度學習已成為一種流行的方法,它在多個領域都顯示出了強大的建模能力[15]。在神經網(wǎng)絡的模式設計中,有一種結構被稱為注意力機制,它能自動分析文本中不同信息的重要性。在自然語言處理領域,學者們將它與深度模型相結合已經取得了顯著的成果。
本文借助注意力機制來挖掘具有顯著區(qū)分度的語體特征。這些特征主要包括:詞的N 元、詞類的N 元、標點符號的N 元及句法結構。首先,通過對由這些特征所表示的文本執(zhí)行分類訓練,在訓練的過程中,注意力機制會對這些特征進行評分。這里,注意力機制的作用是找出哪些特征具有顯著的語體區(qū)分度并賦予相應的注意力分值,分值越高就越能區(qū)分語體,即注意力機制分值越高該特征的語體區(qū)分度就越大。本文使用的注意力網(wǎng)絡結構如圖1 所示,主要由輸入層、嵌入層、N 元向量層、注意力層、N 元句子向量層、連接層、分類層及輸出層組成。
圖1 注意力網(wǎng)絡結構Fig. 1 Structure of attention network
圖1 示意的是將詞類或詞類的2 元作為輸入時的網(wǎng)絡結構。在兩種情況下,均先將輸入的詞類通過嵌入層轉化為詞類向量。若對詞類1 元(即詞類)進行評分,則詞類向量直接輸入到注意力層;若對詞類的2 元進行評分,則詞類向量先通過N 元向量層組合產生N 元向量,再輸入到注意力層。最終,無論特征是詞類還是詞類的N 元,注意力網(wǎng)絡層將對輸入到全連接層的句子進行分類??偟膩碚f,圖1 注意力網(wǎng)絡結構包含三個部分:模型特征輸入(輸入層、嵌入層及N 元向量層)、注意力機制特征評分(注意力層和N元句子向量層)及語體分類(連接層和分類層)。接下來,將詳細地介紹這三部分。
本節(jié)的主要目的是將由句子組成的語料集轉換成注意力網(wǎng)絡所要識別的特征(詞、詞類、標點符號、句法結構及它們的組合)向量,主要包括輸入層、嵌入層及N元向量層。
1)輸入層。使用模型前,需要用特征表示語料集中的每一個句子。 首先,需要構建特征對應的字典W ={w1,w2,…,wn},n 表示文本的特征數(shù)。例如:想提取能區(qū)分小說、新聞及課本的詞匯特征,故此時的W 是所有詞的集合,n表示不同詞的數(shù)目。類似地,如果想要提取能識別小說、新聞及課本的詞類或標點符號或句法結構特征,此時的W 就是詞類或標點符號或句法結構,對應的n 就是這幾類特征各自的總個數(shù)。其次,將語料集的句子集用字典W中的特征表示,其中,L 表示語料集的句子數(shù),即S ={s1,s2,…,sL}。對每一個句子進行切詞、詞性標注及構建句法樹如下:
其中:posi,j表示詞 wordi,j所對應的詞性,i 表示句子在語料庫中的序號,j 表示該詞類在當前句子中的序號;m 為句長;p 是句法樹經過序列化處理(前序遍歷,即先訪問根節(jié)點,然后訪問左子樹,最后訪問右子樹)后所得的句法結構數(shù)。對于句法結構的提取,需要借助句法樹來完成。
下面利用圖1 的例句來詳細說明以上幾種形式化表示。首先,使用斯坦福自然語言處理工具包CoreNLP 對句子si={俺閨女分房子…}分別進行切詞、詞性標注及構建句法樹(圖2)得:
語料集中所有的句子分別用類似si-words、si-POS、si-Pun及si-syntax表示后輸入到嵌入層。
圖2 句法樹Fig. 2 Syntactic tree
2)嵌入層。該層是將句子特征轉化為向量,以詞特征為例,即:
其中:wi,j∈ Rv為詞 wi,j所對應的向量(本文用粗體表示相應特征的向量);φ 為特征空間到向量空間的映射,即φ:W → Rv,v 表示特征向量的維度,由3.2 節(jié)實驗設置給出。詞向量由正態(tài)分布N(0,0.01)隨機初始化得到,在神經網(wǎng)絡訓練過程中會被訓練優(yōu)化。
3)N 元向量層。該層是將嵌入層所得的特征向量按照N的大小拼接起來,以詞類的N 元為例:對于句子Si-words={wi,1,wi,2,…,wi,n} 所 對 應 的 詞 類 表 示 為 Si-POS=,則 詞 類 的 k 元 表 示 為 Si-tag=,其中,gki,j表示句子的第 j 個詞類 k元,用粗體表示其向量,則它對應的向量是:
經過模型輸入部分得到句子特征的N 元向量,接下來需要利用注意力機制對其進行評分。以圖1 詞類表示的句子為例,來闡述注意力機制的評分原理。
1)注意力層。首先,注意力機制通過全連接層計算出每一個句子的第j個詞類k元特征()的注意力向量。
其中:Ak∈ Rt×kv和bk∈ Rt是注意力網(wǎng)絡的參數(shù),分別為連接權重和偏置,t表示注意力網(wǎng)絡的隱含層的維度,v表示向量的維度,kv 表示向量gki,j的維度。其次,因為 Kalman 等[15]曾經指出“具有非線性多項式激活函數(shù)的多層前饋網(wǎng)絡可以逼近任何函數(shù)”,因此為了使模型具有更好的擬合性,通常在全連接層之后增加一個非線性多項式激活函數(shù)。其中,uki,j是包含詞類k 元模型(k-Gram)重要性信息的隱藏注意向量。之后對注意力隱含向量進行加權求和,公式如下:
其中:hk是權重,屬于注意力網(wǎng)絡參數(shù);uki,j是注意力機制給 k元的所打的分值。注意,uki,j∈ (-∞,∞),如果直接用的分值與其對應的特征向量進行加權求和來形成句子向量,那么隨著訓練過程的進行,句子向量的長度和規(guī)模將失去控制趨向無窮大。所以,需要對句子向量進行歸一化,本文使用函數(shù)規(guī)范化指數(shù)函數(shù)Softmax函數(shù)進行歸一化。該函數(shù)將m -k + 1個實數(shù)作為輸入,并將其規(guī)范化為概率分布,公式如下:
2)N 元句子向量。通過式(1)~(3)完成了對句子中詞類的N元的評分。這樣就可以將原來的句子向量表示為帶有注意力分值的詞類和詞類N元模型,如式(4):
一般來說,這里的句子向量是注意力分值所有向量以權重加權和所得,它的權重是隨著注意力網(wǎng)絡的訓練動態(tài)生成的,不同句子的詞類N 元模型的權重是不一樣的。注意力網(wǎng)絡會隨著訓練分類準確率的提升動態(tài)地為每一個詞類N元模型進行評分。經過注意力層和N 元句子向量化表示后,得到了帶有注意力分值的句子向量。接下來需要使用分類器對這些句子進行分類。
本文使用多層感知機(Multi-Layer Perceptron,MLP)對語體進行分類。MLP是一種前饋人工神經網(wǎng)絡,一般由輸入層、隱藏層和輸出層組成,每層都有很多個神經元。MLP 通過使用后向傳播的有監(jiān)督算法來訓練和學習區(qū)分不同的語體。本文以句子向量si為輸入,返回不同語體的概率作為輸出。假設C是所有不同語體的集合,|C|是語體的數(shù)目。
1)連接層。本文通過使用兩個完全連接的層來構建一個高效簡單的分類模塊,公式如下:
其中:M1∈ Rt×vs,b1∈ Rt,M2∈ R|C|×t,b2∈ R|C|,這四個參數(shù)都是模型參數(shù),vs是句子向量si的大小,t是隱含層的大小,|C|是語體類別個數(shù)。pi向量表示句子屬于不同語體的非規(guī)范化概率,其中pi(j)為向量的第j個數(shù)表示句子si屬于語體j的非規(guī)范化概率,本文使用如下函數(shù)進行歸一化:
其中,p(cj|si)表示句子si屬于類別cj的概率。在本文類別指的是小說(0)、新聞(1)及課本(2)這三類。
2)分類層。為了給出預測類別,選取最大p(cj|si)所對應的類別cj作為模型預測類別,這就是圖1中的分類層。
以上涉及的訓練參數(shù)會在3.2 節(jié)的實驗設置中逐一給出。
另外,對于組合特征(“詞+詞類”、“詞+標點符號”、“詞+詞類+標點+句法結構”)來說,由于詞類(32 種,具體含義見表12)、標點符號(12種)及句法結構(高頻的396種)的數(shù)量比較少,采用One-Hot 編碼表示,并取它們與詞嵌入向量的和表示組合特征向量。對于這幾類組合特征向量,只需用圖1 的左邊的模型重復上面的步驟即可。
本文使用最常見的12 種標點符號,即,句號(。)、感嘆號(?。?、問號(?)、省略號(……)、逗號(,)、頓號(、)、分號(;)、引號(“ ”‘ ’)、冒號(:)、括號(()[]{})、破折號(──)和書名號(《》〈〉)。
本文的研究過程由以下幾個步驟組成:
1)構建語料庫。本文的研究對象是小說、新聞及課本,具體信息在3.1節(jié)語料庫介紹中詳細說明。
2)語料預處理。本文語料的處理使用斯坦福大學所提供的自然語言處理工具包Stanford CoreNLP 進行,主要包括數(shù)據(jù)清洗、切詞、詞性標注、句法樹構建等。其中,語料庫的處理以句子為單位,判斷句子的標準是以號(。)、問號(?)、感嘆號(!)及省略號(……)為結尾的句子。
3)給每一個句子編號。通過建立特征字典,將語料庫中每一個句子所對應的特征用其在字典中唯一的編號來表示,進而將語料庫中所有的句子轉換為用特征編號來表示。
4)注意力機制和多層感知機組合模型。這是注意力網(wǎng)絡的核心部分,其中,注意力機制對輸入句子進行評分,其分值的大小隨著分類準確率的變化而自動調整,直到分類準確率達到最優(yōu)而停止更新。而多層感知機是一個分類器,用于對句子類別的預測。
5)單現(xiàn)、共現(xiàn)處理。無需計算特征出現(xiàn)在每一種語體的次數(shù),對每一種語體中的所有特征求注意力分值的平均分值。
6)特征選擇。通過繪制注意力網(wǎng)絡分值的分布曲線,找出每一種特征所對應的注意力分值的閾值,進而選擇出能區(qū)分小說、新聞及課本的關鍵特征。
本文選取小說、新聞及課本三種語料,具體信息如下:
1)小說。選取莫言和余華的小說,其中包括莫言的12 部小說:《白棉花》《豐乳肥臀》《紅高粱》《紅樹林》《酒神》《生死疲勞》《十三步》《食草家族》《四十一炮》《檀香刑》《天堂蒜薹之歌》及《蛙》;余華的8部小說:《第七天》《古典愛情》《活著》《現(xiàn)實一種》《兄弟》《兄弟2》《許三觀賣血記》及《在細雨中呼喊》。
2)新聞。選取搜狗公開的語料集(https://www. sogou.com/labs/resource/list_yuliao. php),主要包含國內外新聞、財經、股票、房地產、健康、熱點、教育及社會等十個主題相關的新聞。
3)課本。以中小學的語文教材為主,包括國內外小說、散文、勵志故事、愛國故事、話劇等,例如:魯迅的《孔乙己》《阿Q正傳》《祥林嫂》及《故鄉(xiāng)》等;海明威的《海燕》;莎士比亞的《羅密歐與朱麗葉》;朱自清的散文《背影》及《匆匆》等。由此可以看出,課本包含的語體種類比較多,其目的通常是選取一些有代表性的文章來培養(yǎng)學生的聽說讀寫等能力。數(shù)據(jù)集詳細的統(tǒng)計信息見表1。
表1 數(shù)據(jù)集信息Tab. 1 Dataset information
實驗將語料集按8∶1∶1 劃分為訓練集、驗證集和測試集,驗證集用來探索訓練輪數(shù)且在過擬合的情況下提前結束訓練。為了更好地訓練模型,本文使用網(wǎng)格搜索來選擇模型參數(shù)的最優(yōu)組合,這些參數(shù)主要包括:學習率(learning rate)∈{0.001,0.01,0.1,1}和批量大?。╞atch size)∈{32,64,128,256,512},初始化向量的維度是128。另外,本文實驗以句子為單位進行訓練分類,故需要設置句子長度及每個詞用多少位來表示。小說和課本的平均句子長度接近20,新聞的平均句子長度接近30。因此,設置句子長度集∈{10,20,30,40,50,80,100,120,130}。句子向量的大小是這三種語體特征的總數(shù),特征的維度大小設置為32。參數(shù)的最佳組合以黑色加粗顯示,對模型影響較小的其他參數(shù)則統(tǒng)一采用默認值。對于用句法結構表示的句子,在訓練時將句子長度大小改為200,其他參數(shù)不變。本文采用準確率來評估模型的性能。
通過回答以下2個問題進行實驗結果分析。
1)問題1:對詞、詞類、標點符號及句法結構來說,當注意力分值為多大時才能很好地區(qū)分小說、新聞及課本。
以訓練詞特征的結果分析為例,將其注意力分值按照降序排列,然后取隊尾、隊首詞進行分類,其準確率隨取隊首、隊尾的詞的多少而變化,其變化曲線(包含訓練集)如圖3所示。
根據(jù)圖3分析如下:
1)從圖(a)的隊首詞比,大約用隊首3%的高注意力分值詞就能使模型的分類準確率達到90%以上,表明高分值的詞具有非常好的語體區(qū)分度。
2)從圖(b)的隊尾詞可以看出,大約用隊尾97%的低注意力分值的詞才能使模型分類準確率達到90%以上,表明低分值的詞對區(qū)分語體的幫助沒有高注意力分值的詞好。
3)在一定程度上,無論是取隊尾詞還是隊首詞,有效的特征越多,其分類準確率越高。
上述結果驗證了注意力分值具有很好的區(qū)分度,根據(jù)不同注意力分值詞的百分比和其對應的準確率,本文將注意力的分值分為高([0.15,1])、中([0.01,0.15))、低([0,0.01))三個區(qū)間,不同區(qū)間的詞頻占比及其對應的準確率見表2所示。從表2可以看出,低區(qū)分度的詞占大多數(shù)(約75%)所對應的分類準確率只有47.60%;而取高分值詞的4.21%,對應的分類準確率就達到93.31%。這說明在區(qū)分不同的語體時,高分值的詞更有效。同時也說明了研究語體特征的意義:挖掘更多的具有高注意力分值的特征來提高語體分類準確率,進而實現(xiàn)語體特征的降維。
圖3 隊尾與隊首詞百分比與準確率的關系Fig.3 Relationship between accuracy and proportion of head/tail words of queue
2)問題2:對詞、標點符號、詞類及句法結構來說,每一種特征區(qū)分小說、新聞及課本的能力如何。
分別使用詞、詞類、標點符號、句法結構及它們的組合特征表示語料,并將其作為輸入特征,經過訓練后得到的分類結果如表3所示。
表3 基于語體特征的分類結果 單位:%Tab. 3 Classification results based on stylistic features unit:%
根據(jù)表3的分類結果可以得出以下幾點:
1)對于每一種特征(詞的N元、詞類的N元、標點符號的N元及句法結構)來說,分類的準確率由高到低依次是:詞的2元、詞、句法結構、詞類的2元、標點符號的2元、標點符號及詞類,這幾類特征都具有語體區(qū)分能力,但是每一種特征能區(qū)分小說、新聞及課本能力的大小并不相同??傮w來說,詞和詞的2 元的分類準確率相對比較高,這是因為相比較詞類、標點符號及句法結構,詞是最小的能夠獨立活動的有意義的語言成分,且具有實際含義。詞的2 元特征是詞的組合,所以比詞含有更豐富的信息,因此詞的2 元分類準確率最優(yōu)。句法結構表示詞之間搭配規(guī)則,是詞語組成句子的必要結構,由它構成的詞組既可以單獨成句,也可以是句子的組成成分。所以從這個角度來說,句法結構具有較高的語體區(qū)分度。標點符號不但具有表示句子停頓、結束等功能,還可以表達句子的語氣,尤其是句末標點符號(感嘆號、疑問號、省略號)等。然而,對于小說、新聞及課本來說,句子的語氣特征十分重要,而詞類的作用僅是指明詞的性質,所以與標點符號相比,詞類語體區(qū)分度沒有標點符號的好。但是,從表3 的分類結果來看,標點符號的2元沒有詞類的2元的分類效果好,一方面是因為詞類的種類(32)比標點符號的種類(12)多,所以詞2 元的組合特征比標點符號2 元的組合特征多,這就會導致基于標點符號2 元訓練的注意力網(wǎng)絡處于欠擬合,沒有達到最優(yōu)狀態(tài),故其效果不好;另一方面,詞類的2 元從某一種角度上來說,體現(xiàn)了詞之間的搭配共現(xiàn)規(guī)則,尤其是那些高頻率的詞類的2元。同樣,根據(jù)表3,作為表示詞之間搭配規(guī)則的句法結構來說,基于它的分類準確率高于標點符號,這說明詞之間的搭配規(guī)則在區(qū)分語體上也有重要的作用。所以結合這幾點,詞類的2元比標點符號的2元更具有語體區(qū)分度是合理的。
2)對于組合特征來說,基于“詞+詞類+標點符號+句法結構”的分類效果最優(yōu),其次是“詞+詞類+標點符號”,最后是“詞+詞類”。反過來看,每增加一類特征,所對應的分類準確率就有所提高,只是提高的程度有所不同,所以說每一類特征都具有語體區(qū)分度。這是因為每一類特征都是從不同的角度分析語體。這樣通過多類組合特征,就可以從多個角度區(qū)分語體,并根據(jù)其對應的準確率能很好掌握每一類特征對區(qū)分語體的影響。更進一步說明了綜合考慮多種特征能夠更有效地區(qū)分開不同語體。
接下來,用一個例子分析注意力分值在不同語體特征上的分布情況。選用基于“詞+詞類+標點符號”訓練后所得的注意力分值分布如圖4所示。在圖4中,分別選取了長度差不多的4 個句子,其中,第一句來自小說(余華的《古典愛情》),第二句選自新聞(《上海滑稽劇團的近況》),第三句和第四句選自課本(《修辭手法》和秦似的《榕樹的風度》),之所以從課本中選取兩句是因為課本所包含的語體種類比較多,這樣可以進一步了解注意力分值在不同語體總的分布情況。
圖4 中灰度越深表示該特征的注意力分值越高,即該特征越重要。第一個句子的“柳生”顏色最深,根據(jù)右邊的注意力分值刻度值,發(fā)現(xiàn)其注意力分值大于0.15,所以“柳生”是這句話的關鍵詞,且符合該句的語義描述。我們知道,“柳生”是余華的小說《古典愛情》的主人公,該文全篇都是以“柳生”為主展開敘述的。同理,第二句來自新聞,是一篇有關于《上?;鼊F的近況》的報道,講述了“滑稽劇團”從產生、發(fā)展、興盛到衰敗的過程,從而感慨任何事物都要經歷這樣的過程。故其關鍵詞是“滑稽”和“劇團”。第三句是關于修辭方法的議論分析,故其關鍵詞是“修辭”。第四句,根據(jù)上下文含義,該句是作者看見榕樹在艱苦的環(huán)境中依然茁壯成長有感而發(fā),并通過一個疑問句來強調“這個時候”榕樹十分美麗。由此可見,注意力網(wǎng)絡很好地學習到了這種情況下作者想表達的含義并對其進行準確的評分。
圖4 注意力分值分布Fig. 4 Distribution of attention score
詞是最小的語言運用單位,且能獨立表達完整的意思。根據(jù)3.3節(jié)的問題1,選擇滿足條件的前幾個高注意力分值的詞進行分析,高分值的詞如表4 所示。從表4 可以看出,小說的高分值詞大部分都是小說主人公的名字;新聞的詞主要是主題詞,如熱點、房價、股市,還有一些較為正式的詞,如表決、議案等;課本的關鍵詞是小說選篇的主人公的名詞、人物傳記名詞等。為了進一步分析小說、新聞及課本詞的差異,下面將從詞的語義信息和詞之間的依存關系進行深入分析。
表6 小說主題詞的支配詞分布Tab. 6 Distribution of governing words of the topic words in novel
以小說的主題詞“柳生”為例,選擇包含主題詞“柳生”的句子:“柳生赴京趕考,行走在一條黃色大道上?!苯⑾鄳囊来鏄?,如圖5所示。
表4 高注意力分值的詞Tab. 4 Words with high attention score
4.1.1 主題詞分析
為了進一步分析小說、新聞及課本的關鍵詞,使用T 分布隨機近鄰嵌入(t-distributed stochastic neighbor embedding,t-SNE)降維算法將所提取關鍵詞的向量映射到二維平面內表示,并選擇每一個簇中注意力分值最高的詞作為該簇的語義主題詞,如表5 所示。表5 中,小說的主題詞主要是主人公的名字(柳生、余占鰲)及地點名詞(高密、東北)為主;新聞主要是事件主題名(股市、經濟、市場等)及核心人物(主席)等;課本的主題詞是人名(高爾基、列寧)、小說選篇的主人公名字(孔乙己、閏土)、議論文的主題詞(愛國)等。
表5 語義主題詞分布Tab. 5 Distribution of semantic topic words
4.1.2 主題詞的支配詞分析
依存關系表示句子中兩個詞之間的2 元關系,其中一個為核心詞,另一個為依存詞,反映的是核心詞和依存詞之間語義上的依賴關系。在不同的語體中,詞與詞之間的依存關系是否存在差異?已有研究[16]證明了依存句法關系能很好地區(qū)別不同的作者。本文挖掘主題詞與其支配詞之間的依存關系并按降序排列,結果如表6所示。
圖5 依存樹Fig. 5 Dependency tree
同1.2 節(jié)一樣,該句的依存樹也是調用斯坦福自然語言處理包完成的。對于圖5 中詞之間的相互依存關系用如下形式表示:
依存關系名(支配詞位置,從屬詞位置)
這里的“依存關系名”由斯坦福自然語言處理包中的依存句法關系給出,一共53 個?!皬膶僭~位置”是在依存句法樹中箭頭的結束詞(從屬詞),“位置”表示該詞在句子中的位置;相反“支配詞位置”是指依存關系中箭頭的開始詞(支配詞),例如,nsubj(赴京2,柳生1)表示“柳生”是“赴京”的名詞主語。同理,圖5例句中詞之間的依存關系表示如下:
nsubj(赴京2,柳生1)
Root(Root0,赴京2)
dobj(赴京2,趕考3)
punct(赴京2,4)
conj(赴京2,行走5)
nmod:prep(行走5,大道10)
case(大道10,在6)
nummod(大道10,一7)
nummod(一7,條8)
amod(大道10,黃色9)
case(大道10,上11)
分別統(tǒng)計小說、新聞及課本主題詞的從屬詞,并按照它們之間依存關系的個數(shù)由高到低排序,結果如表6~8所示。
從表6 發(fā)現(xiàn),與小說主題詞有關的從屬詞種類最多是所屬修飾關系(poss),涉及的從屬詞主要包括身體器官、親屬關系、內心活動、性格特征、社會角色等。經統(tǒng)計,與小說主題詞相關的依存關系由高到低依次是nsubj、amod、dobj、poss,這些依存關系所對應的從屬詞主要是以小說主人公為核心而展開的多角度描寫。
結合表7,以新聞的主題詞“滑稽劇團”為例分析新聞語體的特征,與“滑稽劇團”有關的從屬詞主要是時間詞(過去,目前、未來),地點詞(上海、全國),描述其發(fā)展狀態(tài)詞(逐漸、緩慢、衰退),涉及的人主要有劇團的管理人員和演員等。由此可以看出,新聞是以敘述事件發(fā)生的時間tmod、地點及現(xiàn)狀等為主的語體。
表7 新聞主題詞的支配詞分布Tab. 7 Distribution of governing words of the topic words in news
課本由多種語體組合而成,其主題詞的從屬詞分布如表8 所示。這里以課本主題詞“父親”為例分析。“父親”一詞出現(xiàn)最多的是朱自清的散文《背影》。統(tǒng)計“父親”有關的依存關系和與其對應的從屬詞,主要包括:nsubj(戴著、探身、穿過、笑、招手)、advmod(慢慢、蹣跚、挺拔)、poss(背影、皺紋、臉、身體、心)等。通過與“父親”相關的從屬詞,可以感受到作者與父親之間濃濃的父子之情。
表8 課本主題詞的支配詞分布Tab. 8 Distribution of governing words of the topic words in textbook
經過分析三種語體主題詞的從屬詞及它們之間的依存關系可以看出,通過語義層面依存關系的挖掘使三種語體的本質特征已經顯示出來了。此外,以上這些分析都是從詞之間的關系出發(fā)所得到的,而詞之間的搭配規(guī)則(句法結構)也是很重要的,接下來就從詞之間的搭配規(guī)則出發(fā),分析三種語體的差異。
4.1.3 主題詞相關的句法結構分析
4.1.2 節(jié)討論的是與主題詞相關的從屬詞及它們之間的依存關系,發(fā)現(xiàn)從這個角度出發(fā),三種語體有較大的差異。本小節(jié)討論的是與主題詞搭配的規(guī)則(句法結構)有哪些,它們在不用的語體中是否有差異。首先,對主題詞所在的句子建立句法樹,以小說的主題詞“柳生”為例,以句子“柳生赴京趕考,行走在一條黃色大道上?!睒嫿ǖ木浞淙鐖D6 所示。其次,找出與“柳生”有關的句法結構:IP→NP VP,NP→NN,VP→VP PU VP,VP→VSB,VSB→VV VV,VP→VV PP,PP→P LCP,LCP→NP LC,NP→QP ADJP NP,QP→CD CLP,CLP→M,ADJP→JJ,NP→NN。最后,統(tǒng)計全文跟“柳生”有較高相似度的句法結構并按降序排列。同理,對新聞、課本做相同的處理,得到與主題詞有關的句法結構如表9所示。
從表9 可以看出,與新聞主題詞有關的句法結構最多,其次是小說,最后是課本。同樣,以小說主題詞“柳生”為例,與其有關的句法結構“IP →NP VV”,結合圖5的句法樹和圖4的依存樹,這個句法結構表明了“柳生”的動作是“赴京”,從依附“赴京”的支配詞可以得知“柳生赴京”的目的是“趕考”。所以通過分析可以得到與小說語義主題詞(“柳生”)相關的句法結構集及依存關系集,同時也可以得到與小說主題詞(“柳生”)相關的核心動詞集及依存詞集,并對這些核心動詞和依存詞分別進行聚類,進而得到與小說主題詞相關的核心動詞塊及依存詞塊。對于新聞和課本也采用同樣的方法進行研究。
圖6 句法樹的例子Fig. 6 Example of syntactic tree
表9 與主題詞相關的句法結構(部分)Tab. 9 Syntactic structure related to topic words(part)
通過對小說、新聞及課本的語義主題詞、依存關系及句法結構之間的內在聯(lián)系進行分析,能讓讀者更加深刻地了解這三種語體每類特征之間的內在聯(lián)系及它們所能反映的語體特征。
在作者識別任務中,詞的N元能夠很好地區(qū)分不同的作者,那么,在語體分類任務中,詞的N元能否區(qū)分不同的語體。從表3 的分類結果可以看出,詞的2 元對應的分類準確率較高,所以詞的2 元具有語體區(qū)分度。與詞一樣,詞2 元的頻率分布與注意力分值及分類準確率的關系如表10所示。
表10 詞2元的分值區(qū)間、頻率及準確率的分布 單位:%Tab. 10 Distribution of score interval,frequency and accuracy of bigrams of words unit:%
從表10 可以看出,用6.64%高注意力分值(大于等于0.15)的詞的2 元就能使分類準確率達到91.88%;而使用79.38%低注意力分值(小于等于0.01)的詞的2元,對應的分類準確率是46.25%,這說明高注意分值的詞的2 元具有更好的語體區(qū)分度。通過訓練詞的2 元,所得的高注意力分值的詞的2元如表11所示。
表11 高注意力分值的詞的2元Tab. 11 Bigrams of words with high attention score
從表11 可以看出,在小說中,詞的2 元主要是“主語+動詞”,例如:“鼠妹問”“福貴說”。經統(tǒng)計,小說中的動詞多數(shù)是單音節(jié),如“說”“喊”“問”。因為與雙音節(jié)動詞相比,單音節(jié)動詞的動作性比較強,這充分體現(xiàn)了小說的另一面:以描寫人物行為動作為主的語體。此外,小說中還有一些群體稱呼(“鄉(xiāng)親們”“姑娘們”)及一些口語化的詞或短語(“是嗎”“不知道”),所以小說也具有口語的特征。新聞詞的2元也是以“主語+動詞”的結構為主,例如:“劉代英坦言”“記者追問”“葉篤初表示”。與小說不同的是,這些動詞大多數(shù)是雙音節(jié),所以這些動詞比小說中的單音節(jié)動詞更具有嚴謹性。例如:“表決”具有“說”的意思,但更多的是表示經過思考以后所做出的決定,其形式比較正式,這與新聞的特點相符。此外,新聞中還有VV+NN 或NN+NN 形式的詞2 元比較多,且這兩個結構中的無論名詞還是動詞都傾向于雙音節(jié)詞。正如馮勝利所言,單雙音節(jié)詞具有語體區(qū)分度。由于課本包含多種語體形式,所以課本中的詞的2 元特點介于小說和新聞之間,其中小說部分類似于小說的特點,事實類文章類似于新聞。對于課本中其他的語體,本文暫不作討論。
本文使用詞類的含義見表12,詞類的作用是指明詞的性質,通過詞類可用了解每一種語體關注的重點。詞類在三個語體中的注意力平均分值如圖7所示,從中可以看出:
1)三種語體的詞類分值分布趨勢相似,這說明每一種詞類的語體區(qū)分度是相對比較穩(wěn)定的。
2)從詞類的分值大小來看,詞類整體的分值都比較小,這說明詞類具有較小的語體區(qū)分度。
3)詞類的語體區(qū)分度由高到低依次是:ON、SB、IJ、LB、FW、MSP、DER、ETC、OD、BA、CS、DEV、VE、CC、SP、PN、VC、DEC、DT、JJ、NT、P、LC、AS、VA、CD、M、DEG、AD、VV。
從表3 分類準確率來看,基于詞類的分類準確率不高,且從圖8 可以看出,三種語體的注意力分值分布幾乎重合在一起,這說明單純詞類特征并不能很好地區(qū)分小說、新聞及課本。所以,本文借助卡方檢驗來判斷詞類在三種語體中是否具有顯著差異。
圖7 詞類的注意力分值分布Fig. 7 Attention score distribution of POS
表12 賓州樹庫標記Tab. 12 Symbols of Penn Treebank
由于詞類是離散型數(shù)據(jù),且要檢驗它與三種語體的顯著關系,故使用R x C 列聯(lián)表的卡方檢驗來驗證,其原理跟卡方檢驗一樣,是卡方檢驗的擴展。檢驗結果如表13 所示,其中,卡方值按降序排列。在卡方檢驗中,特征的卡方值越大其在語體中就越顯著,經過計算每一個詞類的卡方值,最后得出32 種詞類在三種語體中都有差異,這里選擇卡方值最大的NN(名詞)進行分析,結果如表14所示。
與詞一樣,詞類的2 元也具有語體區(qū)分度,詞類的2 元保留了比詞類更多的詞與詞之間的共現(xiàn)信息。不同的詞類2 元平均注意力分值分布如圖8所示。本節(jié)主要分析詞類的2元,不包含標點(即PU標記)的詞類2元。
從圖8可以看出,具有語體區(qū)分度的詞類的2元在三種語體中都是“NN+**”。從這三種語體詞類的2 元的數(shù)量來看,小說是20種,新聞是14種,課本是13種,即小說的2元結構最豐富,其次是新聞,最后是課本。從搭配詞類的性質來看,小說中與NN 搭配最顯著是CD(數(shù)詞),新聞中也是CD(數(shù)詞),而課本是VA(形容詞)。經統(tǒng)計發(fā)現(xiàn),小說中的“NN CD”主要用于描述與人有關的特征,如“這娃20 了”;而新聞中的“NN CD”主要描述一個事件相關的特征,如“滑稽劇團2012年開始衰退?!睆倪@個角度來看,詞類的2 元(NN CD)可以看作小說和新聞的特征。另外,經統(tǒng)計發(fā)現(xiàn)數(shù)詞在新聞中出現(xiàn)了29 121 個、在小說中出現(xiàn)了6 826 個,在課本中出現(xiàn)了2 378個,從這個角度來說,與CD搭配的詞類的數(shù)量也存在著差異。對于詞類的2 元(NN VA)雖然在課本中較為顯著,但是它在新聞和小說中也存在,例如:
小說:面色蒼白、副官瀟灑、高粱凄婉;
新聞:情況充實、特征明顯、股市健康;
課本:人多、花朵大、榴蓮貴、政策好;
在課本中,像“多、大、貴、好、熱”等單音節(jié)形容詞比較多,其次是小說,最后是新聞,從這個角度來看,(NN VA)具有顯著差異是合理的。
表13 詞類的卡方值分布Tab. 13 Distribution of Chi-square value of parts of speech
表14 名詞(NN)的卡方檢驗結果Tab. 14 Results of Chi-square test of nouns
標點符號是書面語的有機組成部分,主要用來表示句子的停頓、說話者語氣以及文本中詞語的性質和作用。不同語體中標點符號的使用頻率如圖9所示。
從圖9 可以看出:逗號在小說中最多,其次是課本,最后是新聞;頓號在新聞中最多,其次是課本,最后是小說;引號在課本中最多,其次是小說,最后是新聞;感嘆號在小說中最多、其次是課本、最后是新聞;問號同感嘆號一樣,都是小說中最多,其次是課本,最后是新聞。實驗觀察發(fā)現(xiàn)在新聞中,例如:“‘冰棍論’、‘靚女先嫁論’”這樣的句子結構很多,通過頓號并列性質相同的詞。引號主要出現(xiàn)在小說和課本的對話中,表示引出說話的內容;而在新聞中,引號主要用來表示一些具有特殊含義的人和物,例如:“房奴”“寄生蟲”等。最后,感嘆號、問號、省略號這些帶有情感色彩的標點,在小說和課本中更多。
圖10 給出了不同標點符號在不同語體中的平均注意力分值分布。可以明顯觀察到,省略號、問號、感嘆號及冒號在三種語體中具有較大的語體區(qū)分性。由于標點符號的注意力分類準確率不高,與詞類類似,本文利用卡方檢驗來檢驗標點符號在不同語體中的分布差異。
根據(jù)卡方檢驗的結果發(fā)現(xiàn),省略號、感嘆號、問號、頓號、句號、逗號、引號、破折號、冒號在三種語體中都具有顯著差異,而分號在三種語體中的差異不明顯。
接下來以最為顯著的省略號為例,分析它在小說、新聞及課本中的分布差異。從數(shù)量上來說,小說中省略號出現(xiàn)了9 983 次,新聞中出現(xiàn)了101 次,課本中出現(xiàn)了2 188 次。從省略號出現(xiàn)的場景來看,小說和課本中大約有80%的省略號都用于對話中,剩余的20%主要用于表示人物內心活動及用于列舉內容的省略等場景中。而在新聞中,省略號主要用于列舉內容的省略,避免啰嗦。接下來,通過具體的例子來分析,三種語體中常用省略號的例子如表15 所示。從表15 可以看出,小說和課本中的省略號賦予情感色彩,例如:小說中,“鄉(xiāng)親們接應我們來了,鄉(xiāng)親們來了……”,這句話來自莫言的《紅高粱》,講述的是:面對日本侵略者的絞殺,在走投無路的情況下,余占鰲對豆官所說的話,體現(xiàn)出當時余占鰲看到來援救的相親們所表現(xiàn)出的欣喜和激動?!拔揖囱銮嗨桑覅s更喜歡榕樹……”來自課本,選取秦似的《榕樹的風度》。因為在原文這句話的前半句寫了榕樹的品質(榕樹魁偉、莊嚴、恬靜、安祥),為了避免內容的重復,所以后面的省略號省略了作者喜歡榕樹的原因。在新聞中,例句中的省略號省略了中國其他地方房價上漲情況,僅僅是列舉內容的省略,不帶有任何情感色彩。所以,從這個角度來看,省略號在三種語體中具有顯著差異。
圖8 詞類2元的注意力分值分布Fig. 8 Attention score distribution of bigrams of POS
圖9 標點符號的頻率分布Fig. 9 Frequency distribution of punctuations
本文忽略詞,將連續(xù)出現(xiàn)的兩個標點符號視為標點符號的2 元,它能反映句子的結構和語氣等信息,其注意力分值分布如圖11所示,其中橫軸表示標點符號的2元序號,相應的對應關系如表16所示。
圖10 標點符號的注意分值分布Fig. 10 Attention score distribution of punctuations
表15 省略號在不同語體的例子Tab. 15 Examples of ellipsis in different registers
從圖11 可以看出,小說中與省略號、感嘆號、問號及引號組成的2元特征比較多。其中,標點符號的這些2元特征大部分來自人物對話或描述人物內心活動的句子。新聞中與省略號、感嘆號及問號組成的2 元特征主要用于對新聞事件相關的人物記錄,屬于客觀陳述,不帶任何情感色彩,這與新聞嚴謹?shù)男再|相符。而在課本中,這些2 元特征以對話和內心感悟為主,進而引發(fā)學生思考,這與課本的目的相符。
圖11 標點符號2元的注意力分值分布Fig. 11 Attention score distribution of bigrams of punctuations
表16 標點符號的2元映射示例說明Tab. 16 Explanation of the example of binary mapping of punctuations
通過以上各種統(tǒng)計和詳細分析,本文將一元特征匯總如表17、18 所示,其中:星號(*)表示該語體的顯著特征,空白表示該特征在語體中不顯著。這些主要是詞、詞類、標點符號、句法結構及依存關系。
2 元特征是這些一元特征的組合,種類多且復雜,本文不再列出。
表17 語體的特征(詞、詞類)匯總Tab. 17 Summary of stylistic features(words,POS)
表18 語體的特征(標點符號、句法結構、依存關系)匯總Tab. 18 Summary of stylistic features(punctuations,syntactic structures,dependency relationships)
本文利用注意力網(wǎng)絡模型提取能區(qū)分小說、新聞及課本的詞、詞類、標點符號、語法結構及它們的N(N= 1,2)元特征。相較其他三類特征,詞匯特征更能直接反映出不同語體的區(qū)別,所以針對詞匯特征,本文進行了深入分析(語義分析、依存關系和句法結構);對于詞類和標點符號,由于注意力網(wǎng)絡的分類準確率并不高,所以結合卡方檢驗一起分析。對于句法結構,借助句法樹,將其序列化后,通過訓練注意力網(wǎng)絡挖掘出能區(qū)分不同語體的句法結構集。最后,通過多輪組合特征的訓練,不但得到了每一種語體的關鍵特征集,而且還得出了每一種特征對不同語體的重要性。接下來將在以下幾個方面進行改進工作:
1)提取能區(qū)分不同語體的其他特征。
2)分析影響注意力網(wǎng)絡評分的因素,例如:句長,從而可以更好地完善模型。
3)改進注意力網(wǎng)絡模型,將詞在句子中的位置信息也考慮進來。