国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于計量風(fēng)格學(xué)的多層次特征在作者識別應(yīng)用研究?

2020-07-13 12:48:24
計算機與數(shù)字工程 2020年5期
關(guān)鍵詞:項集虛詞置信度

鐘 敏 汪 洋

(1.武漢郵電科學(xué)研究院 武漢 430074)(2.南京烽火軟件科技有限公司 南京 210079)

1 引言

風(fēng)格學(xué)一直以來被廣泛地研究討論,其主要內(nèi)容是研究文章的特征。作為應(yīng)用語言學(xué)一個分支,一般被語言學(xué)的研究人員用于分析文章風(fēng)格,并用于幫助寫作人員提升寫作技巧[1]。作者風(fēng)格可以認(rèn)為是一系列風(fēng)格學(xué)定義的屬性,最開始風(fēng)格學(xué)在作者識別領(lǐng)域的研究基礎(chǔ)是基于對特定詞的使用或者不使用[2],隨后作者風(fēng)格的研究上升到了語法等層面,以及統(tǒng)計學(xué)的發(fā)展與應(yīng)用,風(fēng)格學(xué)中引用了大量的統(tǒng)計學(xué)特征,風(fēng)格學(xué)也發(fā)展成為了具有統(tǒng)計學(xué)特征的計量風(fēng)格學(xué)[3~4]。作者識別問題的研究總是離不開討論風(fēng)格學(xué),使用計量風(fēng)格學(xué)來進行作者識別的原理是建立在每個作者都有一個獨特并且可驗證特征的假設(shè)上,并通過定義高維的特征向量空間來實現(xiàn)識別。

國外最早使用風(fēng)格學(xué)方法分析作者的是英國邏輯學(xué)家 Augustus De Morgan[4],他提出用長短詞分析作者風(fēng)格,國外較為廣泛的研究是對莎士比亞作品的風(fēng)格研究。我國是四大文明古國之一,具有悠久的歷史和燦爛的文化,但是不少膾炙人口的文學(xué)作品卻因為各種原因而無法確定作者,風(fēng)格學(xué)的研究,正是在這種情況在發(fā)展起來,其中對紅樓夢的前80回與后60回是否為同一作者的研究最為廣泛。在此基礎(chǔ)上,中科院聲學(xué)所張運良等使用概念層次網(wǎng)絡(luò)(HNC)標(biāo)注句類特征,并結(jié)合向量空間(VSM)的方式來實現(xiàn)對作者寫作風(fēng)格分類,在11個作者的文本集上最好效果達(dá)到84.0%[5]。清華大學(xué)孫曉明,金奕江等使用虛詞和VSM結(jié)合的方式來實現(xiàn)小說的分類,在13個作者的數(shù)據(jù)集上,使用了模板匹配算法,KNN算法和SVM算法的最好準(zhǔn)確率分別是 89.51%,91.54%,93.58%[6]。常淑惠等采用語言,結(jié)構(gòu)和格式結(jié)合的方式,對5個作者共150個郵件進行識別,最好的F1值達(dá)到了98.36%[7]。

在詞匯層面的基礎(chǔ)上增加語義信息,能夠增強特征的可說服性,也就增加結(jié)果的可信服性[8]。語法層面的分析有很多種,以詞性為對象來研究作者特征,在英文作者識別中有較好的表現(xiàn)[9]。但是以詞性序列結(jié)合中文語法結(jié)構(gòu)分析特點的研究還不是很多,本文提出了一種以文本詞性標(biāo)注序列為數(shù)據(jù)集,采用關(guān)聯(lián)挖掘的Apriori算法來挖掘文本中具有一定關(guān)聯(lián)程度的詞性序列作為特征的方法,并結(jié)合虛詞詞性,中文知識庫HowNet的情感詞庫作情感映射得到文本的情感偏向[10],以及句長,詞長,詞語豐富程度等一些傳統(tǒng)結(jié)構(gòu)上的特征,構(gòu)成多層次的豐富特征向量,采用機器學(xué)習(xí)分類方法進行分類,實現(xiàn)了提升作者識別問題的準(zhǔn)確性,以及理論上的可說服性。

2 詞和詞性序列

2.1 實詞和虛詞

根據(jù)現(xiàn)代漢語詞的語法特征,可以將詞分為實詞和虛詞兩類,實詞包括名詞、動詞、形容詞、數(shù)詞、量詞、代詞,虛詞包括副詞、介詞、連詞、助詞、嘆詞、擬聲詞[11]。漢語語法中的虛詞在英語語法中也稱為功能詞,與國外學(xué)者使用功能詞進行英文作者識別一樣,使用虛詞來進行中文作者識別的研究也有很多,使用實詞分析的方法較少。實際上,風(fēng)格學(xué)認(rèn)為,作者的風(fēng)格是獨立于文章內(nèi)容的,而實詞容易帶有作者的內(nèi)容信息,實詞是不適合作為作者識別特征的。雖然實詞不適合用來作為作者識別的特征,但是實詞詞性可以用來研究作者寫句子時不同詞性的詞的使用規(guī)律。

2.2 詞性序列

如圖1所示,現(xiàn)代漢語語法的幾個層面分別是詞、短語、句子、段落文章。短語由詞組成,也是句子的組成成分,所以以短語作為研究對象相比詞能夠增加語義信息,相比句式,增加了靈活性。

圖1 現(xiàn)代漢語語法層次

受到中科院聲學(xué)所張運良等使用概念層次網(wǎng)絡(luò)(HNC)標(biāo)注句類特征理論基礎(chǔ)句子有限而句類無限的理論啟發(fā)[5],本文認(rèn)為組成句子的短語雖然無限,但是短語的類型應(yīng)該是有限的。短語的詞性序列能夠反映作者在寫作構(gòu)成句子時的用詞搭配習(xí)慣,體現(xiàn)詞性之間的距離特點,理論上能達(dá)到區(qū)分作者的寫作風(fēng)格差異的目的。所以本文使用詞性序列作為組成文本向量特征空間(Text Vectors Space)的組成成分之一的方法,用來提升作者識別的準(zhǔn)確性和說服性。

本文采用的是哈工大發(fā)布的開源切詞工具h(yuǎn)anlp作為切詞和詞性標(biāo)注工具,hanlp詞性共148,二項詞性序列共有21904組合,三項詞性序列總計有3241792組合,不是所有序列組合都能出現(xiàn)在文章中,且并非所有在作者文章中出現(xiàn)的詞性序列都能作為作者的風(fēng)格特征。因此需要采用一些篩選方法來選擇具有可靠性或者可信度的特征。因為篩選的目的是選取作者常用且具有一定可信度的詞性序列,而不是隨機組成的詞性序列,關(guān)聯(lián)挖掘方法Apriori算法是經(jīng)典的挖掘頻繁項集的算法,也是挖掘關(guān)聯(lián)規(guī)則算法的常用算法之一,其應(yīng)用主要是通過減少項集組合的數(shù)目,來達(dá)到減少搜索空間大小以及掃描次數(shù)的目的,恰好能挖掘得到可靠的詞性序列。本文以實驗文本中的句子詞性序列數(shù)據(jù)庫作為挖掘具有關(guān)聯(lián)的詞性序列,其流程如圖2所示。

圖2 詞性序列數(shù)據(jù)庫生成流程

3 Apriori算法詞性序列挖掘過程

3.1 Apriori算法中的支持度與置信度

Apriori算法核心思想是通過連接產(chǎn)生候選項及其支持度,然后通過剪枝生成頻繁項集。其中項集是項的集合,包含k個項的項集稱為k項集。支持度反映兩個項同時出現(xiàn)的可能性,置信度反映了兩個項集之間的關(guān)聯(lián)強度[12]。項集A,B同時發(fā)生的概率為關(guān)聯(lián)規(guī)則的支持度,記為Support(A?B)(簡記為S(A?B)):

項集A發(fā)生的前提下,B發(fā)生的概率為關(guān)聯(lián)規(guī)則的置信度,記為Confidence(A?B)(簡記為C(A?B)):

項集A的支持度計數(shù)是項集的頻率或者計數(shù),記A,B項集同時發(fā)生個數(shù)為S_count(A∩B),所有項集同時發(fā)生個數(shù)為Total_count(A),則項集A,B的支持度S(A?B)計算方式如下:

項集A,B的置信度:

最小支持度是用戶或者專家定義的衡量支持度的一個閾值,標(biāo)志項集在統(tǒng)計意義上的最低重要性,最小置信度是用戶或者專家定義的衡量置信度的一個閾值,標(biāo)志關(guān)聯(lián)規(guī)則的最低可靠性,同時滿足最小支持度閾值和最小置信度閾值的規(guī)則稱作強規(guī)則。

3.2 詞性序列挖掘過程

Apriori算法主要為兩個過程,一個是找出所有頻繁項集,一個是由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。在挖掘頻繁項集合最強規(guī)則前,需要給出最小支持度和最小置信度的值。因為支持度反映項集的出現(xiàn)頻率,本文選擇了小概率事件中的臨界概率0.01作為最小支持度。置信度反映的是規(guī)則的可靠程度,本文選擇0-1均勻分布的期望,也就是0-1事件的任一發(fā)生概率0.5,作為最小置信度來選擇詞性序列的頻繁項集。

詞性序列挖掘的第一步,找到所有的頻繁項集,首先和一項序列結(jié)合生成k+1項,再通過最小支持度和頻繁項集的子集也是頻繁項集這一原理進行剪枝,其過程如圖3所示。第二步是在所有頻繁項集的基礎(chǔ)上,計算項集的置信度,與最小置信度為篩選條件,得到滿足最強規(guī)則(最小支持度和最小置信度)的序列項集,其樣例如表1所示。

圖3 頻繁項集生成過程

表1 關(guān)聯(lián)詞性序列樣例

使用以上方法挖掘得到的每位作者的頻繁項集,并通過取每一位作者與其他作者差集的方式,找到每個作者獨特的詞性序列組合,共得到22個詞性序列特征。

4 實驗數(shù)據(jù)與文本向量

4.1 實驗數(shù)據(jù)說明

從大眾的認(rèn)知基礎(chǔ)上分析,如果作者的風(fēng)格差異較大,比如魯迅和張愛玲的風(fēng)格對比來看,魯迅是批判現(xiàn)實的短篇小說家,散文家,張愛玲是以描寫生活風(fēng)月為主的小說作家,無論是人為的根據(jù)經(jīng)驗,還是使用統(tǒng)計方法,都是比較容易區(qū)分的。武俠小說作者金庸、古龍、東方玉、梁羽生所處時代相似,都是比較有名且具有代表作品的武俠小說作者,因為創(chuàng)作時間和主題相似,且部分作品會受到先發(fā)表作品的作者影響而具有一定的風(fēng)格相似性,如果不是有非常豐富的經(jīng)驗,或者是采用復(fù)雜的統(tǒng)計學(xué)方法,是比較難以區(qū)分的[13]。所以本文使用Python爬蟲工具和解析工具從武俠小說網(wǎng)站清洗得到了四位作者的部分或者全部小說作品作為了本次的實驗數(shù)據(jù)如表2。

表2 實驗數(shù)據(jù)說明

4.2 文本向量構(gòu)成

風(fēng)格學(xué)研究至今,對寫作風(fēng)格分析的特征選取一般分為詞匯特征,語法特征,結(jié)構(gòu)特征,非語言特征四大模塊,這四個模塊分別包含一些小的可選取子模塊,其子模塊樣例如表3所示。

其中結(jié)構(gòu)特征被廣泛認(rèn)為是穩(wěn)定可區(qū)分作者的特征,本文選取了詞長平均,詞長方差,句長平均,句長方差等常用的結(jié)構(gòu)特征共7個。同時因為非語言模塊中作者的情感傾向也能反映作者的風(fēng)格,本文以知網(wǎng)的hownet知識庫中的情感詞作為映射,統(tǒng)計文章的消極情感詞匯和積極情感詞匯,以及正面評價詞匯和負(fù)面評價詞匯占比等8個情感偏向特征作為特征向量成分之一。

表3 風(fēng)格學(xué)特征模塊樣例

綜合以上分析,本次實驗特征向量構(gòu)成成分分為四個部分,總共83個:

1)通過Apriori算法挖掘得到的關(guān)聯(lián)詞性序列22個;

2)虛詞詞性特征共46個;

3)包括詞長,句長等文本結(jié)構(gòu)特征共7個;

4)包括情感詞和評價詞等情感特征共8個。

5 分類器選擇與結(jié)果分析

用于分類的機器學(xué)習(xí)方法有很多,常用的有邏輯回歸,隨機森林,K近鄰算法等等。隨機森林是集成學(xué)習(xí)器,具有較好的分類能力和穩(wěn)定性[14]。邏輯回歸分類器是簡單易懂的分類器,其缺點是其適用場景和數(shù)據(jù)有限,不如隨機森林強[15]。K近鄰是理論比較成熟的方法,不需要訓(xùn)練模型,只在測試數(shù)據(jù)中進行計算,其缺點是在在數(shù)據(jù)量小的時候容易誤分,只適合樣本容量比較大的數(shù)據(jù)[16]。本文使用以上三種分類器,采用F1值作為評價指標(biāo),計算十次實驗結(jié)果取平均值和方差,分別用來衡量分類器的并計算十次結(jié)果的方差(分類結(jié)果后括號內(nèi))的方差作為得到三個分類器表現(xiàn)如下表4所示。

表4 作者識別結(jié)果

綜合表現(xiàn)來看,東方玉、古龍、金庸三位作者使用隨機森林做分類的準(zhǔn)確率最高,梁羽生使用邏輯回歸的準(zhǔn)確率最高,但是隨機森林分類結(jié)果的方差最小且最平穩(wěn),表明了隨機森林作為一種集成的分類器,其本身分類能力較好且穩(wěn)定,適合作為作者識別模型的分類器。

同時,采用隨機森林重要程度排序的功能,對特征的重要程度排序,取前20個重要特征,排序結(jié)果如表5所示。

表5 隨機森林特征排序結(jié)果

根據(jù)排序可以看出,具有關(guān)聯(lián)特征的詞性序列在作者在區(qū)分作者寫作風(fēng)格中具有一定的重要性,但是虛詞明顯比詞性序列作用更強,因此,對虛詞在在作者識別應(yīng)用中的研究,可以作為下一步研究的方向之一。

此外,詞性序列寫作特征不僅可以用于作者識別中,結(jié)合現(xiàn)在十分火熱的機器寫作來看,因為其語法的約束性,也可以用于其中,為機器寫作增加一定的語法約束,提高寫作的水平。

6 結(jié)語

本文是受到HNC的句類理論啟發(fā)提出的使用具有關(guān)聯(lián)度的詞性序列作為特征向量組成成分之一,經(jīng)過實踐驗證,具有關(guān)聯(lián)的詞性序列特征確實能達(dá)到提升識別作者的效果,但是隨機森林的特征排序結(jié)果顯示虛詞詞性的統(tǒng)計值在分類過程中影響程度更大,為此,在下一步研究中,將從虛詞特征著手,進一步通過提高特征質(zhì)量來提高作者識別這一應(yīng)用中的準(zhǔn)確率和召回率。

猜你喜歡
項集虛詞置信度
硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
基于混合策略的藏文虛詞識別方法
正負(fù)關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
Note from the Editor-in-Chief
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
卷宗(2014年5期)2014-07-15 07:47:08
虛詞在詩歌鑒賞中的作用
一種頻繁核心項集的快速挖掘算法
計算機工程(2014年6期)2014-02-28 01:26:12
多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
虛詞功能的羨余及其修辭作用
贵德县| 武鸣县| 从江县| 沾益县| 紫金县| 东乌珠穆沁旗| 建湖县| 民乐县| 龙江县| 石渠县| 特克斯县| 乐安县| 新宁县| 剑川县| 天津市| 靖安县| 仁化县| 申扎县| 玉龙| 读书| 玉溪市| 临武县| 和林格尔县| 图们市| 濮阳市| 镇江市| 定西市| 澄迈县| 阳泉市| 金川县| 利辛县| 宣威市| 丹东市| 从化市| 永平县| 东乌珠穆沁旗| 桐梓县| 元谋县| 田东县| 开封市| 界首市|