作家寫作風格量化分析模型

2018-04-25 06:29吳航天田凱段新春

商品與質量 2018年35期

關鍵詞：古龍朱自清張愛玲

吳航天田凱段新春

中國人民解放軍火箭軍工程大學導彈工程學院陜西西安 710025

在我們的閱讀過程中會遇到不同作家的作品，而不同的作家有著不同的寫作風格都有所不同。本文以魯迅、朱自清、張愛玲、古龍四位作家的若干文章為例，選取適當?shù)奶卣?，量化分析不同作家的寫作風格，并能分析附錄中的文章出自哪位作家之手。

1 特征提取

流程如下：

首先，使用MATLAB編譯特征提取程序，其主要功能為：將中文段落中的所有漢字轉換Unicode區(qū)位碼。生成二維矩陣，每一個漢字對應兩位UNICODE區(qū)位碼，例如“吳”對應“52，84”；其次，查找所需特征如虛詞（常用虛詞“的、地、得、所、嗎、呢、吧、啊、且、了”等）在《Unicode區(qū)位碼對照表》中對應的編碼[1]。

2 計算統(tǒng)計

2.1 長度規(guī)格化

2.2 比例規(guī)格化

2.3 數(shù)據(jù)的標準化處理：

對上述數(shù)據(jù)進行標準化處理，標準化處理的計算公式如下：

3 統(tǒng)計結果圖像擬合

以被測樣本的統(tǒng)計數(shù)據(jù)繪制特征曲線，并將其插入總體特征曲線圖進行比對，查找與其相似度最高的特征曲線，該曲線所對應的作者即為被測樣本文檔的作者。

Fi和Fj之間的相關系數(shù)定義如下：

相關系數(shù)能夠描述兩個特征項之間的線性相關度。

4 結果分析

試驗的結果還與所選取的特征量有關。例如，僅以文章節(jié)奏（即標點符號的使用）作為特征量，其結果如下：

r 1.0000 0.2266 0.2266 1.0000 t 1.0000 0.2766 0.2766 1.0000 y 1.0000 -0.7242 -0.7242 1.0000 u 1.0000 0.2127 0.2127 1.0000

結果表明：在標點符號使用習慣的相似度分析中，選取《背影》第一段作為待測文章與四位作家的相似度分別為22.66%，27.66%，-72.42%（呈現(xiàn)負相關），21.27%，即與作家二（魯迅）的相似度最大，而真實作者（朱自清）的相似度排名第二，試驗結果具有一定程度的有效性。因此，本模型在一定程度上能有效識別文章的作者，但其準確性還需經(jīng)大量試驗來驗證[2]。

對此，我們隨機抽取了朱自清、魯迅、張愛玲、古龍四位作家各50篇作品（節(jié)選）（總計27.6萬宇字），共計200次試驗來進行驗證。試驗表明，該模型對于朱自清、魯迅、張愛玲、古龍四位作家作品的作者識別成功率分別為61.32%、69.43%、71.89%、73.97%。顯然，作者識別率會隨試驗次數(shù)與被檢驗內容的增加而進一步提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡