国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

作家寫作風格量化分析模型

2018-04-25 06:29吳航天田凱段新春
商品與質量 2018年35期
關鍵詞:古龍朱自清張愛玲

吳航天 田凱 段新春

中國人民解放軍火箭軍工程大學 導彈工程學院 陜西西安 710025

在我們的閱讀過程中會遇到不同作家的作品,而不同的作家有著不同的寫作風格都有所不同。本文以魯迅、朱自清、張愛玲、古龍四位作家的若干文章為例,選取適當?shù)奶卣?,量化分析不同作家的寫作風格,并能分析附錄中的文章出自哪位作家之手。

1 特征提取

流程如下:

首先,使用MATLAB編譯特征提取程序,其主要功能為:將中文段落中的所有漢字轉換Unicode區(qū)位碼。生成二維矩陣,每一個漢字對應兩位UNICODE區(qū)位碼,例如“吳”對應“52,84”;其次,查找所需特征如虛詞(常用虛詞“的、地、得、所、嗎、呢、吧、啊、且、了”等)在《Unicode區(qū)位碼對照表》中對應的編碼[1]。

2 計算統(tǒng)計

2.1 長度規(guī)格化

2.2 比例規(guī)格化

2.3 數(shù)據(jù)的標準化處理:

對上述數(shù)據(jù)進行標準化處理,標準化處理的計算公式如下:

3 統(tǒng)計結果圖像擬合

以被測樣本的統(tǒng)計數(shù)據(jù)繪制特征曲線,并將其插入總體特征曲線圖進行比對,查找與其相似度最高的特征曲線,該曲線所對應的作者即為被測樣本文檔的作者。

Fi和Fj之間的相關系數(shù)定義如下:

相關系數(shù)能夠描述兩個特征項之間的線性相關度。

4 結果分析

試驗的結果還與所選取的特征量有關。例如,僅以文章節(jié)奏(即標點符號的使用)作為特征量,其結果如下:

r 1.0000 0.2266 0.2266 1.0000 t 1.0000 0.2766 0.2766 1.0000 y 1.0000 -0.7242 -0.7242 1.0000 u 1.0000 0.2127 0.2127 1.0000

結果表明:在標點符號使用習慣的相似度分析中,選取《背影》第一段作為待測文章與四位作家的相似度分別為22.66%,27.66%,-72.42%(呈現(xiàn)負相關),21.27%,即與作家二(魯迅)的相似度最大,而真實作者(朱自清)的相似度排名第二,試驗結果具有一定程度的有效性。因此,本模型在一定程度上能有效識別文章的作者,但其準確性還需經(jīng)大量試驗來驗證[2]。

對此,我們隨機抽取了朱自清、魯迅、張愛玲、古龍四位作家各50篇作品(節(jié)選)(總計27.6萬宇字),共計200次試驗來進行驗證。試驗表明,該模型對于朱自清、魯迅、張愛玲、古龍四位作家作品的作者識別成功率分別為61.32%、69.43%、71.89%、73.97%。顯然,作者識別率會隨試驗次數(shù)與被檢驗內容的增加而進一步提高。

猜你喜歡
古龍朱自清張愛玲
清芬正氣朱自清
九月雨
活到四十多歲,才知道古龍有多天才
夢里夢外——評張愛玲《天才夢》
朋友間的分寸
張愛玲在路上
朱自清的蟬聲
朱自清自輕不失重
古龍墻