吳航天 田凱 段新春
中國人民解放軍火箭軍工程大學 導彈工程學院 陜西西安 710025
在我們的閱讀過程中會遇到不同作家的作品,而不同的作家有著不同的寫作風格都有所不同。本文以魯迅、朱自清、張愛玲、古龍四位作家的若干文章為例,選取適當?shù)奶卣?,量化分析不同作家的寫作風格,并能分析附錄中的文章出自哪位作家之手。
流程如下:
首先,使用MATLAB編譯特征提取程序,其主要功能為:將中文段落中的所有漢字轉換Unicode區(qū)位碼。生成二維矩陣,每一個漢字對應兩位UNICODE區(qū)位碼,例如“吳”對應“52,84”;其次,查找所需特征如虛詞(常用虛詞“的、地、得、所、嗎、呢、吧、啊、且、了”等)在《Unicode區(qū)位碼對照表》中對應的編碼[1]。
對上述數(shù)據(jù)進行標準化處理,標準化處理的計算公式如下:
以被測樣本的統(tǒng)計數(shù)據(jù)繪制特征曲線,并將其插入總體特征曲線圖進行比對,查找與其相似度最高的特征曲線,該曲線所對應的作者即為被測樣本文檔的作者。
Fi和Fj之間的相關系數(shù)定義如下:
相關系數(shù)能夠描述兩個特征項之間的線性相關度。
試驗的結果還與所選取的特征量有關。例如,僅以文章節(jié)奏(即標點符號的使用)作為特征量,其結果如下:
r 1.0000 0.2266 0.2266 1.0000 t 1.0000 0.2766 0.2766 1.0000 y 1.0000 -0.7242 -0.7242 1.0000 u 1.0000 0.2127 0.2127 1.0000
結果表明:在標點符號使用習慣的相似度分析中,選取《背影》第一段作為待測文章與四位作家的相似度分別為22.66%,27.66%,-72.42%(呈現(xiàn)負相關),21.27%,即與作家二(魯迅)的相似度最大,而真實作者(朱自清)的相似度排名第二,試驗結果具有一定程度的有效性。因此,本模型在一定程度上能有效識別文章的作者,但其準確性還需經(jīng)大量試驗來驗證[2]。
對此,我們隨機抽取了朱自清、魯迅、張愛玲、古龍四位作家各50篇作品(節(jié)選)(總計27.6萬宇字),共計200次試驗來進行驗證。試驗表明,該模型對于朱自清、魯迅、張愛玲、古龍四位作家作品的作者識別成功率分別為61.32%、69.43%、71.89%、73.97%。顯然,作者識別率會隨試驗次數(shù)與被檢驗內容的增加而進一步提高。