基于Naive Bayes 的P2P 平臺評論研究

2019-08-20 07:25曾政多

現(xiàn)代計(jì)算機(jī) 2019年20期

曾政多

（佛山科學(xué)技術(shù)學(xué)院自動化學(xué)院，佛山528000）

0 引言

P2P 金融是近幾年來較為火熱的一個關(guān)鍵詞，P2P（Peer to Peer）網(wǎng)貸模式指的是個體和個體之間通過互聯(lián)網(wǎng)平臺來實(shí)現(xiàn)直接借款與貸款，它也是互聯(lián)網(wǎng)金融（ITFIN）行業(yè)的一個子分類。我國的P2P 平臺數(shù)量自2012 年開始，增長的較為迅速，迄今為止已經(jīng)有數(shù)千家平臺可供投資人選擇。由于投資回報(bào)率過高，參與其中的投資者與日俱增。為數(shù)眾多的P2P 平臺魚龍混雜，企業(yè)數(shù)量增速過快，而政府的監(jiān)管卻沒有跟上發(fā)展的速度，從中出現(xiàn)了大量的問題，自2018 年6 月各大平臺相繼“暴雷”之后，于2018 年8 月開始，國家對互聯(lián)網(wǎng)金融進(jìn)行了整治。

即便是具有高風(fēng)險(xiǎn)，在可觀的收益率下，還是有著數(shù)量龐大的投資者群體會選擇P2P 平臺進(jìn)行投資，伴隨著各類平臺網(wǎng)站用戶的持續(xù)增長，人們已經(jīng)從過去的口頭相傳或者是通過平臺的宣傳廣告等簡單信息獲取方式轉(zhuǎn)變?yōu)橄蚧ヂ?lián)網(wǎng)傳輸自己的觀點(diǎn)看法，從而每天可以產(chǎn)生很多對于各種平臺的評論。這些呈指數(shù)增長的評論發(fā)生在各種相關(guān)平臺如微博、貼吧、股吧論壇等各大地方，數(shù)量龐大，難以梳理。但是對于其文本是很有研究價(jià)值的。通過分析用戶對不同平臺不同特征的情感傾向，從而指導(dǎo)用戶的投資行為，是很有意義的一項(xiàng)研究。

1 數(shù)據(jù)獲取和預(yù)處理

1.1 數(shù)據(jù)獲取

本文所述研究所選用的數(shù)據(jù)集是DataFoutain 中的“互聯(lián)網(wǎng)金融平臺用戶評價(jià)提取”賽題中的數(shù)據(jù)集，數(shù)據(jù)中包含平臺評論數(shù)據(jù)集、投資公告數(shù)據(jù)集、論壇數(shù)據(jù)集等，本研究使用了其中的評論數(shù)據(jù)集用于分析和訓(xùn)練。

1.2 文本去重處理

文本數(shù)據(jù)在分析之前通常要進(jìn)行一些預(yù)處理，特別是在諸如此類的競賽平臺數(shù)據(jù)集中，主辦方肯定會通過復(fù)制同類數(shù)據(jù)使得數(shù)據(jù)變得冗雜，那么在開始就需要對數(shù)據(jù)集使用去重處理，本文使用Python 語言中的xlrd 與xlwt 庫對表格數(shù)據(jù)進(jìn)行處理。如圖1 所示，通過建立一個新的list 表，往里加入數(shù)據(jù)，通過遍歷數(shù)據(jù)集與list 表中的進(jìn)行比對，沒有重復(fù)則加入list 的方法來進(jìn)行去重處理，實(shí)現(xiàn)了數(shù)據(jù)清洗的過程。

圖1 數(shù)據(jù)去重流程圖

1.3 文本的詞頻分析

TF-IDF 即“詞頻-逆文本頻率”，它由TF（Term Frequency）和IDF（Inverse Document Frequency）兩部分組成。

其中的TF 就是我們前面說到的詞頻（Term Frequency），文本向量化也就是做了文本中各個詞的出現(xiàn)頻率統(tǒng)計(jì)，并作為文本特征，后面的這個IDF，即“逆文本頻率”。在英文文本中，幾乎所有的文本里都會出現(xiàn)“to”和“and”，這類單詞的詞頻雖然高，但是重要性卻應(yīng)該比詞頻低的“Naive”和“Investment”要低。IDF 的作用是用來反映這個詞的重要性，進(jìn)而修正僅僅用詞頻表示的詞特征值。

概括來講，IDF 指的是某個詞在全部文本內(nèi)出現(xiàn)的頻率，如果某個詞在較多的文本內(nèi)都出現(xiàn)過，那么它的IDF 值是比較低的，例如上面說到的介詞“to”和連詞“and”。反而言之，某個詞語只在很少的文本中出現(xiàn)過，那么它的IDF 值應(yīng)高。例如一些專業(yè)的名詞如“Deep Learning”。這樣的詞IDF 值應(yīng)該高。一個極端的情況，在所有文本都出現(xiàn)的詞，IDF 值為零。

一個詞x 的IDF 的基本公式如下：

其中，N 代表語料庫中文本的總數(shù)，而N(x)代表語料庫中包含詞x 的文本總數(shù)。

上述IDF 公式在大多數(shù)情況下適用，但是在一些特殊的情況則會出現(xiàn)一些小問題，例如遇到的某個詞語沒有出現(xiàn)在之前訓(xùn)練好的語料庫中，這樣計(jì)算之后會使分母為0，IDF 會失去意義。因此通常我們在IDF計(jì)算時(shí)會做一些平滑處理，使某個詞語即使沒有在語料庫中出現(xiàn)，在經(jīng)過計(jì)算之后也可以得到一個合適的IDF 值。平滑的方法有很多種，最常見的IDF 平滑后的公式之一為：

綜上所述，某一個詞的TF-IDF 值如下計(jì)算：

對于分詞，本研究用到的是Python 里的jieba 庫。jieba 分詞是一個完全開源，并且有集成的Python 庫，具有多種模式且使用起來較為簡單。jieba 在分詞的過程中可以添加自定義詞庫或者刪除“停用詞”（stopwords）?！巴Ｓ迷~”是指那些詞頻很高卻沒有情感特征的詞語，這些詞的TF-IDF 值可能非常高，需要主動刪除，以免引入噪聲。

詞云圖，也就是通常所說的文字云，是對文章中出現(xiàn)次數(shù)比較多的“關(guān)鍵詞”進(jìn)行可視化，在詞云圖上，大量的低頻、低質(zhì)的文本信息會被過濾掉，使得瀏覽者只要看一眼詞云圖就可領(lǐng)會到文章主要想表達(dá)的意思。在Python 里現(xiàn)在有許多庫可以實(shí)現(xiàn)詞云圖，本文用到的Wordcloud 是詞頻分析的一個熱門庫，在代碼中可以自行設(shè)定背景和顯示的字體，顯示效果相比于其他的繪圖工具會更加直觀、具體。

圖2 詞云圖

從詞云中可以看出網(wǎng)友們比較關(guān)注的關(guān)鍵詞有“收益”、“平臺”、“提現(xiàn)”、“活動”等，表明網(wǎng)友在金融平臺的評論時(shí)，重點(diǎn)關(guān)注的點(diǎn)還是在收益和提現(xiàn)上，由此可見收益的高低、提現(xiàn)的便捷程度與速度、是否定期有舉辦活動是影響用戶情感的關(guān)鍵因素。

2 數(shù)據(jù)挖掘分析

2.1 情感分析研究現(xiàn)狀

文本的情感分析在二十世紀(jì)九十年代末由國外開始，早期的研究是基于文本數(shù)據(jù)來構(gòu)建一個語義詞典。在McKeown 在對連詞開展研究之后，研究者們開始考慮特征詞和情感詞之間的關(guān)聯(lián)。從Pang 等研究者開始，機(jī)器學(xué)習(xí)的研究方法開始被應(yīng)用，以消極和積極兩個方向維度對文本評論進(jìn)行分類，取得了不錯的效果。由此可見機(jī)器學(xué)習(xí)在文本情感分析的方面有著比較理想的研究前景?；跈C(jī)器學(xué)習(xí)的情感分析方法需要人工標(biāo)注文本，將標(biāo)注到的文本作為訓(xùn)練集訓(xùn)練模型，再對目標(biāo)進(jìn)行情感極性判斷，本研究用到的評論研究方法是屬于機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)方法。

2.2 應(yīng)用到的情感分析算法

目前對于單條語句的情感分析應(yīng)用到的方法是通過上下文語義信息進(jìn)行分析，上下文的信息將會直接影響到對于單條語句情感值判定的準(zhǔn)確性。當(dāng)前大多數(shù)基于機(jī)器學(xué)習(xí)方法的情感分析工具都需要經(jīng)過訓(xùn)練這一階段，對待不同的樣本應(yīng)當(dāng)采用不同的訓(xùn)練集進(jìn)行訓(xùn)練以提高模型的適應(yīng)性。

本文對于情感分類的基本模型是貝葉斯模型Bayes，對于有兩個類別C1和C2的分類問題來說，其特征為w1,????,wn，特征之間是相互獨(dú)立的，屬于類別C1的貝葉斯模型的基本過程為：

表1 預(yù)測結(jié)果表格

其中：

對上述公式進(jìn)行簡化：

其中，分母1 可以改寫為：

在Python 里的SnowNLP 庫的情感分析核心就是貝葉斯模型，自帶了電商評論的數(shù)據(jù)訓(xùn)練集，因此在交易評論上效果較好，應(yīng)用到金融平臺上也不需要做太大的修改。SnowNLP 庫是針對中文文本的自然語言處理工具，具有中文分詞、詞性標(biāo)注、情感分析、文本分類、轉(zhuǎn)換拼音、提取摘要等等功能。

本研究在SnowNLP 自帶的正負(fù)預(yù)料樣本的基礎(chǔ)上，人工標(biāo)注了部分評論并加入到訓(xùn)練集中進(jìn)行了再訓(xùn)練，提高了預(yù)測結(jié)果的準(zhǔn)確性。

3 實(shí)驗(yàn)結(jié)果分析

通過調(diào)用Python 中的pandas 庫，讀取了評論數(shù)據(jù)集中的每段評論并且通過SnowNLP 逐句進(jìn)行了情感值分析，生成了一個處于[0,1]區(qū)間的數(shù)值作為情感預(yù)測值，研究設(shè)定當(dāng)?shù)玫降那楦兄荡笥?.5 時(shí)我們將評論定位為積極評論，情感值小于0.5 則認(rèn)為是消極評論。

圖3“多融財(cái)富”的評論

由上述實(shí)證結(jié)果顯示，使用條件篩選于2018 年7月出現(xiàn)問題的“多融財(cái)富”平臺，發(fā)現(xiàn)其在2017 年10月就開始出現(xiàn)比較多的負(fù)面評論（低于0.5），數(shù)據(jù)集中存在的最后一條評論是2018 年3 月14 日的評論，在本研究模型上的預(yù)測結(jié)果也是比較消極的，因此可以得出該結(jié)果與本文模型比較契合，在其“暴雷”之前在評論上是有表現(xiàn)出將要出現(xiàn)問題的趨勢的。

使用條件篩選“微貸網(wǎng)”平臺的評論，出現(xiàn)的結(jié)果表明2018 年2 月8 日以前大多都是積極的正向結(jié)果?！拔①J網(wǎng)”平臺目前還處于正常運(yùn)轉(zhuǎn)的狀態(tài)，通過本實(shí)驗(yàn)數(shù)據(jù)集的預(yù)測結(jié)果也沒有出現(xiàn)過多的消極評論，表明該平臺的對于大部分用戶口碑較好，沒有出現(xiàn)太大的問題，短時(shí)間內(nèi)不會出現(xiàn)“暴雷”，是投資者可以作為選擇的網(wǎng)貸平臺之一。

4 結(jié)語

中文的自然語言處理技術(shù)是一項(xiàng)特別繁雜的工作，需要注意非常多的細(xì)節(jié)，本文提出了使用Python 語言中的jieba 庫與WordCloud 庫結(jié)合進(jìn)行詞頻分析的過程，并通過SnowNLP 庫分析情感極性，最后通過分析的結(jié)果來反饋到現(xiàn)實(shí)生活中的現(xiàn)象，評判一個平臺的好與壞，且通過實(shí)證以及模型檢驗(yàn)得出的對投資者的建議以及未來的一些發(fā)展趨勢，為金融領(lǐng)域與自然語言處理學(xué)科的融合給出了初步的實(shí)驗(yàn)基礎(chǔ)。

目前本研究的實(shí)驗(yàn)還僅僅處于初步階段，只對評論數(shù)據(jù)進(jìn)行了簡單處理與分析，在今后的工作當(dāng)中還可以使用不同的機(jī)器學(xué)習(xí)庫進(jìn)行處理，探尋如何讓機(jī)器對人類情感深入細(xì)致的把握和分析才是自然語言處理工作應(yīng)當(dāng)做的事情。以獲得更好的預(yù)測效果，同時(shí)受限于樣本數(shù)量沒有對單獨(dú)平臺進(jìn)行評論分析，在今后評論數(shù)據(jù)充足的情況下可以針對單一平臺進(jìn)行分析同時(shí)繪制情感極性變化曲線來預(yù)測平臺今后的發(fā)展情況。

對于數(shù)據(jù)集中的其他材料如新聞、股市公告等在本研究中并沒有應(yīng)用到，情感分析是一個相對復(fù)雜的研究，統(tǒng)計(jì)和展示大量數(shù)據(jù)中隱含的情感特征才是真正要探索的問題，多維度的結(jié)合分析也是今后需要研究的方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡