国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)BCCM模型的網(wǎng)上用戶畫(huà)像識(shí)別分析?

2019-10-08 07:12:22周曉華
關(guān)鍵詞:畫(huà)像感性向量

周曉華

(西安醫(yī)學(xué)院信息技術(shù)處 西安 710021)

1 引言

目前,智能手機(jī)的普及率快速提高,對(duì)于人們的日常生活方式產(chǎn)生了顯著影響,不斷朝著網(wǎng)絡(luò)化趨勢(shì)的方向發(fā)展,這些收集互聯(lián)網(wǎng)用戶進(jìn)行上網(wǎng)活動(dòng)時(shí)產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)也呈現(xiàn)指數(shù)性的爆發(fā)式增加現(xiàn)象[1~6]。用戶可以通過(guò)多種方式參與網(wǎng)絡(luò)活動(dòng),包括以普通網(wǎng)頁(yè)的形式進(jìn)行信息瀏覽與數(shù)據(jù)傳輸或在社交平臺(tái)上進(jìn)行資料轉(zhuǎn)發(fā)并獲得粉絲關(guān)注,也可以參與到點(diǎn)評(píng)網(wǎng)站的評(píng)論活動(dòng),在電商交易網(wǎng)站購(gòu)買所需商品及提交退換申請(qǐng),這些不同的網(wǎng)絡(luò)行為過(guò)程使得各項(xiàng)數(shù)據(jù)表現(xiàn)出實(shí)時(shí)性、多樣性、大數(shù)據(jù)量的特點(diǎn)[6~8]。如何選擇合適的方法對(duì)各類海量網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為當(dāng)前需要解決的緊迫問(wèn)題。例如,可以將用戶畫(huà)像分析方法應(yīng)用于大數(shù)據(jù)的處理過(guò)程,已有很多學(xué)者對(duì)這方面開(kāi)展了深入研究。在最初階段,都是從商業(yè)層面考慮對(duì)用戶畫(huà)像進(jìn)行研究,根據(jù)用戶的消費(fèi)習(xí)慣、年齡、資金額度、性別等對(duì)用戶消費(fèi)層次進(jìn)行綜合分析,為實(shí)現(xiàn)后續(xù)的精準(zhǔn)營(yíng)銷提供依據(jù)[9~12]。目前,各類大數(shù)據(jù)技術(shù)技術(shù)呈現(xiàn)快速發(fā)展趨勢(shì),用戶畫(huà)像在許多領(lǐng)域都獲得了非常廣泛的應(yīng)用。比如,可以利用音樂(lè)平臺(tái)系統(tǒng)來(lái)收集用戶的操作行為,分析出各個(gè)用戶的聽(tīng)歌模式、選歌種類等,從而精確判斷出特定用戶對(duì)于歌曲的喜好性[13~15]。

本文主要研究了股吧用戶是否可以被歸為感性投資者的用戶畫(huà)像任務(wù),設(shè)計(jì)了專門的算法來(lái)實(shí)現(xiàn)對(duì)股吧用戶發(fā)文的表示學(xué)習(xí)過(guò)程,完成了實(shí)證分析與比較研究,可以將本文研究結(jié)果作為大數(shù)據(jù)分析領(lǐng)域進(jìn)行用戶畫(huà)像分析的一個(gè)重要參考依據(jù)。

2 研究方法

2.1 深度學(xué)習(xí)模型

對(duì)噪音投資者進(jìn)行識(shí)別時(shí)需根據(jù)用戶的內(nèi)容特征來(lái)分析用戶的發(fā)帖與評(píng)論內(nèi)容。具體處理過(guò)程是先把單獨(dú)用戶的各項(xiàng)發(fā)帖內(nèi)容與評(píng)論時(shí)形成的文本進(jìn)行整合獲得段落文本,再利用這些段落文本獲得語(yǔ)料庫(kù),之后通過(guò)這些該語(yǔ)料庫(kù)完成用戶的表示學(xué)習(xí)過(guò)程。

本文設(shè)計(jì)的用戶表示學(xué)習(xí)方法是建立在詞向量學(xué)習(xí)方法基礎(chǔ)上的一種數(shù)據(jù)分析方法,可以根據(jù)詞向量對(duì)一個(gè)句子的后續(xù)單詞進(jìn)行預(yù)測(cè)。我們按照上述處理思路將其應(yīng)用于用戶表示學(xué)習(xí)過(guò)程中,構(gòu)建得到圖1所示的用戶表示學(xué)習(xí)架構(gòu)。根據(jù)圖1可知,各用戶都被映射到矩陣U的一個(gè)列向量,各單詞都被映射為矩陣W的特定列向量。通過(guò)對(duì)用戶向量與詞向量的串聯(lián)與平均處理來(lái)預(yù)測(cè)得到特定語(yǔ)境產(chǎn)生的后續(xù)單詞。本文選擇平均方法作為組合向量處理模式,根據(jù)以上語(yǔ)料訓(xùn)練得到下述向量與參數(shù)。

圖1 用戶向量框架

2.2 行為與內(nèi)容融合的BCCM模型

以爬取方式獲得用戶在股吧網(wǎng)站上留下的數(shù)據(jù)信息總共包含了8類行為方式:粉絲數(shù)、關(guān)注度、評(píng)論量、發(fā)帖量、訪問(wèn)量、影響性、股吧年齡、自選股。粉絲數(shù)指的是一個(gè)用戶被其他用戶關(guān)注的數(shù)量;關(guān)注量指的是用戶對(duì)其他用戶進(jìn)行關(guān)注的數(shù)量;影響性是對(duì)用戶在股吧中的影響力進(jìn)行評(píng)價(jià)的一個(gè)重要指標(biāo),根據(jù)星級(jí)不同將其表示為0~5星;吧齡指的是用戶在股吧中處于活躍狀態(tài)的時(shí)間;自選股表示用戶實(shí)際關(guān)注的股票數(shù)量;評(píng)論量代表用戶在各個(gè)帖子中參與評(píng)論的總數(shù)量;發(fā)帖量是指在股票主題下發(fā)布的總帖數(shù);訪問(wèn)量指的是用戶個(gè)人主頁(yè)被其他人訪問(wèn)的次數(shù)。

根據(jù)以上用戶表示學(xué)習(xí)過(guò)程與各項(xiàng)用戶行為特點(diǎn),本文構(gòu)建得到一種行為-內(nèi)容融合模型,可以有效識(shí)別來(lái)自股吧的噪音投資者。圖2顯示了此模型的具體實(shí)現(xiàn)步驟,如下所示:

1)先通過(guò)深度學(xué)習(xí)方法來(lái)得到用戶評(píng)論與發(fā)帖內(nèi)容的用戶表示,由此得到對(duì)應(yīng)的用戶向量;

2)根據(jù)上述用戶向量來(lái)完成Kmeans聚類的過(guò)程;

3)把聚類標(biāo)簽也看成是一個(gè)特征,并將其歸為與8個(gè)行為特征相同的參數(shù)。

圖2 BCCM模型的基本思路

3 實(shí)驗(yàn)數(shù)據(jù)

本文分析的所有數(shù)據(jù)都從東方財(cái)富網(wǎng)的股吧論壇中抓取得到,同時(shí)根據(jù)其它社交媒體對(duì)用戶畫(huà)像方面的研究結(jié)果以及股吧論壇方面的信息資料,同時(shí)以粉絲數(shù)、關(guān)注度、評(píng)論量、發(fā)帖量、訪問(wèn)量、影響性、股吧年齡、自選股作為用戶的行為特點(diǎn),選擇用戶發(fā)帖內(nèi)容與評(píng)論文本信息作為分析對(duì)象。通過(guò)爬取方式獲得關(guān)于8500位用戶的約8萬(wàn)條網(wǎng)絡(luò)評(píng)論數(shù)據(jù),也包含了各用戶的自選股數(shù)和關(guān)注度等指標(biāo)。從時(shí)間上看,用戶發(fā)表評(píng)論的數(shù)據(jù)來(lái)自2012~2017年期間。

根據(jù)以上原始數(shù)據(jù),我們以隨機(jī)方式從8500位用戶中抽出2800位用戶,同時(shí)采用人工方式進(jìn)行標(biāo)注。由兩名碩士研究生進(jìn)行人工標(biāo)注,兩人系統(tǒng)性學(xué)習(xí)了金融學(xué)、證券投資、經(jīng)濟(jì)學(xué)等課程,并獲得了證券從業(yè)資格證,具備對(duì)感性投資者進(jìn)行識(shí)別的基礎(chǔ)理論。

在標(biāo)注期間,只有同時(shí)被兩人標(biāo)注成感性投資者的對(duì)象才會(huì)被歸類到標(biāo)注語(yǔ)料數(shù)據(jù)庫(kù)內(nèi)。對(duì)于先被一人判斷為理性投資者,但另外一人做出相反的判定結(jié)果,則把標(biāo)注語(yǔ)料庫(kù)中的這一用戶數(shù)據(jù)去除,此類用戶占到2800條數(shù)據(jù)的比例約為15%。當(dāng)出現(xiàn)不一致的標(biāo)注結(jié)果時(shí),即兩人依次判定為理性與感性投資者時(shí),需考慮加入更多標(biāo)注者進(jìn)行分析,不過(guò)采用這種方法無(wú)法有效消除歧義。根據(jù)原始語(yǔ)料的觀察結(jié)果可知,此類用戶做出的評(píng)論與行為方式通常表現(xiàn)為同時(shí)包含理性與感性投資者的兩種特征,因此導(dǎo)致標(biāo)注者無(wú)法做出一致判斷。根據(jù)以上分析,為確保測(cè)試數(shù)據(jù)符合有效性要求,需把標(biāo)注語(yǔ)料庫(kù)中存在不一致的人工標(biāo)注數(shù)據(jù)全部去除。

4 實(shí)驗(yàn)結(jié)果與討論

以5∶1的比例把上述通過(guò)人工標(biāo)注方式得到的數(shù)據(jù)集依次分類為分訓(xùn)練集和測(cè)試集,同時(shí)引入決策樹(shù)(DT)、樸素貝葉斯(NB)、神經(jīng)網(wǎng)絡(luò)(ANN)、K鄰算法(KNN)和邏輯回歸(LR)方法共8個(gè)行為特征建立得到二分類器,計(jì)算出的F值見(jiàn)表1。

表1 5種基線處理法的F值結(jié)果展示%

根據(jù)表1可知,以上各項(xiàng)基線處理法中,KNN算法達(dá)到了最高的精度(100%),之后是DT基本都在80%左右;對(duì)比各方法的召回率數(shù)據(jù)可以發(fā)現(xiàn),LR達(dá)到了最優(yōu)效果(召回比例為48.88%),之后依次為DT(45.85%)與 ANN(44.53%)。對(duì)以上各項(xiàng)實(shí)驗(yàn)結(jié)果進(jìn)行比較分析可知,在識(shí)別以行為特征為依據(jù)的感性投資者時(shí),采用LR、DT與KNN這三類基線分析方法可以獲得更優(yōu)的效果。

通過(guò)比較以上各類基線處理法可以發(fā)現(xiàn)DT方法可以實(shí)現(xiàn)最佳的綜合效果,并且與其他算法相比也具備更好的解釋性,因此本文主要探討了以DT方法來(lái)分析感性投資者的過(guò)程,得到表2所示的結(jié)果。

表2 感性投資者行為刻畫(huà)表

根據(jù)表2可知,可以對(duì)感性投資者行為進(jìn)行描述的因素主要包括4類,包括評(píng)論量、粉絲數(shù)、自選股數(shù)量與主貼量,對(duì)于其他各項(xiàng)行為特征指標(biāo)并沒(méi)有進(jìn)行詳細(xì)分析。感性投資者的行為畫(huà)像通常表現(xiàn)為下述三類特點(diǎn):第一,粉絲數(shù)不超過(guò)20位;第二,粉絲數(shù)在20~800之間的評(píng)論量達(dá)到100以上,并且自選股的數(shù)量也至少達(dá)到了20;第三,主貼量達(dá)到580以上。同時(shí),理性投資者的行為畫(huà)像表現(xiàn)出如下三項(xiàng)特點(diǎn):第一,粉絲數(shù)在50~800之間的評(píng)論量達(dá)到了100以上,同時(shí)自選股的數(shù)量不高于20,主貼量不超過(guò)600;第二,粉絲量超過(guò)800,同時(shí)評(píng)論數(shù)達(dá)到100以上;第三,粉絲數(shù)超過(guò)20,同時(shí)評(píng)論量低于100。

通過(guò)分析內(nèi)容特征可以有效獲得用戶情感信息,并從文字信息中獲得理性數(shù)據(jù),可以利用深度用戶表示學(xué)習(xí)方法來(lái)生成用戶表示向量,同時(shí)采用Kmeans算法來(lái)聚類分析用戶發(fā)帖和評(píng)論過(guò)程產(chǎn)生的文本信息。在基線模型中加入文本聚類數(shù)據(jù),總共采用8個(gè)特征包括自選股數(shù)量、粉絲量、關(guān)注量、訪問(wèn)數(shù)、聚類編號(hào)、評(píng)論數(shù)、影響力、主貼量為以上基線處理法構(gòu)建得到二分類器,寶庫(kù)DT-W、NB-W、KNN-W、ANN-W,同時(shí)將這些模型算法和BCCM模型實(shí)施了比較分析,結(jié)果見(jiàn)表3。

表3 基線處理法加入文本特征后的F值比較 %

根據(jù)表3數(shù)據(jù)可知,BCCM模型具有最高的召回率,達(dá)到73.99%,比ANN-W模型高出了近30%,比DT-W模型高出了約40%;從F1值的情況看,采用BCCM模型處理得到的數(shù)值最大,為7.45%,相對(duì)于ANN-W模型提高了約20%,相對(duì)于DT-W模型提高了約30%;從召回率角度分析,采用BCCM模型處理得到的數(shù)值達(dá)到最大,等于72.45%,相對(duì)于ANN-W模型提高了約28%,相對(duì)于DT-W模型提高了約40%;從準(zhǔn)確率角度考慮,BCCM模型的取值等于100%,但高于其他模型計(jì)算的結(jié)果。通過(guò)分析以上四項(xiàng)參數(shù)指標(biāo)可以發(fā)現(xiàn),本文設(shè)計(jì)的BCCM模型可以實(shí)現(xiàn)良好的綜合處理性能。由此可見(jiàn),采用深度表示學(xué)習(xí)方法在模型中添加用戶內(nèi)容特征之后,可以顯著改善對(duì)樣本非均衡測(cè)試集合的感性投資者進(jìn)行分辨的效率。

5 結(jié)語(yǔ)

本文主要研究了對(duì)金融領(lǐng)域的感性投資者與理性投資者進(jìn)行識(shí)別的用戶畫(huà)像分析方法,綜合運(yùn)用了傳統(tǒng)機(jī)器學(xué)習(xí)方法與深度用戶表示學(xué)習(xí)方法,構(gòu)建得到了一種通過(guò)分析內(nèi)容和行為特征來(lái)識(shí)別感性投資者的模型,得到BCCM模型。之后對(duì)此模型有效性進(jìn)行了驗(yàn)證,分別對(duì)原始非均衡標(biāo)注集以及采樣得到的均衡標(biāo)注集開(kāi)展了相應(yīng)的對(duì)此測(cè)試。根據(jù)實(shí)際測(cè)試結(jié)果可以發(fā)現(xiàn),采用BCCM模型處理非均衡數(shù)據(jù)集時(shí),得到的R、F1、F2值都比決策樹(shù)、邏輯回歸、樸素貝葉斯傳統(tǒng)模型的數(shù)值更高;通過(guò)處理均衡數(shù)據(jù)集可以發(fā)現(xiàn),BCCM模型達(dá)到了比傳統(tǒng)基線分類模式更優(yōu)的結(jié)果。對(duì)各個(gè)實(shí)驗(yàn)結(jié)果進(jìn)行綜合分析可以發(fā)現(xiàn),對(duì)于識(shí)別感性投資者的用戶畫(huà)像進(jìn)行研究時(shí),可以采用深度用戶表示學(xué)習(xí)方法并加入特定的文本內(nèi)容數(shù)據(jù),有助于促進(jìn)用戶畫(huà)像評(píng)價(jià)指標(biāo)的全面提升。

猜你喜歡
畫(huà)像感性向量
威猛的畫(huà)像
向量的分解
感性工學(xué)在服裝設(shè)計(jì)中的應(yīng)用
聚焦“向量與三角”創(chuàng)新題
“00后”畫(huà)像
畫(huà)像
分析網(wǎng)絡(luò)新聞的感性面對(duì)及思考
新聞傳播(2016年9期)2016-09-26 12:20:22
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
崇尚感性意味著什么
泉州市| 旌德县| 北碚区| 香河县| 吉木萨尔县| 翁牛特旗| 彭阳县| 萍乡市| 岚皋县| 克东县| 广东省| 麻栗坡县| 出国| 富锦市| 信丰县| 海门市| 高邮市| 汤原县| 乌兰浩特市| 武平县| 巨鹿县| 沐川县| 富阳市| 巴楚县| 隆回县| 建瓯市| 读书| 峡江县| 华池县| 保康县| 时尚| 灌云县| 攀枝花市| 汪清县| 昭通市| 壶关县| 樟树市| 临颍县| 湖口县| 公主岭市| 潞城市|