国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的微博用戶性別識(shí)別方法概述

2018-10-21 10:50聞?wù)x余艷霞
科學(xué)與信息化 2018年30期
關(guān)鍵詞:特征提取微博

聞?wù)x 余艷霞

摘 要 性別是微博用戶的一個(gè)最基本的特征,獲取微博用戶的性別信息,可以幫助商家了解不同性別用戶的消費(fèi)習(xí)慣和產(chǎn)品喜好,為用戶提供個(gè)性化服務(wù)。本文基于微博文本和用戶名,構(gòu)建一個(gè)識(shí)別模型對數(shù)據(jù)進(jìn)行預(yù)處理和特征提取,設(shè)計(jì)了兩個(gè)分類器,基于微博用戶名和基于微博文本內(nèi)容,然后將兩個(gè)分類器進(jìn)行組合,設(shè)計(jì)出綜合微博用戶名和微博文本內(nèi)容對微博用戶性別進(jìn)行識(shí)別的分類器。

關(guān)鍵詞 微博;性別分類;特征提取

前言

隨著信息技術(shù)的高速發(fā)展和互聯(lián)網(wǎng)的普及,人們越來越能夠享受到互聯(lián)網(wǎng)的便利。微博作為一項(xiàng)以網(wǎng)絡(luò)為基礎(chǔ)的社交應(yīng)用,方便快捷、傳播速度塊、社交能力強(qiáng)是它的特點(diǎn),因此,微博已經(jīng)成為人們實(shí)時(shí)分享,獲取和傳播信息,與他人進(jìn)行交流,表達(dá)自己看法的重要平臺(tái)和工具。正是因?yàn)槲⒉┯脩粢?guī)模很大、信息傳播速度快、傳播范圍廣等特點(diǎn),廣告媒體等急切需要對微博里的數(shù)據(jù)內(nèi)容進(jìn)行分析挖掘,以獲取可用的信息。

性別是微博用戶的一個(gè)最基本的特征,對用戶性別區(qū)分方法的研究也有著眾多意義和應(yīng)用領(lǐng)域。獲取微博用戶的性別信息,可以幫助商家了解不同性別用戶的消費(fèi)習(xí)慣和產(chǎn)品喜好,制作有針對性的廣告和產(chǎn)品,更好地滿足用戶的商品需求,為用戶提供個(gè)性化服務(wù)。

本文主要基于微博用戶的用戶名和微博文本內(nèi)容,提取出性格差異比較明顯的特征,并設(shè)計(jì)算法進(jìn)行分類和識(shí)別。

1 數(shù)據(jù)的獲取和預(yù)處理

1.1 數(shù)據(jù)的獲取

因?yàn)楸疚难芯康氖俏⒉┯脩舻男詣e識(shí)別,所以有性別信息的微博用戶的用戶名和所發(fā)布的微博文本內(nèi)容是我們要獲取的數(shù)據(jù)。獲取數(shù)據(jù)的步驟如下:

第一步,隨機(jī)在微博平臺(tái)上獲取有性別信息的用戶。特別要注意的是,獲取數(shù)據(jù)時(shí)一定要保證樣本的隨機(jī)性,這樣對于微博用戶性別的識(shí)別才具有普遍適用性,且能提高準(zhǔn)確率。對于用戶資料的獲取,我們借助了微博提供的API接口,隨機(jī)地獲取了20000個(gè)用戶的個(gè)人信息以及他們近期的微博內(nèi)容。通過我們的觀察發(fā)現(xiàn),從API平臺(tái)獲取的用戶的個(gè)人信息中包含的屬性主要有用戶的UID、昵稱、性別、生日等。但我們發(fā)現(xiàn)當(dāng)我們訪問別人的微博時(shí),對于一些沒有填寫自己性別標(biāo)簽的用戶,我們無法得知他的信息。因此,我們需要人工標(biāo)注來過濾掉一些無效的樣本。

對于個(gè)人信息里沒有性別信息的用戶,我們選擇直接剔除,對于個(gè)人信息里有性別信息的用戶,我們要做接下來的判斷:第一,他所填寫的性別信息與他的簡介或者微博內(nèi)容有明顯的矛盾,比如性別信息填寫為“女”,但是在微博內(nèi)容里表示自己為男生;第二,非個(gè)人用戶,比如說一些媒體的官博,一些企業(yè)的微博,對于我們的研究沒有意義。第三,垃圾用戶,微博發(fā)布內(nèi)容過少,或者微博內(nèi)容全是廣告。對于以上幾種情況的微博用戶,我們也選擇丟棄。

通過上面的篩選,最終,我們得到了3197個(gè)有性別信息的用戶。并且在標(biāo)記過程中統(tǒng)計(jì)出男性用戶有2417人,女性用戶有780人將這些用戶的UID和性別信息進(jìn)行存儲(chǔ)。

第二步,對于上面我們已經(jīng)獲取的含有性別信息的微博用戶,通過他們的UID,來獲取他們的用戶名昵稱和近期發(fā)布的微博文本內(nèi)容。

1.2 數(shù)據(jù)的預(yù)處理

樣本數(shù)據(jù)的預(yù)處理分為以下幾個(gè)方面:一個(gè)是微博文本內(nèi)容的預(yù)處理,另一個(gè)是用戶個(gè)人資料的預(yù)處理。

微博文本內(nèi)容的預(yù)處理:從微博的API接口獲取的微博文本內(nèi)容,里邊含有許多無效信息,甚至有干擾的信息,這些信息對于特征提取基本沒有作用,因此,我們要把這些無意義的信息從微博文本里清除。對微博數(shù)據(jù)的預(yù)處理流程如下:第一步,刪除微博文本內(nèi)容里的非用戶數(shù)據(jù);第二步,刪除微博文本內(nèi)容中的亂碼;第三步,對微博文本內(nèi)容進(jìn)行分詞。

用戶個(gè)人資料的預(yù)處理:因?yàn)楸疚难芯康奈⒉┯脩粜詣e識(shí)別,綜合了微博文本內(nèi)容和微博用戶的用戶名昵稱,因此,除了對微博文本內(nèi)容進(jìn)行預(yù)處理,也要對用戶個(gè)人資料進(jìn)行預(yù)處理,整理比較瑣碎的信息。步驟如下:第一步,根據(jù)UID,在從API獲取的用戶數(shù)據(jù)里找到對應(yīng)的微博用戶,獲取個(gè)人資料;第二步,從個(gè)人資料中提取用戶名昵稱和性別信息;第三步,將用戶名昵稱與用戶的性別相關(guān)聯(lián),為后邊的研究做準(zhǔn)備[1]。

2 用戶性別特征的提取

在經(jīng)過上面的數(shù)據(jù)獲取和預(yù)處理后,我們得到了3197個(gè)用戶的數(shù)據(jù),包括他們的用戶名昵稱,和處理過的微博文本數(shù)據(jù)。在進(jìn)行微博用戶性別識(shí)別時(shí),我們要分別從用戶名昵稱和微博文本中提取特征。

2.1 微博文本中特征的提取

微博的用戶規(guī)模的極速擴(kuò)大,就意味著海量的微博數(shù)據(jù),那么針對微博數(shù)據(jù)的研究就越來越多。在社交網(wǎng)絡(luò)方面,可以進(jìn)行微博情感分析,以及用戶行為分析。在社會(huì)語言和自然語言處理方面,很多社會(huì)語言家認(rèn)為語言是一種資源,任何一個(gè)人敘述一件事,總是會(huì)傳遞出自己的個(gè)人信息。也就是說微博用戶的個(gè)人信息,以及他們發(fā)表的文字,總是能體現(xiàn)出他的年齡、性別、性格等一系列屬性。本文要研究的就是從微博內(nèi)容中提取特征,識(shí)別用戶的性別。本文采取互信息的方法對微博文本內(nèi)容進(jìn)行特征提取。

首先,在預(yù)處理里,我們已經(jīng)對微博文本內(nèi)容進(jìn)行了分詞,例如對“明天我一定會(huì)按時(shí)起床”進(jìn)行分詞,得到“明天、我、一定、會(huì)、按時(shí)、起床”。由于一些詞的使用率過低(這里取低于20次),對特征的提取沒有太大所用,因此我們選擇把它刪掉,最終的詞表數(shù)量為138876。如果我們將138876個(gè)詞全部加入特征空間,那么特征空間的維度過大,需要進(jìn)行降維操作。

2.2 用戶名特征的提取

通過我們對于3197個(gè)樣本數(shù)據(jù)里微博用戶名的分析,可以發(fā)現(xiàn)用戶名中可以體現(xiàn)較強(qiáng)的性別信息,女性的用戶名通常含有偏女性化的字眼,例如“櫻櫻萌萌”中的“櫻”和“萌”,而含有“國”、“強(qiáng)”、“鵬”等字的用戶名通常為男性。

我們將用戶名進(jìn)行按字切分后,得到了一個(gè)含有1065個(gè)字特征的詞表,因?yàn)橛脩裘邪男畔⑾鄬τ谖⒉┪谋緝?nèi)容來說,比較少,因此我們直接把1065個(gè)特征詞直接加入用戶名的特征空間[2]。

3 用戶性別分類

3.1 基于用戶名的性別分類

在通過用戶名對微博用戶的性別進(jìn)行識(shí)別時(shí),我們選擇了樸素貝葉斯分類器,原因一是我們在用戶名提取特征時(shí),并沒有對特征進(jìn)行篩選,而是直接將所有特征加入了特征空間,所以在特征空間里存在一些對于性別識(shí)別沒有作用的特征,而樸素貝葉斯分類器有一個(gè)特點(diǎn)就是對于噪聲不敏感。 二是我們在處理聚類問題時(shí),通常會(huì)采用k近鄰分類器,但是在本文中,我們的重點(diǎn)是分類問題。三是樸素貝葉斯分類器,比較簡單,耗時(shí)較少。

該算法具體的步驟第一步,根據(jù)特征提取中對訓(xùn)練樣本按字切分的結(jié)果,計(jì)算P(wordi|cj),i=1,2,···,n,j=1,2;第二步,對于待分類的用戶名w,將它按字切分為twordi;第三步,分別計(jì)算P1=P(c1|w)和P2=P(c2|w);第四步,比較P1和P2的大小,P1大則w屬于c1,P2大則w屬于c2類。

3.2 基于微博文本的性別分類

在通過微博文本內(nèi)容對微博用戶的性別進(jìn)行識(shí)別時(shí),我們選擇了最大熵模型分類器,原因一是我們在對微博文本內(nèi)容進(jìn)行分詞后,通過互信息的特征提取方法對詞特征進(jìn)行了一定程度的篩選,因此相對于樸素貝葉斯分類器來說,最大熵模型分類的準(zhǔn)確率更高一點(diǎn);二是最大熵模型分類器中可以設(shè)定約束條件,這樣我們可以通過調(diào)節(jié)約束條件來使準(zhǔn)確率更高。

套用最大熵模型分類算法,我們可以知道類別集合為C={“男性”,“女性”},將每一個(gè)微博用戶的微博文本內(nèi)容進(jìn)行分詞后,得到word1,word2···wordn,則微博文本內(nèi)容W={word1,word2…wordn}。然后對于每一個(gè)用戶的每一個(gè)wordi進(jìn)行訓(xùn)練,得出P(wordi|C),然后計(jì)算出P(C|wordi),進(jìn)而計(jì)算出H(C|wordi),同時(shí)設(shè)立一個(gè)約束條件,就可以對對應(yīng)的用戶名進(jìn)行分類[3]。

4 特征提取結(jié)果分析

因?yàn)樵趯τ脩裘M(jìn)行特征提取時(shí)得到的字特征數(shù)目不是特別多,所以直接加入特征空間,而對微博文本內(nèi)容的特征進(jìn)行提取時(shí),由于特征空間維度過大,所以需要采用特征提取方法進(jìn)行降維,圖1是互信息與文檔頻率兩種特征提取方法結(jié)果對比分析圖。

由圖1可以看出,互信息特征提取法與文檔頻率相比,準(zhǔn)確率比較穩(wěn)定,并且準(zhǔn)確率始終高于文檔頻率表。說明了利用互信息提取特征,既能夠達(dá)到降維的目的,同時(shí)還能保證分類的準(zhǔn)確性。因此我們選擇了互信息的方法來提取特征[4]。

5 結(jié)束語

本文按照數(shù)據(jù)的獲取和預(yù)處理、樣本特征的提取和對樣本進(jìn)行分類的步驟來對微博用戶性別識(shí)別進(jìn)行研究并取得了一定成果。首先,我們研究了海量微博數(shù)據(jù)的自動(dòng)抓取,利用新浪微博提供的開放API接口收集用戶數(shù)據(jù),使用中文分詞工具ICTCLAS對微博文本進(jìn)行處理。其次,對于分詞后的微博文本信息和用戶名,我們采用向量空間模型,將這些文本內(nèi)容用向量的形式來表示,向量的每一個(gè)維度表示一個(gè)特征,從而把文本內(nèi)容中的文字和標(biāo)點(diǎn)符號轉(zhuǎn)化為計(jì)算機(jī)內(nèi)部可以識(shí)別的結(jié)構(gòu)。最后,我們采取降維處理,經(jīng)過實(shí)驗(yàn)驗(yàn)證分析,互信息特征提取既能達(dá)到降維的目的,又能保證分類的準(zhǔn)確率。下一步我們將探索怎么把性別識(shí)別運(yùn)用到實(shí)際中去,體現(xiàn)研究的價(jià)值。

參考文獻(xiàn)

[1] Chikersal P,Poria S,Cambria E,et al. Modelling Public Sentiment in Twitter: Using Linguistic Patterns to Enhance Supervised Learning[C].International Conference on Intelligent Text Processing and Computational Linguistics. Springer,Cham,2015:49-65.

[2] Mukherjee S,Bala P K. Gender classification of microblog text based on authorial style[J]. Information Systems and e-Business Management,2017,15(1):1-22.

[3] Yang M,Chow K P. Authorship Attribution for Forensic Investigation with Thousands of Authors[M]. ICT Systems Security and Privacy Protection. Springer Berlin Heidelberg,2014:339-350.

[4] 宗成慶.統(tǒng)計(jì)自然語言處理[M].北京:清華大學(xué)出版社,2013:199.

作者簡介

聞?wù)x(1976-),男,碩士,助教,研究方向:計(jì)算機(jī)應(yīng)用。

余艷霞(1974-),女,碩士,講師,研究方向:計(jì)算機(jī)應(yīng)用,通訊作者。

猜你喜歡
特征提取微博
傳統(tǒng)媒體所辦新媒體的傳播特性分析
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
基于曲率局部二值模式的深度圖像手勢特征提取
一種針對特定無線電信號的識(shí)別方法
基于模糊K近鄰的語音情感識(shí)別
“985工程”高校圖書館閱讀推廣的調(diào)查與分析
事實(shí)與流言的博弈
關(guān)于高中語文教學(xué)中微博的有效運(yùn)用思考
神回復(fù)