駱偉,陳希邦
(江西理工大學理學院,江西贛州341000)
基于微博數(shù)據(jù)分析的算法研究
駱偉,陳希邦
(江西理工大學理學院,江西贛州341000)
隨著全球信息化的發(fā)展和社交網(wǎng)站的豐富,越來越多的人喜歡在社交網(wǎng)站上分享自己的心情,發(fā)布一些動態(tài)。微博作為一種新型的既有關注又可以分享信息的社交媒體,它形式多樣化、發(fā)布便捷、傳播快、交互式更強的特點受到了大量用戶喜愛。自微博興起以來,微博的發(fā)布數(shù)量非常龐大,而如何有效、快速地挖掘出自己所需要的信息非常重要。選擇新浪微博為研究對象,通過網(wǎng)絡爬蟲從新浪微博上獲取微博信息,并通過k-means算法對數(shù)據(jù)進行了分析。
微博;k-means算法;網(wǎng)絡交流平臺;實時信息
微博在當今社會應用范圍越來越廣泛,不同于傳統(tǒng)的網(wǎng)絡交流平臺,比如博客,雖然現(xiàn)今還有一些人在博客上發(fā)表文章,但從整體上來看,微博更受到廣大用戶的喜愛,微博上的信息具有較高的時空效率,作為現(xiàn)代社會最流行的人際交往虛擬平臺,具有以下特點:簡短、實時信息以及具有類似廣播的形式。但微博平臺上的信息量如此之大,獲取信息的難度也是很大,因此,選擇一種適合自己的研究算法十分重要。
哈佛大學的心理學教授Stanley Milgram認為,你與任何一個陌生人之間的間隔不會超過6個人,即所謂的著名的“六度分隔理論”。該理論的形成對社交平臺的發(fā)展有著極大的貢獻。社交網(wǎng)絡平臺是基于人們?nèi)粘I钪械纳缃蝗榛A,將擁有相同興趣愛好的網(wǎng)絡用戶群體通過互聯(lián)網(wǎng)服務,在網(wǎng)絡平臺上構建了一種社會網(wǎng)上關系,稱為社交網(wǎng)絡服務,簡稱SNS(Social Networking Services,或Social Network Site)。每個人多少都有自己的人脈圈,在互聯(lián)網(wǎng)上也是如此。到目前為止,社交網(wǎng)絡服務已經(jīng)擁有相對成熟的技術以及受到絕大部分網(wǎng)民的喜愛。當然,由于科技的不斷進步和互聯(lián)網(wǎng)的不斷發(fā)展,社交網(wǎng)絡服務也隨之不斷加強,出現(xiàn)了垂直類型的SNS(比如淘寶)、學術類型的SNS(比如Wiki、Ning網(wǎng)站)、綜合類型的SNS(比如Facebook、微博)等。
k-means聚類算法是由Steinhaus在1955年、Lloyd在1957年、Ball&Hall在1965年、McQueen在1967年獨立提出的。k-means算法屬于聚類算法,是典型的基于距離的聚類算法,它采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離靠近的對象組成的,因此,把得到緊湊、獨立的簇作為最終目標。算法過程如下:①從N個文檔隨機選取k個作為質(zhì)心;②對剩余的每個文檔測量其到每個質(zhì)心的距離,并歸入到最近質(zhì)心的類別中;③重新計算已經(jīng)得到各個類的質(zhì)心;④重復上述步驟,直到新的質(zhì)心與原質(zhì)心小于等于指定閾值,算法終止。k-means算法實現(xiàn)簡單,且聚類速度快,非常適合于大數(shù)據(jù)集的計算。到目前為止,已有部分研究者采用k-means算法進行社會網(wǎng)絡相關的問題分析,并對算法本身加以了改進和優(yōu)化。
本研究利用八爪魚采集器,通過制訂規(guī)則,使用網(wǎng)絡爬蟲調(diào)用新浪微博開放平臺API接口來獲取微博用戶群體的數(shù)據(jù)。新浪微博用戶之間的行為有一定的相似性,基于k-means聚類算法,希望能夠得到更加有效的結論證明用戶之間存在共同的行為規(guī)律。通過對每一個用戶群體在一周中某一天發(fā)布微博的條數(shù)占本周所有微博的比例進行處理,反映的是所有用戶在一周時間內(nèi)各自發(fā)布微博的信息統(tǒng)計?;跀?shù)據(jù)制作K線圖,分別對之前數(shù)據(jù)進行聚類分析之后的不同群組的用戶群組進行分析。
通過分析可以得出,選取的微博用戶可以大致分為幾類,然后對每一個群組進行分析,從而研究他們的特征。研究發(fā)現(xiàn),微博用戶之間使用微博的頻率確實存在不同的習慣,我們對這些微博用戶進行分組可以發(fā)現(xiàn),相同組的用戶之間的微博行為有著一定的相似性,且用戶使用微博的情況與日常的生活規(guī)律有一定的相關性。
從某種程度上講,此次研究的數(shù)據(jù)量不是所有新浪微博用戶的所有數(shù)據(jù),在數(shù)據(jù)采集方面還有一定的偏差,并不能代表整體微博用戶的行為習慣。如果是全部的數(shù)據(jù)量,普通的計算機沒有辦法完成此次研究,對算法的要求同樣不能僅僅依靠k-means算法來設計此次的數(shù)據(jù)分析。所以,此次研究只是一次簡單的嘗試,希望未來在對所有數(shù)據(jù)的處理中有參考作用。今后,我們還需要大量的數(shù)據(jù)及更多的研究目標,才能夠更加準確地對新浪微博用戶的習慣進行研究。
[1]肖廣德,高丹陽.應用SNS網(wǎng)站功能構建網(wǎng)絡學習環(huán)境初探[J].中國電化教育,2010(04).
[2]王千,王成,馮振元,等.K.means聚類算法研究綜述[J].電子設計工程,2012(07).
〔編輯:張思楠〕
TP311.13
A
10.15913/j.cnki.kjycx.2017.18.026
2095-6835(2017)18-0026-02
駱偉(1989—),女,教師,研究方向為計算機應用技術。