国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

博客資源數(shù)據(jù)挖掘研究現(xiàn)狀

2013-12-29 00:00:00王洪福李懷龍張家年
電腦知識與技術(shù) 2013年12期

摘要:目前中國有3.73億網(wǎng)民擁有博客,博客網(wǎng)站上已經(jīng)存在海量的信息。對這些博客資源進行挖掘,可以獲得有價值的信息。博客資源挖掘是Web數(shù)據(jù)挖掘的一種具體應(yīng)用。探討了國內(nèi)外學(xué)者對博客資源進行數(shù)據(jù)挖掘的已有成果、各種方法與技術(shù),涉及到博客網(wǎng)頁的識別、博客傳播特征、語義博客系統(tǒng)、博客之間的鏈接與交互、博客作者信息挖掘、博客主題挖掘、博客分類與聚類算法等。熱點話題挖掘是博客數(shù)據(jù)挖掘的一種具體形式,也介紹了博客熱點話題挖掘的方法與技術(shù)。

關(guān)鍵詞:博客;Blog;Web;數(shù)據(jù)挖掘;算法;熱點話題挖掘;現(xiàn)狀

中圖分類號:TP392 文獻標(biāo)識碼:A 文章編號:1009-3044(2013)12-2771-03

1 博客簡介

因特網(wǎng)(Internet)和萬維網(wǎng)(WWW)的出現(xiàn),改變了人們的工作方式和生活方式。個人網(wǎng)站、論壇(BBS)等給了人們自由發(fā)表信息的途徑,而博客(Blog)的出現(xiàn),使人們更加方便的展示自我。由于具有開放、簡便易用的特點,使博客具有獨特的魅力,使用博客的用戶越來越多。

1.1 博客的定義

博客的英文名字Blog,來源于Web Log這個名稱。博客源于RSS技術(shù),作者以日志風(fēng)格發(fā)布信息,讀者以評論方式與作者互動,是一種自由、簡單易用的信息傳播和互動方式。

一個博客文章就是一個網(wǎng)頁,博客作者可以對文章分類。這些文章都按照發(fā)表日期的倒序排列,最新的文章在網(wǎng)頁最上面顯示。博客的內(nèi)容和題材,在合乎法律的要求下相當(dāng)廣泛,可以是新聞、時事評論、個人生活體驗、購物信息、專業(yè)技術(shù)技巧、學(xué)術(shù)知識、照片、小說、產(chǎn)品等,有個人博客、公司博客、組織博客等。

1.2 博客的現(xiàn)狀

據(jù)估計,目前全球的博客運營網(wǎng)站有數(shù)十萬個,有數(shù)億人使用博客。博客已經(jīng)成為個人、企業(yè)、組織、團隊之間常用的溝通工具。2002年,中國大陸開始有了博客服務(wù)網(wǎng)站?,F(xiàn)在中國大陸已經(jīng)有大量的博客服務(wù)網(wǎng)站,發(fā)展迅速。截止到2013年4月,新浪博客服務(wù)網(wǎng)站點擊數(shù)最高的個人博客已經(jīng)超過了21億次點擊,排在第二、第三的個人博客的點擊數(shù)均超過10億次,排在第100名的博客的點擊數(shù)也高達6千5百萬(來自新浪博客總流量排行)。中國互聯(lián)網(wǎng)信息中心(CNNIC)統(tǒng)計顯示,截止到2012年底,我國擁有博客(個人空間)的網(wǎng)民有3.73億,占網(wǎng)民總數(shù)的66.1%[1]。從市場份額看,典型的博客網(wǎng)站有:QQ空間、新浪博客、博客大巴、搜狐博客、和訊博客、博客園、CSDN博客、博客網(wǎng)、網(wǎng)易博客、鳳凰博客、中國博客、天涯博客、百度空間等。

2 博客資源挖掘

近幾年來,由于博客的快速發(fā)展,國內(nèi)外很多科研人員開始對博客進行研究,獲得了豐富的研究成果。目前的研究主要集中在對博客內(nèi)容進行挖掘、檢索等方面。

2.1 國外對博客資源挖掘的研究

IBM的D.Gruhl、R.Guha、D.Liben-Nowell和A. Tomkins從宏觀、微觀兩個層次上研究了博客網(wǎng)站里的主題傳播特征和博客用戶之間的交互特征,通過數(shù)學(xué)模型抽取出博客網(wǎng)站里可以表示新主題的關(guān)鍵詞,并對不同時期發(fā)布的關(guān)鍵詞進行分析,得出一些傳播特征[2]。日本的I.Ohmukai、H.Takeda、K.Numa等人利用語義網(wǎng)搜索技術(shù)建立一個更加方便發(fā)表博客的“語義博客系統(tǒng)”,并對信息的收集和發(fā)表的不同層次做了詳盡的分析[3]。HP實驗室的E.Adar、L.Zhang對博客網(wǎng)站里的信息傳播進行分類,設(shè)計出可視化的工具軟件來動態(tài)顯示不同博客之間的互相鏈接,并提出了一種新的Rank搜索算法[4]。

博客上的信息是網(wǎng)絡(luò)信息的一種,但它又有自己的特點,對博客進行研究,首先需要能夠識別博客信息。東京工業(yè)大學(xué)的T. Nanno、T. Fujiki、Y. Suzuki、M. Okumura等學(xué)者提出了基于對日期表示和對HTML文檔的分析來自動收集、監(jiān)控、挖掘博客(Blog)的方法[5]。馬里蘭大學(xué)的Kolari P、Finin T、Joshi A等學(xué)者提出了基于向量空間模型(SVM)的博客識別和發(fā)現(xiàn)的方法,去掉了較好的效果[6]。博客與傳統(tǒng)的個人網(wǎng)頁或網(wǎng)絡(luò)日記不完全相同,T. Fujiki、T. Nanno、M. Okumura等學(xué)者通過對自動提取的熱點關(guān)鍵詞的分類、比較,區(qū)別出了博客和個人網(wǎng)站、網(wǎng)絡(luò)日記的差異[7]。

2.2 國內(nèi)對博客資源的研究

在博客識別方面的研究,國內(nèi)已經(jīng)出現(xiàn)比較可靠的方法或算法。哈爾濱工業(yè)大學(xué)的張迪通過比較博客網(wǎng)頁和普通的Web網(wǎng)頁,提取出博客網(wǎng)頁的特征,從網(wǎng)絡(luò)爬蟲下載得到的網(wǎng)頁中識別出博客網(wǎng)頁來,并且作者還對博客網(wǎng)頁相關(guān)內(nèi)容進行了抽取[8]。重慶大學(xué)的張程、陳自郁等人針對當(dāng)前因特網(wǎng)上大量出現(xiàn)的博客網(wǎng)頁,通過分析博客網(wǎng)頁的結(jié)構(gòu)特點、技術(shù)特征,結(jié)合網(wǎng)頁DOM節(jié)點特性,提出了基于DOM樹分析和模式匹配的博客網(wǎng)頁自動識別算法,并通過實驗對該算法進行了驗證[9]。河南大學(xué)的李旻提出了博客綜合特征空間的概念,并且詳細(xì)論述了該空間中三大類共五種博客特征的概念、定義和抽取方法。研究了網(wǎng)頁的形式化表示方法,分析了特征項的提取、選擇及權(quán)重計算的整個過程,在這基礎(chǔ)上設(shè)計出了基于標(biāo)簽信息的TF-IDF算法及標(biāo)簽權(quán)重調(diào)整方案。最后提出一種基于綜合特征空間的博客網(wǎng)頁識別算法,并將該算法運用到基于頁面布局特征的博客網(wǎng)頁識別階段和基于文本內(nèi)容特征的博客網(wǎng)頁識別階段[10]。哈爾濱工業(yè)大學(xué)的楊宇航、趙鐵軍、鄭德權(quán)、于浩提出了一種基于鏈接分析的對博客信息源進行量化評估的方法,在這個基礎(chǔ)上發(fā)現(xiàn)重要的博客信息源,既體現(xiàn)了博客信息的特點,又減少了作弊鏈接對結(jié)果的影響。作者用設(shè)計的博客信息源重要性評價指標(biāo)進行評估,證明了該評估方法的有效性[11-12]。

對博客作者的個人信息進行挖掘是博客數(shù)據(jù)挖掘的一個方面。上海交通大學(xué)的倪曉川通過挖掘博客網(wǎng)頁的內(nèi)容來獲得博客作者的個人信息,構(gòu)建博客作者的興趣集合,為此,他提出了一種采用文本分類技術(shù)的自動挖掘博客作者興趣的方法。該方法使用多分類器連合的技術(shù)來提高分類的精度和挖掘結(jié)果的可靠性,并且使用自上而下的層次分類方法,挖掘出更具體的博客作者的興趣,而且興趣可以用層次結(jié)構(gòu)的形式展現(xiàn)。在此基礎(chǔ)上作者還提出了對博客作者、博客文章進行情感型和信息型判定的問題,作者將該問題看作是一個文本分類問題,可以采用文本分類技術(shù)解決這個問題[13]。

博客球是包含所有博客的虛擬社區(qū)或社交網(wǎng)絡(luò)的集合名詞,可以把它看成是一個超大型的原始數(shù)據(jù)庫。西南石油大學(xué)的季文韜通過搭建博客球數(shù)據(jù)庫集群環(huán)境,建立了一個大型的博客球矩陣,通過分析博客網(wǎng)頁中的各個指標(biāo)在矩陣中的權(quán)重從而確定矩陣元素。由于博客文章往往是個人所發(fā),缺乏規(guī)范、約束,導(dǎo)致博客信息中存在不少噪音數(shù)據(jù)。于是作者采用奇異值分解(SVD)技術(shù)來對文本向量矩陣進行降噪,除去噪音數(shù)據(jù),并利用k-Means聚類算法對降噪后的數(shù)據(jù)信息進行聚類分析,從中發(fā)現(xiàn)有價值的信息[14]。在論文中,作者通過分析、對比實驗結(jié)果,找出有效的博客球聚類方法。

哈爾濱工業(yè)大學(xué)的軒文烽針對現(xiàn)有的博客關(guān)鍵詞抽取算法依賴于外部資源和具體的文本格式這個問題,提出了一種基于主題模型LDA(Latent Dirichlet Allocation)的博客文章關(guān)鍵詞抽取算法,并通過與TF-IDF(Term Frequency–Inverse Document Frequency)和層次隱馬爾科夫模型(Hierarchical Hidden Markov Model,HHMM)的對比實驗,對該算法的有效性進行了檢驗,最后運用皮爾遜相關(guān)系數(shù)從關(guān)鍵詞權(quán)重與其詞頻之間的線性相關(guān)程度這一角度分析了該算法優(yōu)越性的原因。另外,作者通過比較、分析四種典型聚類算法K-means、K-means++、Markov Cluster、和Affinity Propagation,篩選出更適合博客關(guān)鍵詞抽取的算法Markov Cluster;以此為基礎(chǔ),設(shè)計了一個用于對博客文章進行主題聚類的算法,該算法能自動對聚類結(jié)果進行描述。作者還在傳統(tǒng)鏈接分析的基礎(chǔ)上,結(jié)合博客網(wǎng)頁的關(guān)鍵特征,提出一種融合了用戶評論和正文相似性信息的博客文章排序算法[15]。

3 博客領(lǐng)域熱點話題挖掘

作為互聯(lián)網(wǎng)的一種應(yīng)用,博客已經(jīng)出現(xiàn)了較長時間,但是對博客領(lǐng)域的熱點話題挖掘并不是很多。

通常我們所理解的新聞熱點話題,一般都是通過該話題新聞報道的數(shù)量來表示。比如一個事件發(fā)生以后,很多媒體都對該事件進行了報道,那么這個事件可以被認(rèn)為是熱點事件,關(guān)于這個事件的所有媒體的相關(guān)報道組成了一個熱點話題。但是對于博客上的熱點話題,則與新聞報道的熱點話題不同。因為博客文章是個人所發(fā),一般情況下,不會出現(xiàn)象新聞熱點話題那樣有大量媒體進行報道的情況,所以,我們判斷博客網(wǎng)站上的熱點話題,主要是依據(jù)博客文章的閱讀數(shù)量、評論數(shù)量、收藏或轉(zhuǎn)載數(shù)量及發(fā)布時間等[16]。

運用熱點話題檢測與跟蹤技術(shù),將大量的博客信息按照話題進行歸類和分組,對用戶感興趣的某些特定話題進行跟蹤,實現(xiàn)個性化的服務(wù),取代人工以簡明、概要的方式呈現(xiàn)給用戶[17]。這種技術(shù)可以使用戶在動態(tài)變化的互聯(lián)網(wǎng)環(huán)境下找到自己需要的信息,使博客信息更有價值,更加準(zhǔn)確、有效地為用戶使用。

傳統(tǒng)的博客熱點話題發(fā)現(xiàn)主要是根據(jù)閱讀數(shù)量、評論數(shù)量等來得到的,并沒有考慮話題內(nèi)容和評論內(nèi)容[16]。為此,大連理工大學(xué)的時達明、林鴻飛提出了一種基于內(nèi)容相關(guān)度和語義分析的博客熱點話題檢測方法。該方法在考慮了評論數(shù)量的同時,還通過分析評論內(nèi)容與話題內(nèi)容的相關(guān)度并分析評論中的語義來計算話題在該博客中的熱度,最終完成該博客的熱點話題發(fā)現(xiàn)[18]。實驗表明,他們使用的方法是有效的。

華南理工大學(xué)的胡方濤在對網(wǎng)絡(luò)爬蟲進行了一定的分析研究之后,通過已有的聚類算法將采集下來的博客數(shù)據(jù)聚類,形成話題。然后根據(jù)博客數(shù)據(jù)的特有屬性,提取出博客話題排序特征,最后通過熱點話題計算公式算出每個話題的熱度值,發(fā)現(xiàn)其中的熱點話題。對于熱度較高的話題,通過計算評論的情感來進行話題支持度的分析[19]。熱點話題支持度的分析能夠使得網(wǎng)民在了解該熱點話題的同時,還能了解民眾對該熱點話題所持的一種情感態(tài)度。

4 結(jié)束語

本文探討了博客資源數(shù)據(jù)挖掘、面向博客的熱點話題挖掘的研究現(xiàn)狀。博客數(shù)據(jù)挖掘是Web數(shù)據(jù)挖掘的一種具體應(yīng)用。雖然有不少研究者對博客數(shù)據(jù)挖掘進行了研究,但從整體上看,與Web數(shù)據(jù)挖掘比較,對面向博客的數(shù)據(jù)挖掘的研究還是很少。筆者以博客(或Blog)加挖掘作為篇名關(guān)鍵詞在知網(wǎng)上搜索,截止到2013年4月,只搜索到28篇文獻,而以Web(或網(wǎng)絡(luò))加挖掘作為篇名關(guān)鍵詞進行搜索,搜索到了4057篇文獻。關(guān)于博客挖掘的文獻只占Web挖掘文獻的0.69%。這與我國3.73億網(wǎng)民擁有博客、個人博客網(wǎng)站有21億的點擊數(shù)這樣的博客使用現(xiàn)狀顯然不符。對博客數(shù)據(jù)挖掘,還有很大的研究空間。

參考文獻:

[1] 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第31次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[EB/OL]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf.

[2] Gruhl D, Guha R, Liben-Nowell D,Tomkins A.Information Diffusion through Blogspace[C].ACM WWW, 2004.

[3] Ohmukai I, Takeda H, Numa K.Personal Knowledge Publishing Suite with Weblog, Workshop on the Weblogging Ecosystem[C].Aggregation,Analysis and Dynamics,2004.

[4] Adar E,Zhang L.Implicit Structure and the Dynamics of Blogspace, Workshop on the Weblogging Ecosystem at the 13th International World Wide Web Conference[C].New York,2004.

[5] Nanno T, Fujiki TSuzuki,YOkumura M.Automatically Collection, Monitoring, and Mining Japanese Weblogs[C].WWW,2004.

[6] Kolari P, Finin T, Joshi A. SVMs for the blogosphere: Blog identification and splog detection. In: Proc. of the AAAI Spring Symp. on Computational Approaches to Analyzing Weblogs[C].California: AAAI Press,2006:92-99.

[7] T. Fujiki, T. Nanno, M. Okumura. Differences between Blogs and Web Diaries[C]. WWW2005, Chiba, Japan, 2005,5: 10-14.

[8] 張迪.中文Blog網(wǎng)頁識別與內(nèi)容抽取研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.

[9] 張程,陳自郁,古平, 等.基于DOM樹結(jié)構(gòu)的Blog網(wǎng)頁自動識別[J].計算機應(yīng)用研究,2008(5):1489-1491.

[10] 李旻.基于綜合特征空間的Blog網(wǎng)頁識別方法研究[D].開封:河南大學(xué),2009.

[11] 楊宇航,趙鐵軍,鄭德權(quán),等.基于鏈接分析的重要Blog信息源發(fā)現(xiàn)[J].中文信息學(xué)報,2007,21(5):68-72.

[12] 楊宇航,趙鐵軍,鄭德權(quán),等.基于鏈接分析的重要Blog信息源發(fā)現(xiàn)[A].孫茂松,陳群秀.內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C].北京:清華大學(xué)出版社,2007.

[13] 倪曉川.博客作者興趣挖掘與博客信息、情感分析的研究[D].上海:上海交通大學(xué),2008.

[14] 季文韜.基于數(shù)據(jù)挖掘的博客球聚類研究[D].成都:西南石油大學(xué),2011.

[15] 軒文烽.面向主題的博客資源挖掘關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2011.

[16] 劉旭.博客熱點話題挖掘方法[D].哈爾濱:哈爾濱工業(yè)大學(xué),2010.

[17] 丁偉莉.中文Blog熱門話題檢測與跟蹤技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2007.

[18] 時達明,林鴻飛.基于內(nèi)容相關(guān)度和語義分析的Blog熱點話題發(fā)現(xiàn)[A].孫茂松,陳群秀.內(nèi)容計算的研究與應(yīng)用前沿——第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集[C].北京:清華大學(xué)出版社,2007.

[19] 胡方濤.Blog信息采集及熱點話題支持度計算的系統(tǒng)實現(xiàn)[D].廣州:華南理工大學(xué),2012.

紫阳县| 扎兰屯市| 通许县| 红原县| 扶余县| 铜鼓县| 团风县| 建瓯市| 连山| 辉南县| 都兰县| 西华县| 太保市| 卓资县| 庆云县| 滨州市| 石棉县| 天气| 呼图壁县| 棋牌| 永川市| 堆龙德庆县| 克东县| 锡林浩特市| 江山市| 响水县| 梅河口市| 彰化县| 定结县| 阿鲁科尔沁旗| 祥云县| 娱乐| 株洲市| 沙坪坝区| 高雄县| 台南县| 凤阳县| 上虞市| 安远县| 田东县| 田阳县|