孫澤龍
(西安職業(yè)技術(shù)學(xué)院,陜西西安,710077)
R 語言是數(shù)據(jù)分析并進(jìn)行可視化展示實(shí)現(xiàn)的實(shí)用工具,數(shù)據(jù)科學(xué)的不斷發(fā)展,使得我們需要把數(shù)據(jù)映射成為方便查看的圖形、圖像或微視頻等,用戶對(duì)數(shù)據(jù)的交互更為方便,容易從中理解和讀取數(shù)據(jù)。R 語言擁有靈活性和多樣性的特點(diǎn),使用它可以根據(jù)用戶的不同需求,通過R 語言工具本身提供的大量R 函數(shù),可以完成相對(duì)應(yīng)的圖形圖標(biāo)繪制,依據(jù)函數(shù)的幫助信息,對(duì)于特殊圖形要求的還可以自己編寫程序,繪制符合個(gè)性化要求的圖形。
生活中全國(guó)春運(yùn)客流數(shù)據(jù),氣象云圖數(shù)據(jù)、用戶搜索生成搜索網(wǎng)絡(luò)數(shù)據(jù),微博用戶相互關(guān)注和傳播的數(shù)據(jù),電子商務(wù)購(gòu)物網(wǎng)站等都可以稱得上是大數(shù)據(jù)產(chǎn)生的源頭聚集地,數(shù)據(jù)爆發(fā)式增長(zhǎng)和社會(huì)化趨勢(shì)是大數(shù)據(jù)產(chǎn)生的本質(zhì)原因。爆發(fā)式增長(zhǎng)是現(xiàn)在實(shí)時(shí)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、機(jī)器數(shù)據(jù)產(chǎn)生的迅速是以前無法想象的。摩爾定律中全球每18 個(gè)月產(chǎn)生的數(shù)據(jù)量是之前有計(jì)算機(jī)歷史以來數(shù)據(jù)的總和,現(xiàn)在更新后需要的時(shí)間更短了。用戶的行為和關(guān)系產(chǎn)生大量的碎片化信息被互聯(lián)網(wǎng)所記錄。大數(shù)據(jù)體量之大使得現(xiàn)有數(shù)據(jù)庫(kù)技術(shù)無法承載,視頻、音頻等存儲(chǔ)遇到問題,實(shí)時(shí)生成數(shù)據(jù)之快傳統(tǒng)數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)架構(gòu)無法滿足,數(shù)據(jù)產(chǎn)生的價(jià)值密度低,需要挖掘展現(xiàn)其中的價(jià)值。
互聯(lián)網(wǎng)上擁有用戶實(shí)時(shí)生成的海量數(shù)據(jù),這些數(shù)據(jù)往往具有碎片化,當(dāng)然也存在著N 度好友理論,說的是你的好友的好友依次往下不超過六個(gè)的好友可以覆蓋你所在區(qū)域或更廣的所有人,由于社交網(wǎng)絡(luò)工具的便捷,使得生成的這些數(shù)據(jù)記錄著上網(wǎng)用戶的情緒和智慧,這些龐大的群體用戶蘊(yùn)含著社交網(wǎng)絡(luò)的價(jià)值。比如利用社交網(wǎng)絡(luò)挖掘價(jià)值,可以進(jìn)行預(yù)測(cè)天氣的變化,通過各個(gè)地區(qū)很熱的人數(shù)來進(jìn)行監(jiān)測(cè),在微博網(wǎng)絡(luò)上選取一些關(guān)鍵詞種子描述很”熱”的詞需要關(guān)注的,在一定語境下的熱才指天氣熱,選取相應(yīng)數(shù)據(jù)并進(jìn)行文本集合算法的規(guī)則處理,當(dāng)然關(guān)于’熱’的方言相關(guān)詞和綜合語境都要提取文本處理相關(guān)語境,根據(jù)語法結(jié)構(gòu)判斷真正的天氣熱。經(jīng)過這些處理后再統(tǒng)計(jì)出各個(gè)地區(qū)很熱的人數(shù),然后得到”熱”的數(shù)據(jù),加上日期后可以根據(jù)時(shí)間的推移看出不同地區(qū)天氣的變化情況。預(yù)測(cè)選用的方法會(huì)對(duì)結(jié)果產(chǎn)生影響。
社交網(wǎng)路也存在著問題和挑戰(zhàn),有時(shí)同一個(gè)句子不同語境所表達(dá)的意思會(huì)不一樣,這就涉及到機(jī)器對(duì)自然語言規(guī)則的處理,不同場(chǎng)景中情感分析中詞匯本題庫(kù)的積累,微博或論壇數(shù)據(jù)中涉及大都是稀疏文本或表情符號(hào)信息提取、垃圾信息地處理等面臨一定的問題,抽樣數(shù)據(jù)中不是所有的信息都有用,有用的數(shù)據(jù)是否抽取全面和抽樣方法的合理性都可能影響最后的處理結(jié)果。
把從數(shù)據(jù)源文本中抽取出的特征詞,進(jìn)一步量化的過程來進(jìn)行表示文本信息。將它們從一個(gè)無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可以識(shí)別處理的信息,即對(duì)文本進(jìn)行科學(xué)的抽象,建立它的數(shù)學(xué)模型,用以描述和代替文本。文本挖掘是從大量文本數(shù)據(jù)中提取前所未知的、有用的、可理解的、可操作的知識(shí)的過程。文本挖掘包含了學(xué)術(shù)或技術(shù)報(bào)告、新聞、網(wǎng)頁、用戶手冊(cè)等都是文本挖掘的數(shù)據(jù)來源,文本挖掘的主要任務(wù)是包含對(duì)詞或短語的關(guān)鍵字提取;對(duì)詞條的關(guān)系建立對(duì)應(yīng)文本的主要概念,進(jìn)行概念提??;從多角度出發(fā)進(jìn)行分析,實(shí)現(xiàn)可視化的顯示或?qū)Ш?;文本挖掘與數(shù)據(jù)挖掘有著緊密的聯(lián)系,主要區(qū)別如表1 所示。
表1 對(duì)比數(shù)據(jù)挖掘與文本挖掘
使計(jì)算機(jī)能夠通過對(duì)這種模型的計(jì)算和操作來實(shí)現(xiàn)對(duì)文本的識(shí)別。短語提取是提取文本集中所有相關(guān)的短語。概念提取是對(duì)這些短語之間的關(guān)系,建立一個(gè)該文本集中的主要概念??梢暬@示和導(dǎo)航是從多個(gè)視角出發(fā)進(jìn)行分析。本文數(shù)據(jù)來源是一個(gè)班級(jí)群里,近一個(gè)月時(shí)間里群里消息文本資料,班級(jí)群里面應(yīng)該有老師,學(xué)生,學(xué)生里面有學(xué)生的班干部等,通過對(duì)此數(shù)據(jù)進(jìn)行挖掘分析,從下圖2 所示,來找出群內(nèi)高頻詞匯,分析群里面近期關(guān)注的熱點(diǎn)信息等。
圖1 高頻詞挖掘圖
聊天時(shí)間統(tǒng)計(jì)后發(fā)現(xiàn),群里早上10 點(diǎn)前基本很少有人聊天,11 點(diǎn)后聊天數(shù)量逐步上升,一天時(shí)間段中晚上9-11點(diǎn)聊天是最為活躍的。從下圖2 所示時(shí)間分布圖中,可以看出群聊里在一天中聊天的活躍度分布情況。這樣就可以看出,如果需要討論或者通知相關(guān)事宜,就可以適當(dāng)選擇合適的時(shí)間進(jìn)行,比如早上方便通知消息或發(fā)布文件資料等信息,這樣重要信息就不會(huì)被吞沒,而討論適合在晚間進(jìn)行。
圖2 聊天時(shí)間分布圖
隨著大數(shù)據(jù)與云計(jì)算的發(fā)展,網(wǎng)絡(luò)上的信息內(nèi)容和文本類型將變得日趨豐富。本文在對(duì)文本內(nèi)容分析為研究目的和文本挖掘模型的基礎(chǔ)上對(duì)高頻詞、時(shí)間分布兩個(gè)參數(shù)為研究對(duì)象進(jìn)行了分析。從高頻詞和時(shí)間分布的圖表中,我們可以判斷出來群信息最近談?wù)摰淖顭岬脑掝}等。以上分析的數(shù)據(jù)只是建立在現(xiàn)有的數(shù)據(jù)之上的,統(tǒng)計(jì)數(shù)據(jù)只能統(tǒng)計(jì)出大概的事情發(fā)展趨勢(shì),可能會(huì)有許多的誤差,所以還需進(jìn)一步完善和優(yōu)化進(jìn)而做出更準(zhǔn)確的判斷。今后教學(xué)實(shí)踐將繼續(xù)以數(shù)據(jù)挖掘案例為載體,“新工科”建設(shè)為指導(dǎo),設(shè)計(jì)更多基于有數(shù)據(jù)挖掘價(jià)值的應(yīng)用案例,提升教育教學(xué)水平和激發(fā)學(xué)生學(xué)習(xí)興趣。