国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動(dòng)端兒童數(shù)字閱讀行為采集與可視化研究

2021-06-03 03:26杭州電子科技大學(xué)劉娟娟楊根福
內(nèi)江科技 2021年5期
關(guān)鍵詞:爬蟲線程云圖

◇杭州電子科技大學(xué) 劉娟娟 楊根福

本文主要設(shè)計(jì)利用爬蟲技術(shù)爬取移動(dòng)端兒童數(shù)字閱讀類APP的評(píng)論區(qū)中家長(zhǎng)以及兒童對(duì)數(shù)字閱讀的評(píng)論。通過(guò)對(duì)移動(dòng)端使用抓包工具截獲APP數(shù)據(jù)包,并利用爬蟲程序模擬瀏覽器訪問(wèn)網(wǎng)頁(yè),獲取文字、音頻兩種格式的數(shù)據(jù),借助圖形化手段將清洗后的數(shù)據(jù)可視化,從而得到有價(jià)值的結(jié)論,以此分析數(shù)字化閱讀對(duì)于人們的意義和價(jià)值,幫助兒童數(shù)字化閱讀更健康地發(fā)展和優(yōu)化。

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字化閱讀開始出現(xiàn)在人們的視野。十幾年前也有錄音機(jī)聽書,但是目前兒童數(shù)字化閱讀通常以移動(dòng)端為載體,會(huì)由于人們的閱讀行為產(chǎn)生各種閱讀數(shù)據(jù),這些數(shù)據(jù)對(duì)于研究者,對(duì)于產(chǎn)品本身,和對(duì)于用戶都是非常有價(jià)值的。而對(duì)于數(shù)字化閱讀行為方面的研究,國(guó)內(nèi)外通常采用問(wèn)卷調(diào)查法、訪談法、文獻(xiàn)分析法、測(cè)試法、實(shí)驗(yàn)法、日志法等非技術(shù)方法,在研究?jī)x器上多用眼動(dòng)記錄儀、功能性核磁共振儀、面部識(shí)別儀器等[1-2],而專門針對(duì)兒童評(píng)論數(shù)據(jù)進(jìn)行分析的研究還比較欠缺。

1 數(shù)字閱讀行為研究?jī)r(jià)值和意義

數(shù)字化閱讀相對(duì)于紙質(zhì)閱讀不再是以靜態(tài)的、扁平化的方式呈現(xiàn),對(duì)于低齡兒童,會(huì)有聲音輔助,優(yōu)美動(dòng)聽的聲音和豐富多彩的音效讓兒童能較早地就能夠接受書本上的知識(shí),動(dòng)畫的效果也會(huì)讓兒童更加關(guān)注于閱讀內(nèi)容,從而在閱讀載體的方式上進(jìn)化使兒童超前閱讀。而有實(shí)驗(yàn)也表明,兒童確實(shí)是喜歡動(dòng)態(tài)的事物,而且兒童的想象力是非常豐富的,兒童雖然接受了各種書本知識(shí),但此時(shí)兒童的想象力會(huì)讓他不局限于書本,而是擁有了大量閱讀材料使得兒童的想象力得到完全的釋放。從而,兒童的閱讀興趣和認(rèn)知能力將得到前所未有的提高[3]。

數(shù)字閱讀行為數(shù)據(jù)是指兒童在進(jìn)行數(shù)字化閱讀過(guò)程中所產(chǎn)生的可見(jiàn)和不可見(jiàn)的并且可以被記錄的數(shù)據(jù)??梢愿爬榭偫ㄐ蚤喿x行為數(shù)據(jù)、過(guò)程性閱讀行為數(shù)據(jù)、結(jié)果性閱讀行為數(shù)據(jù)[4]。總括性閱讀行為數(shù)據(jù)主要是指APP的一些基本數(shù)據(jù),比如用戶登錄了多少次、一次在線多久、閱讀一本書要多久、一般會(huì)閱讀基本書、總共會(huì)閱讀多少字等;過(guò)程性閱讀行為數(shù)據(jù),也就是在閱讀過(guò)程中產(chǎn)生的詳細(xì)數(shù)據(jù),比如點(diǎn)擊某個(gè)按鈕的次數(shù)、在某頁(yè)面停留了多久、數(shù)字圖書和音頻下載了多少次、音頻類圖書收聽了多少次等。結(jié)果性閱讀數(shù)據(jù),主要是指有分享與評(píng)論性質(zhì)的數(shù)據(jù),對(duì)數(shù)字圖書閱讀完以后的反饋,比如對(duì)某一個(gè)數(shù)字閱讀內(nèi)容的分享與評(píng)論,還有一些APP會(huì)有閱讀后的帶有答題性質(zhì)的小游戲,以此生成閱讀數(shù)據(jù)報(bào)告,反饋給家長(zhǎng)可以監(jiān)控孩子的閱讀情況和效果[5]。由于數(shù)字閱讀的多媒體性質(zhì),兒童的閱讀行為也變得豐富起來(lái)。因此,本文的研究目標(biāo)是對(duì)家長(zhǎng)及兒童的評(píng)論文本和語(yǔ)音信息進(jìn)行挖掘與可視化分析,以便進(jìn)一步了解家長(zhǎng)及兒童的偏好有重要的意義。

2 數(shù)據(jù)采集方式與實(shí)現(xiàn)

在所要采集數(shù)據(jù)類型方面,限于第三方基本上只能抓取到可見(jiàn)型數(shù)據(jù),因此本設(shè)計(jì)將會(huì)采集故事類APP的評(píng)論區(qū)數(shù)據(jù),數(shù)據(jù)類型包括文本數(shù)據(jù)和音頻數(shù)據(jù),數(shù)據(jù)主體包括家長(zhǎng)和兒童對(duì)于音頻故事的反饋;基于移動(dòng)端數(shù)據(jù)抓取的多種抓包工具和抓取方法,在抓包工具上選擇Fiddler抓包工具獲取移動(dòng)端APP的數(shù)據(jù)包;在抓取方法上選擇Python的Requests庫(kù)、Selenium庫(kù)來(lái)實(shí)現(xiàn)移動(dòng)端數(shù)據(jù)的抓取;在爬取效率方面,用多進(jìn)程的方法,提升爬蟲程序爬取的速度和效率,實(shí)現(xiàn)高并發(fā)[6]。

爬蟲的原理就是模擬瀏覽器訪問(wèn)網(wǎng)頁(yè),然后獲取網(wǎng)頁(yè)中我們想要獲取的數(shù)據(jù)。瀏覽器訪問(wèn)網(wǎng)頁(yè)的過(guò)程:在搜索欄輸入網(wǎng)頁(yè)地址后,經(jīng)過(guò)域名服務(wù)器向服務(wù)器發(fā)送請(qǐng)求,服務(wù)器經(jīng)過(guò)解析后會(huì)向用戶發(fā)送瀏覽器HTML、JS、CSS渲染后的結(jié)果,所以用戶看到的渲染后的結(jié)果就是由HTML代碼構(gòu)成的,爬蟲就是為了獲取想要獲取的那部分內(nèi)容,例如文本、圖片、視頻等資源,就要分析和過(guò)濾HTML代碼,編寫爬蟲程序,實(shí)現(xiàn)爬取。一個(gè)爬蟲程序的基本流程就是:

(1)發(fā)起請(qǐng)求。通過(guò)HTTP庫(kù)向所要訪問(wèn)的站點(diǎn)發(fā)起請(qǐng)求,也就是發(fā)送一個(gè)request請(qǐng)求。

(2)獲取響應(yīng)內(nèi)容。服務(wù)器如果正常響應(yīng),我們就會(huì)得到一個(gè)response,這個(gè)response的內(nèi)容便是要獲取的頁(yè)面內(nèi)容,比如本設(shè)計(jì)要獲得的文本,就是json格式的字符串。

(3)解析內(nèi)容。獲取json格式的網(wǎng)頁(yè)內(nèi)容后,需要轉(zhuǎn)換為json對(duì)象解析。

(4)保存數(shù)據(jù)。解析出來(lái)的內(nèi)容需要保存到本地,可以保存為Excel表格里,也可以保存在數(shù)據(jù)庫(kù)里,各有優(yōu)勢(shì)。

3 可視化分析

在數(shù)據(jù)存儲(chǔ)和分析方面,本文使用MySQL數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)大量數(shù)據(jù),使用詞云圖來(lái)進(jìn)行詞頻分析并作詞義分析,并用抓取到的數(shù)據(jù)對(duì)兒童數(shù)字化閱讀的特點(diǎn)、使用狀況及閱讀行為進(jìn)行分析;此外,為了便于第三方使用,發(fā)揮該設(shè)計(jì)的價(jià)值,增加爬蟲工具以及使用界面的設(shè)計(jì)。

3.1 可視化界面設(shè)計(jì)

Python是一種高級(jí)程序設(shè)計(jì)語(yǔ)言,可用于界面開發(fā)。界面程序選擇使用tkinter庫(kù),tkinter是python標(biāo)準(zhǔn)的GUI庫(kù),可用于建立GUI應(yīng)用程序,同時(shí)這是python的內(nèi)置庫(kù),不需要額外安裝。

GUI程序主要導(dǎo)入了兩個(gè)庫(kù),一個(gè)庫(kù)是GUI庫(kù)tkinter,用于實(shí)現(xiàn)GUI的編寫,另外一個(gè)庫(kù)是線程庫(kù)threading,用于控制爬蟲的線程,如果爬蟲掛掉,則重新啟動(dòng)一個(gè)線程。這里實(shí)現(xiàn)一個(gè)名叫thread_it的函數(shù),函數(shù)首先創(chuàng)建線程,并且判斷線程是否存在,不存在線程,則重新啟動(dòng)線程。實(shí)現(xiàn)另一個(gè)名叫helloCallBack的函數(shù),使用try-except語(yǔ)句捕獲異常,調(diào)用實(shí)例化且設(shè)置好的tkinter窗口,執(zhí)行程序,則顯示框顯示爬取中,同時(shí)取出輸入框中的爬取的故事網(wǎng)站,并把程序的輸出顯示到tkinter產(chǎn)生的窗口中。最終GUI界面如圖1所示,在框中可以輸入故事名,輸入故事網(wǎng)站,就可以實(shí)現(xiàn)對(duì)故事評(píng)論的爬取。

圖1 采集工具界面

3.2 數(shù)據(jù)分析

詞云是對(duì)文本中出現(xiàn)頻率較高的一些詞語(yǔ)進(jìn)行突出的顯示,可以過(guò)濾掉許多無(wú)關(guān)緊要的詞語(yǔ)。實(shí)現(xiàn)詞云圖之前,需要進(jìn)行簡(jiǎn)單的數(shù)據(jù)清洗工作,打開爬取的評(píng)論文本文件,評(píng)論文本包含了用戶名和對(duì)應(yīng)的評(píng)論,其中它們以 分隔,因?yàn)橹皇菍?duì)評(píng)論進(jìn)行詞云圖可視化,因此,寫程序首先實(shí)現(xiàn)數(shù)據(jù)清洗,寫入新的文件中,且只保留評(píng)論。詞云圖程序的實(shí)現(xiàn)需要三個(gè)包,分別是jieba庫(kù)、wordcloud庫(kù)、matplotlib庫(kù),jiaba庫(kù)實(shí)現(xiàn)對(duì)評(píng)論的分詞,wordcloud庫(kù)實(shí)現(xiàn)詞云圖的配置,matplotlib庫(kù)用于顯示詞云圖。

首先,用jieba庫(kù)對(duì)評(píng)論進(jìn)行分詞,因?yàn)榉衷~后的結(jié)果是生成器,因此需要轉(zhuǎn)換成字符串,接著設(shè)置詞云圖,設(shè)置字體為黑體,背景色為白色,最大詞語(yǔ)數(shù)為2000,最大字體為50,隨機(jī)值為42。設(shè)置完后,用generate語(yǔ)句產(chǎn)生詞云圖,用matplotlib庫(kù)顯示詞云圖,并保存詞云圖,程序結(jié)果見(jiàn)圖2。

圖2 數(shù)據(jù)分析結(jié)果

4 結(jié)語(yǔ)

數(shù)字化閱讀的興起,在給兒童帶來(lái)新的閱讀體驗(yàn)的同時(shí),也讓研究人員對(duì)數(shù)字化閱讀行為的研究成為一種必然的趨勢(shì)。本文以研究?jī)和瘮?shù)字化閱讀行為數(shù)據(jù)為主要目的,通過(guò)采用爬蟲技術(shù)爬取有代表性的數(shù)字化閱讀類APP的家長(zhǎng)以及兒童的評(píng)論進(jìn)行采集并分析,對(duì)兒童及家長(zhǎng)的偏好有了較為深入的認(rèn)識(shí),得到了有益的結(jié)論。

猜你喜歡
爬蟲線程云圖
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說(shuō)
利用精密衛(wèi)星星歷繪制GNSS衛(wèi)星云圖
實(shí)時(shí)操作系統(tǒng)mbedOS 互斥量調(diào)度機(jī)制剖析
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
基于國(guó)產(chǎn)化環(huán)境的線程池模型研究與實(shí)現(xiàn)
三維云圖仿真系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
黃強(qiáng)先生作品《雨后松云圖》
云圖青石板
計(jì)算機(jī)中的多線程問(wèn)題