趙嘉文,楊九龍
隨著研究范式的轉(zhuǎn)變和第四范式數(shù)據(jù)密集型科學(xué)時(shí)代[1]的到來,大數(shù)據(jù)科學(xué)逐漸成為科學(xué)研究的重要手段。研究者可以利用數(shù)據(jù)分析平臺(tái)來對(duì)圖書館及圖書館學(xué)的有關(guān)問題進(jìn)行研究。數(shù)字圖書館是學(xué)界持續(xù)研究的熱點(diǎn)[2],通過大數(shù)據(jù)分析,可以從整體性認(rèn)知方面了解公眾對(duì)數(shù)字圖書館的關(guān)注度和利用情況,以指導(dǎo)數(shù)字圖書館的創(chuàng)新管理。
百度指數(shù)(Baidu Index)是以百度海量網(wǎng)民行為數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分享平臺(tái),能夠提供體現(xiàn)我國(guó)網(wǎng)民搜索行為的社會(huì)調(diào)查大數(shù)據(jù)。本研究在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘、分析及可視化應(yīng)用,它包含四個(gè)子模塊:(1)趨勢(shì)研究,用以表現(xiàn)“數(shù)字圖書館”這一關(guān)鍵詞的搜索變化情況,可根據(jù)自定義時(shí)間段和自定義地域,查詢?cè)撽P(guān)鍵詞的搜索指數(shù)和媒體指數(shù);可按搜索來源分開查看整體/移動(dòng)端趨勢(shì);(2)需求圖譜,用來了解網(wǎng)民對(duì)數(shù)字圖書館的需求分布信息和關(guān)鍵詞熱度情況;(3)輿情洞察,用以體現(xiàn)一段時(shí)間內(nèi)的數(shù)字圖書館媒體關(guān)注度以及該時(shí)段內(nèi)關(guān)注度最高的十大熱門新聞;(4)人群畫像,用以顯示搜索數(shù)字圖書館的人群在各地的分布及其性別、年齡分布情況。
谷歌趨勢(shì)(Google Trends)是Google推出的基于搜索日志分析的應(yīng)用產(chǎn)品,可以分析網(wǎng)民的Google海量搜索結(jié)果。在本文中,可用來反映“數(shù)字圖書館”這一關(guān)鍵詞各個(gè)時(shí)期在Google被搜索的頻率和相關(guān)統(tǒng)計(jì)數(shù)據(jù)。在谷歌趨勢(shì)中可以看到“數(shù)字圖書館”搜索量和新聞引用量?jī)刹糠值内厔?shì)記錄圖形,并直觀看到其在Google全球的搜索量和相關(guān)新聞的引用情況變化走勢(shì),有詳細(xì)的城市、國(guó)家/地區(qū)、語言柱狀圖顯示。
可用于小樣本數(shù)據(jù)處理的灰生成方法被廣泛運(yùn)用于科學(xué)研究。張凱等[3]提出一種灰生成計(jì)算方法,用于了解“圖書館”一詞搜索熱度的總體趨勢(shì)。鑒于其方法是將數(shù)據(jù)分為兩組,再運(yùn)用灰生成方法求得均值來進(jìn)行大數(shù)據(jù)的數(shù)據(jù)比較,運(yùn)用bootstrap對(duì)其進(jìn)行改良,過程如下:
有一組數(shù)據(jù)x1,…,xn,…,x2n之前的方法,分成兩組x1,…,xn;xn+1…,x2n;求均值
y2-y1=…
y2/y1=… =>變化趨勢(shì)
用bootstrap重抽樣來估算均值y1和y2考慮對(duì)x1,…,xn(xn+1,…,x2n同理);隨機(jī)選擇整數(shù)i1,…,in(1≤i1,…,in≤n)并進(jìn)行等概率抽取,為所得bootstrap樣本為如此進(jìn)行B次,即i=1,2,…,B;
根據(jù)百度指數(shù)界定的搜索時(shí)間范圍,本文數(shù)據(jù)包括2011年1月1日至2017年5月7日間“數(shù)字圖書館”主題的大數(shù)據(jù)。
該時(shí)段關(guān)注“數(shù)字圖書館”的人群中,男性占80%,女性占20%,男性是女性的4倍(注:該比例可能是百度賬號(hào)默認(rèn)性別為“男”等因素引起)。在年齡分布中,19歲及以下的占1%,20-29歲的占17%,30-39歲的占56%,40-49歲的占24%,50歲及以上的占2%。分析發(fā)現(xiàn),關(guān)注數(shù)字圖書館的人群中男性占比遠(yuǎn)大于女性,這與關(guān)注圖書館的人群比例相吻合[3];年齡分布呈現(xiàn)出“兩頭小,中間大”趨勢(shì),30-39歲的中青年是最主要群體。
圖1-3顯示使用百度搜索的人群的地域分布及排名。其中,區(qū)域排名依次為西南、華東、華北、華中、華南、東北和西北;省份排名依次為重慶、北京、廣東、浙江、江蘇、貴州、上海、湖北、河南、山東;城市排名依次為重慶、北京、上海、貴陽、武漢、廣州、深圳、天津、南京和鄭州,重慶的搜索量約為第二名北京的2倍,后五個(gè)城市差別不大。研究發(fā)現(xiàn),搜索熱度區(qū)域集中在西南和華東;搜索省份及城市熱度排名第一的均為重慶,這與重慶推出“重慶市數(shù)字圖書館”“重慶中小學(xué)數(shù)字圖書館”密不可分[4-8]。重慶利用“互聯(lián)網(wǎng)+閱讀”模式,建成43個(gè)數(shù)字圖書館和586個(gè)數(shù)字農(nóng)家書屋,重慶圖書館數(shù)字資源達(dá)118TB。豐富的數(shù)字資源和濃厚的閱讀氛圍提升了公眾對(duì)數(shù)字圖書館的關(guān)注度和利用率,從而在區(qū)域及城市搜索排名中遙遙領(lǐng)先。
以谷歌的搜索量為數(shù)據(jù)基礎(chǔ),分析2011-2017年同一時(shí)段國(guó)際網(wǎng)民以“digital library”為關(guān)鍵詞在谷歌的搜索情況,以了解公眾對(duì)數(shù)字圖書館的關(guān)注度。從圖4和表1可以看出,全球公眾對(duì)數(shù)字圖書館的關(guān)注度總體不高,巴基斯坦、尼日利亞、馬來西亞分別位居世界地域搜索指數(shù)排名的前三名,發(fā)達(dá)國(guó)家并不如人們想象中那樣,對(duì)數(shù)字圖書館的關(guān)注度更高。這和聯(lián)合國(guó)教科文組織致力于鼓勵(lì)移動(dòng)閱讀,以此幫助欠發(fā)達(dá)地區(qū)的人們縮小馬太效應(yīng)帶來的信息劣勢(shì)密切相關(guān)[9]。巴基斯坦推出數(shù)字圖書館服務(wù),其中HEC國(guó)家數(shù)字圖書館(HEC NationalDigitalLibrary)向巴基斯坦公立和私立大學(xué)研究人員和非營(yíng)利性機(jī)構(gòu)提供研發(fā)幫助,使其可以訪問基于電子(在線)支付的國(guó)際學(xué)術(shù)文獻(xiàn),提高了該國(guó)人員的科研水平。這是該國(guó)“數(shù)字圖書館”搜索量高的主要原因。
圖1 搜索區(qū)域熱圖
圖2 搜索省份熱圖
圖3 搜索城市熱圖
圖4 世界地域搜索指數(shù)排名
表1 世界地域搜索指數(shù)排名
將圖5-6一一對(duì)應(yīng)后發(fā)現(xiàn),媒體指數(shù)和新聞熱點(diǎn)報(bào)道密切相關(guān)。沒有新聞報(bào)道“數(shù)字圖書館”時(shí),媒體指數(shù)持續(xù)為零,這在2015年中至2016年尤為明顯。沒有新聞報(bào)道意味著數(shù)字圖書館在該時(shí)間段內(nèi)處于消費(fèi)以往影響力的階段,這是數(shù)字圖書館推出后,后繼創(chuàng)新不足,導(dǎo)致社會(huì)關(guān)注度不高,不足以形成新聞?dòng)绊懙木置妗S纱丝梢?,要讓更多的人知曉?shù)字圖書館并利用其服務(wù),新聞媒體宣傳必不可少。這也從側(cè)面反映出,在實(shí)際工作中,數(shù)字圖書館缺乏手段去吸引大眾注意力,媒體宣傳工作不盡如人意。沒有新聞?dòng)绊戇€反映了數(shù)字圖書館的社會(huì)關(guān)注度不高,工作創(chuàng)新力度不足。圖6尤為明顯地反映了:只有圖書館有實(shí)際作為,產(chǎn)生了實(shí)際價(jià)值,才有新聞報(bào)道的必要性。因此,需要拓廣邊界,使圖書館產(chǎn)生與其他組織的聯(lián)系,提高關(guān)注度,從而提高公眾對(duì)數(shù)字圖書館資源及服務(wù)的利用率。
圖5 數(shù)字圖書館新聞監(jiān)測(cè)趨勢(shì)圖
圖6 數(shù)字圖書館輿情新聞關(guān)聯(lián)圖
以我國(guó)網(wǎng)民的百度搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞“數(shù)字圖書館”為統(tǒng)計(jì)對(duì)象,以2011年1月1日至2017年5月7日為時(shí)間段,計(jì)算百度網(wǎng)頁搜索中相關(guān)搜索頻次的加權(quán),圖7-圖9反映了用戶對(duì)“數(shù)字圖書館”搜索的關(guān)注度及其持續(xù)變化情況。2013年前搜索量呈低迷走勢(shì),從2013年開始搜索量明顯增長(zhǎng),這與2013年公共圖書館宣傳和普及數(shù)字圖書館有關(guān)。2016年開始搜索量迅猛增長(zhǎng),移動(dòng)終端增長(zhǎng)尤甚,反映了隨著智能手機(jī)的普及和網(wǎng)絡(luò)費(fèi)用的降低,公眾可以便利地使用數(shù)字圖書館及其提供的免費(fèi)資源。值得注意的是,在趨勢(shì)圖中,每當(dāng)臨近春節(jié),搜索量有明顯的波峰下降。究其原因,人們的搜索習(xí)慣和閱讀習(xí)慣深受“春節(jié)效應(yīng)”影響:一方面人們主要進(jìn)行拜年、娛樂等活動(dòng),減少了搜索;另一方面,許多人回到比較偏遠(yuǎn)的家鄉(xiāng),網(wǎng)絡(luò)不太發(fā)達(dá),也導(dǎo)致搜索量有所下降。
圖7 全國(guó)整體趨勢(shì)(2011-01-01至2017-05-07)
圖8 全國(guó)PC端趨勢(shì)(2011-01-01至2017-05-07)
圖9 全國(guó)移動(dòng)終端趨勢(shì)(2011-01-01至2017-05-07)
以國(guó)際網(wǎng)民的谷歌搜索量為數(shù)據(jù)基礎(chǔ),以關(guān)鍵詞“digitallibrary”為統(tǒng)計(jì)對(duì)象,時(shí)間段設(shè)為2011年1月1日至2017年5月7日,分析世界所有區(qū)域的網(wǎng)民對(duì)數(shù)字圖書館的關(guān)注度及其波動(dòng)趨勢(shì)。從圖10可以看出,近7年全球公眾對(duì)數(shù)字圖書館的關(guān)注度總體呈平穩(wěn)趨勢(shì),波動(dòng)緩和。
圖11為2013年11月1日至2017年5月7日間“百度知道”中關(guān)于“數(shù)字圖書館”的搜索熱度排名。其中,和“數(shù)字圖書館”有關(guān)的前10條提問均有9個(gè)回答,搜索內(nèi)容涉及數(shù)字圖書館的特點(diǎn)、個(gè)人數(shù)字圖書館的使用、數(shù)字圖書館的訪問權(quán)限、下載資源權(quán)限等。這說明公眾希望通過問答式網(wǎng)絡(luò)提問或搜索,獲取各類數(shù)字圖書館免費(fèi)資料,以滿足自己的信息需求。
圖10 谷歌數(shù)字圖書館關(guān)鍵詞熱度趨勢(shì)
圖11“百度知道”中數(shù)字圖書館的搜索熱度排名
圖12顯示“數(shù)字圖書館”與相關(guān)詞的相關(guān)度,從圓心由內(nèi)向外依次表示相關(guān)度的強(qiáng)弱關(guān)系。最靠近圓心關(guān)鍵詞“數(shù)字圖書館”的4個(gè)詞“超星”“重慶市中小學(xué)數(shù)字圖書館”“數(shù)字圖書館系統(tǒng)”“重慶”為強(qiáng)相關(guān);“重慶數(shù)字圖書館”“超星移動(dòng)圖書館”“中國(guó)數(shù)字圖書館”“數(shù)字圖書館平臺(tái)”“中小學(xué)數(shù)字圖書館”“中小學(xué)生數(shù)字圖書館”“中國(guó)數(shù)字圖書館網(wǎng)站”“超星數(shù)字圖書館”“在線圖書館”9個(gè)詞為相關(guān);“電子圖書館”等10個(gè)詞為弱相關(guān)。相關(guān)性分析發(fā)現(xiàn),公眾對(duì)超星數(shù)字圖書館和重慶中小學(xué)數(shù)字圖書館抱有強(qiáng)烈的興趣,這與二者的廣泛宣傳和自身豐富的功能密不可分。
圖12 詞匯熱圖及相關(guān)性
表2是通過爬蟲軟件從百度指數(shù)曲線上抓取的網(wǎng)民對(duì)“數(shù)字圖書館”的周平均搜索指數(shù)分布。抓取時(shí)長(zhǎng)共334周,按照第一行第一列、第二列……,第二行第一列、第二列……,的順序依次分布,直到表格結(jié)束。利用公式(1)計(jì)算表2中的數(shù)據(jù),可得到y(tǒng)1=153.1,y2=364.4。比較發(fā)現(xiàn)y1<y2,且y2-y1=211.3,說明網(wǎng)民每周搜索指數(shù)上漲較為猛烈,這與數(shù)字時(shí)代的進(jìn)步密不可分。y2/y1=2.38意味著搜索量在近7年內(nèi)上升238%。研究發(fā)現(xiàn),公眾對(duì)數(shù)字圖書館從基本不關(guān)注不了解逐漸轉(zhuǎn)變?yōu)椴糠至私猓谔厥鈺r(shí)間節(jié)點(diǎn)關(guān)注度更有較明顯的上升。這一結(jié)論與2.4中的熱詞變化趨勢(shì)分析結(jié)果較為一致。
鑒于公眾知識(shí)和認(rèn)知水平的影響因素差異,選取“數(shù)字圖書館”的相關(guān)詞“電子圖書館”,收集相同時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行對(duì)比分析。其中,“電子圖書館”搜索人群年齡分布比例為:19歲及以下占4%,20-29歲占28%,30-39歲占46%,40-49歲17%,50歲及以上占5%;性別上,男:女為81:19,與“數(shù)字圖書館”的男女比例(80:20)基本持平。由此可見,搜索“數(shù)字圖書館”和“電子圖書館”的網(wǎng)民總體相同。圖13可見,2012年前,公眾主要通過搜索“電子圖書館”來獲取有關(guān)數(shù)字圖書館的信息,隨著圖書館宣傳的加強(qiáng)和公眾認(rèn)知水平的提高,“數(shù)字圖書館”概念逐漸取代“電子圖書館”概念,公眾逐漸接受數(shù)字圖書館這一說法。這與超星數(shù)字圖書館等機(jī)構(gòu)的宣傳有一定的關(guān)聯(lián)。
(1)利用移動(dòng)平臺(tái)延伸數(shù)字圖書館服務(wù)。移動(dòng)平臺(tái)的出現(xiàn)使獲取信息資源的成本大幅降低。近7年的調(diào)查數(shù)據(jù)表明:公眾通過網(wǎng)絡(luò)特別是在移動(dòng)終端上搜索數(shù)字圖書館相關(guān)信息并利用其資源與服務(wù)的趨勢(shì)顯著增長(zhǎng)。因此,圖書館要加強(qiáng)公眾信息素養(yǎng)教育,尤其是移動(dòng)環(huán)境下數(shù)字圖書館資源的檢索、利用、保存、分享等技能。比如,微信推出的“小程序”不需要下載安裝,只需要在微信內(nèi)嵌入就可以使用的移動(dòng)終端應(yīng)用。數(shù)字圖書館可以借助這個(gè)平臺(tái)不斷推廣優(yōu)質(zhì)服務(wù),將用戶與服務(wù)無縫對(duì)接,使用戶方便快捷地使用圖書館資源。
表2 每周搜索次數(shù)(2011-01-01至2017-05-07)
圖13 整體趨勢(shì)分析對(duì)比
(2)注重?cái)?shù)字圖書館的宣傳報(bào)道。調(diào)查表明數(shù)字圖書館的公眾知曉度不夠高,影響力不強(qiáng),利用普及性偏低。比如,國(guó)內(nèi)外公眾對(duì)關(guān)鍵詞“數(shù)字圖書館”“digitallibrary”的搜索量均不高;而我國(guó)公眾對(duì)關(guān)鍵詞“數(shù)字圖書館”的搜索量雖然不斷提高,但周平均搜索次數(shù)仍未達(dá)到1000次。研究發(fā)現(xiàn),在有數(shù)字圖書館宣傳報(bào)道的時(shí)間里,搜索量顯著增長(zhǎng),這表明宣傳報(bào)道是推廣數(shù)字圖書館的有效手段。此外,要注意宣傳內(nèi)容和方法,并推出創(chuàng)新服務(wù)。2010年重慶推出重慶市中小學(xué)數(shù)字圖書館(http://www.cqslib.org),2014年推出“抗戰(zhàn)大后方3D數(shù)字圖書館”,隨之而來的是網(wǎng)民搜索量和關(guān)注度的提升。再如,巴基斯坦推出“HEC National Digital Library”后,公眾可以在數(shù)字圖書館上閱讀烏爾都語小說和伊斯蘭宗教書籍,科研人員也可以查閱學(xué)科文獻(xiàn),使巴基斯坦科研工作者的論文在7年內(nèi)增加近10倍;在谷歌搜索中,“數(shù)字圖書館”這一關(guān)鍵詞的搜索量,巴基斯坦位居世界第一。這些數(shù)據(jù)表明,數(shù)字圖書館進(jìn)行創(chuàng)新服務(wù)能得到公眾的認(rèn)可和關(guān)注。
(3)數(shù)字圖書館的發(fā)展重心應(yīng)是改變公眾對(duì)數(shù)字圖書館的“刻板印象”。長(zhǎng)期以來,數(shù)字圖書館在公眾心中的形象主要是提供電子刊物這類信息資源,公眾對(duì)搜索引擎的信賴及其搜索慣性使他們并未養(yǎng)成利用數(shù)字圖書館獲取信息資源的習(xí)慣。圖書館提供的數(shù)字資源相較于一般的搜索引擎更具準(zhǔn)確性、專業(yè)性、科學(xué)性,數(shù)字圖書館是甄別有用信息、避免垃圾信息和有害信息的重要途徑?!拔簞t西事件”爆發(fā)后,百度等搜索引擎因競(jìng)價(jià)排名而提供虛假、錯(cuò)誤信息,導(dǎo)致其社會(huì)信任度下降[10-11]。圖書館應(yīng)積極承擔(dān)社會(huì)責(zé)任,改變公眾的認(rèn)知和信息尋求習(xí)慣,使數(shù)字圖書館資源更有效地為公眾利用。
本文主要通過百度指數(shù)、谷歌趨勢(shì)的可視化圖形結(jié)果及相關(guān)數(shù)據(jù),展示國(guó)內(nèi)外對(duì)“數(shù)字圖書館”的網(wǎng)絡(luò)搜索情況,并通過對(duì)其中關(guān)鍵數(shù)據(jù)的挖掘分析,提出數(shù)字圖書館發(fā)展的針對(duì)性建議。不過,文章對(duì)國(guó)外大數(shù)據(jù)挖掘和調(diào)查不夠深入,僅僅進(jìn)行了世界地域搜索指數(shù)排名和關(guān)鍵詞熱度趨勢(shì)分析,筆者將在下一步研究中深化國(guó)內(nèi)外熱詞變化趨勢(shì)的對(duì)比。
[1]HeyT,TansleyS,TolleK.Thefourthparadigm[M].Redmond,Wash.:MicrosoftPress,2009.
[2]蘇新寧.大數(shù)據(jù)時(shí)代數(shù)字圖書館面臨的機(jī)遇和挑戰(zhàn)[J].中國(guó)圖書館學(xué)報(bào),2015(6):4-12.
[3]張凱,郭健棲.圖書館主題大數(shù)據(jù)調(diào)查及前瞻性構(gòu)想——基于百度指數(shù)的分析[J].中國(guó)圖書館學(xué)報(bào),2016(6):51-66.
[4]黃勇.重慶圖書館特色館藏建設(shè)項(xiàng)目分析——以抗戰(zhàn)大后方歷史全景數(shù)字虛擬化圖書館項(xiàng)目為例[J].內(nèi)蒙古科技與經(jīng)濟(jì),2016(22):110-111.
[5]周怡悅.數(shù)字圖書館推廣工程背景下數(shù)字資源的共建共享探析——以重慶圖書館為例[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2016(10):95-97.
[6]譚瑋.新媒體環(huán)境下地市級(jí)數(shù)字圖書館在區(qū)域數(shù)字文化服務(wù)中的探索與實(shí)踐——以重慶市北碚區(qū)數(shù)字圖書館為例[C]//中國(guó)西部公共圖書館聯(lián)合會(huì).中國(guó)西部公共圖書館聯(lián)合會(huì)第二屆(2015)年會(huì)暨學(xué)術(shù)討論會(huì)會(huì)議論文集(三).[S.l.]:中國(guó)西部公共圖書館聯(lián)合會(huì),2015:8.
[7]楊勇,張必蘭.重慶市高校數(shù)字圖書館建設(shè)實(shí)踐[J].重慶工商大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(6):571-574.
[8]重慶數(shù)字圖書館開通[J].圖書館理論與實(shí)踐,2009(11):77.
[9]Mark West,Han Ei Chen.移動(dòng)時(shí)代的閱讀——發(fā)展中國(guó)家移動(dòng)閱讀研究[J].沈浠琳,薛玉貞,王晨宇,譯.圖書館論壇,2015(9):4-52.
[10]方超,張園.從媒介批評(píng)視角看“魏則西”事件中的“百度”[J].傳播與版權(quán),2016(8):90-92.
[11]尹丹丹.論網(wǎng)絡(luò)環(huán)境下的媒介批評(píng)——以魏則西事件中的百度為例[J].傳播與版權(quán),2016(8):104-106.