王曉美
(中原工學(xué)院圖書館,河南 鄭州 450007)
大數(shù)據(jù)環(huán)境下高校網(wǎng)絡(luò)導(dǎo)讀服務(wù)新走向
王曉美
(中原工學(xué)院圖書館,河南 鄭州 450007)
本文簡述了大數(shù)據(jù)的歷史、基本概念、特點、發(fā)展方向,探討了在大數(shù)據(jù)時代網(wǎng)絡(luò)導(dǎo)讀服務(wù)問題面臨著巨大的機遇與挑戰(zhàn),最后,提出了大數(shù)據(jù)時代網(wǎng)絡(luò)導(dǎo)讀如何利用大數(shù)據(jù)技術(shù)進行創(chuàng)新,從而提高圖書館的核心競爭力。
大數(shù)據(jù);網(wǎng)絡(luò)導(dǎo)讀
1.1 大數(shù)據(jù)的歷史
全球知名咨詢公司麥肯錫第一個提出大時代來臨,他稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運用,預(yù)示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。[1]”生物學(xué)、物理學(xué)、環(huán)境生態(tài)學(xué)、金融、通訊、軍事等領(lǐng)域應(yīng)用大數(shù)據(jù)已久,隨著互聯(lián)網(wǎng)的發(fā)展壯大,大數(shù)據(jù)的價值也逐漸被人們關(guān)注。大數(shù)據(jù)是云計算、物聯(lián)網(wǎng)之后IT行業(yè)又一大顛覆性的技術(shù)革命。維克托·邁爾·舍恩伯格在《大數(shù)據(jù)時代》中前瞻性地指出,大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。
1.2 大數(shù)據(jù)的概念
目前大數(shù)據(jù)作為抽象的概念存在。著云臺的分析師團隊認(rèn)為,一個公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的表現(xiàn)形式,這些數(shù)據(jù)需要有強大的硬件、軟件、時間、金錢來支撐分析過程。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
互聯(lián)網(wǎng)時代產(chǎn)生的大數(shù)據(jù)理解為:互聯(lián)網(wǎng)公司在日常運營中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。數(shù)據(jù)的規(guī)模的龐大,不能用G或T來衡量。
1.3 大數(shù)據(jù)的特點
大數(shù)據(jù)不僅是數(shù)據(jù)的龐大,用專業(yè)術(shù)語來解釋共有以下四個特征:
1.3.1 海量數(shù)據(jù)。大數(shù)據(jù)的起始計量單位至少是P(1 000個T)、E(100萬個T)或Z(10億個T)[2]。大數(shù)據(jù)能計算出來嗎?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生2940億封郵件,發(fā)出200萬個社區(qū)帖子(相當(dāng)于《時代》雜志770年的文字量),全部內(nèi)容可以刻滿1.68億張DVD。
1.3.2 類型多雜。包括blog、Email、音頻、視頻、圖片、地理位置信息等等,IBM研究稱每一天,全世界會上傳超過5億張圖片,每分鐘就有20小時時長的視頻被分享。
1.3.3 利用價值小。如隨著云計算、物聯(lián)網(wǎng)、社交網(wǎng)、車聯(lián)網(wǎng)、傳感網(wǎng)的廣泛應(yīng)用,正常生活已離不開信息,信息量大,但利用價值很小,如何利用強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”,是大數(shù)據(jù)時代亟待解決的難題。
1.3.4 時效性高。這是大數(shù)據(jù)區(qū)的最顯著特征。IBM的研究稱,整個人類文明數(shù)據(jù)90%是過去兩年內(nèi)產(chǎn)生。十年后,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。然而,即使是人們每天創(chuàng)造的全部信息——包括語音通話、電子郵件和信息在內(nèi)的各種通信,以及上傳的全部圖片、視頻與音樂,其信息量也無法匹及每一天所創(chuàng)造出的關(guān)于人們自身的數(shù)字信息量。
1.4 大數(shù)據(jù)的發(fā)展方向
我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級階段,而隨著技術(shù)成熟,我們的設(shè)備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通??萍嫉倪M步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務(wù)之上的商業(yè)投資也增長了整整50%,達(dá)到了4 000億美元。大數(shù)據(jù)技術(shù)與應(yīng)用逐漸滲透在日常生活的方方面面,不遠(yuǎn)的將來我們將迎來真正的智能電網(wǎng)、智慧交通、智慧醫(yī)療、智慧環(huán)保、智慧城市。谷歌通過搜索行為預(yù)測流感爆發(fā)等例子已經(jīng)證明了大數(shù)據(jù)影響社會建設(shè)達(dá)到了驚人的地步。大數(shù)據(jù)不僅是美國白宮官網(wǎng)重點新聞報道,也成為互聯(lián)網(wǎng)主題講座沙龍中熱議對象,被國金證券、國泰君安、銀河證券等寫進了投資推薦報告。《紐約時報》稱,“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,基于數(shù)據(jù)和分析將代替經(jīng)驗和直覺。
2.1 加快導(dǎo)讀服務(wù)技術(shù)的變革
各類數(shù)據(jù)的迅速增長對傳統(tǒng)的導(dǎo)讀服務(wù)能力帶來了壓力,傳統(tǒng)的導(dǎo)讀服務(wù)主要靠圖書館員已有的知識和經(jīng)驗推送服務(wù),面對數(shù)量巨大,類型多樣的非結(jié)構(gòu)化大數(shù)據(jù),導(dǎo)讀服務(wù)需要依靠設(shè)計合理、分級存儲能力強大的計算機系統(tǒng)來支撐導(dǎo)讀推送的前提準(zhǔn)備工作。因此,圖書館建設(shè)的硬件成本越來越大,服務(wù)設(shè)施選擇趨向大規(guī)模計算機集群,這對支持非結(jié)構(gòu)化數(shù)據(jù)分析與存儲設(shè)施提出了很高要求。
2.2 推動導(dǎo)讀服務(wù)模式創(chuàng)新
導(dǎo)讀服務(wù)是圖書館服務(wù)的創(chuàng)新模式之一,傳統(tǒng)的導(dǎo)讀是根據(jù)館員的個人喜好推薦一些閱讀書目。大數(shù)據(jù)時代,數(shù)據(jù)成本的下降造成了數(shù)據(jù)量的迅猛增長,數(shù)據(jù)類型和數(shù)據(jù)來源的多樣化加速了非結(jié)構(gòu)化數(shù)據(jù)的增加,傳統(tǒng)的導(dǎo)讀服務(wù)常用的信息收集、整理、分析與提供利用的服務(wù)模式已經(jīng)不能滿足用戶需求。數(shù)據(jù)分析正在向廣度、深度發(fā)展,信息服務(wù)正在向個性化、嵌入式的科研創(chuàng)新合作交互型知識服務(wù)模式發(fā)展。大數(shù)據(jù)環(huán)境下,導(dǎo)讀服務(wù)不僅要收集、整理、分析潛在的用戶信息和結(jié)構(gòu),更要時刻關(guān)注用戶的特征和需求,及時的根據(jù)統(tǒng)計數(shù)據(jù)提供個性化的服務(wù),投其所好使圖書館成為真正為每個人喜歡的知識服務(wù)部門。
2.3 促進導(dǎo)讀服務(wù)能力提高
用戶數(shù)據(jù)是導(dǎo)讀服務(wù)的重要資產(chǎn),導(dǎo)讀服務(wù)不再是提供簡單的閱讀和信息服務(wù),而是運用大數(shù)據(jù)技術(shù)挖掘信息中的數(shù)據(jù)和知識內(nèi)容,為科學(xué)研究提供創(chuàng)新所需的數(shù)據(jù)和知識。大數(shù)據(jù)時代,數(shù)據(jù)已經(jīng)成為各個行業(yè)的重要資產(chǎn),成為盈利和創(chuàng)新發(fā)展的重要因素,大數(shù)據(jù)的運用將成為未來企業(yè)競爭和決策與科學(xué)研究的重要參考條件,特別是依賴數(shù)據(jù)分析提供服務(wù)的機構(gòu),這些數(shù)據(jù)可以幫助導(dǎo)讀服務(wù)提供更準(zhǔn)確,更新的知識,甚至新的思路并從中獲取新的洞察力,從而為用戶決策和研究創(chuàng)新提供智力支持。導(dǎo)讀服務(wù)自身也在大數(shù)據(jù)的開發(fā)與利用中提高了服務(wù)能力。
2.4 推動圖書館服務(wù)跨界合作
導(dǎo)讀服務(wù)要運用大數(shù)據(jù)技術(shù)具有很高難度,數(shù)據(jù)的來源、挖掘、分析、整理、加工、利用需要專業(yè)技術(shù)人員來實現(xiàn),支持大數(shù)據(jù)運行的配套設(shè)施也讓圖書館無力承擔(dān)。部分實力雄厚的圖書館可以獨立實現(xiàn)這些難題,但是大部分圖書館還是中小型規(guī)模,資金、能力、人才有限,有的甚至還沒建設(shè)導(dǎo)讀服務(wù)體系,因此,利用外部力量幫助提供數(shù)據(jù)信息,也是一種實際的方法,就像圖書加工外包業(yè)務(wù)已成熟一樣,同社會信息類機構(gòu)大力合作,整個數(shù)據(jù)分析和處理需要“云計算”技術(shù)平臺的支撐和大型數(shù)據(jù)服務(wù)器集群支持,這是任何一個圖書館都無法實現(xiàn)的問題,因此,服務(wù)的提升依賴于社會力量的支持,帶動了整個信息服務(wù)行業(yè)的發(fā)展。
當(dāng)前圖書館為用戶提供豐富的導(dǎo)航條目,但圖書館導(dǎo)讀條目局限性很多,如能夠豐富這些條目,則需大數(shù)據(jù)分析結(jié)果支撐,抓住問題關(guān)鍵點,不僅能讓導(dǎo)讀體系更具人性化,還能提高文件檢索利用率和讀者閱讀率。結(jié)合一些實際例子,筆者對網(wǎng)絡(luò)導(dǎo)讀體系建設(shè)提出如下建議。
3.1 管理格局的變更
圖書館是提供科研文獻信息的主要部門,傳統(tǒng)的職能部門不能滿足大數(shù)據(jù)時代的要求,因此,成立專門的數(shù)據(jù)管理部門與機構(gòu),制定數(shù)據(jù)管理政策、統(tǒng)一的標(biāo)準(zhǔn)及共享平臺,建立良好的運行機制,加強校內(nèi)、外各部門的協(xié)調(diào)工作。如MIT、弗吉尼亞大學(xué)及康奈爾大學(xué)圖書館成立了專門的研究數(shù)據(jù)管理服務(wù)工作組。負(fù)責(zé)研究數(shù)據(jù)知識庫的評估、管理、推介、導(dǎo)航服務(wù)等。
3.2 導(dǎo)讀服務(wù)準(zhǔn)確定位
圖書館作為信息服務(wù)部門必然要對全校師生進行導(dǎo)讀[3]。如何準(zhǔn)確定位,依賴于大數(shù)據(jù)環(huán)境下發(fā)展的新型信息資源媒體,如構(gòu)建在Web2.0技術(shù)上的、允許用戶創(chuàng)建交換信息內(nèi)容的維基百科、博客、微博、社交網(wǎng)站等等,這些媒體依托于網(wǎng)絡(luò)技術(shù),以用戶為中心,是人們信息交流的重要途徑,通過大數(shù)據(jù)分析技術(shù)很容易收集和分析公眾的喜好、預(yù)測未來發(fā)展、研究社會現(xiàn)象。因此,重視這類信息的結(jié)合能夠準(zhǔn)確定位導(dǎo)讀服務(wù)對象喜好,根據(jù)喜好建設(shè)導(dǎo)讀平臺,逐級分類推送,進而提高了讀者閱讀率。
3.3 導(dǎo)讀條目準(zhǔn)確推送
電影票房高低和導(dǎo)演努力有關(guān),同樣導(dǎo)讀條目受歡迎程度和導(dǎo)讀員推送文獻有關(guān),如何提高文獻關(guān)注度是關(guān)鍵[4]。例如,定期關(guān)注百度指數(shù),郭敬明導(dǎo)演《小時代》,票房過億,在采訪中坦言會利用百度指數(shù)收集、分析粉絲數(shù)據(jù)。如分析受眾的年齡、性別、教育背景、地域分布等等通過對普通大眾的數(shù)據(jù)采集,郭敬明逐漸找準(zhǔn)了觀眾的需求.痛點,并開始利用到電影拍攝中。
未來圖書館的核心資產(chǎn)也在于對大數(shù)據(jù)的綜合掌握,如利用百度指數(shù)搜索《紅樓夢》,地域關(guān)鍵詞選擇河南鄭州,就會顯示近三十天搜索指數(shù),周六周日顯示為搜索高峰點。查看需求圖譜會顯示需求變化,近三十天中新紅樓夢,紅樓夢人物、小說下載、打包下載等呈現(xiàn)上升需求。利用這些數(shù)據(jù),導(dǎo)讀員可根據(jù)用戶需求來選擇何時推送能提高點擊率,選擇何種版本和何種形式能提高閱讀率。
3.4 加快云服務(wù)臺建設(shè)
數(shù)字圖書館建設(shè)的重點逐漸向云服務(wù)方面發(fā)展,依托云計算技術(shù)的成熟和應(yīng)用,為讀者提供個性化閱讀服務(wù)將更加便捷。圖書館導(dǎo)讀服務(wù)的提高依賴于大數(shù)據(jù)分析結(jié)果,大數(shù)據(jù)分析結(jié)果依賴于云計算為基礎(chǔ)的數(shù)字圖書館服務(wù)平臺。大數(shù)據(jù)分析技術(shù)與工具的應(yīng)用對圖書館人才需求提出更高的要求。例如,聚類分析、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)集成、數(shù)據(jù)融合等都是未來研究的重點。
IBM執(zhí)行總裁羅睿蘭認(rèn)為,“數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源?!币环昼妰?nèi)所產(chǎn)生的10萬微博數(shù)據(jù)及600萬社交網(wǎng)絡(luò)數(shù)據(jù)堪稱石油和黃金。因為當(dāng)你在微博上抒情或者發(fā)議論時,華爾街的斂財高手們卻挖掘到了免費的“數(shù)據(jù)財富”,先人一步用其預(yù)判市場走勢,而且取得了不俗的收益。例如,華爾街根據(jù)民眾情緒拋售股票;對沖基金依據(jù)購物網(wǎng)站的顧客評論,分析企業(yè)產(chǎn)品銷售狀況;銀行根據(jù)求職網(wǎng)站的崗位數(shù)量,推斷就業(yè)率;投資機構(gòu)搜集并分析上市企業(yè)聲明,從中尋找破產(chǎn)的蛛絲馬跡;美國疾病控制和預(yù)防中心依據(jù)網(wǎng)民搜索,分析全球范圍內(nèi)流感等病疫的傳播狀況;美國總統(tǒng)奧巴馬的競選團隊依據(jù)選民的微博,實時分析選民對總統(tǒng)競選人的喜好[5]。
一個智慧型圖書館應(yīng)該未雨綢繆,為完善網(wǎng)絡(luò)導(dǎo)讀體系做好準(zhǔn)備。哈佛大學(xué)社會學(xué)教授加里·金說:“這是一場革命,龐大的數(shù)據(jù)資源使得各個領(lǐng)域開始了量化進程,無論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開始這種進程?!?/p>
[1][英]維克托·邁爾-舍恩伯格.大數(shù)據(jù)時代[M].杭州:浙江人民出版社.2012.
[2]毛曉燕.大數(shù)據(jù)環(huán)境下圖書館信息服務(wù)走向分析[J].圖書館工作與研究,2014(3):72.
[3]姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2014(3):54.
[4]劉哲.高校圖書館網(wǎng)絡(luò)導(dǎo)讀服務(wù)現(xiàn)狀研究[J].圖書館論壇,2013(9):99-100.
[5][英]維克托·邁爾-舍恩伯格.大數(shù)據(jù)時代[M].杭州,浙江人民出版社.2012.
G258.6
A
1671-0037(2014)09-54-2
王曉美(1982-),女,碩士研究生,助理館員,研究方向:信息咨詢