陳亮
(上海圖書館上海科學(xué)技術(shù)情報研究所,上海200030)
當(dāng)前,人工智能、無線網(wǎng)絡(luò)和大數(shù)據(jù)均獲得了極為快速的發(fā)展,人們的工作、生活均發(fā)生了一定改變。在大數(shù)據(jù)等先進技術(shù)的影響下,豐富的網(wǎng)絡(luò)資源得到了整合與優(yōu)化配置,無論信息的更新與傳遞速度有多快,人們總能夠便捷地通過各種途徑獲得所需要的信息和資料。傳統(tǒng)圖書館的發(fā)展在此背景下受到了越來越嚴峻的挑戰(zhàn),作為文獻信息的中心,圖書館應(yīng)該如何將海量的、龐雜的網(wǎng)絡(luò)信息進行整合與精準推送成為其必須要思考的問題。
基于用戶行為的精準化推送服務(wù)平臺在構(gòu)建時必須要將大數(shù)據(jù)作為基礎(chǔ)的理論,在大數(shù)據(jù)的支撐下實現(xiàn)復(fù)雜網(wǎng)絡(luò)資源的整合與優(yōu)化,繼而滿足大眾的個性化信息資源獲取與利用需求。
大數(shù)據(jù)亦稱為巨量資料,主要是指其所涉及的資料量的規(guī)模十分巨大,已經(jīng)無法通過目前所能夠接觸和應(yīng)用的主流軟件工具進行測量。與此同時,大數(shù)據(jù)亦是只在合理的時間內(nèi)通過對先進技術(shù)加以科學(xué)應(yīng)用后,促使人們更加便捷的獲取、管理與處理的資訊信息。
大數(shù)據(jù)的特點主要包括四個方面,即大量(Volume)、高速(Velocity)、多樣(Variety)和價值(Value)。其中,大量主要是指大數(shù)據(jù)中存在著巨大體量的數(shù)據(jù),能夠從TB的級別升級到PB的級別;高速則主要是指數(shù)據(jù)的處理速度比較快,基本上為1s定律;多樣主要是指,大數(shù)據(jù)的類型十分繁多,包括網(wǎng)絡(luò)視頻、網(wǎng)絡(luò)圖片、網(wǎng)絡(luò)日志、網(wǎng)絡(luò)地理位置信息等內(nèi)容;價值主要是指大數(shù)據(jù)具有比較低的價值密度,亦具有比較高的商業(yè)價值[1]。圖書館基于用戶行為并應(yīng)用大數(shù)據(jù)技術(shù),將能夠更加科學(xué)地構(gòu)建并運行精準化推送服務(wù)平臺,為大眾創(chuàng)造更多便利的獲取資料信息的條件。
圖書館中資源發(fā)現(xiàn)過程與揭示過程均與元數(shù)據(jù)之間存在密切的關(guān)聯(lián),建設(shè)元數(shù)據(jù)庫即元數(shù)據(jù)倉儲系統(tǒng),更加有有利于整合并存儲各類型的元數(shù)據(jù),為大眾進行一站式檢索提供便利條件?;谟脩粜袨榈木珳驶扑头?wù)平臺構(gòu)建中進行元數(shù)據(jù)庫的建設(shè),其數(shù)據(jù)的采編具有工作量大、長期等特點,且來源比較分散,主要包括互聯(lián)網(wǎng)、購置的電子數(shù)據(jù)庫和館藏數(shù)據(jù)等。
基于用戶行為的精準化推送服務(wù)平臺進行個人特征數(shù)據(jù)庫的建設(shè)和完善,將可以進一步提高個性化服務(wù)的質(zhì)量,保證數(shù)據(jù)具有更高的精準性。創(chuàng)建個人特征數(shù)據(jù)庫時必須要求初次使用該平臺的用戶進行信息錄入,包括姓名、身份證號、職業(yè)等,圖書館內(nèi)部平臺便根據(jù)該部分信息進行用戶注冊,將相同類別的用戶進行劃分,從而形成集成注冊用戶的資料信息痕跡[2]。在此基礎(chǔ)上,完善個人特征數(shù)據(jù)庫時必須要對用戶個體的閱讀行為加以分析,包括參與活動情況、借閱歷史、檢索方向等內(nèi)容,以便更進一步地挖掘用戶個性化需求,保證精準化推送服務(wù)平臺的相關(guān)資料信息與需求之間產(chǎn)生更高的密切度。
基于用戶行為的精準化推送服務(wù)平臺屬于現(xiàn)今圖書館個性化服務(wù)的重要組成部分,其主要根據(jù)用戶的個人特征數(shù)據(jù)庫相關(guān)信息對用戶的個性化偏好、需求等做出準確的分析,并且科學(xué)地應(yīng)用數(shù)據(jù)挖掘技術(shù)準確向用戶推送相關(guān)資料信息。在此方面,圖書館必須要進行精準推送模型的建設(shè)。精準推送模式主要包括基于相關(guān)用戶文獻推送和基于相關(guān)文獻的推送兩種[3]。以第二種為例進行精準推送模型的建設(shè),首先要進行題目、關(guān)鍵詞、摘要、期刊等相關(guān)影響因素的選定;其次要對評估值P進行計算,P值越大代表各項影響因素與用戶需求信息的相似度越高,該P值的計算公式為式(1);最后,進行各項影響因素得分的計算。
該公式當(dāng)中,ωi代表第i項影響精準化推送服務(wù)的因素權(quán)值,F(xiàn)i則代表了第i項影響精準化推送服務(wù)因素的得分。根據(jù)上述計算最終可以得出相對精準的,符合用戶需求的,基于大數(shù)據(jù)技術(shù)的文檔。
圖書館進行基于用戶行為的精準化推送服務(wù)平臺構(gòu)建后,必須首先確定開發(fā)平臺方能夠展開進一步的實行。該平臺當(dāng)中應(yīng)該包括基于主題的網(wǎng)絡(luò)爬蟲技術(shù)數(shù)據(jù)采集程序、基于移動端的應(yīng)用系統(tǒng)和基于PC段的WEB應(yīng)用系統(tǒng)。同時,該平臺需要將Boot Strap不同終端良好兼容性、Easy UI多控件和豐富功能等長處進行有效結(jié)合,繼而確定采用C#開發(fā)語言以及微軟開發(fā)的SQL Server 2008 R2數(shù)據(jù)庫作為整個精準化推送服務(wù)平臺實現(xiàn)的平臺支持[4]。
圖書館基于用戶行為的精準化推送服務(wù)平臺實現(xiàn)中亦需要展開功能設(shè)計。該平臺的使用人員包括了圖書館館員以及面向社會各界的大眾,其中,圖書館館員主要負責(zé)審核注冊用戶信息,統(tǒng)計系統(tǒng)自動采集數(shù)據(jù)并分析、提取精準化推送信息。社會各界大眾則需要通過PC段的WEB應(yīng)用或者移動端應(yīng)用進行資料、信息的瀏覽、下載、收藏等。整個服務(wù)平臺的功能基本上如圖1所示:
圖1 基于用戶行為的精準化推送服務(wù)平臺功能
在上述功能當(dāng)中,應(yīng)用服務(wù)平臺服務(wù)的對象為普通大眾,審核管理平臺面向的為圖書館館員,數(shù)據(jù)采集服務(wù)為一組數(shù)據(jù)采集程序,后臺服務(wù)程序則按照數(shù)據(jù)采集服務(wù)獲得的信息為用戶進行信息需求分類與精準化推送。
綜上所述,現(xiàn)代信息技術(shù)的快速發(fā)展為人們的工作和生活均提供了越來越便利的條件。同時,各個領(lǐng)域均逐漸滲入了以人為本的思想,均希望能夠制定個性化的發(fā)展方案。對于圖書館而言,其更需要在大數(shù)據(jù)技術(shù)與互聯(lián)網(wǎng)技術(shù)背景下積極構(gòu)建基于用戶行為的精準化推送服務(wù)平臺,通過建設(shè)元數(shù)據(jù)庫,個人特征數(shù)據(jù)庫和精準推送模型,科學(xué)地確定開發(fā)平臺并展開平臺功能設(shè)計,為廣大平臺用戶提供更加精準化的推送服務(wù),促使圖書館事業(yè)得到健康可持續(xù)發(fā)展。