賴 昕 范美玉
(廣州中醫(yī)藥大學(xué)第二附屬醫(yī)院 廣州 510120)
近年來國家、地方一直大力支持中醫(yī)藥學(xué)科建設(shè)和中醫(yī)藥信息化建設(shè),發(fā)布《國家中醫(yī)藥管理局關(guān)于加強(qiáng)中醫(yī)藥重點(diǎn)學(xué)科建設(shè)的指導(dǎo)意見》《國務(wù)院關(guān)于印發(fā)中醫(yī)藥發(fā)展戰(zhàn)略規(guī)劃綱要(2016-2030年)的通知》等文件。廣州中醫(yī)藥大學(xué)第二附屬醫(yī)院是全國中醫(yī)系統(tǒng)擁有重點(diǎn)專科/學(xué)科最多的醫(yī)院之一[1],也是廣東省高水平醫(yī)院建設(shè)“登峰計(jì)劃”的首批重點(diǎn)醫(yī)院,研究型醫(yī)院的定位明確,學(xué)科建設(shè)的信息資源管理與利用需求日益增多。在數(shù)據(jù)科學(xué)時(shí)代,信息呈現(xiàn)爆炸式增長(zhǎng)態(tài)勢(shì),碎片化信息越來越多,對(duì)傳統(tǒng)的信息收集、處理、利用方法提出挑戰(zhàn)[2]。目前大數(shù)據(jù)技術(shù)應(yīng)用存在數(shù)據(jù)價(jià)值密度低、數(shù)據(jù)欺騙性、機(jī)器學(xué)習(xí)陷阱等難點(diǎn)[3-4]。近年來小數(shù)據(jù)思維[5]逐漸引起國內(nèi)圖書情報(bào)領(lǐng)域廣泛關(guān)注,出現(xiàn)科研用戶小數(shù)據(jù)[6]、讀者小數(shù)據(jù)[7]、智庫用戶小數(shù)據(jù)[8]等方面研究,反映出科學(xué)數(shù)據(jù)的多面性。小數(shù)據(jù)與大數(shù)據(jù)既有相通也有差異,如前者以個(gè)體為對(duì)象,重點(diǎn)在于深度[9],后者則側(cè)重于某領(lǐng)域大范圍、大規(guī)模的數(shù)據(jù),重點(diǎn)在于廣度。根據(jù)研究對(duì)象的差異有針對(duì)性地采用兩種理論都可以獲取數(shù)據(jù)規(guī)律和價(jià)值。因此針對(duì)學(xué)科用戶特點(diǎn),本文擬從小數(shù)據(jù)視角討論醫(yī)院優(yōu)勢(shì)學(xué)科信息資源建設(shè),闡述小數(shù)據(jù)概念、分類、獲取與集成管理以及基于小數(shù)據(jù)的學(xué)科信息資源建設(shè)策略。
小數(shù)據(jù)(Small Data)一詞最早由Deborah Estrin于2014年提出[5]。Deborah Estrin及團(tuán)隊(duì)認(rèn)為用戶小數(shù)據(jù)是其日常行為活動(dòng)的全部表征,通過對(duì)個(gè)體數(shù)據(jù)的全方位收集、監(jiān)測(cè)、跟蹤,能得到用戶在不同時(shí)間段的個(gè)人健康狀況信息,從而為個(gè)性化決策提供依據(jù)[10],在精準(zhǔn)醫(yī)學(xué)、預(yù)測(cè)建模和多靶點(diǎn)整合醫(yī)學(xué)干預(yù)等方面[11]展現(xiàn)出潛在應(yīng)用優(yōu)勢(shì)。
國內(nèi)小數(shù)據(jù)研究不多,主要集中在圖書情報(bào)領(lǐng)域:小數(shù)據(jù)用于圖書館個(gè)性化、精準(zhǔn)信息服務(wù)[12-13];小數(shù)據(jù)用于檔案用戶挖掘、檔案資源利用[14-15];科研小數(shù)據(jù)融合研究[16]等。針對(duì)小數(shù)據(jù)內(nèi)涵,李立睿和鄧仲華[6]提出科研用戶小數(shù)據(jù)是個(gè)體研究工作者在項(xiàng)目推進(jìn)過程中全部行為和狀態(tài)的數(shù)字記錄集合,主要涵蓋個(gè)體基本信息、行為記錄、習(xí)慣偏好、情緒變化、性格特點(diǎn)、研究問題等;刁羽[8]認(rèn)為智庫用戶小數(shù)據(jù)是基于用戶某個(gè)歷史時(shí)間段利用個(gè)性化智庫型信息服務(wù)過程中產(chǎn)生的思維活動(dòng)、需求表達(dá)及利用行為等數(shù)據(jù)的集合;曹霞[17]提出小數(shù)據(jù)是一種基于個(gè)人或單個(gè)團(tuán)隊(duì)的新興數(shù)據(jù),是有選擇性、可靠、可控、增值的數(shù)字化信息,包括與分析對(duì)象有關(guān)的基本特征數(shù)據(jù)、行為模式數(shù)據(jù)、情景感知數(shù)據(jù)、社會(huì)關(guān)系數(shù)據(jù)等。
泛在信息環(huán)境下,信息的來源、載體、可獲取的渠道呈現(xiàn)多元化趨勢(shì)。隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)在各領(lǐng)域的應(yīng)用,信息行為向現(xiàn)代化、多樣化、數(shù)據(jù)化、智慧化方向發(fā)展。多維、全面、動(dòng)態(tài)的小數(shù)據(jù)思維正與當(dāng)前信息環(huán)境相適應(yīng)。通過跟蹤、記錄、研究各角度、各時(shí)間段、各類型學(xué)科人員小數(shù)據(jù),構(gòu)建具有個(gè)性化特征的數(shù)據(jù)資源庫和信息管理系統(tǒng),可以解析、預(yù)測(cè)個(gè)體行為特征、關(guān)系網(wǎng)絡(luò)、決策需求等并根據(jù)動(dòng)態(tài)變化進(jìn)行實(shí)時(shí)調(diào)整。
學(xué)科小數(shù)據(jù)來源于學(xué)科本身和學(xué)科人員。數(shù)據(jù)量小、易采集,降低計(jì)算機(jī)設(shè)備與技術(shù)要求、減少投入成本,彌補(bǔ)了大數(shù)據(jù)投入成本高的缺點(diǎn)。同時(shí)學(xué)科小數(shù)據(jù)能夠有效彌補(bǔ)大數(shù)據(jù)個(gè)性化、針對(duì)性弱的短板,使得決策更加精準(zhǔn)。此外一般不同屬性的小數(shù)據(jù)采集、處理和利用是在相對(duì)封閉環(huán)境中進(jìn)行,能夠避免大數(shù)據(jù)無限度地采集和監(jiān)測(cè)個(gè)人信息,有效實(shí)現(xiàn)學(xué)科用戶個(gè)體數(shù)據(jù)隱私保護(hù)。
4.1.1 學(xué)科人員線上線下信息行為小數(shù)據(jù) 借閱館藏紙質(zhì)書與期刊、訪問館藏電子數(shù)據(jù)庫資源、館際互借和文獻(xiàn)傳遞、參加院內(nèi)講座和論壇等行為是學(xué)科人員個(gè)性化小數(shù)據(jù)的主要來源。獲取這些數(shù)據(jù)的方法如下:通過圖書館信息管理系統(tǒng)導(dǎo)出數(shù)據(jù);通過文獻(xiàn)傳遞服務(wù)群,借助文本數(shù)據(jù)分析工具對(duì)聊天記錄文件進(jìn)行活躍人群、活躍時(shí)間段、用戶科室分布、文獻(xiàn)主題領(lǐng)域、文獻(xiàn)傳遞完成情況等方面的分析;借助網(wǎng)絡(luò)爬蟲獲取學(xué)科人員訪問圖書館官方網(wǎng)站的痕跡數(shù)據(jù),借助開源Web日志分析工具進(jìn)行流量分析、離站鏈接數(shù)量分析、頁面瀏覽次數(shù)分析、訪問時(shí)間分析等;通過圖書館工作記錄和數(shù)據(jù)庫公司提供的資源使用情況,統(tǒng)計(jì)館際互借和文獻(xiàn)傳遞數(shù)據(jù)、參加院內(nèi)講座和論壇的人員數(shù)據(jù)等。
4.1.2 學(xué)科人員基本信息與需求小數(shù)據(jù) 基本信息數(shù)據(jù)主要包括年齡、性別、學(xué)歷、專業(yè)、職稱、職務(wù)、研究方向、發(fā)表論文、出版專著、參與課題、申請(qǐng)專利、性格特點(diǎn)、學(xué)科建設(shè)主要分工、工作階段性目標(biāo)等。這些小數(shù)據(jù)適合采用封閉式(如職務(wù))與開放式(如工作階段性目標(biāo))問題結(jié)合的簡(jiǎn)單問卷調(diào)查收集。在數(shù)據(jù)獲取時(shí),根據(jù)問卷初稿抽取數(shù)名學(xué)科內(nèi)各職稱和崗位有代表性的人員進(jìn)行預(yù)調(diào)查,如情況良好則進(jìn)行下一步,如有問題將返回重新完善設(shè)計(jì)問卷內(nèi)容。預(yù)調(diào)查完成后將在學(xué)科內(nèi)進(jìn)行正式問卷調(diào)查。學(xué)科人員網(wǎng)絡(luò)或媒體信息行為搜尋偏好與習(xí)慣、學(xué)科建設(shè)工作中遇到的問題和心理狀態(tài)、希望從學(xué)科服務(wù)人員處獲得的參考咨詢意見與服務(wù)、對(duì)學(xué)科建設(shè)工作中的困惑與意見等則是學(xué)科人員業(yè)務(wù)需求數(shù)據(jù),適合通過半結(jié)構(gòu)化訪談獲取。
4.1.3 學(xué)科信息溝通與服務(wù)中產(chǎn)生的小數(shù)據(jù) 學(xué)科人員與其他工作人員進(jìn)行信息互通時(shí)也會(huì)產(chǎn)生交互、情境小數(shù)據(jù),如學(xué)科政策文件解讀、學(xué)科建設(shè)階段性任務(wù)布置、學(xué)科績(jī)效指標(biāo)、學(xué)科人員變動(dòng)與分工調(diào)整、院內(nèi)信息系統(tǒng)設(shè)置與平臺(tái)使用方法、電子資源使用與投稿咨詢、學(xué)科人員對(duì)信息系統(tǒng)與信息服務(wù)的使用感受與反饋,以及所有對(duì)學(xué)科人員提供的學(xué)科服務(wù)數(shù)據(jù)等。這部分?jǐn)?shù)據(jù)可通過院內(nèi)即時(shí)消息平臺(tái)、企業(yè)微信、郵件等渠道獲取,也可在學(xué)科建設(shè)工作中實(shí)時(shí)使用電子工具記錄與保存。
4.1.4 學(xué)科人員自身產(chǎn)生的灰色數(shù)據(jù) 關(guān)注學(xué)科人員自身產(chǎn)生的未公開數(shù)據(jù),包括未發(fā)表的論文、紙質(zhì)手稿、科研推導(dǎo)數(shù)據(jù)、實(shí)驗(yàn)步驟數(shù)據(jù)、長(zhǎng)尾數(shù)據(jù)、科研進(jìn)展記錄、項(xiàng)目階段報(bào)表、病例分析、研討筆記、會(huì)議記錄、閱讀筆記、研討心得等。廣州中醫(yī)藥大學(xué)第二附屬醫(yī)院已搭建機(jī)構(gòu)知識(shí)庫,向用戶設(shè)置開放個(gè)人存儲(chǔ)空間。用戶具有上傳數(shù)據(jù)、數(shù)據(jù)訪問自控等權(quán)限。學(xué)科人員選擇公開部分不涉及醫(yī)院內(nèi)部私密信息的灰色數(shù)據(jù),可以被采集作為學(xué)科小數(shù)據(jù)。
4.2.1 預(yù)處理 由于真實(shí)環(huán)境與活動(dòng)較復(fù)雜、數(shù)據(jù)獲取方式有限等原因,小數(shù)據(jù)存在數(shù)據(jù)噪聲問題。因此必須先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,減少數(shù)據(jù)噪聲,提升價(jià)值密度和可用性。主要方式有:(1)清洗。針對(duì)因填寫不規(guī)范、隱私保護(hù)等產(chǎn)生的數(shù)據(jù)缺失、重復(fù)等情況,采取刪除重復(fù)數(shù)據(jù)、補(bǔ)充缺失數(shù)據(jù)、去除異常數(shù)據(jù)等操作。(2)變換。由于原始數(shù)據(jù)來源不一、類型多樣、采集方式不同,原始數(shù)據(jù)無法滿足學(xué)科建設(shè)分析需求,需要采取變量派生、變量轉(zhuǎn)換、數(shù)據(jù)標(biāo)準(zhǔn)化等方法加以轉(zhuǎn)換。(3)規(guī)約。出于對(duì)一般數(shù)據(jù)處理標(biāo)準(zhǔn)、數(shù)據(jù)價(jià)值和現(xiàn)實(shí)資源的綜合考量,在保證原有數(shù)據(jù)完整性與有效性的基礎(chǔ)上,采用維規(guī)約、數(shù)量規(guī)約等方式以有效降低數(shù)據(jù)規(guī)模、精簡(jiǎn)數(shù)據(jù)量。(4)其他處理。其他必需的預(yù)處理操作。
4.2.2 利用與安全 數(shù)據(jù)利用可通過統(tǒng)計(jì)、分析、歸類等方法實(shí)現(xiàn):使用Excel或EpiData軟件錄入預(yù)處理的數(shù)據(jù)后導(dǎo)入SPSS軟件進(jìn)行統(tǒng)計(jì)與分析;按照數(shù)據(jù)類型和主要內(nèi)容將整理后的統(tǒng)計(jì)結(jié)果以不同模塊進(jìn)行萃取、歸類。此外由于采集的小數(shù)據(jù)中含有用戶身份特征數(shù)據(jù),涉及用戶隱私,數(shù)據(jù)安全尤為重要。因此可以對(duì)數(shù)據(jù)庫登錄進(jìn)行權(quán)限設(shè)置,對(duì)所存儲(chǔ)數(shù)據(jù)進(jìn)行安全保護(hù),避免信息泄露。
信息資源建設(shè)理論認(rèn)為信息資源系統(tǒng)功能的發(fā)揮取決于各種信息資源的質(zhì)量與構(gòu)成[18]。因此醫(yī)院優(yōu)勢(shì)學(xué)科建設(shè)的信息資源配置必須既關(guān)注質(zhì)量也關(guān)注結(jié)構(gòu)。通過小數(shù)據(jù)可從以下兩方面優(yōu)化資源配置:一是將學(xué)科人員行為與需求數(shù)據(jù)作為購買紙質(zhì)文獻(xiàn)的參考。采編館員此前一直是從供應(yīng)商提供的目錄中直接選購紙質(zhì)文獻(xiàn),文獻(xiàn)整體利用率低,造成空間和資金浪費(fèi)??赏ㄟ^統(tǒng)計(jì)學(xué)科人員借閱行為,向?qū)W科人員征集薦購內(nèi)容,整理學(xué)科人員平時(shí)關(guān)注、正在研究的主題及學(xué)科發(fā)展趨勢(shì)獲得小數(shù)據(jù),并在此基礎(chǔ)上采購最新、最前沿、最適應(yīng)讀者需求的文獻(xiàn),既踐行了精準(zhǔn)采購[19]和讀者決策采購[20],又節(jié)省了經(jīng)費(fèi)。二是網(wǎng)絡(luò)時(shí)代數(shù)字資源不斷普及,大眾閱讀習(xí)慣隨之改變,應(yīng)增加館藏電子資源。根據(jù)學(xué)科人員對(duì)信息資源的需求比例和利用率等數(shù)據(jù)分析,適當(dāng)調(diào)整電子和紙質(zhì)文獻(xiàn)的比例,試用、購買部分學(xué)科小眾電子資源。當(dāng)然紙質(zhì)圖書在系統(tǒng)性、深閱讀、文化傳承等方面有不可比擬的重要性,尤其適應(yīng)中醫(yī)院保存大量古籍的需要。
根據(jù)學(xué)科人員小數(shù)據(jù)特征偏好開展個(gè)性化信息資源推薦,具體建議如下:一是根據(jù)學(xué)科人員的不同需求特點(diǎn)選擇推薦內(nèi)容。網(wǎng)絡(luò)信息獲取行為習(xí)慣:如為更傾向于使用手機(jī)瀏覽的用戶推薦專業(yè)APP和公眾號(hào),為偏向于閱讀紙質(zhì)文獻(xiàn)的用戶推薦紙質(zhì)新書或期刊。關(guān)注領(lǐng)域:如針對(duì)關(guān)注學(xué)科政策的用戶推薦相關(guān)網(wǎng)站和評(píng)述文獻(xiàn),對(duì)專注臨床研究的人員則推薦臨床試驗(yàn)登記注冊(cè)網(wǎng)站,對(duì)更關(guān)注學(xué)科前沿動(dòng)態(tài)的人員推薦相關(guān)新聞動(dòng)態(tài)和頂級(jí)期刊編譯等。業(yè)務(wù)問題:如針對(duì)用戶文獻(xiàn)檢索問題,推薦數(shù)據(jù)庫檢索講座、教學(xué)文檔、官方用戶手冊(cè)等;針對(duì)文章投稿問題可以推薦相關(guān)領(lǐng)域的期刊網(wǎng)站、征稿要求、同行投稿論壇和帖子等;針對(duì)數(shù)據(jù)分析問題可以推薦相關(guān)軟件工具以及安裝包、使用教程、參考范例等。二是系統(tǒng)地針對(duì)某個(gè)項(xiàng)目的進(jìn)程或者個(gè)人需求將館藏和網(wǎng)絡(luò)資源進(jìn)行篩選、整合、編輯,進(jìn)行定期推送和動(dòng)態(tài)更新。三是通過對(duì)學(xué)科人員個(gè)人小數(shù)據(jù)的挖掘與關(guān)聯(lián)分析,建立個(gè)體興趣預(yù)測(cè)與發(fā)現(xiàn)模型。
深度開發(fā)信息資源是為醫(yī)院優(yōu)勢(shì)學(xué)科建設(shè)提供精準(zhǔn)知識(shí)服務(wù)的重要手段,也是小數(shù)據(jù)高價(jià)值密度和決策相關(guān)性的最大體現(xiàn)?;趯W(xué)科人員小數(shù)據(jù)可以從以下幾方面進(jìn)行信息資源開發(fā):一是提供嵌入式信息服務(wù),全程跟蹤具體項(xiàng)目或?qū)W科人員個(gè)人動(dòng)態(tài)變化,對(duì)其信息需求進(jìn)行實(shí)時(shí)檢索、加工、傳遞。二是設(shè)置預(yù)測(cè)性信息服務(wù),如挖掘?qū)W科前沿?zé)狳c(diǎn)、繪制學(xué)科知識(shí)圖譜、對(duì)相關(guān)學(xué)科文獻(xiàn)進(jìn)行編研、對(duì)未來學(xué)科政策進(jìn)行趨勢(shì)分析等。三是尋找學(xué)科建設(shè)可能的競(jìng)爭(zhēng)對(duì)手或?qū)?biāo)單位,對(duì)其各項(xiàng)情況進(jìn)行檢索、統(tǒng)計(jì)、分析進(jìn)而形成競(jìng)爭(zhēng)情報(bào),輔助學(xué)科人員決策。四是積極開發(fā)院內(nèi)機(jī)構(gòu)成果庫,完善模塊設(shè)施、提高界面友好度、增加應(yīng)用功能等。在機(jī)構(gòu)庫建立優(yōu)勢(shì)學(xué)科門戶模塊,促進(jìn)學(xué)科人員對(duì)本單位優(yōu)勢(shì)學(xué)科建設(shè)成果的了解。五是構(gòu)建小數(shù)據(jù)資源庫,部分已經(jīng)深度開發(fā)的信息資源,經(jīng)過加工整理成為具有可復(fù)用性的知識(shí),由信息人員進(jìn)行匯總、分類、存儲(chǔ)后,學(xué)科人員隨時(shí)查看和下載使用。
學(xué)科用戶小數(shù)據(jù)是用戶在某個(gè)時(shí)間段內(nèi)進(jìn)行學(xué)科建設(shè)相關(guān)的思維活動(dòng)、需求表達(dá)及行為方式等數(shù)據(jù)集合,呈現(xiàn)碎片化、個(gè)性化、多樣化的特點(diǎn)[8]。在小數(shù)據(jù)采集、存儲(chǔ)、分析和利用的全生命周期中,如何保證數(shù)據(jù)的準(zhǔn)確性、可獲取性、安全性、適度共享和合規(guī)使用是高質(zhì)量學(xué)科建設(shè)與服務(wù)的關(guān)鍵,因此有必要開展學(xué)科信息資源治理[21]。這不僅能夠幫助更有效地管理數(shù)據(jù),而且能降低用戶差異化服務(wù)成本,促進(jìn)高質(zhì)量數(shù)據(jù)的生成。標(biāo)準(zhǔn)化是數(shù)據(jù)有效管理和共享的前提和重要基礎(chǔ),貫穿數(shù)據(jù)全生命周期[22],總體應(yīng)借鑒國內(nèi)外科學(xué)數(shù)據(jù)管理標(biāo)準(zhǔn)、建設(shè)標(biāo)準(zhǔn)及實(shí)踐經(jīng)驗(yàn),尤其是衛(wèi)生健康信息標(biāo)準(zhǔn)。在采集階段根據(jù)應(yīng)用場(chǎng)景的不同制定相應(yīng)采集規(guī)則,包括采集的深度、廣度、范圍、清洗顆粒度、轉(zhuǎn)換格式等,為數(shù)據(jù)挖掘奠定良好的基礎(chǔ)。在存儲(chǔ)階段要降低數(shù)據(jù)噪聲,如統(tǒng)一數(shù)據(jù)存儲(chǔ)格式,保證數(shù)據(jù)質(zhì)量,增強(qiáng)數(shù)據(jù)可用性。在分析階段根據(jù)研究的差異化需求,確定挖掘的角度、層次、顆粒度等問題。學(xué)科小數(shù)據(jù)是以用戶為核心的個(gè)人數(shù)據(jù)集合,個(gè)人隱私保護(hù)問題尤為重要[23]。因此在學(xué)科小數(shù)據(jù)的全生命周期管理過程中,不僅要嚴(yán)格遵循《中華人民共和國個(gè)人信息保護(hù)法》《中華人民共和國數(shù)據(jù)安全法》等數(shù)據(jù)安全法律法規(guī),而且要重視個(gè)人的知情同意。在具體實(shí)施中,應(yīng)推動(dòng)技術(shù)與管理并行,一方面要借助數(shù)據(jù)安全技術(shù)限定人員權(quán)限、防泄漏,另一方面提高用戶的小數(shù)據(jù)知識(shí)產(chǎn)權(quán)保護(hù)意識(shí),建立小數(shù)據(jù)管理與使用制度并適時(shí)更新,營(yíng)造安全的數(shù)據(jù)全生命周期管理生態(tài)環(huán)境等。
隨著國家高校一流學(xué)科建設(shè)的深入推進(jìn)和現(xiàn)代醫(yī)院高質(zhì)量發(fā)展,越來越多的醫(yī)院管理者已經(jīng)認(rèn)識(shí)到優(yōu)勢(shì)學(xué)科建設(shè)長(zhǎng)遠(yuǎn)戰(zhàn)略的作用。學(xué)科信息資源貫穿于學(xué)科建設(shè)和發(fā)展的全過程,是學(xué)科建設(shè)體系不可或缺的基礎(chǔ)配置?;谛?shù)據(jù),通過了解學(xué)科人員的個(gè)性化行為與需求,圖書館能夠掌握優(yōu)勢(shì)學(xué)科信息資源建設(shè)方向,從資源配置、推薦、開發(fā)等方面開展具體工作。目前關(guān)于學(xué)科小數(shù)據(jù)的研究不多,在實(shí)踐中還有諸多問題,如需要哪些信息技術(shù)支撐,如何采集到更有利用價(jià)值的小數(shù)據(jù),如何存儲(chǔ)、分析和處理多層次的小數(shù)據(jù),小數(shù)據(jù)隱私保護(hù)問題等。未來還需要展開進(jìn)一步研究與工作,力求為“十四五”期間醫(yī)院優(yōu)勢(shì)學(xué)科建設(shè)提供完善的資源保障,積極配合高校一流學(xué)科建設(shè)步伐,推動(dòng)實(shí)現(xiàn)醫(yī)院高水平發(fā)展。
歡迎訂閱 歡迎賜稿