張瀟月 劉金亞 趙昆華
關(guān)鍵詞: 開放科研數(shù)據(jù); 數(shù)據(jù)重用實(shí)踐; 用戶畫像; 數(shù)據(jù)社群; 數(shù)據(jù)重用服務(wù); 生物學(xué)領(lǐng)域
DOI:10.3969 / j.issn.1008-0821.2024.06.003
〔中圖分類號〕G316; G250 73 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 06-0033-12
科研數(shù)據(jù)重用是指科研人員對科研數(shù)據(jù)在原始意圖以外再次使用的活動[1-2] 。2021 年11 月, 聯(lián)合國教科文組織(UNESCO)審議通過的《開放科學(xué)建議書》, 其序言部分強(qiáng)調(diào)了數(shù)據(jù)重用與開放科學(xué)的相互促進(jìn)關(guān)系, 即開放科學(xué)提升了科學(xué)界和社會公眾參與科研過程和獲取研究成果的可能, 有助于減少數(shù)據(jù)的收集、創(chuàng)建、轉(zhuǎn)讓和重用成本; 同時,數(shù)據(jù)重用的實(shí)際效果也是衡量開放數(shù)據(jù)運(yùn)動成效的一項(xiàng)重要標(biāo)準(zhǔn)。數(shù)據(jù)重用能夠開展更廣泛研究, 讓更多主體加入研究過程, 使成果獲得更大范圍傳播, 增強(qiáng)科學(xué)研究的有效轉(zhuǎn)換性和社會影響力[3] 。
數(shù)據(jù)重用也是開放科研數(shù)據(jù)的重要原則之一。基于科研活動產(chǎn)出的數(shù)據(jù)在開放共享過程中應(yīng)當(dāng)遵循可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR 原則,已成為國際開放科研數(shù)據(jù)學(xué)界和業(yè)界的基本共識??梢姡?數(shù)據(jù)重用是數(shù)據(jù)可發(fā)現(xiàn)、可訪問、可互操作的最終目的[4] 。通過進(jìn)行多源數(shù)據(jù)融合、數(shù)據(jù)二次加工與語義分析等多種方式的重用, 可更有效地豐富科研基礎(chǔ)材料, 提高科學(xué)實(shí)驗(yàn)效益, 同時促進(jìn)理論驅(qū)動型和數(shù)據(jù)驅(qū)動型研究的深入發(fā)展, 真正促進(jìn)開放科學(xué)理念的落地實(shí)施。
盡管我國在國家層面形成了良好的數(shù)據(jù)重用制度環(huán)境, 例如《科學(xué)數(shù)據(jù)管理辦法》的發(fā)布實(shí)施[5] 、《科學(xué)數(shù)據(jù)引用》國家標(biāo)準(zhǔn)的實(shí)施[6] 和《國家科技資源共享服務(wù)平臺優(yōu)化調(diào)整名單的通知》中明確要求依托單位為科學(xué)研究、技術(shù)進(jìn)步和社會發(fā)展提供高質(zhì)量的科技資源共享和重用服務(wù)[7] , 且目前多個學(xué)科領(lǐng)域支持?jǐn)?shù)據(jù)重用的基礎(chǔ)設(shè)施也已初步完成建設(shè), 并面向激發(fā)創(chuàng)新提供多樣化應(yīng)用服務(wù)[8-9] 。但科研數(shù)據(jù)重用在實(shí)踐層面仍然面臨新問題和新挑戰(zhàn), 影響了數(shù)據(jù)重用的深入推進(jìn)和科研人員的實(shí)際受益[10] 。2022 年, 由Digital Science 等機(jī)構(gòu)聯(lián)合發(fā)布的《2022 年開放數(shù)據(jù)狀況》(The State of OpenData 2022)報(bào)告指出, 促進(jìn)科學(xué)目標(biāo)的實(shí)現(xiàn), 不能只關(guān)注技術(shù)進(jìn)步, 改變實(shí)踐行為同樣重要[11] 。因此,關(guān)注數(shù)據(jù)重用實(shí)踐行為有助于實(shí)現(xiàn)科學(xué)進(jìn)步。
雖然數(shù)據(jù)共享和重用理念已經(jīng)得到了較多科研人員的認(rèn)可和支持, 但數(shù)據(jù)重用實(shí)踐的普遍性在不同學(xué)科之間存在較大差異, 例如在生命科學(xué)、天文學(xué)、空間科學(xué)、地球科學(xué)等開放基礎(chǔ)較好的學(xué)科,數(shù)據(jù)重用發(fā)生頻率相對較高; 但在數(shù)學(xué)、農(nóng)業(yè)科學(xué)、經(jīng)濟(jì)學(xué)及人文社科類等學(xué)科, 研究人員仍需要努力尋找可以重用的數(shù)據(jù)[11] 。因此, 為促進(jìn)數(shù)據(jù)重用實(shí)踐在不同學(xué)科之間的均衡與可持續(xù)發(fā)展, 有必要對數(shù)據(jù)重用基礎(chǔ)較為成熟的領(lǐng)域進(jìn)行深入識別, 總結(jié)歸納其發(fā)展經(jīng)驗(yàn)與不足, 從而為優(yōu)化我國數(shù)據(jù)重用實(shí)踐服務(wù)體系提供參考借鑒。
考慮到學(xué)科的差異性, 本研究調(diào)研了2019 年我國20 個國家科學(xué)數(shù)據(jù)中心的學(xué)科布局[7] , 遴選了依托機(jī)構(gòu)數(shù)量最多、具有較高科研數(shù)據(jù)開放程度、配備較成熟數(shù)據(jù)基礎(chǔ)設(shè)施和重用規(guī)則體系[12-13] 的生物學(xué)領(lǐng)域作為特定研究學(xué)科; 同時考慮到科研人員是主導(dǎo)和影響數(shù)據(jù)重用實(shí)踐發(fā)展的核心主體, 因此應(yīng)當(dāng)遴選生物學(xué)領(lǐng)域的科研人員作為特定研究對象。綜合上述遴選規(guī)則, 本研究選取了在我國生物學(xué)領(lǐng)域具有較大研究規(guī)模、數(shù)據(jù)總量和影響力的中國科學(xué)院相關(guān)學(xué)科研究人員作為具體研究案例, 并通過調(diào)研問卷和群體畫像的方式, 全面深入分析當(dāng)下科研數(shù)據(jù)重用實(shí)踐面臨的障礙, 使研究結(jié)果與建議具有一定代表性, 能夠助力以圖書館和數(shù)據(jù)中心等為代表的信息服務(wù)機(jī)構(gòu)提供更好數(shù)據(jù)重用服務(wù)。
1 文獻(xiàn)綜述
通過梳理分析國內(nèi)外有關(guān)數(shù)據(jù)重用實(shí)踐的相關(guān)主題文獻(xiàn), 發(fā)現(xiàn)已有研究成果大致基于兩種視角展開: 一是從科研人員的用戶視角出發(fā), 探討用戶個體與群體對于數(shù)據(jù)重用在態(tài)度感知方面的內(nèi)在因素和在文化環(huán)境方面的外在因素。二是從服務(wù)機(jī)構(gòu)的社群培育視角出發(fā), 分析數(shù)據(jù)重用實(shí)踐社群的保障機(jī)制、培育方式和創(chuàng)新服務(wù)實(shí)踐。
1.1 用戶視角: 數(shù)據(jù)重用的內(nèi)在驅(qū)動力與外在影響因素分析
部分研究成果論述了影響科研人員數(shù)據(jù)重用實(shí)踐的內(nèi)在因素, 主要驗(yàn)證了科研用戶個體的數(shù)據(jù)重用積極/ 消極態(tài)度與數(shù)據(jù)重用行為的關(guān)聯(lián)關(guān)系。例如, 李曉等[14] 的分析結(jié)果表明, 科研人員對數(shù)據(jù)重用實(shí)踐的態(tài)度是影響其重用意愿的一項(xiàng)重要因素。Federer L M 等[15] 關(guān)注到了影響科研人員的數(shù)據(jù)重用感知的因素, 發(fā)現(xiàn)科研人員對相關(guān)基礎(chǔ)設(shè)施和支持措施的易用與實(shí)用程度的感知能夠有效提升其參與數(shù)據(jù)重用實(shí)踐的積極性, 從而影響特定領(lǐng)域數(shù)據(jù)的訪問率和重用度。也有部分研究從用戶對數(shù)據(jù)重用的目的出發(fā), 分析用戶的態(tài)度在不同類型重用實(shí)踐中的影響。Enke N 等[16] 研究發(fā)現(xiàn), 生物多樣性領(lǐng)域的科學(xué)家重用他人數(shù)據(jù)的需求, 有些是為了擴(kuò)展其自身的數(shù)據(jù)集將其研究置于更廣泛的背景中, 有些是為了通過額外數(shù)據(jù)來支持和評估自身研究建立的模型。盡管科研人員重用科研數(shù)據(jù)的目的各異, 但其關(guān)于數(shù)據(jù)重用的態(tài)度對其行為意愿和具體實(shí)踐均有較大影響。
還有部分文獻(xiàn)研究了影響科研人員數(shù)據(jù)重用實(shí)踐的外在環(huán)境因素, 從“用戶群體—實(shí)踐” 的互動角度, 揭示了科研人員的數(shù)據(jù)重用行為是否會由于其所在社群的學(xué)科文化、規(guī)則機(jī)制等外在環(huán)境不同而產(chǎn)生感知差異。如Tenopir C 等[17] 研究表明,科研人員所接受到的學(xué)科文化不同, 其數(shù)據(jù)重用行為也會存在較大差異, 如天文學(xué)領(lǐng)域重用數(shù)據(jù)易獲取程度比社會科學(xué)領(lǐng)域高將近26%。具體到數(shù)據(jù)實(shí)踐對用戶的影響, Holub P 等[18] 建議通過FAIRhealth原則擴(kuò)展FAIR 原則在藥物領(lǐng)域的標(biāo)準(zhǔn), 以增強(qiáng)該領(lǐng)域數(shù)據(jù)和生物材料的重用, 包括數(shù)據(jù)質(zhì)量的可重用性、內(nèi)容的可理解性、過程的透明性和非碎片性以及隱私保護(hù)性。另有Zimmerman A[19] 對生態(tài)學(xué)領(lǐng)域?qū)W者的研究表明, 科研人員也會間接受到其關(guān)聯(lián)領(lǐng)域的規(guī)則與標(biāo)準(zhǔn)的影響, 建議針對科研人員共享和存儲科研數(shù)據(jù)等實(shí)踐實(shí)施激勵機(jī)制, 以提升數(shù)據(jù)重用的普遍性。
1.2 服務(wù)者視角: 數(shù)據(jù)重用社群運(yùn)營的評估和提升路徑研究
國內(nèi)外文獻(xiàn)中有較多研究基于數(shù)據(jù)重用服務(wù)者的視角, 詳細(xì)論述了基礎(chǔ)設(shè)施和配套機(jī)制對于有效保障、吸引科研用戶參與數(shù)據(jù)重用實(shí)踐的重要性。Pasquetto I V 等[20] 研究表明, 數(shù)據(jù)重用依賴于基礎(chǔ)設(shè)施的建設(shè)。宋秀芬等[21] 認(rèn)為, 依賴于強(qiáng)制性政策引導(dǎo)的手段推動數(shù)據(jù)重用實(shí)踐的作用范圍有限,需要通過激勵機(jī)制等措施擴(kuò)大數(shù)據(jù)重用的實(shí)踐范圍。Tedersoo L 等[22] 認(rèn)為, 缺乏激勵、缺乏標(biāo)準(zhǔn)的元數(shù)據(jù)收集和訪問機(jī)制等因素, 阻礙了研究人員的數(shù)據(jù)重用行為。Cheruvelil K S 等[23] 在生態(tài)學(xué)領(lǐng)域開展的研究也表明, 有限資源(如資金、數(shù)據(jù))所造成的高度競爭文化會降低數(shù)據(jù)開放意愿, 進(jìn)而會限制研究人員的數(shù)據(jù)重用實(shí)踐, 建議學(xué)術(shù)界應(yīng)承認(rèn)出版物之外的數(shù)據(jù)(作為學(xué)術(shù)成果的)貢獻(xiàn)。同時有研究非常認(rèn)可麻省理工學(xué)院(MIT)圖書館開展特定數(shù)據(jù)重用的培訓(xùn)形式, 建議相關(guān)機(jī)構(gòu)提供專題型數(shù)據(jù)重用實(shí)踐服務(wù)[24] 。
為進(jìn)一步推動數(shù)據(jù)重用的實(shí)踐活動, 也有部分研究開始關(guān)注服務(wù)機(jī)構(gòu)如何借助數(shù)據(jù)社群(DataCommunity) “運(yùn)營” 的理念, 提升數(shù)據(jù)重用實(shí)踐。其中, Cooper D M 等[25] 認(rèn)為, 數(shù)據(jù)社群是一個由研究人員組成的流動和非正式網(wǎng)絡(luò)(群組), 并具備自下而上發(fā)展、為數(shù)據(jù)共享減輕技術(shù)阻礙和具備社群規(guī)則(Community Norms)的三大基本特征?;谏鲜鎏卣?, Cooper D M 等[25] 認(rèn)為, 數(shù)據(jù)社群概念可作為實(shí)現(xiàn)數(shù)據(jù)開放共享FAIR 化的重要力量和促進(jìn)STEM 領(lǐng)域數(shù)據(jù)共享的一項(xiàng)新模式。蔚海燕[26] 將“數(shù)據(jù)” “社區(qū)” 作為學(xué)科化服務(wù)研究中的關(guān)鍵詞, 在研究中以杜克大學(xué)創(chuàng)立的信息共享空間“The Edge” 為例, 鼓勵國內(nèi)圖書館界以社群化形式探索開展數(shù)據(jù)密集型科研支持服務(wù)實(shí)踐。
近年來的已有研究為推動科研人員開展數(shù)據(jù)重用實(shí)踐和服務(wù)機(jī)構(gòu)提供數(shù)據(jù)重用支持提供良好借鑒。但目前對于促進(jìn)數(shù)據(jù)重用實(shí)踐可持續(xù)發(fā)展的研究, 仍停留在“自上而下” 的相關(guān)政策與基礎(chǔ)設(shè)施的完善建議層面, 對學(xué)科化數(shù)據(jù)重用實(shí)踐服務(wù)需求的研究相對較少, 且大多聚焦在“數(shù)據(jù)管理” “開放數(shù)據(jù)” 等較為獨(dú)立發(fā)展的服務(wù)理念, 較少整合“數(shù)字學(xué)術(shù)” “開放數(shù)據(jù)” 等整體學(xué)術(shù)發(fā)展趨勢, 以覆蓋完整的科研生命周期。因此, 有必要在數(shù)據(jù)開放基礎(chǔ)較成熟的研究領(lǐng)域, 按照“需求識別—機(jī)制分析—服務(wù)方案制定” 的整體研究邏輯, 對數(shù)據(jù)重用參與群體進(jìn)行分類研究, 以進(jìn)一步識別同一領(lǐng)域中不同類型數(shù)據(jù)重用群體的行為差異所反應(yīng)出的需求差異, 并根據(jù)研究結(jié)果展開細(xì)化分析, 提出相應(yīng)服務(wù)建議, 以促進(jìn)我國科研人員對數(shù)據(jù)重用實(shí)踐的持續(xù)參與。
2 研究問題與研究設(shè)計(jì)
2.1 研究問題
基于上述研究背景和已有成果分析, 本文的主要研究問題是: 基于我國生物學(xué)領(lǐng)域的現(xiàn)狀, 以科研人員的態(tài)度和感知為切入點(diǎn), 需通過哪些服務(wù)培育該領(lǐng)域數(shù)據(jù)重用實(shí)踐, 進(jìn)而提升我國生物學(xué)領(lǐng)域科研人員數(shù)據(jù)重用的積極性? 基于該核心問題, 本文設(shè)計(jì)以下兩組問題:
RQ1: 不同崗位狀態(tài)、是否具備重用經(jīng)驗(yàn)的科研人員在對待科研數(shù)據(jù)重用問題的態(tài)度和感知方面是否存在差異? 若存在, 則具體差異情況如何?
RQ2: 態(tài)度和感知特征如何塑造我國生物學(xué)領(lǐng)域科研數(shù)據(jù)社群的數(shù)據(jù)重用行為特征? 信息服務(wù)機(jī)構(gòu)應(yīng)如何回應(yīng)不同類型用戶在持續(xù)參與數(shù)據(jù)重用實(shí)踐中的訴求?
2.2 構(gòu)念提煉與調(diào)查問卷設(shè)計(jì)
通過文獻(xiàn)檢索與綜述方式, 提煉論文核心構(gòu)念。以“Open Science” “Open Data” “Open ResearchData” 作為背景關(guān)鍵詞, 分別與數(shù)據(jù)重用相關(guān)的行為關(guān)鍵詞“Data Reuse” “Research Data Reuse” “Sci?entific Data Reuse” “Secondary Data Analysis” “Sec?ondary Use of Data” “Secondary Use of Scientific Da?ta” 組合, 通過Web of Science 對英文學(xué)術(shù)論文進(jìn)行檢索, 通過Bing 搜索引擎檢索其他類型英文文獻(xiàn)。以“開放科學(xué)” “開放數(shù)據(jù)” “開放科研數(shù)據(jù)”
作為環(huán)境關(guān)鍵詞, 以“數(shù)據(jù)” “科學(xué)數(shù)據(jù)” “科研數(shù)據(jù)” 作為核心術(shù)語關(guān)鍵詞, 以“重用” “再利用”
“二次使用” 作為行為關(guān)鍵詞, 以關(guān)鍵詞組配方式在中國知網(wǎng)檢索, 得出核心文獻(xiàn)集。通過人工閱讀該文獻(xiàn)集中的文獻(xiàn), 共提煉出4 個構(gòu)念(Constructs)。具體的提煉過程, 詳見上節(jié)文獻(xiàn)綜述部分, 可參照本研究前期發(fā)表成果[27] 。
本文在研究工具的選擇與考量方面采取了調(diào)查問卷方式。因?yàn)閿?shù)據(jù)重用實(shí)證研究具備一定的研究基礎(chǔ), 相關(guān)影響因素的識別也具備初探式成果, 但現(xiàn)有文獻(xiàn)缺少群體層面的一手調(diào)研資料。因此, 若希望了解用戶的重用態(tài)度和感知在群體層面的分布,則需在定性研究基礎(chǔ)上, 進(jìn)一步開展定量化的測量研究。問卷是收集有關(guān)社會現(xiàn)象和人們社會行為各種資料的工具, 其用途是測量人們的行為、態(tài)度和社會特征[28] 。這與本文研究問題中主要探討的變量特性相契合。另外, 問卷中的封閉式問題可以很容易把人們的觀點(diǎn)、看法定量化[29] , 因此采用問卷調(diào)研, 能夠更好地測量群體層面上用戶的特點(diǎn),從而為用戶畫像奠定基礎(chǔ)。
本文簡述所識別構(gòu)念的具體含義及典型參考來源, 與所對應(yīng)的數(shù)據(jù)重用行為影響因素調(diào)查問卷測量項(xiàng), 如表1 所示, 共有22 項(xiàng)量表題(李克特五點(diǎn)量表)、兩項(xiàng)多選題, 另通過填空題方式測量科研人員實(shí)際重用次數(shù)。
3 數(shù)據(jù)分析結(jié)果
3.1 調(diào)查問卷的發(fā)放與回收
本研究針對中國科學(xué)院生物學(xué)領(lǐng)域的科研人員(包括碩士和博士研究生以及其他專職科研人員)于2019 年9 月—11 月通過兩個主要渠道發(fā)放調(diào)查問卷: 微信和電子郵件。一是通過微信平臺以滾雪球抽樣的方式向生物學(xué)領(lǐng)域的碩博生群體發(fā)放問卷, 成功回收了有效問卷211 份。二是手動收集了中國科學(xué)院生物學(xué)領(lǐng)域科研人員的郵箱地址, 并發(fā)放問卷, 成功回收了有效問卷90 份, 共計(jì)回收301份有效問卷。
本文首先統(tǒng)計(jì)了調(diào)查對象的人口統(tǒng)計(jì)學(xué)特征,如表2 所示, 而后計(jì)算出各測量項(xiàng)的均值、中位數(shù)和標(biāo)準(zhǔn)差。X1~X4 測量項(xiàng)的均值均小于取值范圍的中位數(shù)(取值范圍1~5, 中位數(shù)為3), 表明我國生物學(xué)領(lǐng)域科研人員認(rèn)為科研數(shù)據(jù)重用活動在科研實(shí)踐中的普遍程度較低, 有待進(jìn)一步提升其對科研數(shù)據(jù)重用活動態(tài)度的積極程度。另外, 總體上, 科研人員對重用數(shù)據(jù)所涉及相關(guān)規(guī)則的熟悉程度較低(5項(xiàng)中僅有兩項(xiàng)中位數(shù)為3, 其余均小于3), 并認(rèn)為目前數(shù)據(jù)重用活動支持服務(wù)的實(shí)用程度有待提升(15項(xiàng)測量結(jié)果的中位數(shù)均小于取值范圍的中位數(shù)3)。
3.2 不同用戶組別的組間差異分析
針對子問題1, 本節(jié)進(jìn)一步分析用戶在態(tài)度、感知層面的組間差異, 從而為針對性提供建議奠定基礎(chǔ)。組間差異分析包括兩部分: 一是不同崗位狀態(tài)科研用戶對重用態(tài)度和感知的差異。二是有無重用經(jīng)驗(yàn)的科研用戶在數(shù)據(jù)重用態(tài)度和感知因素方面的差異。通過數(shù)據(jù)分組, 并在每個測量項(xiàng)上進(jìn)行方差分析, 匯總組間差異明顯的具體測量項(xiàng)至表3。以下兩小節(jié)分別詳述。
3.2.1 不同崗位狀態(tài)在數(shù)據(jù)重用態(tài)度和感知中的差異
本研究采用方差分析, 探究不同崗位狀態(tài)(專職科研人員、碩博生兩類群體)科研人員對數(shù)據(jù)重用實(shí)踐的態(tài)度和感知方面的差異, 結(jié)果顯著的測量項(xiàng)指標(biāo)如表3 右數(shù)第二列所示。計(jì)算方式如下: 組間差異=專職科研人員在該項(xiàng)的得分均值-碩博生群體在該項(xiàng)的得分均值。
由表3 可知, 專職科研人員組別僅在X5、X6、X25 這3 個測量項(xiàng)上的表現(xiàn)優(yōu)于碩博生組別。即專職科研人員對數(shù)據(jù)重用在本領(lǐng)域的普遍程度(X5、X6)的感知要優(yōu)于碩博生組別, 并且專職科研人員實(shí)際重用科研數(shù)據(jù)的次數(shù)(X25)明顯大于碩博生組別。而在其余與態(tài)度、感知規(guī)則熟悉程度、感知支持措施實(shí)用程度相關(guān)的測量項(xiàng)中, 專職科研人員的自我報(bào)告得分均輕微落后于學(xué)生群體。
該結(jié)果說明, 專職科研人員群體并未如意料中的因?yàn)橹赜脭?shù)據(jù)經(jīng)驗(yàn)較為充足而更加熟悉科研數(shù)據(jù)重用的流程、環(huán)節(jié)與規(guī)則, 所以不應(yīng)對某一群體的科研數(shù)據(jù)管理基礎(chǔ)做出預(yù)判。因此, 科研數(shù)據(jù)管理培訓(xùn)應(yīng)當(dāng)面向?qū)B毧蒲腥藛T和碩博生等不同崗位狀態(tài)人群, 設(shè)置不同層次的培訓(xùn)服務(wù), 必要時應(yīng)更好地發(fā)揮“嵌入式”服務(wù)的作用。近期Nature 子刊《Sci?entific Data》發(fā)表的一篇文章也得出類似研究結(jié)論。該文作者通過調(diào)研發(fā)現(xiàn), 科研人員在重用共享的數(shù)據(jù)時存在許多障礙, 例如, 在申請機(jī)構(gòu)批準(zhǔn)、選擇數(shù)據(jù)使用協(xié)議和操作數(shù)據(jù)訪問應(yīng)用程序等環(huán)節(jié)遇到多種“摩擦” (Friction)。這種“摩擦” 使得評估數(shù)據(jù)集的潛在效用成為一個令人沮喪和耗時的過程, 導(dǎo)致許多原本能夠通過重用來增加數(shù)據(jù)集價值的研究人員會因此放棄[37] 。所以, 對應(yīng)到本文調(diào)研結(jié)果中, 生物學(xué)領(lǐng)域不同崗位狀態(tài)用戶之所以對相關(guān)社群文化基礎(chǔ)、環(huán)節(jié)流程感知較弱, 也需要探究對現(xiàn)有數(shù)據(jù)重用流程相關(guān)服務(wù)進(jìn)行簡化優(yōu)化的實(shí)施路徑。
3.2.2 有無重用經(jīng)驗(yàn)在數(shù)據(jù)重用態(tài)度和感知中的差異
本文將“有重用經(jīng)驗(yàn)” 和“無重用經(jīng)驗(yàn)” 分別進(jìn)行標(biāo)注。逐一對測量項(xiàng)進(jìn)行方差分析, 其中結(jié)果顯著的測量項(xiàng)指標(biāo)及組間差異情況如表3(最右列)所示。
由表3(最右列)可知, 除X6 指標(biāo)外, 其余3個顯著的測量項(xiàng)中, 有重用經(jīng)驗(yàn)的人員不如無重用經(jīng)驗(yàn)人員對于數(shù)據(jù)重用的態(tài)度積極, 感知指標(biāo)結(jié)果更不敏銳。其原因可能在于, 部分科研人員在重用過程中的某些實(shí)踐環(huán)節(jié)(諸如開放自身數(shù)據(jù)、檢索數(shù)據(jù)集、理解重用許可要求等方面)遇到多種阻礙,影響其繼續(xù)開展重用實(shí)踐的積極性。因此, 需要進(jìn)一步細(xì)分不同科研用戶群體, 深入其重用過程中的具體環(huán)節(jié), 探索更有針對性、協(xié)同性的支持措施。
3 3 層次聚類與用戶群體特征畫像
由3.1、3.2 節(jié)的分析可知, 在我國生物學(xué)領(lǐng)域中, 無論是碩博生還是研究人員群體均需要科研數(shù)據(jù)管理培訓(xùn), 以便規(guī)范自身的數(shù)據(jù)重用行為。但現(xiàn)有科研數(shù)據(jù)管理服務(wù)尚存提升空間。因此, 探究不同用戶群體更加個性化的需求, 以畫像方式細(xì)分用戶群組, 有利于更有針對性地提升我國生物學(xué)領(lǐng)域科研人員在科研數(shù)據(jù)重用實(shí)踐過程中的體驗(yàn)。
重用實(shí)踐中的開放與重用文化建構(gòu)對數(shù)據(jù)重用實(shí)踐培育具有重要意義。已有研究對各類潛變量在我國科研人員科研數(shù)據(jù)重用行為方面影響的探究已較為充分[14] 。為更好地發(fā)揮“自上而下” 和“自下而上” 兩種數(shù)據(jù)社群培育路徑的協(xié)同作用, 本部分則著重關(guān)注“態(tài)度” “感知社群文化基礎(chǔ)” (“自下而上” 路徑)和“感知規(guī)則熟悉程度” (“自上而下”路徑)這三方面內(nèi)容, 以探究當(dāng)前我國生物學(xué)領(lǐng)域數(shù)據(jù)重用文化培育的相關(guān)阻礙。因此, 本部分以個案為依據(jù), 選取與科研人員的態(tài)度、社群文化基礎(chǔ)、規(guī)則熟悉程度這3 個潛變量相關(guān)的測量項(xiàng)(X1 ~X11)進(jìn)行層次聚類分析, 以發(fā)現(xiàn)科研人員的數(shù)據(jù)重用行為特征的類別。
根據(jù)預(yù)期聚類結(jié)果的范圍, 分析層次聚類結(jié)果。在聚類結(jié)果中, 存在兩個異常個案(Case)(S-7 和S-156 號, 二者中有兩組連續(xù)5 項(xiàng)以上的題目選項(xiàng)相同, 綜合答題時間較短), 將二者排除后重新聚類。根據(jù)預(yù)計(jì)聚類數(shù)量范圍, 選取距離15 作為劃分類別依據(jù), 共得到6 大類科研人員群體。根據(jù)聚類結(jié)果, 統(tǒng)計(jì)出每組內(nèi)的個案數(shù)量以及在11個影響因素中的平均值, 并計(jì)算出每個測量項(xiàng)的加權(quán)平均值, 方便后續(xù)對結(jié)果進(jìn)行組間比較與特征歸納。對聚類出的6 個組別在態(tài)度、社群文化基礎(chǔ)、規(guī)則熟悉程度這三方面的測量項(xiàng)得分與加權(quán)平均值進(jìn)行比較, 統(tǒng)計(jì)出各組內(nèi)具備重用經(jīng)驗(yàn)人員的數(shù)量。歸納各類別科研人員的特征并對其進(jìn)行命名,結(jié)果如表4 所示。
根據(jù)有無重用經(jīng)驗(yàn)將科研人員分為“參與者”與“潛在參與者” 兩大類。再結(jié)合這些組別在三大類潛變量測量項(xiàng)中的差異, 對其進(jìn)行具體命名。以下詳述六類用戶的特征。
1) 參與者大類中具體畫像類別說明
“初步探索型參與者”: 該類科研人員對數(shù)據(jù)重用活動積極作用的認(rèn)可度(態(tài)度)較低, 對現(xiàn)有重用規(guī)則不熟悉, 但卻認(rèn)為當(dāng)前數(shù)據(jù)重用活動在其研究領(lǐng)域中較為普遍, 取得了一定程度的發(fā)展。同時, 該類別中的絕大部分成員具備重用數(shù)據(jù)經(jīng)驗(yàn),所形成的態(tài)度很可能與其重用經(jīng)驗(yàn)有很大的關(guān)系,但從其自身對數(shù)據(jù)重用規(guī)則的了解程度來看, 該類人員對重用實(shí)踐的滿意度、參與度較低。
“邊緣觀望型參與者”: 該類科研人員對數(shù)據(jù)重用活動價值認(rèn)可度也相對較低, 但認(rèn)為當(dāng)前有關(guān)數(shù)據(jù)重用的社群文化已有一些基礎(chǔ), 且自身對數(shù)據(jù)重用規(guī)則也較為熟悉, 這可能與該類用戶參與重用實(shí)踐占比較高, 無形中了解到一些重用相關(guān)規(guī)則有關(guān)。
“被動型參與者”: 對數(shù)據(jù)重用活動的態(tài)度與“初步探索型參與者” 處于類似低位, 但其在社群文化基礎(chǔ)感知以及規(guī)則熟悉程度方面均較高, 且該類用戶參與重用實(shí)踐的比例略高于“邊緣觀望型參與者”, 因此更可能是由于具體研究范式中數(shù)據(jù)重用是其重要環(huán)節(jié), 客觀上需被動參與, 但并未深入反思重用價值。
2) 潛在參與者中具體畫像類別說明
“期待型潛在參與者”: 該類科研用戶對數(shù)據(jù)重用價值的認(rèn)可度和感知規(guī)則熟悉程度較高, 但認(rèn)為當(dāng)前社群中對于重用實(shí)踐的文化和氛圍還尚未形成,且其目前的研究活動中較少涉及數(shù)據(jù)重用的機(jī)會。
“徘徊型潛在參與者”: 與“期待型” 相似, 該類用戶對數(shù)據(jù)重用價值認(rèn)可度更高、相關(guān)規(guī)則也較為熟悉, 但目前重用實(shí)踐參與機(jī)會更少。
“搖擺型潛在參與者”: 這類用戶在對數(shù)據(jù)重用價值認(rèn)可度、感知社群文化基礎(chǔ)和感知規(guī)則熟悉程度方面均屬中等偏低。但由于該類用戶的規(guī)模體量最大, 且目前相關(guān)影響因素項(xiàng)的感知水平較低, 因此是后續(xù)進(jìn)行服務(wù)設(shè)計(jì)時需要重點(diǎn)關(guān)注的一類對象。
4 研究建議
依據(jù)上述對中國科學(xué)院生物學(xué)領(lǐng)域科研人員的調(diào)研結(jié)果, 本研究將從圖書館和數(shù)據(jù)中心等信息服務(wù)機(jī)構(gòu)開展科研數(shù)據(jù)管理服務(wù)的角度, 首先以用戶畫像結(jié)果中某一組別表現(xiàn)較差的影響因素(得分在“中” 及以下)作為首要參考依據(jù); 其次, 依此類推分析該組用戶在實(shí)際數(shù)據(jù)重用過程中的具體特征;最終提供具有針對性和可實(shí)施性的服務(wù)建議??傮w上, 本研究建議信息服務(wù)機(jī)構(gòu)提供“層次化” 和“梯度化” 的數(shù)據(jù)社群培育支持服務(wù), 從而在“自下而上” 的數(shù)據(jù)社群培育路徑方面進(jìn)行更有效地服務(wù)設(shè)計(jì)。
4.1 “層次化”的數(shù)據(jù)社群培育路徑
4.1.1 針對我國生物學(xué)領(lǐng)域科研數(shù)據(jù)重用“實(shí)際參與者”
初步探索型參與者在態(tài)度和感知規(guī)則熟悉程度方面得分較低, 具體重用實(shí)踐培育服務(wù)方式可包括:①高校圖書館聯(lián)系相關(guān)院系, 共同組織開展科研數(shù)據(jù)重用實(shí)踐工作坊, 著重從技能提升方面開展數(shù)據(jù)重用的小規(guī)模手把手教學(xué), 從數(shù)據(jù)清洗處理等質(zhì)量控制角度、數(shù)據(jù)可視化與內(nèi)容報(bào)告合規(guī)使用等角度設(shè)計(jì)服務(wù); ②由專業(yè)的學(xué)科館員建立相關(guān)的數(shù)據(jù)管理交流討論群, 便于第一時間解決科研人員在數(shù)據(jù)重用活動中遇到的問題。
邊緣觀望者在態(tài)度方面的得分為中低, 具體服務(wù)方式可考慮: ①圖書館或數(shù)據(jù)中心開展配套的數(shù)據(jù)監(jiān)管服務(wù), 如定期推送領(lǐng)域相關(guān)數(shù)據(jù)資源列表、或整理采用以數(shù)據(jù)驅(qū)動方式得出結(jié)論的文章, 進(jìn)一步增強(qiáng)科研用戶重用開放數(shù)據(jù)的意識; ②在信息素養(yǎng)教育類課程、學(xué)科數(shù)據(jù)分析類課程中, 介紹或引導(dǎo)學(xué)生參與開放數(shù)據(jù)的重用活動。
被動型參與者在態(tài)度方面的得分低, 但感知社群文化基礎(chǔ)和規(guī)則熟悉程度較高, 該類科研用戶呈現(xiàn)出“任務(wù)驅(qū)動” 的特點(diǎn)。雖然對數(shù)據(jù)重用的積極作用認(rèn)可度低, 但是認(rèn)為當(dāng)前學(xué)科領(lǐng)域中數(shù)據(jù)重用實(shí)踐較為普遍, 并對其中的規(guī)則較為熟悉。因此可通過政策上額外的激勵措施, 使科研人員能夠切實(shí)體會到數(shù)據(jù)開放或重用的實(shí)際益處。例如, 科研評價時增設(shè)開放數(shù)據(jù)、數(shù)據(jù)重用相關(guān)的評價細(xì)目。
4.1.2 針對我國生物學(xué)領(lǐng)域科研數(shù)據(jù)重用“潛在參與者”
期待型潛在參與者的感知社群文化基礎(chǔ)較低,服務(wù)方式可著重布局如下方面: ①通過與專業(yè)學(xué)(協(xié))會合作, 舉辦開放數(shù)據(jù)大賽, 提升數(shù)據(jù)重用活動在科研群體中的影響力; ②高校圖書館、學(xué)(協(xié))會等機(jī)構(gòu)可牽頭開展整合學(xué)科領(lǐng)域團(tuán)隊(duì)的活動。如搭建相關(guān)的數(shù)據(jù)交流平臺, 或在相關(guān)的數(shù)據(jù)管理社區(qū)創(chuàng)建專欄, 促進(jìn)科研社群進(jìn)行在線討論。
徘徊型潛在參與者同樣感知社群文化基礎(chǔ)較低, 且對已有重用規(guī)則的熟悉程度為一般。服務(wù)方式可著重布局如下方面: ①加強(qiáng)學(xué)科/ 數(shù)據(jù)館員與一線科研人員的聯(lián)系, 如建立線上線下咨詢的專門通道, 便于及時詢問與解決用戶疑問, 提升服務(wù)響應(yīng)能力; ②整合網(wǎng)絡(luò)資源, 形成較為系統(tǒng)化的學(xué)習(xí)資源列表, 可根據(jù)學(xué)科分類細(xì)化數(shù)據(jù)重用資源的監(jiān)管服務(wù), 形成自助式查詢?nèi)肟冢?以幫助參與意愿較高的科研人員快速了解、規(guī)范開展科研數(shù)據(jù)重用活動。
搖擺型潛在參與者在態(tài)度、感知社群文化基礎(chǔ)和規(guī)則熟悉程度方面均偏低。可主要采取如下優(yōu)化服務(wù): ①以云盤的方式提供數(shù)據(jù)存儲服務(wù), 幫助科研用戶解決在科研過程中的固有存儲需求; ②在數(shù)據(jù)存儲平臺上集成數(shù)據(jù)管理功能, 從而達(dá)到“用戶引流” 的效果。鼓勵用戶探索與使用相關(guān)數(shù)據(jù)管理功能, 采取向?qū)Х绞礁玫匾龑?dǎo)科研人員規(guī)范地開展數(shù)據(jù)重用工作; ③數(shù)據(jù)中心、圖書館也要通過線上線下的各種渠道, 推送開放數(shù)據(jù)重用的系列文章, 并且在開展宣傳的同時給出開展數(shù)據(jù)重用完整流程的指導(dǎo)文檔列表, 便于用戶“按圖索驥” 地進(jìn)行系統(tǒng)式學(xué)習(xí)。
4.2 “梯度化”的數(shù)據(jù)重用實(shí)踐服務(wù)
4.2.1 初級階段: 以數(shù)據(jù)發(fā)現(xiàn)、重用教育為主的多場景、即期科研數(shù)據(jù)實(shí)踐輔助服務(wù)
分析結(jié)果發(fā)現(xiàn), 有重用經(jīng)驗(yàn)的組別除對數(shù)據(jù)知識庫使用規(guī)則較為熟悉外, 在開放個人數(shù)據(jù)集的態(tài)度、發(fā)現(xiàn)已有數(shù)據(jù)集、使用已有數(shù)據(jù)集的要求方面,均落后于非重用過他人數(shù)據(jù)的組別。因此, 在數(shù)據(jù)重用實(shí)踐服務(wù)的初級階段, 可由圖書館、數(shù)據(jù)中心發(fā)布和維護(hù)定期更新的重用數(shù)據(jù)資源列表, 呼吁其所屬高?;蚩蒲袡C(jī)構(gòu), 將數(shù)據(jù)集檢索、數(shù)據(jù)重用要求等方面知識納入通識的信息素養(yǎng)教育課程內(nèi)容大綱, 面向已有重用經(jīng)驗(yàn)的科研群體也要制定基礎(chǔ)數(shù)據(jù)重用知識的方案; 有條件的機(jī)構(gòu)也可先行探索開設(shè)相關(guān)課程資源, 并通過開放教育資源的形式進(jìn)行共享或通過專題研討會的形式開展交流。同時, 各類型信息服務(wù)機(jī)構(gòu)可以增強(qiáng)生物學(xué)領(lǐng)域不同崗位狀態(tài)科研人員的數(shù)據(jù)重用能力為目標(biāo), 設(shè)計(jì)提供培訓(xùn)型、指南型、最佳實(shí)踐工具箱, 或直接為開展一對一參考咨詢提供實(shí)踐輔助服務(wù), 以實(shí)現(xiàn)自下而上的數(shù)據(jù)重用文化構(gòu)建。
4.2.2 中級階段: 以擴(kuò)大體驗(yàn)、有序供給為主的多輪、短期科研數(shù)據(jù)重用沉浸式體驗(yàn)服務(wù)
分析結(jié)果發(fā)現(xiàn), 當(dāng)前我國生物學(xué)領(lǐng)域科研數(shù)據(jù)重用活動中占比最大的用戶群體為搖擺型參與者(258, 85. 71%)。因此, 在促進(jìn)數(shù)據(jù)重用實(shí)踐服務(wù)的中級階段, 要以解決其最迫切的存儲需求為主,同時拓展提供數(shù)據(jù)采集、加工、挖掘、應(yīng)用等不同階段的配套服務(wù), 使更多“搖擺者” 在科研生命周期的各環(huán)節(jié)中都能隨時了解和參與到數(shù)據(jù)重用實(shí)踐中。圖書館或數(shù)據(jù)中心為其所屬機(jī)構(gòu)提供數(shù)據(jù)重用相關(guān)課件素材時, 要兼顧不同學(xué)科的數(shù)據(jù)類型、內(nèi)容復(fù)雜程度、用戶數(shù)據(jù)分析能力等維度, 從而更加有效地吸引“搖擺者” 的參與; 針對科研數(shù)據(jù)重用過程中用戶擔(dān)心的權(quán)益問題, 信息服務(wù)機(jī)構(gòu)可聯(lián)合相關(guān)知識產(chǎn)權(quán)組織機(jī)構(gòu), 共同收集最佳實(shí)踐案例或編制具有梯度層次的重用權(quán)益指南, 從而為“搖擺者” 提供可自查、易應(yīng)用的權(quán)益指導(dǎo); 嘗試通過多媒體資源形式進(jìn)行項(xiàng)目設(shè)置, 增加數(shù)據(jù)重用實(shí)踐的趣味性和互動性, 更好地吸引“搖擺者” 的參與。
4.2.3 高級階段: 以增加記憶點(diǎn)的數(shù)據(jù)重用社群文化構(gòu)建為主的中長期項(xiàng)目服務(wù)
分析結(jié)果發(fā)現(xiàn), 專職科研人員有更多的數(shù)據(jù)重用經(jīng)驗(yàn), 但其在態(tài)度、感知規(guī)則熟悉程度和感知服務(wù)支持措施有效性等方面的自我報(bào)告得分均略低于碩博生組別。這表明, 當(dāng)前我國生物學(xué)領(lǐng)域社群文化基礎(chǔ)較弱, 后續(xù)對于科研數(shù)據(jù)重用的宣傳可以從提升科研用戶的記憶點(diǎn)、提供多樣化的服務(wù)方式以及加強(qiáng)科研數(shù)據(jù)管理機(jī)構(gòu)對用戶社群數(shù)據(jù)重用的支持程度等方面展開, 例如, 有效利用圖書館網(wǎng)站、數(shù)據(jù)中心平臺、微信公眾號等各類社交媒體[38] ,每周組織專業(yè)團(tuán)隊(duì)舉辦開放咨詢?nèi)栈顒拥龋?同時可以采用迭代設(shè)計(jì)[39] 的方式來創(chuàng)新科研數(shù)據(jù)重用實(shí)踐服務(wù)。首先面向承擔(dān)更加復(fù)雜數(shù)據(jù)重用任務(wù)的團(tuán)隊(duì)開展調(diào)研, 以識別科研用戶不同的需求層次以及在權(quán)益管理方面的“痛點(diǎn)”, 形成原型化的科研數(shù)據(jù)服務(wù)產(chǎn)品, 包括但不限于相關(guān)培訓(xùn)資源、相關(guān)服務(wù)平臺、沉浸式案例參與工作坊; 隨后對相關(guān)科研數(shù)據(jù)服務(wù)原型產(chǎn)品的應(yīng)用效果開展后續(xù)多輪反饋收集, 從而進(jìn)一步優(yōu)化現(xiàn)有服務(wù)并開發(fā)新服務(wù), 保持用戶社群的長期有效記憶。
5 結(jié)論
數(shù)據(jù)重用的最終目標(biāo)是促進(jìn)形成數(shù)據(jù)可持續(xù)流動的生態(tài)系統(tǒng)。基于實(shí)證結(jié)果, 筆者建議對數(shù)據(jù)重用實(shí)踐建構(gòu)的典型路徑進(jìn)行內(nèi)容擴(kuò)充, 即在“自上而下” 的環(huán)境規(guī)范基礎(chǔ)上(如: 政策、基礎(chǔ)設(shè)施、規(guī)范化流程、包含貢獻(xiàn)確認(rèn)在內(nèi)的激勵措施等內(nèi)容), 更應(yīng)注意“自下而上” 的數(shù)據(jù)流動(如數(shù)據(jù)開放端和監(jiān)管端的質(zhì)量控制, 數(shù)據(jù)重用端的合規(guī)使用與循環(huán)開放等服務(wù)方式), 從而形成由數(shù)據(jù)資源和數(shù)據(jù)工具的應(yīng)用所帶來的一整套社會、技術(shù)、行為、文化方面的內(nèi)容體系(也即數(shù)據(jù)文化)[40-41] 。目前, 國內(nèi)的部分科研院所已開始探索數(shù)據(jù)發(fā)現(xiàn)、專題服務(wù)、數(shù)據(jù)分析等集成功能, 從而進(jìn)一步完善科研人員在重用實(shí)踐中的體驗(yàn)[42] , 這類集成化生態(tài)建構(gòu), 是一種有益的服務(wù)實(shí)踐探索。
數(shù)據(jù)重用文化的培育對營造良好數(shù)據(jù)生態(tài)至關(guān)重要, 它是推行政策制度和開展實(shí)踐行動的重要保障。在我國現(xiàn)有數(shù)據(jù)環(huán)境下, 需根據(jù)用戶群體“由簡至難” 的層次化重用需求, 提供包括但不限于開發(fā)課程資源、提供工具系統(tǒng)、制定科研績效評定激勵措施、收集最佳實(shí)踐案例、編制數(shù)據(jù)重用實(shí)踐案例講解手冊[43] 、開展數(shù)據(jù)敘事的小型工作坊等相關(guān)服務(wù), 同時也可借用當(dāng)前發(fā)展迅速的人工智能技術(shù), 配置有關(guān)數(shù)據(jù)重用權(quán)益管理方面自助問答服務(wù), 使得具體學(xué)科中的宣傳教育、工具服務(wù)、政策機(jī)制與社群中的重用文化氛圍相互促進(jìn)發(fā)展。
本研究不足在于, 目前僅通過某一學(xué)科領(lǐng)域?qū)嵺`討論數(shù)據(jù)重用文化建構(gòu)的培育路徑, 在結(jié)論普適性方面尚需探索。未來研究可關(guān)注對相似學(xué)科領(lǐng)域的對比性分析, 深入探索我國實(shí)踐情境下數(shù)據(jù)重用文化建構(gòu)體系。
致謝:感謝中國科學(xué)院文獻(xiàn)情報(bào)中心顧立平研究員、梁永霞編審在本文寫作過程中給予的相關(guān)建設(shè)性意見。