田 偉 韓海濤(天津工業(yè)大學(xué)檔案館,天津,300387)
?
大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新研究*
——基于天津高校檔案數(shù)據(jù)變化
田偉韓海濤
(天津工業(yè)大學(xué)檔案館,天津,300387)
[摘要]大數(shù)據(jù)時(shí)代為檔案館帶來了新的機(jī)遇與挑戰(zhàn)。文章通過對(duì)2011至2014年天津市高校檔案館館藏資源及其利用情況的實(shí)際統(tǒng)計(jì)調(diào)研,分析了當(dāng)前大學(xué)檔案館用戶需求的變化趨勢(shì),進(jìn)而提出了大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新策略:構(gòu)建用戶需求感知引擎、拓展深化檔案數(shù)據(jù)服務(wù)內(nèi)涵、推進(jìn)檔案?jìng)€(gè)性化服務(wù)實(shí)施。
[關(guān)鍵詞]大數(shù)據(jù)檔案用戶協(xié)同過濾高校檔案?jìng)€(gè)性化服務(wù)[分類號(hào)]G271
大數(shù)據(jù)時(shí)代已經(jīng)來臨,未來檔案館的核心競(jìng)爭(zhēng)力很大程度上取決于將檔案數(shù)據(jù)轉(zhuǎn)化為信息和知識(shí)的速度與能力。檔案館作為社會(huì)上存儲(chǔ)信息、提供信息服務(wù)的信息中心,必須主動(dòng)利用這些變化來進(jìn)行戰(zhàn)略性創(chuàng)新以滿足需求、創(chuàng)造未來[1]。
在這樣的時(shí)代背景下,檔案館要積極研究如何將現(xiàn)有的檔案館建設(shè)成為依靠歸集存儲(chǔ)大數(shù)據(jù)的“數(shù)據(jù)倉(cāng)庫(kù)”和實(shí)現(xiàn)大數(shù)據(jù)增值的“數(shù)據(jù)銀行”,并使檔案工作者由“一把鎖”提升為數(shù)據(jù)科學(xué)家。只有實(shí)現(xiàn)這樣的歷史性進(jìn)步,才能真正實(shí)現(xiàn)檔案館的可持續(xù)發(fā)展。
為此,本文從分析當(dāng)前檔案用戶現(xiàn)實(shí)需求入手,以天津高校檔案工作統(tǒng)計(jì)數(shù)據(jù)為切入點(diǎn),分析當(dāng)前檔案工作為迎接大數(shù)據(jù)時(shí)代而應(yīng)采取的策略。提出檔案館目前應(yīng)當(dāng)立即著手在感知用戶需求、拓展檔案數(shù)據(jù)服務(wù)內(nèi)涵、實(shí)施個(gè)性化檔案數(shù)據(jù)服務(wù)三個(gè)方面開展相關(guān)研究與實(shí)踐工作。
為了調(diào)查天津普通高校檔案館館藏資源及其利用情況,我們專門設(shè)計(jì)了相關(guān)的調(diào)查問卷,問卷中包含館藏資源、利用情況統(tǒng)計(jì)等內(nèi)容,從各個(gè)維度體現(xiàn)了當(dāng)前天津高校檔案館資源及運(yùn)行總體狀況。
此次調(diào)查的范圍涵蓋天津的20所普通高校,調(diào)查所覆蓋的時(shí)間跨度為2011年度至2014年度。
文章分別從利用檔案類別、利用目的、利用者身份等維度進(jìn)行分析,并以卷次及人次為單位進(jìn)行統(tǒng)計(jì)。
首先,根據(jù)利用檔案的類別,對(duì)2011年度至2014年度的天津高校檔案利用情況進(jìn)行統(tǒng)計(jì)并生成2011 至2014年度天津高校檔案分類別利用趨勢(shì)圖(圖1)。
從圖1可以看出,2011至2014年度內(nèi),對(duì)檔案利用的總量(卷次)呈現(xiàn)比較快的增長(zhǎng)勢(shì)頭。其中教學(xué)檔案一直保持高位增長(zhǎng)狀態(tài),而財(cái)會(huì)檔案在2014年度有一個(gè)較快增長(zhǎng),行政檔案與黨群檔案在利用數(shù)量上比較接近,均呈現(xiàn)平穩(wěn)增長(zhǎng)的勢(shì)頭,其他類別的檔案利用數(shù)量相對(duì)較少,處于低位增長(zhǎng)狀態(tài)。
再根據(jù)利用檔案的人次,對(duì)2011年度至2014年度天津高校檔案利用情況進(jìn)行統(tǒng)計(jì),生成2011至2014年度天津高校檔案分類別利用趨勢(shì)圖(圖2)。
圖1 天津市普通高校檔案分類別利用趨勢(shì)圖(卷次)
圖2 天津市普通高校檔案分類別利用趨勢(shì)圖(人次)
如圖2所示,2011至2014年度內(nèi),來館利用檔案的人次數(shù)量不斷增長(zhǎng)。其中,對(duì)教學(xué)檔案利用的人次最多、增長(zhǎng)最快,遠(yuǎn)高于其他類型的檔案利用人次。對(duì)高校其他類別檔案利用的人數(shù)處于低速增長(zhǎng)狀態(tài)。
對(duì)于上述的檔案利用,我們以下從檔案利用目的角度進(jìn)行分析?;诶媚康牡母咝n案利用卷次趨勢(shì)變化圖如圖3所示。
以人次為單位統(tǒng)計(jì)的不同檔案利用目的情況變化趨勢(shì)圖如圖4。
最后,2011至2014年度天津高校檔案利用主體變化趨勢(shì)圖如圖5所示。
其中,我們對(duì)2014年度天津高校檔案利用主體構(gòu)成情況生成比例圖如圖6所示。
(1)從2011年至2014年天津高校館藏資源增長(zhǎng)較快。截止2011年初,20所普通高校檔案館共擁有檔案584685卷,與2014年底檔案數(shù)量相比,同比增長(zhǎng)約15﹪。根據(jù)我們所統(tǒng)計(jì)的數(shù)據(jù),其中具體的檔案種類相應(yīng)也分別有較大增長(zhǎng),篇幅所限在此不詳細(xì)列出。其中館藏電子文件的數(shù)量增長(zhǎng)幅度最快,這反映了大數(shù)據(jù)時(shí)代的來臨。
(2)從利用檔案類別看,天津高校教學(xué)檔案利用卷次及人次數(shù)量均居首位,且逐年增長(zhǎng)。黨群檔案、行政檔案以及財(cái)會(huì)檔案的利用卷次也比較多。而從利用人次角度考察,這四類檔案中,對(duì)教學(xué)檔案利用的人次最多,遠(yuǎn)高于對(duì)其他三類檔案的利用人次。這表明了對(duì)于教學(xué)檔案的利用呈現(xiàn)頻繁、分散的特點(diǎn)。而對(duì)黨群檔案、行政檔案及財(cái)會(huì)檔案的利用,則呈現(xiàn)利用集中、每次利用數(shù)量大的特點(diǎn)。這反映了當(dāng)前高校檔案館承擔(dān)校務(wù)管理決策和師生辦理事務(wù)信息支持的重要職能,表明檔案館業(yè)務(wù)與本單位主要職能聯(lián)系最為緊密,應(yīng)圍繞這個(gè)原則拓展大數(shù)據(jù)的檔案服務(wù)。
(3)從利用檔案目的角度分析,以行政管理為目的的利用卷次最多,而以學(xué)籍證明為目的的利用人次最多,這進(jìn)一步說明了兩類利用的不同特點(diǎn),表明了高校檔案館應(yīng)同時(shí)具備與完善頻繁分散和突發(fā)集中兩種信息服務(wù)模式,并緊密圍繞檔案用戶需求和利用目的,推進(jìn)數(shù)字化以及智慧檔案館建設(shè)工作。
(4)對(duì)于檔案利用主體的變化與構(gòu)成,我們可以看到4年間天津高校檔案館用戶構(gòu)成基本穩(wěn)定,檔案利用需求最大的是畢業(yè)生和在校生,這也符合我們上述關(guān)于教學(xué)檔案利用頻繁分散特點(diǎn)的分析。因此高校檔案館面對(duì)大數(shù)據(jù)時(shí)代進(jìn)行服務(wù)創(chuàng)新時(shí),應(yīng)立足于自身主要的服務(wù)對(duì)象,推進(jìn)高校檔案服務(wù)用戶滿意度提升,努力消除當(dāng)前“信息孤島”和“煙囪工程”現(xiàn)象,全面考慮各類服務(wù)對(duì)象的特點(diǎn),構(gòu)成大數(shù)據(jù)時(shí)代服務(wù)體系。
根據(jù)上述調(diào)查與分析,在目前檔案工作的基礎(chǔ)上,面對(duì)大數(shù)據(jù)時(shí)代背景,高校檔案館應(yīng)著重在以下幾個(gè)方面實(shí)施創(chuàng)新策略:
(1)構(gòu)建檔案用戶信息需求感知引擎
讓用戶根據(jù)自身的信息需求、獲得所需的檔案數(shù)據(jù)資源,這是大數(shù)據(jù)時(shí)代檔案服務(wù)由“供給導(dǎo)向”向“需求導(dǎo)向”發(fā)展[2]的歷史要求。而目前我們通過調(diào)查發(fā)現(xiàn),對(duì)檔案用戶利用需求情況的感知,往往采用事后統(tǒng)計(jì)分析的方式,缺乏自動(dòng)的、智能的系統(tǒng)與機(jī)制。這造成檔案館無法對(duì)用戶的需求進(jìn)行即時(shí)獲取并快速作出反應(yīng)。而且,當(dāng)前各檔案館對(duì)用戶的檔案需求記錄與分析也很不詳細(xì)。因此,檔案館應(yīng)當(dāng)立即著手建立對(duì)檔案用戶信息需求進(jìn)行即時(shí)感知、適時(shí)反應(yīng)的信息系統(tǒng)及其配套機(jī)制,即用戶信息需求感知引擎。
圖3 天津市普通高校檔案利用需求目的變化趨勢(shì)圖(卷次)
圖4 天津市普通高校檔案利用需求目的統(tǒng)計(jì)分布圖(人次)
圖5 天津市普通高校檔案利用主體趨勢(shì)圖
圖6 2014年度天津普通高校檔案利用主體構(gòu)成圖
以高校檔案館為例,應(yīng)在實(shí)現(xiàn)數(shù)字化工程的基礎(chǔ)上,建立記錄用戶特征、檔案利用行為、用戶對(duì)檔案評(píng)價(jià)等數(shù)據(jù)的信息系統(tǒng),并建立與完善相應(yīng)的配套制度和應(yīng)用場(chǎng)景,從而形成高校檔案用戶需求感知引擎。對(duì)于檔案用戶需求,變事后統(tǒng)計(jì)為實(shí)時(shí)感知,獲知用戶視角下當(dāng)前檔案服務(wù)的優(yōu)點(diǎn)與不足。同時(shí)感知引擎所收集的數(shù)據(jù),可使檔案館獲得對(duì)用戶未來需求的預(yù)測(cè)能力,并據(jù)此采取相應(yīng)的策略與行動(dòng),這是大數(shù)據(jù)時(shí)代智慧檔案館的重要特征之一。
(2)拓展與深化檔案數(shù)據(jù)服務(wù)的內(nèi)涵
大數(shù)據(jù)時(shí)代要求檔案館重新審視所面對(duì)數(shù)據(jù)的價(jià)值,應(yīng)肩負(fù)起數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)銀行的歷史使命。為此,檔案館首先應(yīng)當(dāng)拓展大數(shù)據(jù)時(shí)代檔案數(shù)據(jù)收集的范圍與內(nèi)容。很顯然,只有將大數(shù)據(jù)資源切實(shí)納入檔案范疇之內(nèi),才談得上實(shí)現(xiàn)真正的“大數(shù)據(jù)檔案”。
相關(guān)研究表明[3],感知式系統(tǒng)數(shù)據(jù)是大數(shù)據(jù)資源的主要來源,體現(xiàn)了大數(shù)據(jù)的內(nèi)在價(jià)值。然而,當(dāng)前檔案館藏制度與實(shí)踐還基本沒有囊括該類型的數(shù)據(jù)。例如高校檔案的收集與服務(wù)主要集中于運(yùn)營(yíng)式系統(tǒng),即發(fā)生校務(wù)活動(dòng)進(jìn)而記錄產(chǎn)生數(shù)據(jù),如上述的教學(xué)檔案、黨群檔案、行政檔案等等。而對(duì)于大數(shù)據(jù)時(shí)代的高校檔案館,應(yīng)當(dāng)面向大數(shù)據(jù)時(shí)代的師生活動(dòng)及用戶需求,根據(jù)用戶信息需求感知引擎等方面的數(shù)據(jù),適時(shí)拓展現(xiàn)有檔案分類體系下檔案的收集范圍與內(nèi)容。特別是應(yīng)在傳統(tǒng)檔案收集的基礎(chǔ)上,加強(qiáng)對(duì)用戶原創(chuàng)內(nèi)容和感知式系統(tǒng)數(shù)據(jù)的收集。例如:反映學(xué)生思想活動(dòng)的校內(nèi)論壇數(shù)據(jù)、校園運(yùn)行情況監(jiān)測(cè)數(shù)據(jù)、校內(nèi)無線終端運(yùn)動(dòng)定位信息、師生教學(xué)行為數(shù)據(jù)等。這需要高校檔案館從檔案收集制度、存儲(chǔ)方式、服務(wù)內(nèi)容等方面進(jìn)行全面地推進(jìn)。而這樣做的目的,是為了使檔案館的館藏切實(shí)囊括大數(shù)據(jù)時(shí)代所產(chǎn)生的信息,不使大數(shù)據(jù)面臨因無處長(zhǎng)期保存而滅失的局面。特別是一些大數(shù)據(jù)只有經(jīng)過一段時(shí)間的連續(xù)存儲(chǔ)或是集中分析后,才能從中抽取有價(jià)值的信息。因此檔案館應(yīng)成為保存大數(shù)據(jù)資源可靠、安全的數(shù)據(jù)倉(cāng)庫(kù)。
在此基礎(chǔ)上,檔案館應(yīng)努力使自己具備一定的數(shù)據(jù)挖掘處理能力,以滿足各部門對(duì)大數(shù)據(jù)抽取知識(shí)、支持決策等方面的需要。只有大數(shù)據(jù)能夠轉(zhuǎn)化成為高校的決策依據(jù)或事務(wù)支持信息的時(shí)候,才是大數(shù)據(jù)真正顯示其魅力的時(shí)候。這就如同銀行中保有的貨幣資金流轉(zhuǎn)起來方才會(huì)產(chǎn)生效益一樣。因此,檔案館應(yīng)努力從資源整合、人員配備、技術(shù)進(jìn)步等方面提升自身大數(shù)據(jù)分析處理能力,將自身建設(shè)成為能夠?qū)崿F(xiàn)館藏?cái)?shù)據(jù)增值的數(shù)據(jù)銀行,從而深化檔案數(shù)據(jù)服務(wù)的內(nèi)涵。由此可見,對(duì)大數(shù)據(jù)的妥善長(zhǎng)期存儲(chǔ)及其知識(shí)抽取是檔案館面臨的新的重要任務(wù),是大數(shù)據(jù)時(shí)代校務(wù)活動(dòng)對(duì)檔案館藏?cái)?shù)據(jù)服務(wù)的必然要求。
(3)推進(jìn)個(gè)性化檔案數(shù)據(jù)服務(wù)
實(shí)現(xiàn)個(gè)性化服務(wù)是大數(shù)據(jù)時(shí)代智慧檔案館的一項(xiàng)重要特征。而檔案服務(wù)的個(gè)性化關(guān)鍵核心應(yīng)當(dāng)是用戶所獲信息的個(gè)性化。當(dāng)前一些相關(guān)研究中[4]已經(jīng)對(duì)檔案用戶個(gè)性化信息利用模型等問題進(jìn)行了一定的研究。因此,我們進(jìn)一步提出在劃分檔案用戶信息需求類型的基礎(chǔ)上,采取相應(yīng)具體的個(gè)性化實(shí)現(xiàn)技術(shù)與服務(wù)策略。
根據(jù)上文統(tǒng)計(jì),高校檔案利用活動(dòng)從總體上可以分為兩大類:
一、文研利用。用戶出于文化研究或汲取知識(shí)目的,查詢某一主題的檔案資料。如上述的學(xué)術(shù)研究、編修史志、宣傳教育等均屬于這一類別。其特點(diǎn)是用戶的需求主要基于自身活動(dòng)的興趣,檢索檔案結(jié)果往往范圍分布較大、目標(biāo)不特定,且一般直接尋求檔案數(shù)據(jù)文件。該場(chǎng)景用戶對(duì)獲取檔案信息的個(gè)性化程度、新穎性要求較高。
二、事務(wù)利用。用戶因辦理某事務(wù)在檔案系統(tǒng)中檢索所需的檔案資料。上述行政管理、經(jīng)濟(jì)建設(shè)、學(xué)籍證明等屬于這一類別。與上述文研利用特點(diǎn)不同,事務(wù)利用的特點(diǎn)是檔案檢索主要基于用戶因某事務(wù)辦理而對(duì)檔案產(chǎn)生的剛性需求,用戶所需檔案文件集合內(nèi)容比較確定,且需求往往是先映射到類再尋求具體數(shù)據(jù)文件。即用戶的檔案需求在類別上有共性、在具體文件上有個(gè)性。該場(chǎng)景對(duì)獲取檔案信息的貼切性、配套性要求較高。
因此,高校檔案館提供個(gè)性化服務(wù)時(shí),可采取不同的個(gè)性化信息推薦策略。例如,可基于協(xié)同過濾技術(shù)[5],對(duì)文研利用用戶采用與新聞、電影、圖書等相似的推薦策略[6]。而對(duì)于事務(wù)利用用戶,可對(duì)傳統(tǒng)的協(xié)同過濾技術(shù)進(jìn)行變形,采用先將用戶需求映射到檔案類,再根據(jù)用戶屬性檢索所需文件的推薦策略。而這無疑要求高校檔案館建設(shè)檔案數(shù)據(jù)個(gè)性化推薦系統(tǒng),將檔案信息的獲取從當(dāng)前單一檢索方式推進(jìn)到智能信息推薦時(shí)代。同時(shí)圍繞該系統(tǒng)建設(shè)配套制度體系,從而形成和部署檔案館個(gè)性化服務(wù)體系。
*本文系2014年度國(guó)家檔案局科技項(xiàng)目“大數(shù)據(jù)時(shí)代檔案館服務(wù)創(chuàng)新與發(fā)展趨勢(shì)研究”(課題編號(hào):2014-X-16)的階段性研究成果之一。
參考文獻(xiàn)
[1]周楓.大數(shù)據(jù)時(shí)代檔案館的特征及發(fā)展策略[J].檔案與建設(shè).2013(08):6-9.
[2]周楓.資源.技術(shù).思維——大數(shù)據(jù)時(shí)代檔案館的三維詮釋[J].檔案學(xué)研究.2013(06):61-64.
[3]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50 (1):146-169.
[4]萬(wàn)絢,方黑虎.Web2.0時(shí)代高校檔案館個(gè)性化信息利用模式及策略[J].檔案與建設(shè).2012(08):14-18.
[5]馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1282-1288.
[6]田偉,韓海濤.構(gòu)建個(gè)性化檔案數(shù)據(jù)服務(wù)引擎研究[J].檔案,2014(12):10-15.
田偉,南開大學(xué)計(jì)算機(jī)專業(yè)博士,講師,主要研究方向?yàn)閿?shù)據(jù)庫(kù)、信息安全、檔案管理。
韓海濤,天津工業(yè)大學(xué)教授,天津工業(yè)大學(xué)檔案館館長(zhǎng),主要研究方向?yàn)闄n案學(xué)、圖書情報(bào)學(xué)。
Research on the Big Data Era Archives Service Innovation Based on the University Archives Statistics Changes in Tianjin
Tian Wei,Han Haitao
(Archives of Tianjin Polytechnic University,Tianjin,300387)
Abstract:The Big Data era brings new opportunities and challenges for archives. This paper analyzes the archives users’demand characteristics according to the statistics of university archives in Tianjin from 2011 to 2014. Accordingly,it proposes archives service innovation strategy for the Big Data era,constructing archives user demands perception engine,broadening and deepening the archival data service content,promoting the implementation of personalized archives service.
Keywords:Big Data;Archives User;Collaborative Filtering;University Archives;Personalized Service
[作者簡(jiǎn)介]