国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的應(yīng)用探析

2021-08-23 02:55曹莎莎徐嵐劉涓
新世紀(jì)圖書館 2021年7期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

曹莎莎 徐嵐 劉涓

摘 要 隨著讀者需求驅(qū)動(dòng)采購在高校圖書館的應(yīng)用日益廣泛,隨之而來的經(jīng)費(fèi)超支、館藏結(jié)構(gòu)失衡等問題引起業(yè)界關(guān)注,為有效解決上述問題,文章通過探索機(jī)器學(xué)習(xí)方法在讀者需求驅(qū)動(dòng)采購中的應(yīng)用,構(gòu)建具體應(yīng)用框架,并從讀者、圖書、模型三個(gè)角度對應(yīng)用框架進(jìn)行拓展和延伸,分別描述不同角度下機(jī)器學(xué)習(xí)方法應(yīng)用于讀者需求驅(qū)動(dòng)采購的技術(shù)路線。研究表明將機(jī)器學(xué)習(xí)方法應(yīng)用于讀者需求驅(qū)動(dòng)采購,可以有效預(yù)測讀者需求、圖書觸發(fā)采購概率和館藏結(jié)構(gòu),從而實(shí)現(xiàn)節(jié)省圖書館經(jīng)費(fèi)、改善館藏結(jié)構(gòu)失衡的目標(biāo),事實(shí)證明其對圖書館采購決策和館藏建設(shè)有著積極的影響。關(guān)鍵詞 機(jī)器學(xué)習(xí) ?讀者需求驅(qū)動(dòng)采購 ?讀者決策采購 ?館藏建設(shè)

分類號 G253.1

DOI 10.16810/j.cnki.1672-514X.2021.07.012

Analysis on the Application of Machine Learning in Demand Driven Acquisition

Cao Shasha, ?Xu Lan, ?Liu Juan

Abstract With the wide application of demand driven acquisition in university libraries, the following problems such as over expenditure and unbalanced collection structure have attracted the attention of libraries. In order to solve the above problems effectively, the paper first puts forward a specific application framework by exploring the application of machine learning in demand driven acquisition, then expands and extends the application framework from the perspectives of readers, books and models, and respectively describes the technical route of the application of machine learning methods in demand driven acquisition from different angles. The research shows that the application of machine learning method in demand driven acquisition can effectively predict readers demand, the likelihood of books being triggered for purchase and collection structure, so as to achieve the goal of saving library funds and improving the imbalance of collection structure. Facts have proved that it has a positive impact on library procurement decision-making and collection construction.

KeywordsMachine learning. Demand driven acquisition. Patron driven acquisition. Collection development.

0 引言

圖書館一直有讀者參與圖書采購決策的傳統(tǒng),從讀者意見箱到線上薦購再到館際互借,但館藏建設(shè)的最終決策權(quán)仍在圖書館員身上。隨著讀者對文獻(xiàn)資源需求越來越高,電子出版物大量涌現(xiàn),與此同時(shí),圖書館經(jīng)費(fèi)收縮,現(xiàn)有館藏利用率較低,催生了讀者需求驅(qū)動(dòng)的圖書采購新模式[1](Demand Driven Acquisition,以下簡稱DDA)。ProQuest2018年發(fā)布題為“Why DDA is Here to Stay”的白皮書[2],對全世界449名圖書館員(其中99%的受訪者為高校圖書館員)開展調(diào)查,有93%的受訪者稱其圖書館采用多種電子書采購模式,92%的受訪者稱需求驅(qū)動(dòng)采購是其圖書館電子書的主要采購模式,可見讀者決策采購在國外圖書館,特別是高校圖書館扮演著越來越重要的角色,學(xué)界一致認(rèn)為該采購方法是對當(dāng)前館藏建設(shè)方法的有益補(bǔ)充[3]?,F(xiàn)有DDA研究主要集中于各機(jī)構(gòu)的實(shí)施案例和經(jīng)驗(yàn),研究發(fā)現(xiàn),依據(jù)讀者需求而非圖書館員對館藏的評估采購圖書,雖優(yōu)勢明顯,但其過程中的不可預(yù)見成本及館藏結(jié)構(gòu)失衡問題,對圖書館來說也是一種挑戰(zhàn),如俄亥俄州立大學(xué)圖書館的DDA試點(diǎn)項(xiàng)目投入25000美元,測試預(yù)計(jì)持續(xù)18周,結(jié)果在第五周經(jīng)費(fèi)已花完[4];猶他大學(xué)的DDA項(xiàng)目被3名用戶主導(dǎo),3人花了近1/3的年度經(jīng)費(fèi)[3]。由于不確定性廣泛存在,圖書館員一直在努力探索推動(dòng)DDA實(shí)踐的積極方法,大數(shù)據(jù)時(shí)代的到來為讀者需求驅(qū)動(dòng)采購提供了新的思路。

隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)快速增長,由此催生的數(shù)據(jù)科學(xué)研究方法和產(chǎn)品正在改變各行各業(yè),也包括圖書館業(yè)[5]?,F(xiàn)今不斷涌現(xiàn)的各種人工智能技術(shù)正在成為大數(shù)據(jù)獲取、預(yù)處理、存儲、分析或可視化的有效手段。機(jī)器學(xué)習(xí)作為人工智能的重要分支,是大數(shù)據(jù)時(shí)代必不可少的核心技術(shù),其在分析讀者數(shù)據(jù)、發(fā)現(xiàn)讀者需求、挖掘數(shù)據(jù)隱藏的結(jié)構(gòu)和關(guān)系上有著極大優(yōu)勢。當(dāng)前,機(jī)器學(xué)習(xí)在圖情領(lǐng)域的應(yīng)用主要有個(gè)性化信息推薦服務(wù)、智能信息檢索以及自動(dòng)文本分類等方面[6]。作為一種數(shù)據(jù)驅(qū)動(dòng)的采購模式,DDA涉及大量數(shù)據(jù),這些數(shù)據(jù)不僅能夠觸發(fā)購買行為,還可以通過機(jī)器學(xué)習(xí)方法對其分析和處理,判斷DDA模式是否符合圖書館預(yù)期,從而為讀者提供個(gè)性化服務(wù)、協(xié)助館藏建設(shè)決策制定,并對高校教學(xué)科研產(chǎn)生積極的影響。

1 讀者需求驅(qū)動(dòng)采購的數(shù)據(jù)來源

讀者需求驅(qū)動(dòng)采購源于館際互借,典型的DDA項(xiàng)目始于預(yù)設(shè)文檔的構(gòu)建,預(yù)設(shè)文檔類似于綱目購書(Approval Plan)的綱目,圖書館可以根據(jù)圖書的主題、價(jià)格、出版社及DDA服務(wù)商提供的其他限制設(shè)置預(yù)設(shè)文檔;服務(wù)商將符合預(yù)設(shè)文檔的MARC記錄導(dǎo)入到OPAC中,項(xiàng)目過程中可以增添或刪減書目記錄來調(diào)整DDA資源庫;隨后讀者能夠在終端看到圖書并根據(jù)自己需求觸發(fā)購買。DDA主要有兩種觸發(fā)購買模式:單觸發(fā)模型和短期借閱模型。前者基于讀者請求直接購買,即10-10-1-1-1范式,讀者在某本書上停留10分鐘、查看10頁、1次下載、1次打印或1次復(fù)印則觸發(fā)購買;后者在單次或數(shù)次短期借閱之后產(chǎn)生購買行為,每次短期借閱行為通常也符合10-10-1-1-1參數(shù),除最后一次以圖書標(biāo)價(jià)直接觸發(fā)購買外,每次短期借閱的價(jià)格一般為圖書標(biāo)價(jià)的20%~25%[7]??梢钥闯?,DDA在實(shí)施過程中涉及大量數(shù)據(jù),從賴以提供服務(wù)的館藏書目數(shù)據(jù)和學(xué)科建設(shè)數(shù)據(jù),到讀者相關(guān)數(shù)據(jù),再到讀者在利用圖書館的過程中產(chǎn)生的書目數(shù)據(jù)和流通數(shù)據(jù)等,對上述數(shù)據(jù)進(jìn)行收集和分析,有助于提高DDA決策的科學(xué)性和精準(zhǔn)性。

1.1 書目數(shù)據(jù)

讀者需求驅(qū)動(dòng)采購中的書目數(shù)據(jù)包括館藏書目數(shù)據(jù)和預(yù)購書目數(shù)據(jù)。館藏書目數(shù)據(jù)指的是館藏MARC數(shù)據(jù)和數(shù)字資源數(shù)據(jù),具體包括書名、作者、出版社、出版日期、編目日期、主題等內(nèi)容,該數(shù)據(jù)有助于了解館藏文獻(xiàn)類型分布、時(shí)間分布、學(xué)科分布及館藏特色資源。預(yù)購書目數(shù)據(jù)指的是DDA項(xiàng)目過程中預(yù)計(jì)采購圖書的書目數(shù)據(jù),即DDA資源庫中的書目數(shù)據(jù)。館藏書目數(shù)據(jù)和預(yù)購書目數(shù)據(jù)是制定DDA預(yù)設(shè)文檔的基礎(chǔ)。

1.2 讀者數(shù)據(jù)

讀者數(shù)據(jù)包含讀者身份數(shù)據(jù)、讀者行為數(shù)據(jù)和讀者偏好數(shù)據(jù)。讀者身份數(shù)據(jù)指的是讀者身份信息,如性別、年級、讀者類型、讀者所屬院系及專業(yè)等相關(guān)信息。讀者行為數(shù)據(jù)指的是讀者在利用圖書館資源中產(chǎn)生的行為數(shù)據(jù),如圖書瀏覽、借閱、數(shù)據(jù)庫訪問、請求、檢索、下載、評價(jià)等數(shù)據(jù)。讀者偏好數(shù)據(jù)指的是不同類型的讀者(本科生、研究生或教職人員)對不同類型、不同載體、不同學(xué)科圖書的偏好數(shù)據(jù)。讀者數(shù)據(jù)可以用于讀者畫像描述,構(gòu)建DDA讀者偏好模型。

1.3 流通數(shù)據(jù)

流通數(shù)據(jù)指的是館藏圖書的借還和續(xù)借數(shù)據(jù),是典型的靜態(tài)數(shù)據(jù)。流通數(shù)據(jù)可以用來識別高利用率館藏和低利用率館藏,判斷一本書的生命周期及館藏文獻(xiàn)半衰期[8],從而評估館藏,還可以了解不同讀者群體的閱讀傾向及其對圖書的偏好,掌握其潛在信息需求。流通數(shù)據(jù)可以和書目數(shù)據(jù)一起構(gòu)建圖書采購模型,還可以指導(dǎo)DDA預(yù)設(shè)文檔的建立,評估DDA效能以確定DDA是否按照預(yù)期執(zhí)行。

1.4 學(xué)科建設(shè)數(shù)據(jù)

學(xué)科建設(shè)數(shù)據(jù)指的是高校的學(xué)科專業(yè)設(shè)置和學(xué)科發(fā)展規(guī)劃、重點(diǎn)學(xué)科建設(shè)和教科研文獻(xiàn)需求等數(shù)據(jù)。學(xué)科建設(shè)數(shù)據(jù)可以同書目數(shù)據(jù)一起科學(xué)制定館藏建設(shè)策略,明確館藏建設(shè)的方向和重點(diǎn),指導(dǎo)DDA參數(shù)的設(shè)置,如按照學(xué)科、出版社、作者、出版時(shí)間等因素決定優(yōu)先采購何種文獻(xiàn)資源,使DDA決策和館藏建設(shè)方向一致,進(jìn)而完善館藏特色資源建設(shè)[9]。

1.5 門禁數(shù)據(jù)

門禁數(shù)據(jù)指的是讀者進(jìn)出圖書館的人次數(shù)據(jù),此類數(shù)據(jù)可以通過圖書館的門禁系統(tǒng)獲得,對該數(shù)據(jù)進(jìn)行收集、整理和分析可以得出到館讀者構(gòu)成,從而區(qū)分不同類型、不同年級、不同系部、不同專業(yè)讀者的入館比例等,提供準(zhǔn)確時(shí)段數(shù)據(jù)。借助于門禁數(shù)據(jù),圖書館可以根據(jù)讀者類型和到館人流變化趨勢制定服務(wù)策略。門禁數(shù)據(jù)可以同書目數(shù)據(jù)、學(xué)科建設(shè)數(shù)據(jù)、讀者數(shù)據(jù)和流通數(shù)據(jù)一起,輔助館藏決策制定。

2 機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的應(yīng)用框架

2.1 機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中應(yīng)用的優(yōu)勢

作為一種以數(shù)據(jù)為導(dǎo)向的方法,機(jī)器學(xué)習(xí)利用不同的理論模型和訓(xùn)練方法,從特定的行業(yè)數(shù)據(jù)中尋找隱含的規(guī)律,是一種依賴數(shù)據(jù)并能夠極大提升數(shù)據(jù)利用水平的重要智能信息技術(shù)。按照學(xué)習(xí)方式,機(jī)器學(xué)習(xí)可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。其中監(jiān)督學(xué)習(xí)是根據(jù)已知類別的數(shù)據(jù)來推斷未知數(shù)據(jù)的學(xué)習(xí)任務(wù),大致可分為回歸和分類兩大類,如邏輯回歸、K-近鄰、決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)等算法;無監(jiān)督學(xué)習(xí)沒有對訓(xùn)練數(shù)據(jù)進(jìn)行事先標(biāo)記,由機(jī)器自動(dòng)對輸入的數(shù)據(jù)進(jìn)行分類和分群,依靠訓(xùn)練集的統(tǒng)計(jì)規(guī)律實(shí)現(xiàn)數(shù)據(jù)的分析,常見的方法是聚類和降維,如K均值算法、主成分分析等;強(qiáng)化學(xué)習(xí)是完全隨機(jī)的操作,通過不斷嘗試,從錯(cuò)誤中學(xué)習(xí)最后找到規(guī)律[10]。在大數(shù)據(jù)和人工智能應(yīng)用的背景下,將機(jī)器學(xué)習(xí)技術(shù)有機(jī)地融入圖書館讀者需求驅(qū)動(dòng)采購工作,有利于提升信息時(shí)代館藏資源建設(shè)的智能化水平,為館藏建設(shè)帶來有益啟示。

讀者需求驅(qū)動(dòng)采購中涉及的數(shù)據(jù)既有宏觀層面的圖書和讀者群體的特征和行為數(shù)據(jù),也有微觀層面的讀者個(gè)性數(shù)據(jù),這些數(shù)據(jù)蘊(yùn)含了大量的特征、模式和關(guān)系,為讀者需求驅(qū)動(dòng)采購提供了重要依據(jù),也為機(jī)器學(xué)習(xí)提供了用武之地。通過機(jī)器學(xué)習(xí)方法對這些大數(shù)據(jù)進(jìn)行收集、分析和處理,可以提前預(yù)測讀者需求,在讀者沒有意識到需要何種圖書的時(shí)候購買該書,理解讀者不斷變化的偏好[11],能夠?yàn)镈DA預(yù)設(shè)文檔和館藏建設(shè)制定方向;可以節(jié)省DDA經(jīng)費(fèi),提高圖書館投資回報(bào)率;還能對DDA項(xiàng)目進(jìn)行評估,提高其應(yīng)用效能。

2.2 機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的應(yīng)用框架

機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的具體應(yīng)用框架如圖1所示,其中圖書館大數(shù)據(jù)是基礎(chǔ),機(jī)器學(xué)習(xí)是手段,滿足讀者需求和完善館藏結(jié)構(gòu)是目標(biāo)。該應(yīng)用框架分為三個(gè)階段,第一個(gè)階段是圖書館多源異構(gòu)數(shù)據(jù)的預(yù)處理和融合;第二階段針對讀者需求驅(qū)動(dòng)采購的具體環(huán)節(jié),利用不同的機(jī)器學(xué)習(xí)方法對數(shù)據(jù)進(jìn)行分析和處理,建立對應(yīng)的科學(xué)模型,通過模型在分類、聚類和預(yù)測等方面的深入應(yīng)用實(shí)現(xiàn)讀者需求驅(qū)動(dòng)采購的智能化和精準(zhǔn)化;第三階段是讀者需求驅(qū)動(dòng)采購的評估過程,重點(diǎn)是利用機(jī)器學(xué)習(xí)方法來評估圖書館大數(shù)據(jù)驅(qū)動(dòng)下讀者需求采購的效能。

2.2.1 數(shù)據(jù)預(yù)處理和融合

圖書館大數(shù)據(jù)是典型的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)來源和類型多樣,同時(shí)具有時(shí)間、空間和語義的多維度特征,往往無法直接被應(yīng)用于數(shù)據(jù)分析和建模[12]。DDA中的多源異構(gòu)數(shù)據(jù)包括書目數(shù)據(jù)、讀者數(shù)據(jù)、流通數(shù)據(jù)、學(xué)科建設(shè)數(shù)據(jù)和門禁數(shù)據(jù),這些數(shù)據(jù)既有靜態(tài)數(shù)據(jù),也有動(dòng)態(tài)數(shù)據(jù);既有結(jié)構(gòu)化數(shù)據(jù),也有半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),需要對其預(yù)處理和融合才能形成結(jié)構(gòu)完整、形式統(tǒng)一的數(shù)據(jù)格式。數(shù)據(jù)的預(yù)處理流程指的是對數(shù)據(jù)進(jìn)行清洗、集成、變換和規(guī)約,數(shù)據(jù)清洗通常對數(shù)據(jù)缺失值和異常值進(jìn)行處理,數(shù)據(jù)集成通常用于識別數(shù)據(jù)中的不一致和冗余屬性,數(shù)據(jù)變換是對原始數(shù)據(jù)進(jìn)行規(guī)范化處理,而數(shù)據(jù)規(guī)約是對原始數(shù)據(jù)進(jìn)行數(shù)據(jù)和屬性的約減。通過分類、回歸、聚類、關(guān)聯(lián)分析等機(jī)器學(xué)習(xí)方法對數(shù)據(jù)預(yù)處理和融合,可以提高數(shù)據(jù)的質(zhì)量,為后續(xù)的數(shù)據(jù)分析提供基礎(chǔ)和支撐。

2.2.2 模型建立

完整的讀者需求驅(qū)動(dòng)采購流程分為三個(gè)部分,依次是預(yù)設(shè)文檔構(gòu)建、導(dǎo)入符合預(yù)設(shè)文檔的MARC記錄、讀者觸發(fā)購買。其中預(yù)設(shè)文檔的構(gòu)建跟圖書密切相關(guān),具體購買行為則與讀者密切相關(guān),對圖書和讀者分別進(jìn)行分析可以建立相應(yīng)的圖書預(yù)測模型和讀者偏好模型。

讀者分析模塊中,讀者在利用圖書館資源的過程中產(chǎn)生系列數(shù)據(jù),這些數(shù)據(jù)既包含讀者顯性興趣,也包含其隱性需求傾向,這類讀者偏好信息無法被主動(dòng)獲取。借助于機(jī)器學(xué)習(xí)方法中的監(jiān)督學(xué)習(xí)方法,從讀者屬性、歷史行為等方面抽取出關(guān)鍵的特征,利用這些數(shù)據(jù)和特征訓(xùn)練得到讀者偏好模型,該模型能計(jì)算出讀者對圖書的喜好概率,從而更加準(zhǔn)確、有效地預(yù)測讀者需求。對于預(yù)購新書,可將其加入到讀者偏好模型中預(yù)測其被觸發(fā)購買的概率,根據(jù)項(xiàng)目經(jīng)費(fèi)確定是否需要將該書加入DDA資源庫,以防經(jīng)費(fèi)超支;還可以通過該模型對館藏資源進(jìn)行效用評價(jià),確定館藏資源是否符合讀者需求及館藏建設(shè)目標(biāo),改善館藏結(jié)構(gòu)失衡。

圖書分析模塊中,通過對圖書的題名、責(zé)任者、出版社、主題、出版時(shí)間等屬性信息進(jìn)行深入挖掘和分析,掌握不同屬性的圖書利用情況。將圖書的屬性信息抽取出來構(gòu)成關(guān)鍵的特征,不同特征的組合可以用來表示不同的圖書,由于缺乏足夠的先驗(yàn)知識,開始可以利用無監(jiān)督學(xué)習(xí)的算法如聚類分析,區(qū)分出不同的圖書群體,并且概括出同一類圖書的特點(diǎn),把注意力放在某一特定的類上以作進(jìn)一步的分析;或者可以利用關(guān)聯(lián)分析,分析圖書不同特征和實(shí)際利用效率的關(guān)聯(lián)關(guān)系,得到每一個(gè)特征和不同特征組合對圖書利用的影響,其后利用監(jiān)督學(xué)習(xí)的算法構(gòu)建圖書預(yù)測模型。對于預(yù)購圖書,可將其加入到模型中,預(yù)測是否會被購買以及多長時(shí)間會被購買,根據(jù)預(yù)測的觸發(fā)因素推斷詳細(xì)的經(jīng)費(fèi)支出,評估DDA經(jīng)費(fèi)分配或者調(diào)整預(yù)設(shè)文檔參數(shù)。

2.2.3 模型評估

讀者需求驅(qū)動(dòng)采購的評估過程,重點(diǎn)是利用機(jī)器學(xué)習(xí)方法來評估圖書館大數(shù)據(jù)驅(qū)動(dòng)下讀者需求采購不同環(huán)節(jié)在長期運(yùn)行后的實(shí)際效果。評估是對讀者需求驅(qū)動(dòng)采購的必要信息反饋,只有進(jìn)行評估才能知道讀者需求驅(qū)動(dòng)采購是否滿足預(yù)期效果,以及讀者偏好模型、圖書預(yù)測模型等機(jī)器學(xué)習(xí)背景下建立的模型是否能有效提高工作效率,從而構(gòu)成一個(gè)閉環(huán),促進(jìn)讀者需求驅(qū)動(dòng)采購的優(yōu)化。評估的核心是在各種靜態(tài)和動(dòng)態(tài)的圖書館大數(shù)據(jù)基礎(chǔ)上,引入機(jī)器學(xué)習(xí)在數(shù)據(jù)挖掘和數(shù)據(jù)建模方面的方法,驗(yàn)證讀者需求驅(qū)動(dòng)采購過程中所構(gòu)建讀者偏好模型和圖書預(yù)測模型的準(zhǔn)確性,運(yùn)用不同分類和聚類算法來衡量館藏資源結(jié)構(gòu)、圖書采購經(jīng)費(fèi)運(yùn)用是否合理,利用機(jī)器學(xué)習(xí)方法建立的模型預(yù)測館藏圖書以及讀者需求驅(qū)動(dòng)采購的圖書在當(dāng)前和未來的利用率。

3 機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的應(yīng)用模式

為將機(jī)器學(xué)習(xí)思想和算法引入讀者需求驅(qū)動(dòng)采購中,學(xué)界進(jìn)行了有益探索。Kohn[13]通過建立包含主題、出版社和供應(yīng)商的邏輯回歸模型確定何種因素最利于預(yù)測電子書的利用率;Walker[14]等人利用自適應(yīng)增強(qiáng)(AdaBoost)模型預(yù)測DDA項(xiàng)目中新書被觸發(fā)購買的可能性,其準(zhǔn)確率超過82%;Zhehan Jiang等人[15]利用基于隨機(jī)森林算法的生存分析預(yù)測圖書館新書是否會觸發(fā)購買及何時(shí)會被觸發(fā)購買,其中涉及出版社、出版時(shí)間、分類和價(jià)格等參數(shù)的復(fù)雜模型產(chǎn)生的AUC(一種測量預(yù)測模型預(yù)測能力的方法,AUC越接近1表明模型越完美)高于0.8,預(yù)測效果良好。然而,這些應(yīng)用模型存在手段單一、效果不顯著、應(yīng)用場景受限制等問題。本文對如何在數(shù)據(jù)驅(qū)動(dòng)下將讀者需求驅(qū)動(dòng)采購和機(jī)器學(xué)習(xí)進(jìn)行有機(jī)的結(jié)合開展了深入思考,總結(jié)了機(jī)器學(xué)習(xí)技術(shù)在讀者需求采購中的三個(gè)應(yīng)用方向,其一,基于讀者分析的應(yīng)用模式,重點(diǎn)研究如何深入分析和挖掘讀者數(shù)據(jù)中隱含的信息,利用機(jī)器學(xué)習(xí)的不同算法建立準(zhǔn)確的讀者偏好模型,提升讀者需求驅(qū)動(dòng)采購的智能化水平;其二,基于圖書分析的應(yīng)用模式,重點(diǎn)研究如何深入挖掘圖書采購和利用的規(guī)律,利用書目數(shù)據(jù)和流通數(shù)據(jù)建立圖書預(yù)測模型,提升讀者需求驅(qū)動(dòng)采購和利用的效率;其三,基于模型分析的應(yīng)用模式,重點(diǎn)研究如何針對讀者需求驅(qū)動(dòng)采購的不同環(huán)節(jié)需求,選擇合適的機(jī)器學(xué)習(xí)方法,準(zhǔn)備訓(xùn)練數(shù)據(jù)構(gòu)建最佳模型,實(shí)現(xiàn)對應(yīng)環(huán)節(jié)服務(wù)能力的全面提升。

3.1 基于讀者分析的應(yīng)用模式

基于讀者分析的應(yīng)用模式是從深入分析讀者的角度,利用圖書館大數(shù)據(jù)中讀者身份數(shù)據(jù)、讀者行為數(shù)據(jù)和讀者偏好數(shù)據(jù),經(jīng)預(yù)處理后依據(jù)不同的維度抽取出可以用來揭示讀者區(qū)別的特征,如讀者性別、年級、類型、專業(yè)等內(nèi)在特征,檢索行為、瀏覽行為、借閱行為和評價(jià)行為等動(dòng)態(tài)特征[16],以及閱讀興趣、閱讀習(xí)慣、教育目標(biāo)等深層次的特征,再利用不同的機(jī)器學(xué)習(xí)方法挖掘讀者的需求傾向,具體搭建下圖2所示的讀者偏好模型,該模型能實(shí)現(xiàn)預(yù)測圖書觸發(fā)采購概率、預(yù)測讀者閱讀行為和趨勢、評估現(xiàn)有館藏三大目標(biāo)。

3.1.1 預(yù)測圖書觸發(fā)采購概率

讀者偏好模型的重點(diǎn)是反映讀者對不同類型圖書的偏好程度,具體過程是分析讀者年級、專業(yè)等內(nèi)在特征數(shù)據(jù),如法律系的讀者可能更偏好法律類的圖書;或者分析讀者對圖書的檢索、瀏覽、借閱、評價(jià)等行為特征數(shù)據(jù),如借閱武俠小說多的讀者們比較偏好武俠小說;或者分析讀者閱讀目標(biāo)等深層次特征數(shù)據(jù),如低年級本科生偏好參考類圖書、高年級本科生偏好考研類圖書。讀者偏好模型一般可以訓(xùn)練決策樹、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等數(shù)學(xué)模型來表達(dá),其表現(xiàn)形式是不同讀者對不同圖書屬性(題名、作者、出版社、價(jià)格、出版時(shí)間等)或者屬性組合喜好的概率,如周志華著的《機(jī)器學(xué)習(xí)》一書,清華大學(xué)出版社2016年出版,通過該模型可以分別計(jì)算出喜歡該書以及不喜歡該書的讀者比例。日后對于預(yù)購圖書,都可以利用該模型分別計(jì)算出讀者對某本書每個(gè)屬性喜歡和不喜歡的概率,綜合得出該書的需求概率,從而做出購買與否決策。

3.1.2 預(yù)測讀者閱讀行為和趨勢

分析讀者行為歷史數(shù)據(jù),諸如檢索過哪些關(guān)鍵詞,借閱過哪些書,對哪些書進(jìn)行過點(diǎn)評,對檢索關(guān)鍵詞、圖書屬性和讀者評價(jià)進(jìn)行分析,統(tǒng)計(jì)讀者不同行為的分布特征,可以從側(cè)面反映出讀者的閱讀需求。讀者本質(zhì)上由性別、年齡、專業(yè)、年級、類型等特征進(jìn)行區(qū)分,將讀者上述本質(zhì)屬性與對應(yīng)的行為聯(lián)系起來,即挖掘讀者屬性和行為特征的關(guān)聯(lián),利用決策樹、貝葉斯分類等方法訓(xùn)練具體的讀者偏好模型。隨著讀者組成結(jié)構(gòu)的變化,讀者需求也隨之變化,而需求變化的規(guī)律將遵循讀者偏好模型所表達(dá)的規(guī)律,通過模型抽取出新的讀者屬性特征,經(jīng)過計(jì)算可以得到新的讀者需求變化趨勢,對讀者需求采購進(jìn)行指導(dǎo),提升采購智能化水平。此外,結(jié)合館藏流通數(shù)據(jù)和門禁數(shù)據(jù),可以得知不同時(shí)間段讀者對館藏文獻(xiàn)的需求,從而調(diào)整DDA項(xiàng)目的實(shí)施時(shí)間及經(jīng)費(fèi),如在讀者對館藏需求較高的時(shí)段開展DDA項(xiàng)目并適當(dāng)加大這一時(shí)期的經(jīng)費(fèi)投入。

3.1.3 評估現(xiàn)有館藏

分析讀者不同屬性特征的分布,建立讀者屬性和行為特征的關(guān)聯(lián),一般采用貝葉斯網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則等知識表示的手段來總結(jié)規(guī)律,構(gòu)建讀者偏好模型,利用上述模型實(shí)現(xiàn)對館藏圖書的深入分析。具體分析流程如下:館藏圖書經(jīng)過特征提取以后可由讀者偏好模型計(jì)算得到對應(yīng)的讀者需求概率,概率越高表示圖書被讀者借閱的概率越大,相應(yīng)的利用率也越高;概率越低表示圖書被借閱的概率越小,越有可能成為閑置資源。讀者偏好模型的建立,能夠?qū)︷^藏資源的整體效用進(jìn)行計(jì)算和評價(jià),明確現(xiàn)有館藏資源是否符合讀者的需求及館藏建設(shè)目標(biāo)。同時(shí)隨著讀者結(jié)構(gòu)的變化,該模型還能評估館藏圖書的結(jié)構(gòu)是否沿著滿足讀者需求的方向發(fā)展。

3.2 基于圖書分析的應(yīng)用模式

基于圖書分析的應(yīng)用模式從分析圖書的角度,以圖書館大數(shù)據(jù)中預(yù)購書目數(shù)據(jù)、館藏流通數(shù)據(jù)和館藏書目數(shù)據(jù)為基礎(chǔ),經(jīng)過預(yù)處理以后根據(jù)不同的維度抽取出可以用來區(qū)分圖書的特征,如題名、作者、出版社、價(jià)格、出版時(shí)間、借閱時(shí)間、借閱頻率等特征。在不直接依賴讀者偏好數(shù)據(jù)的前提下,深入挖掘圖書特征與圖書采購和利用之間潛在的規(guī)律,利用機(jī)器學(xué)習(xí)方法構(gòu)建圖書預(yù)測模型,實(shí)現(xiàn)圖書觸發(fā)采購、圖書流通趨勢和館藏資源結(jié)構(gòu)預(yù)測的目標(biāo),模型如圖3所示。

圖3 基于圖書分析的應(yīng)用模式

3.2.1 預(yù)測圖書觸發(fā)采購

分析圖書的題名、作者、出版社、價(jià)格、出版時(shí)間等特征,結(jié)合圖書被檢索、被借閱、被評價(jià)等歷史流通行為數(shù)據(jù),建立圖書屬性和流通數(shù)據(jù)之間的關(guān)聯(lián),一般采用貝葉斯網(wǎng)絡(luò)、決策樹、隨機(jī)森林等方法,建立圖書預(yù)測模型。模型表達(dá)的是滿足什么樣屬性值的圖書容易被讀者借閱,以及被讀者借閱的概率,如知名作者、權(quán)威出版社、近期出版的圖書被借閱的概率更大。對于預(yù)購圖書,首先提取其特征值,在圖書預(yù)測模型中檢索對應(yīng)的特征值或者特征值組合,計(jì)算得到對應(yīng)的被借閱概率,從而得出該書被采購的概率,這個(gè)值即該書被讀者需要的程度,從而實(shí)現(xiàn)圖書觸發(fā)采購概率預(yù)測。

3.2.2 預(yù)測圖書流通趨勢

通過對圖書屬性特征進(jìn)行區(qū)分,分析圖書不同的屬性在流通過程中的分布規(guī)律,如分析具備哪些特征或特征組合的圖書被借閱的概率更高,建立圖書屬性和圖書流通數(shù)據(jù)的關(guān)聯(lián),利用邏輯回歸、貝葉斯網(wǎng)絡(luò)、決策樹、隨機(jī)森林、關(guān)聯(lián)分析等機(jī)器學(xué)習(xí)方法,建立圖書預(yù)測模型。模型表達(dá)的是不同屬性和屬性組合的圖書在當(dāng)前環(huán)境下被借閱的概率,結(jié)合歷史流通數(shù)據(jù)預(yù)測未來一段時(shí)間內(nèi)館藏圖書將被借閱的概況,實(shí)時(shí)、精準(zhǔn)了解館藏需求的變化,實(shí)現(xiàn)預(yù)測圖書流通趨勢的目標(biāo)。

3.2.3 預(yù)測館藏資源結(jié)構(gòu)

與預(yù)測圖書觸發(fā)采購概率功能方法一致,采用貝葉斯網(wǎng)絡(luò)、決策樹、隨機(jī)森林等方法,建立圖書屬性和圖書被觸發(fā)采購的關(guān)聯(lián),構(gòu)建圖書采購預(yù)測模型。模型表達(dá)的是不同屬性值的圖書被觸發(fā)購買的概率,結(jié)合歷史觸發(fā)數(shù)據(jù)預(yù)測各類圖書被觸發(fā)購買的數(shù)量和比例,及時(shí)反應(yīng)館藏結(jié)構(gòu)的變化。隨著讀者需求的變化,該模型對館藏資源結(jié)構(gòu)的預(yù)測結(jié)果也將保持動(dòng)態(tài)更新,有利于圖書館及時(shí)調(diào)整館藏建設(shè)決策。

3.3 基于模型分析的應(yīng)用模式

基于模型分析的應(yīng)用模式是從不同機(jī)器學(xué)習(xí)算法的特點(diǎn)入手,面對讀者需求驅(qū)動(dòng)采購的不同業(yè)務(wù)環(huán)節(jié)要求,抽象出需要機(jī)器學(xué)習(xí)算法解決的問題,確定最佳機(jī)器學(xué)習(xí)建模方法。然后依據(jù)方法對準(zhǔn)確性、效率和穩(wěn)定性的不同要求選擇具體的機(jī)器學(xué)習(xí)算法,其中監(jiān)督學(xué)習(xí)有邏輯回歸、貝葉斯分類、決策樹、集成學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等方法,無監(jiān)督學(xué)習(xí)有K均值算法、分層聚類算法、主成分分析、奇異值分解等方法。確定好機(jī)器學(xué)習(xí)建模算法以后,根據(jù)算法對輸入數(shù)據(jù)的特征和格式需要采集數(shù)據(jù)、提取特征,對采集來的數(shù)據(jù)預(yù)處理生產(chǎn)訓(xùn)練集。最后在訓(xùn)練集的基礎(chǔ)上利用對應(yīng)的機(jī)器學(xué)習(xí)算法訓(xùn)練模型,直到滿足模型預(yù)期的參數(shù)指標(biāo),完成訓(xùn)練的模型可以在實(shí)際應(yīng)用中完成預(yù)測、分類和聚類的任務(wù),代替人工的工作。

4 結(jié)語

圖書館多年實(shí)踐表明,圖書采選的質(zhì)量并不能保證其實(shí)用性或流通率,隨著圖書館經(jīng)費(fèi)收縮,讀者需求驅(qū)動(dòng)采購將發(fā)揮重要作用。在大數(shù)據(jù)和人工智能技術(shù)廣泛應(yīng)用的背景下,本文通過構(gòu)建機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的具體應(yīng)用框架,從讀者、圖書和模型三個(gè)角度闡述了構(gòu)建和應(yīng)用相應(yīng)模型的方法,能夠?qū)崿F(xiàn)讀者需求驅(qū)動(dòng)采購的智能化和精準(zhǔn)化,有效改善DDA項(xiàng)目成果,幫助圖書館更好地管理采購決策,提高經(jīng)費(fèi)的投資回報(bào)率。機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購中的應(yīng)用有助于圖書館積極應(yīng)對信息技術(shù)的挑戰(zhàn),促進(jìn)館員向新的工作流程轉(zhuǎn)變,不斷提升信息服務(wù)能力。然而,由于圖書館數(shù)字化程度的不同,傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)在圖書館館藏建設(shè)中的應(yīng)用往往受限于數(shù)據(jù)樣本少,無法發(fā)揮出應(yīng)有的價(jià)值,當(dāng)前人工智能領(lǐng)域涌現(xiàn)的新技術(shù),如遷移學(xué)習(xí)、自監(jiān)督學(xué)習(xí)等可以彌補(bǔ)數(shù)據(jù)準(zhǔn)備的不足。未來,開展此類研究將大大提升機(jī)器學(xué)習(xí)在讀者需求驅(qū)動(dòng)采購領(lǐng)域,甚至是整個(gè)圖書館領(lǐng)域的應(yīng)用效果。

參考文獻(xiàn):

曹莎莎, 徐嵐.“互聯(lián)網(wǎng)+館藏建設(shè)”:讀者決策采購[J].新世紀(jì)圖書館,2016(12):21-24,29.

ProQuest. Why DDA is ries[EB/OL].[2020-06-20]. https://go.proquest.com/ddawhitepaperemail.

BLUME R. Balance in demand driven acquisitions: the importance of mindfulness and moderation when utilizing just in time collection development [J]. Collection Management, 2019, 44(2-4),105-116.

HODGES D, PRESTON C, HAMILTON M J. Patron-initiated collection development: progress of a paradigm shift[J]. Collection Management, 2019(35):3-4, 208-221.

OLIVER J C, KOLLEN C, HICKSON B, et al. Data science support at the academic library[J]. Journal of Library Administration, 2019,(59):241-257.

張坤,王文韜,謝陽群.機(jī)器學(xué)習(xí)在圖書情報(bào)領(lǐng)域的應(yīng)用研究[J].圖書館學(xué)研究,2018(1):47-50.

WALKER K W, ARTHUR M A. Judging the need for and value of DDA in an academic research library setting[J]. The Journal of Academic Librarianship, 2018, 44(5):650-662.

RENAUD J, BRITTON S, WANG ?D D, et al. Mining library and university data to understand library use patterns[J]. The Electronic Library, 2015, 33(3):355-372.

王芙蓉.大數(shù)據(jù)環(huán)境下基于讀者決策的圖書館文獻(xiàn)資源采購模型研究[J].圖書館學(xué)研究,2017(12): 54-59.

周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

LITSEY R, MAULDIN W. Knowing what the patron wants: using predictive analytics to transform library decision making[J]. The Journal of Academic Librarianship, 2018, 44(1):140-144.

馬曉亭.圖書館多源大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].新世紀(jì)圖書館,2017(1):28-31,35.

KOHN K. Using logistic regression to examine multiple factors related to e-book use[J]. Library Resources & Technical Services. 2018, 62(2):54-65.

WALKER K W, JIANG ZHEHAN. Application of adaptive boosting (AdaBoost) in demand-driven acquisition(DDA) prediction: a machine-learning approach[J].The Journal of Academic Librarianship. 2019,45: 203-212.

JIANG ZHEHAN, FITZGERALD S R, WALKER K W. Modeling time-to-trigger in library demand-driven acquisitions via survival analysis[J]. Library and Information Science Research. 2019, 41(3):1-8.

沈敏,楊新涯,王楷.基于機(jī)器學(xué)習(xí)的高校圖書館用戶偏好檢索系統(tǒng)研究[J].圖書情報(bào)工作,2015,59(11):143-148.

曹莎莎 安徽警官職業(yè)學(xué)院圖書館館員。 安徽合肥,230031。

徐 嵐 安徽警官職業(yè)學(xué)院圖書館研究館員。 安徽合肥,230031。

劉 涓 安徽警官職業(yè)學(xué)院圖書館館員。 安徽合肥,230031。

(收稿日期:2020-10-06 編校:陳安琪,左靜遠(yuǎn))

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用