国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本分詞樸素貝葉斯分類的圖書采訪機(jī)制探索

2021-09-07 10:42:44王紅王雅琴黃建國(guó)
現(xiàn)代情報(bào) 2021年9期
關(guān)鍵詞:樸素貝葉斯流通

王紅 王雅琴 黃建國(guó)

DOI:10.3969/j.issn.1008-0821.2021.09.008

[中圖分類號(hào)]G253.1 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2021)09-0074-10

1引言

1.1問題提出

圖書采訪是一項(xiàng)嚴(yán)謹(jǐn)?shù)目茖W(xué)決策工作,尤其是在確定每一類目圖書的采訪數(shù)量或預(yù)算后,面對(duì)大量差異化趨小、同質(zhì)化嚴(yán)重的圖書品種,優(yōu)選出流通利用率高、符合圖書館性質(zhì)、任務(wù)等建設(shè)方向且綜合評(píng)價(jià)較高的圖書,成為圖書采訪過程中面臨的主要任務(wù)。

流通數(shù)據(jù)作為讀者需求直接映射結(jié)果.在采訪實(shí)踐中,常常作為分類知識(shí)的采訪數(shù)量提供參考,然而,流通數(shù)據(jù)對(duì)具體圖書品種的選擇,卻很難提供數(shù)據(jù)支持。迫使采訪人員把具體圖書品種選擇的依據(jù)轉(zhuǎn)為從讀者需求人手,通過各種手段收集需求數(shù)據(jù),并采用各種研究工具預(yù)測(cè)讀者需求。但在面臨具體圖書品種,不能充分挖掘和利用真實(shí)的需求數(shù)據(jù)隱含的參考價(jià)值,而是依賴讀者的需求意愿,通過需求調(diào)查或者讀者參與采訪等手段作為遴選圖書的依據(jù),導(dǎo)致圖書采訪結(jié)果的信度降低,最終影響采訪效率。

采用成熟的人工智能算法,挖掘利用隱含在流通數(shù)據(jù)中讀者需求的信息,以此轉(zhuǎn)化為遴選圖書的依據(jù),不僅使圖書采訪有了可靠的客觀依據(jù),而且有利于把握復(fù)雜多變的讀者需求,為進(jìn)一步研究讀者需求規(guī)律,探索圖書采訪的決策分析,提供嚴(yán)謹(jǐn)?shù)倪壿嬕罁?jù)和量化決策指標(biāo),打造堅(jiān)實(shí)的理論和應(yīng)用保障。

1.2問題引入

圖書采訪作為一項(xiàng)決策活動(dòng),決策對(duì)象是待采訪圖書,決策內(nèi)容是選擇具有較高流通潛力的圖書。圖書采訪決策的核心問題是基于怎樣的原理,采用何種方式,能夠科學(xué)、客觀、嚴(yán)謹(jǐn)?shù)貙?duì)每一種待采訪圖書的流通趨勢(shì)進(jìn)行量化描述,并根據(jù)量化結(jié)果,優(yōu)選出最具有流通潛力的圖書。

讀者需求和圖書流通,是同一問題互為矛盾互為依存的兩種表述視角,讀者需求的行為結(jié)果就是圖書流通的表現(xiàn)結(jié)果。但是,由于讀者需求具有需求意愿和需求行為兩個(gè)過程,與采用讀者需求意愿相比,采用需求行為結(jié)果對(duì)具體的圖書需求品種預(yù)測(cè)更具有可信度和說服力。

圖書館對(duì)館藏圖書流通的掌控和了解程度,相對(duì)于讀者需求意愿而言,有著更加充分有力、令人信服的客觀記錄數(shù)據(jù)基礎(chǔ)。館藏圖書有確定的知識(shí)內(nèi)容及其描述信息,館藏圖書流通有詳實(shí)的記錄數(shù)據(jù),依據(jù)館藏圖書的客觀描述和流通等數(shù)據(jù)比通過收集探索讀者需求等主觀因素?cái)?shù)據(jù),分析圖書流通規(guī)律與趨勢(shì)更具有堅(jiān)實(shí)的基礎(chǔ)和可靠保障。

在對(duì)圖書流通現(xiàn)象內(nèi)在規(guī)律和機(jī)制充分了解之前,某種圖書發(fā)生流通的事件,只能稱之為有限觀察范圍內(nèi)的一種隨機(jī)事件。隨機(jī)事件既有偶然性的一面,又具有必然性的一面,這種偶然性意味著隱藏在圖書流通現(xiàn)象背后的讀者需求規(guī)律尚未能被揭示,必然性則表明,復(fù)雜且毫無頭緒的圖書流通現(xiàn)象,具有統(tǒng)計(jì)學(xué)意義的規(guī)律尚待挖掘。

1.3問題分析

圖書采訪最主要任務(wù),是不斷補(bǔ)充具有流通潛力的館藏,認(rèn)識(shí)了解圖書流通的形成機(jī)制和特征,是識(shí)別圖書流通潛力的基礎(chǔ)和前提。圖書流通是由圖書和讀者兩個(gè)圖書館客體對(duì)象互動(dòng)的結(jié)果,相對(duì)于讀者需求意愿與行為,圖書具有穩(wěn)定的客觀特征,從圖書自身角度,圖書是包含固定知識(shí)內(nèi)容的載體。從圖書館館藏管理角度來看,圖書是由MARC數(shù)據(jù)標(biāo)識(shí)的管理對(duì)象;從讀者視角,圖書只是擁有各種不同名稱的知識(shí)載體,一種館藏圖書發(fā)生流通之前,讀者對(duì)該圖書內(nèi)容的了解程度,主要有3種情況:一是從未聽說該種圖書,但通過圖書的封面上題名項(xiàng)等信息,對(duì)圖書承載的知識(shí)內(nèi)容有了初步的認(rèn)識(shí);二是讀者通過各種渠道,對(duì)該種圖書承載的知識(shí)內(nèi)容有一定的了解,但并不知曉圖書的內(nèi)容細(xì)節(jié);三是閱讀過該圖書,因?yàn)楦鞣N不為圖書館所知的原因,再次借閱該圖書。從圖書采訪角度來看,圖書采訪補(bǔ)充的圖書種類,主要是讀者從未閱讀知曉的新書。

一般情況下,對(duì)一種圖書發(fā)生流通的陳述是,圖書被有獲取圖書承載知識(shí)內(nèi)容需求的讀者借閱。這種陳述隱含兩個(gè)重要的前提:一是讀者需求背后有著復(fù)雜的需求動(dòng)機(jī)和目的;二是讀者需求目標(biāo)是圖書所在類目的知識(shí),被借閱的圖書僅僅是讀者對(duì)該類知識(shí)載體的一種選擇。由此可知,圖書發(fā)生流通的機(jī)制主要在于,一種圖書能夠展示給讀者的內(nèi)涵表征信息,成為決定該種圖書被讀者選中借閱的關(guān)鍵因素。圖書傳遞給讀者的信息,由兩個(gè)途徑構(gòu)成:一是圖書與讀者的直接互動(dòng),通過讀者觀察和翻閱瀏覽,把圖書自身攜帶的基本描述信息和知識(shí)內(nèi)容展示給讀者后,最終形成圖書的流通結(jié)果;二是讀者查看圖書的題名、簡(jiǎn)介,或從其他相關(guān)渠道了解的內(nèi)容,既包括圖書內(nèi)容的基本描述性信息,也包括圖書內(nèi)容簡(jiǎn)介或部分內(nèi)容信息,以及圖書可能發(fā)揮的作用與功能等內(nèi)容。

從圖書流通形成的機(jī)制可以看出,一種圖書是否發(fā)生流通,與這種圖書所在的相同知識(shí)分類中的其他圖書之間,具有競(jìng)爭(zhēng)和相互影響的關(guān)系,與其他分類圖書之間沒有任何關(guān)系。因此,在既不能把握和調(diào)控讀者主觀意愿,也不能了解圖書流通現(xiàn)象內(nèi)在機(jī)理和規(guī)律的情況下,從具體知識(shí)類目下的館藏基本知識(shí)描述信息入,通過考察不同館藏的流通規(guī)律分析,探索具有類似描述信息的待采訪圖書流通潛力,具有操作的可行性和邏輯的充分性。

1.4問題假設(shè)與定義

由于圖書采訪的目標(biāo)是選購具有流通潛力的圖書,因此,本研究提出一種假設(shè),一種圖書流通競(jìng)爭(zhēng)潛力的影響因素,是圖書所在具體分類的類目中,由圖書封面的題名、作者和出版機(jī)構(gòu)3個(gè)要素對(duì)讀者綜合作用的結(jié)果。因此,圖書采訪決策活動(dòng)可以表述為:

定義1:設(shè)Acq={x1,x2,…,xi為全部待決策圖書集合,總計(jì)有i種待選圖書,xi為每一種待決策圖書,每一個(gè)待決策圖書x={a1,a2,…,am},n為待決策圖書z有m維屬性特征(即題名等),圖書采訪決策,就是根據(jù)am承載的信息,判斷xi未來流通潛力,對(duì)xi做出購買Buy或不購買Nobuy的二元分類判斷,使Acq集合中每一個(gè)對(duì)象x,都擁有一個(gè)新的分類屬性(購買或不購買)。其中,圖書的屬性特征維度m,是對(duì)圖書形式和內(nèi)容所承載全部信息,依據(jù)一定分類規(guī)則做出的多維特征劃分。

2相關(guān)研究

圖書館發(fā)展困境之一是資源采訪環(huán)節(jié)存在問題,影響了圖書館資源建設(shè)的效率和質(zhì)量,對(duì)圖書館各項(xiàng)職能的發(fā)揮產(chǎn)生影響。王紫劍、李穎、毛靜華等分別從圖書采訪和出版發(fā)行角度,對(duì)圖書采訪人員素質(zhì)提出了要求和解決的途徑。而基于圖書自身承載的特征數(shù)據(jù)要素,開展圖書采訪的研究,常見的關(guān)注點(diǎn)主要以提升采訪圖書質(zhì)量為目標(biāo),集中在圖書分類特征、出版機(jī)構(gòu)特征和作者特征分析。相關(guān)研究主要體現(xiàn)在圖書特征要素篩選、圖書價(jià)值分析等方面的探索。蔡時(shí)連認(rèn)為文獻(xiàn)出版發(fā)行信息是文獻(xiàn)的核心和實(shí)質(zhì),分為內(nèi)部特征和外部特征,涵蓋了出版機(jī)構(gòu)、發(fā)行機(jī)構(gòu)、價(jià)格、作者、版次、印刷單位、裝幀和書號(hào)等,以及標(biāo)題、摘要、前言、目錄和內(nèi)容部分及其科學(xué)價(jià)值等。樊國(guó)萍認(rèn)為,書目信息經(jīng)過信息的制作、傳遞與利用3個(gè)主要環(huán)節(jié),在流動(dòng)中信息的損耗難以避免。許繼新在分析判斷圖書學(xué)術(shù)價(jià)值的途徑后,提出判斷圖書效能要素從高到低依次為核心著者、核心出版社和著作方式。王紅等提出圖書館現(xiàn)有的數(shù)據(jù)絕大部分為有標(biāo)記數(shù)據(jù),其中館藏主要是由MARC數(shù)據(jù)標(biāo)準(zhǔn)控制的標(biāo)記數(shù)據(jù),根據(jù)館藏、讀者和流通數(shù)據(jù),可揭示館藏、流通和知識(shí)分布規(guī)律。馬費(fèi)成等認(rèn)為在當(dāng)前的研究方向中,采用詞頻分析法,利用文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞出現(xiàn)的頻次,能夠發(fā)現(xiàn)研究熱點(diǎn)和發(fā)展動(dòng)向。吳越提出利用數(shù)據(jù)挖掘的方法,構(gòu)建高校圖書館圖書采訪決策模型,能夠幫助采訪館員發(fā)現(xiàn)模型與數(shù)據(jù)之間聯(lián)系的思路。胡楊注意到零借閱率圖書作為動(dòng)態(tài)分析數(shù)據(jù),其存在有必然性和客觀性。

3相關(guān)原理

圖書的分類特征內(nèi)容主要由自然語言構(gòu)成。基于自然語言開展人工智能分類分析,首先需要利用自然語言處理分析技術(shù),對(duì)圖書特征描述進(jìn)行量化處理,然后再利用人工智能技術(shù)開展分類研究。

3.1自然語言分析處理技術(shù)

自然語言處理是人工智能領(lǐng)域的重要組成部分,已經(jīng)在信息索引、文本分類、機(jī)器翻譯、搜索引擎、對(duì)話系統(tǒng)等領(lǐng)域取得長(zhǎng)足進(jìn)步。其中,具有堅(jiān)實(shí)數(shù)學(xué)理論支撐和可量化分析技術(shù)的統(tǒng)計(jì)自然語言處理技術(shù)異軍突起,通過利用學(xué)習(xí)人類已經(jīng)形成的語言資料,成為探索自然語言規(guī)律的最基礎(chǔ)理論。

分詞技術(shù)、信息提取和文本分類是自然語言處理的核心技術(shù)。中文分詞就是對(duì)中文斷句,分出來的詞語,往往來自詞典為主的詞表,中文分詞最簡(jiǎn)單的方法是直接匹配詞表,返回此表中最長(zhǎng)詞語;信息提取就是把文本里包含的信息點(diǎn)進(jìn)行結(jié)構(gòu)化處理,變成可利用表格進(jìn)行信息組織的形式,以利于數(shù)據(jù)庫存儲(chǔ)和處理;信息點(diǎn)指文本中的事件、實(shí)體的關(guān)系;文本分類是指按照一定的分類體系或標(biāo)準(zhǔn)對(duì)文本進(jìn)行自動(dòng)分類標(biāo)記。

關(guān)鍵詞提取可以發(fā)現(xiàn)文本數(shù)據(jù)重要特征,信息提取主要內(nèi)容是關(guān)鍵詞提取,TF-IDF(Term Fre-quency-Inverse Document Frequency).詞頻一逆文檔頻率,基于語料進(jìn)行關(guān)鍵詞提取模型訓(xùn)練的方法,是比較成熟和常用的關(guān)鍵詞提取方法。作為一種關(guān)鍵詞統(tǒng)計(jì)提取方法.用以評(píng)估一個(gè)詞語對(duì)于文件集或語料庫中一份文件的重要程度。計(jì)算公式如下:

其中,w代表給定詞語,詞頻TF表示在一個(gè)文檔或語料庫中,給定詞語在本文檔內(nèi)的重要程度,即給定詞語出現(xiàn)的頻率,是該詞語出現(xiàn)的次數(shù),與該文檔出現(xiàn)最多次數(shù)詞語的次數(shù)之比。逆文檔頻率IDF表示在全部文檔中或語料庫中,給定詞語對(duì)每一個(gè)文檔或語料庫的重要程度,是由文檔的總數(shù)量除以包含給定詞語的文檔數(shù)量,再對(duì)計(jì)算結(jié)果取對(duì)數(shù)。由于IDF是對(duì)一個(gè)大于或等于1的數(shù)值取對(duì)數(shù),其結(jié)果是一個(gè)大于0的值域,這不僅意味著包含給定詞語的文檔數(shù)量越少,IDF數(shù)值越大,也表明給定詞語越能夠代表該文檔獨(dú)特的特征。TF-IDF通過計(jì)算全部詞語在本文檔的重要性和獨(dú)特性的量化關(guān)系,按照計(jì)算結(jié)果降序排序和選擇關(guān)鍵詞個(gè)數(shù),就得到代表每個(gè)文檔特征的關(guān)鍵詞集合。

文本分類一般包括兩分類和多分類,如確定是否購買一本書,就是買或不買兩種分類;而確定一本書是圖書分類法中的哪種分類,就是多分類。文本分類是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域相對(duì)成熟的技術(shù),主要原理是利用計(jì)算機(jī),在已有分類的數(shù)據(jù)基礎(chǔ)上,對(duì)數(shù)據(jù)特征的學(xué)習(xí)模型進(jìn)行訓(xùn)練,最終使模型能夠?qū)ξ催M(jìn)行分類的數(shù)據(jù)擁有較高的預(yù)測(cè)能力。常見的分類方法主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、k近鄰和樸素貝葉斯分類,其中支持向量機(jī)適合長(zhǎng)文本分類,樸素貝葉斯適合短文本分類。

3.2文獻(xiàn)—詞項(xiàng)矩陣

文獻(xiàn)—詞項(xiàng)矩陣(Document-term Matrix)是詞共現(xiàn)矩陣的一種形式,不同文檔構(gòu)成矩陣的行,不同詞項(xiàng)構(gòu)成矩陣的列。文獻(xiàn)矩陣的含義如表1所示,其中Books代表文檔,Keywords代表詞項(xiàng),a代表文檔中對(duì)應(yīng)詞項(xiàng)的統(tǒng)計(jì)值。詞項(xiàng)一文獻(xiàn)矩陣以矩陣形式的表達(dá)式如下:

文獻(xiàn)一詞項(xiàng)矩陣把自然語言描述和表達(dá)的對(duì)象.通過詞項(xiàng)方式予以量化規(guī)范表達(dá),使得復(fù)雜的文本對(duì)象擁有了標(biāo)準(zhǔn)的數(shù)學(xué)表示方法,為利用機(jī)器學(xué)習(xí)模型開展各種量化分析和研究,提供了基本保障。

3.3概率論與樸素貝葉斯分類

印度著名圖書館學(xué)家阮岡納贊1966年在《圖書館書刊選擇》中提出:負(fù)責(zé)圖書采購的圖書館員或教師,應(yīng)該注意到選購圖書對(duì)于讀者使用該書的概率性。樸素貝葉斯分類(Naive Bayes)是當(dāng)今人工智能監(jiān)督學(xué)習(xí)的重要算法,被選人數(shù)據(jù)挖掘的十大算法之一。樸素貝葉斯分類源于古典數(shù)學(xué)理論,有著堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),在利用給定帶有類別向量的對(duì)象集合,判斷未曾見過對(duì)象的類別方面,具有成熟穩(wěn)健、易于構(gòu)造、容易理解、分類效果極佳的優(yōu)勢(shì)。

樸素貝葉斯分類依據(jù)的貝葉斯定理,是概率論的基本原理。貝葉斯定理描述真實(shí)世界的考慮,就是承認(rèn)人類認(rèn)知能力的有限性,既無法對(duì)每件事情都做出測(cè)量,也無法讓每件事都可以重復(fù)發(fā)生。人們只能依據(jù)某種有限的經(jīng)驗(yàn),估計(jì)未來即將發(fā)生事件的可能性。其思路是,當(dāng)不能準(zhǔn)確知悉一個(gè)事物的本質(zhì)時(shí),可以依靠與事物特定本質(zhì)相關(guān)的事件出現(xiàn)的多少去判斷其本質(zhì)屬性的概率,即支持某項(xiàng)屬性的事件發(fā)生得愈多,則該屬性成立的可能性就愈大。比如一個(gè)工科高校,在圖書采訪面對(duì)一種TP18人工智能類目的圖書時(shí),如果不考慮其他任何因素,此種圖書是否會(huì)發(fā)生流通時(shí)間的概率只能各占50%,如果增加出版社的條件,采訪館員根據(jù)對(duì)出版社儲(chǔ)備的知識(shí)與經(jīng)驗(yàn),即可判斷出此種圖書的出版社為“清華大學(xué)出版社”的流通發(fā)生概率,將遠(yuǎn)遠(yuǎn)大于“人民教育出版社”的流通概率。

貝葉斯定理的數(shù)學(xué)形式也極為簡(jiǎn)單,通過先驗(yàn)概率和條件概率,得到事件發(fā)生的后驗(yàn)概率:

其中,B和C為隨機(jī)事件,應(yīng)用在圖書館管理工作,可以把B解讀為圖書或館藏,把C解讀為購買或流通。

樸素貝葉斯進(jìn)行分類,就是計(jì)算所有的P(C|B),找到最大條件概率c,即arg maxP(c|b),即樸素貝葉斯分類公式:

其中,c∈C、b∈B,通過類別c發(fā)生情況下6發(fā)生的條件概率P(b|c)和先驗(yàn)概率P(c),得到c的P(c|b)的最大值。

樸素貝葉斯分類在實(shí)際應(yīng)用中,由于實(shí)際觀察的有限性,以及樣本數(shù)量較少,常常會(huì)出現(xiàn)實(shí)際樣本中,b=w1,w2,…,wn,隨機(jī)事件b的屬性特征劃分,并不能涵蓋新樣本的屬性特征劃分wn+1的情況,造成P(b|c)=0的情況,由于不能因?yàn)闆]有觀察記錄,就認(rèn)為該事件出現(xiàn)的幾率為零,在利用樸素貝葉斯分類時(shí),也必須確保詞項(xiàng)的條件概率非零,一般采用貝葉斯分類的平滑技術(shù)即拉普拉斯平滑技術(shù),對(duì)每個(gè)類別下所有劃分的計(jì)數(shù)加1,在訓(xùn)練樣本集數(shù)量較大時(shí),并不會(huì)對(duì)結(jié)果產(chǎn)生影響,并且解決了P(b|c)=0的問題,提高了樸素貝葉斯分類的精度。

4研究方法

4.1研究數(shù)據(jù)與工具

待采訪圖書數(shù)據(jù),來自2018年太原市新華書店的新書書單,館藏?cái)?shù)據(jù)和流通數(shù)據(jù)來自太原科技大學(xué)2018年以前全部數(shù)據(jù)。本研究根據(jù)太原科技大學(xué)以理工為主的特點(diǎn),結(jié)合近年來人工智能技術(shù)成為熱點(diǎn)等因素,選擇TP18類圖書的館藏和流通數(shù)據(jù)作為研究的基礎(chǔ)依據(jù),并把新華書店TP18類全部新書作為待采訪書單,開展采訪分析。中文分詞的詞典和停詞表,是基于系統(tǒng)自帶的詞典,結(jié)合通過自定義方式。

研究的工具采用Windows7系統(tǒng)上的64位R語言4.0版本,在R語言的IDE工具RStudio上展開,數(shù)據(jù)以兩種方式存儲(chǔ):一是存放在數(shù)據(jù)庫中:二是以CSV格式文件存儲(chǔ)。其中數(shù)據(jù)庫中的數(shù)據(jù)是為了動(dòng)態(tài)分析,CSV格式文件存儲(chǔ)的數(shù)據(jù),可以重復(fù)實(shí)驗(yàn)過程。數(shù)據(jù)庫采用Mysq16.0版本,數(shù)據(jù)在數(shù)據(jù)庫中的字符編碼為UTF-8。中文分詞技術(shù)采用Jie-ba分詞的R語言版本的字典,TF-IDF、詞項(xiàng)一文本矩陣和樸素貝葉斯分類和預(yù)測(cè)等,采用R語言tm包提供的相關(guān)函數(shù)與工具。

4.2研究思路

樸素貝葉斯方法,只關(guān)注初始分項(xiàng)和分析結(jié)果,圖書采訪的分析結(jié)果,就是在具有相同的知識(shí)分類下,計(jì)算每種圖書未來潛在的流通率,并通過相互比較,選擇潛在流通率更高的圖書。

定義2:具體類目下的館藏圖書集合I={y1,y2,…,yj,yj為館藏圖書,總計(jì)有j種館藏圖書,每種館藏yj={a1,a2,…,am,classify},a為館藏圖書x有m維屬性特征,classify為分類項(xiàng),分類項(xiàng)是指yj是否發(fā)生流通事件,用circ和nocirc兩個(gè)不連續(xù)變量對(duì)館藏圖書進(jìn)行分類。

每種圖書都有基本劃分,即有流通和無流通的兩種分項(xiàng),有兩個(gè)分項(xiàng)向量構(gòu)成全部的向量空間;同時(shí)又有多項(xiàng)特征第二種分項(xiàng),同一知識(shí)類目下的館藏圖書和待采訪圖書的全部特征,構(gòu)成第二種分項(xiàng)的向量空間?;跇闼刎惾~斯分類,首先,利用流通數(shù)據(jù),進(jìn)行模型訓(xùn)練;其次,對(duì)待采訪圖書進(jìn)行是否具有流通潛力的預(yù)測(cè),第三,根據(jù)每種圖書的潛在流通概率,優(yōu)選出具有更高流通潛力的圖書。

4.2.1邏輯起點(diǎn)

對(duì)圖書采訪而言,圖書的表征就是發(fā)生圖書流通的先決條件。一種圖書承載的知識(shí)內(nèi)容特點(diǎn),雖然由大量詞語組合而成,但概括而言,圖書題名、內(nèi)容簡(jiǎn)介、知識(shí)分類等圖書基本描述,高度集成了圖書承載的知識(shí)內(nèi)容與特點(diǎn),讀者初識(shí)一種剛剛出版的圖書,也是通過圖書這些表征,開始知曉和推測(cè)圖書可能承載知識(shí)內(nèi)容與特點(diǎn)。因此,任何讀者認(rèn)識(shí)一種圖書的知識(shí)內(nèi)涵,都是以讀者發(fā)現(xiàn)和了解圖書的表征為邏輯起點(diǎn),圖書在借閱和閱讀的過程中,實(shí)現(xiàn)知識(shí)轉(zhuǎn)移和傳承,是圖書發(fā)揮價(jià)值后的邏輯終點(diǎn)。

4.2.2圖書特征分析篩選

圖書內(nèi)容構(gòu)成圖書特征,圖書特征通過圖書描述數(shù)據(jù)得以集中體現(xiàn)。為了減少模型計(jì)算量,利用圖書描述信息的兩種規(guī)范數(shù)據(jù)進(jìn)行前期的優(yōu)化篩選。圖書描述信息主要有:一是針對(duì)出版行業(yè)的圖書在版編目數(shù)據(jù)(CIP);二是針對(duì)圖書館行業(yè)的機(jī)讀目錄數(shù)據(jù)(MARC)。鑒于待采訪圖書承載的知識(shí)內(nèi)容,對(duì)于讀者尚處于未知階段,圖書特征主要選擇圖書外觀上的數(shù)據(jù),包括題名、副題名、著者、出版機(jī)構(gòu)、叢編、分輯和價(jià)格7項(xiàng)指標(biāo)。

4.3研究原理

圖書采訪決策,就是利用有關(guān)數(shù)學(xué)原理和機(jī)器學(xué)習(xí)方法基礎(chǔ),根據(jù)館藏圖書的特征分量,對(duì)圖書流通產(chǎn)生的影響,預(yù)測(cè)待采訪圖書特征分量可能的流通趨勢(shì)。

樸素貝葉斯分類的分析原理,把該類館藏圖書劃分為有流通和無流通兩類,并利用圖書館可觀察記錄,分析每一種圖書的特征分量。每一種圖書特征分量的表達(dá),就是對(duì)所有館藏圖書的題名,利用分詞技術(shù)獲取關(guān)鍵詞,通過關(guān)鍵詞、著者和出版機(jī)構(gòu)名稱,表現(xiàn)一種圖書的全部特征。由于著者和出版機(jī)構(gòu)是專有名詞,不可分詞,題名中的關(guān)鍵詞,就是每一種圖書的特征劃分。如題名為“不完備信息系統(tǒng)知識(shí)獲取的粗糙集理論與方法”的圖書特征劃分,去掉沒有實(shí)際意義的虛詞、助詞、介詞等,就是“不完備”“信息系統(tǒng)”“知識(shí)獲取”“粗糙集”“理論”“方法”6個(gè)基本劃分組成,這6個(gè)特征與著者和出版機(jī)構(gòu),共同組成此種圖書的綜合描述內(nèi)容。把能收集到且包括全部館藏的TP18類圖書的題名進(jìn)行分詞并刪除重復(fù)項(xiàng),構(gòu)成文獻(xiàn)一詞項(xiàng)矩陣。學(xué)習(xí)訓(xùn)練集是人工智能采訪系統(tǒng)進(jìn)行深度學(xué)習(xí)訓(xùn)練的依據(jù)。把帶有是否發(fā)生流通分類項(xiàng)的館藏?cái)?shù)據(jù)分為訓(xùn)練集和測(cè)試集,依據(jù)文獻(xiàn)一詞項(xiàng)矩陣,進(jìn)行樸素貝葉斯計(jì)算,并找到分類最大概率,評(píng)估樸素貝葉斯分類模型,并利用模型對(duì)文檔詞項(xiàng)矩陣中的待采訪圖書進(jìn)行預(yù)測(cè)分類,就可得到能夠量化解釋的采訪決策書單。

5研究過程

5.1數(shù)據(jù)現(xiàn)狀與特征篩選

圖書館TP18類目館藏圖書的基本指標(biāo)情況是,總計(jì)有249種圖書,其中,從未發(fā)生流通的53種,大約占該類館藏?cái)?shù)量的21%,發(fā)生流通的196種,大約占該類館藏?cái)?shù)量的79%,流通次數(shù)總計(jì)3742次。出版機(jī)構(gòu)覆蓋了51個(gè),館藏圖書中最多的是“科學(xué)出版社”,達(dá)到57種圖書,大約占館藏?cái)?shù)量的22%,如表1所示。著者總計(jì)有229組,館藏中最多有3種圖書,占館藏?cái)?shù)量的1.16%,如表2所示。

圖書館TP18類館藏流通覆蓋196種館藏,每種館藏平均利用19次,采用流通次數(shù)作為統(tǒng)計(jì)指標(biāo),會(huì)進(jìn)一步加劇有流通和無流通分類館藏?cái)?shù)量之間的失衡,可能導(dǎo)致強(qiáng)化優(yōu)勢(shì)分類弱化劣勢(shì)分類特征情況的發(fā)生,因此,只對(duì)館藏是否有流通進(jìn)行標(biāo)識(shí),而不對(duì)館藏流通次數(shù)進(jìn)行統(tǒng)計(jì)。

館藏特征的提取與淘汰,取決于各分項(xiàng)數(shù)據(jù)的具體狀況。館藏圖書題名項(xiàng)是本研究重點(diǎn)關(guān)注的分項(xiàng)指標(biāo):出版機(jī)構(gòu)作為館藏圖書的一種特征分項(xiàng)劃分,從統(tǒng)計(jì)指標(biāo)來看,能夠?qū)︷^藏進(jìn)行差異化分組,可以作為獨(dú)立開展分析的一項(xiàng)特征納入分析視野。著者特征雖然是圖書的重要特征,但由于著者特征在館藏中出現(xiàn)頻率普遍偏低,最多僅占1.2%,幾乎一種圖書一個(gè)分項(xiàng),統(tǒng)計(jì)差異性過小,而且本研究只限定一種圖書是否發(fā)生流通的現(xiàn)象,而未擴(kuò)展到流通的次數(shù)問題,因此,著者特征無法作為明顯特征開展分析,只能棄用。

5.2構(gòu)建圖書特征語料庫

語料來源主要包括圖書館館藏圖書和待采訪圖書的題名和出版機(jī)構(gòu),館藏圖書根據(jù)流通歷史分為有流通和無流通兩個(gè)分類項(xiàng),分別標(biāo)記為circ和nocirc;待采訪圖書為無分類項(xiàng)的待預(yù)測(cè)數(shù)據(jù),分類項(xiàng)在系統(tǒng)中為空白項(xiàng)。表3為全部數(shù)據(jù)內(nèi)容,其中包括館藏?cái)?shù)據(jù)249條,待采訪圖書數(shù)據(jù)275條。數(shù)據(jù)內(nèi)容由題名和出版機(jī)構(gòu)數(shù)據(jù)構(gòu)成。

利用自然語言的中文分詞技術(shù),提取題名關(guān)鍵詞,對(duì)分詞后的題名關(guān)鍵詞和出版機(jī)構(gòu)等語料,利用式(1)進(jìn)行TF-IDF值的計(jì)算和排序,建立語料庫,形成如表4所示的內(nèi)容。語料庫把每種圖書的題名分解為多個(gè)關(guān)鍵詞,這些關(guān)鍵詞分別表明了人工智能類圖書內(nèi)容的視角、層次、功能、手段等訴求,這些訴求給圖書提供了確定性的特征劃分,是識(shí)別圖書流通潛力的重要依據(jù)。

5.3構(gòu)建文獻(xiàn)—詞項(xiàng)矩陣

文獻(xiàn)—詞項(xiàng)矩陣采用多變量伯努利事件空間方式,在表現(xiàn)形式上,式(2)中的amn元素?cái)?shù)值都是以0和1表示,由于觀察事件的有限性,矩陣的形式具有較強(qiáng)的稀疏性,為了節(jié)省計(jì)算機(jī)內(nèi)存開銷和運(yùn)行效率,并不對(duì)矩陣進(jìn)行密集轉(zhuǎn)換。

表5是部分館藏圖書的文獻(xiàn)—詞項(xiàng)矩陣,根據(jù)館藏圖書的id,利用式(2),對(duì)圖書特征分項(xiàng)關(guān)鍵詞形成的分類項(xiàng)目,建立稀疏矩陣,包括524個(gè)文檔,697個(gè)詞項(xiàng),意味著這個(gè)矩陣在不包括流通分類項(xiàng)情況下,是一個(gè)524*697的矩陣,697個(gè)詞項(xiàng)表明在現(xiàn)有的語料基礎(chǔ)上,TP18人工智能類圖書的細(xì)節(jié)特征達(dá)到697個(gè),利用現(xiàn)有249種館藏的流通現(xiàn)狀,分析館藏圖書流通現(xiàn)狀與這697個(gè)特征之間的聯(lián)系,就可為圖書流通潛力的分析打開重要的窗口。

5.4訓(xùn)練評(píng)價(jià)樸素貝葉斯分類模型

作為圖書采訪決策,目標(biāo)是對(duì)納入采購計(jì)劃的圖書予以量化評(píng)價(jià),以及對(duì)評(píng)價(jià)本身的可靠性給出明確的量化指標(biāo)。因此,圖書采訪決策更加關(guān)注模型分類結(jié)果中,有流通潛力圖書的量化指標(biāo)及其評(píng)價(jià)。

隨機(jī)選取館藏圖書數(shù)據(jù)集的70%作為訓(xùn)練集,剩余30%作為驗(yàn)證集,把數(shù)據(jù)輸入樸素貝葉斯分類模型,利用式(5),訓(xùn)練樸素貝葉斯分類模型。模型的靈敏性、精度、假陽性等指標(biāo),采用2×2列聯(lián)表方式,對(duì)模型計(jì)算結(jié)果進(jìn)行統(tǒng)計(jì)。圖1是采用R語言Gmodels包中的CrossTable函數(shù)進(jìn)行模型評(píng)估得到的結(jié)果。

在納入統(tǒng)計(jì)的69種具有明顯特征的館藏中,包含53種標(biāo)識(shí)為有流通(circ)館藏和16種標(biāo)識(shí)為無流通(nocirc)。樸素貝葉斯分類模型表現(xiàn)出明顯的分類靈敏性,53種有流通的館藏預(yù)測(cè)接近60%,16種無流通的館藏預(yù)測(cè)62.5%。

圖書采訪決策關(guān)注的重點(diǎn)主要是模型最終預(yù)測(cè)結(jié)果的37種圖書,這37種圖書評(píng)價(jià)指標(biāo)的可靠性就是圖書采訪最終結(jié)果的評(píng)價(jià)。從預(yù)測(cè)結(jié)果看,模型的精度接近83.78%,假陽性僅為16.22%,這樣的結(jié)果表明,采用樸素貝葉斯分類方法開展圖書采訪,在TPl8分類采購的圖書中,真正具有流通潛力的圖書達(dá)到83.78%,而沒有流通潛力卻購人的圖書僅占16.22%。

5.5預(yù)測(cè)采訪圖書

利用定義1,把待采訪書單數(shù)據(jù)模型化,根據(jù)訓(xùn)練好的樸素貝葉斯分類模型,對(duì)275種待選的采訪圖書進(jìn)行分類預(yù)測(cè),得到模型推薦的有流通潛力的131種圖書書單。從模型的靈敏度和假陽性判斷,可以對(duì)本次TPl8類圖書采訪,進(jìn)行總體量化判斷和評(píng)價(jià),其中至少109種圖書具有流通潛力,僅有22種圖書不具有流通潛力;也表明,每一種被選中購買的圖書,只有16.22%的概率,不具有流通潛力。對(duì)于模型推薦的131種TP18類圖書,采訪人員可以根據(jù)前期預(yù)置的該類目計(jì)劃采訪種類和數(shù)量,參考其他采訪約束條件挑選圖書。

6研究結(jié)論

本研究采用中文分詞技術(shù)提取館藏圖書特征,并利用樸素貝葉斯分類方法,依據(jù)館藏流通數(shù)據(jù),探索和驗(yàn)證圖書自身承載描述信息對(duì)流通產(chǎn)生的影響和作用規(guī)律,并依據(jù)模型預(yù)測(cè)待采訪圖書的流通潛力,研究結(jié)論如下:

在圖書采訪選書階段,利用樸素貝葉斯理論和方法,能夠暫時(shí)不考慮讀者因素,僅僅依據(jù)館藏流通動(dòng)態(tài),在流通數(shù)據(jù)和圖書品種選擇之間,直接建立起基于概率論原理的因果量化關(guān)系。本研究得到的新書流通趨勢(shì)判斷結(jié)論.形成一個(gè)全新的參照系.為進(jìn)一步針對(duì)促成圖書流通的讀者驅(qū)動(dòng)因素,深入探索讀者需求動(dòng)機(jī)發(fā)生、表達(dá)、實(shí)施的機(jī)制,提供了數(shù)據(jù)層面的驗(yàn)證和參考指標(biāo)。對(duì)題名、出版、內(nèi)容摘要等圖書描述信息,利用中文分詞技術(shù)進(jìn)行關(guān)鍵詞切分和提取,不僅能夠?yàn)檫M(jìn)一步開展機(jī)器學(xué)習(xí)等人工智能探索提供可能,還為圖書多維分類,深入到圖書內(nèi)容層面開展語義和邏輯分析,提供了必要的方法支撐和無限的可能。

從本研究的數(shù)據(jù)分布偏移程度來看,靜態(tài)數(shù)據(jù)中,同一圖書分類下的出版社特征過于集中,而作者特征分布較為松散,圖書的知識(shí)描述特征相對(duì)比較適中;動(dòng)態(tài)流通則表現(xiàn)為出版社特征較為明顯的趨勢(shì)。表明圖書館采訪選書的原則偏重出版社因素并兼顧知識(shí)分布的廣度,館藏圖書及建設(shè)特征和讀者群體特征相對(duì)穩(wěn)定,讀者知識(shí)需求呈現(xiàn)連續(xù)性特征,能夠?yàn)榛诹魍〝?shù)據(jù),開展采訪選書,提供可靠穩(wěn)定的保障。本研究模型在實(shí)驗(yàn)中具有較強(qiáng)的靈敏性,驗(yàn)證了圖書流通潛力與圖書描述的表征信息有必然聯(lián)系的假設(shè)。表明描述圖書承載知識(shí)特征的單詞和短語等表層描述信息,對(duì)館藏圖書發(fā)生流通具有直接的影響,并反映在圖書流通數(shù)據(jù)中。

7結(jié)語

讀者需求行為產(chǎn)生的圖書流通數(shù)據(jù),是讀者需求表現(xiàn)出的客觀真實(shí)結(jié)果,以流通數(shù)據(jù)為圖書采訪依據(jù),不僅能夠避免過度依賴讀者需求意愿,表現(xiàn)出的不確定性、不可捉摸性和復(fù)雜變化性,還能夠避免圖書采訪人員主觀因素對(duì)選書決策產(chǎn)生影響。圖書流通數(shù)據(jù),凝聚了館藏圖書和讀者兩個(gè)對(duì)象全部的信息與內(nèi)涵,是圖書最有價(jià)值的數(shù)據(jù)資源,蘊(yùn)藏著讀者知識(shí)需求和館藏知識(shí)的全部秘密,挖掘館藏流通數(shù)據(jù)隱含的規(guī)律,能夠?yàn)榻沂緢D書館內(nèi)在規(guī)律提供堅(jiān)實(shí)的證據(jù)。樸素貝葉斯分類,作為一種機(jī)器學(xué)習(xí)方法與工具,為開展科學(xué)嚴(yán)謹(jǐn)?shù)膱D書采訪工作,提供一種智能化的決策方法,讓圖書采訪工作真正建立在客觀、科學(xué)、嚴(yán)謹(jǐn)?shù)幕A(chǔ)上,使圖書采訪的結(jié)果可證明、可量化、可解釋。

猜你喜歡
樸素貝葉斯流通
隔離樸素
樸素的安慰(組詩)
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
圣物的流通——蕃尼古道上的尼泊爾鎏金銅佛流通考察
最神奇最樸素的兩本書
“流通空間”的中西方比較
貝葉斯公式及其應(yīng)用
基于貝葉斯估計(jì)的軌道占用識(shí)別方法
一種基于貝葉斯壓縮感知的說話人識(shí)別方法
電子器件(2015年5期)2015-12-29 08:43:15
商貿(mào)流通
江蘇年鑒(2014年0期)2014-03-11 17:09:34
临朐县| 孟津县| 越西县| 剑川县| 色达县| 临武县| 临汾市| 年辖:市辖区| 隆安县| 剑川县| 西盟| 商城县| 扎囊县| 南郑县| 巍山| 迁安市| 仪征市| 正蓝旗| 神池县| 图们市| 九台市| 乌拉特中旗| 望奎县| 二连浩特市| 金秀| 黄平县| 桃源县| 连山| 青岛市| 房产| 尼玛县| 象山县| 揭东县| 永年县| 北海市| 宁夏| 嘉善县| 白水县| 沿河| 台江县| 安化县|