林遠紅
(重慶圖書館,重慶 400037)
在過去的50年中,圖書編目已由手工編目完全過度到了以機讀目錄為格式的文獻編目自動化和網(wǎng)絡化階段。書目數(shù)據(jù)共建共享極大提高了圖書館的編目效率,但是一條書目數(shù)據(jù)的創(chuàng)建仍然是一項耗時、耗力、低產(chǎn)出的工作,鑒于此,越來越多的圖書館選擇書目數(shù)據(jù)外包。但是館配商向圖書館提供的書目數(shù)據(jù)質(zhì)量不高,除了編目描述錯誤外,主要的問題是主題分析不準確,分類標引錯誤等,完全達不到行業(yè)要求。最終,編目人員仍然要對書目數(shù)據(jù)進行逐項審校。編目員反復翻閱分類法、查閱主題詞,繁重、機械、低效率的工作與高速的網(wǎng)絡化時代似乎顯得格格不入。于是筆者寄希望于人工智能技術,通過萬方數(shù)據(jù)庫查看相關論文和書籍,梳理人工智能的起源、編目專家系統(tǒng)的研究、智能標引技術、智能分類技術等這些與智能編目相關的信息,同時對人工智能的技術與應用前景也進行了解,希望能從中找到二者的融合點,真正把圖書編目帶進智能時代。
人工智能(Artificial Intelligence)技術,從1956年首次被提出,已經(jīng)有六十多年發(fā)展歷程。它先后經(jīng)歷了3次“熱潮”與“寒冬”交替的發(fā)展階段。第一階段:20世紀50年代到60年代時期。1956年美國達特茅斯會議首次提出“人工智能”術語,并將像人類那樣思考的機器稱為“人工智能”。隨后人們以“推理”和“搜索”為規(guī)則,模仿人類思維方式總結思維規(guī)則,開展了數(shù)學證明系統(tǒng)、知識推理系統(tǒng)技術與應用的研究計劃。對于規(guī)則性強的領域,由于受限于計算機的運算能力,對于解決現(xiàn)實生活中的復雜問題,比如翻譯、醫(yī)療很難如意。因此到了20世紀70年代初人工智能變得蕭條冷寂。第二階段:20世紀80年代到90年代,以LIPS語言為基礎,以日本CYC項目為代表的知識庫。它依靠“有規(guī)則的知識”的支撐,導入各領域“知識”使計算機變得更聰明,并稱之為“專家系統(tǒng)”。例如,斯坦福大學開發(fā)的MYCIN系統(tǒng),它能對血液病患者進行診斷,并開出抗生素處方。在這一時期,知識表示,本體研究、機器翻譯都得到相應的發(fā)展。知識導入型專家系統(tǒng)確實具有一定的產(chǎn)業(yè)實用性,但是,知識描述之復雜與機器理解的困難讓人工智能又一次望而卻步。最終,專家系統(tǒng)被淘汰。第三階段: 20世紀90年代后半期,搜索引擎的誕生與普及,產(chǎn)生了大量的可用數(shù)據(jù),以大數(shù)據(jù)為導向的機器學習為人工智能的發(fā)展帶來了新的契機。在技術領域,以DeepMind公司為首的深度學習也進入了更深層次的研究階段,深度學習+大規(guī)模計算+大數(shù)據(jù)把人工智能推向一個新的時代。人工智能在語音識別、機器視覺、數(shù)據(jù)挖掘、智慧醫(yī)療等多個領域得到實現(xiàn)。同往常以理論學術研究為主導不一樣,這次是以資本為推手,著力解決實際問題為目的的人工智能。技術的進步為智能編目提供了可能性。
回顧歷史,從20世紀70年代以來,AI就逐漸應用到圖書館管理和服務的各個環(huán)節(jié),出現(xiàn)了各類專家系統(tǒng),例如圖書館咨詢專家系統(tǒng)、圖書分類專家系統(tǒng)、信息檢索專家系統(tǒng)、編目專家系統(tǒng)。文獻的編目包括描述文獻的物理形態(tài),選取檢索點;分類、主題標引;規(guī)范控制3個方面。筆者以編目的3個方面為檢索內(nèi)容,時間區(qū)間為1980年~2020年,分別用編目and(專家系統(tǒng)or自動化);分類and(專家系統(tǒng)or自動化);標引and(專家系統(tǒng)or自動化)等詞在萬方數(shù)據(jù)庫中進行組配檢索,通過認真篩選,詳細閱讀,得出了近年來編目領域專家系統(tǒng)的研究概況。編目專家系統(tǒng)領域的研究范圍涉及以下5個主題,研究文獻主題及年代分布見表1。
表1 40年以來發(fā)表論文的主題及年代分布
圖書編目經(jīng)過了幾十年的發(fā)展,在自動標引、自動分類、自動編目等領域,在理論上都取得了長足的發(fā)展。其中,在編目描述領域,編目的智能主要體現(xiàn)在編目專家系統(tǒng)的研究。早期的編目專家系統(tǒng)功能相對比較簡單,能進行一些簡單的規(guī)則使用和著錄項目識別,例如:倫敦工業(yè)學院的Black W. J.等人設計的HEADS系統(tǒng),它能完成簡單的編目過程,但是對一些特殊的規(guī)則和字符串無法處理;同在倫敦工業(yè)學院的Eyre 用Prolog語言設計了專門用于責任者名稱的系統(tǒng)。這兩個系統(tǒng)優(yōu)勢各不相同,但都無法獨立完成編目工作。同時期的還有Ercegovac設計了一個包含編目規(guī)則和專家知識庫的編目專家系統(tǒng);匹茲堡大學的Katz等人設計了Maccat等原型編目專家系統(tǒng) 。前期的研究成果雖然沒有真正實現(xiàn)編目自動化,但是為圖書編目各個模塊實現(xiàn)智能識別和編目提供了思路。
隨著計算機、光學識別和軟件技術的不斷發(fā)展,編目專家系統(tǒng)的研究進入一個新的活躍期。20世紀70年代,OCLC研制了Automated litlepage cataloguing系統(tǒng),該系統(tǒng)主要應用OCR光學識別技術對題名頁進行識別,再通過編目規(guī)則和其他要素來進行編目。最終正確識別率可達到89%。同時用于對責任者進行識別的UCLA的Motto與Svenomius的系統(tǒng)研制出來了,它主要應用OCR技術,以OCLC的規(guī)范文檔和出版商名錄、姓氏人名大字典等工具對題名頁的人名、團體名稱進行識別,團體名稱正確率可達85.8%,個人名稱成功率可達84.5%。
1984年英國Exeter大學的Davies和James采用Prolog語言研制出第一個編目專家系統(tǒng)。隨后,Hjerppe在瑞典Linkkoping大學研制了以選取款目檢索點核心的Esscape系統(tǒng)。1986年,威斯康星大學開發(fā)了MITI/MARC編目專家系統(tǒng),并實現(xiàn)了現(xiàn)實編目工作中的應用。國內(nèi)編目專家系統(tǒng)方面的研究除了理論上的一些介紹和想法外,基于實踐的編目專家系統(tǒng)幾乎為零。成績最為突出的以國家圖書館編制的《中國圖書館分類法》(第五版)Web版和《中國分類主題詞表》Web版,雖然它僅僅是一種工具,但是同樣是編目自動化的一部分。幾十年的發(fā)展研究,編目專家系統(tǒng)在理論和實證方面都得到了很大的進步,雖然最終沒有哪一個系統(tǒng)正式投入使用,但是對于編目的智能化進行了探索。
在自動標引理論方面,分別開創(chuàng)了基于本體、決策樹、小世界網(wǎng)絡、條件隨機場、粗集理論、遺傳算法等理論,例如:以南京農(nóng)業(yè)大學侯漢清為中心設計構建的以創(chuàng)新知識庫開始的文獻主題詞自動標引和自動分類方法體系。在文獻分類理論方面,提出了使用TF-IDF算法和樸素貝葉斯算法、KNN、決策樹法、中心向量法、支持向量機,以及基于卷積神經(jīng)網(wǎng)絡的文獻自動分類法。
綜上所述,人工智能從1956年被提出,到最終應用于各大圖書館,已有六十多年的歷程。現(xiàn)階段雖然還沒有實現(xiàn)編目智能化,但是在編目描述、分類、主題標引方面的智能化研究已取得了進步。相信先進的算法、理論和人工智能技術相結合,編目智能化實現(xiàn)也是指日可待。
人工智能技術在經(jīng)歷了幾十年潮起潮落的漫長發(fā)展歷程之后,在知識表示、自動推理和搜索方法、機器學習和知識獲取、知識處理系統(tǒng)、自然語言理解、計算機視覺、智能機器人、自動程序設計等領域有了新的進展。技術上的突破為圖書編目智能化實現(xiàn)增加了可能性。同時,圖書編目理論從AACR2發(fā)展到了RDA,編目理論的發(fā)展也非常成熟和完備。實現(xiàn)編目的智能化,必需聚集技術前沿的融合:人工智能技術+大數(shù)據(jù)+圖書編目理論框架。圖書編目理論是其中主導部分,結合自然語言理解、深度學習等技術,借用大數(shù)據(jù)使得編目規(guī)則更容易被機器理解。人工智能新技術、規(guī)范數(shù)據(jù)和算法是人工智能與圖書編目應用發(fā)展的3個關鍵要素。新的技術為智能編目提供技術基礎,大規(guī)模規(guī)范的數(shù)據(jù)為計算機深度學習提供內(nèi)容基礎,合適的算法模型為智能編目的實現(xiàn)提供有效的途徑。
圖書編目發(fā)展到今天,已經(jīng)形成了相當完整的可操作的規(guī)則庫。以中文圖書為例在編目描述階段,有《中文書目數(shù)據(jù)標準》《中文書目數(shù)據(jù)制作》等以規(guī)則和實例為一體的操作手冊。在圖書分類標引方面,有Web版的《中國圖書館分類法》;在主題標引方面有Web版的《中國分類主題詞表》,在對著者、題名進行規(guī)范方面,有國家圖書館的規(guī)范庫。這些基礎數(shù)據(jù)經(jīng)過長時期的發(fā)展都形成了比較完整的、穩(wěn)定的系統(tǒng)。
從根本上來說,深度學習就是一種用數(shù)學模型對真實世界中的特定問題進行建模,以解決領域內(nèi)相似問題的過程。它把計算機要學習的東西看成一大堆數(shù)據(jù),把這些數(shù)據(jù)丟進一個復雜的、包含多個層級的數(shù)據(jù)處理網(wǎng)絡,然后檢查經(jīng)過這個網(wǎng)絡處理得到的結果數(shù)據(jù)。深度學習不僅僅是“全盤記憶”來解決問題,它已經(jīng)轉向特征記憶的學習。深度學習的算法使用了大量來自特定領域的數(shù)據(jù),讓系統(tǒng)使用這些輸入的數(shù)據(jù),訓練自己識別數(shù)據(jù)和期望結果之間的關聯(lián)性。大量的相關數(shù)據(jù)、強大的算法、足夠細化的領域以及明確的目標,使得人工智能得以實現(xiàn)。就編目而言,要實現(xiàn)機器像人一樣,自動著錄一條完整、準確的數(shù)據(jù),是不可想象的。但是,可以通過多路徑協(xié)作的模式來實現(xiàn)智能編目。從編目的流程來看,一本圖書要完成編目,需要經(jīng)過圖書物理特征的描述、圖書主題內(nèi)容揭示、規(guī)范控制3個模塊。讓這3個模塊單獨進行深度學習訓練,等到各個深度學習的模塊調(diào)整到最優(yōu)狀態(tài),再讓他們相互作用,相互影響。通過將無數(shù)個不同目標的深度學習相互連接協(xié)調(diào),使其真正實現(xiàn)編目智能化。智能編目所需的大數(shù)據(jù)來源于:系統(tǒng)已有的規(guī)范書目數(shù)據(jù)、讀者檢索用關鍵詞、網(wǎng)絡書目數(shù)據(jù)、網(wǎng)絡書評、出版社數(shù)據(jù)等。除了初始的數(shù)據(jù)外,國家圖書館開發(fā)的Web版《中國分類主題詞表》、Web版《中國圖書館分類法》、規(guī)范數(shù)據(jù)庫等,這些規(guī)范的數(shù)據(jù),都為深度學習提供了數(shù)據(jù)支撐。
回想起人工智能兩次熱潮的來、去均遭遇了相同的命運。研究人員紛紛轉行、經(jīng)濟支撐不足的一幕還歷歷在目。面對第三次人工智能熱潮,雖然理論和技術都有了很大的提升,但還是處于探索階段。人工智能應用圖書編目前景目標遙遠,仍需極力去探尋實現(xiàn)的途徑。人工智能與圖書編目融合發(fā)展也面臨著技術上的突破、經(jīng)濟支撐不足、專業(yè)人才缺乏的現(xiàn)實困境。未來人工智能與圖書編目應用的前景,需要在技術、數(shù)據(jù)、算法和人才4個層面協(xié)同推進,即要加強人工智能與出版界融合發(fā)展的技術研究,也要深入與互聯(lián)網(wǎng)圖書網(wǎng)站的數(shù)據(jù)共建共享。聯(lián)合人工智能與出版界、互聯(lián)網(wǎng)圖書行業(yè)的數(shù)據(jù)內(nèi)容生產(chǎn),創(chuàng)新人工智能與各方發(fā)展的有效合作模式,搭建和完善整個人才培養(yǎng)體系,最終讓編目智能化走向工作實踐。
隨著人工智能、大數(shù)據(jù)等信息技術的發(fā)展,探索人工智能應用于圖書編目已經(jīng)可行。應用人工智能技術將圖書數(shù)據(jù)進行智能化處理,可以最大限度發(fā)揮人機結合優(yōu)勢。因此,以新的編目條例為核心、以機讀目錄為支持,借助人工智能技術,通過智能化新算法的研究,最終建立具有智能編目的高效運行系統(tǒng),從而進一步提升編目的效率。