[摘要]在大數(shù)據(jù)成為熱議話題的當(dāng)下,人們對(duì)于國(guó)內(nèi)圖書館界對(duì)大數(shù)據(jù)技術(shù)應(yīng)用狀況,未曾有過可行的量化測(cè)度。本文基于麥肯錫全球研究院發(fā)布的大數(shù)據(jù)核心技術(shù)概念,結(jié)合社會(huì)學(xué)和文獻(xiàn)計(jì)量學(xué)等相關(guān)方法,嘗試將抽象問題轉(zhuǎn)化為可操作性問題,量化描述圖書館界的大數(shù)據(jù)技術(shù)運(yùn)用狀態(tài)。
[關(guān)鍵詞] 麥肯錫報(bào)告;MGI;大數(shù)據(jù);大數(shù)據(jù)技術(shù);量化
[分類號(hào)] G256
1.問題的提出
自2011年5月麥肯錫將“大數(shù)據(jù)”帶入大眾視野,從國(guó)家層面到基礎(chǔ)行業(yè)[1],都對(duì)此表現(xiàn)出全所未有的興趣。媒體如火如荼的參與和渲染,更是讓這個(gè)技術(shù)概念轉(zhuǎn)化成炙手可熱的時(shí)尚名詞。其實(shí),“大數(shù)據(jù)”概念包括大數(shù)據(jù)理念和大數(shù)據(jù)技術(shù)兩個(gè)層面的內(nèi)涵,前者是引發(fā)社會(huì)轟動(dòng)效應(yīng)的根源,而后者才是“大數(shù)據(jù)”概念的實(shí)質(zhì)性內(nèi)涵。
在這股大數(shù)據(jù)熱潮中,圖書館業(yè)界也表現(xiàn)出不小的熱情。通過觀察圖書館界這些年的研究和實(shí)踐可以發(fā)現(xiàn),圖書館界其實(shí)一直追隨著大數(shù)據(jù)技術(shù)的步伐前行,只是限于自身的一些不利條件,對(duì)大數(shù)據(jù)技術(shù)的應(yīng)用和開發(fā)相對(duì)還是緩慢的。
那么,國(guó)內(nèi)圖書館界對(duì)于大數(shù)據(jù)技術(shù)的應(yīng)用到底處于怎樣的一個(gè)狀態(tài)?對(duì)于這個(gè)問題,目前尚未有人能夠做出清晰的量化描述。但作為與信息技術(shù)發(fā)展休戚相關(guān)的行業(yè),圖書館有必要對(duì)自身與現(xiàn)代技術(shù)之間的距離有更為直觀的了解,作為行業(yè)發(fā)展規(guī)劃的依據(jù)。簡(jiǎn)言之,我們需要找到一個(gè)可行的方法,對(duì)圖書館大數(shù)據(jù)技術(shù)的運(yùn)用狀態(tài)進(jìn)行量化的描述。
2.研究方法的探討
社會(huì)學(xué)在研究社會(huì)現(xiàn)象時(shí),通常將某些抽象問題轉(zhuǎn)化為相對(duì)容易測(cè)量的具體問題,繼而將定性研究推進(jìn)到定量分析。[2]本文借鑒此類解決問題的方法,并結(jié)合文獻(xiàn)計(jì)量學(xué),對(duì)上述問題進(jìn)行量化研究。
2.1 將抽象問題具體化
對(duì)于抽象問題“國(guó)內(nèi)圖書館界對(duì)大數(shù)據(jù)技術(shù)的運(yùn)用狀態(tài)”,首先將之轉(zhuǎn)化為更為具體的問題——“國(guó)內(nèi)圖書館領(lǐng)域論文對(duì)大數(shù)據(jù)技術(shù)的關(guān)涉程度”。之所以這樣轉(zhuǎn)換,是因?yàn)殛P(guān)于某領(lǐng)域的學(xué)術(shù)論文基本上可以代表該領(lǐng)域的理論水平,對(duì)此的考量是觀察該領(lǐng)域發(fā)展?fàn)顩r的重要角度;而“關(guān)涉程度”指的是圖書館領(lǐng)域論文所涉及大數(shù)據(jù)技術(shù)的程度,可以將之分為更小的指標(biāo)進(jìn)行定量觀察和分析。
2.2 測(cè)量指標(biāo)的確定
所謂指標(biāo)就是概念內(nèi)涵的指示標(biāo)志。對(duì)于“國(guó)內(nèi)圖書館界學(xué)術(shù)論文對(duì)大數(shù)據(jù)技術(shù)的關(guān)涉程度”這個(gè)問題,需要將“大數(shù)據(jù)技術(shù)”這個(gè)大概念分解為更為細(xì)小的內(nèi)涵指標(biāo)體系。
有學(xué)者通過論文關(guān)鍵詞共詞分析法,得出過大數(shù)據(jù)技術(shù)的核心詞匯。[1]但本文考慮到權(quán)威性和可信度,以2011年5月由麥肯錫全球研究院(MGI)發(fā)布的研究報(bào)告《大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》作為基本依據(jù)。[3]同時(shí),采用賽迪智庫翻譯的中譯本[4]為權(quán)威中文版。麥肯錫是全球最大的咨詢公司,屬下的MGI擁有一支實(shí)力雄厚的專家團(tuán)隊(duì),它所發(fā)布的報(bào)告具有較高的權(quán)威性。賽迪智庫是中國(guó)工業(yè)和信息化領(lǐng)域的知名思想庫[5],它所發(fā)布的譯叢具有較高的信度。在這個(gè)著名的報(bào)告中,研究人員羅列了構(gòu)成大數(shù)據(jù)核心技術(shù)的54個(gè)概念,其中應(yīng)用于大數(shù)據(jù)分析的關(guān)鍵技術(shù)詞匯(概念)28個(gè),應(yīng)用于整合、處理、管理和分析大數(shù)據(jù)的關(guān)鍵技術(shù)詞匯(概念)26個(gè),并對(duì)這些核心詞匯(概念)一一給予明確的定義。
本文正是以MGI 的這套詞匯(概念)作為測(cè)量和分析大數(shù)據(jù)技術(shù)的內(nèi)涵指標(biāo)體系,考察圖書館界對(duì)于這些指標(biāo)的運(yùn)用狀況和程度。
2.3 測(cè)度方法
測(cè)度是對(duì)測(cè)量指標(biāo)做量化測(cè)定。本文以論文數(shù)量作為測(cè)量值。論文數(shù)量大小雖然不能反映論文的質(zhì)量和深度,但可以反映研究人員對(duì)某研究主題的重視和關(guān)注程度,以此來測(cè)定“圖書館領(lǐng)域?qū)Υ髷?shù)據(jù)的關(guān)涉程度”存在一定合理性。
論文數(shù)量則通過論文關(guān)鍵詞檢索出相關(guān)論文,并做統(tǒng)計(jì)后獲得。選擇關(guān)鍵詞為檢索詞的原因是,論文關(guān)鍵詞作為論文標(biāo)識(shí)之一,代表了該論文的研究主題和研究范疇。為了便于論文被引用和查找,論文作者一般都會(huì)被要求使用盡量規(guī)范的關(guān)鍵詞來進(jìn)行標(biāo)注。[6]雖然關(guān)鍵詞目前很難做到統(tǒng)一和規(guī)范,但關(guān)鍵詞仍然是眼下概括和描述論文內(nèi)容的重要標(biāo)識(shí),查準(zhǔn)率相對(duì)較高的工具。
本文通過以MGI大數(shù)據(jù)核心詞匯為檢索詞,分別統(tǒng)計(jì)出圖書館界大數(shù)據(jù)核心技術(shù)的論文篇數(shù)和排名,大技術(shù)核心技術(shù)論文總篇數(shù),以及論文數(shù)量排名前五領(lǐng)域的大數(shù)據(jù)技術(shù)論文數(shù)量。并在這些數(shù)據(jù)之間做出比較和測(cè)量。
2.4 考察范圍
因?yàn)楸狙芯恐饕菄?guó)內(nèi)圖書館業(yè)界的大數(shù)據(jù)技術(shù)運(yùn)用狀況,所以考察對(duì)象的范圍設(shè)定在圖書館情報(bào)學(xué)范疇內(nèi)的論文。
《中國(guó)知網(wǎng)》是國(guó)內(nèi)收錄中文論文最全面和最權(quán)威的數(shù)據(jù)庫之一,自身攜帶有統(tǒng)計(jì)和分析工具,為文獻(xiàn)計(jì)量研究提供了便捷。鑒于這兩個(gè)因素,選擇《中國(guó)知網(wǎng)》來考察、衡量和比對(duì)大數(shù)據(jù)技術(shù)在圖書館界的應(yīng)用狀況。
3.獲取統(tǒng)計(jì)數(shù)據(jù)
以MGI公布的大數(shù)據(jù)核心詞匯作為關(guān)鍵詞進(jìn)檢索,并借助中國(guó)知網(wǎng)的部分統(tǒng)計(jì)功能,獲得以這些關(guān)鍵詞為標(biāo)識(shí)的論文數(shù)量。但在檢索過程中,由于關(guān)鍵詞的習(xí)慣用法與MGI核心詞匯之間并非完全一致,為了提高查全率,根據(jù)MGI報(bào)告來增加同義詞匯檢索,比如“AB測(cè)試”同義詞為“分離測(cè)試”和“水桶測(cè)試”,“數(shù)據(jù)聚類”同義詞為“聚類”,等等。對(duì)檢索結(jié)果也需要根據(jù)大數(shù)據(jù)技術(shù)的相關(guān)知識(shí),剔除其中有歧義的部分,比如“優(yōu)化”概念,在教育學(xué)中的優(yōu)化并非大數(shù)據(jù)的優(yōu)化;“情緒分析”,要剔除醫(yī)學(xué)和心理學(xué)上論文。在獲取圖書館領(lǐng)域大數(shù)據(jù)論文數(shù)量,也收集論文數(shù)量排名,以及量值最高的前五個(gè)領(lǐng)域的論文數(shù)等。下面是將檢索所獲取的數(shù)據(jù)以表格形式呈現(xiàn)。由于中國(guó)知網(wǎng)的數(shù)據(jù)每日更新,本文的檢索結(jié)果和數(shù)據(jù)獲取的時(shí)間點(diǎn)為2014年5月10日。
軍:軍事,測(cè):自然地理與測(cè)繪,圖:圖書情報(bào)與數(shù)字圖書館,化:化學(xué),建:建筑,運(yùn):運(yùn)輸,心:心理學(xué),醫(yī):醫(yī)學(xué),儀:儀器儀表,社:社會(huì)學(xué)和統(tǒng)計(jì)學(xué),材:材料,環(huán):環(huán)境
4. 結(jié)論和描述:
分析上述表格中的論文數(shù)量值,能夠?qū)?“圖書館領(lǐng)域?qū)Υ髷?shù)據(jù)技術(shù)在學(xué)術(shù)上的關(guān)涉程度”有一個(gè)大致的數(shù)量描述。
4.1 MGI大數(shù)據(jù)核心詞匯論文數(shù)量分布領(lǐng)域
從兩個(gè)表格中可以看出,1960年到 2014年包含大數(shù)據(jù)核心詞匯的論文總量約有485509篇,涉及的領(lǐng)域很廣,從論文數(shù)量值的總體分布來看,主要在計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)、自動(dòng)化、電信、互聯(lián)網(wǎng)等等領(lǐng)域,基本印證了MGI報(bào)告中有關(guān)于大數(shù)據(jù)技術(shù)淵源以及其主要運(yùn)用領(lǐng)域的定性描述[5]。從表格中也能看出,每個(gè)詞匯的論文數(shù)量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個(gè)側(cè)面反映了各種技術(shù)研究的成熟度和應(yīng)用廣度存在著較大差異。同時(shí),還可以從表格中看出,各個(gè)大技術(shù)核心概念與各個(gè)領(lǐng)域之間的親疏關(guān)系。
4.2 MGI大數(shù)據(jù)核心詞匯在圖書館研究中的運(yùn)用
從兩個(gè)表格中可以看到,圖書館領(lǐng)域的大數(shù)據(jù)核心詞匯的論文數(shù)量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數(shù)據(jù)技術(shù)在圖書館領(lǐng)域得到了不小的關(guān)注,但相對(duì)于大數(shù)據(jù)技術(shù)的發(fā)展速度,其應(yīng)用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個(gè)MGI大數(shù)據(jù)分析技術(shù)詞匯被涉及和應(yīng)用,占39[WTB2][WTBZ]。其中,包含數(shù)據(jù)挖掘、統(tǒng)計(jì)、自然語言處理、關(guān)聯(lián)規(guī)則挖掘、可視化技術(shù)論文數(shù)量較高,反映了圖書館在這幾個(gè)方面做了較多的研究。
從表二可看到,有16個(gè)MGI大數(shù)據(jù)處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數(shù)據(jù)、云計(jì)算、數(shù)據(jù)倉庫、SQL、關(guān)系型數(shù)據(jù)庫等關(guān)鍵詞的圖書館領(lǐng)域論文數(shù)量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關(guān)于數(shù)據(jù)資源整合管理的大數(shù)據(jù)技術(shù)在圖書館研究領(lǐng)域比較受重視。
大部份大數(shù)據(jù)核心技術(shù)概念在圖書館領(lǐng)域并沒有得到使用,有的概念屬于比較專業(yè)無法被運(yùn)用,比如信號(hào)處理。有的概念可以在圖書館領(lǐng)域應(yīng)用但未得到重視,比如“優(yōu)化”,論文數(shù)量為0。優(yōu)化主要指對(duì)模型的優(yōu)化,說明圖書館領(lǐng)域在建立模型方面比較欠缺,應(yīng)該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關(guān)鍵詞的論文數(shù)量匯總、比較和分析方法,對(duì)大數(shù)據(jù)技術(shù)在圖書館界的應(yīng)用有了一個(gè)宏觀上的測(cè)度。雖然這種方法把一個(gè)抽象問題予以具體化,但是該測(cè)量方法得到的是比較淺表的、框架性的結(jié)論。自然,有志于進(jìn)一步探索的研究者可以作進(jìn)一步優(yōu)化和細(xì)化。
5.1 優(yōu)化方向
對(duì)本測(cè)量方法的優(yōu)化,可從兩個(gè)角度考慮。一是提高查全率。使用關(guān)鍵詞檢索文獻(xiàn)具有較高的查準(zhǔn)率,但是查全率會(huì)受到不小的損失。若能同時(shí)考慮查準(zhǔn)和查全率,擴(kuò)大合理的檢索途徑,將可能增加本測(cè)量方法的信度。
另外,隨著學(xué)科的交叉發(fā)展,許多概念可能會(huì)被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關(guān)系變化,作為因素加以考慮,建立一個(gè)動(dòng)態(tài)的測(cè)量模型,將可能增加測(cè)量的效度。
5.2 細(xì)化方向
可以從兩個(gè)維度進(jìn)行細(xì)化研究。一個(gè)維度是將概念進(jìn)一步細(xì)化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對(duì)分類算法在圖書館領(lǐng)域的使用做研究,預(yù)先建立數(shù)據(jù)挖掘的核心詞匯表,再作量化比較。另一個(gè)維度是對(duì)圖書館領(lǐng)域的進(jìn)一步細(xì)化,可以考察和分析各個(gè)具體研究方向中大數(shù)據(jù)核心技術(shù)詞匯的運(yùn)用。
[參考文獻(xiàn)]
1.楊繹. 基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會(huì)研究方法教程[M]. 北京:北京大學(xué)出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關(guān)鍵詞索引質(zhì)量——自然語言與人工語言的結(jié)合[J]. 圖書館論壇,2005(5):119-121
附簡(jiǎn)歷
桂羅敏,女,博士,副研究館員,圖書館學(xué)。
迄今在核心及重要期刊上已發(fā)表的圖書情報(bào)專業(yè)論文有:《先秦軍事情報(bào)學(xué)概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎(jiǎng)原因考》、《兩唐書經(jīng)籍藝文志目錄類證辨》、《對(duì)〈古今書錄序〉的幾點(diǎn)駁正》、《網(wǎng)絡(luò)閱讀古籍的幾個(gè)問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻(xiàn)通考·經(jīng)籍考〉分類法新探》、《對(duì)開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經(jīng)典的數(shù)目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識(shí)分類對(duì)天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。
4. 結(jié)論和描述:
分析上述表格中的論文數(shù)量值,能夠?qū)?“圖書館領(lǐng)域?qū)Υ髷?shù)據(jù)技術(shù)在學(xué)術(shù)上的關(guān)涉程度”有一個(gè)大致的數(shù)量描述。
4.1 MGI大數(shù)據(jù)核心詞匯論文數(shù)量分布領(lǐng)域
從兩個(gè)表格中可以看出,1960年到 2014年包含大數(shù)據(jù)核心詞匯的論文總量約有485509篇,涉及的領(lǐng)域很廣,從論文數(shù)量值的總體分布來看,主要在計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)、自動(dòng)化、電信、互聯(lián)網(wǎng)等等領(lǐng)域,基本印證了MGI報(bào)告中有關(guān)于大數(shù)據(jù)技術(shù)淵源以及其主要運(yùn)用領(lǐng)域的定性描述[5]。從表格中也能看出,每個(gè)詞匯的論文數(shù)量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個(gè)側(cè)面反映了各種技術(shù)研究的成熟度和應(yīng)用廣度存在著較大差異。同時(shí),還可以從表格中看出,各個(gè)大技術(shù)核心概念與各個(gè)領(lǐng)域之間的親疏關(guān)系。
4.2 MGI大數(shù)據(jù)核心詞匯在圖書館研究中的運(yùn)用
從兩個(gè)表格中可以看到,圖書館領(lǐng)域的大數(shù)據(jù)核心詞匯的論文數(shù)量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數(shù)據(jù)技術(shù)在圖書館領(lǐng)域得到了不小的關(guān)注,但相對(duì)于大數(shù)據(jù)技術(shù)的發(fā)展速度,其應(yīng)用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個(gè)MGI大數(shù)據(jù)分析技術(shù)詞匯被涉及和應(yīng)用,占39[WTB2][WTBZ]。其中,包含數(shù)據(jù)挖掘、統(tǒng)計(jì)、自然語言處理、關(guān)聯(lián)規(guī)則挖掘、可視化技術(shù)論文數(shù)量較高,反映了圖書館在這幾個(gè)方面做了較多的研究。
從表二可看到,有16個(gè)MGI大數(shù)據(jù)處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數(shù)據(jù)、云計(jì)算、數(shù)據(jù)倉庫、SQL、關(guān)系型數(shù)據(jù)庫等關(guān)鍵詞的圖書館領(lǐng)域論文數(shù)量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關(guān)于數(shù)據(jù)資源整合管理的大數(shù)據(jù)技術(shù)在圖書館研究領(lǐng)域比較受重視。
大部份大數(shù)據(jù)核心技術(shù)概念在圖書館領(lǐng)域并沒有得到使用,有的概念屬于比較專業(yè)無法被運(yùn)用,比如信號(hào)處理。有的概念可以在圖書館領(lǐng)域應(yīng)用但未得到重視,比如“優(yōu)化”,論文數(shù)量為0。優(yōu)化主要指對(duì)模型的優(yōu)化,說明圖書館領(lǐng)域在建立模型方面比較欠缺,應(yīng)該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關(guān)鍵詞的論文數(shù)量匯總、比較和分析方法,對(duì)大數(shù)據(jù)技術(shù)在圖書館界的應(yīng)用有了一個(gè)宏觀上的測(cè)度。雖然這種方法把一個(gè)抽象問題予以具體化,但是該測(cè)量方法得到的是比較淺表的、框架性的結(jié)論。自然,有志于進(jìn)一步探索的研究者可以作進(jìn)一步優(yōu)化和細(xì)化。
5.1 優(yōu)化方向
對(duì)本測(cè)量方法的優(yōu)化,可從兩個(gè)角度考慮。一是提高查全率。使用關(guān)鍵詞檢索文獻(xiàn)具有較高的查準(zhǔn)率,但是查全率會(huì)受到不小的損失。若能同時(shí)考慮查準(zhǔn)和查全率,擴(kuò)大合理的檢索途徑,將可能增加本測(cè)量方法的信度。
另外,隨著學(xué)科的交叉發(fā)展,許多概念可能會(huì)被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關(guān)系變化,作為因素加以考慮,建立一個(gè)動(dòng)態(tài)的測(cè)量模型,將可能增加測(cè)量的效度。
5.2 細(xì)化方向
可以從兩個(gè)維度進(jìn)行細(xì)化研究。一個(gè)維度是將概念進(jìn)一步細(xì)化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對(duì)分類算法在圖書館領(lǐng)域的使用做研究,預(yù)先建立數(shù)據(jù)挖掘的核心詞匯表,再作量化比較。另一個(gè)維度是對(duì)圖書館領(lǐng)域的進(jìn)一步細(xì)化,可以考察和分析各個(gè)具體研究方向中大數(shù)據(jù)核心技術(shù)詞匯的運(yùn)用。
[參考文獻(xiàn)]
1.楊繹. 基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會(huì)研究方法教程[M]. 北京:北京大學(xué)出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關(guān)鍵詞索引質(zhì)量——自然語言與人工語言的結(jié)合[J]. 圖書館論壇,2005(5):119-121
附簡(jiǎn)歷
桂羅敏,女,博士,副研究館員,圖書館學(xué)。
迄今在核心及重要期刊上已發(fā)表的圖書情報(bào)專業(yè)論文有:《先秦軍事情報(bào)學(xué)概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎(jiǎng)原因考》、《兩唐書經(jīng)籍藝文志目錄類證辨》、《對(duì)〈古今書錄序〉的幾點(diǎn)駁正》、《網(wǎng)絡(luò)閱讀古籍的幾個(gè)問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻(xiàn)通考·經(jīng)籍考〉分類法新探》、《對(duì)開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經(jīng)典的數(shù)目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識(shí)分類對(duì)天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。
4. 結(jié)論和描述:
分析上述表格中的論文數(shù)量值,能夠?qū)?“圖書館領(lǐng)域?qū)Υ髷?shù)據(jù)技術(shù)在學(xué)術(shù)上的關(guān)涉程度”有一個(gè)大致的數(shù)量描述。
4.1 MGI大數(shù)據(jù)核心詞匯論文數(shù)量分布領(lǐng)域
從兩個(gè)表格中可以看出,1960年到 2014年包含大數(shù)據(jù)核心詞匯的論文總量約有485509篇,涉及的領(lǐng)域很廣,從論文數(shù)量值的總體分布來看,主要在計(jì)算機(jī)、數(shù)學(xué)、經(jīng)濟(jì)、自動(dòng)化、電信、互聯(lián)網(wǎng)等等領(lǐng)域,基本印證了MGI報(bào)告中有關(guān)于大數(shù)據(jù)技術(shù)淵源以及其主要運(yùn)用領(lǐng)域的定性描述[5]。從表格中也能看出,每個(gè)詞匯的論文數(shù)量差異也較大,有的有幾萬篇,有的只有幾篇,則從一個(gè)側(cè)面反映了各種技術(shù)研究的成熟度和應(yīng)用廣度存在著較大差異。同時(shí),還可以從表格中看出,各個(gè)大技術(shù)核心概念與各個(gè)領(lǐng)域之間的親疏關(guān)系。
4.2 MGI大數(shù)據(jù)核心詞匯在圖書館研究中的運(yùn)用
從兩個(gè)表格中可以看到,圖書館領(lǐng)域的大數(shù)據(jù)核心詞匯的論文數(shù)量總共5764篇,約占總量的1.2[WTB2][WTBZ]。圖書館作為信息行業(yè),該比值并不算高。說明大數(shù)據(jù)技術(shù)在圖書館領(lǐng)域得到了不小的關(guān)注,但相對(duì)于大數(shù)據(jù)技術(shù)的發(fā)展速度,其應(yīng)用與開發(fā)的力度還是比較欠缺。
從表一可看到,有11個(gè)MGI大數(shù)據(jù)分析技術(shù)詞匯被涉及和應(yīng)用,占39[WTB2][WTBZ]。其中,包含數(shù)據(jù)挖掘、統(tǒng)計(jì)、自然語言處理、關(guān)聯(lián)規(guī)則挖掘、可視化技術(shù)論文數(shù)量較高,反映了圖書館在這幾個(gè)方面做了較多的研究。
從表二可看到,有16個(gè)MGI大數(shù)據(jù)處理詞匯被使用,占67[WTB2][WTBZ]。其中包含元數(shù)據(jù)、云計(jì)算、數(shù)據(jù)倉庫、SQL、關(guān)系型數(shù)據(jù)庫等關(guān)鍵詞的圖書館領(lǐng)域論文數(shù)量都較高,并在同一詞匯的論文總量里占較大比例,這說明有關(guān)于數(shù)據(jù)資源整合管理的大數(shù)據(jù)技術(shù)在圖書館研究領(lǐng)域比較受重視。
大部份大數(shù)據(jù)核心技術(shù)概念在圖書館領(lǐng)域并沒有得到使用,有的概念屬于比較專業(yè)無法被運(yùn)用,比如信號(hào)處理。有的概念可以在圖書館領(lǐng)域應(yīng)用但未得到重視,比如“優(yōu)化”,論文數(shù)量為0。優(yōu)化主要指對(duì)模型的優(yōu)化,說明圖書館領(lǐng)域在建立模型方面比較欠缺,應(yīng)該引起研究人員的重視。
5.存在問題和展望
上述以MGI核心概念為關(guān)鍵詞的論文數(shù)量匯總、比較和分析方法,對(duì)大數(shù)據(jù)技術(shù)在圖書館界的應(yīng)用有了一個(gè)宏觀上的測(cè)度。雖然這種方法把一個(gè)抽象問題予以具體化,但是該測(cè)量方法得到的是比較淺表的、框架性的結(jié)論。自然,有志于進(jìn)一步探索的研究者可以作進(jìn)一步優(yōu)化和細(xì)化。
5.1 優(yōu)化方向
對(duì)本測(cè)量方法的優(yōu)化,可從兩個(gè)角度考慮。一是提高查全率。使用關(guān)鍵詞檢索文獻(xiàn)具有較高的查準(zhǔn)率,但是查全率會(huì)受到不小的損失。若能同時(shí)考慮查準(zhǔn)和查全率,擴(kuò)大合理的檢索途徑,將可能增加本測(cè)量方法的信度。
另外,隨著學(xué)科的交叉發(fā)展,許多概念可能會(huì)被下位概念或同位概念所取代。如果能監(jiān)控概念之間的關(guān)系變化,作為因素加以考慮,建立一個(gè)動(dòng)態(tài)的測(cè)量模型,將可能增加測(cè)量的效度。
5.2 細(xì)化方向
可以從兩個(gè)維度進(jìn)行細(xì)化研究。一個(gè)維度是將概念進(jìn)一步細(xì)化,比如“分類算法”下有許多子概念:貝葉斯分類、后向傳播分類、k-最鄰近分類等,可以專門對(duì)分類算法在圖書館領(lǐng)域的使用做研究,預(yù)先建立數(shù)據(jù)挖掘的核心詞匯表,再作量化比較。另一個(gè)維度是對(duì)圖書館領(lǐng)域的進(jìn)一步細(xì)化,可以考察和分析各個(gè)具體研究方向中大數(shù)據(jù)核心技術(shù)詞匯的運(yùn)用。
[參考文獻(xiàn)]
1.楊繹. 基于文獻(xiàn)計(jì)量的“大數(shù)據(jù)”研究[J]. 圖書館雜志, 2012(9):29-32
2.袁方. 社會(huì)研究方法教程[M]. 北京:北京大學(xué)出版,1997(2):175
3.MGI.Big data:The next frontier for innovation,competition,and, productivity [R/OL]. [2014-5-4].http://wenku.baidu.com/view/6c9b66edb8f67c1cfad6b873.html
4. 麥肯錫全球研究院. 大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域[R/OL]. [2014-5-4]. http://wenku.baidu.com/view/2e494d6d9b6648d7c1c746a7.html
5. 賽迪智庫. 介紹[EB/OL]. [2014-5-4]. http://www.ccidthinktank.com/plus/list.php?tid=2
6. 趙宗蔚. 提高期刊論文關(guān)鍵詞索引質(zhì)量——自然語言與人工語言的結(jié)合[J]. 圖書館論壇,2005(5):119-121
附簡(jiǎn)歷
桂羅敏,女,博士,副研究館員,圖書館學(xué)。
迄今在核心及重要期刊上已發(fā)表的圖書情報(bào)專業(yè)論文有:《先秦軍事情報(bào)學(xué)概述》、《〈貞觀政要〉問世冷遇考》、《〈群書目錄〉未獲褒獎(jiǎng)原因考》、《兩唐書經(jīng)籍藝文志目錄類證辨》、《對(duì)〈古今書錄序〉的幾點(diǎn)駁正》、《網(wǎng)絡(luò)閱讀古籍的幾個(gè)問題和建議》、《武則天著作目錄證辨釋論》、《〈文獻(xiàn)通考·經(jīng)籍考〉分類法新探》、《對(duì)開元《群書目錄》的重新審視》、《從正史藝文志探究儒家經(jīng)典的數(shù)目變化》、《<三教珠英>考辨》、《<修文殿御覽>考辨》、《知識(shí)分類對(duì)天人秩序的映照——以類書《北堂書鈔》為例》等30余篇。