国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代的圖書(shū)館數(shù)據(jù)挖掘技術(shù)探討

2016-03-05 01:05:36劉曉亮
無(wú)線(xiàn)互聯(lián)科技 2015年21期
關(guān)鍵詞:信息服務(wù)數(shù)據(jù)挖掘大數(shù)據(jù)

劉曉亮

摘要:大數(shù)據(jù)的關(guān)鍵在于數(shù)據(jù)的分析與應(yīng)用,提高圖書(shū)館基于數(shù)據(jù)挖掘的處理分析能力是開(kāi)展知識(shí)服務(wù)的必然要求。文章首先闡述了圖書(shū)館的大數(shù)據(jù)服務(wù)應(yīng)用特征,接著提出大數(shù)據(jù)階段圖書(shū)館數(shù)據(jù)挖掘面臨的挑戰(zhàn),并給出相應(yīng)對(duì)策,最后探討了數(shù)據(jù)挖掘中值得關(guān)注的重點(diǎn)技術(shù)以及圖書(shū)館開(kāi)展知識(shí)服務(wù)應(yīng)用的一些做法。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)挖掘;圖書(shū)館;信息服務(wù)

1.圖書(shū)館的大數(shù)據(jù)應(yīng)用特征

大數(shù)據(jù)是一場(chǎng)革命,將改變?nèi)藗兊纳?、工作和思維方式。大數(shù)據(jù)至今并無(wú)統(tǒng)一定義,通常以“4v”特征或?qū)Υ髷?shù)據(jù)進(jìn)行描述性解釋?zhuān)阂?guī)模(Volume)指數(shù)據(jù)的數(shù)量規(guī)模大;類(lèi)型(Variety)指數(shù)據(jù)類(lèi)型多樣復(fù)雜,混合結(jié)構(gòu)化與非結(jié)構(gòu)化多種類(lèi)型;實(shí)時(shí)(Velocity)一方面是數(shù)據(jù)增長(zhǎng)速度快,另一方面要求在合理的時(shí)間內(nèi)處理數(shù)據(jù);價(jià)值(Value)反映了大數(shù)據(jù)隱含著價(jià)值轉(zhuǎn)化。大數(shù)據(jù)發(fā)展的最終目標(biāo)是分析挖掘數(shù)據(jù)的價(jià)值,其重點(diǎn)在于數(shù)據(jù)的分析和應(yīng)用,“大”不過(guò)是信息技術(shù)不斷發(fā)展所產(chǎn)生的海量數(shù)據(jù)的表象而己。

社會(huì)進(jìn)步和信息技術(shù)不斷改變著圖書(shū)館的服務(wù)內(nèi)容與模式,網(wǎng)絡(luò)環(huán)境下要求將這些信息資源組合成整體并延伸至更大的范圍。隨著數(shù)字圖書(shū)館的興起,圖書(shū)館數(shù)字化文獻(xiàn)信息、數(shù)據(jù)庫(kù)的數(shù)量種類(lèi)不斷增加,各地市級(jí)圖書(shū)館都已具有海量信息規(guī)模,比如上海圖書(shū)館提供的數(shù)據(jù)庫(kù)已多達(dá)400余個(gè)。這些數(shù)據(jù)包括類(lèi)型多樣的文本、圖片、音頻與視頻各類(lèi)非結(jié)構(gòu)化數(shù)據(jù),滿(mǎn)足大數(shù)據(jù)的基本特征。然而,這些數(shù)據(jù)資源價(jià)值遠(yuǎn)未得到有效體現(xiàn)與利用。一個(gè)重要的原因是缺乏有效的數(shù)據(jù)挖掘技術(shù)方法。通過(guò)人工從大量結(jié)構(gòu)繁雜的數(shù)據(jù)中發(fā)現(xiàn)價(jià)值,是難以實(shí)現(xiàn)的。隨著大數(shù)據(jù)技術(shù)的發(fā)展與應(yīng)用,必然要求圖書(shū)館重點(diǎn)利用數(shù)據(jù)挖掘技術(shù)從大量的信息中發(fā)掘數(shù)據(jù)價(jià)值,以此推出知識(shí)化產(chǎn)品化的服務(wù)應(yīng)用。同時(shí),通過(guò)大數(shù)據(jù)處理分析對(duì)信息資源進(jìn)行深度、動(dòng)態(tài)、廣泛的知識(shí)挖掘,便于揭示信息內(nèi)容中各個(gè)要素及其相互之間的聯(lián)系,促進(jìn)信息交流,實(shí)現(xiàn)信息資源共享,提高文獻(xiàn)信息的利用效率,從而實(shí)現(xiàn)圖書(shū)館信息增值服務(wù)并提高信息服務(wù)的競(jìng)爭(zhēng)力。因此,探索數(shù)據(jù)挖掘方法技術(shù)提高圖書(shū)館的服務(wù)水平是亟須思考和解決的問(wèn)題。

2.大數(shù)據(jù)時(shí)代圖書(shū)館數(shù)據(jù)挖掘面臨的挑戰(zhàn)

大數(shù)據(jù)時(shí)代的到來(lái),極大地促進(jìn)了數(shù)據(jù)科學(xué)的興起。數(shù)據(jù)科學(xué)包括用科學(xué)的方法研究數(shù)據(jù)與用數(shù)據(jù)的方法研究科學(xué),后者主要的實(shí)現(xiàn)方式就是數(shù)據(jù)挖掘方法與技術(shù)。數(shù)據(jù)挖掘是指從數(shù)據(jù)源中發(fā)現(xiàn)知識(shí)的過(guò)程。實(shí)現(xiàn)數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)在于數(shù)據(jù)的挖掘方法技術(shù)。所以,如何充分有效地利用數(shù)據(jù)挖掘方法對(duì)圖書(shū)館大數(shù)據(jù)進(jìn)行開(kāi)發(fā)處理,是開(kāi)展圖書(shū)館知識(shí)服務(wù)的重要研究方向,也是服務(wù)創(chuàng)新的關(guān)鍵途徑與支撐服務(wù)技術(shù)。大數(shù)據(jù)時(shí)代圖書(shū)館的數(shù)據(jù)數(shù)量大、類(lèi)型多,對(duì)數(shù)據(jù)挖掘提出新的需求與挑戰(zhàn),主要有以下方面。

2.1大規(guī)模數(shù)據(jù)量

數(shù)字館藏?cái)?shù)據(jù)規(guī)模與數(shù)據(jù)類(lèi)型在不斷增長(zhǎng),對(duì)于數(shù)據(jù)挖掘算法的能力要求也在不斷提高。傳統(tǒng)對(duì)于大規(guī)模數(shù)據(jù)的分析一般采用隨機(jī)取樣,以較少數(shù)據(jù)獲得最多的信息,其準(zhǔn)確性會(huì)隨著隨機(jī)性增加而提高。這是在計(jì)算機(jī)性能較低特別是無(wú)法收集全部數(shù)據(jù)的情況下的選擇。然而,大數(shù)據(jù)環(huán)境數(shù)據(jù)價(jià)值隱匿于海量數(shù)據(jù)中,單靠取樣是無(wú)法捕捉到這些細(xì)節(jié)的,需要采用全集數(shù)據(jù)進(jìn)行處理分析。如此大量的數(shù)據(jù)分析僅靠單機(jī)是無(wú)法完成的,分析挖掘模型必然要借助分布式計(jì)算框架,比如,Map Reduce或者當(dāng)前流行的Spark,將分析模型遷移至集群計(jì)算環(huán)境。大數(shù)據(jù)應(yīng)用具有實(shí)時(shí)性,如智能推薦、文獻(xiàn)關(guān)聯(lián)等,需要在合理的時(shí)間完成分析過(guò)程,采用集群計(jì)算環(huán)境也是提高計(jì)算效率的選擇。另外,數(shù)據(jù)量增加的同時(shí),噪音數(shù)據(jù)也會(huì)增加。因此,在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作。

2.2數(shù)據(jù)的高維特征

圖書(shū)館數(shù)據(jù)的多樣性能夠提供更多維度的客觀(guān)對(duì)象描述屬性。數(shù)據(jù)從過(guò)去的一維、多維逐漸發(fā)展為巨量維度。雖然能夠建立豐富的多維數(shù)據(jù)模型與方法,但在構(gòu)建的大數(shù)據(jù)特征空間中,往往會(huì)超出傳統(tǒng)方法的處理能力??梢钥紤]引入維度規(guī)約技術(shù),比如主成分分析、奇異值分解來(lái)降低數(shù)據(jù)維度。同時(shí),數(shù)據(jù)屬性可能過(guò)于稀疏,也會(huì)極大影響數(shù)據(jù)模型的有效性。

2.3數(shù)據(jù)關(guān)系廣泛

圖書(shū)館服務(wù)應(yīng)用過(guò)程中的信息、用戶(hù)對(duì)象之間存在多種行為與內(nèi)容關(guān)聯(lián),從而組成多關(guān)系網(wǎng)絡(luò)。大數(shù)據(jù)的多源性、多樣性正是構(gòu)建這種復(fù)雜關(guān)系的基礎(chǔ)。比如,用戶(hù)的查詢(xún)?cè)~、借閱記錄、瀏覽記錄、圖書(shū)館文獻(xiàn)信息內(nèi)容之間形成的多關(guān)系網(wǎng)絡(luò)。特別是社交網(wǎng)絡(luò)數(shù)據(jù)的應(yīng)用,更使其趨于多元化。許多圖書(shū)館實(shí)踐中,比如基于用戶(hù)的信息推薦就是利用這種關(guān)系作為分析依據(jù)。過(guò)多關(guān)系的簡(jiǎn)單鏈接應(yīng)用,反而會(huì)削弱關(guān)鍵特征的作用和導(dǎo)致語(yǔ)義缺失。如何廣泛利用大數(shù)據(jù)提供的各類(lèi)數(shù)據(jù)類(lèi)型與數(shù)據(jù)關(guān)系,成為實(shí)際應(yīng)用中的一個(gè)重點(diǎn)。實(shí)際中,需要重視運(yùn)用關(guān)系選擇、組合及判斷函數(shù),提高分析的正確性有效性。

2.4數(shù)據(jù)保護(hù)要求不斷增長(zhǎng)

數(shù)據(jù)是圖書(shū)館信息服務(wù)的核心和基礎(chǔ),數(shù)據(jù)的安全性就顯得尤為重要。用戶(hù)在享受精準(zhǔn)個(gè)性化推薦帶來(lái)的便捷的同時(shí),也在深深擔(dān)心個(gè)人隱私安全問(wèn)題。一些敏感信息以明文存儲(chǔ)也會(huì)有安全風(fēng)險(xiǎn)。這些會(huì)導(dǎo)致數(shù)據(jù)挖掘方或者任何可以接近數(shù)據(jù)集的人,能夠辨別特定的用戶(hù)個(gè)體或內(nèi)容信息,存在利益侵犯的可能性。數(shù)據(jù)挖掘在發(fā)現(xiàn)數(shù)據(jù)價(jià)值的同時(shí),也對(duì)隱私安全和數(shù)據(jù)安全帶來(lái)了威脅。這就需利用數(shù)據(jù)修改、數(shù)據(jù)模糊、數(shù)據(jù)加密、加密檢索等隱私保護(hù)技術(shù)提高數(shù)據(jù)的安全性和可控性。

2.5自然語(yǔ)言理解程度較低

當(dāng)前,在信息檢索、自動(dòng)摘要等常見(jiàn)的數(shù)據(jù)挖掘任務(wù)中,仍無(wú)法有效識(shí)別同義詞、近義詞以及詞語(yǔ)間的語(yǔ)義關(guān)聯(lián),特別是一些短文本處理中,無(wú)法有效識(shí)別詞語(yǔ)語(yǔ)義,造成處理效果不理想。雖然一些圖書(shū)館建設(shè)了知識(shí)庫(kù),但僅限于研究層面,距離實(shí)用在規(guī)模上有相當(dāng)差距,在應(yīng)用方法上也沒(méi)有大的突破。同時(shí),圖書(shū)館存在大量圖片、音頻、視頻數(shù)據(jù),這些數(shù)據(jù)的加工處理也沒(méi)有引入有效的自動(dòng)圖像、音頻識(shí)別技術(shù),圖書(shū)館難以基于數(shù)據(jù)挖掘提供全方位的信息服務(wù)。

3.大數(shù)據(jù)時(shí)代圖書(shū)館數(shù)據(jù)挖掘的關(guān)鍵技術(shù)方法

3.1數(shù)據(jù)存儲(chǔ)

圖書(shū)館數(shù)據(jù)類(lèi)型眾多,需要引入非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)技術(shù)。比如典型的HDFS,No SOL(Not Only SOL),已廣泛用于非結(jié)構(gòu)化數(shù)據(jù)的分布式存儲(chǔ)。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)適合結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。需要注意的是,要區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),針對(duì)數(shù)據(jù)特點(diǎn)使用相應(yīng)的存儲(chǔ)技術(shù)。在實(shí)際中,難以使用一種數(shù)據(jù)存儲(chǔ)方式存儲(chǔ)管理所有的數(shù)據(jù),即使谷歌也是將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。同時(shí),需要運(yùn)用高效存儲(chǔ)技術(shù),比如數(shù)據(jù)壓縮、自動(dòng)精簡(jiǎn)配置、自動(dòng)分層存儲(chǔ)、存儲(chǔ)虛擬化等解決或緩解數(shù)據(jù)量過(guò)大、存儲(chǔ)利用率、存儲(chǔ)效率低等難題。

3.2數(shù)據(jù)集成

目前,相當(dāng)數(shù)量圖書(shū)館的一個(gè)重要問(wèn)題是數(shù)據(jù)資源分散化、碎片化,數(shù)據(jù)存儲(chǔ)在不能相互訪(fǎng)問(wèn)的數(shù)據(jù)庫(kù)與系統(tǒng)中,形成數(shù)據(jù)孤島。孤立的數(shù)據(jù)是難以發(fā)揮出數(shù)據(jù)價(jià)值的,如何連接這些數(shù)據(jù),實(shí)現(xiàn)資源交互共享,是數(shù)據(jù)價(jià)值最大化的關(guān)鍵。數(shù)據(jù)集成將不同來(lái)源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,經(jīng)過(guò)關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的標(biāo)準(zhǔn)來(lái)存儲(chǔ)數(shù)據(jù),從而應(yīng)對(duì)大數(shù)據(jù)數(shù)量眾多、類(lèi)型廣泛等問(wèn)題給數(shù)據(jù)管理服務(wù)所帶來(lái)的挑戰(zhàn)。數(shù)據(jù)的集成連接涉及異構(gòu)數(shù)據(jù)的統(tǒng)一語(yǔ)義描述、多維特征關(guān)聯(lián)。同時(shí),要保證數(shù)據(jù)質(zhì)量,需要對(duì)數(shù)據(jù)進(jìn)行清洗。但清洗的粒度過(guò)細(xì),容易過(guò)濾有效數(shù)據(jù);反之,無(wú)法達(dá)清洗效果。所以,在質(zhì)與量之間需要做出一定權(quán)衡。

3.3數(shù)據(jù)處理加工

語(yǔ)義處理技術(shù)能夠?yàn)樯顚拥臄?shù)據(jù)分析提供支持,提高各種數(shù)據(jù)挖掘算法的語(yǔ)義化程度與性能,提高機(jī)器可理解數(shù)據(jù)的能力。語(yǔ)義知識(shí)庫(kù)是語(yǔ)義處理的基礎(chǔ)支撐,典型的知識(shí)庫(kù)有WordNet、中文知網(wǎng),但其構(gòu)建存在人工成本高、更新慢的問(wèn)題。實(shí)踐中,可以從維基百科、互動(dòng)百科等結(jié)構(gòu)化程度較高的海量數(shù)據(jù)中抽取詞語(yǔ)關(guān)系,以低成本方式自動(dòng)構(gòu)建語(yǔ)義知識(shí)庫(kù)獲取語(yǔ)義知識(shí),也可以利用大規(guī)模語(yǔ)料構(gòu)建概念詞語(yǔ)矩陣或利用Word2 Vector工具,提高數(shù)據(jù)挖掘的語(yǔ)義化處理程度。圖書(shū)館需要采用圖像、音視頻內(nèi)容檢索技術(shù),提高多媒體數(shù)據(jù)的處理能力。比如利用語(yǔ)音識(shí)別技術(shù),將音頻數(shù)據(jù)處理為文本并記錄聲音信號(hào)在音頻中的時(shí)間位置,以此提高用戶(hù)獲取音頻數(shù)據(jù)的快速性與準(zhǔn)確性。通過(guò)語(yǔ)義標(biāo)注從圖書(shū)館數(shù)據(jù)中識(shí)別概念本體,實(shí)現(xiàn)信息之間的關(guān)聯(lián),形成知識(shí)網(wǎng)絡(luò),為個(gè)性化、語(yǔ)義化服務(wù)應(yīng)用提供支撐,進(jìn)而可通過(guò)分類(lèi)、聚類(lèi)等數(shù)據(jù)挖掘加工處理從多維度滿(mǎn)足用戶(hù)的信息需求。另外,可借助微博、微信等社會(huì)化網(wǎng)絡(luò)提供的API接口,獲得更廣泛的用戶(hù)數(shù)據(jù),展開(kāi)用戶(hù)需求與圖書(shū)館信息之間的深層處理分析,利用APP等多種方式為圖書(shū)館與用戶(hù)之間搭建有效的服務(wù)橋梁。

3.4數(shù)據(jù)可視化

數(shù)據(jù)可視化是關(guān)于數(shù)據(jù)視覺(jué)表現(xiàn)形式的技術(shù),其借助圖形化手段,清晰、有效地傳達(dá)與表示信息。一般以圖形、圖表等概要形式展現(xiàn)數(shù)據(jù)的各種屬性和變量值。比如,通過(guò)數(shù)據(jù)餅圖、柱狀圖、趨勢(shì)圖、關(guān)系網(wǎng)絡(luò)圖將處理分析結(jié)果或過(guò)程與用戶(hù)進(jìn)行交互,以此提高用戶(hù)對(duì)查詢(xún)結(jié)果的理解程度和興趣。

4.結(jié)語(yǔ)

本文介紹探討了圖書(shū)館大數(shù)據(jù)知識(shí)挖掘技術(shù)中值得關(guān)注的一些技術(shù)問(wèn)題和重點(diǎn),以及圖書(shū)館開(kāi)展知識(shí)服務(wù)應(yīng)用的一些做法。在大數(shù)據(jù)時(shí)代,拓展提高圖書(shū)館的信息服務(wù)水平,必須把握數(shù)據(jù)挖掘方法技術(shù)的發(fā)展趨勢(shì)與特點(diǎn),才能為滿(mǎn)足時(shí)代需求改進(jìn)與創(chuàng)新圖書(shū)館服務(wù)應(yīng)用的方法與模式。

猜你喜歡
信息服務(wù)數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
公共圖書(shū)館科技創(chuàng)新服務(wù)探析
農(nóng)業(yè)高校圖書(shū)館專(zhuān)利信息服務(wù)研究
基于價(jià)值共創(chuàng)共享的信息服務(wù)生態(tài)系統(tǒng)協(xié)同機(jī)制研究
科技視界(2016年18期)2016-11-03 22:02:50
微信公眾平臺(tái)在高校圖書(shū)館信息服務(wù)中的應(yīng)用研究
科技視界(2016年21期)2016-10-17 19:25:20
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
平度市| 兴化市| 蕉岭县| 嘉黎县| 襄城县| 普定县| 昭通市| 登封市| 长阳| 正定县| 扎赉特旗| 蛟河市| 沂源县| 仙游县| 昭平县| 临洮县| 乳源| 锦屏县| 平塘县| 县级市| 申扎县| 龙门县| 大丰市| 淳安县| 汾西县| 尚义县| 东安县| 响水县| 达州市| 通河县| 通道| 诏安县| 乐山市| 灵璧县| 临澧县| 客服| 平顶山市| 综艺| 大方县| 揭西县| 安徽省|