吳廣印
(中國科學(xué)技術(shù)信息研究所,北京 100038)
RMSCloud與科技文獻(xiàn)云服務(wù)
吳廣印
(中國科學(xué)技術(shù)信息研究所,北京 100038)
在對(duì)云計(jì)算相關(guān)功能定義進(jìn)行研究和分析的基礎(chǔ)上,針對(duì)科技文獻(xiàn)的云服務(wù)需求結(jié)合云計(jì)算的相關(guān)應(yīng)用,介紹RMSCloud的相關(guān)核心技術(shù)及特點(diǎn)。最后基于RMSCloud對(duì)科技文獻(xiàn)云服務(wù)應(yīng)用的集成系統(tǒng)架構(gòu)進(jìn)行闡述。
RMSCloud;云計(jì)算;云服務(wù);科技文獻(xiàn)服務(wù);云服務(wù)集成
RMS是北京萬方數(shù)據(jù)股份有限公司開發(fā)的一個(gè)統(tǒng)一的非結(jié)構(gòu)化資源服務(wù)系統(tǒng)的簡稱。RMSCloud是資源服務(wù)系統(tǒng)的云計(jì)算服務(wù)縮寫。RMSCloud在RMS架構(gòu)基礎(chǔ)上以云計(jì)算的技術(shù)架構(gòu)為指導(dǎo)面向科技文獻(xiàn)云服務(wù)的學(xué)術(shù)搜素引擎,在國家“863”課題“以科技文獻(xiàn)為主的搜索引擎研制”資助下,歷經(jīng)2年多時(shí)間研制完成。
所謂“云計(jì)算”服務(wù),就是直接為用戶提供功能服務(wù),而用戶不必考慮平臺(tái)、系統(tǒng)、應(yīng)用軟件甚至公共服務(wù)數(shù)據(jù)來源。用戶在需要某種服務(wù)時(shí),只需向服務(wù)提供商支付一定的服務(wù)費(fèi),即可獲取這種直接的服務(wù)。顯然“云計(jì)算”的服務(wù)模式是一種硬件、軟件、系統(tǒng)資源的共享服務(wù)模式。云計(jì)算的最終目的是將計(jì)算、服務(wù)和應(yīng)用作為一種公共設(shè)施提供給公眾,從而大大提高資源的利用率。
在云計(jì)算環(huán)境下,用戶的使用觀念也會(huì)發(fā)生徹底的變化:從“購買系統(tǒng)”向“購買服務(wù)”轉(zhuǎn)變,因?yàn)樗麄冎苯用鎸?duì)的將不再是復(fù)雜的硬件和軟件,而是最終的服務(wù)。用戶不需要擁有看得見、摸得著的硬件設(shè)施,也不需要為機(jī)房支付設(shè)備供電、空調(diào)制冷、專人維護(hù)等高昂費(fèi)用,更不需要等待漫長的供貨周期以及項(xiàng)目實(shí)施等冗長的時(shí)間,而只需要和云計(jì)算服務(wù)提供商簽訂服務(wù)合同,即可得到需要的直接服務(wù)。目前,由北京萬方軟件有限公司提供的“中國學(xué)術(shù)搜索網(wǎng)”云服務(wù)接口可為廣大科技信息服務(wù)機(jī)構(gòu)提供一體化的“科技文獻(xiàn)搜索云服務(wù)”,從而最大限度地節(jié)約投資,提高服務(wù)效率。
美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)提出的云計(jì)算的定義如下[1]:云計(jì)算是“一種無處不在且方便使用的計(jì)算模式,可按網(wǎng)絡(luò)訪問需求自動(dòng)配置的計(jì)算資源共享池(例如網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用程序和服務(wù)),可以最小的管理代價(jià)快速配置管理和發(fā)布資源,并且支持資源服務(wù)商和服務(wù)供應(yīng)商的互動(dòng)”。NIST提出云計(jì)算具有按需自助服務(wù)、寬帶網(wǎng)絡(luò)接入、資源池、快速彈性、量化服務(wù)等5個(gè)基本特征,軟件即服務(wù)、平臺(tái)即服務(wù)、基礎(chǔ)設(shè)施即服務(wù)等3種服務(wù)模式,私有云、社區(qū)云、公有云、混合云等4類部署形式。
圖1是國際上對(duì)3種不同云服務(wù)模式的用戶控制權(quán)限的說明,其中打包軟件為傳統(tǒng)用戶私有設(shè)施形式。
云計(jì)算系統(tǒng)運(yùn)用了許多技術(shù),其中以編程模型、數(shù)據(jù)管理與挖掘技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、虛擬化技術(shù)、云計(jì)算平臺(tái)管理技術(shù)最為關(guān)鍵。
(1)編程模型
Map/Reduce[2]是Google開發(fā)的java、Python、C++編程模型,它是一種簡化易于理解的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。該編程模型使云計(jì)算環(huán)境下的編程十分簡單。Map/Reduce模式的思想是將要執(zhí)行的問題分解成Map(映射)和Reduce(化簡)的方式,先通過Map程序?qū)?shù)據(jù)切割成不相關(guān)的區(qū)塊,分配(調(diào)度)給大量計(jì)算機(jī)處理,達(dá)到分布式運(yùn)算的效果,再通過Reduce程序?qū)⒔Y(jié)果匯整輸出。Map/Reduce已經(jīng)成為云計(jì)算領(lǐng)域分布式編程核心指導(dǎo)思想。
(2)海量數(shù)據(jù)分布存儲(chǔ)技術(shù)
云計(jì)算系統(tǒng)由大量服務(wù)器組成,同時(shí)為大量用戶服務(wù),因此云計(jì)算系統(tǒng)采用分布式存儲(chǔ)的方式存儲(chǔ)數(shù)據(jù),用冗余存儲(chǔ)的方式保證數(shù)據(jù)的可靠性。云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開發(fā)的GFS的開源實(shí)現(xiàn)HDFS[3]。GFS[4]即Google文件系統(tǒng)(Google File System),是一個(gè)可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對(duì)大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。GFS的設(shè)計(jì)思想不同于傳統(tǒng)的文件系統(tǒng),是針對(duì)大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計(jì)的。它運(yùn)行于廉價(jià)的普通硬件上,但可以提供容錯(cuò)功能,可以給大量的用戶提供總體性能較高的服務(wù)。
圖1 云計(jì)算三種服務(wù)模式的控制權(quán)限差異(深色色塊表示用戶控制權(quán)限)
一個(gè)GFS集群由一個(gè)主服務(wù)器和大量的塊服務(wù)器構(gòu)成,并被許多客戶訪問。主服務(wù)器存儲(chǔ)文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間、訪問控制信息、從文件到塊的映射以及塊的當(dāng)前位置。它也控制系統(tǒng)范圍的活動(dòng),如塊租約管理、碎片數(shù)據(jù)塊的整理與收集、塊服務(wù)器間的塊遷移。主服務(wù)器定期通過HeartBeat消息與每一個(gè)塊服務(wù)器通信,給塊服務(wù)器傳遞指令并收集它的狀態(tài)。GFS中的文件被切分為64MB的塊并以冗余存儲(chǔ),每份數(shù)據(jù)在系統(tǒng)中保存3個(gè)以上備份。
客戶與主服務(wù)器的交換只限于對(duì)元數(shù)據(jù)的操作,所有數(shù)據(jù)方面的通信都直接和塊服務(wù)器聯(lián)系,從而提高了系統(tǒng)的效率,防止主服務(wù)器負(fù)載過重。
(3)海量數(shù)據(jù)管理技術(shù)
云計(jì)算需要對(duì)分布的、海量的數(shù)據(jù)進(jìn)行處理、分析,因此,數(shù)據(jù)管理技術(shù)必需能夠高效地管理大量的數(shù)據(jù)。云計(jì)算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團(tuán)隊(duì)開發(fā)的開源數(shù)據(jù)管理模塊HBase[5]。BT是建立在GFS、Scheduler、Lock Service和Map/Reduce之上的一個(gè)大型的分布式數(shù)據(jù)庫,與傳統(tǒng)的關(guān)系數(shù)據(jù)庫不同,它把所有數(shù)據(jù)都作為對(duì)象來處理,形成一個(gè)巨大的表格,用來分布存儲(chǔ)大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。
Google的很多項(xiàng)目使用BT來存儲(chǔ)數(shù)據(jù),包括網(wǎng)頁查詢,Google earth和Google金融。這些應(yīng)用程序?qū)T的要求各不相同:數(shù)據(jù)大?。◤腢RL到網(wǎng)頁到衛(wèi)星圖象)不同,反應(yīng)速度不同(從后端的大批處理到實(shí)時(shí)數(shù)據(jù)服務(wù))。對(duì)于不同的要求,BT都成功地提供了靈活高效的服務(wù)。
(4)虛擬化技術(shù)
通過虛擬化技術(shù)可實(shí)現(xiàn)軟件應(yīng)用與底層硬件相隔離,它包括將單個(gè)資源劃分成多個(gè)虛擬資源的裂分模式,也包括將多個(gè)資源整合成一個(gè)虛擬資源的聚合模式。虛擬化技術(shù)根據(jù)對(duì)象可分成存儲(chǔ)虛擬化、計(jì)算虛擬化、網(wǎng)絡(luò)虛擬化等。計(jì)算虛擬化又分為系統(tǒng)級(jí)虛擬化、應(yīng)用級(jí)虛擬化和桌面虛擬化[6]。
(5)云計(jì)算平臺(tái)管理技術(shù)
云計(jì)算資源規(guī)模龐大,服務(wù)器數(shù)量眾多并分布在不同的地點(diǎn),同時(shí)運(yùn)行著數(shù)百種應(yīng)用,如何有效地管理這些服務(wù)器,保證整個(gè)系統(tǒng)提供不間斷的服務(wù)是巨大的挑戰(zhàn)。云計(jì)算系統(tǒng)的平臺(tái)管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便地進(jìn)行業(yè)務(wù)部署和開通,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障,通過自動(dòng)化、智能化的手段實(shí)現(xiàn)大規(guī)模系統(tǒng)的可靠運(yùn)營。
RMSCloud是在云計(jì)算技術(shù)架構(gòu)基礎(chǔ)上提供科技文獻(xiàn)云服務(wù)的學(xué)術(shù)搜索引擎。RMSCloud云搜索引擎是基于RMS系統(tǒng)的變長數(shù)據(jù)存儲(chǔ)管理、多樣化索引控制技術(shù)、中文智能分詞技術(shù),實(shí)現(xiàn)對(duì)于中文科技文獻(xiàn)文本信息的快速準(zhǔn)確分詞,采用獨(dú)特B*樹文件索引算法,進(jìn)行索引構(gòu)建索引文件,利用多項(xiàng)檢索優(yōu)化算法實(shí)現(xiàn)了基于復(fù)雜布爾表達(dá)技術(shù)的全文檢索。其先進(jìn)索引技術(shù),可以使檢索詞快速定位,檢索速度幾乎不受索引文件大小的限制,為海量科技文獻(xiàn)信息的學(xué)術(shù)搜索提供了全文索引和檢索技術(shù)支持,通過跨語言自動(dòng)翻譯和詞表擴(kuò)展技術(shù),確保實(shí)現(xiàn)系統(tǒng)的查全、查準(zhǔn)率。同時(shí),RMSCloud云搜索引擎采用云計(jì)算架構(gòu)和并行計(jì)算技術(shù),通過索引分片,減少單索引數(shù)據(jù)量,提高索引檢索速度;通過索引副本,實(shí)現(xiàn)全文索引在集群多節(jié)點(diǎn)之間的分布,實(shí)現(xiàn)多節(jié)點(diǎn)并行計(jì)算;通過無主從集群節(jié)點(diǎn)通信,實(shí)現(xiàn)節(jié)點(diǎn)數(shù)據(jù)同步,為集群節(jié)點(diǎn)可靠并行計(jì)算與云搜索服務(wù)提供保障。
RMSCLoud云搜索引擎核心搜索服務(wù)技術(shù)框架如圖2所示。RMSCloud云搜索引擎分層結(jié)構(gòu)及模塊組成主要包括API接口、傳輸協(xié)議支撐、Java Netty框架、監(jiān)控、RMS中文智能分詞、第三方插件支持、云集群通信、腳本解析引擎、RMS全文索引、RMS全文檢索、索引映射配置、數(shù)據(jù)源、分布式RMS索引目錄支持、文件系統(tǒng)持久化網(wǎng)關(guān)等模塊。RMSCloud云搜索引擎在研制和構(gòu)建過程中,應(yīng)用了大量的云計(jì)算技術(shù),實(shí)現(xiàn)集群與并行計(jì)算支持,滿足大數(shù)據(jù)量科技文獻(xiàn)學(xué)術(shù)搜索與知識(shí)挖掘分析需求。
(1)集群與分布式并行計(jì)算
RMSCloud云搜索引擎支持分布式并行計(jì)算技術(shù),主要依賴于以下途徑實(shí)現(xiàn)。
集群技術(shù):集群中有多個(gè)節(jié)點(diǎn),其中有一個(gè)為主節(jié)點(diǎn),這個(gè)主節(jié)點(diǎn)可以通過選舉產(chǎn)生,主從節(jié)點(diǎn)是對(duì)于集群內(nèi)部來說的。對(duì)于集群外部來說,就是去中心化,從外部來看集群,在邏輯上是個(gè)整體,與任何一個(gè)節(jié)點(diǎn)的通信和與整個(gè)集群通信是等價(jià)的。集群節(jié)點(diǎn)故障不影響整個(gè)集群的對(duì)外服務(wù),從而保證集群的可靠性。
索引分片:可以把一個(gè)完整的全文索引分成多個(gè)分片,這樣的好處是可以把一個(gè)大的全文索引進(jìn)行拆分,分布到不同的節(jié)點(diǎn)上,在檢索時(shí),依托多個(gè)節(jié)點(diǎn)的計(jì)算能力進(jìn)行并行計(jì)算和分布式檢索。
索引副本:可針對(duì)索引及分片設(shè)置多個(gè)索引的副本。副本的作用一是提高系統(tǒng)的容錯(cuò)性,當(dāng)某個(gè)節(jié)點(diǎn)某個(gè)分片損壞或丟失時(shí)可以從副本中自動(dòng)恢復(fù);二是提高檢索效率,可以自動(dòng)對(duì)搜索請(qǐng)求進(jìn)行負(fù)載均衡,調(diào)度到其他節(jié)點(diǎn)副本上進(jìn)行分布式檢索。
圖2 RMSCLoud云搜索引擎核心搜索服務(wù)技術(shù)框架
(2)自動(dòng)化維護(hù)與管理
RMSCloud云搜索引擎基于分布式計(jì)算模式,支持節(jié)點(diǎn)自動(dòng)發(fā)現(xiàn)、節(jié)點(diǎn)擴(kuò)展,數(shù)據(jù)自動(dòng)重新分布、索引自動(dòng)持久化存儲(chǔ)等能力,可以實(shí)現(xiàn)對(duì)于云計(jì)算集群的自動(dòng)維護(hù)管理功能。
自動(dòng)節(jié)點(diǎn)發(fā)現(xiàn):類似一個(gè)p2p的系統(tǒng),它先通過廣播尋找存在的節(jié)點(diǎn),再通過多播協(xié)議來進(jìn)行節(jié)點(diǎn)之間的通信,同時(shí)也支持點(diǎn)對(duì)點(diǎn)的交互。
數(shù)據(jù)重新分布:在有節(jié)點(diǎn)加入或退出時(shí)會(huì)根據(jù)機(jī)器的負(fù)載對(duì)索引分片進(jìn)行重新分配,掛掉的節(jié)點(diǎn)重新啟動(dòng)時(shí)也會(huì)自動(dòng)進(jìn)行數(shù)據(jù)恢復(fù)。
數(shù)據(jù)源自動(dòng)索引更新:可支持從數(shù)據(jù)源中自動(dòng)讀取數(shù)據(jù)并同步索引到RMSClouded云搜索服務(wù)集群中。
索引持久化存儲(chǔ)網(wǎng)關(guān):RMSClouded默認(rèn)是先把索引存放到內(nèi)存中,當(dāng)分配內(nèi)存滿了時(shí)再持久化到硬盤等存儲(chǔ)網(wǎng)關(guān)。當(dāng)這個(gè)集群關(guān)閉再重新啟動(dòng)時(shí)就會(huì)從存儲(chǔ)網(wǎng)關(guān)中讀取索引數(shù)據(jù)。RMSClouded支持多種類型的持久化存儲(chǔ)網(wǎng)關(guān),有本地文件系統(tǒng),共享文件系統(tǒng),Hadoop的HDFS和Amazon的s3云存儲(chǔ)服務(wù)。
在RMSCloud的研制過程中,除借鑒傳統(tǒng)搜索引擎在云計(jì)算應(yīng)用方面的思路,同時(shí)也考慮了學(xué)術(shù)搜索引擎的專有特性。
(1)詞表與中文智能分詞技術(shù)的大量應(yīng)用
RMSCloud在數(shù)據(jù)索引、用戶檢索需求處理等方面大量應(yīng)用了詞表和中文智能分詞技術(shù),中文分詞技術(shù)的好壞直接影響系統(tǒng)的“查全/查準(zhǔn)率”。
萬方科技文獻(xiàn)主題詞庫:用于文獻(xiàn)分詞與索引構(gòu)建,檢索語句的分詞與擴(kuò)展檢索、相關(guān)檢索詞提示等。這些主題詞來源于萬方數(shù)據(jù)期刊、學(xué)位論文等數(shù)據(jù)庫中的作者形成的主題詞項(xiàng),通過二次規(guī)范加工建立。
漢語敘詞表:用于對(duì)檢索關(guān)鍵詞基于詞間關(guān)系,包括上位詞、下位詞、相關(guān)詞、代用詞等主題詞本體擴(kuò)展與相關(guān)檢索、相似詞推薦。該詞表以中國科學(xué)技術(shù)信息研究所建立的“工程詞表”為基礎(chǔ),主要用于科技文獻(xiàn)檢索的后空擴(kuò)展檢索,在“中國學(xué)術(shù)搜索網(wǎng)”中得到應(yīng)用。
中英文主題詞對(duì)照表:用于中英文詞的對(duì)照翻譯與中英文混合檢索擴(kuò)展。
專家?guī)欤和ㄟ^對(duì)萬方的科技文獻(xiàn)倉儲(chǔ)進(jìn)行數(shù)據(jù)挖掘,形成了600多萬的科技專家數(shù)據(jù)庫,通過人工輔助規(guī)范形成,用于對(duì)專家的同名識(shí)別和專家知識(shí)倉儲(chǔ)庫管理。
多層級(jí)機(jī)構(gòu)庫:通過對(duì)萬方的科技文獻(xiàn)倉儲(chǔ)進(jìn)行數(shù)據(jù)提取,然后利用萬方軟件自行研發(fā)的機(jī)構(gòu)名稱規(guī)范輔助工具進(jìn)行處理,人工校對(duì)生成。主要用于對(duì)于機(jī)構(gòu)名稱的標(biāo)引規(guī)范,和機(jī)構(gòu)名稱的歸一化檢索,提高機(jī)構(gòu)名稱的“查全/查準(zhǔn)率”。在機(jī)構(gòu)創(chuàng)新能力評(píng)價(jià)中意義更為重要。
(2)深度數(shù)據(jù)加工標(biāo)引與多維度的聚類和知識(shí)挖掘分析支持
除RMSCloud相關(guān)核心技術(shù)研發(fā)之外,同時(shí)對(duì)科技文獻(xiàn)的加工處理提出了較高的要求。對(duì)于中外文科技文獻(xiàn)倉儲(chǔ)知識(shí)庫建設(shè),制定了元數(shù)據(jù)加工標(biāo)引、質(zhì)量檢查等一系列標(biāo)準(zhǔn)規(guī)范,提升數(shù)據(jù)加工標(biāo)引的質(zhì)量。同時(shí),對(duì)于科技文獻(xiàn)元數(shù)據(jù),嚴(yán)格按照學(xué)科、主題、人物、機(jī)構(gòu)、基金等“知識(shí)獲取五要素”進(jìn)行深度標(biāo)引,為圍繞五要素的檢索、導(dǎo)航、多維度聚類和知識(shí)挖掘分析提供了基礎(chǔ)。
(3)相關(guān)度計(jì)算排序與相似結(jié)果推薦
RMSCloud可以根據(jù)用戶檢索關(guān)鍵詞進(jìn)行自動(dòng)識(shí)別,判斷用戶檢索人物、機(jī)構(gòu)、期刊、主題等檢索意圖,同時(shí)可提供按照檢索詞的相關(guān)度排序和相似結(jié)果推薦。基于云計(jì)算架構(gòu)的學(xué)術(shù)搜索引擎通過對(duì)于數(shù)據(jù)庫、字段及索引定義權(quán)重分值,以支持多字段過濾與相關(guān)度排序及相似結(jié)果計(jì)算。
關(guān)于RMSCloud的詳細(xì)技術(shù)及研究內(nèi)容介紹,參見《數(shù)字圖書館論壇》2013年第6期云計(jì)算專刊。
多年來,北京萬方軟件股份有限公司一直從事科技信息服務(wù)系統(tǒng)相關(guān)的技術(shù)研究開發(fā)工作,開發(fā)出了系列相關(guān)產(chǎn)品,包括非結(jié)構(gòu)數(shù)據(jù)資源管理系統(tǒng)RMS、萬方數(shù)據(jù)資源整合服務(wù)平臺(tái)、科技文獻(xiàn)自動(dòng)分類與摘要服務(wù)系統(tǒng)、萬方學(xué)術(shù)搜索、科技創(chuàng)新文獻(xiàn)共享支撐平臺(tái)等系列產(chǎn)品和服務(wù)系統(tǒng)。經(jīng)過近10年的研究與開發(fā)實(shí)踐,結(jié)合目前承擔(dān)的國家“863”計(jì)劃重大專項(xiàng)“以科技文獻(xiàn)為主的搜索引擎研制”部分成果,尤其是結(jié)合最新的RMSCloud系統(tǒng)的開發(fā)成果,我們提出了基于“云服務(wù)”的國際科技文獻(xiàn)服務(wù)系統(tǒng)總體架構(gòu),并通過“中國學(xué)術(shù)搜索網(wǎng)”和部分省市示范系統(tǒng)建設(shè)得到實(shí)施驗(yàn)證。
圖3是我們?cè)诙嗄暄芯块_發(fā)基礎(chǔ)上設(shè)計(jì)提出的基于“云服務(wù)”的科技文獻(xiàn)服務(wù)系統(tǒng)總體架構(gòu)圖。下面將對(duì)這一系統(tǒng)架構(gòu)做詳細(xì)功能解釋說明。
萬方科技文獻(xiàn)倉儲(chǔ)云服務(wù)中心: 該中心是本系統(tǒng)架構(gòu)的核心,它包括規(guī)范化的元數(shù)據(jù)倉儲(chǔ)中心、相關(guān)知識(shí)庫中心和管理這些數(shù)據(jù)的基于Web Service架構(gòu)的資源管理與服務(wù)系統(tǒng)[7]RMS,RMSCloud為底層云學(xué)術(shù)搜索引擎。其中,科技文獻(xiàn)倉儲(chǔ)云服務(wù)中心包括中外文期刊、會(huì)議、學(xué)位論文、專利、標(biāo)準(zhǔn)、法律法規(guī)、科技成果、科技人物、機(jī)構(gòu)等以事實(shí)數(shù)據(jù)為基礎(chǔ)的元數(shù)據(jù)倉儲(chǔ),該倉儲(chǔ)中心的數(shù)據(jù)規(guī)范原則,以本人提出的“知識(shí)獲取五要素”為指導(dǎo)思想。該數(shù)據(jù)倉儲(chǔ)數(shù)據(jù)規(guī)范的主要工作目標(biāo)是解決科技信息服務(wù)中的人物重名和機(jī)構(gòu)名稱變遷、機(jī)構(gòu)合并等引起的“查全/查準(zhǔn)”問題。目前,該倉儲(chǔ)的元數(shù)據(jù)記錄數(shù)達(dá)6億規(guī)模,幾乎涵蓋所有科技文獻(xiàn)所涉及的中外文元數(shù)據(jù)記錄。
知識(shí)庫中心:包括知識(shí)獲取五要素中涉及的學(xué)科、人物、主題、機(jī)構(gòu)、基金等相關(guān)知識(shí)庫,其中包括420多萬的主題知識(shí)庫和1200萬作者相關(guān)的知識(shí)庫,其中作者的科研合作網(wǎng)絡(luò)和學(xué)術(shù)網(wǎng)絡(luò)知識(shí)庫是通過數(shù)據(jù)挖掘及其相關(guān)技術(shù)由計(jì)算機(jī)自動(dòng)生成的,對(duì)外提供服務(wù)接口。
云學(xué)術(shù)搜索引擎RMSCloud:在元數(shù)據(jù)服務(wù)中心里,RMSCloud負(fù)責(zé)元數(shù)據(jù)的接收、存儲(chǔ)、索引,并提供標(biāo)準(zhǔn)的云搜索服務(wù)。以RMSCloud為基礎(chǔ)的云服務(wù)示范系統(tǒng)“中國學(xué)術(shù)搜索網(wǎng)”已經(jīng)正式投入服務(wù)(http://www.sciinfo.cn)。
在本架構(gòu)中,萬方科技文獻(xiàn)倉儲(chǔ)云服務(wù)中心屬于公共云服務(wù)中心范疇,它除了管理萬方軟件自己的倉儲(chǔ)數(shù)據(jù)外,還可以為用戶提供數(shù)據(jù)共享服務(wù)。目前,該中心支持15種標(biāo)準(zhǔn)格式的元數(shù)據(jù)交換,涵蓋期刊、會(huì)議、圖書、方志、報(bào)告、視頻等科技文獻(xiàn)數(shù)據(jù)。同時(shí),該服務(wù)中心屬于本架構(gòu)方案中的最底層,除了網(wǎng)絡(luò)和系統(tǒng)上的安全措施外,對(duì)存儲(chǔ)在中心的所有數(shù)據(jù)均采用了高強(qiáng)度的128位加密算法進(jìn)行磁盤級(jí)保護(hù)。目前,該服務(wù)中心已正式對(duì)圖書、情報(bào)等信息服務(wù)部門提供服務(wù),用戶通過接口直接調(diào)用本中心(中間經(jīng)過云調(diào)度中心的認(rèn)證和管理)提供的80多種服務(wù)。該中心提供的服務(wù)包括數(shù)據(jù)庫管理、檢索、數(shù)據(jù)交換、自動(dòng)標(biāo)引與分類、基于“知識(shí)獲取五要素”的導(dǎo)航服務(wù)、聚類統(tǒng)計(jì)分析等。另外,云服務(wù)中心的硬件設(shè)備也可根據(jù)用戶規(guī)模、資源規(guī)模進(jìn)行快速擴(kuò)展部署。
圖3 基于“云服務(wù)”的國家科技文獻(xiàn)服務(wù)平臺(tái)總體架構(gòu)圖
地方私有云服務(wù)中心:公共云服務(wù)模式客觀存在潛在的用戶關(guān)鍵數(shù)據(jù)的安全風(fēng)險(xiǎn)(起碼從技術(shù)上是這樣的),用戶的關(guān)鍵數(shù)據(jù)放在公共云服務(wù)中心,雖然節(jié)省投資,提高了效率,但畢竟放在別人那里。因此,在總體架構(gòu)里面提供了對(duì)私有云服務(wù)中心的支持,私有云服務(wù)中心可提供和公共云服務(wù)中心一樣的功能。不同之處在于,該中心還支持對(duì)其他關(guān)系數(shù)據(jù)庫的管理,這樣也可以方便將原有老架構(gòu)的系統(tǒng)納入新的云服務(wù)管理架構(gòu)繼續(xù)使用。私有云服務(wù)中心主要用來管理用戶的本地關(guān)鍵數(shù)據(jù),規(guī)避云服務(wù)潛在的安全問題。另外,由于私有云服務(wù)中心提供的各類服務(wù)相對(duì)公有云服務(wù)要簡單的多,可采用集中式搜索引擎RMS系統(tǒng)為搜索引擎。
區(qū)域性公有云服務(wù)中心:目前,部分省市信息服務(wù)機(jī)構(gòu)已經(jīng)開始建設(shè)區(qū)域性重點(diǎn)行業(yè)科技創(chuàng)新服務(wù)系統(tǒng),這類系統(tǒng)不同于現(xiàn)有的文獻(xiàn)服務(wù)系統(tǒng),主要表現(xiàn)出區(qū)域性、內(nèi)容涵蓋面廣、交叉性等特征。區(qū)域性:是為本地區(qū)重點(diǎn)產(chǎn)業(yè)的關(guān)鍵業(yè)務(wù)提供支撐。內(nèi)容涵蓋面廣:不僅僅是科技文獻(xiàn)服務(wù),還包括基于互聯(lián)網(wǎng)信息產(chǎn)業(yè)動(dòng)態(tài)、研究報(bào)告、政策法規(guī)、專家互動(dòng)、競(jìng)爭(zhēng)情報(bào)、成果轉(zhuǎn)化與服務(wù)等一系列產(chǎn)業(yè)信息服務(wù)。交叉性:雖然產(chǎn)業(yè)服務(wù)是某個(gè)省市根據(jù)自身區(qū)域業(yè)務(wù)需求提出的,但在全國范圍內(nèi)和部分區(qū)域仍然存在一定的交叉性。鑒于這種情況,萬方軟件提出的區(qū)域性云服務(wù)的架構(gòu)思想,主要是為了避免不同省市間產(chǎn)業(yè)信息的重復(fù)建設(shè)。比如,遼寧省已經(jīng)建設(shè)完成了車床產(chǎn)業(yè)服務(wù)平臺(tái),吉林等其他省市也需要這樣的產(chǎn)業(yè)服務(wù),我們建議以遼寧為主,其他省市參與共建共享。
區(qū)域性云服務(wù)中心的管理架構(gòu)和萬方元數(shù)據(jù)云服務(wù)中心一樣,只是內(nèi)容的歸屬有所區(qū)別,也可體現(xiàn)多個(gè)信息服務(wù)機(jī)構(gòu)的共建、共享宗旨,其搜索引擎視規(guī)模來選擇RMS或RMSCloud。
云服務(wù)調(diào)度中心:云服務(wù)調(diào)度中心是本架構(gòu)中“云服務(wù)”最為核心的部分,是RMSCloud云服務(wù)的基礎(chǔ),所有基于“云服務(wù)”的管理、調(diào)度模式都在這里得到體現(xiàn)。它主要包括整個(gè)云的安全防護(hù)與認(rèn)證、用戶管理、服務(wù)機(jī)構(gòu)管理、云數(shù)據(jù)服務(wù)中心配置、管理與調(diào)度、服務(wù)緩存、服務(wù)負(fù)載均衡等功能。無論公有云、私有云,還是區(qū)域性云服務(wù)都通過本調(diào)度中心進(jìn)行管理與調(diào)度。實(shí)際上該調(diào)度中心是“國家科技文獻(xiàn)服務(wù)”的資源調(diào)度中心。
省市科技文獻(xiàn)共享服務(wù)平臺(tái):省市科技文獻(xiàn)共享服務(wù)平臺(tái)是各省科技信息(情報(bào))研究所(院)根據(jù)自身業(yè)務(wù)特點(diǎn)提出的面向本省市的科技文獻(xiàn)共享保障平臺(tái),具有明顯區(qū)域特征和個(gè)性化服務(wù)模式。目前,大部分服務(wù)平臺(tái)在公共性文獻(xiàn)信息服務(wù)方面基本上都是利用萬方科技文獻(xiàn)倉儲(chǔ)云服務(wù)中心所提供的數(shù)據(jù)和相關(guān)接口服務(wù),將自己擁有的特色數(shù)據(jù)存放在自己的私有云服務(wù)系統(tǒng)中。采用萬方軟件提供的科技創(chuàng)新文獻(xiàn)共享支撐平臺(tái),可直接調(diào)用萬方云服務(wù)平臺(tái)的示范系統(tǒng)“中國學(xué)術(shù)搜索網(wǎng)”提供的所有服務(wù),同時(shí)可以調(diào)用私有云的所有服務(wù)。
到本文截稿時(shí),除“中國學(xué)術(shù)搜索網(wǎng)”已經(jīng)正式對(duì)外提供服務(wù)外,遼寧、吉林、黑龍江、山東、山西、湖南、河南、云南等省市科技文獻(xiàn)服務(wù)平臺(tái)的搜索引擎服務(wù)都已經(jīng)正式接入到萬方科技文獻(xiàn)云服務(wù)中心。其中,最具代表性的是“甘肅省科技文獻(xiàn)服務(wù)平臺(tái)”,平臺(tái)門戶及業(yè)務(wù)平臺(tái)均由他們自己開發(fā)完成,其中的數(shù)據(jù)搜索、數(shù)據(jù)挖掘與分析、主題趨勢(shì)分析、原文定位等均是調(diào)用RMSCloud的云服務(wù)接口完成。由于本文主要目的是闡述RMSCloud的科技文獻(xiàn)云服務(wù)功能,涉及科技文獻(xiàn)服務(wù)的相關(guān)核心技術(shù)沒有做更多的介紹。詳細(xì)參見參考文獻(xiàn)[8]和文獻(xiàn)[9]。
RMSCloud是針對(duì)科技文獻(xiàn)服務(wù)的需求特點(diǎn)采用云計(jì)算核心技術(shù)架構(gòu),開發(fā)完成的專用科技文獻(xiàn)云搜索服務(wù)平臺(tái)。萬方軟件利用RMSCloud系統(tǒng)對(duì)原來基于RMS資源服務(wù)系統(tǒng)構(gòu)建的省市科技文獻(xiàn)服務(wù)系統(tǒng)進(jìn)行了全面升級(jí),使用的科技文獻(xiàn)元數(shù)據(jù)全部來源于倉儲(chǔ)中心,節(jié)省了大量服務(wù)器和搜索引擎部署,大大提高了系統(tǒng)的功能和性能。同時(shí)基于“云服務(wù)”的分布式搜索引擎RMSCloud的研制成功,可為未來科技文獻(xiàn)系統(tǒng)的“大數(shù)據(jù)”應(yīng)用提供自主知識(shí)產(chǎn)權(quán)技術(shù)支撐和保障。
[1] NIST. Final Version of NIST Cloud Computing De f nition Published [M/OL]. [2013-04-18]. http://www.nist. gov/itl/csd/cloud-102511.cfm.
[2] Map Reduce: Simplied Data Processing on Large Clusters [M/OL]. [2013-01-09]. http://static.googleusercontent.com/external_content/untrusted_dlcp/research. google.com/zh-CN//archive/mapreduce-osdi04.pdf.
[3] Hadoop [EB/OL]. [2012-03-19]. http://hadoop.apache. org.
[4] 田嵩,晏伯武,楊慧等.基于GFS的分布式云存儲(chǔ)應(yīng)用技術(shù)的設(shè)計(jì)[J].福建電腦,2012(10):23-25.
[5] 劉星.Hbase性能深度分析[J].程序員,2011(7):102-104.
[6] 朱學(xué)迅.虛擬化技術(shù)研究[J].電信技術(shù)研究,2008(5): 28-31.
[7] 吳廣印.基于Web Service構(gòu)架的資源共享技術(shù)研究與實(shí)現(xiàn)[J].情報(bào)學(xué)報(bào),2007(6):851-857.
[8] 吳廣印.RMS系統(tǒng)架構(gòu)與情報(bào)檢索系統(tǒng)的功能需求研究[J].數(shù)字圖書館論壇,2013(6):31-38.
[9] 吳廣印.分布式學(xué)術(shù)搜索引擎研制及其大數(shù)據(jù)應(yīng)用[J].數(shù)字圖書館論壇,2013(6):10-18.
RMSCloud and S&T Document Cloud Service
Wu Guangyin
(Institute of Science and Technology Information Research of China, Beijing 100038)
In this paper, the m ain defnition of cloud computing related function has carried on the research and analysis, at the same time cloud service demand of the scientif c documents, combined with the related application of cloud com puting, this paper introduces the RMSCloud related core technologies and features. Finally introduced the RMSCloud based integration of scientif c and technological documents cloud service application system architecture
RMSCloud, cloud computing, cloud services, S&T document service, cloud service integration
G35
:ADOI:10.3772/j.issn.1674-1544.2013.05.013
吳廣印(1965- ),男,中國科學(xué)技術(shù)信息研究所研究員,北京萬方軟件有限公司董事長,研究方向:非結(jié)構(gòu)數(shù)據(jù)庫管理系統(tǒng)、中文信息檢索。
國家高科技發(fā)展計(jì)劃(863計(jì)劃)“云計(jì)算關(guān)鍵技術(shù)與系統(tǒng)(一期)”專項(xiàng)“以科技文獻(xiàn)為主的搜索引擎研制”(2011AA 01A206)。
2013年6月26日。