張聞驥
摘要:女子高校圖書館特色數(shù)據(jù)庫的建設(shè)需要通過相應(yīng)的技術(shù)手段來實現(xiàn),數(shù)據(jù)挖掘算法可提高同類特色數(shù)字圖書資源之間的關(guān)聯(lián)性,SQL Server數(shù)據(jù)庫為特色數(shù)據(jù)庫的建設(shè)提供平臺。
Abstract: The construction of the characteristic database of women's university libraries needs to be realized through corresponding technical means. The data mining algorithm can improve the correlation between similar digital book resources. The SQL Server database provides a platform for the construction of featured databases.
關(guān)鍵詞:女子高校;圖書館;特色數(shù)據(jù)庫;挖掘算法;SQL Server數(shù)據(jù)庫
Key words: women's university;library;characteristic database;mining algorithm;SQL Server database
中圖分類號:G250.76 文獻標識碼:A 文章編號:1006-4311(2018)32-0195-02
0 引言
隨著社會的發(fā)展,科學(xué)技術(shù)的進步,高校數(shù)字化圖書館的興起與成熟,以紙質(zhì)書籍為依托的高校傳統(tǒng)圖書館逐漸向以信息為載體的高校數(shù)字化圖書館轉(zhuǎn)型。信息化時代對高校數(shù)字化圖書館提出了更高的要求,高校圖書館不僅要數(shù)字化,而且還要做到方便、快捷,便于用戶文獻檢索、信息查詢、數(shù)據(jù)統(tǒng)計等,例如國內(nèi)一些高校圖書館數(shù)據(jù)庫的建設(shè)、打破館際信息壁壘做到資源共享等取得了很好的成績。女子高校圖書館為更好地促進特色專業(yè)的建設(shè)、適應(yīng)特色學(xué)科的發(fā)展,更好地滿足教學(xué)科研的需要、服務(wù)對象(廣大師生)對信息化的需求,在現(xiàn)有數(shù)據(jù)庫的基礎(chǔ)上建設(shè)特色數(shù)據(jù)庫是大勢所趨,而且很有必要。
1 特色數(shù)據(jù)庫的定義
特色數(shù)據(jù)庫是指根據(jù)本館館藏特色、地方特色,長期面向特定服務(wù)對象而集中收集各類文獻建立的信息資源數(shù)據(jù)庫[1]。特色數(shù)據(jù)庫是建立在普通數(shù)據(jù)庫的基礎(chǔ)之上,更為精準與優(yōu)化的信息資源數(shù)據(jù)庫,主要用于滿足特定服務(wù)對象的個性化需求。例如:針對家政學(xué)、女性學(xué)、女性文學(xué)、空中乘務(wù)、學(xué)前教育等特色專業(yè)分別建設(shè)信息資源數(shù)據(jù)庫,服務(wù)對象只需找到相應(yīng)的數(shù)據(jù)庫就可以享受方便、快捷、全面的信息資源服務(wù)。
2 數(shù)據(jù)挖掘算法
2.1 聚類分析算法
聚類分析是將分析的目標數(shù)據(jù)劃分為相同性質(zhì)群組的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)挖掘的目標就是通過分析發(fā)現(xiàn)數(shù)據(jù)的一些特征。聚類分析算法最為典型的是k-means算法,簡要過程如下:
從數(shù)據(jù)樣點中(個數(shù)為n),任選k個數(shù)據(jù)為初始聚類中心,其余樣點數(shù)據(jù)(n-k)個分別與這k個數(shù)據(jù)進行距離計算,分別把(n-k)個樣點數(shù)據(jù)與其最為相似的(相似度計算)的聚類,然后計算新聚類中心的均值,至到標準相似測度函數(shù)為收斂,選取方差作為標準相似測度函數(shù)。
用公式表示:假設(shè)k個數(shù)據(jù)集為K={ti1,ti2,…,tim},類中心的定義為公式(1)所示。
2.2 關(guān)聯(lián)分析算法
關(guān)聯(lián)分析就是從大量的數(shù)據(jù)中發(fā)現(xiàn)項集之間有趣的關(guān)聯(lián)、相關(guān)關(guān)系或因果結(jié)構(gòu)以及項集模式。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)分析目的是找出數(shù)據(jù)集中屬性之間的聯(lián)系,形成關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則有支持率和置信度兩個參數(shù)。支持率表明了該規(guī)則在所有實例中成立的比例,即規(guī)則所具有的代表性;置信度則說明了在規(guī)則前件成立的情況下,規(guī)則后件也成立的比例,即規(guī)則所具有的可信程度。
在論文中以支持率作為關(guān)聯(lián)分析的指標,具體公式定義如下:
3 SQL Server數(shù)據(jù)庫
數(shù)據(jù)庫用于存儲數(shù)據(jù)資源,為功能實現(xiàn)提供數(shù)據(jù)支撐。數(shù)據(jù)庫平臺面向開發(fā)人員提供數(shù)據(jù)存儲、查詢以及執(zhí)行的接口、命令,另外為數(shù)據(jù)管理員提供數(shù)據(jù)庫管理平臺,DBA通過平臺能夠完成SQL語句的執(zhí)行、數(shù)據(jù)庫結(jié)構(gòu)和數(shù)據(jù)記錄的維護操作等[2],除完成數(shù)據(jù)庫操作外,一般商業(yè)數(shù)據(jù)庫平臺還提供數(shù)據(jù)分析的接口,在應(yīng)用數(shù)據(jù)庫積累到一定規(guī)模后,數(shù)據(jù)庫平臺提供數(shù)據(jù)聯(lián)機分析工具,在一些新版的數(shù)據(jù)庫平臺中還提供數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的相關(guān)工具。
數(shù)據(jù)的安全性在數(shù)據(jù)庫建設(shè)過程中一直是一個非常重要的關(guān)注點,因此,一個DBMS的安全性是對系統(tǒng)檢測的一個重要指標[3-4]。當(dāng)前商業(yè)數(shù)據(jù)庫有SQL Server、Oracle、Sybase等,女子高校圖書館特色數(shù)據(jù)庫建設(shè)采用SQL Server數(shù)據(jù)庫。
SQL Server數(shù)據(jù)庫提供了完備的各類數(shù)據(jù)庫執(zhí)行腳本語言,這些腳本可應(yīng)用于應(yīng)用程序開發(fā)的語句執(zhí)行中,來完成相關(guān)的數(shù)據(jù)庫操作[5],目前最新的SQL Server數(shù)據(jù)庫對于其他各類語言的支持也相當(dāng)好,具有很強的兼容性。除此之外,SQL Server數(shù)據(jù)庫優(yōu)勢明顯,具體特征如下[6]:①SQL Server數(shù)據(jù)庫提供了完整的數(shù)據(jù)鏡像解決方案。其DBMS具有極高的數(shù)據(jù)處理性能,并支持數(shù)據(jù)鏡像的功能。在數(shù)據(jù)庫運行過程中,當(dāng)數(shù)據(jù)庫服務(wù)器產(chǎn)生嚴重的數(shù)據(jù)錯誤時,可恢復(fù)遠程的數(shù)據(jù)鏡像文件,數(shù)據(jù)鏡像備份的周期可按小時、天來設(shè)定,備份的數(shù)據(jù)模式可采用增量備份和全備份。②支持在線檢索[7]。SQL Server數(shù)據(jù)庫提供了基于Http的在線數(shù)據(jù)查詢頁面,通過頁面,數(shù)據(jù)庫管理員可以在線輸入關(guān)鍵字來完成特定數(shù)據(jù)的檢索,提高數(shù)據(jù)庫的管理效率,在線檢索功能有利于數(shù)據(jù)庫管理員在非局域網(wǎng)內(nèi)實現(xiàn)基于外網(wǎng)的數(shù)據(jù)庫操作,使日常數(shù)據(jù)庫運行維護操作更方便、更快捷。③支持數(shù)據(jù)容錯[8],提供快速恢復(fù)功能,包括數(shù)據(jù)記錄的恢復(fù)和數(shù)據(jù)庫結(jié)構(gòu)的恢復(fù),保證了數(shù)據(jù)的安全。④支持數(shù)據(jù)聯(lián)機分析功能[9]。大數(shù)據(jù)、人工智能應(yīng)用是當(dāng)前信息化發(fā)展的一個重要方向,這使數(shù)據(jù)庫平臺的核心功能由原來的數(shù)據(jù)庫存儲維護轉(zhuǎn)變?yōu)閿?shù)據(jù)有效利用上來,除了傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析外,更重要的是提供數(shù)據(jù)挖掘的工具、大數(shù)據(jù)分析工具等,能對大規(guī)模數(shù)據(jù)提供高效的數(shù)據(jù)預(yù)處理,能在數(shù)據(jù)庫平臺上瀏覽數(shù)據(jù)處理結(jié)果。⑤支持基于安全構(gòu)件的不斷升級。除了以上安全措施外,SQL Server數(shù)據(jù)庫提供了基于組件式的安全升級模式,當(dāng)發(fā)現(xiàn)數(shù)據(jù)庫存在安全漏洞時,微軟公司及時發(fā)布安全補丁,數(shù)據(jù)庫管理員通過補丁完成數(shù)據(jù)庫的在線升級,不影響數(shù)據(jù)庫的正常運行。⑥SQL Server數(shù)據(jù)庫提供較安全的數(shù)據(jù)庫操作策略,數(shù)據(jù)庫用戶角色較多,除了數(shù)據(jù)庫管理員外,還有數(shù)據(jù)庫操作審計管理員,審計管理員能夠?qū)Ω鱾€用戶的數(shù)據(jù)庫操作日志進行查詢,當(dāng)數(shù)據(jù)庫出現(xiàn)操作異常時,審計管理員可通過查詢操作日志來分析數(shù)據(jù)異常原因,追溯到操作用戶。⑦SQL Server數(shù)據(jù)庫平臺提供操作日志記錄,內(nèi)容包括用戶名、操作時間、IP和操作項目等。⑧SQL Server數(shù)據(jù)庫提供方便的備份與恢復(fù)工具,例如可以直接運用數(shù)據(jù)鏡像在某些重要的時間節(jié)點實現(xiàn)數(shù)據(jù)庫的備份,減輕了數(shù)據(jù)庫管理員的工作強度。除以上特點外,SQL Server數(shù)據(jù)庫的界面友好,熟悉Windows操作的用戶,能快速使用,可完成數(shù)據(jù)庫的創(chuàng)建、記錄的新增等操作。
4 結(jié)語
工欲善其事,必先利其器。女子高校圖書館特色數(shù)據(jù)庫的建設(shè)離不開相關(guān)技術(shù)的支撐,只有掌握和使用數(shù)據(jù)挖掘算法,使特色數(shù)字圖書資源分門別類地關(guān)聯(lián)起來,然后熟悉和運用SQL Server數(shù)據(jù)庫,將女子高校圖書館現(xiàn)有數(shù)據(jù)庫的數(shù)字圖書資源按需求設(shè)定條件逐一篩選、導(dǎo)入。數(shù)據(jù)挖掘算法和SQL Server數(shù)據(jù)庫是目前建設(shè)特色數(shù)據(jù)庫的兩項關(guān)鍵技術(shù),唯兩者緊密結(jié)合起來,方可滿足女子高校圖書館特色數(shù)據(jù)庫建設(shè)技術(shù)層面的需求。
參考文獻:
[1]李向陽,苗壯.自由文本信息抽取技術(shù)[J].情報科學(xué),2004(7):815-821.
[2]Davidson L, Kline K, Klein S, et al. Pro SQL Server 2008 Relational Database Design and Implementation[J]. Apress, 2016,12(13):232-243.
[3]張華東,邵秀麗,吳軍,等.SQL Server數(shù)據(jù)庫到HBase數(shù)據(jù)庫的模式轉(zhuǎn)換和數(shù)據(jù)遷移研究[J].智能計算機與應(yīng)用,2016,6(5):24-30.
[4]Kang S, Choi J, Choi J. A method of Securing Mass Storage for SQL Server by Sharing Network Disks-on the Amazon EC2 Windows Environments-[J]. 2016,17(2):1-9.
[5]Shaik M V,Sujatha P. Temporal query processig using SQL server[J]. International Journal on Smart Sensing & Intelligent Systems, 2017(2017): 495-505.
[6]吳才遠.采用Veritas備份軟件對SQL Server數(shù)據(jù)庫進行恢復(fù)測試及應(yīng)急演練淺析[J].自然科學(xué):全文版,2016(8):187.
[7]范新燦,趙明.基于Struts+Hibernate+Spring的輕量級架構(gòu)開發(fā)應(yīng)用研究[J].現(xiàn)代計算機(專業(yè)版),2010(1).
[8]Sean Baird, Chris Miller. SQL Server System Administration[M].Beijing: Publishing House of Electronics Industry, 2000.
[9]Surajit Chaudhuri, Usama Fayyad, Jeff Bernhardt. Scalable Classification over SQL Database [J]. ICDE 2010:470-479.