黃榮梅 唐權(quán)
摘要:為解決常規(guī)數(shù)字化檔案系統(tǒng)調(diào)取識(shí)別性較低的不足,提出了實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用?;趯?shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接,以及數(shù)字化檔案的識(shí)別,完成實(shí)物大數(shù)據(jù)搜索單元的引入;依托搜索關(guān)鍵字的載入,數(shù)字化信息的甄別與顯示,實(shí)現(xiàn)了實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用。實(shí)驗(yàn)數(shù)據(jù)表明,提出的實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用,較常規(guī)數(shù)字化檔案系統(tǒng),調(diào)取識(shí)別性提高75.35%。能夠?qū)崿F(xiàn)數(shù)字化文檔系統(tǒng)文件的快速調(diào)取。
關(guān)鍵詞:實(shí)物大數(shù)據(jù);數(shù)字化檔案;檔案系統(tǒng);數(shù)據(jù)調(diào)取
中圖分類(lèi)號(hào):TM72 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)09-0005-02
常規(guī)數(shù)字化檔案系統(tǒng)采用關(guān)鍵字檢索的方式,能夠?qū)崿F(xiàn)數(shù)字化檔案系統(tǒng)的調(diào)取,但僅限于關(guān)鍵字錄入部分,例如對(duì)數(shù)字化檔案標(biāo)題進(jìn)行關(guān)鍵字錄入,搜索關(guān)鍵字則可以找到該數(shù)字化檔案,但搜索該數(shù)字化檔案的內(nèi)容將無(wú)法查詢到該檔案,存在調(diào)取識(shí)別性較低的不足[1],為此提出實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用。基于TCP/IP通信協(xié)議,實(shí)現(xiàn)實(shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接,利用大數(shù)據(jù)識(shí)別機(jī)制,實(shí)現(xiàn)數(shù)字化檔案的識(shí)別,完成實(shí)物大數(shù)據(jù)搜索單元的引入。依托搜索關(guān)鍵字的載入,數(shù)字化信息的甄別與顯示,實(shí)現(xiàn)了實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用。為了保證提出的數(shù)字化檔案系統(tǒng)中應(yīng)用有效性,進(jìn)行試驗(yàn)驗(yàn)證,試驗(yàn)結(jié)果表明,提出的實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用,較常規(guī)數(shù)字化檔案系統(tǒng),具有更高的調(diào)取識(shí)別性。
1引入實(shí)物大數(shù)據(jù)搜索單元
1.1實(shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接
實(shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接是采用常規(guī)TCP/IP通信協(xié)議進(jìn)行通信的,TCP/IP通信協(xié)議具有可擴(kuò)展性,溯源性良好,能夠保證實(shí)用大數(shù)據(jù)技術(shù)的可靠運(yùn)行[2]。
TCP/IP通信協(xié)議是連接大數(shù)據(jù)服務(wù)端與數(shù)字化檔案系統(tǒng)的通信橋梁,采用環(huán)形拓?fù)浼軜?gòu)的方式進(jìn)行連接,通信連接測(cè)試數(shù)據(jù)量不得小于45Mbyet/s[3]。以保證數(shù)據(jù)傳輸?shù)姆€(wěn)定性。其設(shè)計(jì)的TCP/IP通信協(xié)議共有四個(gè)層次結(jié)構(gòu),分別是網(wǎng)絡(luò)接口層、網(wǎng)絡(luò)層、傳輸層和應(yīng)用層,網(wǎng)絡(luò)接口層是連接網(wǎng)絡(luò)的層級(jí)結(jié)構(gòu),使網(wǎng)絡(luò)有效連接,進(jìn)行有效通信。而網(wǎng)絡(luò)層就是為通信提供網(wǎng)絡(luò)支撐的層級(jí),傳輸層是使大數(shù)據(jù)傳輸?shù)慕橘|(zhì)層級(jí)。在應(yīng)用層進(jìn)行整合,實(shí)現(xiàn)實(shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接。
1.2數(shù)字化檔案的識(shí)別
大數(shù)據(jù)識(shí)別機(jī)制與常規(guī)檢索機(jī)制不同,數(shù)字化檔案的識(shí)別是采用大數(shù)據(jù)識(shí)別機(jī)制進(jìn)行識(shí)別的。大數(shù)據(jù)識(shí)別機(jī)制是利用模糊集計(jì)算方式進(jìn)行統(tǒng)計(jì),根據(jù)嵌入方式進(jìn)行自定義子集,采用子集與統(tǒng)計(jì)集合對(duì)比的方式進(jìn)行數(shù)字化檔案檢索。其模糊集識(shí)別數(shù)字化檔案計(jì)算過(guò)程如下:
首先,利用實(shí)物大數(shù)據(jù)的優(yōu)勢(shì),將數(shù)字化檔案管理系統(tǒng),構(gòu)建成不同分類(lèi)的模糊集合。其中一個(gè)文檔可屬幾個(gè)大類(lèi)模糊集合,也可單屬于一類(lèi)的模糊集合當(dāng)中。
然后,根據(jù)載入的關(guān)鍵字信息,進(jìn)行模糊化處理,確定模糊化子集,根據(jù)模糊化子集對(duì)應(yīng)數(shù)字化檔案系統(tǒng)中的模糊集合。
最后,子集在模糊集合內(nèi),進(jìn)行對(duì)比,實(shí)現(xiàn)檢索內(nèi)容的顯示,優(yōu)化傳統(tǒng)檢索方法,將輸入信息與整個(gè)檔案系統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行逐一對(duì)比,提高檢索能力,縮短檢索時(shí)間,降低對(duì)數(shù)據(jù)庫(kù)資源的耗損。
2實(shí)現(xiàn)數(shù)字化檔案系統(tǒng)快速調(diào)取
2.1搜索關(guān)鍵字的載入
搜索關(guān)鍵字的載入,是基于用戶在輸入端輸入的關(guān)鍵字信息,數(shù)字化檔案管理系統(tǒng)識(shí)別關(guān)鍵字信息,載入其關(guān)鍵字信息,完成關(guān)鍵字的載入。關(guān)鍵字的范圍為用戶輸入范圍,包含數(shù)字化檔案的標(biāo)題內(nèi)容、作者、發(fā)表日期、類(lèi)型等關(guān)鍵信息等。
載入過(guò)程中應(yīng)保證數(shù)據(jù)傳輸?shù)囊恢滦院蜏?zhǔn)確性,若載入數(shù)據(jù)傳輸有誤,則會(huì)造成顯示不準(zhǔn)確,將會(huì)給后續(xù)的數(shù)字化信息甄別帶來(lái)一定的影響。同時(shí)為解決因輸入有誤而造成的查詢調(diào)取不準(zhǔn)確,采用模糊集計(jì)算方式進(jìn)行運(yùn)算。
2.2數(shù)字化信息的甄別與顯示
數(shù)字化信息的甄別,是在顯示給用戶前進(jìn)行系統(tǒng)自我內(nèi)部的甄別,甄別過(guò)程為對(duì)預(yù)提供給用戶的數(shù)字化信息進(jìn)行精算,確定提供的數(shù)字化信息為用戶所檢索的數(shù)字化信息[4]。精確計(jì)算與模糊集計(jì)算不同,精確計(jì)算為單字符對(duì)于單字符的對(duì)比計(jì)算,根據(jù)用戶輸入的信息進(jìn)行判斷,若與用戶輸入的信息,相同則給予顯示,若與用戶輸入的信息不同則不予顯示,再進(jìn)行重復(fù)計(jì)算,若重復(fù)計(jì)算未發(fā)現(xiàn)用戶輸入的信息,這顯示與搜索相近的數(shù)字化檔案信息。
數(shù)字化信息的顯示為物理顯示,即依托輸入端的外部設(shè)備(計(jì)算機(jī)顯示器)進(jìn)行顯示[5],依托實(shí)物大數(shù)據(jù)與數(shù)字化檔案系統(tǒng)的連接,引入大數(shù)據(jù)識(shí)別機(jī)制,通過(guò)對(duì)關(guān)鍵字的載入,基于設(shè)計(jì)的數(shù)字化檔案調(diào)取過(guò)程,與數(shù)字化信息的甄別,完成顯示,實(shí)現(xiàn)提出的實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用。
3實(shí)例分析
為保證提出的實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中應(yīng)用有效性,現(xiàn)采用兩種數(shù)字化檔案系統(tǒng),進(jìn)行對(duì)比實(shí)驗(yàn),分析兩種數(shù)字化檔案系統(tǒng)的調(diào)取識(shí)別性情況。采用對(duì)比調(diào)查的方式進(jìn)行實(shí)驗(yàn)。
3.1實(shí)驗(yàn)準(zhǔn)備與實(shí)驗(yàn)過(guò)程
實(shí)驗(yàn)地點(diǎn)為某省圖書(shū)館,實(shí)驗(yàn)過(guò)程征求圖書(shū)館管理員意見(jiàn),采用兩種數(shù)字化檔案系統(tǒng)進(jìn)行服務(wù),征求圖書(shū)館閱讀人員作為志愿者,對(duì)兩種數(shù)字化檔案系統(tǒng)進(jìn)行有針對(duì)性的調(diào)取實(shí)驗(yàn),分析兩種數(shù)字化檔案系統(tǒng)的調(diào)取識(shí)別情況。其中兩種數(shù)字化檔案系統(tǒng)為采用關(guān)鍵字檢索的常規(guī)數(shù)字化檔案系統(tǒng)、本文提出的應(yīng)用于實(shí)物大數(shù)據(jù)的數(shù)字化檔案系統(tǒng)。
為了準(zhǔn)確驗(yàn)證應(yīng)用不同方法的數(shù)字化檔案系統(tǒng)的調(diào)取識(shí)別情況,在實(shí)驗(yàn)過(guò)程中,應(yīng)保證兩種數(shù)字化檔案系統(tǒng)內(nèi)的數(shù)字化檔案完全一致,且占用儲(chǔ)存空間大小相等,儲(chǔ)存排列方式應(yīng)完全相同。僅分析應(yīng)用不同手段的數(shù)字化檔案系統(tǒng)的調(diào)取識(shí)別情況。本次實(shí)驗(yàn),兩種數(shù)字化檔案系統(tǒng)儲(chǔ)存內(nèi)容如表1所是:
實(shí)驗(yàn)過(guò)程中,采用數(shù)字化檔案系統(tǒng)儲(chǔ)存大小作為自變量,調(diào)取反應(yīng)時(shí)間作為因變量,利用調(diào)取反應(yīng)時(shí)間衡量調(diào)取識(shí)別情況。記錄不同數(shù)據(jù)量調(diào)取所需時(shí)間形成圖表。
3.2試驗(yàn)數(shù)據(jù)分析
根據(jù)實(shí)驗(yàn)過(guò)程,記錄存儲(chǔ)文件由0~20GB,應(yīng)用不同手段的數(shù)字化檔案系統(tǒng),所調(diào)取文件所需要的時(shí)間。如圖1所示:
上圖中,圖(a)代表提出的數(shù)字化檔案系統(tǒng)應(yīng)用調(diào)取反應(yīng)時(shí)間,圖(b)代表常規(guī)的數(shù)字化檔案系統(tǒng)應(yīng)用調(diào)取反應(yīng)時(shí)間。根據(jù)圖1顯示,計(jì)算提出的數(shù)字化檔案系統(tǒng)應(yīng)用調(diào)取平均反應(yīng)時(shí)間為0.35s,常規(guī)的數(shù)字化檔案系統(tǒng)應(yīng)用調(diào)取平均反應(yīng)時(shí)間為1.42s。得出提出的實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用,較常規(guī)數(shù)字化檔案系統(tǒng),調(diào)取識(shí)別性提高75.35%。能夠?qū)崿F(xiàn)數(shù)字化文檔系統(tǒng)文件的快速調(diào)取。
4總結(jié)
本文提出了實(shí)物大數(shù)據(jù)手段在數(shù)字化檔案系統(tǒng)中的應(yīng)用,基于實(shí)物大數(shù)據(jù)搜索單元引入,依托搜索關(guān)鍵字的載入,數(shù)字化信息的甄別與顯示,實(shí)現(xiàn)本文的研究。試驗(yàn)數(shù)據(jù)表明,本文設(shè)計(jì)的數(shù)字化檔案系統(tǒng)具備較高的有效性。希望本文的研究能夠?yàn)閿?shù)字化檔案系統(tǒng)提供理論依據(jù)。
參考文獻(xiàn):
[1] 米永寧, 耿志杰. 應(yīng)用大數(shù)據(jù)技術(shù)開(kāi)發(fā)數(shù)字檔案信息資源的現(xiàn)實(shí)困境與策略研究[J].北京檔案, 2016(11):16-19.
[2] 李俊豪. 2017(貴陽(yáng))檔案大數(shù)據(jù)應(yīng)用與安全高端論壇暨第五屆檔案信息化建設(shè)峰會(huì)召開(kāi)[J].中國(guó)檔案, 2017(9):17-17.
[3] 張志忠, 朱水琴, 沈偉民. 大數(shù)據(jù)時(shí)代地稅數(shù)字檔案室建設(shè)的建議[J].檔案與建設(shè), 2016(11):69-73.
[4] 陳小莉. 基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的研究應(yīng)用[J].激光雜志, 2017(2):146-149.
[5] 李鵬. 大數(shù)據(jù)時(shí)代下的服務(wù)導(dǎo)向型圖書(shū)館用戶檔案管理[J].山西檔案, 2018,242(6):31-33.
【通聯(lián)編輯:光文玲】