張楠 姜琳
聲像檔案是檔案的一個(gè)重要組成部分,各級(jí)檔案部門均存儲(chǔ)著海量的聲像檔案,它們價(jià)值巨大、利用率高。然而隨著科技進(jìn)步,傳統(tǒng)載體聲像檔案所依賴的存儲(chǔ)載體、數(shù)據(jù)模式、傳遞方式逐漸落后乃至淘汰,檔案管理的數(shù)字化程度正在不斷提高。目前,各檔案館正在進(jìn)行傳統(tǒng)聲像檔案的數(shù)字化轉(zhuǎn)存工作,形成大量音、視頻數(shù)字化檔案,與此同時(shí),新媒體時(shí)代海量數(shù)字化音視頻檔案信息不斷涌入,使得音視頻檔案的存儲(chǔ)量從GB級(jí)、TB級(jí)到PB級(jí)激增?,F(xiàn)代化檔案管理中音視頻檔案的收集、壓縮、海量固態(tài)存儲(chǔ)技術(shù)及備份系統(tǒng)已經(jīng)逐步開始在我國(guó)各級(jí)檔案部門著手應(yīng)用,但音像檔案高質(zhì)量數(shù)字化轉(zhuǎn)存,以及數(shù)字化音視頻安全穩(wěn)定存儲(chǔ)和傳輸,仍是檔案管理工作中的重點(diǎn)和難點(diǎn)。
國(guó)內(nèi)對(duì)音視頻檔案的研究則相對(duì)較晚。2010 年國(guó)家檔案局頒發(fā)了《數(shù)字聲像檔案著錄規(guī)則(征求意見稿)》,從國(guó)家層面開始對(duì)音視頻檔案進(jìn)行規(guī)范化管理。2017年國(guó)家檔案局出臺(tái)了《錄音錄像檔案數(shù)字化規(guī)范》《錄音錄像類電子檔案元數(shù)據(jù)方案》,這兩個(gè)文件規(guī)定了錄音檔案和錄像檔案數(shù)字化的技術(shù)和管理要求,為全國(guó)各級(jí)檔案部門開展錄音錄像檔案數(shù)字化工作提出了具體的要求。目前我國(guó)音視頻檔案的數(shù)字化實(shí)踐一般均由地方發(fā)起和參與,一些代表性的實(shí)踐成果與探索也均集中在地方性檔案機(jī)構(gòu)中,例如青島市檔案館制定的《電子檔案管理技術(shù)標(biāo)準(zhǔn)(試行)》,明確提出了視頻檔案應(yīng)采用MPEG-2編碼標(biāo)準(zhǔn)進(jìn)行壓縮,采集比特率為4Mb/s。
現(xiàn)代數(shù)字化檔案管理中音視頻存儲(chǔ)器的形式多樣,不同存儲(chǔ)器可能產(chǎn)生的不同類型和原因的干擾,數(shù)字化過程中的熱電現(xiàn)象也可能導(dǎo)致噪聲干擾。本文基于糾錯(cuò)碼原理,從存儲(chǔ)器底層結(jié)構(gòu)分析引起差錯(cuò)的根本原因,減少音視頻在轉(zhuǎn)換和存儲(chǔ)的過程中受到各種類型噪聲的干擾,對(duì)海量音視頻檔案數(shù)字化存儲(chǔ)技術(shù)進(jìn)行可靠性改進(jìn),對(duì)音視頻檔案數(shù)據(jù)提供可靠性編碼保護(hù),改善音視頻檔案的存儲(chǔ)保管現(xiàn)狀。
利用信息編碼技術(shù)和檔案數(shù)字化技術(shù)相結(jié)合的方式,將數(shù)字化處理后形成的海量音視頻數(shù)字化信息進(jìn)行編碼存儲(chǔ)和可靠性數(shù)據(jù)還原,對(duì)目前檔案館單純地進(jìn)行音視頻檔案數(shù)字化轉(zhuǎn)換是有效補(bǔ)充和功能完善,實(shí)現(xiàn)海量音視頻檔案信息采集、安全存儲(chǔ)、信息還原,使保存的信息更加可靠,極大提高數(shù)據(jù)還原率,并可在大容量、超大容量檔案數(shù)據(jù)信息采集、存儲(chǔ)、利用,檔案數(shù)據(jù)異地備份及因突發(fā)故障或極端自然災(zāi)害等引發(fā)的檔案數(shù)據(jù)損失還原方面發(fā)揮重要作用。
通過對(duì)音視頻檔案信息實(shí)測(cè)表明,數(shù)據(jù)傳輸過程中的突發(fā)錯(cuò)誤以及海量存儲(chǔ)芯片的軟錯(cuò)誤是對(duì)存儲(chǔ)可靠性影響比較嚴(yán)重的因素??紤]到音視頻檔案數(shù)據(jù)對(duì)可靠性要求很高,同時(shí)檔案數(shù)據(jù)存儲(chǔ)和傳輸要求一定的保密性,基于此,確定研究的基本方案采用兼顧有效性和可靠性的RS-LT級(jí)聯(lián)碼作為主要編碼方式,采用RS碼(Reed-solomon Codes)作為外碼,LT碼(Lubu Transform Codes)作為內(nèi)碼。LT碼是一種實(shí)用的數(shù)字噴泉碼,也稱為“無(wú)率碼”,是一類基于圖的線性糾刪碼。傳統(tǒng)音視頻檔案信息經(jīng)模數(shù)轉(zhuǎn)化,一般還要進(jìn)行數(shù)據(jù)壓縮,轉(zhuǎn)化為二進(jìn)制數(shù)字信號(hào)進(jìn)入編碼器,我們?cè)O(shè)定好原始的數(shù)據(jù)包大小,編碼器產(chǎn)生有效的任意數(shù)量編碼包,接收端在足夠時(shí)間的條件下收到足夠數(shù)量的編碼包用來譯碼,得到原始數(shù)據(jù)。如果把海量音視頻檔案信息比作一個(gè)數(shù)據(jù)“噴泉”,只要接收到滿足數(shù)量的“水滴”,就可以恢復(fù)文件,可以應(yīng)對(duì)大容量存儲(chǔ)過程中的信道質(zhì)量不穩(wěn)定的問題,既能提高海量數(shù)據(jù)存儲(chǔ)的可靠性,又充分節(jié)省存儲(chǔ)空間。外碼采用RS編碼,可以通過提高系統(tǒng)糾錯(cuò)能力來進(jìn)一步提高LT碼的可譯碼概率,并提高系統(tǒng)恢復(fù)碼元的實(shí)時(shí)性。同時(shí)LT碼對(duì)信號(hào)的糾刪處理,又相對(duì)提高了RS碼的糾錯(cuò)能力。
音視頻存儲(chǔ)改進(jìn)技術(shù)實(shí)現(xiàn)基于糾錯(cuò)碼原理,從存儲(chǔ)器底層結(jié)構(gòu)分析引起存儲(chǔ)數(shù)據(jù)錯(cuò)誤的根本原因,對(duì)海量音視頻檔案數(shù)字化存儲(chǔ)技術(shù)進(jìn)行可靠性改進(jìn),研究原則是強(qiáng)調(diào)技術(shù)實(shí)用、軟件功能實(shí)現(xiàn),同時(shí)兼顧可擴(kuò)展能力。
(一)工作原理
根據(jù)《錄音錄像檔案數(shù)字化標(biāo)準(zhǔn)》規(guī)定,視頻編碼格式采用H.264、MPEG-2 IBP,音頻文件格式采用WAVE格式。首先選定實(shí)驗(yàn)外碼的編碼設(shè)計(jì)指標(biāo):MPEG-2或H.264壓縮格式的視頻檔案數(shù)據(jù),JPEG圖像采用RS(255,223);無(wú)壓縮的音頻檔案數(shù)據(jù)和高壓縮率的音頻檔案數(shù)據(jù)分別采用RS(48,32)和RS(32,16)。內(nèi)碼的編碼較簡(jiǎn)單,依據(jù)相應(yīng)的公式生成度分布,將不同的數(shù)據(jù)包求異或和,生成編碼包。
音視頻檔案信息通過轉(zhuǎn)換、信息采集、壓縮等處理后進(jìn)入編碼通道,分別進(jìn)行兩級(jí)級(jí)聯(lián)編碼,編碼完成后可安全存儲(chǔ),回放時(shí)重新通過接口匹配,然后進(jìn)行解碼,完成對(duì)音視頻檔案數(shù)據(jù)可靠性改進(jìn)存儲(chǔ)與還原。音視頻檔案數(shù)據(jù)還原時(shí)通過LT譯碼器和RS譯碼器進(jìn)行譯碼,實(shí)現(xiàn)數(shù)據(jù)還原和信息回放。
(二)音視頻信息編譯碼單元的設(shè)計(jì)實(shí)現(xiàn)
音視頻檔案存儲(chǔ)改進(jìn)方案采用RS-LT級(jí)聯(lián)編碼。首先定義緩存區(qū),讀取數(shù)據(jù)并按照存儲(chǔ)信息碼字及中間結(jié)果所需的緩存大小進(jìn)行存儲(chǔ),編碼單元進(jìn)行LT碼編碼后的編碼包進(jìn)入RS編碼流程,以信息塊為單位進(jìn)行數(shù)據(jù)的編碼,占位標(biāo)志busy有效,表示正在進(jìn)行編碼數(shù)據(jù)處理,發(fā)送結(jié)束之后撤銷占位標(biāo)識(shí)。這里L(fēng)T碼是實(shí)現(xiàn)難點(diǎn),編碼過程有三個(gè)步驟:首先確定度分布函數(shù);然后采用均勻分布來隨機(jī)選取度值d,最后將d個(gè)不同的數(shù)據(jù)包進(jìn)行異或,得到編碼分組,不斷重復(fù)上面的步驟,就可以得到無(wú)限多個(gè)編碼分組。RS碼是一種非常成熟的糾錯(cuò)碼,編碼主要的步驟就是求出有限域中的余式,這里不再做具體描述。
LT碼譯碼采用Belief Propagation算法迭代譯碼。度分布函數(shù)的選擇對(duì)LT譯碼質(zhì)量至關(guān)重要,本文采用Robust Soliton分布。首先根據(jù)收集到的編碼符號(hào)找到d=1 的輸出,調(diào)用BP 算法,不同節(jié)點(diǎn)信息進(jìn)行迭代實(shí)現(xiàn)譯碼;循環(huán)判斷,將度值為1的編碼包地址送給譯碼模塊進(jìn)行譯碼,若遍歷完成未找到度值為1的編碼包則中止,重復(fù)遍歷迭代。RS譯碼器采用Bjorck-Pereyra算法來實(shí)現(xiàn)系數(shù)矩陣為范德蒙矩陣的線性方程組的快速算法,運(yùn)用以范德蒙矩陣為系數(shù)陣的線性方程組的快速算法,可以減少求解過程中的運(yùn)算量,大大提高譯碼效率。數(shù)據(jù)接收完畢之后,以信息塊為單位,在余數(shù)對(duì)優(yōu)選的基礎(chǔ)上進(jìn)行外部RS譯碼。譯碼結(jié)束之后撤銷占位標(biāo)識(shí),完成數(shù)傳終端設(shè)備譯碼通道處理。
在全面加快檔案數(shù)字化進(jìn)程的背景下,聲像檔案的數(shù)字化最為復(fù)雜多樣,難度最大,是檔案管理發(fā)展的短板。目前國(guó)內(nèi)檔案管理的軟硬件環(huán)境參差不齊,在音視頻檔案數(shù)字化過程中受干擾影響、可靠長(zhǎng)期保存及應(yīng)對(duì)突發(fā)故障干擾方面存在理論和技術(shù)難題,通過可靠性改進(jìn)將信息編碼技術(shù)與檔案工作深度融合,在信號(hào)采集過程中,大大降低突發(fā)干擾對(duì)采集效果的影響,采用軟件編譯碼方法,可以有效降低誤碼率,增強(qiáng)數(shù)據(jù)存儲(chǔ)的抗干擾能力,將海量音視頻檔案信息進(jìn)行高效編碼存儲(chǔ)和可靠性數(shù)據(jù)還原,是解決音視頻檔案長(zhǎng)期可靠保存的良好途徑?!盎ヂ?lián)網(wǎng)+”時(shí)代開放共享檔案信息資源成為加強(qiáng)檔案機(jī)構(gòu)自身建設(shè)的重要工作內(nèi)容,檔案機(jī)構(gòu)的服務(wù)創(chuàng)新、檔案信息資源的深度開發(fā)利用也將產(chǎn)生更廣泛區(qū)域間的檔案信息交流。音視頻檔案存儲(chǔ)技術(shù)的可靠性改進(jìn)研究能夠提高信息傳輸?shù)目煽啃?,并且具備很好的保密性能,在未來智慧檔案管理中有廣泛的應(yīng)用前景。
作者單位:青島大學(xué)檔案館
基金項(xiàng)目:本文系2019年度山東省檔案科技項(xiàng)目“海量音視頻檔案存儲(chǔ)技術(shù)可靠性改進(jìn)研究”(項(xiàng)目編號(hào):2019-17)的研究成果。