沈美 于翔
摘 要:隨著計(jì)算技術(shù)的發(fā)展以及計(jì)算機(jī)硬件性能的提高,模式識(shí)別、人工智能、數(shù)據(jù)挖掘以及圖像處理等研究領(lǐng)域的發(fā)展也取得了長(zhǎng)足的進(jìn)步,促使在超大樣本訓(xùn)練集上進(jìn)行的機(jī)器學(xué)習(xí)得以實(shí)現(xiàn)。因此,對(duì)樣本集數(shù)據(jù)庫(kù)的管理,尤其是如何更好地利用數(shù)字化技術(shù)為非物質(zhì)文化遺產(chǎn)保護(hù)服務(wù),以及如何利用現(xiàn)有的關(guān)系型數(shù)據(jù)庫(kù)實(shí)現(xiàn)非物質(zhì)文化遺產(chǎn)—南通藍(lán)印花布的圖像紋樣進(jìn)行檢索,就顯得尤其重要了,文章對(duì)此進(jìn)行研究。
關(guān)鍵詞:關(guān)系型數(shù)據(jù)庫(kù);非物質(zhì)文化遺產(chǎn);南通藍(lán)印花布;搜索技術(shù)
2006年5月經(jīng)國(guó)務(wù)院批準(zhǔn)藍(lán)印花布列入第一批國(guó)家級(jí)非物質(zhì)文化遺產(chǎn)名錄。吳元新先生通過(guò)整理、收藏上萬(wàn)件明清以來(lái)實(shí)物及圖片資料以及上萬(wàn)件紋樣紙版,出版了《中國(guó)藍(lán)印花布紋樣大全》藏品卷。然而,利用先進(jìn)的信息化、數(shù)字化等技術(shù)手段感悟?qū)Ψ俏镔|(zhì)文化遺產(chǎn)—“藍(lán)印花布”項(xiàng)目傳承與保護(hù)的研究、開(kāi)發(fā)工作卻少之又少,尤其是利用圖像數(shù)據(jù)庫(kù)技術(shù)來(lái)對(duì)藍(lán)印花布紋樣進(jìn)行管理則處于空白階段。
基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)是當(dāng)前多媒體檢索中研究最為廣泛的一種[1]。其主要是將圖像自身的視覺(jué)特征(如顏色、形狀、紋理等)作為圖像的內(nèi)容加以表示,從而進(jìn)行查找、匹配,最終將與樣例圖像相似的圖像返回給用戶(hù)。CBIR涉及多個(gè)領(lǐng)域的研究?jī)?nèi)容:如計(jì)算機(jī)視覺(jué)、圖像處理、圖像理解、模式識(shí)別、人工智能、數(shù)據(jù)庫(kù)技術(shù)、支持向量機(jī)學(xué)習(xí)、貝葉斯學(xué)習(xí)、決策樹(shù)學(xué)習(xí)及相關(guān)反饋交互式學(xué)習(xí)等[2],并在多個(gè)領(lǐng)域得到了廣泛的應(yīng)用。本文在充分考慮時(shí)間對(duì)于藍(lán)印花布圖像紋樣搜索影響的前提條件下,構(gòu)造一種新的藍(lán)印花布圖像數(shù)據(jù)庫(kù)搜索空間樹(shù)方法,從而提高了藍(lán)印花布圖像數(shù)據(jù)庫(kù)“以圖找圖”檢索方式的成功率,其最終圖像檢索效果更好,準(zhǔn)確性更高,速度更快。
1 應(yīng)用背景
非物質(zhì)文化遺產(chǎn)是我國(guó)傳統(tǒng)優(yōu)秀文化的代表,是真正屬于我們“自己”的文化。正因?yàn)榇耍覈?guó)對(duì)于非物質(zhì)文化遺產(chǎn)的保護(hù)、傳承與文化交流越來(lái)越重視;在各級(jí)政府與社會(huì)的幫助下,對(duì)非物質(zhì)文化遺產(chǎn)的保護(hù)、傳承與文化交流已發(fā)展到利用更為先進(jìn)的理念、技術(shù)與手段來(lái)實(shí)現(xiàn)[1]。南通藍(lán)印花布作為國(guó)家首批非物質(zhì)文化遺產(chǎn)之一,其數(shù)字化建設(shè)僅僅處于起步階段。因此,以藍(lán)印花布數(shù)字化圖像為研究對(duì)象,以數(shù)字化技術(shù)為核心,利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),努力探索一條通過(guò)關(guān)系型數(shù)據(jù)庫(kù)來(lái)架設(shè)圖像數(shù)據(jù)庫(kù),從而實(shí)現(xiàn)藍(lán)印花布數(shù)字化圖像的存儲(chǔ)與管理就顯得勢(shì)在必行。
目前,圖像數(shù)據(jù)庫(kù)要么是以數(shù)據(jù)信息組成文件名的方式實(shí)現(xiàn)數(shù)據(jù)分類(lèi)與查找,要么是將圖像數(shù)據(jù)存儲(chǔ)在服務(wù)器端;這兩種方法都存在不可避免的弊端:首先,是由于圖像數(shù)據(jù)的屬性信息只存在于文件名中,從而限制了查找的高效性和數(shù)據(jù)屬性描述的可擴(kuò)展性;其次,在圖像數(shù)據(jù)庫(kù)的檢索過(guò)程中,是通過(guò)服務(wù)器端的計(jì)算機(jī)程序完成,從而增加了服務(wù)器的負(fù)擔(dān),尤其是外部訪問(wèn)量增大時(shí),這種檢索速度的影響將尤為明顯[2]。
綜上所述,目前圖像數(shù)據(jù)庫(kù)的開(kāi)發(fā)與建設(shè)方面存在以下不足。
(1)針對(duì)圖像數(shù)據(jù)的描述不能方便地隨意擴(kuò)展,使其不能滿(mǎn)足基于圖像數(shù)據(jù)的科學(xué)研究對(duì)圖像數(shù)據(jù)描述特征屬性多樣性的需求。
(2)影像圖像數(shù)據(jù)的存儲(chǔ)以及編號(hào)不能反映圖像數(shù)據(jù)之間的關(guān)聯(lián)性,比如不同時(shí)間點(diǎn)或者不同圖像采集模式所得到的圖像數(shù)據(jù)之間的關(guān)系,不能很好地得到體現(xiàn)。
(3)圖像數(shù)據(jù)在服務(wù)器上的上傳和下載過(guò)程都在服務(wù)器端完成,這種設(shè)計(jì)增加了服務(wù)器端的負(fù)擔(dān),影響了針對(duì)數(shù)據(jù)倉(cāng)庫(kù)的上傳、檢索和下載速度。
(4)當(dāng)用戶(hù)需要從眾多圖像數(shù)據(jù)檢索結(jié)果中有選擇性地下載部分結(jié)果時(shí),沒(méi)有很好的選擇性的批量下載的方法[3]。
因此,針對(duì)南通藍(lán)印花布紋樣圖像數(shù)據(jù)庫(kù)設(shè)計(jì)需求,解決現(xiàn)有技術(shù)中圖像數(shù)據(jù)庫(kù)檢索效率不高、存儲(chǔ)、檢索關(guān)鍵詞擴(kuò)展性不好、數(shù)據(jù)與數(shù)據(jù)之間關(guān)聯(lián)不明確、計(jì)算機(jī)圖像處理研究技術(shù)及現(xiàn)有圖像數(shù)據(jù)倉(cāng)庫(kù)管理方法的不足,我們提出了一種新的基于內(nèi)容的、可擴(kuò)展、高效存儲(chǔ)、檢索的圖像數(shù)據(jù)倉(cāng)庫(kù)管理方法。
2 南通藍(lán)印花布搜索引擎的構(gòu)建策略
藍(lán)印花布是一種距今已有一千多年歷史的傳統(tǒng)工藝印染品。大量研究表明,藍(lán)印花布在其漫長(zhǎng)發(fā)展過(guò)程中,其紋樣圖像帶有明顯的時(shí)代印記,不同時(shí)代藍(lán)印花布紋樣及其參照紋樣在數(shù)量、種類(lèi)等方面不同。由此,藍(lán)印花布數(shù)字化圖像的相應(yīng)識(shí)別比對(duì)值在空間分布密度是不均勻的。通過(guò)長(zhǎng)期的研究發(fā)現(xiàn),藍(lán)印花布紋樣具有在時(shí)間與相關(guān)圖像紋樣呈現(xiàn)相關(guān)聯(lián)的結(jié)論。因此,構(gòu)建一個(gè)以時(shí)間為參數(shù)、以藍(lán)印花布識(shí)別比對(duì)值為主要關(guān)鍵字的搜索算法是開(kāi)發(fā)藍(lán)印花布紋樣圖像數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵所在[4]。
3 構(gòu)建基于關(guān)系型數(shù)據(jù)庫(kù)的藍(lán)印花布紋樣數(shù)字化搜索技術(shù)
數(shù)字化技術(shù)是一種信息處理技術(shù),即將許多復(fù)雜多變的信息轉(zhuǎn)變?yōu)榭梢远攘康臄?shù)字、數(shù)據(jù),并由此建立數(shù)學(xué)模型,進(jìn)而將它們轉(zhuǎn)變?yōu)橐幌盗锌梢赃M(jìn)入計(jì)算機(jī)的二進(jìn)制代碼的技術(shù),是計(jì)算機(jī)技術(shù)、多媒體技術(shù)、智能技術(shù)和信息傳播技術(shù)的基礎(chǔ)[5]。
南通藍(lán)印花布圖像紋樣圖像數(shù)據(jù)庫(kù),如查找、搜索等方面仍然采用傳統(tǒng)的文字描述方式不僅會(huì)因?yàn)槲淖置枋鰷?zhǔn)確性差而導(dǎo)致查找效率低下,而且還會(huì)丟失多個(gè)其他方面屬性,從而造成不必要的損失。因此,利用藍(lán)印花布紋樣與參照紋樣比對(duì)產(chǎn)生的數(shù)值來(lái)區(qū)分兩個(gè)不同紋樣,同時(shí),針對(duì)南通藍(lán)印花布紋樣與時(shí)代特征相關(guān)聯(lián)的特點(diǎn),將時(shí)間與傳統(tǒng)二叉樹(shù)相結(jié)合,先以時(shí)間參數(shù)為主索引,構(gòu)造出一個(gè)二叉樹(shù)結(jié)構(gòu);隨后再在各個(gè)時(shí)間塊內(nèi),利用藍(lán)印花布識(shí)別比對(duì)值,構(gòu)造出一個(gè)基于藍(lán)印花布紋樣識(shí)別比對(duì)值的鏈表結(jié)構(gòu),從而在整體上構(gòu)造一種空間二叉樹(shù),達(dá)到高效檢索南通藍(lán)印花布紋樣的目的。
3.1 南通藍(lán)印花布紋樣的數(shù)字化采集、預(yù)處理
本文以南通藍(lán)印花布的數(shù)字化紋樣圖像為研究對(duì)象,通過(guò)數(shù)碼相機(jī)等設(shè)備為其進(jìn)行數(shù)字化圖像的采集。另外,針對(duì)藍(lán)白兩色的藍(lán)印花布這一特點(diǎn),對(duì)其數(shù)字化圖像進(jìn)行相關(guān)預(yù)處理,包括灰度化、中值濾波去噪和歸一化等操作;經(jīng)過(guò)大量實(shí)驗(yàn)后,確定采用加權(quán)值法與最大值法結(jié)合的灰度化處理來(lái)處理,其公式如下所示:
圖像數(shù)字化處理的基礎(chǔ)就是圖像特征提取,圖像特征提取的結(jié)果直接決定了圖像分割的結(jié)果;不同類(lèi)型的圖像對(duì)象,其圖像特征不同,所進(jìn)行的圖像分割依據(jù)及其方法也不同,因此,相應(yīng)的分割算法也完全不同。目前,廣泛使用的圖像分割方法主要有閾值分割、基于變形模型分割、基于區(qū)域生長(zhǎng)分割、聚類(lèi)法分割等[6]。通過(guò)分析可知:只有藍(lán)白兩色的藍(lán)印花布,可通過(guò)加權(quán)值將基于閾值的分割算法及基于邊緣檢測(cè)的分割算法相結(jié)合來(lái)分割藍(lán)印花布紋樣[7]。
3.2 新型藍(lán)印花布圖像數(shù)據(jù)庫(kù)搜索空間樹(shù)構(gòu)造方法
新型藍(lán)印花布圖像數(shù)據(jù)庫(kù)搜索空間樹(shù)主要是將時(shí)間與傳統(tǒng)二叉樹(shù)相結(jié)合,以時(shí)間參數(shù)為主索引,構(gòu)造出一個(gè)二叉樹(shù)結(jié)構(gòu);隨后再在各個(gè)時(shí)間塊內(nèi),利用藍(lán)印花布識(shí)別比對(duì)值,構(gòu)造出一個(gè)基于藍(lán)印花布紋樣識(shí)別比對(duì)值的鏈表結(jié)構(gòu),從而在整體上形成一種空間二叉樹(shù)的結(jié)構(gòu)。其步驟示意如圖1所示。
檢索新的藍(lán)印花布紋樣時(shí),先進(jìn)行年代判斷,并通過(guò)查詢(xún)空間二叉樹(shù),確定其在空間二叉樹(shù)的大致位置,隨后產(chǎn)生一個(gè)新的紋樣識(shí)別比對(duì)值,并在該區(qū)域內(nèi)的藍(lán)印花布識(shí)別比對(duì)值鏈表中進(jìn)行查找,最終達(dá)到檢索的目的。
在藍(lán)印花布圖像數(shù)據(jù)庫(kù)搜索空間樹(shù)構(gòu)造建設(shè)過(guò)程中,隨著錄入紋樣的增多,通過(guò)與參照紋樣比對(duì)后產(chǎn)生的紋樣識(shí)別比對(duì)值也會(huì)越來(lái)越多,從而形成一個(gè)以參照紋樣比對(duì)值為起點(diǎn)的鏈表,該鏈表與參照紋樣比對(duì)值一起形成一個(gè)搜索空間二叉樹(shù)結(jié)構(gòu),每個(gè)空間樹(shù)結(jié)點(diǎn)下都有一個(gè)有序鏈表,若某段空間段內(nèi)比對(duì)結(jié)果較密,則該結(jié)點(diǎn)下鏈表長(zhǎng)度較長(zhǎng);反之,若一空間段內(nèi)比對(duì)結(jié)果值相對(duì)稀松,則該結(jié)點(diǎn)下鏈表長(zhǎng)度值較小。在藍(lán)印花布的發(fā)展過(guò)程中,藍(lán)印花布的紋樣數(shù)量、種類(lèi)不同,從而導(dǎo)致其參照的比對(duì)紋樣在數(shù)量上不同,進(jìn)一步造成其比對(duì)值分布密度不僅不同,而且是隨機(jī)變化的。而采用空間二叉樹(shù)則可根據(jù)藍(lán)印花布紋樣數(shù)量分布的密度,動(dòng)態(tài)調(diào)整鏈表的內(nèi)容。
因此,在建設(shè)藍(lán)印花布紋樣數(shù)據(jù)庫(kù)的過(guò)程中,藍(lán)印花布紋樣與標(biāo)準(zhǔn)紋樣比對(duì)結(jié)果的分布是不斷變化的,隨著數(shù)據(jù)庫(kù)建設(shè)的不斷推進(jìn),整個(gè)二叉樹(shù)中的結(jié)點(diǎn)會(huì)越來(lái)越多,有些結(jié)點(diǎn)上的鏈表數(shù)據(jù)豐富,而有些則會(huì)比較稀少,甚至出現(xiàn)空結(jié)點(diǎn)。此時(shí)就需要將比對(duì)結(jié)果密度較少的結(jié)點(diǎn)進(jìn)行合并,以節(jié)省內(nèi)存空間并提高查找效率。故對(duì)整個(gè)搜索空間樹(shù)來(lái)說(shuō),需要不斷調(diào)整該空間樹(shù)結(jié)構(gòu)并對(duì)其作出相應(yīng)評(píng)價(jià),以確定當(dāng)前二叉樹(shù)是否有調(diào)整的必要。
實(shí)踐表明,在藍(lán)印花布的發(fā)展過(guò)程中,藍(lán)印花布紋樣數(shù)量、種類(lèi)不同,從而導(dǎo)致其參照的比對(duì)紋樣在數(shù)量上不同,進(jìn)一步造成其比對(duì)值分布密度不僅不同,而且是隨機(jī)變化的。采用空間二叉樹(shù)則可根據(jù)藍(lán)印花布紋樣數(shù)量分布的密度,動(dòng)態(tài)調(diào)整索引表的內(nèi)容。當(dāng)然,可采用固定數(shù)目的標(biāo)準(zhǔn)紋樣在整個(gè)時(shí)間段內(nèi)將空間劃分成固定的幾塊數(shù)據(jù)區(qū)域,識(shí)別比對(duì)數(shù)值將落在固定的幾個(gè)區(qū)域內(nèi),形成一個(gè)靜態(tài)的二叉樹(shù)。
4 結(jié)語(yǔ)
大量的實(shí)驗(yàn)表明,在Java EE環(huán)境下利用OpenCV機(jī)器視覺(jué)庫(kù)函數(shù)對(duì)藍(lán)印花布圖像進(jìn)行一系列標(biāo)準(zhǔn)化處理后,再利用動(dòng)態(tài)的搜索空間樹(shù)實(shí)現(xiàn)藍(lán)印花布紋樣數(shù)據(jù)庫(kù)的搜索功能,不僅在時(shí)間效率上有顯著提高,而且在準(zhǔn)確性方面也取得了突破性的進(jìn)展。