蔣本天,李英梅
(哈爾濱師范大學(xué))
分布式數(shù)據(jù)庫(kù)環(huán)境一般包括兩個(gè)以上的地理遠(yuǎn)程地點(diǎn).相互聯(lián)系的地點(diǎn)不完全擁有軟硬件,而軟硬件涉及數(shù)據(jù)庫(kù)管理及應(yīng)用.分布式數(shù)據(jù)庫(kù)設(shè)計(jì)的步驟:先進(jìn)行全局概念設(shè)計(jì),進(jìn)而進(jìn)行局部概念設(shè)計(jì),分布式環(huán)境中局部概念設(shè)計(jì)對(duì)數(shù)據(jù)庫(kù)進(jìn)行分段.分布式設(shè)計(jì)決策決定如何進(jìn)行數(shù)據(jù)分段、復(fù)制和分配.該文中論述數(shù)據(jù)庫(kù)分段步驟,考慮了用輻射函數(shù)神經(jīng)元網(wǎng)絡(luò)的非線性算法和能自動(dòng)檢測(cè)最佳分段方法的隨機(jī)神經(jīng)元網(wǎng)絡(luò)來(lái)總結(jié)和選擇分段技術(shù).
已經(jīng)開(kāi)發(fā)了許多數(shù)據(jù)庫(kù)分段技術(shù)來(lái)物理的組織存儲(chǔ)器中數(shù)據(jù).每種技術(shù)都先將數(shù)據(jù)分組,然后將這些組分配到物理頁(yè)中,這些物理頁(yè)可分為六類:水平模塊、組水平模塊、單個(gè)垂直分片、物理垂直分片、組垂直分片和混合分片.水平分片用來(lái)為一個(gè)關(guān)系賦值為具有相同屬性的不同元組.單個(gè)垂直分片由關(guān)系和關(guān)鍵屬性貨源組標(biāo)識(shí)一列組成.垂直分片方法對(duì)于分布式數(shù)據(jù)庫(kù)中數(shù)據(jù)庫(kù)的設(shè)計(jì)和分析極其重要.物理垂直分片方法對(duì)固定大小的物理組進(jìn)行劃分.沒(méi)有數(shù)據(jù)庫(kù)管理系統(tǒng)使用這種方法.水平分片與垂直分片方法的結(jié)合稱之為混合分片方法.
隨機(jī)神經(jīng)元網(wǎng)絡(luò)是性質(zhì)相同的神經(jīng)元網(wǎng)絡(luò)的一種簡(jiǎn)單形式,以概率角度對(duì)它的特點(diǎn)進(jìn)行描述.我們研究的網(wǎng)絡(luò)以異步方式運(yùn)行,并以外部激勵(lì)形式接收環(huán)境的影響.用馬爾可夫過(guò)程對(duì)網(wǎng)絡(luò)的操作進(jìn)行描述,馬爾可夫過(guò)程穩(wěn)態(tài)解給出了網(wǎng)絡(luò)行為的幾個(gè)全局度量.
神經(jīng)元網(wǎng)絡(luò)及它的特殊分支——隨機(jī)神經(jīng)元網(wǎng)絡(luò)是在1989年定義的,在1990年對(duì)其進(jìn)行了擴(kuò)展和總結(jié).它的特色十分有趣.因?yàn)樵撃J降男盘?hào)像傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)的電壓尖峰而不是固定的值,它似乎更接近真正的生理物理神經(jīng)元網(wǎng)絡(luò).僅用一個(gè)計(jì)數(shù)器代表一個(gè)神經(jīng)元更容易進(jìn)行計(jì)算.因而硬件上是可實(shí)現(xiàn)的.
Poweu(1985)在解決實(shí)多變量插值問(wèn)題時(shí)首先引入了輻射基函數(shù).Broomhead和Lowe在設(shè)計(jì)神經(jīng)元網(wǎng)絡(luò)時(shí),首先使用了輻射基函數(shù).以最基本形式構(gòu)造輻射基函數(shù),涉及三個(gè)完全不同的層.第一層:由源結(jié)點(diǎn)組成的輸出入層,第二層為隱藏層,它的尺寸足夠大.輸出層根據(jù)輸入層的激活向量生成網(wǎng)絡(luò)的解.從輸入空間到隱藏單元空間的轉(zhuǎn)換是非線性的,而從隱藏層到輸出單元空間的轉(zhuǎn)換是線性的.若使隱藏單元空間的中心部分具有可適應(yīng)性,則減少隱藏層空間的尺寸是可能的.
我們可以下列參數(shù)作為神經(jīng)元網(wǎng)絡(luò)模型的輸入:
(1)存儲(chǔ)關(guān)系所需的物理負(fù)的負(fù)號(hào).
(2)重組織的代價(jià),重組關(guān)系的代價(jià)(從存儲(chǔ)器中刪除及重載入).
(3)從一個(gè)模式中刪除一個(gè)條目的代價(jià).(4)向模式中添加一個(gè)條目的代價(jià).
(5)訪問(wèn)條目的代價(jià).即從給定關(guān)系的所有記錄中刪除條目的代價(jià).
(6)重選一條記錄的代價(jià).即從給定關(guān)系中選擇一條記錄的代價(jià).
(7)向關(guān)系中加入一條新記錄的代價(jià).
(8)修改一條記錄的代價(jià).即修改一條給定記錄的某些私有條目的代價(jià).
算法1:靜態(tài)培訓(xùn)模型.為每種分段方法計(jì)算學(xué)習(xí)系數(shù),進(jìn)而進(jìn)行代價(jià)分析.學(xué)習(xí)處理過(guò)程之后,用學(xué)習(xí)系數(shù)為每個(gè)輸出入集計(jì)算輸出序列.每個(gè)輸入集代表一種不同的分段技術(shù).算法1稱為靜態(tài)培訓(xùn)模型,它包括常值矩陣.
算法2:動(dòng)態(tài)培訓(xùn)模型.沒(méi)使用糾錯(cuò)機(jī)制.因而算法1有錯(cuò)誤累積.可用糾錯(cuò)機(jī)制來(lái)評(píng)價(jià)算法2.算法1和算法2都使用了歐氏距離.但算法2包括去掉歐氏距離中的1/0元素的簡(jiǎn)單值.算法2根據(jù)常量矩陣自動(dòng)檢測(cè)哪些輸出參數(shù)依賴于輸出入?yún)?shù).對(duì)每種分段技術(shù)算法2首先使用評(píng)估向量W.
2.3隨機(jī)神經(jīng)元網(wǎng)絡(luò)算法
(1)將這個(gè)負(fù)值置0,在第k步因這個(gè)負(fù)值結(jié)束循環(huán),第k+1步將從該值的當(dāng)前值0開(kāi)始,按照這個(gè)值遵循同樣規(guī)則進(jìn)行循環(huán)操作.
(2)返回該變量的前一個(gè)值,用更小的n值進(jìn)行循環(huán).
一個(gè)分布式數(shù)據(jù)庫(kù)環(huán)境建立起來(lái)了,按照模型,我們先選擇輸入、輸出值,那么神經(jīng)元網(wǎng)絡(luò)模型得以培訓(xùn).權(quán)值常量向量W計(jì)算后,數(shù)據(jù)庫(kù)分段方法的總體代價(jià)值就優(yōu)化了.因而提出的神經(jīng)元網(wǎng)絡(luò)模型是獨(dú)立于平臺(tái)的方法.與分段技術(shù)所用的線性法不同,我們正在實(shí)現(xiàn)文獻(xiàn)中提到的第一個(gè)非線性方法.用這種方法對(duì)所獲得的權(quán)重的計(jì)算很精確,加之提供了與其它分段技術(shù)相比較的環(huán)境,人布式數(shù)據(jù)庫(kù)系統(tǒng)中數(shù)據(jù)庫(kù)的分段與分配所需的庫(kù)結(jié)構(gòu)獨(dú)立于平臺(tái),最重要的是,它獨(dú)立于數(shù)據(jù)庫(kù)模式.
每種分段技術(shù)對(duì)應(yīng)的神經(jīng)元網(wǎng)絡(luò)正在運(yùn)行,因此用得到的數(shù)據(jù)集來(lái)比較分段技術(shù).該模型的另一個(gè)優(yōu)點(diǎn)是,找出分段技術(shù)的參數(shù)據(jù)庫(kù)和輸出值來(lái)設(shè)計(jì)一定數(shù)目的數(shù)據(jù)庫(kù)模式之后,將得到與每種技術(shù)對(duì)應(yīng)的權(quán)值常量和權(quán)值向量.得到系統(tǒng)常量之后,在給數(shù)據(jù)庫(kù)模式分段的過(guò)程中,我們將訪問(wèn)該數(shù)據(jù)庫(kù)并僅從輸入?yún)?shù)和以前指定的權(quán)值直接得到輸出值.這是神經(jīng)元網(wǎng)絡(luò)的主要特色.
如果很精確地進(jìn)行系統(tǒng)測(cè)試并提供輸入輸出值,神經(jīng)無(wú)限制網(wǎng)絡(luò)算法將給出有效的總代價(jià)級(jí).下一部分將了解到輻射基函數(shù)網(wǎng)絡(luò)算法的計(jì)算速度很快,但一般來(lái)說(shuō),單向方法和水平方法的代價(jià)級(jí)相互重疊,隨機(jī)神經(jīng)元網(wǎng)絡(luò)的培訓(xùn)時(shí)間和輻射基函數(shù)神經(jīng)元網(wǎng)絡(luò)算法2的培訓(xùn)時(shí)間比輻射基函數(shù)神經(jīng)元網(wǎng)絡(luò)算法1的培訓(xùn)時(shí)間要長(zhǎng),但它又為分段選擇決策提供了無(wú)重疊輸出.
線性方法得不到我們要解決的問(wèn)題的真正的解.然而當(dāng)改變參數(shù)時(shí),線性方法不能決定哪種方法是最好的.因而,首先用輻射基函數(shù)神經(jīng)元網(wǎng)絡(luò)方法來(lái)培訓(xùn)一個(gè)網(wǎng)絡(luò),然后改變參數(shù)來(lái)對(duì)差別進(jìn)行跟蹤.針對(duì)這種方法,提出了兩個(gè)方法:靜態(tài)算法和動(dòng)態(tài)算法.
靜態(tài)輻射基函數(shù)神經(jīng)元網(wǎng)絡(luò)算法認(rèn)為特定的輸入值與唯一特定的輸出值有聯(lián)系.從而處理時(shí)間減少了,并提出了定義所涉及的具有不同特性的動(dòng)態(tài)算法.但這種方法也存在問(wèn)題,單向垂直分段方法的列訪問(wèn)參數(shù)與物理分段方法的更訪問(wèn)參數(shù)相同.取決于這些問(wèn)題,我們可以選擇水平分段方法或單向垂直分段方法進(jìn)行總代價(jià)函數(shù)的計(jì)算,提出了RNN方法和RBFNN算法來(lái)消除這個(gè)過(guò)載問(wèn)題.
隨機(jī)神經(jīng)元網(wǎng)絡(luò)方法和輻射神經(jīng)元網(wǎng)絡(luò)方法遵循同樣策略.首先,我們培訓(xùn)網(wǎng)絡(luò),然后用權(quán)值常量來(lái)測(cè)試輸入并考查結(jié)果.這種方法消除了過(guò)載的輸出值,因而不用計(jì)算總代價(jià)函數(shù)我們就能決定哪種分段方法是最好的.
設(shè)計(jì)分布式數(shù)據(jù)庫(kù)系統(tǒng)所要考慮的第一特色是用最小代價(jià)把中心數(shù)據(jù)庫(kù)劃分為了數(shù)據(jù)庫(kù).以上我們力圖解釋的操作及方法是借助可培訓(xùn)的神經(jīng)元網(wǎng)絡(luò)模型,用權(quán)值常量而不是對(duì)系統(tǒng)中的所有表和關(guān)系進(jìn)行分段測(cè)試,可計(jì)算結(jié)果.因此,培訓(xùn)完神經(jīng)元網(wǎng)絡(luò)之后確定使用哪種分段技術(shù)就變得很簡(jiǎn)單了.
[1] Ceri S,Pelagatti G.Distributed Databases Principles and Systems,McGraw Hill,1986.
[2] Tamhankar A,Ram M S.Database agmentation and Allocation:An Integrated Methodology and Case Study,IEEE Transactions On Systems,Man,and Cybernetics,1998,28(3):288-305.
[3] Adem Karahoca.Random Neural Network Approach in Distributed Database Management Systems,2002.