基于深度生成模型的聚合查詢區(qū)間估計(jì)方法

2023-11-18 03:33:04薛曉東周云亮

計(jì)算機(jī)工程 2023年11期

房俊，薛曉東，周云亮

（1.北方工業(yè)大學(xué) 信息學(xué)院，北京 100144；2.大規(guī)模流數(shù)據(jù)集成與分析技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室，北京 100144）

0 概述

當(dāng)前，用戶希望通過對(duì)大數(shù)據(jù)的分析處理來發(fā)掘潛藏在數(shù)據(jù)間的關(guān)系，以獲得更多有價(jià)值的信息。但是，由于數(shù)據(jù)量大的特性，傳統(tǒng)的精確査詢方法難以滿足用戶在訪問效率上的需求。此外，部分用戶所提出的分析需求可以理解為目的性不夠明確的探索式査詢，其特點(diǎn)是用戶對(duì)結(jié)果準(zhǔn)確性的要求并非十分嚴(yán)格，更在意查詢速度是否足夠快。近似查詢處理（Approximate Query Processing，AQP）技術(shù)通常以遠(yuǎn)小于精確查詢的查詢代價(jià)為用戶提供近似答案，往往允許用戶在準(zhǔn)確性和查詢執(zhí)行速度之間進(jìn)行權(quán)衡。在數(shù)據(jù)探索式和可視化分析等應(yīng)用中，這種權(quán)衡不僅可以接受，而且通常是有必要的。

目前，已經(jīng)有不少學(xué)者對(duì)AQP 相關(guān)技術(shù)進(jìn)行了研究，不同的方法在查詢準(zhǔn)確性、響應(yīng)時(shí)間、空間預(yù)算和所支持的查詢［1-2］之間進(jìn)行了不同的權(quán)衡，要綜合考慮這些方面來達(dá)成一個(gè)令人滿意的方法仍然是一個(gè)挑戰(zhàn)?；诔闃拥腁QP 是應(yīng)用最廣泛的近似查詢處理方法之一，主要分為離線抽樣和在線抽樣兩種。離線抽樣意味著在查詢開始執(zhí)行之前創(chuàng)建樣本。均勻抽樣以等概率選擇每個(gè)數(shù)據(jù)作為樣本，雖然做法簡(jiǎn)單，但是在面對(duì)查詢答案涉及多個(gè)值的分組查詢時(shí)，隨機(jī)抽樣的方法很難為所有組提供足夠準(zhǔn)確的估計(jì)。分層抽樣［3-4］是提高抽樣精度的一種方法，它以不同的概率從每一組中進(jìn)行抽樣，但是分層抽樣通常依賴于一些先驗(yàn)知識(shí)，如樣本分布等。在線抽樣［1］是在查詢出現(xiàn)后動(dòng)態(tài)創(chuàng)建樣本，可以為給定的查詢謂詞選擇足夠的樣本，從而提高精度。但是，在線抽樣的缺點(diǎn)也很明顯，查詢時(shí)抽樣意味著需要經(jīng)常訪問原始數(shù)據(jù)集，會(huì)導(dǎo)致較高的查詢時(shí)延，這在交互分析中是不可接受的［5］。

隨著人工智能技術(shù)的發(fā)展，模型驅(qū)動(dòng)的AQP 方法近年來受到了更多的關(guān)注，研究人員將數(shù)據(jù)查詢處理和優(yōu)化技術(shù)與人工智能中的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)相融合［6］，取得了一定的研究成果：一類研究通過生成模型來生成數(shù)據(jù)樣本，再基于樣本進(jìn)行近似查詢處理，相比于抽樣方法，其生成樣本速度較快，且在查詢準(zhǔn)確性、普適性上具有一定優(yōu)勢(shì)；另一類研究直接使用機(jī)器學(xué)習(xí)模型快速預(yù)測(cè)查詢結(jié)果，這類近似查詢方法雖然可以取得令人滿意的時(shí)間性能，但是查詢結(jié)果的誤差評(píng)價(jià)缺乏理論保障。

現(xiàn)有的模型驅(qū)動(dòng)方法多數(shù)以一個(gè)估計(jì)值來回答查詢，從數(shù)理統(tǒng)計(jì)的角度來講，這種點(diǎn)估計(jì)的方法產(chǎn)生的結(jié)果總是會(huì)存在誤差，在面向某些不穩(wěn)定的生成模型［如生成對(duì)抗網(wǎng)絡(luò)（Generative Adversarial Network，GAN）模型［7］］時(shí)，這種問題尤為明顯。區(qū)間估計(jì)可以在一定程度上判斷總體估計(jì)量的取值范圍，相應(yīng)地會(huì)提高精度。不僅如此，在一些數(shù)據(jù)分析的實(shí)際業(yè)務(wù)場(chǎng)景中，研究人員對(duì)于某個(gè)總體估計(jì)量的取值范圍更感興趣，相比于單一值的點(diǎn)估計(jì)，采用置信區(qū)間作為返回值可以獲得更多的數(shù)據(jù)分布特征。例如，將基于隨機(jī)抽樣方法得到的樣本數(shù)據(jù)［｛“id”：1；“pm25”：129｝，｛“id”：2；“pm25”：138｝，｛“id”：3；“pm25”：140｝，｛“id”：4；“pm25”：90｝］記為表T，針對(duì)查詢“select avg（pm25）from T”（實(shí)際值是98.61），其點(diǎn)估計(jì)結(jié)果是124.25，使用區(qū)間估計(jì)方法Bootstrap［1］的計(jì)算結(jié)果是［104.2-7.04，104.2+7.04］（置信度是90%），可以看出區(qū)間估計(jì)方法的估計(jì)值更接近實(shí)際值。

以中心極限定理及Bootstrap 方法為代表的相關(guān)技術(shù)為基于抽樣的近似查詢結(jié)果提供了誤差范圍保障。GAN 模型可快速生成多個(gè)樣本，但是這些樣本不滿足中心極限定理的前提要求，一個(gè)猜想是是否可以通過多個(gè)樣本查詢結(jié)果來生成一個(gè)相對(duì)可靠的區(qū)間結(jié)果？此時(shí)，多個(gè)樣本查詢可能帶來更大的查詢時(shí)延，這也是Bootstrap 方法很少實(shí)際應(yīng)用于AQP系統(tǒng)的主要原因。本文認(rèn)為，當(dāng)前分布式處理技術(shù)飛速發(fā)展，將相關(guān)技術(shù)引入AQP 系統(tǒng)中，有助于緩解上述性能問題?；谠撍悸罚疚奶岢鲆环N基于深度生成模型的聚合查詢區(qū)間估計(jì)方法，目的是為給定查詢生成足夠樣本以提高估計(jì)精度。首先利用深度生成模型學(xué)習(xí)數(shù)據(jù)分布特征，然后利用訓(xùn)練好的模型快速生成多個(gè)樣本，隨后通過基于抽樣的AQP 方法為給定的查詢?nèi)蝿?wù)計(jì)算估計(jì)值，最后計(jì)算相應(yīng)的置信區(qū)間并返回給用戶。

1 相關(guān)工作

近似查詢處理的主要目標(biāo)是高效地找到與精確答案接近的近似答案，多年來一直是數(shù)據(jù)管理領(lǐng)域研究的熱點(diǎn)問題。基于抽樣的AQP 方法由于效率和普遍性方面的優(yōu)勢(shì)而得到廣泛的研究和應(yīng)用。基于少量樣本的查詢響應(yīng)速度很快，但是降低了準(zhǔn)確性。很多研究人員都在尋找合適的樣本，以期在不降低查詢速度的情況下提高查詢精度。隨機(jī)抽樣的查詢方法的主要缺點(diǎn)是查詢精度會(huì)隨著聚合屬性值方差的增大而降低，即隨機(jī)抽樣不能為具有高傾斜分布的數(shù)據(jù)集提供足夠準(zhǔn)確的估計(jì)。分層抽樣是解決這一問題的一種方法，分層抽樣雖然可以提高精度，但是通常需要一些有關(guān)數(shù)據(jù)分布的知識(shí)。國(guó)會(huì)抽樣［3］是一種經(jīng)典的分層抽樣方法，其將每個(gè)組在總體中所占的頻數(shù)作為依據(jù)，把原始數(shù)據(jù)分為若干組，在總體樣本量確定的情況下，在不同組中利用隨機(jī)抽樣方法得到一定量的分樣本，最后由分樣本組成總體樣本。CVOPT［4］是一種新的分層抽樣方法，它根據(jù)變異系數(shù)分配各組的樣本量。在線抽樣［8-9］是AQP 的另一種方式，它以不斷迭代的方式獲得更多的樣本，以提高估計(jì)精度，但是在線抽樣需要在查詢時(shí)抽取樣本，會(huì)造成較高的查詢時(shí)延。

有一些預(yù)計(jì)算的方法在執(zhí)行查詢之前根據(jù)查詢工作負(fù)載計(jì)算直方圖［10］、小波［11］、數(shù)據(jù)立方體等概要，從而快速獲取聚合查詢結(jié)果，但是這些方法不能支持通用的查詢。此外，還有一些將抽樣與預(yù)計(jì)算相融合的AQP 技術(shù)，如文獻(xiàn)［12］提出了聯(lián)合基于預(yù)計(jì)算的數(shù)據(jù)立方體和基于抽樣的AQP 的AQP++技術(shù)，從而估計(jì)查詢結(jié)果。

近年來，機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于數(shù)據(jù)處理和數(shù)據(jù)分析領(lǐng)域，有一些新的AQP 方法采用了機(jī)器學(xué)習(xí)技術(shù)。DBEst［13］是一種基于模型預(yù)測(cè)的AQP方法，它根據(jù)數(shù)據(jù)樣本建立概率密度模型和回歸模型，然后使用模型來直接回答查詢。但是，對(duì)于分組查詢，DBEst 需要為每個(gè)分組都構(gòu)建一個(gè)模型，這將大幅增加模型訓(xùn)練和存儲(chǔ)成本。文獻(xiàn)［14］對(duì)DBEst 進(jìn)行拓展，基于單詞嵌入模型與神經(jīng)網(wǎng)絡(luò)的混合架構(gòu)，使用輕量級(jí)模型降低了內(nèi)存的占用率。LAQP［15］是一個(gè)融合基于抽樣的AQP、預(yù)計(jì)算方法和機(jī)器學(xué)習(xí)的AQP 方法，其通過一個(gè)小的離線樣本來獲得較高精度的查詢估計(jì)值。使用機(jī)器學(xué)習(xí)方法來獲得近似查詢結(jié)果的主要問題是目前還無法像基于抽樣的AQP 方法那樣提供誤差保障。

還有一些基于模型樣本的查詢方法致力于使用深度生成模型來學(xué)習(xí)數(shù)據(jù)分布，通過模型生成樣本然后回答查詢。文獻(xiàn)［16-17］提出一種使用深度生成模型學(xué)習(xí)數(shù)據(jù)分布并通過訓(xùn)練好的模型來生成樣本以近似回答查詢的方法，雖然該方法減少了查詢延遲，但是仍然會(huì)受到抽樣誤差的影響。文獻(xiàn)［18］訓(xùn)練一個(gè)基于工作負(fù)載的模型，該模型捕獲數(shù)據(jù)的聯(lián)合概率分布并反映其關(guān)鍵特征，也支持直接更新，即模型可以識(shí)別數(shù)據(jù)庫(kù)上的操作類型，無需重新訓(xùn)練模型。

在大多數(shù)抽樣估計(jì)方法中，置信區(qū)間被廣泛用于評(píng)價(jià)近似查詢的估計(jì)結(jié)果［19］，通常根據(jù)用戶給定的置信度計(jì)算一個(gè)相應(yīng)的置信區(qū)間。如果數(shù)據(jù)集的數(shù)據(jù)分布是已知的，或者有一個(gè)足夠大的樣本來得到數(shù)據(jù)分布，則上述過程轉(zhuǎn)變?yōu)橐粋€(gè)經(jīng)典的統(tǒng)計(jì)問題——參數(shù)估計(jì)。以計(jì)算一個(gè)正態(tài)分布上的某一屬性均值為例，如果已知正態(tài)分布的方差，則可以很容易地使用高斯分布模型N（μ，σ2）來計(jì)算置信區(qū)間。如果方差是未知的，可以將其形式化為T 分布。如果數(shù)據(jù)分布是未知的，則可以通過Bootstrap 和Closed-form Estimate［20］兩種方法。Bootstrap 旨在獲得多個(gè)樣本，對(duì)于每個(gè)樣本S，可以計(jì)算出一個(gè)估計(jì)值，由這些值組成的分布可用于估計(jì)總體聚合結(jié)果的值。Bootstrap 對(duì)數(shù)據(jù)分布沒有限制，適用于大多數(shù)查詢，但是大多數(shù)Bootstrap 方法需要數(shù)千次重采樣，而重采樣過程非常耗時(shí)，因此Bootstrap 在實(shí)際應(yīng)用中很受限制。Closed-form Estimate 方法以正態(tài)分布N（θ（S），σ2）來近似抽樣分布，并通過樣本的特殊封閉函數(shù)Var（S）估計(jì)方差σ2，利用中心極限定理可以證明這種近似的合理性。然而，Closed-form Estimate 方法只能適用于COUNT、SUM、AVG 這類比較容易計(jì)算方差的查詢。

2 方法介紹

如圖1 所示，本文基于深度生成模型的聚合查詢區(qū)間估計(jì)方法主要分為3 個(gè)階段：利用預(yù)處理后的數(shù)據(jù)訓(xùn)練深度生成模型，經(jīng)過多次迭代訓(xùn)練后得到可靠的數(shù)據(jù)生成模型；基于該模型生成多個(gè)數(shù)據(jù)樣本，等待用戶查詢；用戶查詢到來后在不同樣本上分別執(zhí)行查詢，將全部查詢結(jié)果匯總，根據(jù)用戶給定的置信水平計(jì)算相應(yīng)的查詢結(jié)果置信區(qū)間并返回給用戶。

圖1 近似查詢方法執(zhí)行過程Fig.1 The execution process of approximate query method

2.1 CWGAN-GP 模型訓(xùn)練

在模型訓(xùn)練階段，本文使用深度生成模型CWGAN-GP 來生成樣本，CWGAN-GP 是WGANGP［21］和條件生成對(duì)抗網(wǎng)絡(luò)（Conditional Generative Adversarial Network，CGAN）［22］的組合網(wǎng)絡(luò)。

GAN 模型的核心思想是用訓(xùn)練神經(jīng)網(wǎng)絡(luò)來代替對(duì)似然函數(shù)的求解，利用生成器和判別器之間的對(duì)抗學(xué)習(xí)來不斷優(yōu)化模型的參數(shù)，利用這種方法規(guī)避求解似然函數(shù)的問題。但是，GAN 模型還存在一些問題，如模型難以訓(xùn)練等。WGAN（Wasserstein GAN）［23］從原理上說明了GAN 模型存在的缺陷，提出用Wasserstein 距離替代KL 散度和JS 散度，優(yōu)化了生成器和判別器的目標(biāo)函數(shù)，因此，在很大程度上緩解了原始GAN 模型存在的一些問題。但是，WGAN 在訓(xùn)練過程中常會(huì)出現(xiàn)收斂速度慢、梯度爆炸等現(xiàn)象。WGAN-GP 將判別器的梯度作為正則項(xiàng)加入判別器的目標(biāo)函數(shù)中，該正則項(xiàng)通過梯度懲罰使判別器梯度在充分訓(xùn)練后穩(wěn)定在Lipschitz 常數(shù)附近。經(jīng)過優(yōu)化，WGAN-GP 幾乎不再出現(xiàn)梯度消失或梯度爆炸的問題，在很大程度上提高了模型收斂速度。CGAN 模型是GAN 模型的擴(kuò)展，它向GAN的生成器和判別器添加條件設(shè)置，可以在給定條件下生成相應(yīng)的數(shù)據(jù)。

CWGAN-GP 模型訓(xùn)練過程如圖2 所示，將真實(shí)數(shù)據(jù)x及其對(duì)應(yīng)的標(biāo)簽y提供給模型，訓(xùn)練生成器G和判別器D。首先固定G，訓(xùn)練D，這是一個(gè)二分類問題，即給定一個(gè)樣本，訓(xùn)練D 判斷其是真樣本還是由G 生成的假樣本；之后固定D，訓(xùn)練G，給G 一個(gè)隨機(jī)輸入，損失函數(shù)是D 的輸出結(jié)果，根據(jù)損失函數(shù)對(duì)G 的參數(shù)進(jìn)行更新。重復(fù)上述2 個(gè)過程，經(jīng)過多次訓(xùn)練后，生成器與判別器達(dá)到納什均衡就停止，此時(shí)生成器可以為給定的標(biāo)簽生成一個(gè)與真實(shí)樣本x相似的樣本x′。

圖2 CWGAN-GP 模型訓(xùn)練過程Fig.2 Training process of CWGAN-GP model

在模型訓(xùn)練前需要標(biāo)記數(shù)據(jù)，為使模型能夠?yàn)榻o定的組生成樣本，本文用組屬性值來標(biāo)記數(shù)據(jù)，編碼的分組屬性值將被視為訓(xùn)練數(shù)據(jù)的標(biāo)簽。一些研究人員［16-17］使用One-Hot 編碼方法來實(shí)現(xiàn)，假設(shè)屬性A有3 個(gè)取值｛A1，A2，A3｝，One-Hot 編碼為A1=001，A2=010，A3=100。如果屬性域取值較多，這種方法會(huì)導(dǎo)致2 個(gè)主要問題：編碼后的向量可能非常稀疏，導(dǎo)致性能較差［24］；提高了模型學(xué)習(xí)的參數(shù)量，增加了模型的訓(xùn)練時(shí)間。針對(duì)這些問題，本文使用Binary-Encoding來降低編碼維度，同時(shí)使得編碼后的向量更加稠密。上述例子使用Binary-Encoding編碼后，只需要二維向量（「lb 3?=2），編碼結(jié)果為A1=00，A2=01，A3=10。

2.2 多樣本生成

如圖3 所示，基于大規(guī)模并行處理（Massively Parallel Processing，MPP）［25-26］架構(gòu)快速生成多份樣本，該架構(gòu)包括Master和Segment兩類服務(wù)器節(jié)點(diǎn)。

圖3 基于MPP 的多樣本生成與近似聚合查詢Fig.3 Multi sample generation and approximate aggregation query based on MPP

Master 節(jié)點(diǎn)主要負(fù)責(zé)：

1）將第2.1 節(jié)的CWGAN-GP 生成模型復(fù)制到Segment 節(jié)點(diǎn)的模型存儲(chǔ)庫(kù)中，其中，mID 是模型主鍵，modelContent 是模型內(nèi)容。

2）維護(hù)聚合查詢的生成模型映射元數(shù)據(jù)，其中，qPattern 是聚合查詢模板。

3）接收Client的多樣本生成請(qǐng)求（qPattern，n，m），其中，n為生成的樣本份數(shù)，m為每份樣本的數(shù)據(jù)量。形成分布式生成樣本的任務(wù)請(qǐng)求（mID，ni，m）并分配給Segment 節(jié)點(diǎn)，其中，mID 是qPattern 對(duì)應(yīng)的模型主鍵，ni是第i個(gè)Segment節(jié)點(diǎn)需要生成的樣本個(gè)數(shù)，ni根據(jù)Segment節(jié)點(diǎn)數(shù)量采用均衡策略生成。

Segment 節(jié)點(diǎn)主要負(fù)責(zé)：

1）接收并存儲(chǔ)數(shù)據(jù)生成模型。

2）接收Master節(jié)點(diǎn)的生成樣本請(qǐng)求（mID，ni，m），使用相應(yīng)的CWGAN-GP 生成模型生成樣本。

為了能夠有效利用物理資源，每個(gè)多核Segment節(jié)點(diǎn)可并行執(zhí)行多個(gè)任務(wù)實(shí)例。在每個(gè)Segment 節(jié)點(diǎn)上開啟多個(gè)進(jìn)程，并行生成樣本，之后將樣本放到Segment 節(jié)點(diǎn)的樣本內(nèi)存區(qū)域。

分組查詢的結(jié)果涉及多個(gè)值，隨機(jī)抽樣方法很難為所有組提供足夠準(zhǔn)確的估計(jì)。為提高準(zhǔn)確性，本文選擇用分層抽樣的方法獲取每份樣本，算法1描述了使用生成器G 生成樣本的過程。根據(jù)數(shù)據(jù)集中各分組屬性在總體中所占的比例來計(jì)算樣本中每組的個(gè) 數(shù)NSamplesize。Random（z，NSamplesize）表示產(chǎn) 生NSamplesize個(gè)隨機(jī)噪聲，將其作為模型的輸入。Repeat(Binary-Encoding(i),NSamplesize)表示重復(fù)得到NSamplesize個(gè)經(jīng)過Binary-Encoding 編碼的標(biāo)簽數(shù)據(jù)，作為模型的輸入。

算法1模型生成樣本的過程

2.3 聚合查詢區(qū)間估計(jì)

聚合查詢區(qū)間估計(jì)階段仍然基于圖3 的MPP 架構(gòu)來完成。由Master 節(jié)點(diǎn)將聚合查詢?nèi)蝿?wù)并行分發(fā)到各個(gè)Segment 處理節(jié)點(diǎn)，每個(gè)處理節(jié)點(diǎn)開啟多個(gè)進(jìn)程，每個(gè)進(jìn)程負(fù)責(zé)完成一個(gè)查詢子任務(wù)，生成一個(gè)近似查詢結(jié)果，并回傳給Master 節(jié)點(diǎn)。在每個(gè)節(jié)點(diǎn)都完成查詢?nèi)蝿?wù)后，Master 節(jié)點(diǎn)將n個(gè)近似查詢結(jié)果匯總并計(jì)算得到最終的結(jié)果。借助中心極限定理，以正態(tài)近似的方式來計(jì)算置信區(qū)間，最終得置信區(qū)間為其中：Mean（S）表示n份樣本集上聚合結(jié)果的均值；Var（S）是聚合結(jié)果的方差；a是用戶給定的置信水平為分位數(shù)。

3 實(shí)驗(yàn)驗(yàn)證

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)中的查詢?nèi)蝿?wù)是在集群上完成的，集群由6 臺(tái)同配置服務(wù)器組成，配置如表1 所示。其中，1 臺(tái)服務(wù)器用于模型訓(xùn)練及Master 節(jié)點(diǎn)，其余5 臺(tái)服務(wù)器作為Segment 節(jié)點(diǎn)用于樣本生成和查詢處理。為了充分利用物理資源，每個(gè)多核Segment節(jié)點(diǎn)可并行執(zhí)行多個(gè)任務(wù)實(shí)例，在本次實(shí)驗(yàn)中，每臺(tái)服務(wù)器設(shè)置16 個(gè)進(jìn)程。

表1 實(shí)驗(yàn)環(huán)境Table 1 Experimental environment

3.2 實(shí)驗(yàn)數(shù)據(jù)

本文分別在如下2 個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)：

1）PM2.5［13］數(shù)據(jù)集，包含了美國(guó)駐北京大使館的pm25 數(shù)據(jù)信息，同時(shí)還包括了北京首都國(guó)際機(jī)場(chǎng)的氣象數(shù)據(jù)，共43 824 條數(shù)據(jù)。在對(duì)PM2.5 數(shù)據(jù)集的聚合查詢中，聚合值屬性是“pm25”，且每個(gè)謂詞只涉及一個(gè)屬性“PREC”，其余部分屬性如表2所示。

表2 PM2.5 數(shù)據(jù)Table 2 PM2.5 data

2）ROAD［16］數(shù)據(jù)集，這是一個(gè)為道路網(wǎng)絡(luò)添加海拔信息而建造的數(shù)據(jù)集，共包含434 874 條數(shù)據(jù)。ROAD 數(shù)據(jù)集有“Longitude”“Latitude”和“Elevation”3 個(gè)屬性。本文在ROAD 數(shù)據(jù)集上添加一個(gè)按組排列的屬性“GroupID”，并將“Latitude”的取值范圍劃分為10 個(gè)相等的子范圍，每條數(shù)據(jù)添加的組屬性值是其所屬子范圍的索引。修改后的數(shù)據(jù)集有4 個(gè)屬性，如表3 所示。

表3 ROAD 數(shù)據(jù)Table 3 ROAD data

本文實(shí)驗(yàn)用到的查詢包括帶謂詞的查詢以及分組查詢，聚合函數(shù)有COUNT、AVG。部分查詢語句如表4 所示。

表4 查詢語句Table 4 Query statements

3.3 評(píng)價(jià)指標(biāo)

本文采用置信區(qū)間的覆蓋率（Confidence Interval Coverage，CIC）來衡量查詢估計(jì)的準(zhǔn)確性。CIC 是利用本文方法計(jì)算置信區(qū)間后統(tǒng)計(jì)給定查詢的實(shí)際值落在置信區(qū)間中的比例，計(jì)算公式如下：

其中：Result 是在原始數(shù)據(jù)集上執(zhí)行查詢的結(jié)果集；truei表示第i組的真實(shí)聚合值，是集合Result 中的元素；Interval 為計(jì)算的置信區(qū)間；d（x，y）是一個(gè)判別函數(shù)，若實(shí)際值x落在置信區(qū)間y中，則取值為1，否則取值為0。

為了對(duì)比不同置信區(qū)間的計(jì)算結(jié)果，將CIC 進(jìn)行歸一化，即計(jì)算CIC 與相應(yīng)置信度a的比值，如式（2）所示：

3.4 結(jié)果分析

本文生成模型CWGAN-GP 的生成器有4 個(gè)全連接的隱藏層，每層中神經(jīng)元的數(shù)量分別為512、256、128、64 個(gè)。判別器有3 個(gè)全連接的隱藏層，每層中神經(jīng)元的數(shù)量分別為512、256、128 個(gè)。將優(yōu)化器設(shè)置為RMSprop，設(shè)置RMSprop 的參數(shù)為（lr=0.000 05，rho=0.95）。在計(jì)算置信區(qū)間時(shí)，增加每份樣本集的數(shù)量會(huì)對(duì)計(jì)算結(jié)果產(chǎn)生影響，但同時(shí)也需要考慮性能，在本節(jié)實(shí)驗(yàn)中會(huì)比較不同樣本集數(shù)量下的結(jié)果，從而選擇合適的取值。設(shè)置抽樣輪次r=103，實(shí)驗(yàn)結(jié)果均為經(jīng)過多次實(shí)驗(yàn)后所得。

3.4.1 深度生成模型的抽樣效率

本次實(shí)驗(yàn)基于ROAD 數(shù)據(jù)集，比較利用模型生成樣本和利用隨機(jī)抽樣方法生成樣本所耗費(fèi)的時(shí)間。為了比較不同數(shù)據(jù)規(guī)模下的抽樣效率，首先利用ROAD 數(shù)據(jù)集生成大小依次為1×106、10×106、50×106、100×106、200×106的5 個(gè)實(shí)驗(yàn)數(shù)據(jù)集，再分別從這5 個(gè)實(shí)驗(yàn)數(shù)據(jù)集中利用隨機(jī)抽樣方法抽取1 000 個(gè)數(shù)據(jù)作為生成樣本，實(shí)驗(yàn)結(jié)果如圖4 所示。從圖4 可以看出，利用模型生成樣本所需的時(shí)間小于隨機(jī)抽樣方法，且前者所需的時(shí)間與數(shù)據(jù)集大小無關(guān)。隨機(jī)抽樣方法的抽樣時(shí)間與數(shù)據(jù)集大小呈線性相關(guān)，隨著數(shù)據(jù)集的增大而不斷增加?？梢?，利用模型生成樣本的方法對(duì)于大數(shù)據(jù)集將更加有效。

圖4 數(shù)據(jù)集大小對(duì)抽樣時(shí)間的影響Fig.4 The impact of dataset size on sampling time

3.4.2 深度生成模型的抽樣效果

本次實(shí)驗(yàn)將在ROAD 和PM2.5 數(shù)據(jù)集上分別對(duì)生成樣本和隨機(jī)樣本的分布進(jìn)行可視化。從每個(gè)數(shù)據(jù)集中選擇1 000 個(gè)隨機(jī)樣本，同樣地，利用模型也生成1 000 個(gè)樣本。為了更加準(zhǔn)確地表示數(shù)據(jù)集的數(shù)據(jù)分布，以分層抽樣的方法獲得隨機(jī)樣本，即根據(jù)數(shù)據(jù)集中不同分組中的元組數(shù)量來分配樣本集中這一分組的數(shù)量。圖5 分別顯示了在2 個(gè)數(shù)據(jù)集中隨機(jī)樣本和生成樣本的分布情況。從圖5 可以看出，生成樣本和真實(shí)樣本的分布在視覺上比較相似，即由模型生成的樣本數(shù)據(jù)比較接近數(shù)據(jù)集中的真實(shí)數(shù)據(jù)，因此，可以由模型生成的樣本來代替從數(shù)據(jù)集中抽樣獲得的樣本。

圖5 樣本分布對(duì)比Fig.5 Sample distribution comparison

3.4.3 置信區(qū)間的覆蓋率

通過改變查詢謂詞范圍生成查詢數(shù)量分別為100、200、300、400、500 個(gè)的任務(wù)集。利用本文方法計(jì)算置信度分別為80%、85%、90%、95%的置信區(qū)間，在2 個(gè)數(shù)據(jù)集上對(duì)比計(jì)算所得歸一化的置信區(qū)間覆蓋率（NCIC），結(jié)果如圖6 所示。由圖6 可知，由本文方法得到的查詢結(jié)果計(jì)算的NCIC 均可達(dá)85%以上，其中有48.25%的任務(wù)集計(jì)算的NCIC 在95%以上，這表明區(qū)間估計(jì)結(jié)果具有較高的精度，而且在不同數(shù)據(jù)集、面對(duì)不同查詢?nèi)蝿?wù)時(shí)均有較好的表現(xiàn)，可移植性高。

圖6 歸一化的置信區(qū)間覆蓋率對(duì)比Fig.6 Comparison of NCIC

3.4.4 查詢時(shí)間對(duì)比

將本文方法與第1 節(jié)中提到的幾種常見查詢方法進(jìn)行對(duì)比，包括隨機(jī)抽樣的查詢方法、基于模型樣本的查詢方法、基于模型預(yù)測(cè)的查詢方法，分析各方法執(zhí)行查詢所需的時(shí)間。其中，基于模型樣本與基于隨機(jī)抽樣的查詢方法的時(shí)間相同，因此沒有列出基于模型樣本的方法的結(jié)果。在PM2.5 數(shù)據(jù)集上，生成抽樣比分別為5%、10%、15%、20%、25%、30%的樣本，對(duì)比執(zhí)行查詢所需的時(shí)間，在接下來的實(shí)驗(yàn)中，未加特別說明時(shí)均計(jì)算置信度為90%的置信區(qū)間，實(shí)驗(yàn)結(jié)果如圖7 所示。由圖7 可知，本文方法在查詢時(shí)間上開銷大于基準(zhǔn)方法，主要原因是本文方法涉及在多份樣本上執(zhí)行查詢，之后還需要匯總查詢結(jié)果生成區(qū)間結(jié)果，這一過程比較耗時(shí)，但從整體來看，秒級(jí)時(shí)間開銷對(duì)于常規(guī)應(yīng)用還是能夠接受的。

圖7 查詢時(shí)間對(duì)比Fig.7 Query time comparison

3.4.5 樣本量對(duì)查詢結(jié)果的影響

設(shè)置300 個(gè)聚合函數(shù)為COUNT 的查詢來比較不同樣本量對(duì)查詢結(jié)果的影響。本文主要考慮執(zhí)行查詢所需時(shí)間和置信區(qū)間的覆蓋率CIC，結(jié)果如圖8所示。

圖8 樣本量對(duì)查詢結(jié)果的影響Fig.8 The impact of sample size on query results

由圖8 可以看出，隨著樣本量的增加，查詢的執(zhí)行時(shí)間不斷增加，而置信區(qū)間的覆蓋率增長(zhǎng)率逐漸減少，即曲線逐漸變得平穩(wěn)。綜合比較來看，對(duì)于ROAD 數(shù)據(jù)集，本文選擇樣本量n=100，對(duì)于PM2.5數(shù)據(jù)集，選擇n=80。

3.4.6 查詢選擇性對(duì)查詢結(jié)果的影響

在ROAD 和PM2.5 數(shù)據(jù)集上分別測(cè)試查詢選擇性對(duì)查詢結(jié)果的影響，設(shè)置300 個(gè)聚合函數(shù)為COUNT 且選擇性低于0.03 的查詢，對(duì)比隨機(jī)樣本與生成樣本的置信區(qū)間覆蓋率，結(jié)果如圖9 所示。

圖9 查詢選擇性對(duì)結(jié)果的影響Fig.9 The impact of query selectivity on results

從圖9 可以看出，對(duì)于隨機(jī)樣本和生成樣本，置信區(qū)間覆蓋率都隨著查詢選擇性的增加而增加，并且基于生成樣本的估計(jì)更加準(zhǔn)確。其原因是：與從整個(gè)數(shù)據(jù)集中選擇的隨機(jī)樣本相比，生成樣本所包含的滿足查詢謂詞的樣本比例更高。本實(shí)驗(yàn)中的查詢是低選擇性的查詢，這意味著從整個(gè)數(shù)據(jù)集中選擇的大多數(shù)樣本不滿足查詢謂詞，只有一小部分樣本對(duì)估計(jì)有貢獻(xiàn)，這導(dǎo)致隨機(jī)樣本的精度較低。由于生成模型可以靈活地生成某些子范圍的樣本，因此可以獲得更多的樣本，有助于提高估計(jì)精度。

4 結(jié)束語

本文提出一種基于深度生成模型的聚合查詢區(qū)間估計(jì)方法。該方法在不訪問原始數(shù)據(jù)集的條件下，利用CWGAN-GP 模型為給定的查詢并行生成多個(gè)近似樣本，通過多個(gè)樣本查詢結(jié)果聚合生成相對(duì)可靠的區(qū)間查詢結(jié)果。實(shí)驗(yàn)結(jié)果表明，相比于常見的點(diǎn)估計(jì)近似查詢方法，該方法不僅提高了近似查詢估計(jì)的精度，也能夠降低查詢誤差。此外，該方法還可以根據(jù)不同的優(yōu)化目標(biāo)與多種抽樣方法相結(jié)合。雖然本文方法取得了較好的結(jié)果，但是生成大量的樣本客觀上也增加了時(shí)間開銷，因此，下一步將繼續(xù)優(yōu)化抽樣以及查詢過程，減少時(shí)間開銷。此外，根據(jù)查詢結(jié)果日志來判斷生成樣本的質(zhì)量，有選擇性地替換部分樣本集，進(jìn)一步提高查詢精度，也是今后的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡