李建勛 馬美玲 郭建華 嚴(yán)峻
摘 要:針對(duì)符合一定數(shù)據(jù)模式或規(guī)律的虛假數(shù)據(jù)識(shí)別問題,提出一種基于隨機(jī)性分析的虛假趨勢(shì)時(shí)間序列判別方法。該方法在分析時(shí)間序列組成的基礎(chǔ)上,首先探索虛假趨勢(shì)時(shí)間序列的簡(jiǎn)單偽造和復(fù)雜偽造方式,并將其分解為虛假趨勢(shì)和虛假隨機(jī)兩部分;然后通過基函數(shù)逼近進(jìn)行時(shí)間序列虛假趨勢(shì)部分的提取,采用隨機(jī)性理論開展虛假隨機(jī)部分的分析;最終借助單比特頻數(shù)和塊內(nèi)頻數(shù)對(duì)虛假隨機(jī)部分是否具備隨機(jī)性進(jìn)行檢測(cè),為具有一定趨勢(shì)特征的虛假時(shí)間序列的判別提供了一個(gè)解決方案。實(shí)驗(yàn)結(jié)果表明:該方法能夠有效地分解虛假時(shí)間序列和提取虛假趨勢(shì)部分,實(shí)現(xiàn)簡(jiǎn)單偽造數(shù)據(jù)和復(fù)雜偽造數(shù)據(jù)的判別,支持對(duì)通過觀測(cè)手段或者檢測(cè)設(shè)備所獲取的數(shù)值型數(shù)據(jù)的真?zhèn)畏治?,進(jìn)一步提高了虛假數(shù)據(jù)可判別范圍,平均判別正確率可達(dá)74.7%。
關(guān)鍵詞:虛假數(shù)據(jù);時(shí)間序列;趨勢(shì)性;隨機(jī)性分析;基函數(shù)
中圖分類號(hào):TP399
文獻(xiàn)標(biāo)志碼:A
Abstract:? Focusing on the detection problem of false data that conform to a certain pattern or rule, a false trend time series detection method? based on randomness analysis was proposed. Based on the analysis of time series composition, firstly the simple forgery method and complex forgery method of false trend time series were explored, and decomposed into two parts: false trendness and false randomness. Then the false trend of time series was extracted by the approximation of base function, the false random of time series was analyzed with the randomness theory. Finally, monobit frequency and frequency within a block were adopted to test whether the false random part has randomness, which established a detection method of false time series with a certain trend feature. The simulation results show that proposed method can decompose the false time series and extract the false trend part effectively, meanwhile realize thedetectionof simple and complex forged data. It also supports the authenticity analysis for the numerical data obtained by means of observation or monitoring equipment, which improves the discrimination range of false data with average detection accuracy of 74.7%.Key words:? false data; time series; trend; randomness analysis; base function
0 引言
虛假數(shù)據(jù)是為了達(dá)到一種預(yù)期目標(biāo)而人工偽造的帶有一定虛假價(jià)值的數(shù)據(jù),它的存在嚴(yán)重影響了數(shù)據(jù)分析結(jié)果,并給數(shù)據(jù)處理、信息安全、資源利用、控制決策等工作帶來了巨大威脅。隨著大數(shù)據(jù)時(shí)代的到來,信息資源的利用頻率急劇增長(zhǎng),虛假數(shù)據(jù)分析作為改善數(shù)據(jù)質(zhì)量、提高管控能力、增強(qiáng)安全性、提升數(shù)據(jù)價(jià)值的關(guān)鍵環(huán)節(jié)愈來愈被人們所重視,眾多學(xué)者更是從網(wǎng)絡(luò)服務(wù)、控制系統(tǒng)、多媒體信息等視角開展了虛假數(shù)據(jù)識(shí)別的研究。在網(wǎng)絡(luò)服務(wù)方面,已有大量文獻(xiàn)探討了虛假評(píng)論、虛假消息、虛假賬戶等問題,典型的有:王琢等[1]基于評(píng)論圖的虛假評(píng)論人檢測(cè)方法,李雨橋等[2]利用社交圖譜的虛假評(píng)論識(shí)別方法,以及Xiao等[3]的在線社會(huì)網(wǎng)絡(luò)虛假賬戶檢測(cè)方法??紤]到無法通過先驗(yàn)知識(shí)有效識(shí)別虛假評(píng)論,任亞峰等[4]采用狄利克雷過程混合模型和多核學(xué)習(xí)算法提高了真假數(shù)據(jù)的分類能力。段大高等[5]還提出了一種決策樹方案,提高了微博虛假消息檢測(cè)的準(zhǔn)確率。針對(duì)虛假新聞,Shu等[6]開展了在線媒體大數(shù)據(jù)的分析工作,并利用數(shù)據(jù)挖掘構(gòu)建了社會(huì)媒體中虛假新聞的檢測(cè)方案。另外,Singh等[7]還利用機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)了在線社會(huì)網(wǎng)絡(luò)虛假資料的識(shí)別。此類研究分別從特征設(shè)計(jì)、模型方法、數(shù)據(jù)集、評(píng)級(jí)指標(biāo)等方面,良好地解決了虛假評(píng)論文本、虛假評(píng)論發(fā)布者及虛假評(píng)論群組的分析與辨別問題[8]。在控制系統(tǒng)方面,相關(guān)研究主要是針對(duì)傳感器網(wǎng)絡(luò)和電力系統(tǒng)中的攻擊性虛假數(shù)據(jù)的檢測(cè)與處理,如李素君等[9]提出的傳感器中魯棒性虛假數(shù)據(jù)識(shí)別與過濾方案,曹燕華等[10]基于信任管理的虛假數(shù)據(jù)檢測(cè)方案??紤]到協(xié)作偽造的檢測(cè)難度,劉志雄等[11]提出了一種基于雙重認(rèn)證和位置關(guān)系校驗(yàn)的虛假數(shù)據(jù)過濾策略。聚焦于電力系統(tǒng)的穩(wěn)定性,Ashok等[12]則給出了電力系統(tǒng)中虛假生物特征的檢測(cè)方法。另外,Khalaf等[13]還面向自動(dòng)控制系統(tǒng)建立了基于卡爾曼濾波器的虛假數(shù)據(jù)注入檢測(cè)算法。在多媒體信息方面,針對(duì)于空間軌跡信息處理,楊斌等[14]探索了基于聚類思想的虛假軌跡分析方法。在圖像信息上,Vigneshwaran等[15]則給出了一種基于支持向量機(jī)(Support Vector Machine,SVM)的虛假圖像檢測(cè)體系。另外,操文成[16]面向語音數(shù)據(jù),設(shè)計(jì)了一種以峰度統(tǒng)計(jì)矩陣為基礎(chǔ)的語音音調(diào)篡改盲檢測(cè)算法。除此而外,Galbally等[17-18]研究了應(yīng)用于虹膜、指紋等虛假生物特征的檢測(cè)方法,給出了面向服務(wù)系統(tǒng)安全的虛假數(shù)據(jù)判別方案。
綜上所述,經(jīng)過多年的研究,人們已經(jīng)充分認(rèn)識(shí)了虛假數(shù)據(jù)的產(chǎn)生機(jī)理,并從數(shù)據(jù)模型、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全等視角分析了虛假數(shù)據(jù)特征,建立了多種類、多場(chǎng)景的虛假數(shù)據(jù)判別方案。然而,此類研究的重點(diǎn)是探索特定應(yīng)用環(huán)境、安全需求和處理目標(biāo)的虛假數(shù)據(jù)識(shí)別、過濾、分析等問題,缺乏對(duì)符合一定數(shù)據(jù)模式或規(guī)律的虛假數(shù)據(jù)的研究,僅有部分學(xué)者采用數(shù)理統(tǒng)計(jì)、語義模型、特征提取、變換域分析等開展了部分研究工作,對(duì)于通過觀測(cè)手段或者檢測(cè)設(shè)備所獲取的數(shù)值型數(shù)據(jù)的討論則更為匱乏。此類數(shù)據(jù)通常表現(xiàn)為具有一般性的趨勢(shì)性時(shí)間序列,為了有效甄別其真?zhèn)危疚脑谔摷仝厔?shì)時(shí)間序列的虛假趨勢(shì)和虛假隨機(jī)分解的基礎(chǔ)上,利用隨機(jī)性檢測(cè),構(gòu)建了一個(gè)虛假趨勢(shì)時(shí)間序列的判別方法,支撐了相關(guān)數(shù)據(jù)偽造行為的甄別以及數(shù)據(jù)質(zhì)量的提升。
1 虛假趨勢(shì)時(shí)間序列分析
時(shí)間序列是按照時(shí)間順序記錄的社會(huì)經(jīng)濟(jì)、自然現(xiàn)象的數(shù)量指標(biāo),其數(shù)值隨時(shí)間發(fā)展變化,起伏不定,具備某種趨勢(shì)。通常時(shí)間序列可表示為x*t(t=0,1,…,n),并由長(zhǎng)期趨勢(shì)量d*、季節(jié)變動(dòng)量s*、周期變動(dòng)量c*、隨機(jī)變動(dòng)量r*四個(gè)部分構(gòu)成,亦即x*t= f(d*t,s*t,c*t,r*t),t=0,1,…,n,并可分解為x*t=d*t+s*t+c*t+r*t。當(dāng)被測(cè)對(duì)象依時(shí)間變化呈現(xiàn)某種上升或下降態(tài)勢(shì),且沒有明顯的季節(jié)波動(dòng)、周期變動(dòng)時(shí),時(shí)間序列簡(jiǎn)化為一種趨勢(shì)時(shí)間序列x*t=d*t+r*t,此時(shí)可構(gòu)造一個(gè)合適的函數(shù)曲線反映這種變化趨勢(shì)。虛假趨勢(shì)時(shí)間序列則是指為了到達(dá)商業(yè)欺詐、掩蓋事實(shí)等目的,由不誠信者在已知?dú)v史數(shù)據(jù)資料基礎(chǔ)上偽造的趨勢(shì)時(shí)間序列,以實(shí)現(xiàn)惡意的利益訴求。虛假趨勢(shì)時(shí)間序列類似趨勢(shì)時(shí)間序列,也包含長(zhǎng)期趨勢(shì)量和隨機(jī)變動(dòng)量?jī)刹糠?,但這兩部分中至少一部分是虛假的。對(duì)虛假趨勢(shì)時(shí)間序列進(jìn)行分析,就是探索該虛假序列的長(zhǎng)期趨勢(shì)量和隨機(jī)變動(dòng)量的構(gòu)建動(dòng)機(jī)和方法,以便通過相應(yīng)檢測(cè)手段予以甄別。
虛假趨勢(shì)時(shí)間序列并不是觀測(cè)得到的真實(shí)數(shù)據(jù),而通常由偽造者按照某一企圖而構(gòu)建。為了便于區(qū)分不同偽造能力,此處將偽造者分為簡(jiǎn)單偽造者和復(fù)雜偽造者兩類。其中,簡(jiǎn)單偽造者大多對(duì)照歷史數(shù)據(jù)憑借個(gè)人經(jīng)驗(yàn)以及預(yù)期目標(biāo)估計(jì)出一系列虛假數(shù)值xt。受限于人工的編制效率和構(gòu)造能力,一般來說序列xt僅部分含有虛假隨機(jī)成分rt,因此主要體現(xiàn)為對(duì)虛假趨勢(shì)時(shí)間序列中隨機(jī)變動(dòng)量的一種簡(jiǎn)單偽造。而復(fù)雜偽造者則運(yùn)用程序算法按照預(yù)期目標(biāo)構(gòu)造一個(gè)虛假趨勢(shì)dt,然后再按照隨機(jī)生成規(guī)則構(gòu)造虛假隨機(jī)rt,并將其疊加到dt上,因此體現(xiàn)為對(duì)虛假趨勢(shì)時(shí)間序列中長(zhǎng)期趨勢(shì)量和隨機(jī)變動(dòng)量?jī)刹糠值膹?fù)雜偽造。如圖1所示,依照來自美國加州米克斯灣(Meeks Bay;經(jīng)緯度-120.11,39.05;編號(hào):10336645)水質(zhì)數(shù)據(jù)庫的水溫真實(shí)序列圖1(a),手工給出偽造目標(biāo)趨勢(shì)的關(guān)鍵點(diǎn)位并進(jìn)行樣條插值獲得一個(gè)虛假趨勢(shì)圖1(b),然后將均勻分布的隨機(jī)數(shù)據(jù)疊加到該虛假趨勢(shì)上,最后為了增強(qiáng)虛假數(shù)據(jù)的逼真性,對(duì)圖1(c)手工調(diào)整獲得最終偽造序列如圖1(d)。
無論是簡(jiǎn)單偽造者還是復(fù)雜偽造者,其目標(biāo)均是按照惡意預(yù)期構(gòu)造一個(gè)xt=dt+rt來虛假表示真值x*t。然而由于真值通常未知或被隱藏,故而只能通過構(gòu)成虛假趨勢(shì)時(shí)間序列xt的虛假趨勢(shì)dt和虛假隨機(jī)rt兩部分加以分析:
1)虛假趨勢(shì)。虛假趨勢(shì)dt是虛假趨勢(shì)時(shí)間序列中的長(zhǎng)期趨勢(shì)量部分。它是由偽造者參考?xì)v史數(shù)據(jù)、背景信息、經(jīng)驗(yàn)估算、推演分析等,按照預(yù)期目標(biāo)建立且類似于真實(shí)的序列。通常在未知d*t的情況下難以辨別真?zhèn)?,而只有在虛假序列出現(xiàn)違背常理、突發(fā)跳躍等時(shí)可通過M-K等突變檢測(cè)加以判別,或者在特定滑動(dòng)窗口下通過與歷史數(shù)據(jù)之間的相似性分析來加以初判,因此采用虛假趨勢(shì)甄別序列的真?zhèn)尾⒉痪哂写硇浴?/p>
2)虛假隨機(jī)。虛假隨機(jī)rt是虛假趨勢(shì)時(shí)間序列中的隨機(jī)變動(dòng)量部分。通常,自然的數(shù)據(jù)序列受到觀測(cè)手段、周邊環(huán)境等多種因素影響勢(shì)必帶有以誤差為主要特征的隨機(jī)信息,它也體現(xiàn)為被測(cè)數(shù)據(jù)量受到各種偶然因素影響而呈現(xiàn)出方向不定、時(shí)起時(shí)伏、時(shí)大時(shí)小的變動(dòng)。簡(jiǎn)單偽造者往往通過簡(jiǎn)單推理計(jì)算、數(shù)值估計(jì)形成帶有部分虛假隨機(jī)特性的虛假趨勢(shì)時(shí)間序列xt,由于其隨機(jī)變動(dòng)量部分偽造方法過于簡(jiǎn)單,難以滿足自然的隨機(jī)特征,故可以通過隨機(jī)性檢測(cè)來判別真?zhèn)巍6鴮?duì)于復(fù)雜偽造者而言,雖然可以通過各種算法構(gòu)造出滿足隨機(jī)規(guī)律的rt,但將其疊加到dt后就必然導(dǎo)致了數(shù)據(jù)量的改變,原本的趨勢(shì)性受到rt的影響在部分時(shí)刻將無法保證預(yù)期目標(biāo),或呈現(xiàn)出不符合偽造者意圖的起伏變化,因此需要對(duì)疊加后的序列進(jìn)行手工調(diào)整,然而這種調(diào)整卻往往會(huì)打破序列的隨機(jī)性,故而可以通過分析該部分的隨機(jī)性檢測(cè)來判別趨勢(shì)時(shí)間序列的真?zhèn)巍?/p>
2 趨勢(shì)時(shí)間序列的趨勢(shì)抽取
考慮到虛假趨勢(shì)難以識(shí)別,而虛假隨機(jī)又融合在虛假趨勢(shì)內(nèi)形成虛假序列,可見判別虛假趨勢(shì)時(shí)間序列的首要工作便是從假定存在虛假數(shù)據(jù)的xt=dt+rt中,剔除趨勢(shì)性部分dt。如果從數(shù)據(jù)觀測(cè)角度來看,趨勢(shì)時(shí)間序列由具有趨勢(shì)變化的真值部分和誤差部分構(gòu)成,而真值和誤差恰好分別對(duì)應(yīng)序列的趨勢(shì)部分和隨機(jī)部分。因此對(duì)于虛假序列來說,一個(gè)可行的抽取方案是探尋能夠表征xt趨勢(shì)的逼近函數(shù)ψ(t),讓?duì)祝╰)最大限度地符合虛假趨勢(shì)數(shù)據(jù)dt,而剩余的誤差部分xt-ψ(t)則作為序列中的隨機(jī)量。為了增強(qiáng)逼近效果、減少時(shí)間t自然增長(zhǎng)對(duì)數(shù)據(jù)分析的干擾,首先采用Min-Max標(biāo)準(zhǔn)化方法(t-tmin)/(tmax-tmin)將t標(biāo)準(zhǔn)化至區(qū)間[0,1],而xt的標(biāo)號(hào)t保持不變,然后給定線性無關(guān)基函數(shù)集合Θ=span{ψ0(t),ψ1(t),…,ψm(t)},對(duì)于虛假趨勢(shì)時(shí)間序列xt若獲得一個(gè)由基函數(shù)和待定系數(shù)b^0,b^1,…,b^m所構(gòu)成的線性組合(t)=b^0ψ0(t)+b^1ψ1(t)+…+b^mψm(t),使得(t)滿足∑nt=0((t)-xt)2=minx(t)∈Θ∑nt=0(x(t)-xt)2,則稱(t)為曲線簇Θ上序列xt的最佳趨勢(shì)。此處,待定系數(shù)b^0,b^1,…,b^m可通過多元函數(shù)J(b0,b1,…,bm)=∑nt=0(x(t)-xt)2的最小值求得。令b^=(b^0,b^1,…,b^m)T,=(x0,x1,…,xn)T,按照極值必要條件J(b0,b1,…,bm)bi=0(i=0,1,…,m),則可以得到:
3 虛假隨機(jī)數(shù)據(jù)的真?zhèn)闻袆e
真實(shí)序列的隨機(jī)部分是隨著偶然因素影響而改變的隨機(jī)過程,或者在測(cè)量、觀察過程中因某些不可控制因素影響而造成的變化,具備明顯的隨機(jī)特征。虛假隨機(jī)則是由人工編制結(jié)合程序算法構(gòu)造,不完全具有隨機(jī)特征。另外,考慮到對(duì)于一個(gè)隨機(jī)事件可以探討其可能出現(xiàn)的概率來反映該事件發(fā)生可能性大小,因此要檢測(cè)趨勢(shì)時(shí)間序列的真?zhèn)?,則只需要檢查序列的隨機(jī)部分是否符合隨機(jī)性要求。此處,借助隨機(jī)性檢測(cè)最為常用的單比特頻數(shù)檢測(cè)和塊內(nèi)頻數(shù)檢測(cè)作為虛假趨勢(shì)時(shí)間序列的判別方案。通過單比特頻數(shù)檢測(cè)確保隨機(jī)部分rt中0、1比特的數(shù)量大致相同,通過塊內(nèi)頻數(shù)檢測(cè)確保將隨機(jī)部分rt分組長(zhǎng)度為k的子序列中1所占的比例接近于整體的1/2。頻數(shù)測(cè)試是隨機(jī)性分析的基礎(chǔ)方法,應(yīng)首先進(jìn)行。
4 實(shí)驗(yàn)與分析
為了驗(yàn)證本文方法的有效性和實(shí)用性,使用來自USGS(U.S. Geological Survey)[19] 美國加州2016年10月9日至2018年10月9日的水質(zhì)數(shù)據(jù)作為參考開展分析。選擇該區(qū)域內(nèi)3108個(gè)測(cè)站中信息資源豐富的513個(gè)測(cè)站,從中提取測(cè)站名、測(cè)站編號(hào)、測(cè)站地理位置等基本信息,以及與水質(zhì)相關(guān)的水溫、電導(dǎo)率、 pH值、硝酸鹽、總磷、鐵、懸浮物、渾濁度、溶解氧、氯化物、輸沙量、葉綠素等12項(xiàng)觀測(cè)量,共計(jì)66081條數(shù)據(jù)記錄,數(shù)據(jù)采集時(shí)間間隔為24h。為了避免人為因素導(dǎo)致的分析誤差,虛假數(shù)據(jù)依靠實(shí)測(cè)數(shù)據(jù)進(jìn)行編制。編制時(shí),采用簡(jiǎn)單偽造和復(fù)雜偽造兩種方案,即模擬簡(jiǎn)單偽造者和復(fù)雜偽造者兩種來構(gòu)建虛假趨勢(shì)時(shí)間序列。其中:簡(jiǎn)單偽造根據(jù)歷史數(shù)據(jù)資料、預(yù)期目標(biāo)、個(gè)人經(jīng)驗(yàn)直接編制出每個(gè)時(shí)刻的數(shù)據(jù)值;而復(fù)雜偽造則首先給出符合預(yù)期目標(biāo)的關(guān)鍵數(shù)據(jù)點(diǎn)位,繪制出趨勢(shì)曲線,然后通過計(jì)算機(jī)模擬產(chǎn)生幅度在10%歷史數(shù)據(jù)最大值范圍內(nèi)的隨機(jī)數(shù)據(jù),并將其疊加到趨勢(shì)曲線上,最后手動(dòng)調(diào)整各數(shù)據(jù)點(diǎn)位使之呈現(xiàn)出逼真于歷史數(shù)據(jù)的曲線過程。為了便于描述,本文將通過簡(jiǎn)單偽造和復(fù)雜偽造兩種方案構(gòu)建的虛假趨勢(shì)時(shí)間序列分別簡(jiǎn)稱為簡(jiǎn)單偽造序列和復(fù)雜偽造序列,在其上開展實(shí)驗(yàn)如下。
1)以加州波特維爾測(cè)站(Porterville,經(jīng)緯度:-118.65,36.05,編號(hào):11203580)的電導(dǎo)率數(shù)據(jù)為基礎(chǔ),在2018年4月25日— 9月20日之間產(chǎn)生n=149個(gè)數(shù)據(jù)點(diǎn),形成復(fù)雜偽造序列。該時(shí)間段實(shí)測(cè)數(shù)據(jù)如圖2(a)所示,偽造數(shù)據(jù)預(yù)期目標(biāo)與實(shí)測(cè)數(shù)據(jù)相同,即虛假序列的趨勢(shì)沿用實(shí)測(cè)序列,偽造隨機(jī)部分使用計(jì)算機(jī)產(chǎn)生10%幅度內(nèi)的均勻分布隨機(jī)數(shù),將該隨機(jī)部分疊加到趨勢(shì)部分并進(jìn)行人工調(diào)整后得到虛假序列如圖2(b)所示。令基函數(shù)表示為Θ=span{1,t,t2,…,t149},采用式(1)
進(jìn)行虛假趨勢(shì)提取得到待定系數(shù){b^0,b^1,…,b^149}如表1所示(未給出的b^i值為0),繪制虛假趨勢(shì)部分曲線如圖2(c)所示,與圖2(b)比較可見其有效地表征了原本數(shù)據(jù)的趨勢(shì)部分,剔除虛假趨勢(shì)后得到虛假隨機(jī)部分如圖2(d)所示。觀察曲線可知該部分并無趨勢(shì)規(guī)則,似乎符合一定隨機(jī)特征,其隨機(jī)部分處于[-5.266,5.964]范圍內(nèi),均值為5.290×10-5。令k=20,α=0.1,得到h=7,根據(jù)式(3)、(4)求得V1=1.7204, p1-value=0.085,V2=2.600, p2-value=0.081,可見p1-value和p2-value均小于α=0.1,因此未通過測(cè)試,故而判斷為虛假數(shù)據(jù),這說明本文方法能夠有效識(shí)別虛假趨勢(shì)時(shí)間序列。
2)依照美國加利福尼亞州區(qū)域的513個(gè)水質(zhì)測(cè)站數(shù)據(jù),簡(jiǎn)單偽造序列500組,復(fù)雜偽造序列1000組。
分別對(duì)每組數(shù)據(jù)采用本文方法進(jìn)行測(cè)試,獲得結(jié)果如表2所示。判斷簡(jiǎn)單偽造序列的正確率為81.8%,而對(duì)于復(fù)雜偽造序列而言則為71.2%。綜合兩種序列其整體判斷正確率為74.7%。由此可見,本文方法在判斷人工根據(jù)預(yù)期目標(biāo)構(gòu)造的趨勢(shì)時(shí)間序列時(shí)具有相對(duì)更高的準(zhǔn)確率,而對(duì)復(fù)雜偽造序列判斷正確率較弱,這是復(fù)雜偽造者為了增強(qiáng)序列的隨機(jī)性而使用了模擬算法生成一定分布隨機(jī)數(shù)據(jù)的緣故。
5 結(jié)語
虛假數(shù)據(jù)的檢測(cè)與分析一直在改善數(shù)據(jù)質(zhì)量、提高系統(tǒng)能力、保障信息安全等方面占據(jù)重要地位,并隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展和數(shù)據(jù)資源使用頻率的增加,成為了信息技術(shù)領(lǐng)域的研究熱點(diǎn)。為了實(shí)現(xiàn)對(duì)具有一定趨勢(shì)性特征的虛假時(shí)間序列的判別,本文在探討虛假趨勢(shì)時(shí)間序列構(gòu)成的基礎(chǔ)上,給出了一個(gè)采用基函數(shù)逼近的虛假序列分解方案,將其劃分為虛假趨勢(shì)和虛假隨機(jī)兩部分,并采用隨機(jī)性分析對(duì)虛假隨機(jī)部分加以檢測(cè),形成了虛假趨勢(shì)時(shí)間序列的判別方法。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地檢測(cè)出簡(jiǎn)單偽造序列和復(fù)雜偽造序列,判別正確率分別為81.8%和71.2%??紤]到復(fù)雜偽造序列往往和歷史數(shù)據(jù)之間關(guān)系密切,因此下一步的工作任務(wù)主要是嘗試增加相似性分析,進(jìn)一步提高虛假趨勢(shì)提取精度,進(jìn)而提升判別正確率。
參考文獻(xiàn)(References)
[1] 王琢, 李準(zhǔn), 徐野, 等. 基于評(píng)論圖的虛假產(chǎn)品評(píng)論人的檢測(cè)[J]. 計(jì)算機(jī)科學(xué), 2014, 41(10): 295-299, 305. (WANG Z, LI Z, XU Y, et al. Detecting product review spammers based on review graphs[J]. Computer Science, 2014, 41(10): 295-299, 305.)
[2] 李雨橋, 符紅光. 基于社交圖譜模型的虛假評(píng)論識(shí)別[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(S2): 151-153. (LI Y Q, FU H G. Fake comments recognition based on social network graph model[J]. Journal of Computer Applications, 2014, 34(S2): 151-153.)
[3] XIAO C, FREEMAN D M, HWA T. Detecting clusters of fake accounts in online social networks[C]// Proceedings of the 8th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2015: 91-101.
[4] 任亞峰, 姬東鴻, 張紅斌, 等. 基于PU學(xué)習(xí)算法的虛假評(píng)論識(shí)別研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(3): 639-648. (REN Y F, JI D H, ZHANG H B, et al. Deceptive reviews detection based on positive and unlabeled learning[J]. Journal of Computer Research and Development, 2015, 52(3): 639-648.)
[5] 段大高, 蓋新新, 韓忠明, 等. 基于梯度提升決策樹的微博虛假消息檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2018, 38(2): 410-414. (DUAN D G, GAI X X, HAN Z M, et al. Micro-blog misinformation detection based on gradient boost decision tree[J]. Journal of Computer Applications, 2018, 38(2): 410-414.)
[6] SHU K, SLIVA A, WANG S, et al. Fake news detection on social media: a data mining perspective[J]. ACM SIGKDD Explorations Newsletter, 2017, 19(1): 22-36.
[7] SINGH N, SHARMA T, THAKRAL A, et al. Detection of fake profile in online social networks using machine learning[C]// Proceedings of the 2018 International Conference on Advances in Computing and Communication Engineering. Piscataway: IEEE, 2018: 231-234.
[8] 李璐旸, 秦兵, 劉挺. 虛假評(píng)論檢測(cè)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2018, 41(4): 946-968. (LI L Y, QIN B, LIU T. Survey on fake review detection research[J]. Chinese Journal of Computers, 2018, 41(4): 946-968.)
[9] 李素君, 周波清, 羊四清. 傳感器網(wǎng)絡(luò)中魯棒性虛假數(shù)據(jù)過濾方案[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(35): 67-70, 232. (LI S J, ZHOU B Q, YANG S Q. Robust filtering false data scheme in sensor networks[J]. Computer Engineering and Applications, 2012, 48(35): 67-70, 232.)
[10] 曹燕華, 章志明, 余敏. 基于信任管理機(jī)制的無線傳感器網(wǎng)絡(luò)虛假數(shù)據(jù)過濾方案[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(6): 1567-1572. (CAO Y H, ZHANG Z M, YU M. False data filtering scheme based on trust management mechanism in wireless sensor networks[J]. Journal of Computer Applications, 2014, 34(6): 1567-1572.)
[11] 劉志雄, 黎梨苗. 傳感器網(wǎng)絡(luò)中一種基于雙重認(rèn)證的虛假數(shù)據(jù)過濾方案[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2018, 39(6): 1276-1280. (LIU Z X, LI L M. Dual authentication based false report filtering in sensor networks[J]. Journal of Chinese Computer Systems, 2018, 39(6): 1276-1280.)
[12] ASHOK A, GOVINDARASU M, AJJARAPU V. Online detection of stealthy false data injection attacks in power system state estimation[J]. IEEE Transactions on Smart Grid, 2018, 9(3): 1636-1646.
[13] KHALAF M, YOUSSEF A, EL-SAADANY E. Detection of false data injection in automatic generation control systems using Kalman filter[C]// Proceedings of the 2007 IEEE Electrical Power and Energy Conference. Piscataway: IEEE, 2017: 1-6.
[14] 楊斌, 陸余良, 楊國正, 等. 一種基于聚類的路徑偽造檢測(cè)方法[J]. 計(jì)算機(jī)科學(xué), 2014, 41(8): 158-163. (YANG B, LU Y L, YANG G Z, et al, Path forging detection approach based on aggregation[J]. Computer Science, 2014, 41(8): 158-163.)
[15] VIGNESHWARAN S, SURESH M, MEENAKUMARI R. An SVM based statistical image quality assessment for fake biometric detection[J]. International Journal for Trends in Engineering & Technology, 2015, 4(1): 5-12.
[16] 操文成. 語音偽造盲檢測(cè)技術(shù)研究[D]. 成都: 西南交通大學(xué), 2017: 1-38. (CAO W C. Research on blind speech forgery detection technology[D]. Chengdu: Southwest Jiaotong University, 2017: 1-38.)
[17] GALBALLY J, MARCEL S, FIERREZ J. Image quality assessment for fake biometric detection: application to iris, fingerprint, and face recognition[J]. IEEE Transactions on Image Processing, 2014, 23(2): 710-724.
[18] KULKARNI N A, SANKPAL L J. Efficient approach determination for fake biometric detection[C]// Proceedings of the 2017 International Conference on Computing, Communication, Control and Automation. Piscataway: IEEE, 2017: 1-4.
[19] USGS water data support team. USGS water data for the nation help [EB/OL]. [2018-10-9]. https://www.usgs.gov/ products/ data-and-tools/ real-time-dat.