国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hough變換的大數(shù)據(jù)特征集成沖突檢測建模研究

2019-10-15 07:44胡小琴
關鍵詞:信息熵權值沖突

胡小琴

(泉州信息工程學院 軟件學院,福建 泉州 362000)

0 引言

隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,人們迎來了大數(shù)據(jù)時代,大數(shù)據(jù)時代的來臨使得數(shù)據(jù)資料的規(guī)模得到巨大的統(tǒng)計與整理,借助大數(shù)據(jù)相關技術可以實現(xiàn)海量數(shù)據(jù)的提取、管理與處理等操作.大數(shù)據(jù)具有存儲數(shù)據(jù)量大、數(shù)據(jù)種類多、實用性強以及蘊藏價值大等特征,由于大數(shù)據(jù)獨特且多元的特征特點,使得大數(shù)據(jù)在運行操作過程中可能出現(xiàn)沖突問題[1].當大數(shù)據(jù)庫中的數(shù)據(jù)存在一定的差異時,就會產(chǎn)生沖突.大數(shù)據(jù)中的特征集成的沖突指的是不同主體對同一個數(shù)據(jù)客觀對象在空間及屬性上的看法的不一致性,這種不一致性使得數(shù)據(jù)信息產(chǎn)生差異.一般情況下,大數(shù)據(jù)特征沖突具有必然性、可視性、局限性以及積極性等沖突特點,依據(jù)沖突數(shù)據(jù)的空間特征集成以及沖突產(chǎn)生的原因,可以將沖突劃分成為幾何沖突和屬性沖突兩大類,在進行具體的研究與檢測過程中需要從這兩個方面進行具體的研究.由于大數(shù)據(jù)庫中的數(shù)據(jù)量較大,一旦出現(xiàn)數(shù)據(jù)特征沖突,就可能引發(fā)數(shù)據(jù)運行延時、擁塞等問題,嚴重時可能會引發(fā)數(shù)據(jù)運行癱瘓.因此需要定期對大數(shù)據(jù)進行檢測,以此來保證大數(shù)據(jù)特征集成運行安全[2].與此同時大數(shù)據(jù)特征集成沖突檢測的結果也可以作為理論依據(jù),從而提出具有針對性的沖突處理方案,實現(xiàn)數(shù)據(jù)沖突的消除.

現(xiàn)階段已經(jīng)存在的沖突檢測方法包括:基于空間矢量的數(shù)據(jù)沖突檢測方法、基于編碼規(guī)則的數(shù)據(jù)沖突檢測方法以及基于函數(shù)依賴的數(shù)據(jù)沖突檢測方法等.其中空間矢量方法下的數(shù)據(jù)沖突檢測主要針對數(shù)據(jù)沖突中的幾何沖突進行檢測,而基于編碼規(guī)則和函數(shù)依賴的數(shù)據(jù)沖突檢測方法僅僅對于屬性沖突具有良好的檢測效果.經(jīng)過長時間的研究發(fā)現(xiàn),傳統(tǒng)檢測方法在應用過程中具有較大的局限性,且存在檢測周期長、檢測精度低的問題.為了解決傳統(tǒng)方法中存在的問題,引入Hough變換的概念,Hough變換也被稱為霍夫變換.霍夫變換是一種特征檢測,通常被應用在圖像分析或者電腦視覺當中,該變換方法可以精準的檢測出待檢測物體的特征[3].將這種變換方式應用到檢測方法當中,構建檢測模型進行優(yōu)化設計,能夠在一定程度上降低檢測周期,同時提高檢測精度.

1 大數(shù)據(jù)特征集成沖突檢測模型設計

圖1 大數(shù)據(jù)特征集成沖突檢測模型構建流程圖

1.1 獲取初步?jīng)_突特征數(shù)據(jù)

使用大數(shù)據(jù)特征數(shù)據(jù)挖掘算法,獲取待檢測的部分數(shù)據(jù)庫中的特征數(shù)據(jù).在特定的檢測搜索區(qū)域內(nèi),選定一個數(shù)據(jù)節(jié)點作為特征數(shù)據(jù)采集的起點,在數(shù)據(jù)挖掘采集的過程中以采集起點為中心,逐漸向其鄰域擴展進行查詢檢測,運用所確定的信息優(yōu)化鄰近對象的查詢操作,獲取初步的沖突特征數(shù)據(jù)[4].假設數(shù)據(jù)采集起點為a,每一次數(shù)據(jù)采集的距離為r.定義一個隨機的自然數(shù)為k,且定義p的k-距離為(k-distance(p)).計算對象p的k-距離鄰域用(Nk-distance)來表示,假設式中k的值為5,則公式1中的關系式成立.

Nk-distance(a)={b,c,d,e,f}.

(1)

公式1中a為沖突特征數(shù)據(jù)采集的起點,而b-f表示的是采集鄰域范圍內(nèi)的沖突特征采集目標數(shù)據(jù).在初始采集區(qū)域內(nèi)未被采集的數(shù)據(jù)對象用集合o表示,接著對公式2中表示的范圍進行進一步數(shù)據(jù)采集.

dist(a,s)≤2·d(a,o)+k-distanace(a).

(2)

將未被采集的數(shù)據(jù)重新與鄰域采集區(qū)域結合在一起,對此進行重復查詢采集流程,當查詢范圍內(nèi)沖突特征數(shù)據(jù)超過采集闕值時,重復一次操作,最終獲取數(shù)據(jù)沖突中的初步?jīng)_突特征數(shù)據(jù)集.

1.2 量化大數(shù)據(jù)特征沖突權值

采用去一劃分的方法計算采集的沖突特征數(shù)據(jù)的離群性權值量化,使用信息熵作為數(shù)據(jù)權值量化的介質(zhì).假設獲取初步?jīng)_突特征數(shù)據(jù)集為X={x1,x2,…,xn},以集合中的任意一個變量xn為例,假設其取值集合為S(x)[5].那么可以通過公式3計算特征沖突數(shù)據(jù)的信息熵.

(3)

式中函數(shù)p(x)代表任意變量xn的幾率函數(shù).計算連續(xù)數(shù)據(jù)變量的信息熵,利用相鄰變量計算出的信息熵得出信息熵增量的結果[6].以信息熵增量為依據(jù)將取值集合為S(x)劃分為兩個區(qū)域,并以公式4的方式進行記錄.

(4)

對兩個劃分區(qū)域的信息熵進行計算,并相減得出信息熵的增量Δx.將大數(shù)據(jù)沖突數(shù)據(jù)的屬性看做一個集合,用Δx對集合中對象的屬性權值做詳細的量化.權值量化公式如公式5所示.

1.1 背景資料 試題的題干: 水稻是我國最重要的糧食作物。稻瘟病是由稻瘟病菌(Mp)侵染水稻引起的病害,嚴重危害糧食生產(chǎn)安全。與使用農(nóng)藥相比,抗稻瘟病基因的利用是控制稻瘟病更加有效、安全和經(jīng)濟的措施。

(5)

式中f(p)與f(q)表示的是第i維屬性的值,p與q是集合S中的任意一個數(shù)據(jù),d(p,q)表示屬性的加權距離.通過公式得到歸一化處置完成的權值量化結果.

1.3 實現(xiàn)大數(shù)據(jù)特征集成

按照量化的大數(shù)據(jù)特征沖突權值,對采集的初始沖突特征采集數(shù)據(jù)進行特征集成,特征集成過程如圖2所示.

按照圖中的特征集成流程,通過限定數(shù)據(jù)特征序列、特征表達以及Hough變換處理三個步驟實現(xiàn)數(shù)據(jù)特征集成,且經(jīng)過Hough變換處理后,可以確保集成的數(shù)據(jù)具有較高的特征精度[7].

1.3.1 選定大數(shù)據(jù)特征序列

參考量化后的特征沖突權值,選定大數(shù)據(jù)的特征序列,選定的過程如圖3所示.

圖2 大數(shù)據(jù)特征集成流程圖圖3 選定特征序列示意圖

由于大數(shù)據(jù)中數(shù)據(jù)的復雜度較高會影響特征表達結果,選定大數(shù)據(jù)特征序列的過程中,首先按照量化的權值進行特征跟蹤,根據(jù)特征的跟蹤結果對其他普通數(shù)據(jù)進行特征忽略,突變特征進行集中時間性排列[8].分別進行兩次特征特征跟蹤與排列,最終將多個特征選定結果重疊在一起,最終在不發(fā)生插入序列的情況下,以定式序列為大數(shù)據(jù)的特征序列.

1.3.2 大數(shù)據(jù)特征表達

在選定特征序列的階段下完成大數(shù)據(jù)多特征的表達,通過提取方式獲得大數(shù)據(jù)沖突特征的基本表達元素.數(shù)據(jù)特征表達分為兩個步驟,首先進行大數(shù)據(jù)的全局特征表達,接著進行大數(shù)據(jù)的局部特征表達[9].在全局特征表達的過程中,對整個待測數(shù)據(jù)進行特征計算與提取,而針對局部特征表達的過程僅需要反饋全局特征中的部分特征,進而進行統(tǒng)一表達.

1.3.3 特征數(shù)據(jù)Hough變換處理

圖4 直線檢測中的Hough變換示意圖

將大數(shù)據(jù)特征表達結果集中在一起實現(xiàn)數(shù)據(jù)特征集成,然而在輸出數(shù)據(jù)特征集成結果之前,需要對特征數(shù)據(jù)進行Hough變換處理,以此來提高數(shù)據(jù)特征集成沖突的檢測精度.基本檢測中的Hough變換處理情況如圖4所示.

在標準參數(shù)化方式下,大數(shù)據(jù)空間中的直線特征l的表達式為:

ρ=xcosθ-ysinθ,ρ≥0,0≤θ<π.

(6)

式中ρ表示的是直線特征l相對于數(shù)據(jù)采集起點的距離,θ表示的是直線特征l與橫向正方向上的交角[10].在大數(shù)據(jù)參數(shù)空間中,針對直線特征的檢測中,使用標準Hough變換可以表示為:

(7)

按照公式7中的表達式,若能確定參數(shù)空間中的起始點,將起始點的坐標代入到公式7當中,便可以實現(xiàn)直線特征的檢測.

1.4 配置沖突判斷規(guī)則

大數(shù)據(jù)特征集成沖突檢測的關鍵在于大數(shù)據(jù)沖突判斷規(guī)則的確定,由現(xiàn)實大數(shù)據(jù)特征集成描述關系確定大數(shù)據(jù)與特征之間的關系集合,形成大數(shù)據(jù)特征對象間的判斷規(guī)則,用公式8來表示.

RAB={TR,SR,AR}.

(8)

圖5 沖突判斷示意圖

式中的集合元素分別表示的是大數(shù)據(jù)與特征集成之間的結構約束集、關系約束集以及語義關系約束集.從公式8中的表達式來看,結構約束集的規(guī)則是相對明確的,根據(jù)實際情況來確定對象間的合理與不合理的關系,從而確定沖突是否存在[11].根據(jù)數(shù)據(jù)與特征集成之間的關系產(chǎn)生的沖突判斷流程,如圖5所示.

根據(jù)大數(shù)據(jù)特征集成的沖突判斷待檢測大數(shù)據(jù)庫中存在沖突,則可以進行進一步的沖突分類處理.

1.5 輸出沖突檢測結果

大數(shù)據(jù)特征集成沖突大致可以分為,幾何空間特征沖突和屬性特征沖突兩種,其中幾何空間特征沖突主要指的是空間實體重要的特征沖突,進行空間數(shù)據(jù)間的幾何沖突檢測,需要對目標對象的幾何特征做出定量和定性分析,并通過合理的方式進行具體描述.在對空間要素點、線、面分析的基礎上,確定了對象間的空間關系的組合,如表1所示.

表1 幾何空間特征沖突關系

在對矢量數(shù)據(jù)自身拓撲邏輯正確性判定的基礎上對空間沖突關系、語義關系的進一步判定可以確定數(shù)據(jù)沖突的存在性[12].屬性特征用于對現(xiàn)實事物或現(xiàn)象的描述決定了不同數(shù)據(jù)源對相同實體對象某種屬性的描述可能相同、相近或有差異.按照兩種沖突的定義實現(xiàn)大數(shù)據(jù)特征集成的沖突分類.

在大數(shù)據(jù)特征集成沖突分類處理完成后,從幾何沖突和屬性沖突兩個方面進行沖突檢測.在沖突檢測中,兩種沖突檢測相結合按照一定的順序進行不同數(shù)據(jù)特征機場的沖突檢測,具體的檢測過程如圖6所示.

圖6 大數(shù)據(jù)特征檢測模型

按照圖中的檢測模型的流程,根據(jù)輸入的數(shù)據(jù)判斷數(shù)據(jù)類型,以不同的特征集成檢測方法.接著將其進行相似度的計算與比較,確認沖突類型輸出檢測結果.

2 對比實驗分析

為了驗證設計的大數(shù)據(jù)特征集成沖突檢測模型的有效性,設計對比實驗.在實驗中針對大數(shù)據(jù)特征集成沖突檢測的召回率和檢測準確率作為實驗的對比參數(shù),以此來判斷檢測模型的性能.

2.1 實驗環(huán)境及數(shù)據(jù)來源

此次對比實驗的實驗環(huán)境選擇操作系統(tǒng)為Windows 7,Intel core i7 6700CPU,ROM內(nèi)存為8GB,且4核心8線程、3.4GHZ主頻的PC機作為對比實驗的主要實驗環(huán)境.選擇的實驗對象來自于中國電子信息數(shù)據(jù)庫中編號A00-B12區(qū)間內(nèi)的數(shù)據(jù),總數(shù)據(jù)量為2 GB.

2.2 對比實驗過程

為了避免大數(shù)據(jù)特征集成沖突的偶然性影響實驗結果,在對比實驗中設置四次沖突檢測,每一次的檢測方法相同.對四次沖突檢測的結果取平均值,作為實驗的最終結果.為凸顯設計檢測模型的性能,在對比實驗中設置傳統(tǒng)的沖突檢測模型作為實驗的對比模型,兩種模型針對相同的實驗對象數(shù)據(jù)進行檢測和分析,在檢測過程中除了使用的檢測方法不同外,其他的參數(shù)數(shù)據(jù)均相同.對比實驗啟動后,首先向數(shù)據(jù)庫發(fā)布存儲以及調(diào)用的指令,使得數(shù)據(jù)庫可以正常的進行日常運作,在大數(shù)據(jù)庫運行過程中將兩種檢測方法同時應用到數(shù)據(jù)庫當中.由于數(shù)據(jù)庫中的數(shù)據(jù)相同,發(fā)布的任務指令也相同,因此兩種檢測模型中產(chǎn)生的特征集成沖突也相同.設定兩個模型的檢測時間相同,在檢測終止后,輸出對應的檢測結果數(shù)據(jù),進行對比分析.

2.3 實驗結果分析

經(jīng)過對比實驗步驟得出兩種沖突檢測模型的檢測結果,對檢測結果進行統(tǒng)計與對比,得出實驗對比結果如表2所示.

表2 實驗結果數(shù)據(jù)對比

表2中的實驗對比結果表明,兩種沖突檢測模型的平均檢測準確率均在80%以上,具有較高的應用價值.在檢測時間方面,設計的特征集成沖突檢測模型的平均檢測時間為3.1 min,比傳統(tǒng)檢測模型節(jié)省3.9 min.在檢測準確率方面,比傳統(tǒng)檢測模型的平均準確率提升了13.04%.

3 結束語

在大數(shù)據(jù)特征集成沖突檢測模型中引入Hough變換算法,在提升檢測準確率的同時,也加快檢測的速度.將該檢測模型應用到實際的大數(shù)據(jù)研究工作當中,也可以起到一定程度的積極作用.但是設計完成的大數(shù)據(jù)特征集成沖突檢測模型尚未對檢測出來的沖突進行有效的處理,針對這一方面還等待進一步研究.

猜你喜歡
信息熵權值沖突
二進制張量分解法簡化神經(jīng)網(wǎng)絡推理計算①
一種融合時間權值和用戶行為序列的電影推薦模型
基于信息熵可信度的測試點選擇方法研究
耶路撒冷爆發(fā)大規(guī)模沖突
強規(guī)劃的最小期望權值求解算法?
近似邊界精度信息熵的屬性約簡
計算機測量與控制(2018年3期)2018-03-27
基于信息熵賦權法優(yōu)化哮喘方醇提工藝
一種基于信息熵的雷達動態(tài)自適應選擇跟蹤方法
論跨文化交流中的沖突與調(diào)解