国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談通信網(wǎng)絡的大數(shù)據(jù)相關性分析算法

2020-02-22 03:35:44陳國靖
電腦知識與技術 2020年36期
關鍵詞:通信網(wǎng)絡大數(shù)據(jù)

陳國靖

摘要:傳統(tǒng)通信網(wǎng)絡大數(shù)據(jù)相關性分析算法在進行相關性分析的時候存在較大的弊端,主要是內存占比嚴重影響了相關性分析的速度。本文展開了對通信網(wǎng)絡大數(shù)據(jù)相關性分析算法的研究,希望能夠進一步解決其中存在的問題。

關鍵詞:通信網(wǎng)絡;大數(shù)據(jù);相關性分析算法

中圖分類號:TP393? ? ? ?文獻標識碼:A

文章編號:1009-3044(2020)36-0057-03

通信網(wǎng)絡大數(shù)據(jù)相關性分析是指在進行大數(shù)據(jù)相關性分析中不存在控制變量,對無控制變量相關性分析的依據(jù)主要是樣本類型。本文的研究主要是對隱藏在通信網(wǎng)絡大數(shù)據(jù)之間的規(guī)律。傳統(tǒng)通信網(wǎng)絡大數(shù)據(jù)相關性分析已經(jīng)無法適應當前網(wǎng)絡大數(shù)據(jù)相關性分析的要求,無論是在存儲能力還是計算能力上都已經(jīng)嚴重阻礙了大數(shù)據(jù)相關性分析的發(fā)展,本文的研究也是為了解決內存占比大以及計算效率較低的問題。

1 大數(shù)據(jù)典型特征與維度

人類進入大數(shù)據(jù)時代以后,大數(shù)據(jù)分析就面臨著更高的要求,由于大數(shù)據(jù)的數(shù)據(jù)特征,使得大數(shù)據(jù)分析需要在幾小時內完成數(shù)以百萬次計算的動態(tài)數(shù)據(jù)集。大數(shù)據(jù)最基本的特征就是海量的數(shù)據(jù),其次是大數(shù)據(jù)結構較為復雜,數(shù)據(jù)類型復雜多樣,沒有辦法進行批量處理,大數(shù)據(jù)并不是分布在某一個集中地地方,而是非常分散的,所以處理的時候不能夠集中進行處理。新時期大數(shù)據(jù)典型特征主要有以下幾種。

Volume:大數(shù)據(jù)產(chǎn)生的速度非??欤糠昼姶髷?shù)據(jù)的數(shù)量都會翻幾倍,并且這種增長速度還是持續(xù)增長。

Variety:數(shù)據(jù)格式多種多樣,沒有辦法進行直接有效地處理

Velocity:數(shù)據(jù)在不斷增多的同時,數(shù)據(jù)之間的關系也在不斷變化,并且隨著數(shù)量增多關系會變得錯綜復雜。

Varacity:大數(shù)據(jù)能夠為決策者提供數(shù)據(jù)依據(jù),幫助決策者確認決策的正確性。

Complexity:大數(shù)據(jù)的來源多種多樣,產(chǎn)生于多種終端,聚合十分復雜。

換一個角度來研究大數(shù)據(jù)的特征,從數(shù)據(jù)存儲、挖掘、分析等角度來看,大數(shù)據(jù)具有以下幾種特征:

Cardinality:對象集合化,數(shù)據(jù)集合對數(shù)據(jù)的記錄特征和記錄數(shù)量進行了定義;

Continuity:涵蓋了大數(shù)據(jù)表達特征以及大數(shù)據(jù)占據(jù)空間;

Complexity:大數(shù)據(jù)的負載型具有單個維度上的特征,第一是數(shù)據(jù)類型具有廣泛的變化范圍,第二是數(shù)據(jù)集的維度非常高,第三是在處理速度上具有較高的要求。

大數(shù)據(jù)分析的核心是數(shù)據(jù)大小和復雜度,這兩個方面的因素決定了方案的可行性,只有在分析方案中處理好數(shù)據(jù)大小和數(shù)據(jù)復雜度,才能夠獲取科學地分析數(shù)據(jù),才能夠使得大數(shù)據(jù)分析結果產(chǎn)生較大的價值。例如傳統(tǒng)課堂向在線教育的模式轉變,使得全球各地的學生都能夠通過網(wǎng)絡進行學習,在互聯(lián)網(wǎng)虛擬化的平臺中產(chǎn)生了大量的互聯(lián)網(wǎng)數(shù)據(jù),這些數(shù)據(jù)都是大數(shù)據(jù)的組成部分,并且數(shù)據(jù)每天都在成倍地增加,在線教育所產(chǎn)生的交互數(shù)據(jù)和形式每天都在不斷地更新。如今的在線教育具有非常鮮明的數(shù)據(jù)源特征?,F(xiàn)在的在線教育所使用的教材都是電子化的教材,電子化形式的教材形成了大量的網(wǎng)絡數(shù)據(jù),還有系統(tǒng)自身運行的各種數(shù)據(jù)信息,在線教育平臺服務器運行的各項數(shù)據(jù)信息,以及學生在設計平臺或者在線教育平臺中發(fā)表言論都是大數(shù)據(jù)組成的重要內容。在線教育只是眾多大數(shù)據(jù)產(chǎn)生源中的一種,面對多樣化的數(shù)據(jù),為了更好地利用好各種大數(shù)據(jù),加強對大數(shù)據(jù)之間的相關性分析,提高相關性分析算法的運算能力,更好地服務于社會。

2 通信網(wǎng)絡大數(shù)據(jù)相關性分析算法研究

2.1確定通信網(wǎng)絡大數(shù)據(jù)相關性分析算法參數(shù)

在利用通信網(wǎng)絡大數(shù)據(jù)相關性分析算法對關聯(lián)規(guī)則進行分析挖掘的時候,需要對其中的參數(shù)值進行確定,每一個算法都具有一個參數(shù)值,并且中間還存在一個決策變量,我們要對這個決策變量的數(shù)值進行確定。這些數(shù)量眾多的參數(shù)最終可以組成一個集合,這個集合我們稱之為有效解,每一個相關性參數(shù)都存在一個理想的數(shù)值,這個數(shù)值我們叫作滿意值,通過決策者對這些參數(shù)賦予滿意值然后進行比較選擇最終的參數(shù)。在比較的過程總存在一個期望值和一個實際值,而在對通信網(wǎng)絡大數(shù)據(jù)相關性分析算法有效解確定的時候,需要利用到期望值和實際值之間的偏差,通過這種偏差來求的有效解。在確定通信網(wǎng)絡大數(shù)據(jù)相關性分析算法的參數(shù)之前,首先要設計一個期望目標,這個期望目標是一個理想化的參數(shù),其范圍在,$fi^{*} (i=1,2,3,\ldots k)。權重系數(shù)是每一個相關性參數(shù)都會具備的,并且存在一個范圍,$fi^{*} (i=1,2,3,\ldots k)$。因此,確定通信網(wǎng)絡大數(shù)據(jù)相關性分析算法首先需要對相關性參數(shù)的期望值進行確定,對每一個期望值賦予一個優(yōu)先因子,有效解就可以表示為:

pearson()參數(shù)條件計算公式為:

上述公式中的x,y分別代表著通信網(wǎng)絡大數(shù)據(jù)相關性異常值和通信網(wǎng)絡大數(shù)據(jù)相關程度,可以很明顯看出,相關性異常值為零或者不存在異常值的時候,x,y呈負相關,但是相關性異常值的變化會導致計算公式的計算結果出現(xiàn)不同。

2.2網(wǎng)絡大數(shù)據(jù)相關性驅動映射

通過確定通信網(wǎng)絡大數(shù)據(jù)相關性分析算法參數(shù)值,可以在此基礎上對通信網(wǎng)絡大數(shù)據(jù)進行結構化向非結構化轉化,利用驅動映射生成相關性結構通信網(wǎng)絡數(shù)據(jù),進而網(wǎng)絡大數(shù)據(jù)相關性驅動映射,網(wǎng)絡大數(shù)據(jù)相關性驅動映射的具體模式圖如圖1所示。

3 大數(shù)據(jù)相關規(guī)則挖掘

3.1準備工作

通過大數(shù)據(jù)相關性分析對商品之間的關聯(lián)度進行挖掘,找出不同商品之間的關系,通過關聯(lián)規(guī)則實現(xiàn)高效精準的數(shù)據(jù)挖掘。關聯(lián)規(guī)則最初就是為了探究購物者購物籃中的物件之間的關系,有的客戶購買了某件商品的同時大概率會購買另外一件商品,通過這種關聯(lián)規(guī)則挖掘能夠找出商品之間的關系,了解購物者的喜好,知道顧客習慣將哪些商品放到一起購買,通過這種關聯(lián)性分析將商場的貨物進行重新擺放,發(fā)現(xiàn)顧客購物籃中不同商品之間的關聯(lián),分析顧客的購物習慣。通過挖掘這種關聯(lián)性,可以幫助商場更好地把握住客戶的購物心理。

在分析ab兩個商品的購買相關性的時候,從a→b代表著客戶購買了a商品之后購買商品b的概率,通過相關性分析算法對兩者之間的關聯(lián)度進行有效的分析計算。在對兩者之間的關聯(lián)規(guī)則進行挖掘的時候,首先要從很多的資料合集中找出我們需要的頻繁項目集,這個項目集通常是滿足最低支持度的。然后我們要通過這些頻繁項目集找出我們需要的關聯(lián)規(guī)則。置信度的計算公式如下。

Apriori算法是我們在關聯(lián)規(guī)則算法中使用最多的一種算法,該算法是在1993年的時候提出的,其核心思想是遞推算法,該遞推算法是在兩個階段頻繁集思想的基礎上產(chǎn)生的,該算法的主要思想是為了在龐大的數(shù)據(jù)中找出最大的一個頻繁項集,利用得到的最大頻繁項集與預先設定的最小置信度閾值生成強關聯(lián)規(guī)則。但是Apriori算存在兩個較大的缺點,首先就是該算法會產(chǎn)生大量的候選集,嚴重影響最大頻繁項集的產(chǎn)生;第二是該算法會重復掃描數(shù)據(jù)庫,導致無法有效提升效率。除此之外,通過該算法進行分析還要不斷地刪除一部分記錄,主要是隨著時間的推移,數(shù)據(jù)在不斷地增長,數(shù)據(jù)挖掘的難度會越來越大,只有刪除一部分記錄才能夠進一步進行分析計算,這也是關聯(lián)規(guī)則中需要不斷改進的重要問題。關聯(lián)規(guī)則的主要目的就是從大量的事務集中挖掘出滿足支持度和置信度最低比值要求的所有的強關聯(lián)規(guī)則。也就是說判定一個規(guī)則是不是強關聯(lián)規(guī)則的重要標準就是看這個規(guī)則的置信度和支持度,這兩個標準如果能夠滿足預算設定的閾值,那么這條規(guī)則就是強關聯(lián)規(guī)則。

3.2相關規(guī)則的基本概念

在對規(guī)則進行刻畫的時候,要注意規(guī)則前后的關聯(lián)度,例如刻畫a到b之間的相關性,就需要一個指標對這個相關度進行標示,這個指標代表著規(guī)則a到b兩者的關聯(lián)度,這個指標的取值區(qū)間都在區(qū)間(0,1)之間,并且指標接近于1的時候就會呈現(xiàn)出較強的相關度,相反則會呈現(xiàn)較弱。在公式中相關決策技術表中的信息值為N,這個數(shù)值表示在以往的數(shù)據(jù)中出現(xiàn)的次數(shù),也就是在對某個規(guī)則的相關度進行計算的時候,只要設定好了K值,就能夠在相關決策技術表中查看到。

在這個計算公式中,在原有的置信度度的計算公式分母中添加了一個參數(shù),這個參數(shù)我們稱之為k,當k值從0到100不斷變化的時候,置信度也會跟隨著不斷變化,對規(guī)則的關聯(lián)性進行挖掘也會發(fā)生變化,在不同的k值會將很多沒有用的較低支持度的規(guī)則進行過濾,留下來的都是具有加強支持度和高置信度的規(guī)則。在相關性算法公式中,通過合并置信度和支持度兩個指標然后對規(guī)則的關聯(lián)性進行刻畫,從而更好地分析關聯(lián)性的強弱。通過試驗證明的切實可行的做法,在實驗中通過證明k值最大的時候,能夠將支持度較低的一些規(guī)則進行過濾,然后直接選擇一些關聯(lián)度較高的規(guī)則作為相關推薦。

通過計算,當k=0的時候,相關度等于置信度,在k=10的時候,一些支持度較小的規(guī)則就被直接過濾掉了,隨著k值逐漸加大,過濾掉的規(guī)則就變得越來越多,當k=50的時候,支持度較低的規(guī)則就全被過濾掉了,存在的一些規(guī)則的關聯(lián)度都超過的0.5,說明其支持度非常高,兩者的關聯(lián)度也較高。可見k值在不斷增大的過程中不斷地過濾著較低支持率的規(guī)則,最終得到的都是一些具有較高支持度和置信度的規(guī)則。

在關聯(lián)規(guī)則中需要對支持度和置信度進行最低閉值的設置,通過設置這個閉值來確定相關度的下界,對于兩個指標的下界進行調整的方法通常都是采用調整參數(shù)k的方法,只需要對這一個參數(shù)值進行調整就能夠調整這個計算公式中的置信度以及支持度,低支持度的規(guī)則會在k值得不斷變化中逐漸被過濾掉。也就是說當#A很小的時候,k值越大,這個數(shù)值在分母中所起到的作用就越大,到了一定程度的時候甚至起到了決定性的作用。當k值足夠大的時候,較低支持度的規(guī)則具有較低的相關度,在相關度計算公式中可以通過調整k值的大小來對規(guī)則進行過濾,過濾掉一些支持度較低的規(guī)則,這是相關度規(guī)則挖掘算法中較為先進的一項技術,通過不斷地改進能夠實現(xiàn)過濾一些具有較大偶然性的低支持度以及一些高置信度的規(guī)則,但是關聯(lián)規(guī)則是不可能對這些規(guī)則進行主動篩選的,其篩選規(guī)則具有較大的偶然性。相關度的計算公式就是置信度調整以后的公式,將一個k值添加到置信度的分母上,通過調節(jié)k值大小來調節(jié)規(guī)則過濾情況,因此置信度的相關度總是很大于每一條規(guī)則的相關度。只有當一條規(guī)則的支持度和置信度都很大的時候,相關度才會變大,也就是要同時滿足高支持度和高置信度兩個必要的條件,當相關度存在下界,那么支持度和置信度都會存在下界。

3.3算法性能分析

本文的測試數(shù)據(jù)都是根據(jù)試驗記錄的真實數(shù)據(jù),通過對cam算法的驗證,判斷大數(shù)據(jù)相關性分析中該算法對大數(shù)據(jù)相關性分析所產(chǎn)生的影響,為了方便理解,本文所用數(shù)據(jù)都是具有真實可信的數(shù)據(jù)。在本次的測試中,充分利用了cam的重要測試功能,對本文的相關性研究起到了重要的幫助作用。通過cam進行預算之后本文繪制了離散點圖,離散點圖是我們將抽象數(shù)據(jù)進行可視化的重要方法之一,將cam的運算結果進行可視化方便我們進行研究分析,在離散點途中橫坐標和縱坐標分別代表著數(shù)學測試成績和知識拓展測試成績,在cam的運算中我們得到了一個相關度為0.53162455的結果,這個結果就代表著兩個測試成績之間的相關度。從運算結果中可以看出,兩個測試成績之間存在著一種正相關的關系,一個變化會帶動另一個成正向變化。

啟動線性回退代碼如下:

線性回退在輸入數(shù)據(jù)對應的變量以及相關函數(shù)擬合運算基礎上得出的最佳擬合,能夠對回退函數(shù)進行預測,同時可以對數(shù)據(jù)特征進行有效識別。在對數(shù)據(jù)的相關特征進行分析的時候需要運用到線性回退的結果,通過分析數(shù)據(jù)的變化特征和變化趨勢實現(xiàn)數(shù)據(jù)目標變量的分析。在本文的研究中,利用計算機對數(shù)學成績進行預測的時候采用了線性回退的結果,對兩者的關系也實現(xiàn)相關性的分析。

4 結語

隨著科學技術的不斷進步,人們對于通信網(wǎng)絡大數(shù)據(jù)相關性分析算法的研究還在不斷地深入,相關性分析算法也在不斷地改善和推進,相關性分析的速度逐步提升,效率也得到了大幅度提升。

參考文獻:

[1] 安強強,李趙興,張峰,等.基于機器學習的通信網(wǎng)絡非結構化大數(shù)據(jù)分析算法[J].電子設計工程,2018,26(14):53-56.

[2] 李業(yè)偉.基于車聯(lián)網(wǎng)大數(shù)據(jù)的交通路況預測研究[J].信息通信技術,2017,11(6):74-78.

[3] 徐全盛,葛林強,鄒勤宜.基于大數(shù)據(jù)分析的無線通信技術研究[J].通信技術,2016,49(12):1635-1641.

[4] 亢華愛.面向機器學習的通信網(wǎng)絡大數(shù)據(jù)相關性分析算法研究[J].激光雜志,2016,37(8):145-148.

[5] 薛禹勝,賴業(yè)寧.大能源思維與大數(shù)據(jù)思維的融合(二)應用及探索[J].電力系統(tǒng)自動化,2016,40(8):1-13.

【通聯(lián)編輯:唐一東】

猜你喜歡
通信網(wǎng)絡大數(shù)據(jù)
淺談通信網(wǎng)絡安全維護中的常見問題及對策
空間激光通信研究及發(fā)展趨勢
物聯(lián)網(wǎng)關鍵技術的發(fā)展對通信網(wǎng)絡的影響
軍民融合背景下通信網(wǎng)絡協(xié)調發(fā)展策略
電力系統(tǒng)通信的網(wǎng)絡安全問題
基于數(shù)字總線技術的民用飛機客艙系統(tǒng)通信網(wǎng)絡
科技視界(2016年23期)2016-11-04 20:14:00
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
弥渡县| 开封市| 丰顺县| 孟连| 咸阳市| 广水市| 南宫市| 龙山县| 介休市| 南雄市| 娱乐| 镇赉县| 舒城县| 定安县| 罗定市| 西林县| 弥勒县| 和静县| 堆龙德庆县| 涞水县| 隆林| 泊头市| 成安县| 正定县| 乳源| 永善县| 荆门市| 三门县| 佛学| 兴安县| 太和县| 张掖市| 大足县| 阿拉善右旗| 莫力| 伊金霍洛旗| 博乐市| 无锡市| 钟祥市| 罗江县| 皮山县|