何南
摘要:傳統(tǒng)數(shù)據(jù)挖掘方法效率過低,利用云計算下的環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘方法則能夠大大提升數(shù)據(jù)挖掘效率。首先需要對環(huán)形網(wǎng)絡(luò)下的數(shù)據(jù)集進行選取,包括大數(shù)據(jù)的協(xié)同挖掘、大數(shù)據(jù)預處理以及數(shù)據(jù)集成,然后進行整個數(shù)據(jù)的規(guī)約與離散化,進而完成大數(shù)據(jù)的協(xié)同挖掘。經(jīng)過實驗數(shù)據(jù)表明,云計算下環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘方法較傳統(tǒng)數(shù)據(jù)挖掘方法效率提升了約1/3,值得對此進行深入研究及推廣。
關(guān)鍵詞:云計算;環(huán)形網(wǎng)絡(luò);大數(shù)據(jù);協(xié)同挖掘
中圖分類號:TP311.13;U675.7?? 文獻標識碼:A?? 文章編號:1672-9129(2020)12-0009-01
前言:傳統(tǒng)數(shù)據(jù)挖掘方式由于缺乏特征提取,因此在效率上非常低,數(shù)據(jù)挖掘的整體有效性顯得不足。而云計算下的環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘方法能夠有效確認數(shù)據(jù)的挖掘范圍,并在大數(shù)據(jù)預處理及集成處理后有效提取到數(shù)據(jù)的特征,經(jīng)過數(shù)據(jù)歸約與離散化從而提升數(shù)據(jù)挖掘的效率。本文將就此進行詳細分析。
1 環(huán)形網(wǎng)絡(luò)下的數(shù)據(jù)集選取
1.1大數(shù)據(jù)的協(xié)同挖掘。在大數(shù)據(jù)協(xié)同挖掘進行過程中,首先需要確認好云計算接口,在硬件及軟件的支撐下選取合適的數(shù)據(jù)集,在微處理器的作用之下完成整個挖掘工作。其中數(shù)據(jù)集的選取極為關(guān)鍵,需要具備一定的代表性,因此可以采用特征提取技術(shù),確認好數(shù)據(jù)相關(guān)性系數(shù)、數(shù)據(jù)坐標參數(shù)、數(shù)據(jù)模糊度等各項指標。而后再在數(shù)據(jù)分離技術(shù)的作用下根據(jù)同性數(shù)據(jù)組方程實現(xiàn)科學的數(shù)據(jù)集選取。
1.2大數(shù)據(jù)預處理。在選定好數(shù)據(jù)集之后,接下來需要對大數(shù)據(jù)進行預處理,通常采用Client/Server模式,主要是因為該模式的數(shù)據(jù)處理能力相比其他模式會更強,對于環(huán)形網(wǎng)絡(luò)而言也會更為適用。大數(shù)據(jù)預處理的流程圖如圖1所示:
從圖1可以看出,大數(shù)據(jù)協(xié)同挖掘數(shù)據(jù)的預處理過程主要分為數(shù)據(jù)采集、數(shù)據(jù)挖掘以及結(jié)果輸出三個板塊,其中數(shù)據(jù)采集包含數(shù)據(jù)庫、數(shù)據(jù)倉庫以及其他數(shù)據(jù)源;數(shù)據(jù)挖掘包括數(shù)據(jù)挖掘引擎和知識庫;結(jié)果輸出包括數(shù)據(jù)輸出結(jié)果和可視化用戶界面。在進行數(shù)據(jù)預處理時,先將需要處理的數(shù)據(jù)放至數(shù)據(jù)倉庫,選取非數(shù)據(jù)性特征集合后再移至數(shù)據(jù)庫,連同其他的數(shù)據(jù)源對數(shù)據(jù)關(guān)系、數(shù)據(jù)特征等進行預處理。
1.3數(shù)據(jù)集成。經(jīng)過大數(shù)據(jù)預處理之后,形成了更準確的數(shù)學模型,要想實現(xiàn)大數(shù)據(jù)的有效協(xié)同挖掘,還需要進行相應(yīng)預挖掘過程。通過預處理得到的數(shù)據(jù)模型再建立在挖掘向?qū)У淖饔孟聦?shù)據(jù)關(guān)系進行準確定義,由此能夠?qū)φ麄€數(shù)據(jù)進行集成處理。實際上數(shù)據(jù)的預挖掘過程就是數(shù)據(jù)的篩選過程,同樣數(shù)據(jù)集成也是如此,但與數(shù)據(jù)預處理又存在本質(zhì)上的差別,主要是將選取好的數(shù)據(jù)在某種標準之下完成篩選和擬合,預挖掘也就成了準備階段。大致步驟如下:在原始數(shù)據(jù)提取之后,先通過數(shù)據(jù)的預處理,進而抽取到正確可靠的數(shù)據(jù),再通過挖掘算法進行挖掘內(nèi)核,進行相關(guān)模式的整合,通過模式的表達與解釋篩選出最恰當?shù)哪J?,再?jīng)過挖掘向?qū)мD(zhuǎn)至挖掘內(nèi)核,由此形成一個循環(huán)過程,最終確定合適的模式,轉(zhuǎn)接至用戶。
在這個過程中需要確定好相應(yīng)的數(shù)據(jù)集成導入方程,并確認好數(shù)據(jù)預處理數(shù)據(jù)量、數(shù)據(jù)大小、數(shù)據(jù)長度以及數(shù)據(jù)產(chǎn)生的隨機性。由于在數(shù)據(jù)特征值處理過程中不同的特征值處理的方式存在差異,因此還需要建立起與不同挖掘點相匹配的索引函數(shù),進而能夠更加有效的對挖掘點進行數(shù)據(jù)挖掘,并使覆蓋面能夠與挖掘點有效契合。
2 數(shù)據(jù)歸約與離散化
云計算下環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘過程中數(shù)據(jù)的規(guī)約與離散化是核心程序,經(jīng)過此項步驟后才能夠真正實現(xiàn)數(shù)據(jù)的有效挖掘。首先是數(shù)據(jù)歸約處理,應(yīng)當對相關(guān)數(shù)據(jù)集合進行相應(yīng)的標識,因為在數(shù)據(jù)挖掘的過程中有可能因為數(shù)據(jù)量過大的緣故而產(chǎn)生數(shù)據(jù)歸約大范圍誤差,進行特征性標識后依托歸約函數(shù)能夠使得歸約更為有序。在這個過程中主要提取的參數(shù)包含調(diào)劑系數(shù)、規(guī)范范圍、數(shù)據(jù)的持續(xù)變化量等等。對數(shù)據(jù)進行歸約處理后能夠得到一個基本特征值,而這個特征值是基于某一個特征點提取出來的,也就是說在整個數(shù)據(jù)集中能夠得到多個基本特征值,對這些特征值進行離散化計算,由此能夠有效實現(xiàn)云計算下環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)的協(xié)同挖掘。
3 結(jié)語
傳統(tǒng)數(shù)據(jù)挖掘效率太低,為了能夠?qū)⒋藸顩r進行改進,本文提出了云計算下環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘,在進行數(shù)據(jù)挖掘之前需要對數(shù)據(jù)類型、計算方式、網(wǎng)絡(luò)拓撲結(jié)構(gòu)以及數(shù)據(jù)通信協(xié)議等進行確認,經(jīng)過大數(shù)據(jù)的協(xié)同挖掘和大數(shù)據(jù)預處理后實現(xiàn)環(huán)形網(wǎng)絡(luò)下的數(shù)據(jù)集選取。再進行協(xié)同挖掘的核心程序數(shù)據(jù)規(guī)約與離散化,進而能夠完成整個大數(shù)據(jù)協(xié)同挖掘過程。通過實驗表明,基于云計算的環(huán)形網(wǎng)絡(luò)大數(shù)據(jù)協(xié)同挖掘較傳統(tǒng)數(shù)據(jù)挖掘方式效率上約提升1/3,值得進行深入研究和推廣。
參考文獻:
[1]胡金蓉,鄒茂揚,文武,周子龍.大數(shù)據(jù)驅(qū)動的學習分析技術(shù)研究進展[J].現(xiàn)代電子技術(shù),2020,43(18):54-58.
[2]尹旭熙.基于大數(shù)據(jù)分析技術(shù)的多源監(jiān)控信息挖掘方法研究[J].電子設(shè)計工程,2020,28(17):52-55+60.
[3]張翔,魏小鵬.醫(yī)院面向健康服務(wù)管理的大數(shù)據(jù)有效挖掘方法研究[J].中國衛(wèi)生信息管理雜志,2020,17(03):279-284.
[4]鄭憲秋.基于時空約束和小波設(shè)計的非侵入式負載數(shù)據(jù)協(xié)同挖掘算法[J].西安工程大學學報,2019,33(06):643-648.
[5]廖彬,張?zhí)眨诰?,黃靜萊,國冰磊,劉炎.多MapReduce作業(yè)協(xié)同下的大數(shù)據(jù)挖掘類算法資源效率優(yōu)化[J].計算機應(yīng)用研究,2020,37(05):1321-1325.