秦 蓉
(長治職業(yè)技術(shù)學院 信息工程系,山西 長治 046000)
云環(huán)境下的信息分類算法研究
秦 蓉
(長治職業(yè)技術(shù)學院 信息工程系,山西 長治 046000)
現(xiàn)如今,隨著科技的飛速發(fā)展,信息技術(shù)在人們的生活生產(chǎn)中,發(fā)揮了重要的作用.而隨著數(shù)據(jù)信息的爆炸式增長,傳統(tǒng)的信息分類方式面臨著許多新的問題和挑戰(zhàn),顯然不能滿足要求,由此,云計算應(yīng)運而生.云計算,通過分布式處理的方式來對信息進行處理,提高了時間效率,具有很高的實用價值.文章從云環(huán)境的背景下,對樸素貝葉斯信息分類算法進行改進和分析研究.
云計算;信息分類算法;樸素貝葉斯
樸素貝葉斯算法在信息分類中應(yīng)用廣泛,是一種重要的信息分類方法.樸素貝葉斯算法重要通過先驗概率的計算來得到待分類結(jié)果.樸素貝葉斯算法的分類思想是:對待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,選擇概率值最大的分類作為最終的分類結(jié)果.樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法.
首先給出貝葉斯公式:
(1)
其中,P(Ci)表示類別Ci在整個C集合中的概率,稱先驗概率,P(X|Ci)表示事件X在類別Ci中的概率,稱條件概率.
樸素貝葉斯分類的定義為:
設(shè)X={a1,a2,…,an}為待分類樣本,ai為X的特征屬性,存在類別集合C={C1,C2,…,Cm},若滿足公式(2),則X∈Cp(p∈[1,m]).
(2)
樸素貝葉斯算法的運行步驟主要分為以下三個階段:
首先是數(shù)據(jù)處理階段,在這個過程中,需要根據(jù)具體情況確定特征屬性,之后形成訓練樣本集合.特征屬性的確定對后面的分類具有重要的影響,這一階段的工作需要人工完成.
其次訓練階段,這一過程,要對每個類別在訓練樣本中出現(xiàn)的頻率和每個特征屬性劃分對每個類別的條件概率估計,之后記錄結(jié)果.在這一過程中,輸入的數(shù)據(jù)處理階段得到的特征屬性和訓練樣本.輸出的是特征屬性和各類別的概率值.這一過程可由程序自動計算完成.
最后是應(yīng)用階段,這一階段的任務(wù)是通過計算得到各類別的概率分布,最終選擇概率最高的類別作為最終的分類結(jié)果.此階段,輸入是訓練階段的輸出值,輸出是各類別的概率統(tǒng)計值以及最終的信息分類結(jié)果.
環(huán)境是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加,使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬化的資源. 云環(huán)境依賴于計算機集群進行任務(wù)處理,以分布式計算的方式來解決大規(guī)模數(shù)據(jù)的計算任務(wù).
現(xiàn)階段,云計算技術(shù)已逐漸成熟,Hadoop就是云環(huán)境的典型代表,大規(guī)模的信息數(shù)據(jù)通過Hadoop云平臺完成數(shù)據(jù)存儲,以及數(shù)據(jù)處理等操作.Hadoop以HDFS作為云存儲平臺,存儲在 HDFS 中的文件被分成塊,然后將這些塊復制到多個計算機中,緩解了存儲壓力.MapReduce作為分布式的編程模型,系統(tǒng)自動將一個作業(yè)(Job)待處理的大數(shù)據(jù)劃分為很多個數(shù)據(jù)塊,每個數(shù)據(jù)塊對應(yīng)于一個計算任務(wù)(Task),并自動調(diào)度計算節(jié)點來處理相應(yīng)的數(shù)據(jù)塊.作業(yè)和任務(wù)調(diào)度功能主要負責分配和調(diào)度計算節(jié)點(Map節(jié)點或Reduce節(jié)點),同時負責監(jiān)控這些節(jié)點的執(zhí)行狀態(tài),并負責Map節(jié)點執(zhí)行的同步控制.
云環(huán)境的廣泛應(yīng)用,為大規(guī)模的信息數(shù)據(jù)提供了一種高效的處理方式,下面將在云環(huán)境下對傳統(tǒng)樸素貝葉斯算法進行改進.
傳統(tǒng)的樸素貝葉斯算法是以集中處理的方式進行工作.為適應(yīng)云環(huán)境的特點,需要將樸素貝葉斯算法進行改進,由集中式變?yōu)榉植际?需要分別針對樸素貝葉斯算法運行的三個階段進行并行化改進,將算法改寫成以MapReduce并行化方法進行處理.在數(shù)據(jù)訓練階段和應(yīng)用階段可采用分布式處理的方式.
數(shù)據(jù)訓練階段,統(tǒng)計特征屬性的頻率和每個類別在訓練樣本中出現(xiàn)的頻率改寫成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對
應(yīng)用階段,計算個類別的概率分布改寫為分布式處理方式,同樣寫成Map任務(wù)和Reduce任務(wù),數(shù)據(jù)的輸入、輸出均以鍵值對
利用樸素貝葉斯算法對信息進行分類的具體步驟為:
Step1 對所有信息進行數(shù)據(jù)預處理,過濾不滿足要求的數(shù)據(jù);
Step2 設(shè)訓練樣本數(shù)目為S,類Ci的樣本數(shù)Si,類Ci存在屬性ak的樣本數(shù)為Sik;
Step4 利用Step3訓練模型,將待測試的評論集合代入公式(2)中計算,得到信息X的分類結(jié)果.
對應(yīng)本文中利用樸素貝葉斯進行信息處理過程,MapReduce 的工作流程為:首先將信息分詞處理,之后交給Mapper處理,處理后的結(jié)果重新進行分區(qū)映射,之后交給相應(yīng)的Reducer處理,產(chǎn)生的結(jié)果可以存儲在HDFS上,分別由集群中的各節(jié)點管理.Mapper(映射)過程首先讀取SequenceFile中的每一行,之后進行解析,將數(shù)據(jù)信息先交由Map處理,以鍵值對的形式進行讀取,之后則產(chǎn)生另一個鍵值對輸出.之后交由Reduce處理,Reduce階段處理后得到的輸出結(jié)果也是鍵值對形式,鍵值對中的key值表示是所有的類別,value值在每一個類別下所對應(yīng)的概率值.
本文主要研究了云環(huán)境下的樸素貝葉斯信息分類算法.首先對樸素貝葉斯算法進行了分析,根據(jù)樸素貝葉斯算法的特點,根據(jù)云環(huán)境的具體需求,對傳統(tǒng)的樸素貝葉斯算法進行了改進,使其滿足分布式處理的要求,在大規(guī)模數(shù)據(jù)信息的處理要求下,提高了時間效率,為云環(huán)境下信息分類技術(shù)的發(fā)展奠定了基礎(chǔ).
[1] LANGLEY P,THOMPSON K.An analysis of Bayesian classifiers[C]//Proceedings of the 10 th National Conference on Artificial Intelligence,1992:223-228
[2] LIN C J.On the convergence of the decomposition method for support vector machines[J].IEEE Transactions on Neural Networks,2001,12(6):1288-1298
[3] 陳 康,鄭緯民.云計算:系統(tǒng)實例與研究現(xiàn)狀[J].軟件學報,2009,20(5):1337-1348
[4] HAN J W,KAMBER M.數(shù)據(jù)挖掘概念與技術(shù)[M].范 明,孟小峰,譯.北京:機械工業(yè)出版社,2007
Cloud Environment Information Classification Algorithms
QIN Rong
(Department of Information Engineering Changzhi Vocational and Technical College,Changzhi 046000, China)
The current, with the rapid development of science and technology, information technology in the production of people's lives, play an important role. And as the explosion of data and information, traditional way of information classification is faced with many new problems and challenges, obviously can not meet the requirements, thus, cloud computing arises at the historic moment. Cloud computing, distributed processing ways for information processing, improve the efficiency of the time, has the very high practical value. Under the background of this article from the cloud environment, information on naive bayes classification algorithm to improve the research and analysis.
cloud computing;information classification algorithms;naive bayes
2015-10-14
秦 蓉(1982-),女,山西省長治人,碩士,長治職業(yè)技術(shù)學院助教,主要從事計算機數(shù)據(jù)庫及網(wǎng)絡(luò)研究.
1672-2027(2015)04-0068-02
TP391
A