国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

分布式天牛群優(yōu)化算法在分類中的應(yīng)用

2022-02-28 08:45:36陳宏偉楊威威楊智慧
關(guān)鍵詞:天牛牛群適應(yīng)度

黃 嵩,陳宏偉,邊 帆,楊威威,楊智慧

(湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖北 武漢 430068)

邏輯回歸分類器作為一種文本情感分類器在自然語(yǔ)言處理中得到了廣泛的應(yīng)用,它的一些參數(shù)通常由人為經(jīng)驗(yàn)設(shè)定,容易欠擬合,無(wú)法達(dá)到最佳分類效果。為了解決上述類似的問(wèn)題,一些研究人員選擇使用群智能算法來(lái)優(yōu)化分類模型的超參數(shù)[1-3],使得優(yōu)化后的模型在處理分類問(wèn)題時(shí)性能有所提高。因此,通過(guò)優(yōu)化模型的關(guān)鍵參數(shù),可以進(jìn)一步提高邏輯回歸分類器模型在文本情感分類的準(zhǔn)確率。本文提出了天牛群優(yōu)化算法(BSO)來(lái)優(yōu)化Logistic回歸分類器模型的參數(shù),該模型可以通過(guò)BSO算法自適應(yīng)調(diào)整參數(shù)并獲得最佳分類結(jié)果。BSO算法是2017年由Jiang[4]等提出的一種新的生物啟發(fā)式智能算法Beetle Antennae Search Algorithm(BAS)演化而來(lái)。受粒子群算法(PSO)的啟發(fā),結(jié)合BAS和PSO算法的優(yōu)點(diǎn)[5-7],將研究對(duì)象從天牛個(gè)體擴(kuò)展到天牛群體,既保留了天牛個(gè)體的特征,又包含了群算法的優(yōu)點(diǎn),在一定程度上解決算法的單一性,提高算法的局部和全局尋優(yōu)能力。

針對(duì)大規(guī)模計(jì)算中文本數(shù)據(jù)量大、時(shí)間復(fù)雜度高的問(wèn)題, 本文提出一種基于Spark計(jì)算框架的分布式BSO算法。實(shí)驗(yàn)采用推特評(píng)論數(shù)據(jù)集,通過(guò)提出的算法模型對(duì)評(píng)論文本進(jìn)行情感傾向分類。實(shí)驗(yàn)結(jié)果表明,分布式BSO算法在保證模型分類精度的基礎(chǔ)上,能夠更快、更有效地找到最優(yōu)參數(shù)組合。

1 IM-BSO算法的原理與改進(jìn)策略

1.1 學(xué)習(xí)因子與慣性權(quán)重的自適應(yīng)調(diào)整策略

在一般情況下,BSO算法的學(xué)習(xí)因子與慣性權(quán)重被設(shè)置為常數(shù),這樣做無(wú)法使算法達(dá)到最優(yōu),且影響算法的效率。一些學(xué)者提出自適應(yīng)的動(dòng)態(tài)調(diào)整學(xué)習(xí)因子[8-9]與權(quán)重[10-11]的策略。本文采取如下策略:

(1)

(2)

其中C1和C2是學(xué)習(xí)因子,ω為慣性權(quán)重,Gbest為全局最優(yōu)值,fitness為適應(yīng)度值,t和T_max分別是當(dāng)前迭代次數(shù)和最大迭代次數(shù)。

由式(2)知,天牛個(gè)體的適應(yīng)度值比較小的時(shí)候,它的權(quán)重值就會(huì)比較大,因?yàn)楫?dāng)前天牛個(gè)體所在的位置比較差,需要加大搜索的步長(zhǎng),以便能搜索到更好的位置。而當(dāng)天牛個(gè)體的適應(yīng)度值比較大的時(shí)候,它的權(quán)重值就會(huì)比較小,因?yàn)楫?dāng)前天牛個(gè)體所在的位置已經(jīng)很好了,只需緩慢地搜索到全局最優(yōu)的位置,避免出現(xiàn)過(guò)擬合現(xiàn)象。

1.2 精英反向?qū)W習(xí)策略

(3)

其中,xmin和xmax是天牛個(gè)體位置的取值區(qū)間的最小值和最大值。精英學(xué)習(xí)的具體步驟如:

1.3 K均值聚類

K-means是機(jī)器學(xué)習(xí)中最常用的聚類方法,它的原理是求解數(shù)據(jù)點(diǎn)間的歐氏距離,然后根據(jù)距離的大小來(lái)劃分類別,兩個(gè)數(shù)據(jù)點(diǎn)的歐氏距離越近,相似度就越大,就會(huì)被劃分到一類。

在本節(jié)中,K-means聚類的目標(biāo)是把天牛群中n個(gè)天牛個(gè)體劃分到k個(gè)聚類中,形成k個(gè)天牛子簇,子群中的每個(gè)天牛個(gè)體都具有相似的特性。在算法每次迭代后都會(huì)進(jìn)行一次聚類操作,以便得到最好的聚類效果。

K-means算法的步驟如下所示:

Step1:選取初始化天牛群中K個(gè)天牛個(gè)體作為初始的聚類中心點(diǎn)(a1,a2,…,ak);

Step2:針對(duì)天牛群中每個(gè)天牛個(gè)體xi,計(jì)算天牛個(gè)體到k個(gè)聚類中心的距離,并將距離最小的天牛個(gè)體劃分到其所對(duì)應(yīng)的類中;

Step3:在每次迭代中,針對(duì)每個(gè)類別aj,根據(jù)公式(4)重新計(jì)算其聚類中心;

Step4:重復(fù)Step2和Step3這兩個(gè)步驟,直到達(dá)到最大迭代次數(shù)。

(4)

式中,dis(xj,ak)表示天牛個(gè)體到聚類中心點(diǎn)的歐氏距離,其中j=(1,2,…,N),K=(1,2,…,K)。

經(jīng)過(guò)K-means劃分種群后,天牛群速度更新公式可以如下:

(5)

(6)

其中,dmax為干擾因子最大值,dmin為干擾因子最小值。

1.4 拓?fù)錂C(jī)制

有生物學(xué)家發(fā)現(xiàn)了歐椋鳥(niǎo)群的飛行機(jī)制中,個(gè)體之間存在拓?fù)湎嗷プ饔茫遗c距離的大小無(wú)關(guān)[12]。這一機(jī)制同樣也能運(yùn)用到天牛群算法中,天牛群中每個(gè)簇可以看作是一個(gè)整體,每個(gè)簇間的個(gè)體的飛行方向和速度都與所屬簇中的個(gè)體保持一致。Montes[13]等人在上述理論上,模擬出歐椋鳥(niǎo)群的拓?fù)錂C(jī)制并運(yùn)用到粒子群算法中。本節(jié)將這一拓?fù)錂C(jī)制融入到天牛群算法中,融入拓?fù)錂C(jī)制的天牛群速度更新公式如下:

(7)

(8)

1.5 IM-BSO算法

假設(shè)在D維空間上有n個(gè)天牛,則模擬天牛群位置變化的公式如:

(9)

(10)

(11)

式中,d0為天牛左右兩觸角之間的距離。

2 DIBSO-LR分類模型

2.1 DIBSO算法原理

首先對(duì) Spark 群集中的并行天牛群進(jìn)行編碼,設(shè)有n個(gè)天牛種群,最終會(huì)生成一個(gè)由k個(gè)分區(qū)組成的POPRDD,分別存儲(chǔ)當(dāng)前天牛群的位置(x)、速度(v)、天牛左右兩觸角的適應(yīng)度值(fl、fr)和歷史最佳位置(pbest)。圖1是POP的編碼結(jié)構(gòu)。

圖 1 POP編碼結(jié)構(gòu)示意圖

其中N=(1,2,…,n)表示天牛種群的個(gè)數(shù),D=(1,2,…,d)表示天牛個(gè)體的維度。然后將POP轉(zhuǎn)換為POPRDD,在后續(xù)算法迭代過(guò)程中,直接更新POPRDD中的子組信息即可。

分布式計(jì)算的過(guò)程主要分為兩個(gè)部分,一部分是天牛群自身的計(jì)算,一部分是與數(shù)據(jù)結(jié)合計(jì)算天牛群的適應(yīng)度值。當(dāng)天牛群只做自身計(jì)算時(shí),POPRDD只進(jìn)行map操作,然后計(jì)算后的值覆蓋POPRDD中所對(duì)應(yīng)的值。當(dāng)與數(shù)據(jù)結(jié)合來(lái)計(jì)算天牛群的適應(yīng)度值時(shí),首先取得天牛群的位置信息并廣播,此時(shí)的天牛群位置信息為廣播變量,進(jìn)行分布式計(jì)算的數(shù)據(jù)是來(lái)自Hadoop中分布式文件系統(tǒng)HDFS中的數(shù)據(jù),然后進(jìn)行map操作得到每個(gè)分區(qū)的天牛群適應(yīng)度值,最后進(jìn)行reduce操作求得天牛群的適應(yīng)度平均值。DIBSO算法的分布式過(guò)程與算法流程分別見(jiàn)圖2和圖3。

圖 2 DIBSO算法分布式過(guò)程

圖 3 DIBSO算法流程圖

2.2 基于DIBSO-LR的情感分類

本文采用DIBSO算法自適應(yīng)控制邏輯回歸的正則化系數(shù),增強(qiáng)模型的自適應(yīng)擬合能力。模型的分類準(zhǔn)確率作為算法的評(píng)價(jià)指標(biāo)。情感分類的框架圖見(jiàn)圖4。

圖 4 情感分類框架圖

3 實(shí)驗(yàn)與結(jié)果分析

在分布式實(shí)驗(yàn)中,推特?cái)?shù)據(jù)集的數(shù)據(jù)大小分別為20 萬(wàn)、50 萬(wàn)和100 萬(wàn)?;诜植际礁倪M(jìn)BSO算法(DIBSO),在不同規(guī)模的數(shù)據(jù)集上獨(dú)立運(yùn)行10次,先計(jì)算不同數(shù)據(jù)集的分類精度,然后用1、2、3、4、5個(gè)計(jì)算節(jié)點(diǎn)計(jì)算,并比較它們的平均運(yùn)行速度和加速比。加速比是反映分布式算法性能和優(yōu)化效率的重要指標(biāo)。通過(guò)比較不同數(shù)據(jù)集中算法的加速比,可以體現(xiàn)分布式算法的加速效果(圖5、圖6)。

圖 5 情感分類準(zhǔn)確率

(a)20 萬(wàn)

由圖6可看出,隨著節(jié)點(diǎn)數(shù)的增加,由DIBSO-LR分類模型計(jì)算出的分類準(zhǔn)確率基本保持不變,且計(jì)算時(shí)間逐漸減小。對(duì)于20 萬(wàn)樣本,當(dāng)節(jié)點(diǎn)數(shù)從1增加到2和3增加到4時(shí),加速效果明顯。對(duì)于50 萬(wàn)樣本,當(dāng)節(jié)點(diǎn)數(shù)從1增加到3時(shí),加速效果顯著。對(duì)于100 萬(wàn)樣本,加速效果最為突出,節(jié)點(diǎn)數(shù)從1增加到5時(shí),加速比接近線性增長(zhǎng)。由此可以看出,隨著節(jié)點(diǎn)數(shù)的增加,DIBSO-LR分類模型在確保分類準(zhǔn)確率不發(fā)生重大變化的同時(shí),加速了模型的計(jì)算速度,且隨著數(shù)據(jù)量的增大,加速效果更明顯。

4 結(jié)論

本文基于Hadoop和Spark,將大數(shù)據(jù)技術(shù)應(yīng)用于情感分類,提出了DIBSO-LR分類模型,從實(shí)驗(yàn)結(jié)果來(lái)看,DIBSO-LR模型在情感分類問(wèn)題上取得了不錯(cuò)的效果,尤其在計(jì)算效率方面,體現(xiàn)了大數(shù)據(jù)技術(shù)的高效。相信隨著對(duì)相關(guān)領(lǐng)域進(jìn)一步深入研究和大數(shù)據(jù)技術(shù)的不斷發(fā)展,把大數(shù)據(jù)技術(shù)與智能算法相結(jié)合,在一定程度上,能夠提高智能算法在優(yōu)化問(wèn)題上的計(jì)算效率。

猜你喜歡
天牛牛群適應(yīng)度
改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
天牛到底有多牛
時(shí)間域激發(fā)極化法在內(nèi)蒙古小牛群銅多金屬礦的應(yīng)用
與牛共眠
黑黃花天牛
巨型昆蟲(chóng)——天牛
基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
天牛
少數(shù)民族大學(xué)生文化適應(yīng)度調(diào)查
自適應(yīng)遺傳算法的改進(jìn)與應(yīng)用*
延川县| 北流市| 璧山县| 房产| 灵武市| 诸城市| 澄江县| 昭通市| 常山县| 德昌县| 昆山市| 兴业县| 昌都县| 濉溪县| 澄城县| 定州市| 乌兰浩特市| 阿坝| 平乡县| 香河县| 华亭县| 城步| 漾濞| 丹江口市| 光山县| 霍山县| 哈尔滨市| 股票| 芦溪县| 普安县| 林甸县| 许昌县| 和龙市| 化隆| 射阳县| 凤庆县| 沁水县| 桂阳县| 商丘市| 丁青县| 周至县|