劉蕾 田鑫宇 朱大洲
摘要: 為了能夠快速、便捷地提取互聯(lián)網(wǎng)中有關(guān)食物營養(yǎng)健康相關(guān)信息,針對傳統(tǒng)文本分類算法的不足,利用麻雀搜索算法(SSA)良好的尋優(yōu)能力對支持向量機(jī)(SVM)的最優(yōu)參數(shù)組合進(jìn)行搜索,提出一種基于SSA-SVM的文本分類方法。對SSA-SVM模型在不同的數(shù)據(jù)集中的分類效果進(jìn)行了試驗(yàn)研究,結(jié)果表明,SSA全局尋優(yōu)性能穩(wěn)定,可有效降低SVM參數(shù)選取對系統(tǒng)泛化能力和分類精度的影響,SSA-SVM模型在營養(yǎng)健康文本分類中準(zhǔn)確率可達(dá)到83.8%,對食物營養(yǎng)健康信息挖掘研究具有一定的參考價(jià)值。
關(guān)鍵詞: 營養(yǎng)健康; 文本分類; 支持向量機(jī); 麻雀搜索算法
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)識碼:A ? 文章編號:1006-8228(2023)06-82-05
Research on text classification of nutrition and health information based on SSA-SVM
Liu Lei1, Tian Xinyu1, Zhu Dazhou1,2
(1. Heilongjiang Bayi Agricultural University, Daqing, Heilongjiang 163319, China;
2. Institute of Food and Nutrition Development, Ministry of Agriculture and Rural Affairs)
Abstract: In order to extract the information about food nutrition and health from the Internet quickly and conveniently, and to address the shortcomings of traditional text classification algorithms, we use the optimizing ability of SSA to search the optimal parameter combination of SVM, and propose a text classification method based on SSA-SVM. The experimental study on the classification effect of SSA-SVM model in different datasets shows that the SSA global optimization performance is stable, which can effectively reduce the influence of SVM parameter selection on the generalization ability and classification accuracy of the system. The accuracy of SSA-SVM model in nutrition and health text classification can reach 83.8%, This method has certain reference value for food nutrition and health information mining research.
Key words: nutrition and health; text classification; support vector machine (SVM); sparrow search algorithm (SSA)
0 引言
隨著生活水平的不斷提高,大眾的需求已逐漸由吃得飽向吃得營養(yǎng)、吃得健康轉(zhuǎn)變,對食物營養(yǎng)健康科普的關(guān)注度也不斷提高。經(jīng)調(diào)查發(fā)現(xiàn),一方面互聯(lián)網(wǎng)中關(guān)于食物營養(yǎng)健康的知識存在差異,大眾發(fā)表的見解也各不相同;另一方面隨著信息技術(shù)的快速發(fā)展,食物營養(yǎng)健康方面的文本數(shù)據(jù)也呈指數(shù)級迅速增長。上述狀況必然導(dǎo)致利用互聯(lián)網(wǎng)搜尋食物營養(yǎng)健康科普文本并提取有價(jià)值的信息變得越來越困難。
快速整理原始科普信息、挖掘文本內(nèi)在價(jià)值,對幫助個(gè)體和群體獲得營養(yǎng)健康知識有重要導(dǎo)向性作用。因此構(gòu)建相關(guān)科普輿情監(jiān)測系統(tǒng),以主題爬取的形式獲得有關(guān)文本信息,再采用數(shù)據(jù)處理方法將具有相同特征的文本信息劃分到事先確定的文本類別中,有助于大眾便捷地閱讀、檢索、管理文本信息。
在十九世紀(jì)五十年代,Luhn等人首次提出了文本分類的方法。經(jīng)過國內(nèi)外專家學(xué)者近60年的探索研究,文本分類的理論逐漸成熟,并形成了多種分類算法[1]。當(dāng)前,K-鄰近算法、決策樹算法、樸素貝葉斯算法、SVM算法是常用的主要分類算法。
邱寧佳等提出將特征項(xiàng)的權(quán)值融合到樸素貝葉斯公式中構(gòu)造加權(quán)樸素貝葉斯分類[2];黃超等提出一種基于分組中心向量的KNN算法,在降低計(jì)算復(fù)雜度的同時(shí),提升了算法的分類性能[3];段友祥等提出了基于主動(dòng)學(xué)習(xí)的SVM評論內(nèi)容分類方法[4];葛曉偉等提出一種基于字符卷積神經(jīng)網(wǎng)絡(luò)CNN與支持向量機(jī)SVM的模型用于中文護(hù)理不良事件文本分類[5];郭超磊等提出一種基于模擬退火優(yōu)化SVM的文本分類方法[6];賈宏云等將支持向量機(jī)應(yīng)用于藏文文本分類的研究中[7];王巖等提出了一種用果蠅優(yōu)化算法獲取SVM參數(shù)的FOA-SVM分類方法[8]。
文獻(xiàn)分析結(jié)果顯示,樸素貝葉斯分類法在執(zhí)行速度快、算法簡單、分類準(zhǔn)確率高的情況下,其特點(diǎn)是特征項(xiàng)間的獨(dú)立。單一的假定會(huì)使分類的結(jié)果不理想?;贙NN的分類算法分類精度高、穩(wěn)定性好,適合于分類領(lǐng)域的交叉和重疊的樣本集。然而在樣本不均衡、樣本容量大的情況下,樣本的分類誤差較大?;赟VM的文本分類算法具有參數(shù)少、速度快等優(yōu)點(diǎn),分類效果顯著,有效地減少高維空間問題的求解,并具有很好的泛化性能?;诖?,本文針對食物營養(yǎng)健康中文文本提出一種基于 SVM的文本分類方法。
通過對支持向量機(jī)的分析,得出了支持向量機(jī)分類時(shí),核函數(shù)和處罰參數(shù)的好壞對分類準(zhǔn)確率有很大的影響。因此,尋找最優(yōu)核函數(shù)參數(shù)和懲罰參數(shù)是該方法應(yīng)用于工程實(shí)踐的重點(diǎn)和難點(diǎn)。
為優(yōu)化支持向量機(jī)的參數(shù)選擇,本文引進(jìn)了業(yè)界最新提出的麻雀搜索算法(SSA),在此基礎(chǔ)上,提出了一種基于麻雀搜索算法的方法來優(yōu)化SVM的核參數(shù),進(jìn)一步以支持向量機(jī)模型為基礎(chǔ),設(shè)計(jì)了一種基于SSA-SVM的食物營養(yǎng)健康信息文本分類方法。通過與其他算法構(gòu)建的分類器結(jié)果比較,證明了本文提出的方法是可行的。
1 相關(guān)原理
1.1 支持向量機(jī)SVM
SVM是一種常用的文本分類方法,該方法是以統(tǒng)計(jì)學(xué)為基礎(chǔ),其數(shù)學(xué)模型定義為在特征空間上的間隔最大的線性分類器[10]。支持向量機(jī)的基本思想是通過構(gòu)造最佳超平面來使不同樣本的隔離邊界達(dá)到平面間隔的最大,從而達(dá)到分類的目的。
假設(shè)給定一個(gè)數(shù)據(jù)樣本集為A={(x1,y1),(x2,y2),…,(xi,yi)},y∈{-1,1}},其中,xi表示特征向量集合,yi表示樣本類別。
對于線性分類問題,SVM構(gòu)造的超平面可以通過如下分類函數(shù)表示:
[wtx+b=0]? ⑴
其中,w代表超平面的一個(gè)法向量;b為偏移向量。
目標(biāo)函數(shù)為:
[minw22s.t.yiwTxi+b≥1,? ?i=1,2,…,n]? ⑵
通過拉格朗日對偶性變換,將文本分類的原始變量轉(zhuǎn)換為對偶變量,通過求解對偶問題進(jìn)而得到原始問題的最優(yōu)解。對偶問題更有利于問題的求解。變換后的最優(yōu)分類函數(shù)如下:
[fx=signinaiyixi,x+b]? ⑶
其中,αi代表拉格朗日乘子。
對于非線性分類問題,在原始空間為有限維的前提下利用核函數(shù)總能找到一個(gè)高維特征空間,要對待分類的樣本特征向量從低維空間到高維空間的矢量映射,建立了一個(gè)超平面的文本計(jì)算分類,使原本的非線性分類問題轉(zhuǎn)化為線性分類問題。為了提高SVM的分類性能,在建模過程中引入松弛因子ξi,,構(gòu)建軟間隔分類器。因此,凸二次規(guī)劃的對偶問題轉(zhuǎn)化為求二次優(yōu)化問題:
[minω,δ=12ω2+Ci=1nδi]
[s.t.yiωφxi+b≥1-δi]? ? ? ?⑷
[δ≥0, i=1,2,…,n]
其中,C為懲罰因子。
為了簡化計(jì)算,通過加入拉格朗日乘子αi將式⑷轉(zhuǎn)化為式⑸求解,且0≤αi≤C。
[maxi=1nαi-12i=1nαiαjyiyjxi?xj]? ⑸
通過計(jì)算得到最優(yōu)分類函數(shù):
[fx=signi=1nαiyikxi,xj+b]? ⑹
其中,k(xi,xj)表示核函數(shù)。
1.2 麻雀搜索算法SSA
麻雀搜索算法SSA是薛建凱在2020年提出的一種基于麻雀種群的覓食行為和反捕食行為的新型群體智能優(yōu)化算法[11]。
麻雀在捕食行為中分為發(fā)現(xiàn)者、加入者和警戒者三類,分別負(fù)責(zé)提供覓食方向、尋找食物來源和警戒。因此,SSA的實(shí)現(xiàn)思路是由發(fā)現(xiàn)者、加入者和警戒者在每代種群的位置更新,逐漸地發(fā)現(xiàn)能量最大的食物位置,也就是最優(yōu)解。發(fā)現(xiàn)者、加入者和警戒者的位置更新分別按式⑺~式⑼進(jìn)行。
發(fā)現(xiàn)者的位置更新模型如公式⑺所示。
[Xt+1i,j=Xti,j?exp-iα?itermaxR2 其中,α∈(0,1],t為迭代數(shù);itermax代表最大的迭代次數(shù);Xi,j表示第i個(gè)麻雀在第j維中的位置信息;R2和ST分別表示預(yù)警值和安全值;Q為服從正態(tài)分布的隨機(jī)數(shù);L表示個(gè)1×d的矩陣。 加入者的位置更新模型如公式⑻所示。 [Xt+1i,j=Q?expXworst-Xti,ji2i>n/2Xt+1p+Xti,j-Xt+1p?A+?L? ?otherwise]? ⑻ 其中,Xp,Xworst分別代表目前發(fā)現(xiàn)者所占據(jù)的最好位置和最差的位置;A代表一個(gè)1×d的矩陣,矩陣中每個(gè)元素隨機(jī)的分配為1或-1,且A+=AT(AAT)-1。當(dāng)i>n/2時(shí), i個(gè)適應(yīng)度值較低的加入者沒有獲得食物,為了獲取更多食物能量,它們必須飛到其他地方尋找食物。 警戒者位置更新模型如公式⑼所示。 [Xt+1i,j=Xtbest+βXti,j-Xtbestfi>fgXti,j+KXti,j-Xtworstfi-fw+εfi=fg]? ⑼ 其中,K∈[-1,1],Xbest代表當(dāng)前全局最優(yōu)位置;β為步長的控制參數(shù);fi是目前麻雀個(gè)體的適應(yīng)度值;fg、fw分別代表當(dāng)前全局最優(yōu)和最差的適應(yīng)度值。在式⑼中增加最小的常數(shù)ε,以防止分母為零。 2 SVM用于營養(yǎng)健康信息提取的局限性分析 由相關(guān)原理可知,支持向量機(jī)有兩個(gè)主要參數(shù)C與γ。C表示懲罰因子,C值越高,則出現(xiàn)錯(cuò)誤的容錯(cuò)率越低,易于發(fā)生過度擬合;反之,C值越低,誤差容錯(cuò)率越高,易于發(fā)生欠擬合。C值太高或太低都會(huì)導(dǎo)致模型的泛化能力下降。γ是選擇RBF函數(shù)選定kernel后的一個(gè)參數(shù)。隨著γ的增大,支持向量減少;相反,較低的γ代表更多的支持向量。支持向量的數(shù)量對訓(xùn)練與預(yù)測的速度有很大的影響。同時(shí),RBF的寬幅也會(huì)影響到支持向量對應(yīng)的高斯作用范圍,從而影響其泛化性能。如果γ值過大則σ會(huì)很小,則會(huì)導(dǎo)致僅對支持向量樣本附近產(chǎn)生作用,而對未知樣本分類效果差;若γ太低,則會(huì)導(dǎo)致平滑效應(yīng)過強(qiáng),從而降低精確度。 從以上的分析可以看出,懲罰因子C和參數(shù)γ的選擇對于支持向量機(jī)的分類效果有很大影響。本文選擇科普輿情監(jiān)測系統(tǒng)中獲得的營養(yǎng)健康信息中的中文文本作為本論文驗(yàn)證數(shù)據(jù)集,其中包括兒童營養(yǎng)、免疫功能、冠心病、心血管疾病、科學(xué)膳食、糖尿病飲食、老年?duì)I養(yǎng)、營養(yǎng)價(jià)值、營養(yǎng)吸收、營養(yǎng)安全、食品營養(yǎng)成分、高血壓、高血脂癥共13類。在此基礎(chǔ)上,將樣本數(shù)據(jù)按照一定的比例劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,并針對RBF核中懲罰因子C和參數(shù)γ來檢驗(yàn)支持向量機(jī)的分類效果。 當(dāng)參數(shù)γ取值為1時(shí),選取C的值為0.1和10,對SVM的分類準(zhǔn)確率進(jìn)行驗(yàn)證。 由圖1實(shí)驗(yàn)結(jié)果可以看出,對于營養(yǎng)健康的13類文本數(shù)據(jù)集參數(shù)取值對其性能影響較大,定點(diǎn)取值并不能夠全面概括驗(yàn)證。所以,本文采取交叉驗(yàn)證方法對SVM進(jìn)行局限性分析。 圖2代表采用五折交叉驗(yàn)證生成的SVM實(shí)驗(yàn)結(jié)果。通過觀察可以發(fā)現(xiàn),若γ的取值過大,支持向量的輻射范圍就極??;相反,若γ的取值過小,其輻射范圍將變得極大。對于較為適中的γ值,C取值較大或較小時(shí)具有類似良好的效果,因此,在同等工況下選擇相對小的C值更有利于節(jié)省內(nèi)存和時(shí)間。 從實(shí)驗(yàn)結(jié)果可知,在營養(yǎng)健康文本數(shù)據(jù)集下,懲罰因子和核函數(shù)參數(shù)的不同,SVM分類準(zhǔn)確性相差較大。這表明,參數(shù)的取值大小會(huì)直接影響SVM模型的分類準(zhǔn)確度,想要獲得最優(yōu)的SVM文本分類模型,需要找到最優(yōu)的參數(shù)組合。 3 SSA尋最優(yōu)解的模型構(gòu)建與實(shí)現(xiàn) 本文提出了基于麻雀搜索算法SSA的最優(yōu)解實(shí)現(xiàn)過程,具體示意圖如圖3所示。 Step1 初始化SSA中的控制參數(shù)。設(shè)置麻雀種群的規(guī)模為20,麻雀種群最大迭代次數(shù)為100,上邊界與下邊界區(qū)間為[0.01,100],發(fā)現(xiàn)者、加入者、警戒者的比例為0.7、0.3、0.2。 Step2 將計(jì)算錯(cuò)誤率設(shè)為適應(yīng)度函數(shù),錯(cuò)誤率越小,則結(jié)果越優(yōu)。計(jì)算適應(yīng)度值,并排序。 Step3 利用式⑶更新發(fā)現(xiàn)者位置。 Step4 利用式⑷更新加入者位置。 Step5 利用式⑸更新警戒者位置。 Step6 計(jì)算出適應(yīng)度值,并對麻雀的位置進(jìn)行更新。 Step7 停止條件是否滿足,滿足時(shí)退出,輸出的最優(yōu)結(jié)果是兩個(gè)參數(shù)的最優(yōu)解;若未滿足則重復(fù)Step2~Step6。 為了檢驗(yàn)SSA算法的優(yōu)化性能,本文采用了UCI標(biāo)準(zhǔn)數(shù)據(jù)集和搜狗實(shí)驗(yàn)室5種文本數(shù)據(jù)集,進(jìn)行模擬訓(xùn)練和驗(yàn)證,驗(yàn)證算法本身的可行性,再對營養(yǎng)健康文本數(shù)據(jù)進(jìn)行分析。 兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集樣本數(shù)分別為400、178。將本文提出的麻雀搜索算法優(yōu)化SVM方法(SSA-SVM)與基礎(chǔ)SVM進(jìn)行對比驗(yàn)證,SSA分別得到兩組數(shù)據(jù)的最優(yōu)參數(shù)為[8.0691,0.0312]、[1.3360,1.6003]。由表1可知,SSA-SVM方法在wine數(shù)據(jù)集中準(zhǔn)確率可達(dá)到100%,證明SSA具有良好的全局搜索能力。 選取搜狗實(shí)驗(yàn)室財(cái)經(jīng)、健康、教育、旅游、文化共5類1500個(gè)文本數(shù)據(jù)集,分別采用SVM、SSA-SVM、K-鄰近算法(K-Nearest Neighbor)、樸素貝葉斯(Naive Bayesian)四種分類算法進(jìn)行實(shí)驗(yàn)研究。實(shí)驗(yàn)結(jié)果如表2,SSA-SVM準(zhǔn)確率達(dá)到92.9%,最優(yōu)參數(shù)為[69.3802,0.0100]明顯高于其他幾種分類方法。SSA能搜索到理想的最優(yōu)參數(shù),使本文提出的方法在文本分類中得到較為理想的分類性能。 4 基于SSA-SVM的營養(yǎng)健康文本信息分類與應(yīng)用 本節(jié)構(gòu)建了基于麻雀搜索算法優(yōu)化支持向量機(jī)的方法(SSA-SVM),用于營養(yǎng)健康文本數(shù)據(jù)的分類,其實(shí)現(xiàn)過程如圖4所示。 以下為基于SSA-SVM的歸于營養(yǎng)健康文本分類具體實(shí)現(xiàn)步驟。 Step1 建立食物營養(yǎng)健康主題相關(guān)文本數(shù)據(jù)集,通過建設(shè)的科普輿情系統(tǒng)爬取相關(guān)文本。 Step2 在文本數(shù)據(jù)中,采用了去停用詞、分詞、特征選擇和權(quán)重計(jì)算等方法。 Step3 選取訓(xùn)練集和測試集。按照8:2比例將數(shù)據(jù)劃分為兩部分,一部分為訓(xùn)練集,另一部分為測試集。 Step4 對SVM和SSA中的控制參數(shù)做初始化,包括麻雀種群規(guī)模、最大迭代次數(shù)、發(fā)現(xiàn)者、加入者和警戒者比例。 Step5 對訓(xùn)練文本數(shù)據(jù)進(jìn)行分類,將分類錯(cuò)誤率設(shè)為適應(yīng)度函數(shù)值,錯(cuò)誤率越小,則結(jié)果越優(yōu)。 Step6 所有麻雀種群進(jìn)行位置更新排序。 Step7 判斷滿足條件,滿足條件則輸出尋找的最優(yōu)結(jié)果為最高準(zhǔn)確率值,和兩個(gè)參數(shù)的最優(yōu)值,建立SSA優(yōu)化的SVM食物營養(yǎng)文本分類算法。 本文選擇科普輿情監(jiān)測系統(tǒng)中獲得的營養(yǎng)健康中文文本數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集,選取13類文本作為測試樣本。為了展示SSA-SVM分類模型與其他幾種常用文本分類算法的分類性能對比,我們給出表3。 從表2、表3可以看出,不同數(shù)據(jù)集對分類性能有較大的影響,同時(shí)也體現(xiàn)出食物營養(yǎng)健康相關(guān)的文本具有較強(qiáng)的專業(yè)性。圖5更能直觀的說明在食物營養(yǎng)健康的13類文本中,SSA-SVM分類模型在每種類別中分類效果相對平穩(wěn),僅在營養(yǎng)價(jià)值與營養(yǎng)吸收兩類中準(zhǔn)確率偏低,剩余類別的準(zhǔn)確率均高于其他算法。相比常見的幾種算法,在整體的分類中,SSA-SVM分類模型各項(xiàng)評估指標(biāo)明顯高于其他算法,經(jīng)過SSA尋得最優(yōu)參數(shù)[68.8512,0.0100],準(zhǔn)確率為83.8%,比基礎(chǔ)的SVM準(zhǔn)確率提高近13%,SSA-SVM分類模型體現(xiàn)出較強(qiáng)的泛化能力。 5 結(jié)束語 本研究以主題爬蟲搜集的中文文本數(shù)據(jù)為數(shù)據(jù)源,提出了基于SSA優(yōu)化SVM參數(shù)的方法,通過構(gòu)建分類模型,用于篩選出食物營養(yǎng)健康領(lǐng)域的科普文本信息,并與文本分類中常用的機(jī)器學(xué)習(xí)模型如樸素貝葉斯、K-鄰近算法等進(jìn)行對比分析。 實(shí)驗(yàn)結(jié)果表明,SSA具有穩(wěn)定的全局尋優(yōu)性能,能有效解決SVM尋找最優(yōu)參數(shù)問題。與其他分類方法相比,SSA-SVM模型具有分類準(zhǔn)確率高、泛化能力強(qiáng)等優(yōu)點(diǎn),表現(xiàn)出更好的分類效果。 參考文獻(xiàn)(References): [1] Vinod Kumar Chauhan,Kalpana Dahiya,Anuj Sharma. Problem formulations and solvers in linear SVM: a review[J]. Artificial Intelligence Review,2019,52(2) [2] 邱寧佳,賀金彪,薛麗嬌,等.融合語義特征的加權(quán)樸素貝葉斯 分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2020,41(9):2523-2529 [3] 黃超,陳軍華.基于改進(jìn)K最近鄰算法的中文文本分類[J].上 海師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2019,48(1):96-101 [4] 段友祥,張曉天.基于主動(dòng)學(xué)習(xí)的SVM評論內(nèi)容分類算法的 研究[J].計(jì)算機(jī)與數(shù)字工程,2022,50(3):608-612 [5] 葛曉偉,李凱霞,程銘.基于CNN-SVM的護(hù)理不良事件文本 分類研究[J].計(jì)算機(jī)工程與科學(xué),2020,42(1):161-166 [6] 郭超磊,陳軍華.基于SA-SVM的中文文本分類研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2019,36(3):277-281 [7] 賈宏云,群諾,蘇慧婧,等.基于SVM藏文文本分類的研究與 實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2018(9):144-146 [8] 王巖,張波,薛博.基于FOA-SVM的中文文本分類方法研究[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,53(4):759-763 [9] 王楊,許閃閃,李昌,等.基于支持向量機(jī)的中文極短文本分類 模型[J].計(jì)算機(jī)應(yīng)用研究,2020,37(2):347-350 [10] 于敏.基于機(jī)器學(xué)習(xí)的文本分類方法研究[D].碩士,江南 大學(xué),2021 [11] 薛建凱.一種新型的群智能優(yōu)化技術(shù)的研究與應(yīng)用[D]. 碩士,東華大學(xué),2020