王治軍 羅江洲
在當(dāng)前社會(huì)發(fā)展過程中,信息交流、文本信息交換是社會(huì)發(fā)展的主要環(huán)節(jié)。然而在數(shù)據(jù)化時(shí)代,數(shù)據(jù)文本信息的交流和交換仍然存在諸多問題,有很大一部分?jǐn)?shù)據(jù)信息存在虛假和欺騙行為,影響到數(shù)據(jù)信息的安全性。因此,在現(xiàn)代網(wǎng)絡(luò)信息甄別過程中,應(yīng)該落實(shí)好欺騙檢測方法的研究,做好對中文文本信息的欺騙檢測。
欺騙屬于社會(huì)科學(xué)范疇,其具體是指在當(dāng)前社會(huì)信息交流過程中,存在有虛假信息,處于目的性發(fā)送錯(cuò)誤信息,導(dǎo)致信息接收者得到錯(cuò)誤信息的結(jié)論。欺騙行為是一種影響到事物討論結(jié)果的行為,大多數(shù)欺騙行為具有危害性,危害到社會(huì)公眾或者個(gè)人利益。從現(xiàn)代檢測過程中,中文文本欺騙檢測的有效方法還比較少,這會(huì)影響到信息欺騙檢測效果。
集成學(xué)習(xí)在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,我們的目標(biāo)是學(xué)習(xí)出一個(gè)穩(wěn)定的且在各個(gè)方面表現(xiàn)都較好的模型,但實(shí)際情況往往不理想,有時(shí)我們只能得到多個(gè)有偏好的模型(弱監(jiān)督模型,在某些方面表現(xiàn)得比較好)。集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測,其他的弱分類器也可以將錯(cuò)誤糾正回來。集成學(xué)習(xí)在各個(gè)規(guī)模的數(shù)據(jù)集上都有很好的策略。
(一)欺騙檢測模型
基于集成學(xué)習(xí)的中文文本欺騙檢測過程中,文本信息檢測非常關(guān)鍵。本文研究了一種基于集成學(xué)習(xí)的中文文本欺騙檢測方法。其方法本身也是建立于欺騙檢測模型基礎(chǔ)之上,在其技術(shù)的應(yīng)用過程中,主要針對欺騙檢測模型進(jìn)行分析,確保中文文本欺騙檢測更加有效,也能夠最大程度上提升欺騙檢測的技術(shù)效果。在本次欺騙檢測過程中,針對集成學(xué)習(xí)方法的中文文本欺騙檢測建立非常關(guān)鍵,一定程度上關(guān)系到欺騙檢測技術(shù)的效果。在進(jìn)行欺騙檢測過程中,其主要包括欺騙線索選擇、樣本集劃分與個(gè)體分類器訓(xùn)練、個(gè)體分類器集成等多個(gè)檢測模塊。通過不同的檢測模型應(yīng)用,實(shí)現(xiàn)對欺騙的檢測。而在其文本建立的過程中,為了實(shí)現(xiàn)對文本信息的優(yōu)化采集和優(yōu)化分析,應(yīng)用二分K-means的劃分方法,同時(shí)也應(yīng)用了SVM分類器進(jìn)行結(jié)果輸入輸出的有效控制,實(shí)現(xiàn)對其信息的有效分類采集,最大程度上提升信息分類的技術(shù)效果,確保其技術(shù)的應(yīng)用更加合理,最大程度上解決信息分類技術(shù)效果。
(二)二分類任務(wù)分解與集成策略
在基于集成學(xué)習(xí)的中文文本欺騙檢測過程中,還應(yīng)該做好對二分類任務(wù)的分解和集成策略研究,通過分類任務(wù)分解以及集成策略研究,實(shí)現(xiàn)對中文文本欺騙信息的有效檢測,確保信息檢測更加合理,也能夠最大程度上提升信息檢測效果。
1、二類問題的任務(wù)分解分析。在本次中文文本欺騙檢測過程中,針對文本信息進(jìn)行有效的檢測,提升檢測效果。在對二類文本信息進(jìn)行檢測過程中,發(fā)現(xiàn)二類信息分析非常關(guān)鍵,一定程度上關(guān)系到信息檢測效果。同時(shí),在檢測研究中,其需要針對相對平衡的二類子問題進(jìn)行信息分析,實(shí)現(xiàn)對文本信息的檢測控制分析,確保技術(shù)的應(yīng)用更加合理。在二類任務(wù)分解過程中,首先需要完成對分解子任務(wù)進(jìn)行實(shí)際的分析,主要針對正類和負(fù)類的文本數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對訓(xùn)練樣本總數(shù)的分析,設(shè)計(jì)其文本數(shù)目為N=N++N-。建立數(shù)據(jù)集,也方便后續(xù)的數(shù)據(jù)分類管理。在進(jìn)行二類任務(wù)分解過程中,也應(yīng)該做好訓(xùn)練階段的數(shù)據(jù)管控。主要的任務(wù)是實(shí)現(xiàn)確定分解常數(shù),并按照完成的文本數(shù)目對數(shù)據(jù)集進(jìn)行原訓(xùn)練分解,完成N++N-的數(shù)據(jù)集分解,得到其互不相交的子集,才能夠完成對信息的優(yōu)化管理,也可以實(shí)現(xiàn)對信息的綜合優(yōu)化管控,確保信息分析更加有效。
2、在本次項(xiàng)目研究過程中,還包括對文本信息的分類集成,將數(shù)據(jù)進(jìn)行集成,也有助于對欺騙信息的分類分析,將欺騙和非欺騙信息進(jìn)行良好的分類,能夠?qū)崿F(xiàn)對其數(shù)據(jù)信息的分類管控,也可以在進(jìn)行信息分析過程中,完成對項(xiàng)目的綜合優(yōu)化管控,確保信息查詢更加有效。本次項(xiàng)目進(jìn)行集成學(xué)習(xí)過程中,還可以完成對個(gè)體分類器的有效集成分析,通過個(gè)體分類器的集成分析,完成對數(shù)據(jù)的集成分析應(yīng)用。在集成策略應(yīng)用過程中,主要完成min規(guī)則和max規(guī)則的集成應(yīng)用。以下表1為min規(guī)則和max規(guī)則的分析。在進(jìn)行欺騙信息分析過程中,完成數(shù)據(jù)集成分類研究非常重要,能夠做好對其數(shù)據(jù)的集中處理,實(shí)現(xiàn)對欺騙信息的分析研究,落實(shí)好相關(guān)信息管控。
(一)實(shí)驗(yàn)方法
在本次進(jìn)行集成學(xué)習(xí)的中文文本欺騙檢測過程中,還針對文本信息進(jìn)行學(xué)習(xí)檢測,實(shí)現(xiàn)對該方法的實(shí)驗(yàn),通過建立相關(guān)實(shí)驗(yàn),來完成對該欺騙檢測方法的有效分析,落實(shí)好的有效的檢測效果,確保檢測更加合理。本次實(shí)驗(yàn)展開過程中,主要選擇隨機(jī)劃分、K-means劃分以及改進(jìn)的二分K-means劃分方法作為樣本,對改進(jìn)之后的二分K-means劃分方法進(jìn)行實(shí)驗(yàn)分析,在進(jìn)行實(shí)驗(yàn)檢測分析過程中,都是完成了個(gè)體分類器的檢測,最后完成對各種檢測方法的實(shí)際應(yīng)用分析,確保其檢測分析展開更加合理,也能夠最大程度上提升檢測分析的有效性。而在本次進(jìn)行實(shí)驗(yàn)檢測過程中,還應(yīng)該建立良好的檢測實(shí)驗(yàn)指標(biāo),通過檢測指標(biāo)的有效分析,確保其實(shí)驗(yàn)結(jié)果得到有效的檢驗(yàn)。在傳統(tǒng)的實(shí)驗(yàn)檢測指標(biāo)分析過程中,主要是通過新評價(jià)指標(biāo)進(jìn)行分析,而且也能夠同時(shí)描述非平衡指標(biāo)分析,做好對其指標(biāo)的分析,實(shí)現(xiàn)對其文本數(shù)據(jù)的分析研究,做好對中文文本欺騙檢測的實(shí)驗(yàn)分析。其檢測評價(jià)過程中,主要包括樣本標(biāo)注結(jié)果檢測、不同平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析等相關(guān)內(nèi)容。通過對檢測結(jié)果進(jìn)行檢測分析,也能夠完成對其檢測效果的綜合應(yīng)用控制,確保其檢測更加合理,也能夠最大程度上落實(shí)好相關(guān)檢測效果。通過多種檢測結(jié)果的技術(shù)對比分析發(fā)現(xiàn),完成對實(shí)驗(yàn)方法的優(yōu)化分析,也更能夠做好對文本欺騙的檢測應(yīng)用效果,進(jìn)行中文文本檢測過程,更可以落實(shí)好實(shí)驗(yàn)檢測效果。
(二)實(shí)驗(yàn)結(jié)果與討論
本次實(shí)驗(yàn)展開過程中,應(yīng)該做好對其實(shí)驗(yàn)數(shù)據(jù)的主要分析,通過實(shí)驗(yàn)數(shù)據(jù)分析,完成對整個(gè)項(xiàng)目的檢測結(jié)果分析,確保其檢測更加合理,也能夠在最大程度上落實(shí)檢測應(yīng)用效果。本次結(jié)果分析過程中,主要針對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)分析。實(shí)驗(yàn)過程中,使用到隨機(jī)抽取的實(shí)驗(yàn)方法,抽取700篇的隨機(jī)文章,同時(shí)也有1000篇的欺騙性文章進(jìn)行混合測試分析。以下是對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析、無樣本劃分的非平衡數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果分析。通過具體的實(shí)驗(yàn)結(jié)果對比分析,分析出哪種劃分方法更適合應(yīng)用于文本信息欺騙檢測,通過文本信息的有效檢測分析,落實(shí)好對文本信息的綜合交流,確保其信息交流更有效果。在實(shí)施的實(shí)驗(yàn)結(jié)果分析過程中,主要針對隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果的RS值進(jìn)行對比分析。RS值代表了測試結(jié)果的精準(zhǔn)程度,也就是利用該種劃分方法之后,中文文本欺騙性檢測更加精準(zhǔn)。以下表2為本次實(shí)驗(yàn)分析過程中,各種劃分方法的實(shí)驗(yàn)分析內(nèi)容,通過實(shí)驗(yàn)分析展開,確保其分析應(yīng)用更加合理。落實(shí)好分析控制策略,也能夠提升實(shí)驗(yàn)的檢測效果。通過本次實(shí)驗(yàn)數(shù)據(jù)對比發(fā)現(xiàn),三種檢測方法的精度比分別為:無樣本劃分的非平衡數(shù)據(jù)集RS>隨機(jī)劃分方法RS>K-means劃分方法RS值,而不同的劃分值,其檢測結(jié)果不同,但是明顯是K-means劃分方法的RS值更低,其檢測精度也就最高。所以,在基于集成學(xué)習(xí)理論下,采用K-means劃分方法對中文文本欺騙性信息檢測具有更高的檢測精度,適合應(yīng)用于現(xiàn)代文本信息檢測,這對于文本信息檢測精度提升有重要的作用。
本文主要針對基于集成學(xué)習(xí)的中文文本欺騙檢測技術(shù)進(jìn)行研究,文章中利用集成學(xué)習(xí)建立相關(guān)模型,并利用二分K-means劃分方法完成對數(shù)據(jù)樣本的分解,最終完成對中文文本欺騙檢測分析,實(shí)現(xiàn)了檢測應(yīng)用效果。