關(guān)于集成學(xué)習(xí)的中文文本欺騙檢測探討

2021-12-24 12:46:27王治軍羅江洲

消費(fèi)電子 2021年10期

王治軍　羅江洲

在當(dāng)前社會(huì)發(fā)展過程中，信息交流、文本信息交換是社會(huì)發(fā)展的主要環(huán)節(jié)。然而在數(shù)據(jù)化時(shí)代，數(shù)據(jù)文本信息的交流和交換仍然存在諸多問題，有很大一部分?jǐn)?shù)據(jù)信息存在虛假和欺騙行為，影響到數(shù)據(jù)信息的安全性。因此，在現(xiàn)代網(wǎng)絡(luò)信息甄別過程中，應(yīng)該落實(shí)好欺騙檢測方法的研究，做好對中文文本信息的欺騙檢測。

欺騙屬于社會(huì)科學(xué)范疇，其具體是指在當(dāng)前社會(huì)信息交流過程中，存在有虛假信息，處于目的性發(fā)送錯(cuò)誤信息，導(dǎo)致信息接收者得到錯(cuò)誤信息的結(jié)論。欺騙行為是一種影響到事物討論結(jié)果的行為，大多數(shù)欺騙行為具有危害性，危害到社會(huì)公眾或者個(gè)人利益。從現(xiàn)代檢測過程中，中文文本欺騙檢測的有效方法還比較少，這會(huì)影響到信息欺騙檢測效果。

集成學(xué)習(xí)在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中，我們的目標(biāo)是學(xué)習(xí)出一個(gè)穩(wěn)定的且在各個(gè)方面表現(xiàn)都較好的模型，但實(shí)際情況往往不理想，有時(shí)我們只能得到多個(gè)有偏好的模型（弱監(jiān)督模型，在某些方面表現(xiàn)得比較好）。集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型，集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測，其他的弱分類器也可以將錯(cuò)誤糾正回來。集成學(xué)習(xí)在各個(gè)規(guī)模的數(shù)據(jù)集上都有很好的策略。

（一）欺騙檢測模型

基于集成學(xué)習(xí)的中文文本欺騙檢測過程中，文本信息檢測非常關(guān)鍵。本文研究了一種基于集成學(xué)習(xí)的中文文本欺騙檢測方法。其方法本身也是建立于欺騙檢測模型基礎(chǔ)之上，在其技術(shù)的應(yīng)用過程中，主要針對欺騙檢測模型進(jìn)行分析，確保中文文本欺騙檢測更加有效，也能夠最大程度上提升欺騙檢測的技術(shù)效果。在本次欺騙檢測過程中，針對集成學(xué)習(xí)方法的中文文本欺騙檢測建立非常關(guān)鍵，一定程度上關(guān)系到欺騙檢測技術(shù)的效果。在進(jìn)行欺騙檢測過程中，其主要包括欺騙線索選擇、樣本集劃分與個(gè)體分類器訓(xùn)練、個(gè)體分類器集成等多個(gè)檢測模塊。通過不同的檢測模型應(yīng)用，實(shí)現(xiàn)對欺騙的檢測。而在其文本建立的過程中，為了實(shí)現(xiàn)對文本信息的優(yōu)化采集和優(yōu)化分析，應(yīng)用二分K-means的劃分方法，同時(shí)也應(yīng)用了SVM分類器進(jìn)行結(jié)果輸入輸出的有效控制，實(shí)現(xiàn)對其信息的有效分類采集，最大程度上提升信息分類的技術(shù)效果，確保其技術(shù)的應(yīng)用更加合理，最大程度上解決信息分類技術(shù)效果。

（二）二分類任務(wù)分解與集成策略

在基于集成學(xué)習(xí)的中文文本欺騙檢測過程中，還應(yīng)該做好對二分類任務(wù)的分解和集成策略研究，通過分類任務(wù)分解以及集成策略研究，實(shí)現(xiàn)對中文文本欺騙信息的有效檢測，確保信息檢測更加合理，也能夠最大程度上提升信息檢測效果。

1、二類問題的任務(wù)分解分析。在本次中文文本欺騙檢測過程中，針對文本信息進(jìn)行有效的檢測，提升檢測效果。在對二類文本信息進(jìn)行檢測過程中，發(fā)現(xiàn)二類信息分析非常關(guān)鍵，一定程度上關(guān)系到信息檢測效果。同時(shí)，在檢測研究中，其需要針對相對平衡的二類子問題進(jìn)行信息分析，實(shí)現(xiàn)對文本信息的檢測控制分析，確保技術(shù)的應(yīng)用更加合理。在二類任務(wù)分解過程中，首先需要完成對分解子任務(wù)進(jìn)行實(shí)際的分析，主要針對正類和負(fù)類的文本數(shù)據(jù)進(jìn)行分析，實(shí)現(xiàn)對訓(xùn)練樣本總數(shù)的分析，設(shè)計(jì)其文本數(shù)目為N=N++N-。建立數(shù)據(jù)集，也方便后續(xù)的數(shù)據(jù)分類管理。在進(jìn)行二類任務(wù)分解過程中，也應(yīng)該做好訓(xùn)練階段的數(shù)據(jù)管控。主要的任務(wù)是實(shí)現(xiàn)確定分解常數(shù)，并按照完成的文本數(shù)目對數(shù)據(jù)集進(jìn)行原訓(xùn)練分解，完成N++N-的數(shù)據(jù)集分解，得到其互不相交的子集，才能夠完成對信息的優(yōu)化管理，也可以實(shí)現(xiàn)對信息的綜合優(yōu)化管控，確保信息分析更加有效。

2、在本次項(xiàng)目研究過程中，還包括對文本信息的分類集成，將數(shù)據(jù)進(jìn)行集成，也有助于對欺騙信息的分類分析，將欺騙和非欺騙信息進(jìn)行良好的分類，能夠?qū)崿F(xiàn)對其數(shù)據(jù)信息的分類管控，也可以在進(jìn)行信息分析過程中，完成對項(xiàng)目的綜合優(yōu)化管控，確保信息查詢更加有效。本次項(xiàng)目進(jìn)行集成學(xué)習(xí)過程中，還可以完成對個(gè)體分類器的有效集成分析，通過個(gè)體分類器的集成分析，完成對數(shù)據(jù)的集成分析應(yīng)用。在集成策略應(yīng)用過程中，主要完成min規(guī)則和max規(guī)則的集成應(yīng)用。以下表1為min規(guī)則和max規(guī)則的分析。在進(jìn)行欺騙信息分析過程中，完成數(shù)據(jù)集成分類研究非常重要，能夠做好對其數(shù)據(jù)的集中處理，實(shí)現(xiàn)對欺騙信息的分析研究，落實(shí)好相關(guān)信息管控。

（一）實(shí)驗(yàn)方法

在本次進(jìn)行集成學(xué)習(xí)的中文文本欺騙檢測過程中，還針對文本信息進(jìn)行學(xué)習(xí)檢測，實(shí)現(xiàn)對該方法的實(shí)驗(yàn)，通過建立相關(guān)實(shí)驗(yàn)，來完成對該欺騙檢測方法的有效分析，落實(shí)好的有效的檢測效果，確保檢測更加合理。本次實(shí)驗(yàn)展開過程中，主要選擇隨機(jī)劃分、K-means劃分以及改進(jìn)的二分K-means劃分方法作為樣本，對改進(jìn)之后的二分K-means劃分方法進(jìn)行實(shí)驗(yàn)分析，在進(jìn)行實(shí)驗(yàn)檢測分析過程中，都是完成了個(gè)體分類器的檢測，最后完成對各種檢測方法的實(shí)際應(yīng)用分析，確保其檢測分析展開更加合理，也能夠最大程度上提升檢測分析的有效性。而在本次進(jìn)行實(shí)驗(yàn)檢測過程中，還應(yīng)該建立良好的檢測實(shí)驗(yàn)指標(biāo)，通過檢測指標(biāo)的有效分析，確保其實(shí)驗(yàn)結(jié)果得到有效的檢驗(yàn)。在傳統(tǒng)的實(shí)驗(yàn)檢測指標(biāo)分析過程中，主要是通過新評價(jià)指標(biāo)進(jìn)行分析，而且也能夠同時(shí)描述非平衡指標(biāo)分析，做好對其指標(biāo)的分析，實(shí)現(xiàn)對其文本數(shù)據(jù)的分析研究，做好對中文文本欺騙檢測的實(shí)驗(yàn)分析。其檢測評價(jià)過程中，主要包括樣本標(biāo)注結(jié)果檢測、不同平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析等相關(guān)內(nèi)容。通過對檢測結(jié)果進(jìn)行檢測分析，也能夠完成對其檢測效果的綜合應(yīng)用控制，確保其檢測更加合理，也能夠最大程度上落實(shí)好相關(guān)檢測效果。通過多種檢測結(jié)果的技術(shù)對比分析發(fā)現(xiàn)，完成對實(shí)驗(yàn)方法的優(yōu)化分析，也更能夠做好對文本欺騙的檢測應(yīng)用效果，進(jìn)行中文文本檢測過程，更可以落實(shí)好實(shí)驗(yàn)檢測效果。

（二）實(shí)驗(yàn)結(jié)果與討論

本次實(shí)驗(yàn)展開過程中，應(yīng)該做好對其實(shí)驗(yàn)數(shù)據(jù)的主要分析，通過實(shí)驗(yàn)數(shù)據(jù)分析，完成對整個(gè)項(xiàng)目的檢測結(jié)果分析，確保其檢測更加合理，也能夠在最大程度上落實(shí)檢測應(yīng)用效果。本次結(jié)果分析過程中，主要針對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)分析。實(shí)驗(yàn)過程中，使用到隨機(jī)抽取的實(shí)驗(yàn)方法，抽取700篇的隨機(jī)文章，同時(shí)也有1000篇的欺騙性文章進(jìn)行混合測試分析。以下是對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析、無樣本劃分的非平衡數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果分析。通過具體的實(shí)驗(yàn)結(jié)果對比分析，分析出哪種劃分方法更適合應(yīng)用于文本信息欺騙檢測，通過文本信息的有效檢測分析，落實(shí)好對文本信息的綜合交流，確保其信息交流更有效果。在實(shí)施的實(shí)驗(yàn)結(jié)果分析過程中，主要針對隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果的RS值進(jìn)行對比分析。RS值代表了測試結(jié)果的精準(zhǔn)程度，也就是利用該種劃分方法之后，中文文本欺騙性檢測更加精準(zhǔn)。以下表2為本次實(shí)驗(yàn)分析過程中，各種劃分方法的實(shí)驗(yàn)分析內(nèi)容，通過實(shí)驗(yàn)分析展開，確保其分析應(yīng)用更加合理。落實(shí)好分析控制策略，也能夠提升實(shí)驗(yàn)的檢測效果。通過本次實(shí)驗(yàn)數(shù)據(jù)對比發(fā)現(xiàn)，三種檢測方法的精度比分別為：無樣本劃分的非平衡數(shù)據(jù)集RS>隨機(jī)劃分方法RS>K-means劃分方法RS值，而不同的劃分值，其檢測結(jié)果不同，但是明顯是K-means劃分方法的RS值更低，其檢測精度也就最高。所以，在基于集成學(xué)習(xí)理論下，采用K-means劃分方法對中文文本欺騙性信息檢測具有更高的檢測精度，適合應(yīng)用于現(xiàn)代文本信息檢測，這對于文本信息檢測精度提升有重要的作用。

表2 三種劃分方法的檢測精度對比

本文主要針對基于集成學(xué)習(xí)的中文文本欺騙檢測技術(shù)進(jìn)行研究，文章中利用集成學(xué)習(xí)建立相關(guān)模型，并利用二分K-means劃分方法完成對數(shù)據(jù)樣本的分解，最終完成對中文文本欺騙檢測分析，實(shí)現(xiàn)了檢測應(yīng)用效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

關(guān)于集成學(xué)習(xí)的中文文本欺騙檢測探討

表2 三種劃分方法的檢測精度對比