国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于集成學(xué)習(xí)的中文文本欺騙檢測探討

2021-12-24 12:46:27王治軍羅江洲
消費(fèi)電子 2021年10期
關(guān)鍵詞:分類器文本實(shí)驗(yàn)

王治軍 羅江洲

在當(dāng)前社會(huì)發(fā)展過程中,信息交流、文本信息交換是社會(huì)發(fā)展的主要環(huán)節(jié)。然而在數(shù)據(jù)化時(shí)代,數(shù)據(jù)文本信息的交流和交換仍然存在諸多問題,有很大一部分?jǐn)?shù)據(jù)信息存在虛假和欺騙行為,影響到數(shù)據(jù)信息的安全性。因此,在現(xiàn)代網(wǎng)絡(luò)信息甄別過程中,應(yīng)該落實(shí)好欺騙檢測方法的研究,做好對中文文本信息的欺騙檢測。

欺騙屬于社會(huì)科學(xué)范疇,其具體是指在當(dāng)前社會(huì)信息交流過程中,存在有虛假信息,處于目的性發(fā)送錯(cuò)誤信息,導(dǎo)致信息接收者得到錯(cuò)誤信息的結(jié)論。欺騙行為是一種影響到事物討論結(jié)果的行為,大多數(shù)欺騙行為具有危害性,危害到社會(huì)公眾或者個(gè)人利益。從現(xiàn)代檢測過程中,中文文本欺騙檢測的有效方法還比較少,這會(huì)影響到信息欺騙檢測效果。

集成學(xué)習(xí)在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,我們的目標(biāo)是學(xué)習(xí)出一個(gè)穩(wěn)定的且在各個(gè)方面表現(xiàn)都較好的模型,但實(shí)際情況往往不理想,有時(shí)我們只能得到多個(gè)有偏好的模型(弱監(jiān)督模型,在某些方面表現(xiàn)得比較好)。集成學(xué)習(xí)就是組合這里的多個(gè)弱監(jiān)督模型以期得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型,集成學(xué)習(xí)潛在的思想是即便某一個(gè)弱分類器得到了錯(cuò)誤的預(yù)測,其他的弱分類器也可以將錯(cuò)誤糾正回來。集成學(xué)習(xí)在各個(gè)規(guī)模的數(shù)據(jù)集上都有很好的策略。

(一)欺騙檢測模型

基于集成學(xué)習(xí)的中文文本欺騙檢測過程中,文本信息檢測非常關(guān)鍵。本文研究了一種基于集成學(xué)習(xí)的中文文本欺騙檢測方法。其方法本身也是建立于欺騙檢測模型基礎(chǔ)之上,在其技術(shù)的應(yīng)用過程中,主要針對欺騙檢測模型進(jìn)行分析,確保中文文本欺騙檢測更加有效,也能夠最大程度上提升欺騙檢測的技術(shù)效果。在本次欺騙檢測過程中,針對集成學(xué)習(xí)方法的中文文本欺騙檢測建立非常關(guān)鍵,一定程度上關(guān)系到欺騙檢測技術(shù)的效果。在進(jìn)行欺騙檢測過程中,其主要包括欺騙線索選擇、樣本集劃分與個(gè)體分類器訓(xùn)練、個(gè)體分類器集成等多個(gè)檢測模塊。通過不同的檢測模型應(yīng)用,實(shí)現(xiàn)對欺騙的檢測。而在其文本建立的過程中,為了實(shí)現(xiàn)對文本信息的優(yōu)化采集和優(yōu)化分析,應(yīng)用二分K-means的劃分方法,同時(shí)也應(yīng)用了SVM分類器進(jìn)行結(jié)果輸入輸出的有效控制,實(shí)現(xiàn)對其信息的有效分類采集,最大程度上提升信息分類的技術(shù)效果,確保其技術(shù)的應(yīng)用更加合理,最大程度上解決信息分類技術(shù)效果。

(二)二分類任務(wù)分解與集成策略

在基于集成學(xué)習(xí)的中文文本欺騙檢測過程中,還應(yīng)該做好對二分類任務(wù)的分解和集成策略研究,通過分類任務(wù)分解以及集成策略研究,實(shí)現(xiàn)對中文文本欺騙信息的有效檢測,確保信息檢測更加合理,也能夠最大程度上提升信息檢測效果。

1、二類問題的任務(wù)分解分析。在本次中文文本欺騙檢測過程中,針對文本信息進(jìn)行有效的檢測,提升檢測效果。在對二類文本信息進(jìn)行檢測過程中,發(fā)現(xiàn)二類信息分析非常關(guān)鍵,一定程度上關(guān)系到信息檢測效果。同時(shí),在檢測研究中,其需要針對相對平衡的二類子問題進(jìn)行信息分析,實(shí)現(xiàn)對文本信息的檢測控制分析,確保技術(shù)的應(yīng)用更加合理。在二類任務(wù)分解過程中,首先需要完成對分解子任務(wù)進(jìn)行實(shí)際的分析,主要針對正類和負(fù)類的文本數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)對訓(xùn)練樣本總數(shù)的分析,設(shè)計(jì)其文本數(shù)目為N=N++N-。建立數(shù)據(jù)集,也方便后續(xù)的數(shù)據(jù)分類管理。在進(jìn)行二類任務(wù)分解過程中,也應(yīng)該做好訓(xùn)練階段的數(shù)據(jù)管控。主要的任務(wù)是實(shí)現(xiàn)確定分解常數(shù),并按照完成的文本數(shù)目對數(shù)據(jù)集進(jìn)行原訓(xùn)練分解,完成N++N-的數(shù)據(jù)集分解,得到其互不相交的子集,才能夠完成對信息的優(yōu)化管理,也可以實(shí)現(xiàn)對信息的綜合優(yōu)化管控,確保信息分析更加有效。

2、在本次項(xiàng)目研究過程中,還包括對文本信息的分類集成,將數(shù)據(jù)進(jìn)行集成,也有助于對欺騙信息的分類分析,將欺騙和非欺騙信息進(jìn)行良好的分類,能夠?qū)崿F(xiàn)對其數(shù)據(jù)信息的分類管控,也可以在進(jìn)行信息分析過程中,完成對項(xiàng)目的綜合優(yōu)化管控,確保信息查詢更加有效。本次項(xiàng)目進(jìn)行集成學(xué)習(xí)過程中,還可以完成對個(gè)體分類器的有效集成分析,通過個(gè)體分類器的集成分析,完成對數(shù)據(jù)的集成分析應(yīng)用。在集成策略應(yīng)用過程中,主要完成min規(guī)則和max規(guī)則的集成應(yīng)用。以下表1為min規(guī)則和max規(guī)則的分析。在進(jìn)行欺騙信息分析過程中,完成數(shù)據(jù)集成分類研究非常重要,能夠做好對其數(shù)據(jù)的集中處理,實(shí)現(xiàn)對欺騙信息的分析研究,落實(shí)好相關(guān)信息管控。

(一)實(shí)驗(yàn)方法

在本次進(jìn)行集成學(xué)習(xí)的中文文本欺騙檢測過程中,還針對文本信息進(jìn)行學(xué)習(xí)檢測,實(shí)現(xiàn)對該方法的實(shí)驗(yàn),通過建立相關(guān)實(shí)驗(yàn),來完成對該欺騙檢測方法的有效分析,落實(shí)好的有效的檢測效果,確保檢測更加合理。本次實(shí)驗(yàn)展開過程中,主要選擇隨機(jī)劃分、K-means劃分以及改進(jìn)的二分K-means劃分方法作為樣本,對改進(jìn)之后的二分K-means劃分方法進(jìn)行實(shí)驗(yàn)分析,在進(jìn)行實(shí)驗(yàn)檢測分析過程中,都是完成了個(gè)體分類器的檢測,最后完成對各種檢測方法的實(shí)際應(yīng)用分析,確保其檢測分析展開更加合理,也能夠最大程度上提升檢測分析的有效性。而在本次進(jìn)行實(shí)驗(yàn)檢測過程中,還應(yīng)該建立良好的檢測實(shí)驗(yàn)指標(biāo),通過檢測指標(biāo)的有效分析,確保其實(shí)驗(yàn)結(jié)果得到有效的檢驗(yàn)。在傳統(tǒng)的實(shí)驗(yàn)檢測指標(biāo)分析過程中,主要是通過新評價(jià)指標(biāo)進(jìn)行分析,而且也能夠同時(shí)描述非平衡指標(biāo)分析,做好對其指標(biāo)的分析,實(shí)現(xiàn)對其文本數(shù)據(jù)的分析研究,做好對中文文本欺騙檢測的實(shí)驗(yàn)分析。其檢測評價(jià)過程中,主要包括樣本標(biāo)注結(jié)果檢測、不同平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析等相關(guān)內(nèi)容。通過對檢測結(jié)果進(jìn)行檢測分析,也能夠完成對其檢測效果的綜合應(yīng)用控制,確保其檢測更加合理,也能夠最大程度上落實(shí)好相關(guān)檢測效果。通過多種檢測結(jié)果的技術(shù)對比分析發(fā)現(xiàn),完成對實(shí)驗(yàn)方法的優(yōu)化分析,也更能夠做好對文本欺騙的檢測應(yīng)用效果,進(jìn)行中文文本檢測過程,更可以落實(shí)好實(shí)驗(yàn)檢測效果。

(二)實(shí)驗(yàn)結(jié)果與討論

本次實(shí)驗(yàn)展開過程中,應(yīng)該做好對其實(shí)驗(yàn)數(shù)據(jù)的主要分析,通過實(shí)驗(yàn)數(shù)據(jù)分析,完成對整個(gè)項(xiàng)目的檢測結(jié)果分析,確保其檢測更加合理,也能夠在最大程度上落實(shí)檢測應(yīng)用效果。本次結(jié)果分析過程中,主要針對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果進(jìn)行數(shù)據(jù)分析。實(shí)驗(yàn)過程中,使用到隨機(jī)抽取的實(shí)驗(yàn)方法,抽取700篇的隨機(jī)文章,同時(shí)也有1000篇的欺騙性文章進(jìn)行混合測試分析。以下是對平衡數(shù)據(jù)集上不同分類器的實(shí)驗(yàn)結(jié)果分析、無樣本劃分的非平衡數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果分析、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果分析。通過具體的實(shí)驗(yàn)結(jié)果對比分析,分析出哪種劃分方法更適合應(yīng)用于文本信息欺騙檢測,通過文本信息的有效檢測分析,落實(shí)好對文本信息的綜合交流,確保其信息交流更有效果。在實(shí)施的實(shí)驗(yàn)結(jié)果分析過程中,主要針對隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果、隨機(jī)劃分方法的實(shí)驗(yàn)結(jié)果以及K-means劃分方法的實(shí)驗(yàn)結(jié)果的RS值進(jìn)行對比分析。RS值代表了測試結(jié)果的精準(zhǔn)程度,也就是利用該種劃分方法之后,中文文本欺騙性檢測更加精準(zhǔn)。以下表2為本次實(shí)驗(yàn)分析過程中,各種劃分方法的實(shí)驗(yàn)分析內(nèi)容,通過實(shí)驗(yàn)分析展開,確保其分析應(yīng)用更加合理。落實(shí)好分析控制策略,也能夠提升實(shí)驗(yàn)的檢測效果。通過本次實(shí)驗(yàn)數(shù)據(jù)對比發(fā)現(xiàn),三種檢測方法的精度比分別為:無樣本劃分的非平衡數(shù)據(jù)集RS>隨機(jī)劃分方法RS>K-means劃分方法RS值,而不同的劃分值,其檢測結(jié)果不同,但是明顯是K-means劃分方法的RS值更低,其檢測精度也就最高。所以,在基于集成學(xué)習(xí)理論下,采用K-means劃分方法對中文文本欺騙性信息檢測具有更高的檢測精度,適合應(yīng)用于現(xiàn)代文本信息檢測,這對于文本信息檢測精度提升有重要的作用。

表2 三種劃分方法的檢測精度對比

本文主要針對基于集成學(xué)習(xí)的中文文本欺騙檢測技術(shù)進(jìn)行研究,文章中利用集成學(xué)習(xí)建立相關(guān)模型,并利用二分K-means劃分方法完成對數(shù)據(jù)樣本的分解,最終完成對中文文本欺騙檢測分析,實(shí)現(xiàn)了檢測應(yīng)用效果。

猜你喜歡
分類器文本實(shí)驗(yàn)
記一次有趣的實(shí)驗(yàn)
在808DA上文本顯示的改善
做個(gè)怪怪長實(shí)驗(yàn)
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
瑞昌市| 武汉市| 六盘水市| 清涧县| 洛宁县| 南通市| 广元市| 邢台县| 上高县| 乐至县| 永清县| 香格里拉县| 南漳县| 通渭县| 格尔木市| 高淳县| 卢氏县| 吉安县| 张家港市| 囊谦县| 保定市| 清水河县| 静乐县| 临沂市| 当阳市| 佳木斯市| 巴林左旗| 泾源县| 江门市| 泽州县| 伽师县| 泗水县| 屯留县| 五指山市| 迁安市| 颍上县| 阳朔县| 聂荣县| 文山县| 百色市| 威海市|