国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能算法的實(shí)戰(zhàn)演練和強(qiáng)化學(xué)習(xí)

2020-10-09 11:05宋燕
科教導(dǎo)刊·電子版 2020年20期
關(guān)鍵詞:大數(shù)據(jù)

宋燕

摘 要 人工智能是一門綜合性的交叉學(xué)科技術(shù),該技術(shù)的學(xué)習(xí)除了對數(shù)學(xué)、計算機(jī)、通信等專業(yè)理論知識的要求,更需掌握該技術(shù)對實(shí)際問題的分析和解決能力。本文以基于人工智能算法的大數(shù)據(jù)比賽為例,從課題選題、研究內(nèi)容的制定、方案的規(guī)劃及項目完成的整個流程的介紹,說明了實(shí)戰(zhàn)演練對人工智能算法學(xué)習(xí)的重要性,同時也充分調(diào)動了學(xué)生學(xué)習(xí)的主觀能動性和團(tuán)隊的合作能力。

關(guān)鍵詞 人工智能算法 大數(shù)據(jù) 實(shí)戰(zhàn)演練

中圖分類號:TP24文獻(xiàn)標(biāo)識碼:A

0引言

近年來,隨著信息通訊和計算機(jī)技術(shù)的迅猛發(fā)展,人工智能技術(shù)成為科學(xué)領(lǐng)域的一大研究熱點(diǎn),已經(jīng)滲透到社會生活的眾多領(lǐng)域。國內(nèi)外許多高校相繼增設(shè)人工智能專業(yè)或開展人工智能等相關(guān)課程的建設(shè)以培養(yǎng)該領(lǐng)域的專業(yè)技術(shù)人才。傳統(tǒng)的理論教學(xué)模式已無法滿足社會對綜合性應(yīng)用人才的需求,尤其是當(dāng)今熱門的人工智能領(lǐng)域的技術(shù)人才的培養(yǎng),實(shí)戰(zhàn)經(jīng)驗(yàn)和演練具有十分重要的現(xiàn)實(shí)意義。

1課題選題及研究目的

隨著信息發(fā)布平臺的多元化、普遍化、大眾化,信息呈現(xiàn)爆炸式增長,人們可以通過不同渠道快速獲取消息,給生活帶來了極大便利。然而面對大量似是而非的虛假消息,尤其是混雜在真消息中的謠言,人們難以區(qū)別其真假。并且在假消息的錯誤引導(dǎo)下,有些人會輕信假消息,將假消息傳播給自己的親朋好友,導(dǎo)致假消息快速傳播。新型冠狀病毒自爆發(fā)以來,造成國內(nèi)外數(shù)百萬人感染。病毒的快速蔓延,使得網(wǎng)上產(chǎn)生許多關(guān)于病毒起源、感染人數(shù)以及神奇療法的錯誤說法。本課題以新型冠狀病毒疫情為例,通過對疫情謠言的文本分析,旨在建立一個能夠有效辨別真實(shí)、虛假新聞的模型。通過建立真假輿情專家模型,不僅可以幫助群眾提高辨別能力,有效遏制謠言傳播,還可以輔助政府部門的謠言治理能力。

2課題研究內(nèi)容和方案

2.1數(shù)據(jù)預(yù)處理

首先,對公開網(wǎng)站收集的數(shù)據(jù)集在Python調(diào)用Jieba庫來對新聞信息進(jìn)行切詞處理;其次,運(yùn)用一種融合關(guān)鍵字提取算法與詞向量技術(shù)的相似度計算方法即TF-IDF算法進(jìn)行優(yōu)化文本特征選取,最終得到包含真實(shí)、虛假新聞關(guān)鍵特征的結(jié)構(gòu)化數(shù)據(jù);再者,考慮到詞頻對于判別標(biāo)準(zhǔn)的影響不大,所以采用詞袋模型將特征提取后的數(shù)據(jù)進(jìn)行編碼,轉(zhuǎn)化為數(shù)值向量;最后,運(yùn)用PCA特征降維技術(shù)去除特征中的冗余和噪聲信息。

2.2不平衡數(shù)據(jù)的過采樣技術(shù)

實(shí)際生活中,真假新聞標(biāo)題類別數(shù)目往往存在不平衡關(guān)系,分類器在處理這類數(shù)據(jù)時極易向多數(shù)類樣本傾斜,往往表現(xiàn)出較差的分類性能。然而在實(shí)際情況下,相較于多數(shù)類樣本,少數(shù)類的數(shù)據(jù)往往隱含重要信息,更值得被關(guān)注。因此,如何提高少數(shù)類樣本的信息表達(dá)并提升分類器性顯得尤為重要。

具有代表性的三種過采樣策略包括SMOTE,ADASYN和CBSO算法,但是這些成熟的算法仍然存在一些本質(zhì)缺陷,如缺乏對數(shù)據(jù)分布特點(diǎn)的考慮、噪聲樣本的過濾以及邊界樣本信息重要性的忽略等。為此本課題研究采用更為先進(jìn)的改進(jìn)的CBSO算法,其核心主要體現(xiàn)在兩方面:(1)通過同時考慮集群容量和類間距離,針對少數(shù)類樣本的不同簇使用加權(quán)分布策略;(2)對于緊湊/不緊湊的簇內(nèi)分布樣本,提出混合過采樣算法,以此獲得更理想的合成樣本質(zhì)量。

DFBASO 大致分為三個步驟:第一步,輸入不平衡的訓(xùn)練集,并將少數(shù)類和多數(shù)類樣本分別進(jìn)行FCM聚類分析得到相應(yīng)子簇劃分結(jié)果;第二步,通過科學(xué)分析數(shù)據(jù)集的特征和分布,為少數(shù)類樣本科學(xué)確定了需要待合成樣本數(shù)量;第三步,將混合合成樣本算法應(yīng)用于表現(xiàn)出不同特征的數(shù)據(jù)中。

2.3數(shù)據(jù)分類

為了驗(yàn)證提出方法的有效性,本課題選取了使用廣泛的支持向量機(jī)(SVM)作為分類器進(jìn)行實(shí)驗(yàn)。

3實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證作品算法的有效性及改進(jìn)后的算法相較于傳統(tǒng)過采樣算法處理性能優(yōu)劣,本作品利用了傳統(tǒng)方法包括SMOTE過采樣方法、ADASYN過采樣方法以及不通過過采樣方法直接進(jìn)行分類的方法與本文提出的改進(jìn)方法進(jìn)行對比,經(jīng)過2折交叉驗(yàn)證后得出實(shí)驗(yàn)結(jié)果如圖1所示。通過對比實(shí)驗(yàn)易見,本課題的方法具有較好的性能。

4結(jié)束語

綜上所述,以大數(shù)據(jù)背景下人工智能算法的比賽為例,既加強(qiáng)了學(xué)生對理論知識的掌握程度,又鍛煉了學(xué)生對理論知識的運(yùn)用能力以及實(shí)際問題的處理能力。最后,在本次人工智能算法比賽的近50支參賽隊中取得了二等獎的優(yōu)異成績。

參考文獻(xiàn)

[1] 姚海鵬,王露瑤,劉韻潔.大數(shù)據(jù)與人工智能導(dǎo)論[M].北京:人民郵電出版社,2018.

[2] 金國峰.重大疫情中網(wǎng)絡(luò)謠言的形成誘因及其治理[J].學(xué)校黨建與思想教育,2020(12): 20-23.

[3] 叢培影.為何美國社交媒體假消息泛濫[N].中國國防報,2017-01-27(023).

[4] 陳雅賽.突發(fā)公共衛(wèi)生事件網(wǎng)絡(luò)謠言傳播與治理研究——基于新冠疫情的網(wǎng)絡(luò)謠言文本分析[J].電子政務(wù),2020(06): 2-11.

猜你喜歡
大數(shù)據(jù)
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
固始县| 清水县| 牙克石市| 石首市| 弋阳县| 杨浦区| 县级市| 安阳市| 正定县| 东平县| 新疆| 墨脱县| 宜州市| 温泉县| 砀山县| 辰溪县| 嘉义市| 普兰店市| 南靖县| 灌南县| 朔州市| 黄浦区| 疏勒县| 合阳县| 旺苍县| 昭平县| 泰顺县| 宜兰县| 会同县| 新乐市| 鹰潭市| 河北省| 嘉祥县| 乌鲁木齐市| 莎车县| 汾西县| 庐江县| 恩施市| 保山市| 普兰县| 三台县|