王振雪,程剛,2,曹許洋,賈宇恒,劉春波
(1.華北科技學(xué)院(中國煤礦安全技術(shù)培訓(xùn)中心)計(jì)算機(jī)學(xué)院,北京 101601;2.南京大學(xué)地球科學(xué)與工程學(xué)院,南京 210023)
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,海量網(wǎng)絡(luò)資源觸手可及,新聞輿情傳播迅速,網(wǎng)上論壇在線評(píng)論自由開放度高,呈現(xiàn)出全民參與新時(shí)代網(wǎng)絡(luò)媒體互動(dòng)交流的發(fā)展現(xiàn)狀。圖1為近5年我國網(wǎng)民規(guī)模及互聯(lián)網(wǎng)普及率。
圖1 2015—2020年我國網(wǎng)民規(guī)模及互聯(lián)網(wǎng)普及率
網(wǎng)絡(luò)跟帖評(píng)論已經(jīng)成為網(wǎng)民互動(dòng)交流、表達(dá)意見及輿論監(jiān)督的重要方式,然而伴隨著追求“過度自由”的個(gè)性化時(shí)代特征,加之監(jiān)督及審核制度的缺失,導(dǎo)致網(wǎng)民在行使話語權(quán)時(shí)經(jīng)常出現(xiàn)失態(tài)現(xiàn)象,使網(wǎng)絡(luò)空間成為傳播網(wǎng)絡(luò)謠言、散布污言穢語、發(fā)布違法違規(guī)信息的平臺(tái)[1]。早期用戶發(fā)表評(píng)論需要人工審核通過后才能發(fā)布公開,人工方法不僅耗時(shí)耗力,且效率低下,無法滿足當(dāng)前網(wǎng)絡(luò)刷新的時(shí)效性,更達(dá)不到用戶即時(shí)評(píng)論與在線討論的需求。基于當(dāng)今互聯(lián)網(wǎng)傳播便捷迅速,且言論呈現(xiàn)復(fù)雜多樣性特征,利用多功能融合技術(shù)研究一種智能化攔截惡意的不正當(dāng)評(píng)論方法,為廣大網(wǎng)民營造一個(gè)和諧純凈的評(píng)論與交流空間,已成為互聯(lián)網(wǎng)自由規(guī)范化發(fā)展的必由之路。因此,開發(fā)一種基于多功能融合的人工智能評(píng)論審核系統(tǒng)對(duì)在線留言與評(píng)論進(jìn)行智能化檢測與處理操作是新時(shí)代互聯(lián)網(wǎng)發(fā)展的迫切需求。目前,基于智能化的評(píng)論審核功能已被逐漸應(yīng)用于互聯(lián)網(wǎng)各大主流網(wǎng)站,諸如用戶評(píng)論情感分析、評(píng)論特征提取、主題挖掘文本分析等方法研發(fā)的安全檢測系統(tǒng)也被應(yīng)用于互聯(lián)網(wǎng)各類評(píng)論審核系統(tǒng)[2-4]。2019年,李貝貝開展了關(guān)于《紐約時(shí)報(bào)》從傳統(tǒng)的人工審核評(píng)論到通過自動(dòng)化技術(shù)進(jìn)行篩選排序研究,結(jié)合人工進(jìn)行評(píng)論管理的模式創(chuàng)新[5],證明該創(chuàng)新模式不僅大大減輕了人工審核的工作量,提升用戶評(píng)論審核的通過率,而且實(shí)現(xiàn)了內(nèi)容盈利的模式創(chuàng)新。2021年,涂正維等基于機(jī)器學(xué)習(xí)對(duì)影視劇評(píng)論進(jìn)行情感傾向性分析[6],受限于評(píng)論數(shù)據(jù)類型和分類器性能特點(diǎn)不同,所得出的分類結(jié)果準(zhǔn)確度存在一定的差異性。因此,該方法對(duì)小規(guī)模數(shù)據(jù)會(huì)產(chǎn)生較好的分類效果??v觀互聯(lián)網(wǎng)評(píng)論審核系統(tǒng)的研究現(xiàn)狀,均未直接將用戶心理健康識(shí)別作為一個(gè)功能模塊融入至互聯(lián)網(wǎng)評(píng)論的智能化審核中。因此,本文通過研發(fā)一種基于多功能融合的人工智能評(píng)論審核系統(tǒng),實(shí)現(xiàn)準(zhǔn)確的智能化評(píng)論審核機(jī)制,為過濾互聯(lián)網(wǎng)虛假異常信息和暢通評(píng)論交流提供技術(shù)支撐。表1為人工智能評(píng)論審核系統(tǒng)的各項(xiàng)核心目標(biāo)。
表1 人工智能評(píng)論審核系統(tǒng)目標(biāo)
人工智能評(píng)論審核系統(tǒng)(artificial intelligence comment detection system,AICDS)可用于微博、微信朋友圈、QQ空間、嗶哩嗶哩、知乎評(píng)論區(qū)內(nèi)容的審核與處理。為了使得AICDS對(duì)評(píng)論語句的識(shí)別判斷精準(zhǔn)度能夠不斷滿足互聯(lián)網(wǎng)詞庫迭代發(fā)展的要求,因此需通過預(yù)先爬取互聯(lián)網(wǎng)中各大主流網(wǎng)站的核心評(píng)論與留言數(shù)據(jù),并對(duì)其進(jìn)行自學(xué)習(xí)數(shù)據(jù)訓(xùn)練,同時(shí)對(duì)評(píng)論審核系統(tǒng)算法進(jìn)行優(yōu)化。通過一定的功能優(yōu)化與自學(xué)習(xí)后,亦可用于微信公眾號(hào)內(nèi)容審核、微信轉(zhuǎn)發(fā)內(nèi)容審核,以及為政府門戶網(wǎng)站互動(dòng)內(nèi)容及官微發(fā)布內(nèi)容審核提供技術(shù)支持。該系統(tǒng)的主要工作流程為:首先通過微信提供的端口獲得需要審核的文字?jǐn)?shù)據(jù),其次進(jìn)入循環(huán)中進(jìn)行識(shí)別運(yùn)算處理,并予以等級(jí)評(píng)定,最后通過等級(jí)劃分標(biāo)準(zhǔn)進(jìn)行權(quán)限分配,授權(quán)能否發(fā)送或評(píng)論可見級(jí)別。本系統(tǒng)共分為四個(gè)核心功能處理模塊,圖2為該系統(tǒng)功能框架。
圖2 AICDS功能框架
(1)數(shù)據(jù)處理模塊。系統(tǒng)接收到用戶提交的數(shù)據(jù)后首先對(duì)其進(jìn)行預(yù)處理操作,在該模塊中數(shù)據(jù)主動(dòng)進(jìn)行尋找反饋攔截,之后該模塊將對(duì)數(shù)據(jù)反饋進(jìn)行分類打包,返回識(shí)別結(jié)果。
(2)心理健康識(shí)別模塊。該模塊記憶庫采用標(biāo)記模式。對(duì)被識(shí)別的問題開展評(píng)論,直接進(jìn)行標(biāo)記。審核時(shí),對(duì)已經(jīng)存在相關(guān)標(biāo)記下的發(fā)言,予以特殊處理,提高評(píng)論審核標(biāo)準(zhǔn)。
(3)人工智能與數(shù)據(jù)記憶模塊。該模塊主要實(shí)現(xiàn)評(píng)論的實(shí)時(shí)監(jiān)控、訓(xùn)練學(xué)習(xí)和預(yù)測數(shù)據(jù)庫關(guān)鍵詞語發(fā)展趨勢等功能,從而防止評(píng)論者刻意規(guī)避系統(tǒng)檢查。該模塊的自行緊急處理包括兩種方式:先斬后奏型(即先屏蔽再上報(bào))、先奏后斬行(即先上報(bào)再屏蔽)。
(4)檢測及對(duì)比篩選模塊。該模塊主要用于對(duì)文字內(nèi)容進(jìn)行關(guān)鍵詞提取,對(duì)比篩選已有的不可發(fā)布詞庫或者不適合發(fā)布的關(guān)鍵詞庫,并進(jìn)行言論評(píng)價(jià)和評(píng)級(jí)。
AICDS系統(tǒng)主要使用Python語言,利用jieba庫進(jìn)行分詞,將文本分析成詞語列表,然后對(duì)該列表中每個(gè)詞匯的出現(xiàn)頻率進(jìn)行統(tǒng)計(jì)并確定主要的關(guān)鍵詞,清洗多頻的正常詞語,隨后將剩余詞匯與系統(tǒng)詞庫中的“違規(guī)詞匯庫”數(shù)據(jù)進(jìn)行對(duì)比,符合相似條件則攔截該詞匯的發(fā)布行為,并給出攔截原因解釋信息提示;反之則認(rèn)為通過系統(tǒng)審核,給予放行。
鑒于中華漢字博大精深,伴隨著應(yīng)用場景的不同,部分詞匯往往具有截然不同的含義。此種情況下,如何識(shí)別表達(dá)場景,智能化而非程序化的機(jī)械判斷成為該系統(tǒng)研發(fā)亟需突破的關(guān)鍵問題之一。AICDS系統(tǒng)通過人工智能推斷、數(shù)據(jù)記憶、特殊詞庫定義、特征語法習(xí)慣檢測等多功能融合方法,利用前置關(guān)聯(lián)詞匯將詞匯表達(dá)所屬場景納入數(shù)據(jù)處理分析中,實(shí)現(xiàn)更為精準(zhǔn)的智能化審核授權(quán)機(jī)制。圖3展示了該系統(tǒng)優(yōu)化前后針對(duì)應(yīng)用場景做出的智能判斷識(shí)別處理結(jié)果。對(duì)于“干得漂亮”一詞,本身有夸贊之意,但若將該詞運(yùn)用于負(fù)面場景或人物之中便會(huì)產(chǎn)生有損社會(huì)風(fēng)氣的行為結(jié)果,十分不利于社會(huì)文明的發(fā)展。通過AICDS系統(tǒng)的智能化檢測實(shí)現(xiàn)了潛規(guī)詞語的自過濾,為營造風(fēng)清氣正的互聯(lián)網(wǎng)環(huán)境提供了技術(shù)保障。
圖3 AICDS優(yōu)化前后場景識(shí)別對(duì)比
本文介紹了一個(gè)基于Python語言結(jié)合機(jī)器學(xué)習(xí)算法的人工智能評(píng)論審核系統(tǒng),旨在對(duì)網(wǎng)絡(luò)中污言穢語的精準(zhǔn)識(shí)別并進(jìn)行審核攔截反饋,為營造良好的網(wǎng)絡(luò)評(píng)論交流環(huán)境做出技術(shù)保障。通過建立數(shù)據(jù)處理模塊、心理健康識(shí)別模塊、人工智能與數(shù)據(jù)記憶模塊以及檢測及對(duì)比篩選模塊多功能融合的人工智能評(píng)論審核系統(tǒng),實(shí)現(xiàn)了多重審查和智能審核的交叉互補(bǔ),提高了審核結(jié)果的精準(zhǔn)性。該系統(tǒng)能夠較好的實(shí)現(xiàn)對(duì)惡意評(píng)論、不當(dāng)言論的審查過濾功能,且對(duì)于諧音詞、藏頭詩等不明顯詞匯以及詞語不同使用場景的不同含義均可做出判斷識(shí)別,為新時(shí)代互聯(lián)網(wǎng)評(píng)論與留言互動(dòng)的審核提供了一種創(chuàng)新方法。
然而,隨著大數(shù)據(jù)和人工智能的不斷深入融合,未來基于大數(shù)據(jù)的評(píng)論即時(shí)性自檢測技術(shù)將引領(lǐng)互聯(lián)網(wǎng)評(píng)論審核系統(tǒng)進(jìn)入一個(gè)全新的時(shí)代,下一步將在本文研究的基礎(chǔ)上,結(jié)合大數(shù)據(jù)、關(guān)聯(lián)規(guī)則、模糊算法與語義分析技術(shù)開展跨領(lǐng)域、網(wǎng)紅詞和多語義的聯(lián)合分析,融合權(quán)重分配方法進(jìn)行深度優(yōu)化分析研究評(píng)論審核的即時(shí)精準(zhǔn)自檢測技術(shù)。