隨著數(shù)據(jù)的不斷增長,計算能力的大幅提升,人工智能技術(shù)呈現(xiàn)跨越式發(fā)展,“人工智能+安全”的應(yīng)用受到了各界的廣泛關(guān)注,涌現(xiàn)出眾多的研究成果。
在內(nèi)部威脅防御方面,通過對內(nèi)網(wǎng)中的安全風(fēng)險進(jìn)行關(guān)聯(lián)性分析,并綜合分析內(nèi)部威脅的要素,評估當(dāng)前的網(wǎng)絡(luò)安全狀況,來預(yù)測內(nèi)部威脅,進(jìn)而構(gòu)建整體的內(nèi)部威脅感知防御體系。
在態(tài)勢感知方面,通過對互聯(lián)網(wǎng)中的網(wǎng)絡(luò)流量進(jìn)行采集、清洗,利用大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)技術(shù),綜合分析網(wǎng)絡(luò)行為以及用戶行為等因素,從而構(gòu)建整個網(wǎng)絡(luò)當(dāng)前狀態(tài)和變化趨勢。
在有害信息識別方面,基于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法的分析,能夠更好地對數(shù)據(jù)進(jìn)行聚合、分類、序列化,有效監(jiān)測識別網(wǎng)絡(luò)中的有害信息,提升了有害信息的檢測效率。本文主要分析人工智能在有害信息識別系統(tǒng)的應(yīng)用領(lǐng)域、發(fā)展趨勢及面臨的挑戰(zhàn)和應(yīng)對措施。
隨著有害信息識別技術(shù)的不斷發(fā)展,通過與人工智能算法的深度結(jié)合,有害信息的識別也實現(xiàn)了質(zhì)的飛躍。有害信息識別系統(tǒng)總體框架可分為3層:一是數(shù)據(jù)采集層;二是數(shù)據(jù)分析層;三是數(shù)據(jù)展示層(見圖1)。
(1)數(shù)據(jù)采集層
該層主要是對網(wǎng)絡(luò)上的數(shù)據(jù)進(jìn)行采集,面對的對象分別是文字、圖像、視頻數(shù)據(jù),內(nèi)容覆蓋新聞網(wǎng)站、熱門論壇、微博、主流視頻網(wǎng)站。通過采取大量的數(shù)據(jù)作為原始數(shù)據(jù)集,并對原始數(shù)據(jù)進(jìn)行分類整理,篩選出高質(zhì)量的有害信息數(shù)據(jù)集供數(shù)據(jù)分析層使用。
(2)數(shù)據(jù)分析層
該層主要是對數(shù)據(jù)采集層的數(shù)據(jù)集進(jìn)行分類、清洗。通過機(jī)器學(xué)習(xí)的方式對數(shù)據(jù)進(jìn)行分析,得出大型的文字、圖像、視頻的指紋庫,通過監(jiān)控的方式對文字、圖像和視頻進(jìn)行有害信息識別。
(3)數(shù)據(jù)展示層
該層主要是通過對監(jiān)控互聯(lián)網(wǎng)上的論壇、微博等UGC產(chǎn)品的信息進(jìn)行比對,分析得出結(jié)果。通過屏幕展的方式展示出數(shù)字預(yù)警、結(jié)果的審核、違規(guī)的報告、關(guān)鍵詞管理以及監(jiān)控范圍等功能,供監(jiān)管者進(jìn)行管理和決策。
目前,有害信息識別系統(tǒng)服務(wù)主要應(yīng)用在文字、圖片和視頻領(lǐng)域。
在圖片鑒別領(lǐng)域,主要是通過人工智能模型對圖片中的人、物或標(biāo)識與實時更新的有害樣本庫進(jìn)行對比,及時發(fā)現(xiàn)預(yù)警并處置。如在鑒黃方面,會將一張圖片分為三個涉黃程度,分別為色情、性感、正常三個分值,通過比對樣本庫對違規(guī)的色情圖像進(jìn)行自動過濾。
圖1 有害信息識別系統(tǒng)總體架構(gòu)圖
文字識別領(lǐng)域,主要是使用光學(xué)字符識別(Optical Character Recognition,OCR)算法,精準(zhǔn)定位文本中文字內(nèi)容、文字類型等,采用自然語言處理(Neuro-Linguistic Programming,NLP)算法識別色情、暴恐涉政、廣告、辱罵等文本,并且能夠結(jié)合行為策略有效管控灌水、刷屏等惡意行為。
視頻直播領(lǐng)域,主要通過使用圖像截幀識別、語音識別、文字識別、人臉識別等技術(shù)對視頻進(jìn)行檢測,通過自然語言處理與視頻指紋庫進(jìn)行視頻對比,及時發(fā)現(xiàn)涉黃、涉暴、政治敏感、廣告、違禁品等風(fēng)險內(nèi)容。
有害信息識別服務(wù)快速發(fā)展,改變了傳統(tǒng)的審核方式,提升了內(nèi)容監(jiān)管智能化水平。在數(shù)據(jù)共享、識別技術(shù)等方面,逐漸達(dá)成共識,助力我國信息監(jiān)管智能化水平的提升。
(1)監(jiān)管部門積極采取監(jiān)管措施來應(yīng)對挑戰(zhàn),但是網(wǎng)絡(luò)監(jiān)管形勢依然嚴(yán)峻
隨著信息傳播技術(shù)的快速發(fā)展、互聯(lián)網(wǎng)平臺的興起及公眾賬號數(shù)量的日益增多,在一定程度上滿足了用戶多元化的信息需求。但同時,一些互聯(lián)網(wǎng)平臺落實管理主體責(zé)任缺失,部分公眾賬號在運營中傳播低俗色情虛假信息,甚至侵犯他人合法權(quán)益。在這一背景下,國家互聯(lián)網(wǎng)信息辦公室先后出臺《互聯(lián)網(wǎng)用戶公眾賬號信息服務(wù)管理規(guī)定》、《互聯(lián)網(wǎng)新聞信息服務(wù)管理規(guī)定》、《互聯(lián)網(wǎng)跟帖評論服務(wù)管理規(guī)定》等一系列措施應(yīng)對挑戰(zhàn)。據(jù)報道,日前美國連鎖酒店萬豪國際集團(tuán)被發(fā)現(xiàn)在發(fā)給中國會員的郵件中,將中國香港、澳門、臺灣、西藏等地區(qū)列入“國家”一欄,事件的發(fā)生也對未來政府監(jiān)管提出了更高的要求。
(2)人工智能技術(shù)提升內(nèi)容監(jiān)管智能化水平,但是最終還需要人工審核
截止到2018年1月,全國網(wǎng)絡(luò)違法和不良信息有效舉報量達(dá)400.7萬件,環(huán)比下降約8.8%,同比增長47.6%(見圖2)?;ヂ?lián)網(wǎng)違法內(nèi)容(尤其是多媒體內(nèi)容)增多,傳統(tǒng)依賴網(wǎng)民舉報和工作人員的觀看監(jiān)測很難解決海量內(nèi)容的審查問題。據(jù)報道,國外科技公司開始利用AI技術(shù)清除互聯(lián)網(wǎng)上的違法違規(guī)內(nèi)容。如Facebook利用AI技術(shù)對互聯(lián)網(wǎng)內(nèi)容進(jìn)行標(biāo)記,同時開發(fā)了一款對用戶的視頻直播內(nèi)容進(jìn)行實時監(jiān)控識別的工具,可過濾涉黃、暴力等內(nèi)容;谷歌采用AI和人工審核結(jié)合的方式審查YouTube付費內(nèi)容。但目前AI技術(shù)并不能完全取代人工審查,AI系統(tǒng)反饋的審查結(jié)果最終還是需要由人判定。
圖2 全國網(wǎng)絡(luò)違法和不良信息有效舉報量
(3)企業(yè)逐漸成為人工智能領(lǐng)域的中堅力量,但是信息識別資金投入較少
據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計資料顯示,隨著人工智能技術(shù)的快速發(fā)展,企業(yè)也在不斷探索AI技術(shù)在信息識別方面的應(yīng)用(見圖3)。人工智能產(chǎn)業(yè)市場規(guī)模呈現(xiàn)爆發(fā)式增長,從2014年的48.6億元增長至2016年的95.6億元,年均增長率高達(dá)40%。通過利用機(jī)器學(xué)習(xí)的聚類分析、關(guān)聯(lián)分析等相關(guān)算法,輔助完成互聯(lián)網(wǎng)信息內(nèi)容分類和安全監(jiān)管,實現(xiàn)對互聯(lián)網(wǎng)不良信息的實時監(jiān)測、預(yù)警和處置,企業(yè)逐漸成為創(chuàng)新的主體,成為識別有害信息識別系統(tǒng)的中堅力量。據(jù)報道,我國網(wǎng)絡(luò)安全投入占IT投入的比例僅約為2%,遠(yuǎn)低于海外12%的平均投入水平。企業(yè)在對基于人工智能技術(shù)的安全應(yīng)用投入研究,也僅僅占有很少一部分的資金,這也是目前有害信息識別系統(tǒng)發(fā)展的弊病。
(4)互聯(lián)網(wǎng)公司聯(lián)合發(fā)起“清網(wǎng)”倡議書,但是有害信息共享依舊很困難
2015年10月30日的消息稱,百度、阿里巴巴、騰訊、新浪/新浪微博、優(yōu)酷、陌陌6家互聯(lián)網(wǎng)公司共同發(fā)出《關(guān)于“清朗網(wǎng)絡(luò)空間,文明網(wǎng)絡(luò)行為”的聯(lián)合倡議》,呼吁互聯(lián)網(wǎng)從業(yè)者自覺抵制網(wǎng)絡(luò)庸俗、低俗、媚俗之風(fēng),努力為構(gòu)建清朗網(wǎng)絡(luò)空間做出貢獻(xiàn)。同時,他們也表示將加強(qiáng)相互之間的溝通協(xié)作,建立健全互聯(lián)網(wǎng)行業(yè)自律機(jī)制,致力于建立網(wǎng)絡(luò)信息安全聯(lián)動工作機(jī)制,實現(xiàn)互聯(lián)互通和信息共享,共同抵制網(wǎng)上不法行為。但是,由于在實施的過程中各家的數(shù)據(jù)格式、名稱不一致,因此互聯(lián)網(wǎng)公司至今仍很難做到有害信息互聯(lián)互通、工作很好地聯(lián)動。
(5)國家通過系列措施加大對AI人才的培養(yǎng),但是信息識別人才依然緊缺
近年來,人工智能已成為世界各國掌握國際科技競爭主導(dǎo)權(quán)的核心競爭力。我國也不斷出臺新政策與發(fā)展規(guī)劃支持,積極布局人工智能。而人工智能的異軍突起也對人才培養(yǎng)的改革創(chuàng)新提出了進(jìn)一步的要求。為此,不少高校開設(shè)人工智能學(xué)院,設(shè)立人工智能相關(guān)專業(yè)、課程,以便更好地適應(yīng)行業(yè)發(fā)展的巨大需求。與此同時,國務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,明確指出應(yīng)實施全民智能教育項目,在中小學(xué)階段設(shè)置人工智能相關(guān)課程,逐步推廣編程教育。今年,人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)處理等內(nèi)容正式進(jìn)入了全國高中“新課標(biāo)”,人工智能教育在社會掀起一陣學(xué)習(xí)風(fēng)潮。但是,據(jù)大街網(wǎng)的數(shù)據(jù)顯示,我國人工智能人才缺口超過500萬,精準(zhǔn)AI人才50萬,供求比例僅為1:10。存在著人才數(shù)量缺口較大、能力素質(zhì)不高、結(jié)構(gòu)不盡合理等問題,與維護(hù)國家網(wǎng)絡(luò)安全、建設(shè)網(wǎng)絡(luò)強(qiáng)國的要求不相適應(yīng)。
圖3 有害信息識別系統(tǒng)總體架構(gòu)圖
隨著網(wǎng)絡(luò)安全數(shù)據(jù)量的爆發(fā)式增長、深度學(xué)習(xí)算法的優(yōu)化改進(jìn)、計算能力的大幅提升,有害信息識別服務(wù)產(chǎn)業(yè)發(fā)展勢頭良好。但是,目前還存在著以下幾方面的挑戰(zhàn):
(1)缺乏關(guān)于有害信息識別系統(tǒng)的指導(dǎo)性文件。
(2)人工智能相關(guān)核心算法和技術(shù)尚未成熟穩(wěn)定。
(3)人工智能安全應(yīng)用的資金投入還很少。
(4)網(wǎng)絡(luò)安全相關(guān)數(shù)據(jù)孤島局面仍未破解。
(5)網(wǎng)絡(luò)安全和人工智能人才嚴(yán)重短缺。
面對當(dāng)前全球網(wǎng)絡(luò)安全威脅日益嚴(yán)峻復(fù)雜的形式,并綜合考慮到上述問題,筆者提出以下幾點應(yīng)對措施。
(1)出臺指導(dǎo)性文件,形成關(guān)于“人工智能+安全”的頂層設(shè)計
建議政府加強(qiáng)政策標(biāo)準(zhǔn)引導(dǎo)制定,企業(yè)、行業(yè)組織等協(xié)同推進(jìn),鼓勵企業(yè)使用人工智能在安全應(yīng)用的創(chuàng)新,出臺相關(guān)人工智能技術(shù)提升安全能力的安全產(chǎn)品規(guī)范文件和定義,建立“人工智能+安全”的安全監(jiān)督、風(fēng)險評估、安全事件通報等機(jī)制。
(2)鼓勵創(chuàng)新大賽,推動人工智能在安全領(lǐng)域的示范性效應(yīng)
加快研究有害信息識別領(lǐng)域的創(chuàng)新,開展有害信息識別創(chuàng)新創(chuàng)業(yè)和解決方案大賽,鼓勵建設(shè)有害信息識別企業(yè)的創(chuàng)新交流平臺,形成示范性效應(yīng)。
(3)加大政策支持,扶持有害信息識別產(chǎn)業(yè)健康有序發(fā)展
建議堅持政府引導(dǎo)和市場運作相結(jié)合,充分調(diào)動社會力量支持有害信息識別產(chǎn)業(yè)建設(shè)。支持開展有害信息識別關(guān)鍵技術(shù)、應(yīng)用技術(shù)和人工智能相關(guān)技術(shù)研究,利用智能制造專項等政策加快有害信息識別產(chǎn)業(yè)的發(fā)展。
(4)鼓勵信息共享,推動行業(yè)實現(xiàn)互聯(lián)互通和信息共享
建議企業(yè)、科研院所、聯(lián)盟協(xié)會等機(jī)構(gòu)和個人積極參與信息共享工作,建立關(guān)于文字、圖片、語音、視頻等方面的開源數(shù)據(jù)集,建設(shè)有害信息共享平臺,實現(xiàn)信息的安全、可靠、共享。
(5)加快人才培養(yǎng),為有害信息識別產(chǎn)業(yè)培育專業(yè)人才
鼓勵企業(yè)加強(qiáng)與院校合作,聯(lián)合培養(yǎng)有害信息專業(yè)人才。為有害信息識別戰(zhàn)略部署、規(guī)劃制定、決策咨詢等重大問題提供智力支持和技術(shù)支撐。
參考文獻(xiàn)
[1]中華人民共和國國家互聯(lián)網(wǎng)信息辦公室.全國“掃黃打非”辦召集16家互聯(lián)網(wǎng)公司要求加強(qiáng)自律清查[J/OL].(2018-02-07)[2018-02-28].http://www.cac.gov.cn/2018-02/07/c_1122382786.htm.
[2]于成麗,安青邦,周麗麗.人工智能在網(wǎng)絡(luò)安全領(lǐng)域的應(yīng)用和發(fā)展新趨勢[J].保密科學(xué)技術(shù),2018,01.
[3]領(lǐng)英.2017年全球AI領(lǐng)域人才報告[J/OL].(2017-07-06)[2018-02-28].https://business.linkedin.com/zh-cn/talent-solutions/s/sem-report-resources.
[4]前瞻產(chǎn)業(yè)研究院.三大因素推動人工智能發(fā)展行業(yè)未來趨勢解析[J/OL].(2017-02-08)[2018-02-28].https://bg.qianzhan.com/report/detail/458/170208-3c161a6b.html.