杜雪濤
中國移動通信集團(tuán)設(shè)計院有限公司,北京 100080
隨著人工智能技術(shù)在自然語言處理領(lǐng)域的突破性進(jìn)展,使用計算機(jī)代替人類閱讀和理解海量數(shù)據(jù),幫助人們進(jìn)行科學(xué)決策和方案制訂成為可能。基于大數(shù)據(jù)的認(rèn)知計算技術(shù)應(yīng)運(yùn)而生。隨著該技術(shù)的不斷成熟,其被應(yīng)用到醫(yī)療、法律、教育和金融等多個領(lǐng)域,成為各行業(yè)的研究熱點(diǎn)。
作為關(guān)鍵信息通信基礎(chǔ)設(shè)施的運(yùn)營者和維護(hù)者,運(yùn)營商有義務(wù)對通信網(wǎng)絡(luò)中傳播的信息進(jìn)行內(nèi)容安全管控。隨著信息傳輸速度日益加快,信息容量越來越大,信息變化速度越來越高,治理壓力持續(xù)加大。面對海量數(shù)據(jù),人工分析方法已經(jīng)無法應(yīng)對不良信息的快速演變。因此亟須引入基于大數(shù)據(jù)分析的認(rèn)知計算技術(shù),用其代替人工分析,自動總結(jié)最新不良信息的規(guī)律和知識,幫助內(nèi)容安全管控人員快速對新型不良信息做出正確有效的響應(yīng)。
雖然認(rèn)知計算已經(jīng)被廣泛應(yīng)用于多個領(lǐng)域,但其與內(nèi)容安全治理相結(jié)合的場景尚不多見。本文討論的內(nèi)容安全治理特指不良文本內(nèi)容。目前通信運(yùn)營商治理不良文本內(nèi)容的手段主要分為線上攔截和線下分析兩種。在線上攔截中,可以配置關(guān)鍵詞組合策略,對發(fā)送的不良文本消息進(jìn)行實(shí)時攔截。在線下分析中,可以對海量數(shù)據(jù)進(jìn)行大數(shù)據(jù)分析,最終實(shí)現(xiàn)兩個目的:第一,發(fā)現(xiàn)線上分析無法識別的隱蔽不良文本消息,如詐騙信息與正常通信內(nèi)容非常接近,很難通過定義關(guān)鍵詞進(jìn)行識別;第二,優(yōu)化線上的關(guān)鍵詞組合策略,發(fā)揮線上攔截系統(tǒng)的最大功效,如發(fā)現(xiàn)了更加精準(zhǔn)高效的關(guān)鍵詞,用其替換已有線上關(guān)鍵詞。
圍繞上述兩個目的,本文將大數(shù)據(jù)認(rèn)知計算技術(shù)創(chuàng)新性地應(yīng)用到4個場景:詐騙信息識別與易感人群發(fā)現(xiàn)、不良關(guān)鍵詞知識庫構(gòu)建、垃圾消息變體詞自動發(fā)現(xiàn)以及不良域名擬態(tài)拓展。詐騙信息識別與易感人群發(fā)現(xiàn)是為了發(fā)現(xiàn)隱蔽詐騙信息,后面3個應(yīng)用場景都是為了有效地優(yōu)化線上關(guān)鍵詞組合策略。其中,不良關(guān)鍵詞知識庫構(gòu)建的目的是優(yōu)化關(guān)鍵詞本身以及關(guān)鍵詞之間的布爾邏輯;垃圾消息變體詞自動發(fā)現(xiàn)的目的是生成變體關(guān)鍵詞策略,精準(zhǔn)攔截變體垃圾信息;不良網(wǎng)站域名擬態(tài)擴(kuò)展的目的是發(fā)現(xiàn)未知不良域名,以便將域名配置為關(guān)鍵詞,對包含不良域名的不良文本進(jìn)行精準(zhǔn)攔截。
本文基于自然語言處理與機(jī)器學(xué)習(xí)技術(shù)提出了大數(shù)據(jù)認(rèn)知計算在這4種內(nèi)容安全治理問題中的解決方案,并結(jié)合案例分析展示了認(rèn)知計算在內(nèi)容安全治理中的實(shí)踐效果。
電信詐騙給用戶帶來了巨大的經(jīng)濟(jì)損失,其中詐騙消息是詐騙分子與受害者建立聯(lián)系的重要環(huán)節(jié)。隨著電信詐騙黑色產(chǎn)業(yè)鏈逐步成熟,詐騙日趨呈現(xiàn)專業(yè)化、精準(zhǔn)化、隱蔽化的特點(diǎn)。詐騙分子通過購買黑產(chǎn)數(shù)據(jù)獲得受害者個人信息,并在詐騙過程中準(zhǔn)確說出受害者名字,冒充受害者的熟人,從而獲得受害者的信任。不同于其他違法類信息,該類信息幾乎不使用敏感詞,使用文本分類技術(shù)很難將其與正常消息進(jìn)行區(qū)分,誤判率較高,治理效果不理想。為了實(shí)現(xiàn)對該類信息的精準(zhǔn)識別,需要使用技術(shù)手段對犯罪分子使用各種身份群發(fā)信息的行為(以下稱為濫用身份行為)進(jìn)行捕捉。為了實(shí)現(xiàn)這一目標(biāo),需要使用認(rèn)知計算技術(shù)對海量非結(jié)構(gòu)化信息內(nèi)容進(jìn)行精細(xì)化語義理解,識別其中的身份信息,并使用機(jī)器學(xué)習(xí)技術(shù)推斷身份信息的歸屬。當(dāng)發(fā)現(xiàn)大量身份信息附著在同一個發(fā)送者身上時,則該發(fā)送者可能是濫用稱謂詐騙者。分析濫用稱謂詐騙者的詐騙對象,可以得到電信詐騙易感人群。
如圖1所示,在識別濫用身份類詐騙時,首先需要使用命名實(shí)體識別技術(shù)對消息中的人名、組織機(jī)構(gòu)名稱、QQ號、微信號、抖音號等信息進(jìn)行精準(zhǔn)識別。關(guān)于命名實(shí)體識別的研究成果國內(nèi)外已有很多[1-4],最新的研究成果有基于BERT嵌入[5]、轉(zhuǎn)移學(xué)習(xí)[6]、自注意力機(jī)制[7]等方法。一個命名實(shí)體可能代表了一種身份信息。當(dāng)識別出身份信息后,還需要進(jìn)一步推斷身份信息屬于消息發(fā)送者還是消息接收者。本文采用基于Transformer[8]的深度神經(jīng)網(wǎng)絡(luò)對身份信息的所有者進(jìn)行推斷,從而將不同的身份信息聚合到消息發(fā)送者和消息接收者上。選擇Transformer主要有兩個原因:第一,Transformer模型的多頭自注意力網(wǎng)絡(luò)能夠自動學(xué)習(xí)輸入文本中詞語之間的任意距離的依賴關(guān)系;第二,Transformer模型的位置編碼機(jī)制將詞語的位置信息也融合到詞嵌入中,這就保證稱謂在開頭或結(jié)尾時,模型的自注意力網(wǎng)絡(luò)能夠有效地感知位置信息,進(jìn)而通過位置信息對稱謂的歸屬進(jìn)行準(zhǔn)確的推斷。
圖1 濫用身份類詐騙的認(rèn)知計算技術(shù)解決方案
命名實(shí)體歸屬的推斷通常需要考慮命名實(shí)體所在的上下文,如命名實(shí)體的前序詞語為“尊敬的”,則顯然該命名實(shí)體歸屬于消息接收者;而若命名實(shí)體的前序詞語是“我是”,則歸屬于消息發(fā)送者。同時命名實(shí)體所在消息位置也直接影響了消息歸屬,如命名實(shí)體在消息開頭則屬于接收者,在消息結(jié)尾則屬于發(fā)送者。在推斷命名實(shí)體歸屬時,Transformer可以充分考慮消息中的每一個詞對命名實(shí)體歸屬的影響,同時還可以通過位置編碼技術(shù)考慮命名實(shí)體所在的位置信息,因此能夠準(zhǔn)確地推斷出命名實(shí)體的歸屬。
可以使用圖數(shù)據(jù)庫對分析出的海量號碼關(guān)聯(lián)身份信息進(jìn)行存儲,并通過圖計算,快速找到身份信息過多的消息發(fā)送者。一般情況下,當(dāng)一個消息發(fā)送者使用的身份信息超過10個時,則可以判定消息發(fā)送者為詐騙分子。當(dāng)一個消息發(fā)送者被判定為詐騙分子后,其所發(fā)送信息的接收者均為潛在的詐騙受害者。同時若信息中有信息接收者的身份信息,則證明信息接收者的身份已經(jīng)泄露,其還有可能被其他詐騙分子當(dāng)作潛在的詐騙目標(biāo),屬于電信詐騙的易感人群。針對該類易感人群,可重點(diǎn)進(jìn)行反電信詐騙的宣傳教育。
圖2是通過分析海量真實(shí)數(shù)據(jù)得到的濫用稱謂詐騙示例,每個類型的示例消息為同一個號碼發(fā)送。加粗的字段為算法識別出的稱謂信息,為了保護(hù)個人信息,示例中的稱謂信息已被模糊化。從消息內(nèi)容可看出,消息的發(fā)送者稱謂信息可能會出現(xiàn)在消息的開頭、中間或結(jié)尾,模型都能夠進(jìn)行較好的稱謂分辨。上述例子中每一種詐騙的發(fā)送者實(shí)際上都被模型賦予了20個以上的身份信息,此處限于篇幅僅各列出3個。
圖2 濫用稱謂詐騙示例
通過分析海量消息中的命名實(shí)體歸屬,將消息中的命名實(shí)體聚合到消息的發(fā)送者和接收者上,可以快速分析出濫用或偽造身份的詐騙消息發(fā)送行為。在實(shí)踐中,該算法每天可發(fā)現(xiàn)濫用稱謂類垃圾消息近百萬條,治理成效顯著。另外,由于該方法從詐騙分子偽造身份這一本質(zhì)特征進(jìn)行分析,并不依賴于具體的詐騙套路,故詐騙分子很難通過改變詐騙套路繞過該方法。
綜上所述,通過使用大數(shù)據(jù)認(rèn)知計算中的自然語言處理技術(shù),提取海量非結(jié)構(gòu)化文本中的命名實(shí)體,再通過機(jī)器學(xué)習(xí)技術(shù)使用Transformer模型學(xué)習(xí)如何推斷命名實(shí)體屬于消息發(fā)送者還是接收者,可以有效地將命名實(shí)體按照消息的發(fā)送者聚類,從而找到具有過多命名實(shí)體的消息發(fā)送者,進(jìn)而確定詐騙分子的手機(jī)號碼。
運(yùn)營商在進(jìn)行不良文本消息治理時,通常使用關(guān)鍵詞組合策略。關(guān)鍵詞組合策略由一系列關(guān)鍵詞和“與”“或”邏輯有機(jī)構(gòu)成。當(dāng)一條信息中包含策略定義的關(guān)鍵詞且滿足策略定義的邏輯組合時,該信息就會被判定為違規(guī)信息。關(guān)鍵詞組合策略通常由人來定義。策略制訂人員需要根據(jù)不同的不良文本消息特征定義不同的關(guān)鍵詞組合策略,過程費(fèi)時費(fèi)力,且覆蓋不全面。當(dāng)策略數(shù)量達(dá)到上千條時,人工維護(hù)每一條策略的生命周期變得不可行。
此外,不同水平的策略制訂人員制訂的策略也存在較大的質(zhì)量差距。普通策略制訂人員在制訂一條策略時往往聚焦于少量特定不良信息,只有有經(jīng)驗(yàn)的策略制訂人員才會進(jìn)行策略的適度拓展,提高策略泛化能力。通過大數(shù)據(jù)認(rèn)知計算技術(shù),將海量不良信息凝練成不良關(guān)鍵詞知識庫,可以幫助缺乏經(jīng)驗(yàn)的策略制訂人員進(jìn)行適度的拓展發(fā)揮。
為了達(dá)到上述目的,需要使用認(rèn)知計算技術(shù)分析海量非結(jié)構(gòu)化垃圾文本消息,使用深度學(xué)習(xí)與自然語言處理技術(shù)自動挖掘垃圾文本中不良關(guān)鍵詞之間的“共現(xiàn)”和“替代”關(guān)系,并形成知識庫。具體地,具有替代關(guān)系的兩個關(guān)鍵詞經(jīng)常在相同的語境中出現(xiàn),如“美國”和“漂亮國”在政治類消息中共享相同的語境,可相互替代。若要自動發(fā)現(xiàn)具有替代關(guān)系的關(guān)鍵詞,需要使用深度學(xué)習(xí)技術(shù)計算每個詞語的上下文語境表示,并計算語境之間的相似度,相似度越大,則兩個詞語之間的替代性越強(qiáng)。替代關(guān)系可以幫助策略管理人員拓展現(xiàn)有策略的“或”邏輯。
具有共現(xiàn)關(guān)系的兩個關(guān)鍵詞經(jīng)常在相同類型的消息中一同出現(xiàn):如“代開”和“發(fā)票”經(jīng)常在涉黑類消息中出現(xiàn)。在進(jìn)行共現(xiàn)關(guān)系挖掘時,不但要考慮兩個詞語在消息中共同出現(xiàn)的概率,還需要考慮其對不良消息的判別作用,可以通過機(jī)器學(xué)習(xí)技術(shù)構(gòu)建文本分類模型來評價不同詞語共現(xiàn)特征對分類結(jié)果的影響,影響越大,則共現(xiàn)關(guān)系越強(qiáng)。策略管理人員可以通過共現(xiàn)關(guān)系拓展策略的“與”邏輯。
關(guān)鍵詞的屬性信息中的類別傾向性和熱度比較容易使用大數(shù)據(jù)統(tǒng)計的方法獲得,統(tǒng)計關(guān)鍵詞在相應(yīng)類別下的頻次即可。這里不再贅述。
關(guān)鍵詞的替代關(guān)系可以通過基于詞嵌入層的文本分類器來實(shí)現(xiàn)。詞嵌入層可以將輸入的關(guān)鍵詞轉(zhuǎn)化為稠密空間中的一個向量表達(dá)。當(dāng)分類器進(jìn)行訓(xùn)練時,詞嵌入層將為不同詞語的向量表達(dá)進(jìn)行優(yōu)化,使得不同類別傾向性的詞語距離拉長,相同類別傾向性的詞語距離縮短。當(dāng)在特定類別下兩個詞語具有相互替代效果時,兩個詞語的距離非常接近??墒褂脙蓚€向量的余弦距離量化關(guān)鍵詞替代關(guān)系的強(qiáng)弱。帶有詞嵌入層的文本分類模型有很多。例如,Ge L H等人[9]通過詞嵌入模型來優(yōu)化文本分類性能;Liu Q等人[10]將面向特定領(lǐng)域的詞嵌入模型用于文本分類;同時標(biāo)準(zhǔn)Transformer網(wǎng)絡(luò)也包含詞嵌入層,Shaheen Z等人[11]將Transformer應(yīng)用于文本分類任務(wù)。另外,王玲[12]將詞嵌入與長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)進(jìn)行組合,形成分類器。對于短消息分類場景,任選一種結(jié)構(gòu)較簡單的包含詞嵌入層的分類器即可滿足要求。
關(guān)鍵詞的共現(xiàn)關(guān)系可以使用基于卷積與注意力機(jī)制神經(jīng)網(wǎng)絡(luò)的分類器來實(shí)現(xiàn)。卷積窗口的大小決定了共現(xiàn)詞語的個數(shù)。卷積特征圖中的每一個元素代表了一種詞語共現(xiàn)關(guān)系。這些共現(xiàn)關(guān)系對分類結(jié)果會有不同程度的影響,注意力層會將這些影響量化為權(quán)重。當(dāng)分類器輸入一條消息時,可以通過注意力矩陣權(quán)重找到與消息類別關(guān)聯(lián)最緊密的詞語共現(xiàn)關(guān)系。對每條消息都提取最重要的詞語共現(xiàn)關(guān)系,并進(jìn)行統(tǒng)計聚合??梢詫?shí)現(xiàn)對關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)的快速挖掘。將卷積與注意力機(jī)制組合的分類器較豐富,如Du J C等人[13]提出了卷積循環(huán)注意力網(wǎng)絡(luò)(convolutional recurrent attention network,CRAN);Gao S等人[14]構(gòu)建了一種層次化的卷積注意力網(wǎng)絡(luò),從詞級和句子級兩個層次對文檔進(jìn)行分類;Liu G等人[15]和Zheng J等人[16]將卷積網(wǎng)絡(luò)、雙向LSTM網(wǎng)絡(luò)與注意力機(jī)制進(jìn)行了不同的組合嘗試,并獲得了不錯的效果;閆躍等人[17]使用多重注意力機(jī)制與卷積網(wǎng)絡(luò)結(jié)合,形成文本分類器。對于消息類短文本分類,采用卷積循環(huán)注意力網(wǎng)絡(luò)已經(jīng)足夠。
綜上所述,關(guān)鍵詞的替代關(guān)系與共現(xiàn)關(guān)系需要訓(xùn)練一個同時包含詞嵌入、卷積層和注意力層的神經(jīng)網(wǎng)絡(luò)。如圖3所示,卷積循環(huán)注意力網(wǎng)絡(luò)將詞嵌入層通過卷積操作后輸出到注意力層,注意力信號的每一個元素代表了一種詞語共現(xiàn)關(guān)系。通過訓(xùn)練該模型得到詞嵌入表達(dá),同時在輸入消息時得到消息中詞語共現(xiàn)關(guān)系權(quán)重。這些信息可以用于計算關(guān)鍵詞替代關(guān)系和共現(xiàn)關(guān)系。
圖3 CRAN核心網(wǎng)絡(luò)結(jié)構(gòu)
圖4展示了模型在真實(shí)短消息數(shù)據(jù)中的輸出數(shù)據(jù)示例。當(dāng)將海量消息輸入卷積循環(huán)注意力網(wǎng)絡(luò)后,通過觀察注意力網(wǎng)絡(luò)的最大權(quán)重可以得到每條消息最重要的共現(xiàn)關(guān)系。圖4中案例使用的卷積窗口大小為3,因此共現(xiàn)關(guān)系表現(xiàn)為3個連續(xù)的詞語共同出現(xiàn)的特征。通過統(tǒng)計海量消息的共現(xiàn)特征,可以得到右側(cè)的知識庫。知識庫中的節(jié)點(diǎn)為共現(xiàn)特征庫中的詞,節(jié)點(diǎn)之間的邊描述詞之間的關(guān)系。圖4中“全場”和“低至”出現(xiàn)頻次較高,則可以構(gòu)建兩者之間的“共現(xiàn)”關(guān)系連接。通過進(jìn)一步計算節(jié)點(diǎn)的詞嵌入之間的余弦相似度,可以獲得替代關(guān)系,如“元”和“折”兩者的詞嵌入較為接近,故二者存在替代關(guān)系。通過如上知識,可以生成策略“(元|折)&低至”,即“元”和“折”是“或”邏輯,二者與“低至”形成“與”邏輯。
圖4 不良關(guān)鍵詞知識庫構(gòu)建案例
策略制訂人員和管理人員借助不良關(guān)鍵詞知識庫可以快速對最新的不良信息提取關(guān)鍵詞并形成策略,從而提高不良信息的識別質(zhì)量?;谠撝R庫開發(fā)的策略查準(zhǔn)優(yōu)化功能能夠平均提升策略查準(zhǔn)率15%,基于該知識庫開發(fā)策略查全優(yōu)化功能能夠平均提升策略貢獻(xiàn)力10%?;谠撝R庫研發(fā)的策略自動優(yōu)化流程能夠大大提升策略制訂人員應(yīng)對新型不良信息的響應(yīng)速度(由小時級別提升到分鐘級別)。
隨著運(yùn)營商對垃圾消息的持續(xù)治理,垃圾消息發(fā)送者開始在消息中引入大量變體關(guān)鍵詞,以規(guī)避關(guān)鍵詞審查。變體關(guān)鍵詞將敏感關(guān)鍵詞中的字用同音字、形近字、拼音或拼音首字母、特殊符號等方式進(jìn)行替換。不同于其他關(guān)鍵詞,變體關(guān)鍵詞幾乎不會在正常消息中出現(xiàn),因此及時準(zhǔn)確發(fā)現(xiàn)變體關(guān)鍵詞,并制訂關(guān)鍵詞策略可以高效、準(zhǔn)確地實(shí)現(xiàn)變體垃圾消息攔截。
通常一個敏感關(guān)鍵詞可以衍生出數(shù)十種甚至上百種變體,且變體會隨時間不斷變化。只有及時了解敏感關(guān)鍵詞變體的發(fā)展變化情況,才能快速對最新關(guān)鍵詞變體進(jìn)行響應(yīng)。但采用人工總結(jié)的方式很難實(shí)現(xiàn)上述目標(biāo),需要使用大數(shù)據(jù)認(rèn)知計算技術(shù)自動分析海量垃圾信息,并理解和推斷出其中包含的變體關(guān)鍵詞。
具體地,在給定一條變體垃圾信息時,首先需要使用深度學(xué)習(xí)技術(shù)對變體垃圾信息的本體進(jìn)行智能還原。該過程同時考慮變體消息中每個字的發(fā)音、字形和所處上下文,對每個字是否需要還原進(jìn)行判斷,若需要還原,則自動給出還原結(jié)果。如“菠菜網(wǎng)站”是“博彩網(wǎng)站”常用的變體消息,“菠菜”是否要還原為“博彩”首先要看“菠菜”本身的發(fā)音,其次還需要看其后面是否為“網(wǎng)站”。
在對變體消息進(jìn)行還原后,可對還原后的消息進(jìn)行敏感詞分析,并在變體中反推出敏感詞變體。如還原后,信息中“充值”可能在變體信息中是“沖值”,那么“沖值”為“充值”的變體關(guān)鍵詞。通過分析海量變體消息,可以總結(jié)大量變體關(guān)鍵詞,這些關(guān)鍵詞大多不會在正常消息中出現(xiàn),故可以將其配置為關(guān)鍵詞策略以進(jìn)行消息攔截。如策略“(枰邰|坪邰|評苔|蘋苔|坪苔|呯邰)”配置了“平臺”這個關(guān)鍵詞的各種變體。消息中只要包含其中一個變體,則會被立刻攔截。
變體關(guān)鍵詞推斷的靈感來源于拼音輸入法的實(shí)現(xiàn)方法。在拼音輸入法中,給定拼音序列,輸入法可以給出拼音序列對應(yīng)的最可能的中文句子。在拼音輸入法功能中,拼音序列中每一個拼音最終對應(yīng)輸出的一個文字。這是一個典型的序列到序列的映射學(xué)習(xí)問題??梢允褂肔STM、Transformer等深度學(xué)習(xí)模型實(shí)現(xiàn)映射學(xué)習(xí)。由于Transformer模型可以更好地處理長距離依賴關(guān)系,本文選用Transformer模型。具體地,Transformer可以從拼音序列中任何有幫助的位置來推斷當(dāng)前拼音對應(yīng)的文字,其變體還原能力比LSTM更強(qiáng),這種長距離拼音的推理對于變體還原任務(wù)非常重要,會直接影響變體還原的效果。
在給定變體消息時,首先將變體消息轉(zhuǎn)換為拼音序列,再通過深度神經(jīng)網(wǎng)絡(luò)推理最可能的原始消息內(nèi)容。通過對比還原后的消息與變體消息的差異,可以鎖定消息中出現(xiàn)的變體關(guān)鍵詞。變體消息中可能會有特殊符號,需要為特殊符號分配相應(yīng)的發(fā)音。如給“+”分配發(fā)音“jia”。當(dāng)特殊符號的發(fā)音不易確定時,可為其分配一個唯一的虛擬發(fā)音,如給“/”分配虛擬發(fā)音“zxg”(即“左斜杠”的拼音首字母,虛擬發(fā)音可任意指定)。同時,在變體消息中還會出現(xiàn)拼音本身或英文縮寫,可以在轉(zhuǎn)換拼音序列時直接保留,不做轉(zhuǎn)換。
當(dāng)消息中的關(guān)鍵詞變體為同音變體時,將消息轉(zhuǎn)化為拼音序列后,同音文字變體差異被消除,其完全轉(zhuǎn)化為從拼音序列推測文本內(nèi)容的任務(wù),因此推測識別率較高。但當(dāng)變體關(guān)鍵詞為形近變體時,變體關(guān)鍵詞的發(fā)音有可能與原始關(guān)鍵詞不同,會干擾模型的推理。
各方案的生命周期費(fèi)用如表7所示,從表7中可以看出,方案1與方案3的LCC值較高,方案2的LCC值最低,這表明地埋管地源熱泵系統(tǒng)與加裝殼管式換熱器的地下水源熱泵系統(tǒng)的經(jīng)濟(jì)性均不如空氣源熱泵系統(tǒng),應(yīng)優(yōu)先采用空氣源熱泵系統(tǒng)作為本項(xiàng)目的冷熱源方案??諝庠礋岜孟到y(tǒng)冬季雖易產(chǎn)生結(jié)霜等現(xiàn)象,但南昌地區(qū)冬季極端溫度的天數(shù)較少,因此結(jié)霜對該家用空調(diào)系統(tǒng)的使用影響可忽略。
為了解決這一問題,可以通過向輸入拼音中加入智能干擾的方式增強(qiáng)模型的還原能力。此時,輸入拼音序列中每個元素不再是一個拼音,而是多個拼音。其中一個拼音為正確拼音,其他拼音為干擾拼音。在訓(xùn)練模型時,可完全將不帶變體關(guān)鍵詞的消息作為訓(xùn)練數(shù)據(jù),消息本身是模型期望的輸出,消息的輸入為帶智能干擾的拼音序列。具體的智能干擾方式如下。
針對消息中的每一個字,需要生成n個拼音。其中一個拼音是該字本身的發(fā)音,其余拼音有如下生成規(guī)則:當(dāng)該字有形近字,且拼音與該字不同時,則加入形近字的拼音,可以加入多個;當(dāng)該字有相似的特殊符號可以表示時,加入特殊符號的拼音。如果上述兩種干擾拼音都加入后仍不足n個,則考慮隨機(jī)加入拼音。在模型進(jìn)行預(yù)測時,可將輸入變體消息的第一個字轉(zhuǎn)為形近字拼音和特殊字符拼音,若不足n個拼音,則加入一個空拼音,使隨機(jī)干擾盡可能變小。綜上所述,通過在訓(xùn)練時增加更多隨機(jī)干擾,模型可以在預(yù)測時有更強(qiáng)的還原能力。通過在預(yù)測時僅加入文字本身、形近字和形近特殊字符發(fā)音,不加入隨機(jī)發(fā)音,可讓模型專注于對這幾類變體進(jìn)行推理。
圖5所示為一個對Transformer網(wǎng)絡(luò)進(jìn)行改造得到的變體消息還原網(wǎng)絡(luò)。與標(biāo)準(zhǔn)Transformer網(wǎng)絡(luò)不同,該網(wǎng)絡(luò)在多頭自注意力模塊與嵌入層之間加入了拼音融合層。該層主要將干擾發(fā)音疊加到原始發(fā)音之上,使Transformer網(wǎng)絡(luò)能夠?qū)W習(xí)對抗這種干擾發(fā)音的疊加。
圖5 基 于Transformer網(wǎng)絡(luò)的變體消息還原網(wǎng)絡(luò)
圖6所示為變體還原模型對6條真實(shí)垃圾消息的還原結(jié)果。其中,第1條消息中的“蕞篙”被成功恢復(fù)為“最高”,屬于同音和形近字雙重變體復(fù)原;第4條消息中的“筷③”被成功恢復(fù)為“快三”,包含了特殊字符的變體復(fù)原;第4條消息中的“蟬遰”被成功恢復(fù)為“單帶”,屬于形近不同音變體的復(fù)原。由此可見,模型能夠支持對形近、同音、特殊字符變體的復(fù)原。
圖6 使用 真實(shí)變體垃圾信息還原效果示例
表1為從圖6的變體垃圾信息中自動提取的變體詞列表。變體詞通過對還原后的文本進(jìn)行分詞后反推而得。其中大部分變體詞是同音變體詞,這也符合真實(shí)的垃圾信息使用變體的情況。變體還原模型同時考慮了變體詞的發(fā)音和其形近字的發(fā)音,故能夠有效地對這些變體進(jìn)行還原。此外,這些變體詞在正常消息中幾乎不可能出現(xiàn),故可將這些變體詞配置為關(guān)鍵詞策略用于對變體垃圾信息進(jìn)行快速攔截。
表1 從變體垃圾消息中提取的變體詞
實(shí)踐證明,使用變體還原模型可有效地還原垃圾消息中的大部分變體。通過比較還原前后的文本,可以快速定位敏感關(guān)鍵詞的變體。通過該方法可迅速構(gòu)建出不良關(guān)鍵詞變體庫,基于變體詞庫輸出的變體關(guān)鍵詞策略在實(shí)際應(yīng)用中一周可以識別和攔截數(shù)十萬條變體垃圾信息,有效地解決了變體垃圾消息的漏攔問題。
綜上所述,變體垃圾信息對垃圾信息的識別造成了巨大干擾,一些變體甚至可能會迷惑人的審核判斷。本文利用大數(shù)據(jù)認(rèn)知計算技術(shù)中的機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)拼音序列到文字序列的正確轉(zhuǎn)化。
開設(shè)賭博、色情網(wǎng)站在國內(nèi)屬于違法行為,因此不良網(wǎng)站的服務(wù)器通常不在國內(nèi),運(yùn)營商無法對服務(wù)器直接進(jìn)行處理,僅能對服務(wù)器的域名進(jìn)行封堵。不良網(wǎng)站創(chuàng)建者為了規(guī)避封堵風(fēng)險,會集中生成一批風(fēng)格相近的域名,一些域名一旦被封,立刻切換域名,并不影響用戶訪問。
目前運(yùn)營商發(fā)現(xiàn)不良域名的方法是分析用戶訪問域名本身是否具有不良特征、對應(yīng)網(wǎng)站中的文本和圖片信息是否包含敏感內(nèi)容等。這些方法多是在用戶發(fā)生訪問行為后再進(jìn)行網(wǎng)站識別的。一方面訪問網(wǎng)站的事實(shí)已經(jīng)發(fā)生,已經(jīng)造成了一定的不良影響;另一方面封堵時并沒有考慮被封網(wǎng)站可能有備用域名的問題,封堵不徹底。
一些有經(jīng)驗(yàn)的不良網(wǎng)站審核員可以通過被封堵的不良網(wǎng)站域名規(guī)律推測出其他未知的不良網(wǎng)站域名,這樣可以在網(wǎng)絡(luò)中還沒有出現(xiàn)用戶訪問該域名的記錄的前提下發(fā)現(xiàn)這些不良網(wǎng)站,如已知“xx991.com”和“xx993.com”是不良域名,則很可能“992xx.com”也是一個不良域名。這些不良網(wǎng)站的規(guī)律千差萬別,采用人工的方式很難全面總結(jié)。需要使用認(rèn)知計算技術(shù)自動學(xué)習(xí)已知的不良網(wǎng)站域名特征,并自動模仿不良域名的表現(xiàn)形態(tài),舉一反三,生成形態(tài)相似的潛在不良域名。具體地,此過程主要涉及使用深度學(xué)習(xí)技術(shù)幫助人們自動學(xué)習(xí)和理解海量不良網(wǎng)站域名的格式特征、字符關(guān)聯(lián)、字符與數(shù)字的組合特點(diǎn),并根據(jù)學(xué)到的規(guī)則自動創(chuàng)造全新的符合規(guī)則的潛在不良域名。通過對生成的潛在不良域名進(jìn)行內(nèi)容分析,最終確認(rèn)未知不良網(wǎng)站。
為了實(shí)現(xiàn)不良網(wǎng)站的擬態(tài)拓展能力,可以使用雙向LSTM模型對已知不良網(wǎng)站的構(gòu)成特征進(jìn)行學(xué)習(xí)。具體訓(xùn)練步驟是在給定不良網(wǎng)站域名中的任意n個字符后,預(yù)測不良網(wǎng)站域名的下一個字符。若模型能夠在給定任意已知域名的任意n個連續(xù)字符后,都可以準(zhǔn)確預(yù)測下一個字符,則代表模型已經(jīng)充分學(xué)習(xí)了已知不良域名的字符構(gòu)成特征,就可以進(jìn)行相同形態(tài)域名的智能生成。
雙向LSTM生成域名的過程如圖7所示。在生成一個域名時,首先向模型中輸入n個空字符(圖7中為10個),則模型會輸出域名的第一個字符,接下來將模型剛輸出的字符加入輸入,則輸入變?yōu)閚-1個空字符和最新輸出的字符。將該輸入再輸入模型,模型會繼續(xù)輸出下一個字符。依此類推,不斷將模型輸出的字符加入輸入中,則輸入一直保存最近模型輸出的連續(xù)n個字符,并不斷輸出下一個字符,直到輸出空字符為止。此時一個域名生成完畢。
圖7 雙向LSTM生成域名的過程示意圖
采用上述生成方法雖然可以得到形態(tài)相似的域名,但生成的域名較大概率為已知不良域名本身。為了讓模型在模擬形態(tài)的基礎(chǔ)上發(fā)揮自身的創(chuàng)造力,可以在生成下一個字符的過程中加入一些隨機(jī)性,即并不總是選擇推測概率最大的字符作為輸出字符,而是按照推測的各種字符的出現(xiàn)概率進(jìn)行隨機(jī)選擇,如圖7所示。
除了使用雙向LSTM模型,很多文本生成模型也可以完成域名生成的任務(wù),數(shù)據(jù)的訓(xùn)練方法和文本的生成方法與雙向LSTM模型相同。如許曉泓等人[18]使用Transformer模型完成從數(shù)據(jù)到文本的生成過程;Pawade D等人[19]使用字級別的RNN-LSTM生成文本;錢揖麗等人[20]提出了基于句子級LSTM編碼的文本標(biāo)題生成模型等。由于域名結(jié)構(gòu)相對簡單和簡短,不太可能出現(xiàn)字符之間的長距離依賴,故采用雙向LSTM已經(jīng)足夠?qū)崿F(xiàn)域名的擬態(tài)拓展。
從訓(xùn)練數(shù)據(jù)中找到所有包含“av”和“zy”兩種模式的不良域名,并在模型生成的不良域名中尋找上述兩種特征,可以分析模型如何利用訓(xùn)練數(shù)據(jù)中的模式拓展生成域名。
圖8為雙向LSTM模型的訓(xùn)練數(shù)據(jù)模式與拓展數(shù)據(jù)模式。為了避免傳播不良網(wǎng)站域名,圖8中對不良網(wǎng)站域名進(jìn)行了模糊化處理,“#”代表任意一個數(shù)字,“*”代表任意一個字符。如圖8所示,雙向LSTM模型不但可以模仿訓(xùn)練數(shù)據(jù)中的已有模式,還可以創(chuàng)造更多全新的域名模式。按照這些域名模式可以發(fā)現(xiàn)更多不良網(wǎng)站。將被確認(rèn)為不良網(wǎng)站的域名新模式加入訓(xùn)練數(shù)據(jù)中,可以加強(qiáng)LSTM對新不良模式的學(xué)習(xí),如此循環(huán)可以形成一個不良域名特征自動學(xué)習(xí)更新拓展的閉環(huán)。
圖8 雙向LSTM模型的訓(xùn)練數(shù)據(jù)模式與拓展數(shù)據(jù)模式
研究發(fā)現(xiàn),使用不良域名擬態(tài)拓展能力學(xué)習(xí)3000個不良域名后,每生成10000個不良域名,平均有大約18個域名是重復(fù)的,重復(fù)率為0.18%。通過使用爬蟲進(jìn)行內(nèi)容驗(yàn)證,發(fā)現(xiàn)平均有2032個域名是真實(shí)存在的,平均有876個域名為真實(shí)的不良域名。從生成域名到最終發(fā)現(xiàn)不良域名,轉(zhuǎn)化率大約為8.76%。將不良域名擬態(tài)拓展能力應(yīng)用于實(shí)際工作中,每天可以發(fā)現(xiàn)上千個活躍的未知色情、賭博類網(wǎng)站,使不良網(wǎng)站的封堵更加主動、徹底、高效。
綜上所述,不良網(wǎng)站通常會注冊風(fēng)格相似的域名。人為觀察已有不良域名特征預(yù)測未知不良域名工作量巨大,且僅能進(jìn)行小范圍的嘗試。本文利用大數(shù)據(jù)認(rèn)知計算技術(shù)中的自然語言生成能力,將域名信息看作一種自然語言,使用LSTM模型對海量不良域名構(gòu)建語言模型,并實(shí)現(xiàn)了模仿不良域名特征拓展生成全新不良域名的能力。實(shí)踐證明,該算法能夠發(fā)現(xiàn)大量未知的不良域名,實(shí)現(xiàn)了不良域名的主動發(fā)現(xiàn)、事前發(fā)現(xiàn)。
通信運(yùn)營商在進(jìn)行內(nèi)容安全管控的過程中遇到了諸多需要進(jìn)行海量數(shù)據(jù)分析理解的問題。在使用大數(shù)據(jù)認(rèn)知計算前,這些任務(wù)多采用人工分析的方法,數(shù)據(jù)處理能力有限,治理效率不高。大數(shù)據(jù)認(rèn)知計算技術(shù)可以幫助安全管控人員分析理解海量數(shù)據(jù),發(fā)現(xiàn)更多不良信息,大幅提高不良信息的治理效率。本文從不良文本線下分析的兩個目的入手,總結(jié)了大數(shù)據(jù)認(rèn)知計算在詐騙信息識別與易感人群發(fā)現(xiàn)、不良關(guān)鍵詞知識庫構(gòu)建、垃圾消息變體詞自動發(fā)現(xiàn)、不良域名擬態(tài)拓展4個內(nèi)容安全領(lǐng)域的創(chuàng)新性實(shí)踐。
上述大數(shù)據(jù)創(chuàng)新實(shí)踐方案有效地使用大數(shù)據(jù)認(rèn)知計算替代了人工,幫助人們理解海量不良信息的關(guān)鍵內(nèi)容,大力支撐了內(nèi)容安全管控工作。實(shí)踐研究證明,本文提出的應(yīng)用方案能夠幫助內(nèi)容安全管控人員快速響應(yīng)最新不良信息,全面有效提升整體管控質(zhì)量。