文/劉樹飛
我國的經(jīng)濟(jì)社會(huì)不斷發(fā)展,科學(xué)技術(shù)水平不斷提升,在數(shù)據(jù)時(shí)代背景下,信息呈現(xiàn)爆炸增長趨勢,需要對數(shù)據(jù)信息進(jìn)行高效處理,不斷提高工作效率。信息技術(shù)加快了數(shù)據(jù)傳播的速度,優(yōu)化了信息交流的方式,但也存在安全隱患問題。為了保障網(wǎng)絡(luò)安全,可以應(yīng)用計(jì)算機(jī)文本信息挖掘技術(shù)。
計(jì)算機(jī)文本信息挖掘技術(shù)類屬于數(shù)據(jù)處理技術(shù)的范疇,被應(yīng)用在數(shù)據(jù)處理之中,主要面向文本信息。應(yīng)用計(jì)算機(jī)文本信息挖掘技術(shù)可以從海量文本信息中提取有效信息,并概括這些信息數(shù)據(jù)的特點(diǎn)等,對這些信息進(jìn)行分類和識(shí)別。計(jì)算機(jī)文本信息挖掘技術(shù)具有復(fù)雜性特征,其應(yīng)用流程如下所示:
(1)計(jì)算機(jī)文本信息挖掘技術(shù)會(huì)對文本對象進(jìn)行選取,文本對象大多是來自期刊、網(wǎng)頁和其他數(shù)據(jù)庫中的文本信息。
(2)計(jì)算機(jī)文本信息挖掘技術(shù)對文本對象進(jìn)行了預(yù)處理,包括對文本對象進(jìn)行去噪處理、分詞處理等等。在預(yù)處理過程中,計(jì)算機(jī)文本信息挖掘技術(shù)提取了文本對象的特征,并將文本對象特征表示出來。
(3)計(jì)算機(jī)文本信息挖掘技術(shù)對文本信息進(jìn)行了深入挖掘,對具有統(tǒng)一特征的文本對象進(jìn)行了分類,并考察了信息數(shù)據(jù)之間的關(guān)聯(lián)性,預(yù)測了文本對象的發(fā)展趨勢。
以上三步是計(jì)算機(jī)文本信息挖掘技術(shù)應(yīng)用的重要流程,也是文本挖掘的主要步驟。
在應(yīng)用計(jì)算機(jī)文本信息挖掘技術(shù)時(shí),還需要經(jīng)常應(yīng)用鄰近分類算法。鄰近分類算法類屬于文本分類方法的范疇,在應(yīng)用鄰近分類算法的過程中,需要先制定分類方案,并對數(shù)據(jù)、分類方案進(jìn)行比對,看文本屬性最接近哪一個(gè)分類方案,可以被歸入到哪一個(gè)分類方案之中。為了確保分類的準(zhǔn)確性,需要明確分類方案的描述特征,并對文本進(jìn)行設(shè)置。通過計(jì)算文本和分類方案的鄰近性,可以對文本進(jìn)行初步分類。
當(dāng)前信息數(shù)據(jù)越來越多,如何剔除無效數(shù)據(jù),保留有效數(shù)據(jù),成為各行各業(yè)關(guān)注的重點(diǎn)問題。信息技術(shù)改變了人們的生活方式,改變了社會(huì)的生產(chǎn)方式,人們依靠手機(jī)、電腦進(jìn)行線上交流,通過微博、微信等進(jìn)行線上互通;社會(huì)通過網(wǎng)絡(luò)系統(tǒng)進(jìn)行生產(chǎn)控制,通過信息技術(shù)進(jìn)行運(yùn)營監(jiān)督。信息技術(shù)在一定程度上便捷了人們的生活,推動(dòng)了社會(huì)的發(fā)展,需要進(jìn)一步推動(dòng)信息技術(shù)創(chuàng)新,擴(kuò)大信息技術(shù)的應(yīng)用范圍。
在發(fā)展的同時(shí),也需要看到信息技術(shù)存在的問題。伴隨信息量的不斷增加,網(wǎng)絡(luò)中的虛假信息、詐騙信息等越來越多,只有對這些垃圾信息進(jìn)行有效攔截,才能保證網(wǎng)絡(luò)安全,保障用戶的個(gè)人權(quán)益。計(jì)算機(jī)文本信息挖掘技術(shù)有著重要的應(yīng)用價(jià)值,其可以對海量信息進(jìn)行有效分類,識(shí)別網(wǎng)絡(luò)中的真實(shí)信息、虛假信息,并對廣告信息等進(jìn)行剔除。計(jì)算機(jī)文本信息挖掘技術(shù)對信息數(shù)據(jù)進(jìn)行有效判斷,能夠保障網(wǎng)絡(luò)安全。
實(shí)際應(yīng)用條件上,針對網(wǎng)絡(luò)化的信息形式,需要對其中的基礎(chǔ)文本信息進(jìn)行分析,尤其是與系統(tǒng)內(nèi)容相關(guān)聯(lián)的信息內(nèi)容上,務(wù)必要進(jìn)行必要的調(diào)整,并通過相應(yīng)的技術(shù)條件,保證網(wǎng)絡(luò)信息內(nèi)容的安全性。例如,在當(dāng)前的技術(shù)應(yīng)用條件下,通過手機(jī)系統(tǒng)程序,就可以完成對與手機(jī)接收信息的文本分析,并在大數(shù)據(jù)系統(tǒng)的基礎(chǔ)上,通過文本內(nèi)容的捕捉,確定此類信息的狀態(tài)。由此,定位可能存在的垃圾信息,并在手機(jī)使用設(shè)定中,將此類信息規(guī)整到統(tǒng)一的存儲(chǔ)格式中,由使用者進(jìn)行二次確認(rèn),并保證信息管理的有效性狀態(tài)。
為了發(fā)揮計(jì)算機(jī)文本信息挖掘技術(shù)的作用,應(yīng)該改進(jìn)鄰近分類方法。計(jì)算機(jī)文本信息挖掘技術(shù)通過鄰近分類方法對互聯(lián)網(wǎng)信息進(jìn)行分類,只有優(yōu)化鄰近分類方法,才能提升文本信息分類的準(zhǔn)確性。傳統(tǒng)的鄰近分類方法存在弊端,不同分類特征可能存在共線,文本信息分類可能會(huì)出現(xiàn)訛誤情況。在技術(shù)改進(jìn)過程中,需要堅(jiān)持將傳統(tǒng)方法作為依托,并對文本特征進(jìn)行細(xì)化描述。技術(shù)人員需要合并共性屬性比較明顯的文本特征,并考察特征向量的維度,對其進(jìn)行有效壓縮。通過上述方法,文本信息分類將更加高效。
為了驗(yàn)證計(jì)算機(jī)文本信息挖掘技術(shù)的有效性,需要開展實(shí)驗(yàn),考察計(jì)算機(jī)文本信息挖掘技術(shù)與網(wǎng)絡(luò)安全檢測之間的關(guān)系。技術(shù)人員首先要確定實(shí)驗(yàn)對象,包括文本信息預(yù)測庫等,并盡量擴(kuò)充其中的文本信息,確保其中有正常文本信息、廣告信息、詐騙信息等等。根據(jù)語料庫設(shè)定原則,需要對文本中的數(shù)據(jù)信息特征進(jìn)行有效概括,看哪一種信息類屬于文本信息、哪一種信息類屬于廣告信息和詐騙信息。技術(shù)人員也可以對廣告信息、詐騙信息等進(jìn)行合并,將其命名為危害信息。技術(shù)人員需要采用鄰近分類方法,測試計(jì)算機(jī)文本信息挖掘技術(shù)的應(yīng)用效果。在設(shè)置評(píng)價(jià)參數(shù)的過程中,應(yīng)該采用算法判定方式和專家判定方式。
上述實(shí)驗(yàn)將會(huì)出現(xiàn)四種可能性:
(1)算法、專家判定安全信息;
(2)算法、專家判定危害信息;
(3)算法判定安全、專家判定危害信息;
(4)算法判定危害、專家判定安全信息。
技術(shù)人員需要對評(píng)價(jià)精度、評(píng)價(jià)誤差等進(jìn)行計(jì)算,并設(shè)計(jì)信息檢測平臺(tái),為計(jì)算機(jī)文本信息挖掘技術(shù)的應(yīng)用提供支撐。網(wǎng)絡(luò)信息檢測平臺(tái)應(yīng)該分成一級(jí)功能、二級(jí)功能,一級(jí)功能應(yīng)該包括首頁、用戶管理等,而二級(jí)功能應(yīng)該包括分類方法、參數(shù)評(píng)價(jià)等。
文本挖掘技術(shù),是計(jì)算機(jī)網(wǎng)絡(luò)化的應(yīng)用技術(shù)手段,也是具體系統(tǒng)開發(fā)的方向性技術(shù),在與具體產(chǎn)業(yè)進(jìn)行結(jié)合的過程中,可以憑借自身的技術(shù)又是條件,適應(yīng)到多種類型的技術(shù)空間中,展示自身科技型價(jià)值,適應(yīng)知識(shí)經(jīng)濟(jì)發(fā)展環(huán)境。
(1)基于網(wǎng)絡(luò)文本分析的技術(shù)條件,可以在網(wǎng)絡(luò)新聞與輿情發(fā)掘的過程中,發(fā)揮自身的技術(shù)優(yōu)勢,對構(gòu)筑安全的網(wǎng)路環(huán)境,貢獻(xiàn)出基礎(chǔ)性技術(shù)內(nèi)容。在網(wǎng)絡(luò)化的輿情環(huán)境中,個(gè)人信息、商業(yè)機(jī)密等內(nèi)容的傳播,都會(huì)造成嚴(yán)重?fù)p失,威脅到企業(yè)與個(gè)人的信息與財(cái)產(chǎn)安全。而在這一內(nèi)容的管理中,需要對客觀的網(wǎng)絡(luò)輿情狀態(tài)進(jìn)行分析,在過濾文內(nèi)容的同時(shí),過濾具體的信息數(shù)據(jù),通過關(guān)聯(lián)性分析、網(wǎng)絡(luò)溯源、輿情評(píng)價(jià)等內(nèi)容,保證對于整體信息的管理狀態(tài)。尤其在輿情的推演中,可以形成完整的模型系統(tǒng),并在模型的綜合作用下,保證技術(shù)的完整性與成長性,針對實(shí)際工作環(huán)境做出必要的基礎(chǔ)性保證。
(2)專利信息的安全管理中,應(yīng)用文本數(shù)據(jù)挖掘的工作模式,也可以起到積極作用。專利信息,大多是企業(yè)核心科技的關(guān)鍵內(nèi)容,與企業(yè)的經(jīng)濟(jì)收益與市場競爭條件息息相關(guān),需要在技術(shù)內(nèi)容上,形成系統(tǒng)性的防護(hù)條件,并在執(zhí)行過程中,針對專利系統(tǒng)的管理流程,設(shè)置具體的文本挖掘工作方案,在程序的規(guī)范性狀態(tài)下,保證管理的有效性。方法上,需要針對專利權(quán)登記資料、專利所有權(quán)挖掘、專利使用權(quán)調(diào)查等內(nèi)容,維護(hù)整體技術(shù)管理體系的建設(shè)狀體,實(shí)現(xiàn)同步化的專利技術(shù)分析。
(3)在文本挖掘技術(shù)的應(yīng)用開發(fā)中,表現(xiàn)出了明顯的技術(shù)成長性,在多種專業(yè)領(lǐng)域展現(xiàn)技術(shù)應(yīng)用條件的同時(shí),也在綜合性、管理性的內(nèi)容中,呈現(xiàn)出了明顯的應(yīng)用價(jià)值特征。例如,在醫(yī)療領(lǐng)域,文本分析可以被應(yīng)用在醫(yī)學(xué)健康分析的工作中,通過在中藥成分分析、西藥用藥規(guī)律總結(jié)等多種信息化內(nèi)容的安全數(shù)據(jù)整理,利用各種敏感詞匯與數(shù)據(jù),保證了整體信息化系統(tǒng)的建設(shè)條件。又如,在企業(yè)的市場管理中,可以憑借這技術(shù)應(yīng)用條件,對市場環(huán)境中的相關(guān)信息進(jìn)行提取與分析。并在綜合相關(guān)市場人員掌握數(shù)據(jù)的同時(shí),結(jié)合企業(yè)實(shí)際發(fā)展?fàn)顟B(tài),形成指導(dǎo)性的參考數(shù)據(jù)材料,保證整體信息系統(tǒng)的建設(shè)狀態(tài),并使相應(yīng)網(wǎng)絡(luò)資料為實(shí)際運(yùn)行策略的制定提供參考,維護(hù)了發(fā)展信息綜合性分析執(zhí)行效果。
綜上所述,我國的信息技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)范圍進(jìn)一步拓展,網(wǎng)絡(luò)安全問題屢見不鮮,在一定程度上損害了網(wǎng)民權(quán)益。為了保障網(wǎng)絡(luò)安全,需要采用計(jì)算機(jī)文本信息挖掘技術(shù),對網(wǎng)絡(luò)中的信息數(shù)據(jù)進(jìn)行科學(xué)分類,有效剔除其中的廣告數(shù)據(jù)、詐騙數(shù)據(jù)、虛假數(shù)據(jù)等。