李 峰
(山西省廣播電視局監(jiān)管中心,山西 太原 030001)
互聯網輿情音視聽節(jié)目監(jiān)測系統(tǒng)是面向全國主流網站,利用互聯網搜索引擎技術、挖掘技術、語音識別和視頻分析技術等,針對互聯網海量信息,采取自動獲取、自動聚類、專題聚焦,敏感詞匯過濾、主題檢測、關鍵幀智能分析[1]等,進而能夠主動發(fā)現與推送互聯網輿情熱點,全面掌握輿情動態(tài),提供充分詳實的分析依據,進而作出正確的輿論引導。
知識庫的建立,必須對原來的信息進行一次大規(guī)模的收集和重整,需要提取一些重要的特征,但是這些特征往往隱藏于眾多雜亂無章的信息中,因此需要借助信息過濾、文本處理以及人物組織抽取等技術從眾多的信息中找到有用的、有特征的信息,從而建立所需的知識庫。
垃圾數據清理屬于信息過濾的范疇之一,綜合了知識論、人工智能、自然語言理解等領域的原理和技術,在信息服務與管理中起著很大的作用,指依據用戶的需求,利用一定的工具從巨量的動態(tài)信息流中屏蔽無用信息的過程。垃圾信息過濾實質是對信息進行垃圾信息(Spam)或者合法信息(Ham)進行二值判別,并依據判別結果去掉垃圾信息。它所面臨的難題是二值分類問題,傳統(tǒng)的二值分類問題目前有兩種解決辦法:第一種基于規(guī)則,這個方法要求相關專家制定分類規(guī)則;第二種基于統(tǒng)計,不要求專家制定分類規(guī)則,但是要求一定數量樣本(標注類別),用機器學習算法從標注了類別的領域樣本中自動學習出分類知識。
本項目所應用的多源垃圾信息遷移過濾,它的原理是建立一個多源垃圾信息過濾的整體框架,應用統(tǒng)一的表示模型以及統(tǒng)一的過濾模型實現對多源問題的抽象建模。該框架中的統(tǒng)一模型有統(tǒng)一表示模型、統(tǒng)一過濾模型,這些都是在多源信息的共同特性之上構建的。該框架中包含了文本分析模塊、遷移過濾模塊、模型學習模塊。文本分析抽取多源文本信息,依據統(tǒng)一的表示模型針對文本進行抽象表示;模型學習針對已標注語料采取機器學習,生成過濾模型;遷移過濾主要負責在不同的信息來源間執(zhí)行模型和文本的匹配。
在輿情分析中,重復信息及其背后隱含的內容是被關注的重點。利用好這些信息,對于輿情的分析研判,以及最終的決策都能夠提供很大幫助。因此,如何能夠準確地發(fā)現重復信息,挖掘出其中的豐富語義,并用盡可能少的資源儲存這些信息,盡可能直觀地表達這些信息,是面向輿情分析的數據預處理的關鍵步驟。
本項目考慮文本巨量性、簡短性的基礎上,同時兼顧中英文間的差別,以特征碼提取為基本算法,用BloomFilterz和改良的Trie樹開展中文短文本查重的算法設計,同時在時間復雜度、精確度,還有內存分配取得了最優(yōu)解。同時,引入了SimHash算法,解決了數據集中仍然存在少部分的相似文本去重的問題??傮w思路為:一是建立中文短文本數據集,進行數據預處理。二是采用BloomFilter或者Trie樹對數據集進行完全重復查重。三是使用SimHash算法進行相似重復查重。四是得到查重后結果集。
實體提取是識別語料中地名、人名以及組織機構名等命名實體。命名實體數量會持續(xù)增加,所以,很難在詞典中窮盡列出,依據構成方法的規(guī)律,可以把對這些詞的識別從詞匯形態(tài)處理任務單列出來,叫做實體提取。命名實體為未登錄詞里數量最多、對分詞效果影響最大、識別難度最大的問題。
漢語實體提取作為漢語切分任務的延續(xù),是中文信息處理領域的一個基礎任務,被廣泛運用于信息抽取、信息推薦、信息檢索和機器翻譯等。
本項目應用最廣泛的是基于條件隨機場(CRF)的命名實體識別方法。該方法簡單易執(zhí)行,能夠獲得不錯的性能,所以被廣泛地應用于地名、人名以及組織機構等各類型命名實體識別中,加上后期具體應用中不斷改進,能算得上命名實體識別中最成功的方法。
系統(tǒng)能夠根據業(yè)務工作的需求,構建業(yè)務關注的重點網站、意見領袖、重點網絡虛擬身份、重點組織等領域知識庫[2],支持數據采集,并構建人物網絡行為言論庫支持特定用戶數據分析。領域知識的主要來源是領域專家、有關的專業(yè)技術文獻和豐富的互聯網領域資源。領域知識庫的構建,依賴于專家知識和領域資源的獲取。基于ASKE(面向應用領域的知識庫構建與應用的有效機制)機制,通過配置網絡領域知識文件將領域專家和互聯網領域資源有機結合,準確獲取領域資源,應用機器學習、文本挖掘和模式識別技術,抽取領域知識概念,學習概念關聯關系,構建領域知識的層次結構和基于本體建模方法的概念網絡,形成領域知識庫。
首先在有監(jiān)督學習機制下,從大量的多媒體文本文件中提取語義特征知識向量;應用自動向量識別技術進行語義特征向量分類,在人機結合的少量干預下形成分類的語義特征向量列表;然后應用機器學習和有監(jiān)督的統(tǒng)計學習方法學習語義特征向量之間的關聯關系,經過自動的語義特征向量的語義總結,形成以加權有向屬性圖表示的語義特征知識庫。垃圾文本信息過濾技術、大規(guī)模文本排重技術、人物組織抽取技術以及領域知識庫自動構建等,只是互聯網音視聽節(jié)目監(jiān)測的前期準備,還需要借助云計算、大數據、人工智能等新一代高新技術的深度融合應用,才能實現更快、更準確找到輿論的焦點,進而能夠對輿論進行正確的引導。
大數據技術的使用,為鍵入信息的記錄技術實現和創(chuàng)造提供了可能,在該項技術的使用過程,可以對于一些重點監(jiān)測的賬號,在信息的輸入方面進行全面性的記錄,從而分析該賬號在一段時間之內,對已經發(fā)布的信息內容進行全面的分析。另外,在當前自媒體大行其道的情況下,其發(fā)布的各類信息雖然從表面上來看可以覆蓋多個領域,但是其實質的內容性上,基本上都會呈現一定的套路化特點,則在鍵入信息的監(jiān)管過程,要通過對這類信息的全面調查和分析,為后續(xù)的監(jiān)管賬號確定過程和信息的收集過程提供幫助。在該方法的具體使用過程中,對原有的垃圾文本監(jiān)管技術、關鍵詞的提取和識別技術來說,由于這類文章通常情況下具有一定的可閱讀性,所以只單純采用這兩種方法,實際上難以全面分析這類文章中所涵蓋的信息內容,所以可以采用人工排除方法,當發(fā)現某一篇文章中含有惡意引導網民思維的信息時,要對其進行處理,同時將該賬號納入到輿論監(jiān)管范圍內,而之后,將該賬號所發(fā)布的各類信息,都需要經過專門人員的管理和審查,并對相關結果進行處理。
在轉發(fā)信息的排查技術中,可以使用的方法是通過對當前各類傳媒渠道相關全部節(jié)點的分析,了解在目前的網絡平臺運行過程中,相關信息的實際轉發(fā)情況,尤其是對于一些具有較大影響范圍的賬號。該過程中要合理使用相關的軟件,對關鍵詞進行提取,但是在關鍵詞的數量方面不可采用原有的詞匯收集方式,而是要使用其中的某一個特定語句,或者整篇文章為分析對象,研究當前相關不實信息或者具有煽動性言論的實際轉發(fā)量。同時在信息的取得過程,要做好證據的收集工作,可以直接以形成檔案或者固定格式文檔的方式,對所有取得的信息都記錄到相關的表格內,尤其是對于轉發(fā)量信息以及實際造成的影響信息。
信息渠道的優(yōu)化技術是指,要能夠加強對于各類信息的審查質量,同時在其后續(xù)的轉發(fā)、評論以及傳遞過程進行全面性的分析,從而讓最終建立的信息傳遞渠道,具有主動刪除不實信息的甄別能力和消除能力。在具體使用過程中,可以根據對于評論關鍵詞的設置,分析這類關鍵詞的出現頻率,當發(fā)現認為該信息中關于不實類的評論占比超過70%到80%時,則可確定該信息基本屬于不實信息,則平臺方可以對其進行刪除處理。需要注意的是,該過程要能夠防范大批量惡意評論現象,這就要求在渠道的建筑中,要能夠分析所有賬號的活躍狀態(tài)、賬號日常的信息發(fā)布情況、該賬號的來源等,從而提高對信息的處理科學程度。
隨著互聯網的快速發(fā)展,網絡媒體已經是普遍存在的信息傳播形式,網友言論非常活躍,國內外重大事件,都能夠在網上迅速傳播,形成網上熱點,進而對相關單位和部門產生較大的輿論壓力。作為高度重視意識形態(tài)責任制的單位,對于作為思想文化信息的集散地和社會輿論放大器的互聯網,要加大人工智能[3]、大數據的深入融合,從而加強監(jiān)測監(jiān)管。