互聯網輿情音視聽節(jié)目監(jiān)測技術研究

2020-01-01 09:14:54李峰

數字通信世界 2020年8期

李峰

（山西省廣播電視局監(jiān)管中心，山西太原 030001）

互聯網輿情音視聽節(jié)目監(jiān)測系統(tǒng)是面向全國主流網站，利用互聯網搜索引擎技術、挖掘技術、語音識別和視頻分析技術等，針對互聯網海量信息，采取自動獲取、自動聚類、專題聚焦，敏感詞匯過濾、主題檢測、關鍵幀智能分析[1]等，進而能夠主動發(fā)現與推送互聯網輿情熱點，全面掌握輿情動態(tài)，提供充分詳實的分析依據，進而作出正確的輿論引導。

1 互聯網輿情關鍵技術

知識庫的建立，必須對原來的信息進行一次大規(guī)模的收集和重整，需要提取一些重要的特征，但是這些特征往往隱藏于眾多雜亂無章的信息中，因此需要借助信息過濾、文本處理以及人物組織抽取等技術從眾多的信息中找到有用的、有特征的信息，從而建立所需的知識庫。

1.1 垃圾文本信息過濾

垃圾數據清理屬于信息過濾的范疇之一，綜合了知識論、人工智能、自然語言理解等領域的原理和技術，在信息服務與管理中起著很大的作用，指依據用戶的需求，利用一定的工具從巨量的動態(tài)信息流中屏蔽無用信息的過程。垃圾信息過濾實質是對信息進行垃圾信息（Spam）或者合法信息（Ham）進行二值判別，并依據判別結果去掉垃圾信息。它所面臨的難題是二值分類問題，傳統(tǒng)的二值分類問題目前有兩種解決辦法：第一種基于規(guī)則，這個方法要求相關專家制定分類規(guī)則；第二種基于統(tǒng)計，不要求專家制定分類規(guī)則，但是要求一定數量樣本（標注類別），用機器學習算法從標注了類別的領域樣本中自動學習出分類知識。

本項目所應用的多源垃圾信息遷移過濾，它的原理是建立一個多源垃圾信息過濾的整體框架，應用統(tǒng)一的表示模型以及統(tǒng)一的過濾模型實現對多源問題的抽象建模。該框架中的統(tǒng)一模型有統(tǒng)一表示模型、統(tǒng)一過濾模型，這些都是在多源信息的共同特性之上構建的。該框架中包含了文本分析模塊、遷移過濾模塊、模型學習模塊。文本分析抽取多源文本信息，依據統(tǒng)一的表示模型針對文本進行抽象表示；模型學習針對已標注語料采取機器學習，生成過濾模型；遷移過濾主要負責在不同的信息來源間執(zhí)行模型和文本的匹配。

1.2 大規(guī)模文本排重

在輿情分析中，重復信息及其背后隱含的內容是被關注的重點。利用好這些信息，對于輿情的分析研判，以及最終的決策都能夠提供很大幫助。因此，如何能夠準確地發(fā)現重復信息，挖掘出其中的豐富語義，并用盡可能少的資源儲存這些信息，盡可能直觀地表達這些信息，是面向輿情分析的數據預處理的關鍵步驟。

本項目考慮文本巨量性、簡短性的基礎上，同時兼顧中英文間的差別，以特征碼提取為基本算法，用BloomFilterz和改良的Trie樹開展中文短文本查重的算法設計，同時在時間復雜度、精確度，還有內存分配取得了最優(yōu)解。同時，引入了SimHash算法，解決了數據集中仍然存在少部分的相似文本去重的問題?？傮w思路為：一是建立中文短文本數據集，進行數據預處理。二是采用BloomFilter或者Trie樹對數據集進行完全重復查重。三是使用SimHash算法進行相似重復查重。四是得到查重后結果集。

1.3 人物、組織抽取技術

實體提取是識別語料中地名、人名以及組織機構名等命名實體。命名實體數量會持續(xù)增加，所以，很難在詞典中窮盡列出，依據構成方法的規(guī)律，可以把對這些詞的識別從詞匯形態(tài)處理任務單列出來，叫做實體提取。命名實體為未登錄詞里數量最多、對分詞效果影響最大、識別難度最大的問題。

漢語實體提取作為漢語切分任務的延續(xù)，是中文信息處理領域的一個基礎任務，被廣泛運用于信息抽取、信息推薦、信息檢索和機器翻譯等。

本項目應用最廣泛的是基于條件隨機場（CRF）的命名實體識別方法。該方法簡單易執(zhí)行，能夠獲得不錯的性能，所以被廣泛地應用于地名、人名以及組織機構等各類型命名實體識別中，加上后期具體應用中不斷改進，能算得上命名實體識別中最成功的方法。

1.4 領域知識庫自動構建

系統(tǒng)能夠根據業(yè)務工作的需求，構建業(yè)務關注的重點網站、意見領袖、重點網絡虛擬身份、重點組織等領域知識庫[2]，支持數據采集，并構建人物網絡行為言論庫支持特定用戶數據分析。領域知識的主要來源是領域專家、有關的專業(yè)技術文獻和豐富的互聯網領域資源。領域知識庫的構建，依賴于專家知識和領域資源的獲取。基于ASKE（面向應用領域的知識庫構建與應用的有效機制）機制，通過配置網絡領域知識文件將領域專家和互聯網領域資源有機結合，準確獲取領域資源，應用機器學習、文本挖掘和模式識別技術，抽取領域知識概念，學習概念關聯關系，構建領域知識的層次結構和基于本體建模方法的概念網絡，形成領域知識庫。

首先在有監(jiān)督學習機制下，從大量的多媒體文本文件中提取語義特征知識向量；應用自動向量識別技術進行語義特征向量分類，在人機結合的少量干預下形成分類的語義特征向量列表；然后應用機器學習和有監(jiān)督的統(tǒng)計學習方法學習語義特征向量之間的關聯關系，經過自動的語義特征向量的語義總結，形成以加權有向屬性圖表示的語義特征知識庫。垃圾文本信息過濾技術、大規(guī)模文本排重技術、人物組織抽取技術以及領域知識庫自動構建等，只是互聯網音視聽節(jié)目監(jiān)測的前期準備，還需要借助云計算、大數據、人工智能等新一代高新技術的深度融合應用，才能實現更快、更準確找到輿論的焦點，進而能夠對輿論進行正確的引導。

1.5 鍵入信息記錄技術

大數據技術的使用，為鍵入信息的記錄技術實現和創(chuàng)造提供了可能，在該項技術的使用過程，可以對于一些重點監(jiān)測的賬號，在信息的輸入方面進行全面性的記錄，從而分析該賬號在一段時間之內，對已經發(fā)布的信息內容進行全面的分析。另外，在當前自媒體大行其道的情況下，其發(fā)布的各類信息雖然從表面上來看可以覆蓋多個領域，但是其實質的內容性上，基本上都會呈現一定的套路化特點，則在鍵入信息的監(jiān)管過程，要通過對這類信息的全面調查和分析，為后續(xù)的監(jiān)管賬號確定過程和信息的收集過程提供幫助。在該方法的具體使用過程中，對原有的垃圾文本監(jiān)管技術、關鍵詞的提取和識別技術來說，由于這類文章通常情況下具有一定的可閱讀性，所以只單純采用這兩種方法，實際上難以全面分析這類文章中所涵蓋的信息內容，所以可以采用人工排除方法，當發(fā)現某一篇文章中含有惡意引導網民思維的信息時，要對其進行處理，同時將該賬號納入到輿論監(jiān)管范圍內，而之后，將該賬號所發(fā)布的各類信息，都需要經過專門人員的管理和審查，并對相關結果進行處理。

1.6 轉發(fā)信息排查技術

在轉發(fā)信息的排查技術中，可以使用的方法是通過對當前各類傳媒渠道相關全部節(jié)點的分析，了解在目前的網絡平臺運行過程中，相關信息的實際轉發(fā)情況，尤其是對于一些具有較大影響范圍的賬號。該過程中要合理使用相關的軟件，對關鍵詞進行提取，但是在關鍵詞的數量方面不可采用原有的詞匯收集方式，而是要使用其中的某一個特定語句，或者整篇文章為分析對象，研究當前相關不實信息或者具有煽動性言論的實際轉發(fā)量。同時在信息的取得過程，要做好證據的收集工作，可以直接以形成檔案或者固定格式文檔的方式，對所有取得的信息都記錄到相關的表格內，尤其是對于轉發(fā)量信息以及實際造成的影響信息。

1.7 信息渠道優(yōu)化技術

信息渠道的優(yōu)化技術是指，要能夠加強對于各類信息的審查質量，同時在其后續(xù)的轉發(fā)、評論以及傳遞過程進行全面性的分析，從而讓最終建立的信息傳遞渠道，具有主動刪除不實信息的甄別能力和消除能力。在具體使用過程中，可以根據對于評論關鍵詞的設置，分析這類關鍵詞的出現頻率，當發(fā)現認為該信息中關于不實類的評論占比超過70%到80%時，則可確定該信息基本屬于不實信息，則平臺方可以對其進行刪除處理。需要注意的是，該過程要能夠防范大批量惡意評論現象，這就要求在渠道的建筑中，要能夠分析所有賬號的活躍狀態(tài)、賬號日常的信息發(fā)布情況、該賬號的來源等，從而提高對信息的處理科學程度。

2 結束語

隨著互聯網的快速發(fā)展，網絡媒體已經是普遍存在的信息傳播形式，網友言論非常活躍，國內外重大事件，都能夠在網上迅速傳播，形成網上熱點，進而對相關單位和部門產生較大的輿論壓力。作為高度重視意識形態(tài)責任制的單位，對于作為思想文化信息的集散地和社會輿論放大器的互聯網，要加大人工智能[3]、大數據的深入融合，從而加強監(jiān)測監(jiān)管。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡