国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯網輿情音視聽節(jié)目監(jiān)測技術研究

2020-01-01 09:14:54
數字通信世界 2020年8期
關鍵詞:知識庫賬號輿情

李 峰

(山西省廣播電視局監(jiān)管中心,山西 太原 030001)

互聯網輿情音視聽節(jié)目監(jiān)測系統(tǒng)是面向全國主流網站,利用互聯網搜索引擎技術、挖掘技術、語音識別和視頻分析技術等,針對互聯網海量信息,采取自動獲取、自動聚類、專題聚焦,敏感詞匯過濾、主題檢測、關鍵幀智能分析[1]等,進而能夠主動發(fā)現與推送互聯網輿情熱點,全面掌握輿情動態(tài),提供充分詳實的分析依據,進而作出正確的輿論引導。

1 互聯網輿情關鍵技術

知識庫的建立,必須對原來的信息進行一次大規(guī)模的收集和重整,需要提取一些重要的特征,但是這些特征往往隱藏于眾多雜亂無章的信息中,因此需要借助信息過濾、文本處理以及人物組織抽取等技術從眾多的信息中找到有用的、有特征的信息,從而建立所需的知識庫。

1.1 垃圾文本信息過濾

垃圾數據清理屬于信息過濾的范疇之一,綜合了知識論、人工智能、自然語言理解等領域的原理和技術,在信息服務與管理中起著很大的作用,指依據用戶的需求,利用一定的工具從巨量的動態(tài)信息流中屏蔽無用信息的過程。垃圾信息過濾實質是對信息進行垃圾信息(Spam)或者合法信息(Ham)進行二值判別,并依據判別結果去掉垃圾信息。它所面臨的難題是二值分類問題,傳統(tǒng)的二值分類問題目前有兩種解決辦法:第一種基于規(guī)則,這個方法要求相關專家制定分類規(guī)則;第二種基于統(tǒng)計,不要求專家制定分類規(guī)則,但是要求一定數量樣本(標注類別),用機器學習算法從標注了類別的領域樣本中自動學習出分類知識。

本項目所應用的多源垃圾信息遷移過濾,它的原理是建立一個多源垃圾信息過濾的整體框架,應用統(tǒng)一的表示模型以及統(tǒng)一的過濾模型實現對多源問題的抽象建模。該框架中的統(tǒng)一模型有統(tǒng)一表示模型、統(tǒng)一過濾模型,這些都是在多源信息的共同特性之上構建的。該框架中包含了文本分析模塊、遷移過濾模塊、模型學習模塊。文本分析抽取多源文本信息,依據統(tǒng)一的表示模型針對文本進行抽象表示;模型學習針對已標注語料采取機器學習,生成過濾模型;遷移過濾主要負責在不同的信息來源間執(zhí)行模型和文本的匹配。

1.2 大規(guī)模文本排重

在輿情分析中,重復信息及其背后隱含的內容是被關注的重點。利用好這些信息,對于輿情的分析研判,以及最終的決策都能夠提供很大幫助。因此,如何能夠準確地發(fā)現重復信息,挖掘出其中的豐富語義,并用盡可能少的資源儲存這些信息,盡可能直觀地表達這些信息,是面向輿情分析的數據預處理的關鍵步驟。

本項目考慮文本巨量性、簡短性的基礎上,同時兼顧中英文間的差別,以特征碼提取為基本算法,用BloomFilterz和改良的Trie樹開展中文短文本查重的算法設計,同時在時間復雜度、精確度,還有內存分配取得了最優(yōu)解。同時,引入了SimHash算法,解決了數據集中仍然存在少部分的相似文本去重的問題??傮w思路為:一是建立中文短文本數據集,進行數據預處理。二是采用BloomFilter或者Trie樹對數據集進行完全重復查重。三是使用SimHash算法進行相似重復查重。四是得到查重后結果集。

1.3 人物、組織抽取技術

實體提取是識別語料中地名、人名以及組織機構名等命名實體。命名實體數量會持續(xù)增加,所以,很難在詞典中窮盡列出,依據構成方法的規(guī)律,可以把對這些詞的識別從詞匯形態(tài)處理任務單列出來,叫做實體提取。命名實體為未登錄詞里數量最多、對分詞效果影響最大、識別難度最大的問題。

漢語實體提取作為漢語切分任務的延續(xù),是中文信息處理領域的一個基礎任務,被廣泛運用于信息抽取、信息推薦、信息檢索和機器翻譯等。

本項目應用最廣泛的是基于條件隨機場(CRF)的命名實體識別方法。該方法簡單易執(zhí)行,能夠獲得不錯的性能,所以被廣泛地應用于地名、人名以及組織機構等各類型命名實體識別中,加上后期具體應用中不斷改進,能算得上命名實體識別中最成功的方法。

1.4 領域知識庫自動構建

系統(tǒng)能夠根據業(yè)務工作的需求,構建業(yè)務關注的重點網站、意見領袖、重點網絡虛擬身份、重點組織等領域知識庫[2],支持數據采集,并構建人物網絡行為言論庫支持特定用戶數據分析。領域知識的主要來源是領域專家、有關的專業(yè)技術文獻和豐富的互聯網領域資源。領域知識庫的構建,依賴于專家知識和領域資源的獲取。基于ASKE(面向應用領域的知識庫構建與應用的有效機制)機制,通過配置網絡領域知識文件將領域專家和互聯網領域資源有機結合,準確獲取領域資源,應用機器學習、文本挖掘和模式識別技術,抽取領域知識概念,學習概念關聯關系,構建領域知識的層次結構和基于本體建模方法的概念網絡,形成領域知識庫。

首先在有監(jiān)督學習機制下,從大量的多媒體文本文件中提取語義特征知識向量;應用自動向量識別技術進行語義特征向量分類,在人機結合的少量干預下形成分類的語義特征向量列表;然后應用機器學習和有監(jiān)督的統(tǒng)計學習方法學習語義特征向量之間的關聯關系,經過自動的語義特征向量的語義總結,形成以加權有向屬性圖表示的語義特征知識庫。垃圾文本信息過濾技術、大規(guī)模文本排重技術、人物組織抽取技術以及領域知識庫自動構建等,只是互聯網音視聽節(jié)目監(jiān)測的前期準備,還需要借助云計算、大數據、人工智能等新一代高新技術的深度融合應用,才能實現更快、更準確找到輿論的焦點,進而能夠對輿論進行正確的引導。

1.5 鍵入信息記錄技術

大數據技術的使用,為鍵入信息的記錄技術實現和創(chuàng)造提供了可能,在該項技術的使用過程,可以對于一些重點監(jiān)測的賬號,在信息的輸入方面進行全面性的記錄,從而分析該賬號在一段時間之內,對已經發(fā)布的信息內容進行全面的分析。另外,在當前自媒體大行其道的情況下,其發(fā)布的各類信息雖然從表面上來看可以覆蓋多個領域,但是其實質的內容性上,基本上都會呈現一定的套路化特點,則在鍵入信息的監(jiān)管過程,要通過對這類信息的全面調查和分析,為后續(xù)的監(jiān)管賬號確定過程和信息的收集過程提供幫助。在該方法的具體使用過程中,對原有的垃圾文本監(jiān)管技術、關鍵詞的提取和識別技術來說,由于這類文章通常情況下具有一定的可閱讀性,所以只單純采用這兩種方法,實際上難以全面分析這類文章中所涵蓋的信息內容,所以可以采用人工排除方法,當發(fā)現某一篇文章中含有惡意引導網民思維的信息時,要對其進行處理,同時將該賬號納入到輿論監(jiān)管范圍內,而之后,將該賬號所發(fā)布的各類信息,都需要經過專門人員的管理和審查,并對相關結果進行處理。

1.6 轉發(fā)信息排查技術

在轉發(fā)信息的排查技術中,可以使用的方法是通過對當前各類傳媒渠道相關全部節(jié)點的分析,了解在目前的網絡平臺運行過程中,相關信息的實際轉發(fā)情況,尤其是對于一些具有較大影響范圍的賬號。該過程中要合理使用相關的軟件,對關鍵詞進行提取,但是在關鍵詞的數量方面不可采用原有的詞匯收集方式,而是要使用其中的某一個特定語句,或者整篇文章為分析對象,研究當前相關不實信息或者具有煽動性言論的實際轉發(fā)量。同時在信息的取得過程,要做好證據的收集工作,可以直接以形成檔案或者固定格式文檔的方式,對所有取得的信息都記錄到相關的表格內,尤其是對于轉發(fā)量信息以及實際造成的影響信息。

1.7 信息渠道優(yōu)化技術

信息渠道的優(yōu)化技術是指,要能夠加強對于各類信息的審查質量,同時在其后續(xù)的轉發(fā)、評論以及傳遞過程進行全面性的分析,從而讓最終建立的信息傳遞渠道,具有主動刪除不實信息的甄別能力和消除能力。在具體使用過程中,可以根據對于評論關鍵詞的設置,分析這類關鍵詞的出現頻率,當發(fā)現認為該信息中關于不實類的評論占比超過70%到80%時,則可確定該信息基本屬于不實信息,則平臺方可以對其進行刪除處理。需要注意的是,該過程要能夠防范大批量惡意評論現象,這就要求在渠道的建筑中,要能夠分析所有賬號的活躍狀態(tài)、賬號日常的信息發(fā)布情況、該賬號的來源等,從而提高對信息的處理科學程度。

2 結束語

隨著互聯網的快速發(fā)展,網絡媒體已經是普遍存在的信息傳播形式,網友言論非常活躍,國內外重大事件,都能夠在網上迅速傳播,形成網上熱點,進而對相關單位和部門產生較大的輿論壓力。作為高度重視意識形態(tài)責任制的單位,對于作為思想文化信息的集散地和社會輿論放大器的互聯網,要加大人工智能[3]、大數據的深入融合,從而加強監(jiān)測監(jiān)管。

猜你喜歡
知識庫賬號輿情
彤彤的聊天賬號
施詐計騙走游戲賬號
派出所工作(2021年4期)2021-05-17 15:19:10
基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
輿情
中國民政(2016年16期)2016-09-19 02:16:48
高速公路信息系統(tǒng)維護知識庫的建立和應用
輿情
中國民政(2016年10期)2016-06-05 09:04:16
Google Play游戲取消賬號綁定沒有Google賬號也能玩
CHIP新電腦(2016年3期)2016-03-10 14:52:50
輿情
中國民政(2016年24期)2016-02-11 03:34:38
基于Drupal發(fā)布學者知識庫關聯數據的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
微博的輿情控制與言論自由
新丰县| 新沂市| 资兴市| 丹凤县| 黔西| 芦山县| 聂荣县| 南漳县| 香港 | 乌鲁木齐县| 平度市| 板桥市| 武穴市| 林芝县| 饶河县| 公安县| 福泉市| 渭源县| 邯郸市| 乡城县| 凤台县| 抚远县| 上饶市| 宝应县| 台中县| 商城县| 凤台县| 台北市| 平度市| 西乌| 邓州市| 临夏市| 当涂县| 富源县| 徐州市| 祁阳县| 清涧县| 榆林市| 井研县| 中宁县| 买车|