国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語義內(nèi)容識別的網(wǎng)絡(luò)輿論監(jiān)測分析系統(tǒng)框架

2024-05-19 13:47:28周展利郭治豪
電腦知識與技術(shù) 2024年9期
關(guān)鍵詞:輿情輿論語義

周展利 郭治豪

摘要:網(wǎng)絡(luò)已成為公眾表達意見,討論公共事務(wù),參與經(jīng)濟、社會和政治生活的重要公共平臺。隨著信息的傳播,網(wǎng)絡(luò)輿論呈幾何級數(shù)增長,有必要對網(wǎng)絡(luò)輿論進行監(jiān)測和分析,以便政府管理輿論信息,及時發(fā)現(xiàn)熱點,正確引導輿論走向。因此,網(wǎng)絡(luò)輿情監(jiān)測與分析成為近年來的熱點問題。目前主要成熟的技術(shù)是基于關(guān)鍵詞的統(tǒng)計分析。然而,在提高其有效性方面仍有很大的空間。文章描述了一個基于語義內(nèi)容識別的網(wǎng)絡(luò)輿情監(jiān)測與分析系統(tǒng)框架,以解決輿情的一些關(guān)鍵問題。

關(guān)鍵詞:語義內(nèi)容識別;網(wǎng)絡(luò)輿論監(jiān)測;系統(tǒng)框架

中圖分類號:G642? ? ? 文獻標識碼:A

文章編號:1009-3044(2024)09-0035-04

開放科學(資源服務(wù))標識碼(OSID)

0 引言

隨著互聯(lián)網(wǎng)的普及和發(fā)展,人們可以更加方便地獲取和傳播信息。但是,一些不良信息也借助互聯(lián)網(wǎng)的便利性得以迅速傳播,可能會對社會穩(wěn)定和人民生命財產(chǎn)安全構(gòu)成威脅。因此,需要采取措施保護公眾的利益和安全。在國家層面,立法的法規(guī)應(yīng)更加重視網(wǎng)絡(luò)輿論焦點和公眾關(guān)注的問題。制定合理的法律法規(guī)可以規(guī)范網(wǎng)絡(luò)行為,保護公眾免受不良信息的侵害。此外,政府應(yīng)承擔重要責任,特別是加強對網(wǎng)絡(luò)輿論的監(jiān)測和引導,積極引導公眾正確看待敏感信息,避免對社會穩(wěn)定和人民生命財產(chǎn)安全構(gòu)成威脅。

1 網(wǎng)絡(luò)輿論的特點與研究目的

根據(jù)共研產(chǎn)業(yè)研究院統(tǒng)計,2021年中國輿情大數(shù)據(jù)市場規(guī)模達134.38億元,同比增長13.26%,如圖1所示。由近年來我國輿情大數(shù)據(jù)市場規(guī)模的增長趨勢可知,網(wǎng)絡(luò)輿論監(jiān)測與分析已成為迫切的市場需求。網(wǎng)絡(luò)輿情分析最重要的技術(shù)包括文本過濾、文本分類、觀點傾向性識別、話題跟蹤、自動總結(jié)等,這些技術(shù)一直受到國內(nèi)外工作者的關(guān)注[1]。網(wǎng)絡(luò)輿論信息具有多樣性、數(shù)量大和突然性等特點,這也使得對網(wǎng)絡(luò)輿論信息的監(jiān)測和分析變得更加困難和復雜。以下是對網(wǎng)絡(luò)輿論信息特點的進一步闡述:

首先,網(wǎng)絡(luò)輿論信息具有多樣性,來源渠道多樣化。與傳統(tǒng)媒體相比,網(wǎng)絡(luò)輿論信息的來源更為廣泛,包括門戶網(wǎng)站、博客、微博、貼吧等多種形式。這些來源渠道的多樣性使得輿論信息的監(jiān)測和分析更加困難,需要采用多種手段和方法進行分析。

其次,網(wǎng)絡(luò)輿論信息數(shù)量龐大。隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)輿論信息呈現(xiàn)出爆炸式增長的趨勢。要想對這些信息進行監(jiān)測和分析,需要投入大量的人力和物力,采用先進的技術(shù)手段和分析方法。否則,就很難從這些信息中提取出有用的信息。

最后,網(wǎng)絡(luò)輿論信息具有突然性。網(wǎng)絡(luò)輿論信息的產(chǎn)生往往與突發(fā)事件有關(guān),例如突發(fā)公共事件或網(wǎng)絡(luò)熱點事件。在這種情況下,需要迅速采取措施,對事件的信息進行監(jiān)測和分析,以便更好地了解事件的發(fā)展趨勢和公眾的態(tài)度,為政府決策提供參考。這也使得對網(wǎng)絡(luò)輿論信息的監(jiān)測和分析變得更加困難和復雜。政府和企業(yè)需要投入更多的人力和物力,采用先進的技術(shù)手段和分析方法,才能更好地了解公眾的態(tài)度和需求。

輿論信息的相關(guān)性。突發(fā)事件引發(fā)的輿論信息相互關(guān)聯(lián),這意味著在分析事件時,需要考慮其在時間和空間上的相關(guān)性。具體來說,從時間和空間兩個維度去發(fā)現(xiàn)事件的相關(guān)性可以有助于更好地了解事件的發(fā)展規(guī)律和趨勢,理解事件發(fā)生的總體視角,以及預測事件的發(fā)展趨勢。為了更有效地控制信息,本文描述了一個基于語義內(nèi)容識別的網(wǎng)絡(luò)輿情監(jiān)測與分析系統(tǒng)框架。

2 關(guān)于網(wǎng)絡(luò)輿論監(jiān)測系統(tǒng)的研究現(xiàn)狀

來自DARPA、CMU、馬薩諸塞大學和Inc的研究人員已經(jīng)開始定義主題檢測和跟蹤研究,并開發(fā)了TDT。該項目的重要技術(shù)是信息的內(nèi)容分類,解決了實時監(jiān)控的處理速度和安全監(jiān)控之間的矛盾,使其可行。國外對其進行了一些研究,如W3C的PICS已成為WWW的分類標準。有兩個國際通用分類標準:SACi和Safesurf,它們都符合PICS。一方面,分類技術(shù)用于網(wǎng)頁的分類和過濾;另一方面,由于各種原因,國外政策和標準不完全適合中國的國情。

在我國,方正研究院設(shè)計的方正智思輿論預警DSS是成功的。該系統(tǒng)成功實現(xiàn)了對海量輿情的自動實時監(jiān)控和分析。政府對公共選項的監(jiān)控比傳統(tǒng)的手動模式更有效。DSS提供了對互聯(lián)網(wǎng)信息的監(jiān)管,尤其對網(wǎng)絡(luò)突發(fā)事件的管理起到了重要作用。該系統(tǒng)具備全文檢索、自動排序、自動分類、主題檢查/追蹤等功能,并提供相關(guān)推薦和趨勢分析、自動摘要和關(guān)鍵詞提取、內(nèi)容分析、生成統(tǒng)計數(shù)據(jù)等特點[2]。

谷歌網(wǎng)絡(luò)民意和信息監(jiān)控系統(tǒng)結(jié)合了互聯(lián)網(wǎng)搜索技術(shù);信息智能化處理技術(shù)和知識管理方法。通過自動采集、自動分類組合、主題采集、焦點專題,實現(xiàn)了網(wǎng)絡(luò)輿論監(jiān)測和專題新聞對簡報、報道等的跟蹤。因此,谷歌可以掌握民意,達成適當?shù)墓沧R,并提供報告分析。

還有基于人機結(jié)合設(shè)計了一個內(nèi)容安全監(jiān)控系統(tǒng)的框架。該框架是一個層次結(jié)構(gòu),分成3個層次:數(shù)據(jù)采集層、內(nèi)容分析層、輸出層。DSS的主要功能是通過內(nèi)容分析檢查基于內(nèi)容的信息,識別不良信息。同時,該系統(tǒng)還可以記錄信息的來源和內(nèi)容,并通過有效的審計分析進行跟蹤,為信息的不良使用提供電子證據(jù)[3]。

雖然國內(nèi)有很多單位致力于研究互聯(lián)網(wǎng)內(nèi)容過濾方向,試圖達到凈化網(wǎng)絡(luò)環(huán)境的目的,但仍存在很多挑戰(zhàn)和難點。但這些技術(shù)還處于萌芽狀態(tài),在“語義信息過濾”方面還存在一些不足。

3 基于語義內(nèi)容識別的網(wǎng)絡(luò)輿論監(jiān)測系統(tǒng)框架

該系統(tǒng)的目的是通過測試、獲取主題、熱點話題和事件跟蹤、實驗監(jiān)測等方式,實現(xiàn)對網(wǎng)絡(luò)輿情的監(jiān)測和分析,可以形成簡報、報告、圖表等多種分析結(jié)果的表示模式,達成適當?shù)墓沧R并提供報告分析[4]。網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)模塊功能框圖如圖2所示。分為5個階段,包括資源發(fā)現(xiàn)、信息選擇、信息整理、信息提取、輿情處理[5]。

系統(tǒng)工作流程系統(tǒng)包括以下5個數(shù)據(jù)庫:

1) 輿論策劃信息庫:收集網(wǎng)絡(luò)新聞、社交門戶網(wǎng)站、社交軟件、博客、聚合新聞等輿論需求信息。2) 建立民意分析信息數(shù)據(jù)庫:通過分類聚類、關(guān)鍵詞提取、去重過濾、命名實體識別、語義計算等方式收集存儲數(shù)據(jù),構(gòu)建信息數(shù)據(jù)庫。3) 民意數(shù)據(jù)庫:對公眾的觀點和態(tài)度進行分析的重要工具,可以幫助決策者更好地了解公眾對政策、事件和產(chǎn)品等方面的看法,從而制定更加符合公眾需求的決策。4) 語義詞典:本體知識等。5) HNC知識:百度學問等。

在該系統(tǒng)中,各個模塊之間的交互方式不同。數(shù)據(jù)交互主要是基于資源發(fā)現(xiàn)模塊和選擇信息模塊之間的文件傳輸。選擇信息模塊則負責處理從文本到向量或本體的信息。在模式發(fā)現(xiàn)模塊中,使用GATE進行命名實體識別,并確定實體之間的關(guān)系,然后發(fā)現(xiàn)事件模式或主題模式[6]。信息提取模塊主要進行語義計算,將模式轉(zhuǎn)換為模板,將非結(jié)構(gòu)化信息轉(zhuǎn)換為結(jié)構(gòu)化信息。民意處理模塊需要根據(jù)用戶的查詢進行處理,并將結(jié)果以合適的表現(xiàn)形式提供給用戶。同時,該系統(tǒng)可以擁有多個用戶,每個用戶都可以連接到服務(wù)器。服務(wù)器可以通過網(wǎng)絡(luò)相互共享數(shù)據(jù)和交換信息,網(wǎng)絡(luò)連接場景可以是P2P或客戶端服務(wù)器,未來也將不斷修改和優(yōu)化。

4 基于語義內(nèi)容識別的網(wǎng)絡(luò)輿論監(jiān)測系統(tǒng)的工作流程

首先基于潛在語義分析的資源發(fā)現(xiàn),然后進行信息選擇,基于選擇信息模塊的數(shù)據(jù),通過數(shù)據(jù)挖掘和語義計算,實現(xiàn)對熱點話題的檢測和對事件跟蹤和方向分析的關(guān)注,從而進行信息提取,最后對大眾信息進行處理。

4.1 基于潛在語義分析的資源發(fā)現(xiàn)

資源發(fā)現(xiàn)模塊通過整合和映射不同的網(wǎng)絡(luò)信息模式,實現(xiàn)對數(shù)據(jù)的自動收集和處理,是檢索必要的網(wǎng)絡(luò)資源。資源之間有不同的檢索工具和檢索策略。

社交門戶網(wǎng)站、社交軟件及電子郵件等渠道通常承載著大量簡短且非正式的信息交流。此過程首先通過DTS向?qū)崿F(xiàn)數(shù)據(jù)文檔的導入與導出操作,接著運用基于潛在語義分析(Latent Semantic Analysis, LSA) 的算法來有效解決環(huán)境因素導致的誤解及同義詞誤判問題,同時采用奇異值分解(Singular Value Decomposition, SVD) 技術(shù)進行信息過濾與噪聲消除處理[7]。依據(jù)文檔相似度計算與聚類分析的內(nèi)容,我們能夠高效、及時地探測到主題漂移現(xiàn)象,從而更好地滿足公共監(jiān)控的需求[8]。

4.2 選擇信息

選擇信息模塊會自動篩選和預處理網(wǎng)絡(luò)中的專業(yè)信息。首先,它會過濾無效的信息,識別命名實體,提取主題和事件。接下來,它會根據(jù)主題或事件對文本進行分類、著色、過濾;最后,區(qū)分文本。

1) 基于半監(jiān)督學習的文本分類。傳統(tǒng)文本分類算法是一種監(jiān)督學習,因為短文本攜帶大量信息數(shù)據(jù),通過確定的類別標簽來學習校準樣本,并根據(jù)文本語義內(nèi)容確定其類別。它需要一個大的標簽樣本訓練成一個好的分類器。訪問大量未標記的數(shù)據(jù)很容易,但對標記的數(shù)據(jù)來說成本高且不切實際,這將在傳統(tǒng)文本分類處理大量數(shù)據(jù)時造成瓶頸。我們使用基于半監(jiān)督學習的文本分類來克服短文本的稀疏性,提高短文本分類算法的準確性,并且為了增加算法的魯棒性,更好地避免陷入局部最優(yōu)解,Bagging算法集成到半監(jiān)督學習中。

2) 不良信息檢測。網(wǎng)站內(nèi)容監(jiān)控系統(tǒng)中,不良信息檢測是關(guān)鍵因素之一。傳統(tǒng)的網(wǎng)絡(luò)檢測系統(tǒng)僅依靠關(guān)鍵詞來識別和過濾網(wǎng)絡(luò)信息。但這種方法容易被鉆空子,比如把邪教網(wǎng)站隱藏在其他類型的網(wǎng)站中,那些批評邪教的人會被過濾掉。因此,我們提出了一種基于HNC的方法來測試較差的信息內(nèi)容,而不是通過匹配關(guān)鍵詞的方式,并根據(jù)句子的含義來判斷文本信息過濾需要什么。

4.3 模式發(fā)現(xiàn)

模式發(fā)現(xiàn)將基于選擇信息模塊的數(shù)據(jù),通過數(shù)據(jù)挖掘和語義計算,實現(xiàn)對熱點話題的檢測和對事件跟蹤和方向分析的關(guān)注。該模塊是系統(tǒng)的核心,模式發(fā)現(xiàn)如下所示。

1) 數(shù)據(jù)標注。使用中國科學院計算機軟件研究的ICTCLAS獲得4個表,以實現(xiàn)分詞和詞性標注。

①主題表(ID、標題、文本、作者、時間、原文鏈接、涉及詞、文本向量)

②評論表(ID、標題、話題ID、文本、作者、時間、傾向性值、轉(zhuǎn)發(fā)數(shù))

③話題表(ID,關(guān)鍵詞,參與人數(shù),時間,極性,觀點對立,注釋)

④話題-主題映射表(話題ID,主題ID)

在插入數(shù)據(jù)庫時,主題ID將是漸進分布的,第四個表保存了所包含的每個集群的主題,該集群是主題的核心。

2) 趨勢分析。首先為趨勢詞典做好準備,在How-Net中實現(xiàn)第一個基于標記極性的詞典,并通過人工標記方法進行增強,然后手動添加一些常見單詞。我們應(yīng)該使用Java語言提供的哈希表來建立一個良好的趨勢字典,因為需要快速檢查傾向。接下來,閱讀文本,逐句處理,去除每個句子的無效詞,逐詞查詢趨勢詞典,計算其上下文極性和單詞極性的強度。然后,將所有極性成分相加,接收句子密度情況除以評論數(shù)量的平方根。最后,根據(jù)分布態(tài)勢劃分,用趨勢值表示評論趨勢和排名。

3) 熱門關(guān)鍵點分析。基于時間單位(例如:天)上的基本累積單位選擇初始點,然后通過只計算時間點之前的評論、后者的反對意見來計算主題視圖的時間點,通過將某一時間點的值減去前一時間值,可以得出與這次增加值相反的意見以及事件的趨勢。

4.4 信息提取

該模塊的主要功能是獲取結(jié)構(gòu)化數(shù)據(jù),并從多個數(shù)據(jù)庫中進行分析,以確認或展示挖掘出的模式。GATE可以用于實體識別、實體關(guān)系識別、事件識別、摘要生成等任務(wù)[9]。

4.5 大眾信息處理

1) 警告。輿情預警模塊通過收集網(wǎng)絡(luò)信息、發(fā)現(xiàn)問題和反饋等手段實現(xiàn)對輿情的預警。一旦觸發(fā)預設(shè)的閾值或條件,警報便會在指定時間段內(nèi)被激活,顯示與主題相關(guān)的事件,即趨勢的主題。

2) 過濾。過濾大量沒有營養(yǎng)的信息。網(wǎng)絡(luò)管理模塊通過實時監(jiān)控來清除負面新聞。它會收集敏感短語的不同領(lǐng)域,為每個短語設(shè)置權(quán)重值,并使用智能軟件來匹配權(quán)重,找到匹配的敏感短語。超過一定的閾值時,信息將被屏蔽。

3) 計數(shù)器。首先獲取其IP,然后鎖定。我們可以使用各種有效的攻擊方法對Hub網(wǎng)站的不安全信息進行定點攻擊傳播(如信息滲透技術(shù)、病毒技術(shù)、先進的黑客攻擊技術(shù)等)。

4) 監(jiān)測。監(jiān)測和預警不同,前者是被動監(jiān)測,預警是主動監(jiān)測。

5) 決策。一個完整的決策往往是不可能的,而是一個迭代的過程。在此過程中,政策制定者可以在不同選項和替代方案的參數(shù)中使用人機交互。

5 結(jié)束語

隨著互聯(lián)網(wǎng)和信息化建設(shè)的快速發(fā)展,政府在輿論引導方面也提出了更高的要求。政府在掌握網(wǎng)絡(luò)輿論趨勢并引導其朝著積極方向發(fā)展方面承擔著至關(guān)重要的責任。正如我們所知,互聯(lián)網(wǎng)上信息的大量涌現(xiàn)使得信息管理成為一個巨大的挑戰(zhàn)。傳統(tǒng)基于人工和搜索引擎的方法往往存在搜索結(jié)果不準確、相關(guān)敏感信息無法優(yōu)化等問題,無法滿足政府對于輿論應(yīng)對的需求。此外,繁重的重復工作大大消耗了管理層的效率和人力資源,而傳統(tǒng)方法難以應(yīng)對互聯(lián)網(wǎng)信息快速發(fā)展的變化。為解決這些問題,建立一個集收集、監(jiān)測和預警于一體的互聯(lián)網(wǎng)輿論系統(tǒng)是最佳選擇。該系統(tǒng)利用技術(shù)和專門的搜索引擎,在最短時間內(nèi)獲取相關(guān)網(wǎng)絡(luò)服務(wù)信息,建立統(tǒng)一的信息索引數(shù)據(jù)庫,并對網(wǎng)絡(luò)媒體反映的輿論進行自動分類、排名和聚類[10]。系統(tǒng)在可視化界面中展示熱點新聞和專題,監(jiān)控網(wǎng)絡(luò)敏感信息等,形成預警,從而實現(xiàn)對網(wǎng)絡(luò)信息的有效管理。該系統(tǒng)能夠使當局快速掌握和了解民意,并對相關(guān)的民意趨勢提出適當?shù)慕鉀Q方案,以滿足國家各部門的需求。傳統(tǒng)的機器學習方法工作量很大,需要手動標記與分類網(wǎng)民。本文應(yīng)用基于語義的內(nèi)容識別技術(shù),針對評論中相對簡短和寬泛的情感詞匯,設(shè)計了一個分析和監(jiān)控網(wǎng)絡(luò)輿論系統(tǒng)的框架。

參考文獻:

[1] 許鵬,耿藤森,郭鑫濤,等.基于非結(jié)構(gòu)數(shù)據(jù)搜索處理的網(wǎng)絡(luò)輿情調(diào)控研究[J].中阿科技論壇(中英文),2022(4):128-131.

[2] 劉德鵬.互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學,2011.

[3] 成睿,唐超.基于語義分析的官方網(wǎng)絡(luò)輿論風險監(jiān)測系統(tǒng)的構(gòu)建研究[J].貴州警官職業(yè)學院學報,2018,30(2):74-79,85.

[4] 鄭軍.網(wǎng)絡(luò)輿情監(jiān)控的熱點發(fā)現(xiàn)算法研究[D].哈爾濱:哈爾濱工程大學,2007.

[5] 郝宇飛.網(wǎng)絡(luò)輿情監(jiān)測分析系統(tǒng)的研究[J].通訊世界,2015(12):272.

[6] 茍元琴.基于Web挖掘的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計[J].信息技術(shù)與信息化,2022(1):64-67.

[7] 茍元琴.基于Web挖掘的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計[J].信息技術(shù)與信息化,2022(1):64-67.

[8] 袁健聰.互聯(lián)網(wǎng)輿情發(fā)展與監(jiān)控分析[J].廣西師范學院學報(哲學社會科學版),2010,31(S2):71-73.

[9] 茍元琴.基于Web挖掘的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)設(shè)計[J].信息技術(shù)與信息化,2022(1):64-67.

[10] 劉德鵬.互聯(lián)網(wǎng)輿情監(jiān)控分析系統(tǒng)的研究與實現(xiàn)[D].成都:電子科技大學,2011.

【通聯(lián)編輯:王 力】

猜你喜歡
輿情輿論語義
語言與語義
阿桑奇突然被捕引爆輿論
輿情
中國民政(2016年16期)2016-09-19 02:16:48
輿情
中國民政(2016年10期)2016-06-05 09:04:16
突發(fā)事件的輿論引導
“上”與“下”語義的不對稱性及其認知闡釋
輿情
中國民政(2016年24期)2016-02-11 03:34:38
認知范疇模糊與語義模糊
誰能引領(lǐng)現(xiàn)代輿論場?
中國記者(2014年6期)2014-03-01 01:39:54
輿論引導中度的把握
聲屏世界(2014年6期)2014-02-28 15:18:07
饶平县| 无极县| 宁德市| 衡山县| 青海省| 武城县| 房山区| 荆门市| 大姚县| 寻甸| 建平县| 遂昌县| 峡江县| 内黄县| 汝阳县| 平舆县| 马山县| 汝州市| 平江县| 武冈市| 登封市| 桦南县| 乌兰浩特市| 辰溪县| 吴旗县| 察雅县| 水富县| 衢州市| 重庆市| 大丰市| 白朗县| 甘德县| 铅山县| 女性| 花垣县| 乌拉特中旗| 广河县| 准格尔旗| 海淀区| 原平市| 民丰县|