基于文本相似度和主題發(fā)現(xiàn)的弱信號識別方法

2024-09-14 00:00:00孫濤張秉坤成磊峰李強

電腦知識與技術(shù) 2024年23期

摘要：弱信號是未來重大事件的早期預(yù)警信號，識別、分析和追蹤弱信號對風險預(yù)警具有重要意義。文章針對弱信號處理過程，提出一種定量弱信號識別方法。該方法通過文本的平均相似度計算弱信號強度，并確認弱信號閾值；根據(jù)主題發(fā)現(xiàn)的方式增強弱信號數(shù)據(jù)的信號強度，并關(guān)聯(lián)其他數(shù)據(jù)。最后，文章基于環(huán)球網(wǎng)新聞數(shù)據(jù)驗證了該方法的弱信號識別過程，實驗證明該方法是一種能夠識別出弱信號文本并增強弱信號強度。

關(guān)鍵詞：風險預(yù)警；弱信號；文本相似度；主題詞

中圖分類號：TN957.52 文獻標識碼：A

文章編號：1009-3044（2024）23-0034-03

開放科學(xué)（資源服務(wù)）標識碼（OSID）

0 引言

對將要出現(xiàn)的風險和威脅發(fā)出預(yù)警并對事物的未來發(fā)展作出預(yù)測是戰(zhàn)略分析的重要目的。弱信號是一種具備前瞻性和預(yù)見性的碎片數(shù)據(jù)，被視為對未來具有重要影響力事件的早期跡象，往往能夠作為戰(zhàn)略預(yù)警能力的核心指標[1]。弱信號通常以碎片化的形式隱藏在海量信息背后，并夾雜著多種噪聲[2]。從大量信息中識別和發(fā)現(xiàn)弱信號具有重大意義，從系統(tǒng)論的角度來看。一方面弱信號的識別和分析有利于發(fā)現(xiàn)破壞系統(tǒng)內(nèi)穩(wěn)態(tài)的威脅因素維持系統(tǒng)內(nèi)在平衡另一方面對系統(tǒng)演化和創(chuàng)新的支持同樣離不開弱信號研究，早于他人發(fā)現(xiàn)弱信號可形成一定程度的競爭優(yōu)勢也有助于預(yù)見新系統(tǒng)的出現(xiàn)[3]。本文針對非結(jié)構(gòu)化文本，從文本語義和詞語兩個角度綜合設(shè)計了一套自動識別弱信號數(shù)據(jù)的方式，輔助分析人員對弱信號開展識別和分析。

美國戰(zhàn)略規(guī)劃先驅(qū)Ansoff教授通過觀察組織戰(zhàn)略方向的長期趨勢變化，于1975年提出了弱信號的概念，認為弱信號具有重大影響的、不確定的早期征兆，可能蘊含著機會，也可能是威脅，但其形式、過程、來源都不明確。自Ansoff教授之后， H. Lesca等學(xué)者對弱信號作出了深入研究，弱信號的相關(guān)概念也逐漸豐富，總體上目前弱信號的相關(guān)概念可以分為三種：認為弱信號既關(guān)聯(lián)現(xiàn)象，也同結(jié)果相關(guān)；認為弱信號僅代表著正在變化的現(xiàn)象；認為弱信號只是一個預(yù)示著未來變化的征兆。但是對弱信號的認知也包括一些共同的看法，比如弱信號揭示的內(nèi)容不確定性，弱信號數(shù)據(jù)的碎片性、弱信號解讀的多視角性、弱信號本身具備前置期、可演化趨勢和引導(dǎo)變化的特征。弱信號難以被分析人員察覺到通常由于以下4個原因：1）弱信號可被感知的信息絕對量較少。2）弱信號的有效部分難以進入分析人員的視野。3）弱信號通常夾雜著噪聲和虛假信息。4）弱信號通常呈碎片狀，無法完整收集[4]。由于外部環(huán)境的復(fù)雜多變，導(dǎo)致弱信號識別需要以長期性的方式綜合考慮其有效性和意義，以便通過識別出的弱信號發(fā)現(xiàn)未來的發(fā)展趨勢、機會和威脅[5]。

1 相關(guān)研究

從戰(zhàn)略分析的角度來看，所有搜集到的信息最初只能假定為噪聲而不是信號，只有被適當處理后的弱信號才能顯現(xiàn)其價值。篩選可以起到減少背景噪聲的作用，通過從噪聲中抽取弱信號可以幫助弱信號的偵測，總體上，有兩種思路：一是減少噪聲密度從而揭示出弱信號；二是放大弱信號，讓其從相對恒定的噪聲中凸顯出來從統(tǒng)計的角度看，弱信號的“弱”意指其產(chǎn)生的概率低或頻率低，但同時弱信號的信息含量也很低，所以經(jīng)典統(tǒng)計方法會受到樣本量的約束，可能無法做到合理地解釋弱信號所代表的含義[6]。

目前弱信號的識別過程大多依賴人工輸入或?qū)＜乙庖姡詣幼R別弱信號手段仍處于起步階段。Griol-Barres等利用新聞和社會數(shù)據(jù)監(jiān)測弱信號，人工挑選并分析關(guān)鍵詞，并使用自然語言處理方法提取準確結(jié)果[7]。但是人工挑選存在工作量大，主觀易忽視等問題，不適用于大量數(shù)據(jù)的弱信號發(fā)現(xiàn)。J.Yoon提出一種給定關(guān)鍵字的情況下，基于文本內(nèi)容挖掘的弱信號主題識別方法[8]。該方法基于專家確定的關(guān)鍵字發(fā)現(xiàn)數(shù)據(jù)主題，無法發(fā)現(xiàn)容易被主觀忽視的弱信號。GUTSCHE提出一種運用動態(tài)主題建模和時間序列分析的方法自動檢測弱信號，但是監(jiān)測效果依賴于主題建模的效果，對模型的實時性要求很高。楊波等基于LDA和BERT模型自動識別文本弱信號，使用LDA發(fā)現(xiàn)文本主題，通過緊密中心度、主題權(quán)重和主題自相關(guān)性評價主題強弱性，并根據(jù)各個主題內(nèi)數(shù)據(jù)的歸一化頻率和概率提取出弱信號，最后使用通過BERT模型在語義層面對弱信號增強。使用LDA發(fā)現(xiàn)文本主題是一種文本匯聚發(fā)現(xiàn)的方法，該方法會將部分文本排除在主題之外，會導(dǎo)致弱信號的丟失和遺漏，不適用于主題各異且存在交叉的文本數(shù)據(jù)[9]。

文本相似度算法主要包括基于字符串匹配的方法，基于統(tǒng)計學(xué)的方法和基于深度學(xué)習(xí)的方法。其過程主要是根據(jù)詞向量算法將文本向量化，并通過余弦距離、歐氏距離等向量相似度算法計算兩個文本相似度。文本相似度算法能夠準確計算出兩個文本之間的語義關(guān)聯(lián)，通過文本之間的語義關(guān)聯(lián)性，綜合文本之間的詞語共現(xiàn)統(tǒng)計特征，可以量化直觀地識別出大量數(shù)據(jù)背后隱藏的弱信號。

綜上所述，目前弱信號識別方法主要使用人工識別或主題自動發(fā)現(xiàn)的方式，人工識別存在工作量大，主觀性強的缺點。主題自動發(fā)現(xiàn)對主題模型的實時性和數(shù)據(jù)貼合性要求很高，而且存在信號抽取不準導(dǎo)致弱信號丟失的情況，由于LDA模型屬于無監(jiān)督文本挖掘技術(shù)，分析人員也無法對這種丟失情況進行干預(yù)。本文提出一種基于文本相似度和主題頻率統(tǒng)計的方法，能夠從文本語義和主題特征兩個角度對弱信號進行識別，并通過主題詞關(guān)聯(lián)增強語義信號，以獲得更好的弱信號識別能力。

2 弱信號識別方法

2.1 方法概述

為增強弱信號自動發(fā)現(xiàn)過程的可控性和發(fā)現(xiàn)效果，本文使用較為可控的文本相似度算法和主題特征兩個算法從文本語義層面和文本特征層面兩個角度發(fā)現(xiàn)非結(jié)構(gòu)化文本的弱信號信息。其中，文本相似度算法通過文本之間的相似度值建立各個文本在整體內(nèi)容的相似度基準，得到每個文本的平均相似度，文本平均相似度越高，說明該文本的相似的報文越多，也就說明文本的信號強度越強。上述方法實現(xiàn)了根據(jù)平均相似度可以從語義層面表達文本的信號強度，再根據(jù)平均相似度的閾值調(diào)節(jié)可以篩除掉噪聲和強信號，從而發(fā)現(xiàn)該批次數(shù)據(jù)的弱信號?；诎l(fā)現(xiàn)的弱信號樣本，提取其主題詞，并通過主題詞共現(xiàn)的方式獲取其他相關(guān)數(shù)據(jù)，實現(xiàn)對弱信號的增幅效應(yīng)，便于分析人員對弱信號數(shù)據(jù)開展分析。弱信號識別方法整體流程框架如圖1所示。

文本經(jīng)過預(yù)處理后形成文本庫，計算每一篇報文的相似報文，并計算相似報文的相似程度，從而得到每篇報文的平均相似度和整體平均相似度。計算每個文本的主題詞，并對主題頻率進行統(tǒng)計，構(gòu)建出主題頻率空間。分析人員根據(jù)整體平均相似度設(shè)定弱信號閾值，并根據(jù)閾值范圍發(fā)現(xiàn)對應(yīng)的弱信號文本，再根據(jù)主題關(guān)聯(lián)和頻率，從不同維度發(fā)現(xiàn)其他關(guān)聯(lián)的報文，從而增強弱信號強度，開展弱信號分析。

2.2 文本預(yù)處理

文本預(yù)處理使用BERT模型進行分詞。在預(yù)處理過程中，文本標題往往能夠說明整個文本數(shù)據(jù)的核心內(nèi)容，因此在預(yù)處理階段，首先對標題和正文進行拆分，便于后續(xù)更精準的關(guān)鍵詞權(quán)重值計算。分詞后根據(jù)停用詞庫刪除無意義的詞語，構(gòu)建文本庫。

2.3 文本平均相似度計算

文本平均相似度計算用于計算單個文本的平均相似度，并進一步計算整體平均相似度，從而獲取整體文本信號基準，基于單個文本的平均相似度能夠表征該文本在整個文本庫中的信號強度，文本整體平均相似度能夠表征文本庫整體的數(shù)據(jù)緊密程度，從而可以輔助分析人員根據(jù)自身需求設(shè)定弱信號的閾值。

在海量文本數(shù)據(jù)場景下，直接計算文本之間的相似度會花費n2的算力，無法滿足文本實時處置的要求。因此本文使用BM25算法快速召回一定數(shù)量的文本后，針對粗召回文本開展相似度計算更符合實際使用場景，BM25算法公式如下：

[Score（W，d）=inwi?R（qi，d）] （1）

其中：[wi]表示文本中的一個詞項權(quán)重，[R（qi，d）]表示文本的一個詞項與文檔相關(guān)性得分。

針對粗召回的文本，使用word2vec生成詞向量，并計算文本之間的余弦相似度，計算公式如下：

[sim（a，b）=1nAiBi1nA2i1nB2i] （2）

計算出召回數(shù)據(jù)的相似度后，根據(jù)文本數(shù)據(jù)語義關(guān)聯(lián)密度和分析需求，調(diào)整相似度閾值，形成相似文本集合。

2.4 主題詞計算和統(tǒng)計

主題詞計算通過詞語權(quán)重計算出能夠表征文本內(nèi)容的關(guān)鍵詞，再基于關(guān)鍵詞統(tǒng)計從詞語粒度計算文本特征的信號強度，綜合文本語義弱信號，開展弱信號分析。文本關(guān)鍵詞使用jieba庫的逆詞頻算法TF-IDF，計算文檔關(guān)鍵詞和權(quán)重，并根據(jù)當前詞項是否出自標題增加一個權(quán)重調(diào)整項，使詞項更能夠代表文本內(nèi)容。計算公式如下：

[Pwi=tf（wi）×log（Ndf（wi））×wp] （3）

其中，[tf（wi）]表示當前詞項[wi]在文本i中出現(xiàn)的頻率，N表示文本集合中所有文本的總數(shù)， [df（wi）]表示文本庫中包含當前詞項[wi]的文本數(shù)，[wp]根據(jù)詞項是否出現(xiàn)在標題配置的詞項權(quán)重。計算出逆詞頻權(quán)重后，選擇詞權(quán)重前n個詞作為關(guān)鍵詞，根據(jù)關(guān)鍵詞和文本的關(guān)系，構(gòu)建共詞網(wǎng)絡(luò)。

2.4 弱信號發(fā)現(xiàn)

基于計算得到的整體平均相似度，作為弱信號基準值。根據(jù)帕累托原則，弱信號形成的信息不超過20%，且人類專家將噪聲的閾值范圍定義為0%～2%。假定整體平均相似度為Q，弱信號范圍可以在4%Q～40%Q，文本信號分布，如圖2所示。

根據(jù)弱信號閾值，獲取平均相似度在閾值內(nèi)的文本數(shù)據(jù)，并根據(jù)文本的主題出現(xiàn)次數(shù)和共現(xiàn)情況對弱信號開展分析。其中主題出現(xiàn)次數(shù)能夠表示該主題自身的信號強度，主題共現(xiàn)情況能夠基于主題關(guān)聯(lián)相關(guān)文本，從而增強弱信號文本，輔助分析人員開展弱信號分析。

3 實驗結(jié)果及分析

為了驗證文本弱信號識別的效果，本文利用環(huán)球網(wǎng)2020年新聞數(shù)據(jù)集進行實驗。該數(shù)據(jù)集包括1170篇新聞數(shù)據(jù)。本文對數(shù)據(jù)集進行了內(nèi)容清洗，去除了作者、發(fā)文單位等與內(nèi)容無關(guān)的內(nèi)容，并將清洗后的內(nèi)容分為標題和正文，形成了文本庫。按照本文設(shè)計的方法，分別對文本庫進行平均相似度計算和主題詞計算，以便發(fā)現(xiàn)數(shù)據(jù)集中存在的弱信號數(shù)據(jù)。

通過文本平均相似度計算結(jié)果，文本整體平均相似度為0.3，而弱信號閾值為0.012～0.12，根據(jù)弱信號閾值篩選各個文本的平均相似度，獲取到23篇弱信號文本，根據(jù)對文本特征分析，可以發(fā)現(xiàn)該批次文本存在氣候變化、非洲、歐洲貿(mào)易等弱信號數(shù)據(jù)，對其關(guān)聯(lián)文本分析，發(fā)現(xiàn)存在全球氣候變化，由疫情引發(fā)的非洲食物短缺，以及英國脫歐后歐洲貿(mào)易影響等問題。

4 結(jié)束語

弱信號識別是基于弱信號進行戰(zhàn)略預(yù)警的重要組成部分，能否完整地識別和發(fā)現(xiàn)弱信號決定著戰(zhàn)略預(yù)警是否有效。本文基于文本相似度和主題詞抽取設(shè)計一種弱信號發(fā)現(xiàn)方法。該方法能夠針對批量數(shù)據(jù)開展定量的弱信號發(fā)現(xiàn)和分析，提高了海量文本數(shù)據(jù)的弱信號發(fā)現(xiàn)效率；該方法通過可量化的弱信號識別分析，提高文本分析過程的準確性；該方法所有過程均使用統(tǒng)計學(xué)算法，人可以直觀感受到弱信號文本在內(nèi)容上的異同，是一種可信的文本分析方法。在實驗過程中，發(fā)現(xiàn)關(guān)鍵詞關(guān)聯(lián)文本的分析方法可以提供一種更加靈活的分析方法，該方法能夠提高人為識別文本弱信號的效率。所以在未來的工作中，將考慮如何開展弱信號文本的特征分析，進一步提高弱信號分析的能力。

參考文獻：

[1] 司謹源.基于地平線掃描的公安情報預(yù)警模式構(gòu)建[J].情報雜志，2020，39（1）：56-62.

[2] 董尹，劉千里，宋繼偉，等.弱信號研究綜述：概念、方法和工具[J].情報理論與實踐，2018，41（10）：147-154.

[3] 董尹，李明陽，胡雅萍，等.情報業(yè)務(wù)語境下的弱信號理論解析[J].情報雜志，2023，42（5）：137-144，41.

[4] 單彬.認知視角下的弱信號分析及實證研究[D].北京：中國人民解放軍軍事醫(yī)學(xué)科學(xué)院，2014.

[5] 馬銘，毛進，李綱.從弱信號到機會：關(guān)于弱信號的相關(guān)研究進展[J].圖書情報工作，2023，67（19）：121-132.

[6] MüHLROTH C，GROTTKE M.A systematic literature review of mining weak signals and trends for corporate foresight[J].Journal of Business Economics，2018，88（5）：643-687.

[7] GRIOL-BARRES I，MILLA S，CEBRIáN A，et al.Detecting weak signals of the future：a system implementation based on text mining and natural language processing[J].Sustainability，2020，12（19）：7848.

[8] YOON J.Detecting weak signals for long-term business opportunities using text mining of Web news[J].Expert Systems with Applications，2012，39（16）：12543-12550.

[9] 楊波，邵婉婷.基于LDA-BERT融合模型的弱信號識別研究[J].圖書情報工作，2021，65（16）：98-107.

【通聯(lián)編輯：朱寶貴】

電腦知識與技術(shù)2024年23期

電腦知識與技術(shù)的其它文章: 人工智能課程中融入思政元素的規(guī)范應(yīng)用研究; 基于產(chǎn)教融合的應(yīng)用型本科高校計算機文化基礎(chǔ)教學(xué)研究與實踐; 操作系統(tǒng)課程融入思政元素的探索與研究; 基于OBE理念的計算機組成原理翻轉(zhuǎn)課堂教學(xué)模式創(chuàng)新研究; 新工科背景下計算機組成原理課程混合式教學(xué)的改革探索; 新工科背景下應(yīng)用型本科計算機類專業(yè)課程體系建設(shè)探索

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本相似度和主題發(fā)現(xiàn)的弱信號識別方法