王 旎,孫曉紅,吳 鍇,謝 鋒2,,陶光燦,
1(貴州醫(yī)科大學(xué) 公共衛(wèi)生學(xué)院,貴陽 550025)
2(貴州省分析測試研究院,貴陽 550014)
3(食品安全與營養(yǎng)(貴州)信息科技有限公司,貴陽 550014)
在網(wǎng)絡(luò)新媒體時代,為促進食品行業(yè)健康發(fā)展,食品安全網(wǎng)絡(luò)輿情監(jiān)測體系應(yīng)運而生,開發(fā)決策參考、監(jiān)督抽檢、專項整治、協(xié)查處置等輿情信息應(yīng)用場景化服務(wù),針對當下熱門的食品安全輿情事件自動展開跟蹤與分析[1].而數(shù)據(jù)采集作為輿情大數(shù)據(jù)資源池建設(shè)的第一步準備工作,將孤立分布在數(shù)據(jù)報刊、網(wǎng)絡(luò)媒體、微博、微信中的各個數(shù)據(jù)源采集并存儲,為下一步輿情分析打下基礎(chǔ),幫助政府、企業(yè)和輿情相關(guān)者采取措施以預(yù)警或控制食品安全輿情的發(fā)展態(tài)勢[2].但是,食品安全輿情數(shù)據(jù)采集在及時性和精準性等方面仍存在著許多痛點和難點問題[3],一方面,運用傳統(tǒng)語義識別的方法采集數(shù)據(jù)所需的費用偏高且準確率較低,采集內(nèi)容要素廣泛且難以統(tǒng)一,包括食品類別、風(fēng)險類型、健康危害等多種關(guān)鍵詞,數(shù)據(jù)報刊、網(wǎng)絡(luò)媒體等多個輿情渠道,食品企業(yè)、政府和消費者等多方面用戶對象,以及包括監(jiān)督抽檢、檢測機構(gòu)、急救中心、公安部門的其他關(guān)聯(lián)因素.在采集過程中,通過傳統(tǒng)人工采集數(shù)據(jù)的方式難以窮盡,新發(fā)生的食品安全事件都有新的關(guān)鍵詞;另一方面,由于數(shù)據(jù)采集不夠精準,無法有效減少垃圾數(shù)據(jù)的產(chǎn)生,必然會影響數(shù)據(jù)采集的效率.
貝葉斯定理是數(shù)據(jù)挖掘領(lǐng)域一種用來描述概率關(guān)系的算法[4],提出了將知識圖解可視化的推理和模型[5],其方法簡單、分類準確率高、速度快,模型參數(shù)估計不需要任何復(fù)雜的迭代求解公式,只需統(tǒng)計訓(xùn)練集中的先驗概率和條件概率[6].目前已廣泛應(yīng)用于醫(yī)療診斷、人工智能、生物信息學(xué)、金融分析與預(yù)測等多個領(lǐng)域[7].因此,本文運用貝葉斯網(wǎng)絡(luò)模型優(yōu)化食品安全關(guān)鍵詞庫的風(fēng)險概率,將高風(fēng)險性的食品類別、風(fēng)險類型和健康危害等輸出為關(guān)鍵詞組,做一個自動關(guān)聯(lián)風(fēng)險的數(shù)據(jù)模型,并形成監(jiān)控探針,結(jié)合輿情監(jiān)測系統(tǒng),實現(xiàn)采集食品安全輿情關(guān)鍵詞的合理配置,以提高采集效率和準確率.其中,監(jiān)控探針[8]是一個不流行的學(xué)術(shù)術(shù)語,常用于描述語言及其編譯器的設(shè)計,對其功能闡述為嵌入在目標系統(tǒng)代碼中,在系統(tǒng)運行時獲取目標監(jiān)控點的相關(guān)運行狀態(tài).
基于以上研究現(xiàn)況,提出科學(xué)假設(shè):構(gòu)建關(guān)鍵詞庫形成基于貝葉斯網(wǎng)絡(luò)的監(jiān)控探針,可提高食品安全輿情數(shù)據(jù)采集的及時性與精準度.對比實驗:運用傳統(tǒng)人為設(shè)計關(guān)鍵詞、網(wǎng)絡(luò)爬蟲和監(jiān)控探針的3 種方法采集同一食品安全事件的輿情數(shù)據(jù),從而對監(jiān)控探針設(shè)計的快捷性和準確性進行驗證.
目前,網(wǎng)絡(luò)輿情數(shù)據(jù)采集的框架主要由6 部分組成:網(wǎng)站頁面、鏈接抽取、鏈接過濾、內(nèi)容抽取、網(wǎng)絡(luò)爬蟲技術(shù)[9]和數(shù)據(jù)[10].其中,新時代背景下又增加了爬行策略設(shè)計、網(wǎng)頁更新策略、網(wǎng)頁去重和計算機轉(zhuǎn)換軟件等新興互聯(lián)網(wǎng)采集技術(shù),針對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的網(wǎng)絡(luò)數(shù)據(jù)進行匯總和收集[11].在算法上,主要采用分布式、并行式的計算模型,以提高數(shù)據(jù)采集的速度[12].在信息存儲技術(shù)上,主要用Oracle、MySQL 數(shù)據(jù)庫和HBase、MongoDB 數(shù)據(jù)庫來實現(xiàn)[13].從應(yīng)用范圍上,網(wǎng)絡(luò)爬蟲技術(shù)[14]和信息抽取技術(shù)[15]是目前主流的輿情數(shù)據(jù)采集和分析挖掘方法.網(wǎng)絡(luò)爬蟲最早應(yīng)用于搜索引擎中,用來收集媒體網(wǎng)頁中的數(shù)據(jù),抓取有效輿情信息并加以存儲[16].信息抽取技術(shù)(information extraction,IE)是從非結(jié)構(gòu)化的自然語言文本中提取目標信息,然后進一步轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)形式的采集方法[17].伴隨科技的發(fā)展,全文信息的搜索引擎逐漸不能很好地滿足用戶要求,1957年,Luhn[18]提出一種基于詞頻統(tǒng)計的關(guān)鍵詞抽取方法,衍生出一系列關(guān)鍵詞抽取技術(shù)[14].關(guān)鍵詞抽取分為:(1)基于統(tǒng)計的方法,該方法的主要思想是通過指定特征來對詞語的權(quán)重進行計算,并根據(jù)詞語的權(quán)重大小來抽取關(guān)鍵詞[19].例如頻率統(tǒng)計(TF-IDF)[20]及其改進方法,簡單易行,具有較強的適用性,但由于TF-IDF 只提取頻率較高或位置較特殊的關(guān)鍵詞,不能完整概括全文主體信息,導(dǎo)致數(shù)據(jù)采集的準確率降低[21].(2)基于語言規(guī)則的方法,通過從文章、句子以及詞語等層次進行語法分析,來提高關(guān)鍵詞抽取系統(tǒng)的性能.(3)基于人工智能的方法,讓計算機能夠自動學(xué)習(xí)關(guān)鍵詞抽取的過程,通過對模型進行訓(xùn)練以實現(xiàn)人工智能自動抽取關(guān)鍵詞.
但是,互聯(lián)網(wǎng)數(shù)據(jù)具有海量、異構(gòu)數(shù)據(jù)源、缺乏語義信息和動態(tài)可變性等特點,尤其是網(wǎng)絡(luò)社交媒體和新聞數(shù)據(jù),其更新頻率高,隨時隨地都會生產(chǎn)出大量信息,這部分內(nèi)容數(shù)據(jù)量大,交互性強,使得抽取技術(shù)變得更加復(fù)雜化,給輿情信息的抽取帶來了諸多困難.并且,目前在網(wǎng)絡(luò)上針對食品安全的輿情數(shù)據(jù)并沒有系統(tǒng)地進行過匯總,采集者缺乏食品安全專業(yè)領(lǐng)域的知識,使得無論是應(yīng)用網(wǎng)絡(luò)爬蟲技術(shù)還是信息(關(guān)鍵詞)抽取技術(shù)都沒有高效的關(guān)鍵詞以供參考,不僅無法精準定位采集對象,還浪費了輿情數(shù)據(jù)的挖掘時間,造成了大量垃圾數(shù)據(jù)的產(chǎn)生,增加了輿情數(shù)據(jù)采集的工作量和計算成本,影響了輿情監(jiān)測系統(tǒng)的運營進度,阻礙了食品安全輿情監(jiān)測系統(tǒng)的拓展應(yīng)用.
因此,針對大數(shù)據(jù)時代食品安全輿情數(shù)據(jù)采集不夠快捷與準確的問題,從采集關(guān)鍵詞的研究對象出發(fā),構(gòu)建有關(guān)食品安全的關(guān)鍵詞庫,并引進貝葉斯網(wǎng)絡(luò)模型的分析方法,將高風(fēng)險的食品安全關(guān)鍵詞設(shè)計成監(jiān)控探針,向輿情監(jiān)測者推薦采集較高的關(guān)鍵詞組,提高食品安全輿情數(shù)據(jù)采集的速度與效率,對于改善食品安全輿情監(jiān)測系統(tǒng)的數(shù)據(jù)采集環(huán)節(jié),為后續(xù)的數(shù)據(jù)處理與數(shù)據(jù)應(yīng)用打下良好的基礎(chǔ)建設(shè),提高國家在食品安全輿情方面的管理能力具有重要作用.
貝葉斯網(wǎng)絡(luò)(Bayesian network,BN)[22]將貝葉斯理論、圖論、人工智能和決策分析相結(jié)合,是一種基于概率推理的圖形化網(wǎng)絡(luò)屬性數(shù)學(xué)模型[23].其在態(tài)勢評估、醫(yī)療保健、工業(yè)風(fēng)險預(yù)測等領(lǐng)域都已有廣泛的應(yīng)用,比如,根據(jù)環(huán)境、人員等因素引入貝葉斯網(wǎng)絡(luò)對采礦現(xiàn)場、建筑施工等高危作業(yè)是否發(fā)生事故進行風(fēng)險預(yù)估,以減少風(fēng)險事件的發(fā)生[24];為提高疾病診斷效率,提出了基于余弦相似度加權(quán)改進的貝葉斯分類算法[25],開發(fā)了大量的人工智能方法輔助檢測疾病[26];在科技發(fā)展與人類智能上,提出了基于貝葉斯理論的人臉識別算法[27];基于貝葉斯算法的垃圾郵件識別與過濾系統(tǒng)[28];以及基于貝葉斯網(wǎng)絡(luò)的民航機票預(yù)測系統(tǒng)等[29].
北京人民在線網(wǎng)絡(luò)科技有限公司的人民眾云平臺[30].
煙臺富美特信息科技股份有限公司食品伙伴網(wǎng)的食品標準(國家標準)[31].
食品安全與營養(yǎng)(貴州)信息科技有限公司食品安全云平臺的技術(shù)社區(qū)(國家標準)[32].
首先,將食品類別、風(fēng)險類型、健康危害等食品安全輿情關(guān)鍵詞,利用MySQL 數(shù)據(jù)庫構(gòu)建形成統(tǒng)一完善的食品安全關(guān)鍵詞庫;然后,運用貝葉斯網(wǎng)絡(luò)算法對關(guān)鍵詞庫建立數(shù)學(xué)模型,得出高風(fēng)險性的食品安全輿情關(guān)鍵詞組,并自動關(guān)聯(lián)風(fēng)險形成 監(jiān)控探針;最后,結(jié)合北京人民在線網(wǎng)絡(luò)科技有限公司開發(fā)的食品安全輿情監(jiān)測系統(tǒng),向用戶提供優(yōu)先采集的關(guān)鍵詞選項,形成一個包含監(jiān)控系統(tǒng)、關(guān)鍵詞庫、數(shù)學(xué)模型的監(jiān)控探針,從而達到提升食品安全輿情數(shù)據(jù)采集及時性與精準度的效果,如圖1所示.
圖1 食品安全輿情監(jiān)控探針邏輯圖
為了更準確描述一個食品安全事件的語義模板,包含發(fā)生地域、食品類別、風(fēng)險因子以及造成的健康危害等關(guān)鍵詞,構(gòu)建食品安全輿情事件信息關(guān)鍵詞分類表(見表1),并做出以下定義:定義1.設(shè)a為食品安全輿情事件發(fā)生地域關(guān)鍵詞,地域分布以省、直轄市、自治區(qū)為父類,下轄地級市為子類,共計34 個省級行政區(qū);定義2.設(shè)b為食品安全輿情事件謂語表達關(guān)鍵詞;定義3.設(shè)c為食品安全輿情事件食品類別關(guān)鍵詞,食品分類方法以國家市場監(jiān)督管理總局頒布的《食品生產(chǎn)許可分類目錄》[33]為依據(jù),共計32 類;定義4.設(shè)d為食品安全輿情事件風(fēng)險因子關(guān)鍵詞,風(fēng)險因子指能夠促使或引發(fā)食品風(fēng)險事件的危害要素,分為生物性因素、化學(xué)性因素、物理性因素和人為因素等[34];定義5.設(shè)e為食品安全輿情事件健康危害關(guān)鍵詞,即風(fēng)險因子可能導(dǎo)致的人體健康損害.
表1 食品安全輿情事件信息關(guān)鍵詞分類
定義6.滿足食品安全輿情事件條件下,a,c 之間存在謂語b,且c 后為風(fēng)險因子d,造成影響e,則稱“a,b,c,d,e”5 個詞組成一個食品安全輿情事件的標準語義模板.示例:2014年7月20日東方衛(wèi)視報道:上海福壽喜集團存在大量采用變質(zhì)肉原料的行為,引發(fā)顧客的食物中毒,“上海,報道,肉原料,變質(zhì),食物中毒”對應(yīng)“a,b,c,d,e”是滿足食品安全輿情事件的語義模板(見表2).根據(jù)標準語義模板中的語義信息量,定義了一、二、三、四、五級語義模板.由此得出,一件食品安全事件的關(guān)鍵詞越齊全,事件描述越完整,挖掘到的食品安全信息便越豐富,對于輿情數(shù)據(jù)采集工作的意義越大.
表2 食品安全輿情事件多級語義模板
首先,登錄食品安全輿情監(jiān)測系統(tǒng)“人民眾云[30]”用戶端,選擇“自助監(jiān)測”欄目,進行食品安全輿情數(shù)據(jù)采集的任務(wù)設(shè)置,對任務(wù)名稱和選擇分組的基本信息進行填寫;然后,進入“關(guān)鍵詞選擇”功能,填寫“主關(guān)鍵詞”“輔關(guān)鍵詞一”“輔關(guān)鍵詞二”“輔關(guān)鍵詞三”,并設(shè)置數(shù)據(jù)采集范圍:“數(shù)據(jù)報刊、政府機構(gòu)、網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)視頻、微博、微信、資訊、論壇等”;最后,提交操作采集輿情數(shù)據(jù).
MySQL 數(shù)據(jù)庫是一種高速度、高性能、多線程、開放源代碼的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)[35],是互聯(lián)網(wǎng)行業(yè)存儲和操作數(shù)據(jù)最常用的數(shù)據(jù)庫[36].根據(jù)貝葉斯網(wǎng)絡(luò)節(jié)點進行設(shè)計數(shù)據(jù)存儲,每條數(shù)據(jù)包括食物大類(F節(jié)點)、風(fēng)險因子(R節(jié)點)、危害癥狀(S節(jié)點)3 個關(guān)鍵詞,分為32 個食品類別[28],其中食品添加劑18 條、糧食加工品的關(guān)鍵詞條42 條、食用油30 條、調(diào)味品52 條、乳制品36 條、飲料60 條、方便食品40 條、肉制品77 條、餅干44 條、冷凍飲品22 條、罐頭33 條、速凍食品12 條、糖果制品7 條、薯類和膨化食品54 條、茶葉及其制品4 條、蔬菜制品25 條、酒類30 條、水果制品25 條、糕點食品36 條、蛋制品18 條、可可及焙烤咖啡產(chǎn)品49 條、炒貨食品及堅果制品84 條、水產(chǎn)制品60 條、淀粉及淀粉制品30 條、蜂制品56 條、豆制品12 條、保健食品40 條、食糖5 條、特殊醫(yī)學(xué)用途配方食品1 條、其他食品1 條,共1 039 條數(shù)據(jù).
以“糧食加工品”為例,在MySQL 食品安全關(guān)鍵詞庫中查詢“糧食加工品”,輸入查詢編程:
SELECT a.f0,a.f1,b.f2,c.f3 from testlv1 a
LEFT JOIN testlv2 b on a.f1=b.f1
LEFT JOIN testlv3 c on a.f1=c.f1
WHERE a.f1=‘糧食加工品’
ORDER BY f0,f2,f3 ASC
可得出包括“糧食加工品”食物大類、風(fēng)險因子、可能癥狀3 種關(guān)鍵詞的42 條數(shù)據(jù).每一條數(shù)據(jù)都具有唯一性,為食品安全輿情數(shù)據(jù)采集提供專業(yè)性較高的關(guān)鍵詞,提高數(shù)據(jù)采集的精準度,減少采集時垃圾數(shù)據(jù)的產(chǎn)生.
設(shè)置“食品安全風(fēng)險因子、食品類別、食品檢測不合格、食品危害癥狀”的4 個變量為貝葉斯網(wǎng)絡(luò)模型的節(jié)點,確定節(jié)點之后,采用因果推理形式的方法,確定各節(jié)點之間的關(guān)系,由原因推知結(jié)果,以求得食品安全變量導(dǎo)致的風(fēng)險事件發(fā)生的概率,從而建立有向無環(huán)圖,如圖2所示.其中,R節(jié)點為風(fēng)險因子(risk),F節(jié)點為食物大類(food),S節(jié)點為癥狀(symptoms),O節(jié)點為檢測不合格(out of specification,OOS).
根據(jù)概率乘法公式有P(X)=P(Xi/X1,X2,…,Xi-1)用Pai表示變量Xi的父節(jié)點集,則P(X)=P(Xi/Pai),因此為了確定貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),需要:① 將變量X1,X2,…,Xi按某種次序排序;② 確定滿足P(X)=P(Xi/Pai)的父節(jié)點集合Pai(i=1,2,…,n);③ 指定局部概率分布P(Xi/Pai).從圖2可以清楚地看到影響食品安全輿情數(shù)據(jù)采集的風(fēng)險節(jié)點及其相互的節(jié)點關(guān)系.在因果推理中,當食品安全風(fēng)險等級為R=1 時,概率關(guān)系組合如下:
圖2 基于貝葉斯網(wǎng)絡(luò)的監(jiān)控探針有向無環(huán)圖
當食品安全風(fēng)險等級為R=2 時,概率關(guān)系組合如下:
當食品安全風(fēng)險等級為R=3 時,概率關(guān)系組合如下:
因果推理推出食品安全風(fēng)險概率:
當R=3,F=3 時的概率是:
當R=3,S=3 時的概率是:
當R=3,O=3 時的概率是:
將貝葉斯網(wǎng)絡(luò)模型分成食物大類(F)、危害癥狀(S)、檢測不合格(O)3 個互不重疊的部分,每個部分都可能引發(fā)食品安全風(fēng)險,且風(fēng)險發(fā)生概率分別為P(F)、P(S)、P(O),引起食品安全風(fēng)險J的可能性就為P(J/F),P(J/S),P(J/O).基于貝葉斯模型的網(wǎng)絡(luò)風(fēng)險評估算法:
如果發(fā)生食品安全風(fēng)險,由“食物大類F”引起風(fēng)險的可能性為:
如果發(fā)生食品安全風(fēng)險,由“癥狀S”引起風(fēng)險的可能性為:
如果發(fā)生食品安全風(fēng)險,由“檢測不合格O”引起風(fēng)險的可能性為:
#查詢“食物大類”導(dǎo)致的食品安全風(fēng)險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果
result=infer.query([‘R’],evidence={‘F’:1,‘O’:0})
#查詢“不合格”導(dǎo)致的食品安全風(fēng)險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果
result=infer.query([‘R’],evidence={‘O’:1,‘O’:0})
#查詢“癥狀”導(dǎo)致的食品安全風(fēng)險概率貝葉斯網(wǎng)絡(luò)模型算法的結(jié)果
result=infer.query([‘R’],evidence={‘S’:1,‘O’:0})
根據(jù)可能性大小,將“風(fēng)險因子、食物大類、危害癥狀、檢測不合格”4 個方面的關(guān)鍵詞設(shè)計成監(jiān)控探針,按照引起風(fēng)險的可能性大小,對高風(fēng)險性詞語實現(xiàn)優(yōu)先采集,以提高食品安全輿情數(shù)據(jù)采集的及時性和精準度.
運用傳統(tǒng)人為設(shè)計關(guān)鍵詞、網(wǎng)絡(luò)爬蟲和監(jiān)控探針的3 種方法采集同一食品安全事件的輿情數(shù)據(jù),針對采集的快捷性和準確性設(shè)計對比實驗:取乳制品類、酒類、茶類3 種食品類別為采集對象,由政府部門、企業(yè)、人民網(wǎng)三方各自獨立設(shè)置關(guān)鍵詞,以獲得的3 份數(shù)據(jù)代表傳統(tǒng)人工采集方法,其中政府部門由貴州省分析測試院的工作人員為代表,企業(yè)方由食品安全與營養(yǎng)(貴州)信息科技有限公司的工作人員為代表.另外,再運用網(wǎng)絡(luò)爬蟲技術(shù),使用Python的requests 庫解析頁面數(shù)據(jù)接口獲取相關(guān)數(shù)據(jù),采集新浪微博中乳制品類、酒類、茶類3 種食品類別的信息,以獲得的數(shù)據(jù)代表線下流行的分析挖掘方法.將得到的4 組數(shù)據(jù)與監(jiān)控探針采集到的數(shù)據(jù)做比照,比較5 組數(shù)據(jù)的挖掘時間、有效數(shù)據(jù)量、無效數(shù)據(jù)量等指標,從而驗證監(jiān)控探針采集數(shù)據(jù)的速度和效率.
政府部門自設(shè)關(guān)鍵詞“奶粉”、“三聚氰胺”和“北京”;企業(yè)自設(shè)關(guān)鍵詞“酸奶”“乳酸菌”和“發(fā)酵”;人民網(wǎng)自設(shè)關(guān)鍵詞“奶茶”“肥胖”和“危害”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風(fēng)險概率偏高的3 個關(guān)鍵詞:“乳制品”P=95/23264×0.95=0.39%、“乳基嬰兒配方食品”P=5/23264×0.95=0.02%、“奶酪”P=3/23264×0.95=0.01%,因此設(shè)3 個關(guān)鍵詞為“乳制品”“乳基嬰兒配方食品”和“奶酪”.挖掘時間為3 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府15 s、企業(yè)12 s、人民網(wǎng)10 s、網(wǎng)絡(luò)爬蟲技術(shù)9 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)僅9 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府52 條、企業(yè)512 條、人民網(wǎng)159 條、網(wǎng)絡(luò)爬蟲技術(shù)47 條)明顯減少;數(shù)據(jù)有效率為83.6%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府54.3%、企業(yè)54.7%、人民網(wǎng)56.2%、網(wǎng)絡(luò)爬蟲技術(shù)63.0%)準確率明顯提高(見表3).
政府部門自設(shè)關(guān)鍵詞“酒類”、“發(fā)酵”和“工藝”;企業(yè)自設(shè)關(guān)鍵詞“啤酒”“青島”和“生產(chǎn)”;人民網(wǎng)自設(shè)關(guān)鍵詞“葡萄酒”“張?!焙汀鞍l(fā)酵”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風(fēng)險概率偏高的3個關(guān)鍵詞:“酒類”P=2299/23 264×0.95=9.39%、“白酒”P=25/23264×0.95=0.1%、“黃酒”P=7/23 264×0.95=0.03%,因此設(shè)關(guān)鍵詞為“酒類”“白酒”和“黃酒”.挖掘時間為2.5 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府13 s、企業(yè)14 s、人民網(wǎng)5 s、網(wǎng)絡(luò)爬蟲技術(shù)6 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)僅9 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府2 5 7 條、企業(yè)785 條、人民網(wǎng)28 條、網(wǎng)絡(luò)爬蟲技術(shù)69 條)明顯減少;有效率為77%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府55.9%、企業(yè)52.3%、人民網(wǎng)68.2%、網(wǎng)絡(luò)爬蟲技術(shù)58.9%)準確率明顯提高(見表3).
政府部門自設(shè)關(guān)鍵詞“茶類”“工藝”和“檢測”;企業(yè)自設(shè)關(guān)鍵詞“綠茶”、“紅茶”和“銷售”;人民網(wǎng)自設(shè)關(guān)鍵詞“茶類”、“加工”和“貯存”;運用基于貝葉斯網(wǎng)絡(luò)模型的食品安全輿情監(jiān)控探針算出所致食品安全風(fēng)險概率偏高的3 個關(guān)鍵詞:“茶葉及其制品”P=7/23264×0.95=0.03%、“綠茶”P=29/23264×0.95=0.12%、“紅茶”P=165/23264×0.95=0.67%,因此設(shè)關(guān)鍵詞為“茶葉及相關(guān)制品”、“綠茶”和“紅茶”.挖掘時間為2.4 s,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞使用時間(政府15 s、企業(yè)10 s、人民網(wǎng)7 s、網(wǎng)絡(luò)爬蟲技術(shù)11 s)明顯縮短;產(chǎn)生的垃圾數(shù)據(jù)64 條,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞產(chǎn)生的垃圾數(shù)據(jù)(政府29 條、企業(yè)381 條、人民網(wǎng)23 條、網(wǎng)絡(luò)爬蟲技術(shù)45 條)明顯減少;有效率為77.9%,較傳統(tǒng)法人為設(shè)置關(guān)鍵詞(政府52.5%、企業(yè)55%、人民網(wǎng)59.6%、網(wǎng)絡(luò)爬蟲技術(shù)55.9%)準確率明顯提高(見表3).
表3 食品安全輿情數(shù)據(jù)采集監(jiān)控探針與傳統(tǒng)方法對比實驗
基于貝葉斯網(wǎng)絡(luò)的食品安全輿情監(jiān)控探針結(jié)合食品安全關(guān)鍵詞庫與貝葉斯網(wǎng)絡(luò)概率算法,運用貝葉斯網(wǎng)絡(luò)模型推理食品安全風(fēng)險概率大小,定義節(jié)點并部署模型,查詢到“食物大類”“食品檢測不合格”和“危害癥狀”導(dǎo)致的風(fēng)險結(jié)果.不僅評估出食品安全關(guān)鍵詞庫中的局部風(fēng)險,還可以根據(jù)示例中的計算與分析過程,獲取食品安全相應(yīng)風(fēng)險問題的全面評估,實現(xiàn)高風(fēng)險性關(guān)鍵詞的優(yōu)先采集,有效解決了食品安全輿情監(jiān)測數(shù)據(jù)采集中的不精準及效率低等問題.
本研究圍繞發(fā)現(xiàn)問題、分析問題、解決問題的思路展開研究,針對食品安全輿情監(jiān)測系統(tǒng)數(shù)據(jù)采集環(huán)節(jié)所存在的問題提出科學(xué)假設(shè).首先利用MySQL 數(shù)據(jù)庫建立食品安全關(guān)鍵詞庫;然后,運用貝葉斯網(wǎng)絡(luò)模型將關(guān)鍵詞庫構(gòu)建形成監(jiān)控探針,并選擇食品安全輿情監(jiān)測系統(tǒng)進行數(shù)據(jù)采集;最后,以乳制品、酒及茶3 種食品案例的數(shù)據(jù)代入方法中與傳統(tǒng)人工采集、網(wǎng)絡(luò)爬蟲技術(shù)形成對比實驗,通過對比數(shù)據(jù)挖掘時間和采集數(shù)據(jù)有效率,驗證假設(shè)成立.由此得出,關(guān)鍵詞庫引入貝葉斯網(wǎng)絡(luò)模型形成監(jiān)控探針,可有效提高食品安全輿情數(shù)據(jù)采集的及時性與精準度,精準定位不同的采集對象,節(jié)約了輿情監(jiān)測體系的采集成本,拓展了食品安全網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)推廣應(yīng)用的范圍.