王 軒,張艾蕾
(天津市食品安全檢測技術(shù)研究院,天津 300308)
食品作為人類賴以生存的基本必需品,其安全關(guān)系到國計民生。當(dāng)前我國正處于食品工業(yè)快速發(fā)展期,食品安全形勢日趨復(fù)雜嚴(yán)峻,僅2021 年我國就發(fā)生食品質(zhì)量安全事件超過30 起。與此同時,食品安全監(jiān)管工作面臨海量、多源異構(gòu)數(shù)據(jù)的挑戰(zhàn),迫切需要利用大數(shù)據(jù)技術(shù)實現(xiàn)智能化監(jiān)管,以提升監(jiān)管效率與準(zhǔn)確性。當(dāng)前人工智能技術(shù)飛速發(fā)展,其中圖像識別、自然語言處理等技術(shù)在文本和圖像處理上展現(xiàn)出巨大優(yōu)勢,為大數(shù)據(jù)驅(qū)動的智能監(jiān)管應(yīng)用提供了技術(shù)支撐。因此,研究構(gòu)建面向大數(shù)據(jù)的食品安全智能監(jiān)管模型,實現(xiàn)監(jiān)管信息的智能采集、處理和預(yù)警,對推進監(jiān)管數(shù)字化轉(zhuǎn)型具有重要意義。隨著食品安全監(jiān)管進入大數(shù)據(jù)時代,相關(guān)智能化研究成為熱點[1]。但是多源異構(gòu)數(shù)據(jù)的深度融合與食品安全全流程的智能化研究還比較缺乏。因此,設(shè)計一套處理海量監(jiān)管數(shù)據(jù)的智能分析與決策支持系統(tǒng),是當(dāng)前食品安全智能監(jiān)管面臨的核心挑戰(zhàn)與發(fā)展方向。
針對食品安全大數(shù)據(jù)環(huán)境下的智能監(jiān)管問題,國內(nèi)外學(xué)者進行了一些有益探索。CUADROSRODRíGUEZ 等[2]設(shè)計了食品安全監(jiān)測系統(tǒng),實現(xiàn)了對網(wǎng)絡(luò)文本信息的采集和食品安全事件的自動提取。ESSLINGER 等[3]開發(fā)了食品安全知識圖譜,并設(shè)計相應(yīng)的問答系統(tǒng),以知識圖譜強化食品安全監(jiān)管。此外,一些學(xué)者探索了食品安全圖像的智能解析。例如,高岷舟等[4]設(shè)計了檢測食品標(biāo)簽的卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)了對食品添加劑的自動識別。
綜上,已有研究分別從文本處理和圖像處理兩個方面,采用自然語言處理、計算機視覺等技術(shù)對食品安全信息進行智能分析,但綜合利用多源異構(gòu)數(shù)據(jù)的食品安全智能監(jiān)管模型研究還較少。本研究試圖構(gòu)建基于大數(shù)據(jù)與深度學(xué)習(xí)的食品安全智能監(jiān)管模型,以期實現(xiàn)監(jiān)管信息的全面智能處理和風(fēng)險預(yù)警。
2.1.1 監(jiān)管數(shù)據(jù)集構(gòu)建
本研究構(gòu)建了一個綜合性的食品安全監(jiān)管數(shù)據(jù)集,其中包含國家或地方市場監(jiān)督管理局發(fā)布的食品安全公告、快速預(yù)警信息、檢查通報等文本數(shù)據(jù),以及食品生產(chǎn)現(xiàn)場、產(chǎn)品照片等監(jiān)管圖像數(shù)據(jù)。在數(shù)據(jù)采集過程中,利用爬蟲程序定向爬取官方網(wǎng)站公告信息,利用搜索引擎按關(guān)鍵詞檢索網(wǎng)絡(luò)公開圖像,對數(shù)據(jù)進行清洗整理,最終獲得一個規(guī)模3 000條、格式統(tǒng)一、標(biāo)簽完善的食品安全監(jiān)管數(shù)據(jù)集,見表1。該數(shù)據(jù)集涵蓋了典型的文本類數(shù)據(jù)和圖像類數(shù)據(jù),可用于后續(xù)模型的訓(xùn)練與驗證[5]。
表1 食品安全監(jiān)管數(shù)據(jù)集規(guī)模及分類
2.1.2 智能采集模塊
考慮到監(jiān)管數(shù)據(jù)具有時效性與動態(tài)更新的特點,設(shè)計了智能采集模塊實現(xiàn)監(jiān)管信息的自動獲取。對文本類數(shù)據(jù),采用基于關(guān)鍵詞和規(guī)則的網(wǎng)絡(luò)爬蟲程序,定期爬取官方網(wǎng)站和輿情網(wǎng)站的相關(guān)信息,并過濾重復(fù)內(nèi)容。對圖像類數(shù)據(jù),則利用光學(xué)字符識別(Optical Character Recognition,OCR)技術(shù),對掃描或拍照采集的食品標(biāo)簽、工廠照片等進行解析,提取文本特征,并根據(jù)內(nèi)容進行分類。該模塊可持續(xù)不斷地抓取更新各類監(jiān)管數(shù)據(jù)源,確保模型訓(xùn)練的數(shù)據(jù)新鮮度。
2.1.3 智能處理模塊
(1)文 本 數(shù) 據(jù) 處 理。LSTM(Long Short-Term Memory)是一種遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)的變體,特別適用于序列數(shù)據(jù)的處理,如文本和時間序列數(shù)據(jù),其設(shè)計可以避免長期依賴問題,從而捕獲長期的依賴關(guān)系。BERT(Bidirectional Encoder Representations from Transformers) 可 以進行語義特征提取和編碼,該模型使用雙向的Transformer 編碼器,可以有效表示文本的語義信息。因此,本研究使用LSTM 和BERT 模型進行文本數(shù)據(jù)的語義解析[6]。
(2)圖像數(shù)據(jù)處理。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是一種深度學(xué)習(xí)模型,特別適用于圖像處理,通過卷積層可以自動從圖像中提取重要特征[7-8]。YOLO(You Only Look Once)是一種實時物體檢測算法,與傳統(tǒng)的兩步方法(首先提議區(qū)域,然后對其進行分類)不同,YOLO 在單個網(wǎng)絡(luò)中將這兩個步驟結(jié)合起來,從而實現(xiàn)快速而準(zhǔn)確的物體檢測。因此,本研究使用CNN、YOLO 模型對圖像的特征進行提取[9-10]。
2.1.4 知識圖譜模塊
本研究構(gòu)建了一個規(guī)模約2 000 個實體、3 000 種關(guān)系的食品安全知識圖譜。實體包含食品、添加劑、病原體等;關(guān)系包含分類關(guān)系、屬性關(guān)系、功能關(guān)系等。該知識圖譜整合了國家食品安全標(biāo)準(zhǔn)、相關(guān)監(jiān)管規(guī)定以及學(xué)術(shù)文獻等多源領(lǐng)域知識,使用圖數(shù)據(jù)庫進行存儲,并采用知識圖譜標(biāo)記語言(Knowledge Graph Markup Language,KGML)等形式進行知識表示。在模型運用時,可以根據(jù)提取到的實體信息,快速在知識圖譜中檢索到與其關(guān)聯(lián)的風(fēng)險知識,從而為模型賦能。相較于零散的文本信息,知識圖譜可以提供結(jié)構(gòu)化的知識支持,以提升監(jiān)管決策的水平[11]。
2.1.5 預(yù)警模塊
在獲取監(jiān)管文本和圖像的智能解析結(jié)果后,預(yù)警模塊會首先識別食品安全事件。在這一步中,系統(tǒng)可以關(guān)聯(lián)知識圖譜,結(jié)合事件涉及的食品和生產(chǎn)環(huán)節(jié)等方面的背景知識評估事件的危害性。例如,如果識別到了“三聚氰胺”等違禁物質(zhì),模型就可以快速定位到毒性作用等信息。接著,根據(jù)事件的危害程度、傳播范圍等因素,系統(tǒng)會根據(jù)預(yù)先設(shè)定的風(fēng)險等級標(biāo)準(zhǔn),對事件進行自動化分級預(yù)警。相較于依賴人工經(jīng)驗判斷,該預(yù)警模塊實現(xiàn)了基于模型和知識圖譜的風(fēng)險智能評估和預(yù)警[12-13]。
采用準(zhǔn)確率、召回率等指標(biāo)可全面評估模型的監(jiān)管效果,其中準(zhǔn)確率反映模型正確預(yù)測的樣本數(shù)占總預(yù)測樣本數(shù)的比例,召回率反映模型捕捉的正樣本數(shù)占總正樣本數(shù)的比例。在具體評估中,采取以下技術(shù)手段。①監(jiān)管數(shù)據(jù)集劃分,將收集的3 000 條監(jiān)管數(shù)據(jù)按7.0 ∶1.5 ∶1.5 的比例分為訓(xùn)練集、驗證集和測試集。②五折交叉驗證,將測試集五等分,每次使用其中4 份作為訓(xùn)練,1 份作為驗證,循環(huán)5 次。③指標(biāo)計算,在交叉驗證的每輪測試中,分別計算準(zhǔn)確率和召回率。④模型對比,將構(gòu)建模型的結(jié)果與基準(zhǔn)模型進行比較,驗證其優(yōu)劣。
通過上述評估流程,可以全面考察模型的監(jiān)管效果。準(zhǔn)確率和召回率直觀地反映了模型的精確度和覆蓋面,交叉驗證保證了結(jié)果的穩(wěn)健性,與基準(zhǔn)對比可直觀展示模型的優(yōu)點。
根據(jù)前述方法,本研究構(gòu)建了基于大數(shù)據(jù)與深度學(xué)習(xí)的食品安全智能監(jiān)管模型。該模型整合實際監(jiān)管數(shù)據(jù)3 000 條,采用LSTM、BERT 算法實現(xiàn)文本數(shù)據(jù)處理,采用CNN、YOLO 算法實現(xiàn)圖像數(shù)據(jù)處理,并構(gòu)建關(guān)聯(lián)知識圖譜。經(jīng)訓(xùn)練和調(diào)優(yōu),相關(guān)算法取得了良好的處理效果。
為評估構(gòu)建模型的智能處理效果,選取已標(biāo)注結(jié)果的500 條監(jiān)管數(shù)據(jù)進行測試,其中包含300 條文本數(shù)據(jù)、200 條圖像數(shù)據(jù)。文本數(shù)據(jù)經(jīng)算法處理后的平均準(zhǔn)確率達87.3%,圖像數(shù)據(jù)經(jīng)算法處理后的平均準(zhǔn)確率達91.2%??紤]到監(jiān)管數(shù)據(jù)涉及食品種類繁多、內(nèi)容表達復(fù)雜,這一準(zhǔn)確率表明文本與圖像處理模塊可以基本滿足智能解析的需求。另外,文本模塊的召回率可達83.1%,圖像模塊的召回率可達85.7%,相關(guān)結(jié)果顯示構(gòu)建的模型具有較強的監(jiān)管數(shù)據(jù)處理與風(fēng)險識別能力[14]。
以某乳制品質(zhì)量下降事件為例,當(dāng)?shù)厥袌霰O(jiān)督管理局發(fā)布通報稱某品牌成人奶粉產(chǎn)品經(jīng)檢測過氧化值指標(biāo)超標(biāo),可能導(dǎo)致產(chǎn)品風(fēng)險。該模型可直接從通報文本中抽取“成人奶粉”“某品牌”“過氧化值”等關(guān)鍵詞,并在關(guān)聯(lián)知識圖譜中判斷過氧化值超標(biāo)會導(dǎo)致養(yǎng)分流失和產(chǎn)生異味,判斷為較高風(fēng)險事件。同時,輸入現(xiàn)場照片,可識別出問題原料為奶粉包裝。最終,模型綜合兩類信息,并關(guān)聯(lián)標(biāo)準(zhǔn)知識,自動判斷該事件為原料問題導(dǎo)致的較高風(fēng)險事件,并推送預(yù)警信息給相關(guān)監(jiān)管部門。
3.4.1 模型效果分析
實驗結(jié)果證明,構(gòu)建的基于深度學(xué)習(xí)的食品安全智能監(jiān)管模型可以實現(xiàn)海量監(jiān)管數(shù)據(jù)的有效自動解析。在文本處理方面,模型平均準(zhǔn)確率超過87%,關(guān)鍵信息提取準(zhǔn)確;在圖像處理方面,模型平均準(zhǔn)確率超過91%,視覺要素識別準(zhǔn)確。案例分析也顯示模型能夠快速分析監(jiān)管通報和現(xiàn)場圖片,并結(jié)合知識圖譜推斷出事件風(fēng)險。相較于傳統(tǒng)人工分析監(jiān)管信息的方式,該智能監(jiān)管模型可大大提高分析效率。
然而,模型的健壯性和可拓展性還需進一步提高。當(dāng)前模型對新穎未知類別的食品安全事件,解析效果會略低于已知類別,需要增強模型對新知識的感知能力;不同地區(qū)和部門的數(shù)據(jù)格式存在差異,直接遷移模型的適應(yīng)性還可提升;若應(yīng)用到實際在線監(jiān)控等場景,也需要壓縮模型大小、優(yōu)化推理速度等。因此,后續(xù)研究可繼續(xù)豐富樣本、進行集成學(xué)習(xí)以及探索模型的輕量化。
3.4.2 提高模型的可解釋性和透明度
為確保非技術(shù)人員理解模型的決策過程,本研究引入了模型解釋工具,如局部可理解的與模型無關(guān)的解釋技術(shù)(Local Interpretable Model-Agnostic Explanations,LIME)和Shapley 可加性解釋(SHapley Additive exPlanations,SHAP)等,來解釋模型的決策邏輯。通過這些工具,非技術(shù)人員可以清晰看到模型在做決策時是如何權(quán)衡各種輸入特征的,從而使模型的決策更加透明。
3.4.3 模型的局限性分析
本模型在食品安全監(jiān)管上已顯示出了強大的潛力,但也存在一些局限性。例如,模型的訓(xùn)練需要大量的數(shù)據(jù),而一些稀有的食品安全事件可能數(shù)據(jù)量有限,這可能導(dǎo)致模型在這類事件上的表現(xiàn)不盡如人意。此外,盡管模型具有較高的準(zhǔn)確率,但仍可能存在誤報和漏報的情況,這需要進一步的技術(shù)優(yōu)化。對于這些挑戰(zhàn),未來的研究可以考慮引入遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等技術(shù),以提高模型在數(shù)據(jù)稀少情況下的表現(xiàn)。
3.4.4 模型優(yōu)化
為進一步增強模型的監(jiān)管效果,可以考慮從以下幾個方面進行優(yōu)化。①擴充訓(xùn)練數(shù)據(jù)集,新增不同地區(qū)、部門、時間段的監(jiān)管數(shù)據(jù)。豐富數(shù)據(jù)樣本有助模型提高對新穎事件和復(fù)雜語境的學(xué)習(xí)能力,期望準(zhǔn)確率可提高3%~5%。②嘗試集成多種算法模型,如將門控循環(huán)單元(Gated Recurrent Unit,GRU)與BERT 結(jié)合,進行雙向語義特征提取。不同模型可相互驗證、相互補充,增強文本理解的全面性,期望提高文本解析召回率2%~3%。③增加更多違規(guī)食品圖像的訓(xùn)練,如虛假標(biāo)簽、變質(zhì)原料等,擴展模型對各類違規(guī)場景的視覺識別能力,提高圖像風(fēng)險識別的準(zhǔn)確率約2%。④豐富知識圖譜的實體、關(guān)系描述,如增加毒理學(xué)、微生物學(xué)等領(lǐng)域知識,加強圖譜的關(guān)聯(lián)分析支持能力,可以提升2%~4%的事件風(fēng)險判斷正確率。⑤應(yīng)用在線學(xué)習(xí)等技術(shù),使用新出現(xiàn)的監(jiān)管數(shù)據(jù)及時更新模型,促使模型快速適應(yīng)新知識、新情況,保持高水平的監(jiān)管效果。
食品安全智能監(jiān)管可實現(xiàn)監(jiān)管效率大幅提升,推動監(jiān)管智能化升級。繼續(xù)擴充高質(zhì)量監(jiān)管大數(shù)據(jù),構(gòu)建涵蓋全鏈條、多領(lǐng)域數(shù)據(jù)的體系,可以提升模型判斷能力,并探索多模態(tài)深度學(xué)習(xí)實現(xiàn)數(shù)據(jù)全面智能解析,以提高風(fēng)險判斷的準(zhǔn)確性。同時,通過生成對抗網(wǎng)絡(luò)、元學(xué)習(xí)等方式增強模型解釋性和遷移學(xué)習(xí)能力,使之更好地適應(yīng)新環(huán)境和新事件,保證穩(wěn)定有效的監(jiān)管。此外,研究模型輕量化,將智能監(jiān)管應(yīng)用到移動和實時場景,可實現(xiàn)全時空智能化監(jiān)管。
本研究構(gòu)建的食品安全智能監(jiān)管模型可實現(xiàn)監(jiān)管數(shù)據(jù)的自動采集和食品安全事件的精確識別,并通過知識圖譜增強事件風(fēng)險的智能判斷能力,實現(xiàn)了食品安全全流程智能化監(jiān)管,可大大提高監(jiān)管效率。本研究驗證了基于深度學(xué)習(xí)的智能監(jiān)管方法的有效性,為構(gòu)建智能化食品安全監(jiān)管體系提供了有價值的技術(shù)路線。