陳 默,張景祥,胡恩華,吳林海,張 義
(1.南京航空航天大學(xué)經(jīng)濟(jì)與管理學(xué)院,江蘇 南京 211106;2.江南大學(xué)理學(xué)院,江蘇 無錫 214122;3.江南大學(xué)生物工程學(xué)院,江蘇 無錫 214122;4.江南大學(xué)商學(xué)院,食品安全風(fēng)險(xiǎn)治理研究院,江蘇 無錫 214122)
近年來,我國食品安全事件不斷涌現(xiàn),并以互聯(lián)網(wǎng)為主要載體快速傳播。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的報(bào)告,截至2020年3月,我國網(wǎng)民規(guī)模達(dá)9.04億 人,網(wǎng)民使用手機(jī)上網(wǎng)的比例達(dá)99.3%,由于食品安全事件信息傳播具有參與人數(shù)眾多、傳播速度快、范圍廣、表現(xiàn)形式多樣等特點(diǎn),加上傳播者與受傳者的意識形態(tài)、宗教文化、生活經(jīng)歷等存在種種差異,造成信息演化路徑多樣、不確定強(qiáng)、反復(fù)性高,都極大地推動(dòng)了食品安全事件影響的深度和廣度[1]。因此,對互聯(lián)網(wǎng)上相關(guān)的食品安全數(shù)據(jù)進(jìn)行挖掘與梳理,對食品安全的熱點(diǎn)問題進(jìn)行跟蹤,不僅可以正確引導(dǎo)大眾的輿論方向,也可以避免由于不實(shí)食品安全報(bào)道引起的社會(huì)恐慌。
目前,針對我國食品安全事件的大數(shù)據(jù)分析方法還較少,且互聯(lián)網(wǎng)信息量巨大,關(guān)于食品安全的信息難以被有效提取和分析,只有通過對互聯(lián)網(wǎng)數(shù)據(jù)的挖掘,科學(xué)分析食品安全事件發(fā)生的內(nèi)外特征,為建立食品安全的預(yù)警機(jī)制奠定數(shù)據(jù)和理論基礎(chǔ),才能進(jìn)一步健全食品安全的保障機(jī)制[2]。因此,構(gòu)建針對食品安全事件的大數(shù)據(jù)挖掘模型,不僅可以實(shí)現(xiàn)信息的高效利用,強(qiáng)化政府監(jiān)管、企業(yè)自律和公眾參與的有機(jī)結(jié)合,還可以通過分析食品安全事件在空間分布的規(guī)律性特征,對防范未來系統(tǒng)性、區(qū)域性的食品安全風(fēng)險(xiǎn)發(fā)揮重要作用,有利于形成食品安全管控?zé)o縫隙、精細(xì)化的全社會(huì)共治新模式。
食品安全風(fēng)險(xiǎn)達(dá)到并超過一定的臨界點(diǎn)就可能誘發(fā)食品安全事件。Gratt[3]認(rèn)為風(fēng)險(xiǎn)是風(fēng)險(xiǎn)事件發(fā)生的概率與事件發(fā)生后果的乘積。聯(lián)合國化學(xué)品安全項(xiàng)目中將風(fēng)險(xiǎn)定義為暴露某種特定因子后在特定條件下對組織、系統(tǒng)或人群(或亞人群)產(chǎn)生有害作用的概率[4]。由于風(fēng)險(xiǎn)特性不同,沒有一個(gè)完全適合所有風(fēng)險(xiǎn)問題的定義;針對特定問題,應(yīng)依據(jù)研究對象和性質(zhì)的不同而采用具有針對性的定義。關(guān)于食品安全風(fēng)險(xiǎn),聯(lián)合國糧農(nóng)組織與世界衛(wèi)生組織于1995—1999年先后召開了3 次國際專家咨詢會(huì),提出了食品風(fēng)險(xiǎn)管理的框架和基本原理[5]。國際法典委員會(huì)認(rèn)為,食品安全風(fēng)險(xiǎn)是指將對人體健康或環(huán)境產(chǎn)生不良效果的可能性和嚴(yán)重性,這種不良效果是由食品中的一種危害所引起的。國際生命科學(xué)學(xué)會(huì)提出食品安全風(fēng)險(xiǎn)主要是指潛在損壞或危及食品安全和質(zhì)量的因子或因素,這些食品安全風(fēng)險(xiǎn)的危害因素包括生物性、化學(xué)性和物理性的[6]。其中,生物性危害因素主要是指影響食品質(zhì)量與安全的有關(guān)細(xì)菌、病毒、真菌及其毒素、寄生蟲及其蟲卵、昆蟲等;化學(xué)性危害因素主要包括動(dòng)植物固有天然毒素、農(nóng)藥、獸藥、化肥、環(huán)境污染物、食品添加劑、食品包裝浸出物;物理性危害因素主要指玻璃、鐵絲、鐵釘、石頭、金屬碎片、碎屑等各種各樣的外來雜質(zhì)[7-8]。除生物性、化學(xué)性和物理性危害因素外,吳林海等[9]進(jìn)一步提出了人源性/人為性危害因素,即由于食品生產(chǎn)經(jīng)營者故意違反食品安全法律法規(guī)所進(jìn)行的不當(dāng)行為以及其他制度性原因而產(chǎn)生的食品安全風(fēng)險(xiǎn)危害因素,主要包括生產(chǎn)經(jīng)營者因素、信息不對稱性因素、消費(fèi)者因素、政府規(guī)制性因素、國際環(huán)境因素等。需要指出的是,人源性因素也是通過物理性、化學(xué)性、生物性因素等體現(xiàn),并產(chǎn)生食品安全風(fēng)險(xiǎn),但風(fēng)險(xiǎn)原因的本質(zhì)完全不同。總之,由于技術(shù)、經(jīng)濟(jì)發(fā)展水平差距,不同國家存在的食品安全風(fēng)險(xiǎn)及其危害因素不盡相同。
現(xiàn)行的《食品安全法》中沒有“食品安全事件”這個(gè)概念,但對“食品安全事故”作出了界定,即“食源性疾病、食品污染等源于食品,對人體健康有危害或者可能有危害的事故”。世界衛(wèi)生組織將食品安全定義為,食品中有毒、有害物質(zhì)對人體健康影響的公共衛(wèi)生問題[10]。李清光等[11]認(rèn)為基于食品安全的定義,食品中含有的某些有毒、有害物質(zhì)(可以是內(nèi)生的,也可以是外部入侵的,或者兩者兼而有之)超過一定限度而影響到人體健康所產(chǎn)生的公共衛(wèi)生事件就屬于食品安全事件。厲曙光等[12]將食品安全事件與食品或食品接觸材料關(guān)聯(lián),認(rèn)為食品安全事件為所涉及食品或食品接觸材料有毒或有害,或食品不符合應(yīng)當(dāng)有的營養(yǎng)要求,對人體健康已經(jīng)或可能造成任何急性、亞急性或者慢性危害的事件。實(shí)際上,在可查閱到的國內(nèi)外研究文獻(xiàn)中,鮮見對食品安全事件的界定,而且近年來中國發(fā)生的影響人體健康的食品安全事件往往是由網(wǎng)絡(luò)新聞媒體(而且主要由網(wǎng)絡(luò)媒體)首先曝光,故在目前國內(nèi)已有的研究文獻(xiàn)中,學(xué)者們較多地選取媒體報(bào)道的與食品安全相關(guān)的事件進(jìn)行研究[12-13]。
對于業(yè)已發(fā)生的食品安全事件,學(xué)者們主要對事件性質(zhì)、產(chǎn)生的影響、危害類型等進(jìn)行了相關(guān)的研究。較為典型的是,He Zhongyue[14]、Dai Yunhao[15]、Liu Huan’an[16]等分別研究了食品安全事件產(chǎn)生的影響,包括對消費(fèi)者購買意愿和對國際貿(mào)易產(chǎn)生的影響、食品生產(chǎn)經(jīng)營廠商對發(fā)生的食品安全事件的危機(jī)處理等。此外,學(xué)者們主要采用內(nèi)容分析法進(jìn)行食品安全事件特征的研究,重點(diǎn)分析食品安全事件中所涉及的供應(yīng)鏈環(huán)節(jié)、食品類別、危害類型與本質(zhì)原因等,且取得了一定的研究成果。如Li Qiang等[17]研究了2009年4月1日至2009年6月30日時(shí)段內(nèi)中國發(fā)生的600 起食品安全事件;Liu Yang等[18]分析了在2004年1月1日至2013年8月1日時(shí)段內(nèi)北京發(fā)生的295 起食品安全事件;張紅霞等[19]研究了2010—2012年間中國發(fā)生的由于生產(chǎn)企業(yè)不當(dāng)行為產(chǎn)生的628 起食品安全事件;莫鳴等[20]分析了2002—2013年間中國發(fā)生的由于經(jīng)營與消費(fèi)環(huán)節(jié)處理不當(dāng)引發(fā)的359 個(gè)食品安全事件;而劉玉朋等[21]則研究了2001—2013年間中國發(fā)生的278 個(gè)類別畜產(chǎn)品食品安全事件。已有的食品安全事件研究多以人工為主,智能化不足,導(dǎo)致數(shù)據(jù)不全面、不精準(zhǔn),對防范食品安全事件意義不足,無法實(shí)現(xiàn)對食品安全事件的精準(zhǔn)監(jiān)管和預(yù)警,甚至可能產(chǎn)生誤導(dǎo)。
對食品安全事件研究而言,至關(guān)重要的是事件的數(shù)據(jù)來源。傳統(tǒng)食品安全風(fēng)險(xiǎn)治理領(lǐng)域的數(shù)據(jù),例如全國性的食品監(jiān)管抽檢數(shù)據(jù),數(shù)量相對有限,難以起到食品安全風(fēng)險(xiǎn)治理中的預(yù)防、預(yù)警作用。而在大數(shù)據(jù)時(shí)代,獲取食品安全風(fēng)險(xiǎn)治理大數(shù)據(jù)以防范食品安全事件的條件日趨成熟。由于目前國內(nèi)在食品安全事件的分析方面尚沒有成熟的大數(shù)據(jù)挖掘工具,因此近年來有關(guān)食品安全事件的研究,其涉及的數(shù)據(jù)主要來源于各個(gè)研究團(tuán)隊(duì)根據(jù)研究需要而基于網(wǎng)絡(luò)媒體新聞所進(jìn)行的專門收集[16-18]。數(shù)據(jù)從國內(nèi)各相關(guān)網(wǎng)站收集,主要由人工進(jìn)行重復(fù)性的檢驗(yàn)和有效性的篩選,其中王東波等[22]通過條件隨機(jī)場模型對食品安全事件當(dāng)中食品名稱與誘因的自動(dòng)識別;沈思等[23]通過BilSTM-CRF模型構(gòu)建基于深度學(xué)習(xí)的食品安全事件實(shí)體模型;鄭麗敏等[24]提出FSE_ERE這種基于依存分析的食品安全事件新聞文本的實(shí)體關(guān)系抽取方法。也有學(xué)者利用“網(wǎng)絡(luò)爬蟲”技術(shù)取代人工搜索,抓取網(wǎng)站中與食品安全事件相關(guān)的新聞[25]。目前網(wǎng)頁排序的典型算法是Page Rank算法,Page Rank是由Larry Page和Sergey Brin提出來的一種根據(jù)網(wǎng)頁之間相互的鏈接關(guān)系計(jì)算網(wǎng)頁排名的技術(shù)。通過對網(wǎng)頁抓取技術(shù)獲取相關(guān)數(shù)據(jù),其主要技術(shù)方法都是將來源網(wǎng)站的網(wǎng)頁解析成樹,在樹的基礎(chǔ)上,再利用網(wǎng)頁結(jié)構(gòu)信息或視覺信息從中提取出網(wǎng)頁正文內(nèi)容。如Zhang Cheng等[26]構(gòu)建了基于DOM樹結(jié)構(gòu)匹配和視覺一致性的新聞信息構(gòu)造的算法;王俊峰[27]又改進(jìn)提出了結(jié)合結(jié)構(gòu)一致性和視覺一致性的新聞提取算法?;陉P(guān)鍵詞匹配的網(wǎng)頁抓取技術(shù)也有較為廣泛的研究,如Cai Xinbao等[28]提出基于網(wǎng)頁關(guān)鍵詞的主題相關(guān)性爬蟲技術(shù)。Zhao Xu等[29]用語義本體代替?zhèn)鹘y(tǒng)關(guān)鍵詞庫,通過本體中詞匯的層次關(guān)系計(jì)算網(wǎng)頁的主題相關(guān)度。陸玉昌等[30]基于網(wǎng)頁詞匯共同分布進(jìn)行了相關(guān)研究。Bollegala等[31]通過統(tǒng)計(jì)淺層關(guān)鍵詞和語義分析技術(shù),估計(jì)詞匯間語義相似度和詞匯共現(xiàn)頻率,但此方法缺陷在于沒有考慮外圍語義成分及語義結(jié)構(gòu)。隨著研究的深入,學(xué)者們在選取文檔特征碼中也逐漸兼顧詞語的語義信息,Chowdhury等[32]提出有選擇性地挑選詞語來生成文檔特征碼的策略;Theobald等[33]提出Spot Sigs算法,按特定規(guī)律提取網(wǎng)頁特征值;Andoni等[34]根據(jù)內(nèi)容相似度提出的局部敏感哈希(locality sensitive Hashing,LSH)算法;黃承慧等[35]提出按倒排序生成文檔特征碼的算法。
上述研究雖然在文本抓取和語義分析上取得了一定的成功,但目前針對食品安全事件的大數(shù)據(jù)研究方法尚不足以達(dá)到精準(zhǔn)監(jiān)管與預(yù)警的作用。長期以來,中國食品安全風(fēng)險(xiǎn)與由此誘發(fā)產(chǎn)生的食品安全事件歷史數(shù)據(jù)非常匱乏,而網(wǎng)絡(luò)媒體所報(bào)道并形成的食品安全事件大數(shù)據(jù)并沒有為人們所綜合利用。因此,對于網(wǎng)絡(luò)媒體對中國食品安全事件的研究,迫切需要基于大數(shù)據(jù)技術(shù),從食品安全事件的食品種類、事件在食品供應(yīng)鏈環(huán)節(jié)上的分布、誘發(fā)事件發(fā)生的風(fēng)險(xiǎn)因子、事件的空間分布等各個(gè)方面來研究食品安全事件的演化規(guī)律,科學(xué)闡述食品安全事件的基本特征與發(fā)生機(jī)理。針對上述問題,本文全面分析了食品安全事件的基本特征,對食品安全事件關(guān)鍵詞進(jìn)行有序語義重構(gòu),構(gòu)建了食品安全事件的多層多級語義模板,通過比較不同食品安全事件與語義模板的相似度,得到食品安全事件多層多級語義結(jié)構(gòu)排序策略(strategy of multi-layer and multi-level semantic structure of rank,MMSS-Rank)算法。
食品安全事件的報(bào)道應(yīng)該包含的信息量很多,包括事件發(fā)生的區(qū)域、食品安全事件的類型以及危害程度等。為了更加準(zhǔn)確描述一個(gè)食品安全事件的語義模板,做出如下定義:
定義1:設(shè)YRi是描述某一個(gè)食品安全事件Ri的一個(gè)詞語,稱YRi為語義關(guān)系詞語。
定義2:YRi是語義關(guān)系詞語;YR={YR1,YR2,...,YRn}為所有食品安全事件Ri的語義關(guān)系關(guān)鍵詞集合。
定義3:滿足食品安全事件條件下兩個(gè)關(guān)鍵詞YRi、YRj之間存在一動(dòng)詞DRij,且YRj后 為 名 詞mRij, 則 稱YRi、DRij、YRj、mRij4 個(gè)詞組成一個(gè)語義結(jié)構(gòu)體。
定義4:對語義結(jié)構(gòu)體中的各個(gè)關(guān)鍵詞YR={YR1,YR2,...,YRn}進(jìn)行有序重構(gòu),次關(guān)鍵詞為DRij,mRij可以描述關(guān)鍵詞YRi、YRj間的語義關(guān)系,則稱<YRi,DRij,YRj,mRij>為滿足食品安全事件Ri的標(biāo)準(zhǔn)語義模板。
示例:2016年5月26日新華社報(bào)道:??谄偏@一起特大銷售假冒白酒案。由定義4可知,<海口, 報(bào)道, 白酒,假冒>對應(yīng)<YRi,DRij,YRj,mRij>是滿足食品安全事件的語義模板。
食品安全數(shù)據(jù)經(jīng)過去重、清洗等預(yù)處理后,轉(zhuǎn)化為非結(jié)構(gòu)化的文本數(shù)據(jù),用分詞技術(shù)和詞頻統(tǒng)計(jì)方法將文本轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式。針對食品安全事件的語義特征,語義關(guān)鍵詞出現(xiàn)在文本的位置不同,所起到的作用就不同,按文本結(jié)構(gòu)可分為3 層:第一層是標(biāo)題層,如標(biāo)題、小標(biāo)題等,已初步表達(dá)文本的主題概念,若食品安全事件的語義結(jié)構(gòu)完整地出現(xiàn)在標(biāo)題層,該文本數(shù)據(jù)被識別為食品安全事件作用明顯;第二層是段落層,食品安全事件在不同段落中表達(dá)的語義結(jié)構(gòu)體的內(nèi)容較為完整,其作用與段落數(shù)、段落長度有關(guān);第三層是關(guān)鍵詞層,對于食品安全事件而言,包括食品種類、供應(yīng)鏈環(huán)節(jié)、風(fēng)險(xiǎn)因子、空間分布等語義關(guān)系中的關(guān)鍵詞,且與關(guān)鍵詞的詞頻、關(guān)鍵詞出現(xiàn)的位置、詞長等屬性有關(guān)。通過對食品安全數(shù)據(jù)的文本進(jìn)行結(jié)構(gòu)化分析,對文本數(shù)據(jù)進(jìn)行抽象處理,進(jìn)而建立描述食品安全事件的數(shù)學(xué)模型,通過對模型計(jì)算,實(shí)現(xiàn)計(jì)算機(jī)對大規(guī)模文本的挖掘和識別。
在主流媒體新聞報(bào)道中描述詳盡的食品安全事件應(yīng)該包含空間分布、食品種類、供應(yīng)鏈環(huán)節(jié)、風(fēng)險(xiǎn)因子等信息,空間分布以省、直轄市、自治區(qū)為父類,下轄地級市為子類。食品安全事件中食品種類分類方法按照食品生產(chǎn)許可管理辦法(征求意見稿)分類,共計(jì)32 類,見表1。食品安全事件的風(fēng)險(xiǎn)因子主要是指潛在損壞或危機(jī)食品安全和質(zhì)量的因素,這些因素包括生物性、化學(xué)性和物理性,以及人的行為不當(dāng)、制度性等因素,包括生產(chǎn)經(jīng)營者因素、信息不對稱性因素、消費(fèi)者因素、政府規(guī)制性因素等,食品安全的風(fēng)險(xiǎn)因子詞庫見表2。根據(jù)定義4和文本數(shù)據(jù)中語義結(jié)構(gòu)信息量,定義食品安全事件的一、二、三、四級語義模板,見表3。通過分詞技術(shù)獲得食品安全文本數(shù)據(jù)中的結(jié)構(gòu)和語義信息,遍歷結(jié)構(gòu)化的文本數(shù)據(jù),計(jì)算文本數(shù)據(jù)信息與食品安全事件語義模板的匹配度,可以有效提高語義分析處理粒度,從而降低語義分析處理的規(guī)模,同時(shí)也有助于將無規(guī)則的數(shù)據(jù)信息轉(zhuǎn)化為標(biāo)準(zhǔn)化數(shù)據(jù)。
表1 食品安全事件的信息分類Table 1 Classification of information about food safety incidents
表2 食品安全事件風(fēng)險(xiǎn)因子Table 2 Risk factors for food safety incidents
表3 食品安全事件的多級語義模板Table 3 Multi-level semantic template of food safety incidents
選擇合適的網(wǎng)絡(luò)媒體作為食品安全事件的來源網(wǎng)站,在確保所抓取數(shù)據(jù)來源真實(shí)可靠的基礎(chǔ)上實(shí)現(xiàn)去重和清洗;利用分詞技術(shù)提取數(shù)據(jù)中關(guān)鍵詞的位置、詞頻、總字?jǐn)?shù)等內(nèi)容信息,并識別標(biāo)題、首段、尾段等位置信息,根據(jù)數(shù)據(jù)的語義結(jié)構(gòu)體在文本分層結(jié)構(gòu)的位置,進(jìn)一步與多層多級語義模板進(jìn)行相似度計(jì)算,由相似度得分對文本數(shù)據(jù)進(jìn)行排序,選擇適當(dāng)閾值判別并輸出食品安全事件的精度,MMSS-Rank算法流程圖如圖1所示。
圖1 基于多層多級語義模板相似度的網(wǎng)頁排序框架Fig.1 Web page ranking framework based on multi-layer, multi-level semantic template similarity
首先將抓取的文本數(shù)據(jù)集合進(jìn)行預(yù)處理,轉(zhuǎn)化為文本數(shù)據(jù),利用分詞技術(shù)確定文本數(shù)據(jù)中關(guān)鍵詞的位置,然后計(jì)算與多層多級語義模板的相似程度,其相似度計(jì)算如式(1)所示。
式中:P1×m=(p1,p2,...,pm)表示語義結(jié)構(gòu)體在文本中不同結(jié)構(gòu)位置的權(quán)重;Wn×1=(w1,w2,...,wn)表示不同級別語義模板的權(quán)重;Simij表示食品安全事件語義結(jié)構(gòu)體與第i個(gè)語義模板和第j個(gè)文本層次的關(guān)鍵詞密度,i=1,...,m,j=1,...,n。
將抓取的文本數(shù)據(jù)按PValue(P,S,W)數(shù)值由大到小排列,并選擇適當(dāng)?shù)拈撝递敵鑫谋緮?shù)據(jù)。關(guān)鍵詞密度計(jì)算如式(2)所示。
式中:a為描述食品安全事件語義結(jié)構(gòu)體的關(guān)鍵詞集合;b為抓取的文本集合;vak為文本集合a中關(guān)鍵詞k對食品安全的重要程度;vbk為文本集合b中關(guān)鍵詞k對食品安全的重要程度。vak和vbk均采用式(3)計(jì)算,以vak為例。
式中:tf(ak,b)為文本集合a關(guān)鍵詞k在文本集合b中出現(xiàn)的頻率;為關(guān)鍵詞i在文本集合b中出現(xiàn)的總數(shù);N為文本集合中字?jǐn)?shù);nk為文本集合a關(guān)鍵詞k出現(xiàn)的所有文檔數(shù)。
根據(jù)上述描述,設(shè)計(jì)MMSS-Rank算法,步驟如下:
輸入:數(shù)據(jù)D={title, content},文本層次權(quán)重P(簡稱層權(quán)重,共3 層權(quán)重),語義模板權(quán)重W(簡稱級權(quán)重,共4 級權(quán)重),文本層次級別數(shù)量m,語義模板級別數(shù)量n
輸出:文本數(shù)據(jù)得分Score
1.根據(jù)系統(tǒng)設(shè)定的語義模版(地區(qū)行為學(xué)術(shù)標(biāo)簽風(fēng)險(xiǎn)標(biāo)簽)對文章進(jìn)行分詞和統(tǒng)計(jì)處理,得到文章字符數(shù)量、關(guān)鍵詞列表和分段信息(區(qū)分是標(biāo)題還是正文),關(guān)鍵詞需要包含所在段落、所在段落中的排序和類型
2.keywordMap=[關(guān)鍵詞: 密度值(關(guān)鍵詞字?jǐn)?shù)/全文關(guān)鍵詞總字?jǐn)?shù))]
3.根據(jù)關(guān)鍵詞和分段信息,采用最短路徑和系統(tǒng)設(shè)定的語義模版組合各段落語義,劃分標(biāo)題語義列表、同段落語義列表、不同段落語義列表,每個(gè)語義需要含有(語義內(nèi)容、語義關(guān)鍵詞密度之和、語義級別(1級(4 類信息)、2級(3 類信息)、3級(2 類信息)、4級(1 類信息)、語義層次(1標(biāo)題、2同段、3不同段))
取分段語義列表
標(biāo)題中的語義計(jì)入標(biāo)題語義列表中
正文段落區(qū)分同段語義列表和不同段語義列表,默認(rèn)同段是第一段,判斷各段落中語義級別最高且語義中各類關(guān)鍵詞之和最大的段落作為本文同段
sameNum=1;
for all段落do
if段落語義級別最高且語義中各類關(guān)鍵詞之和最大 then
sameNum=;
end if
end for
for all段落do
if段落Num == sameNum then
sameList=[段落語義]
else
differList=[段落語義]
end if
end for
4.文章語義關(guān)鍵詞密度矩陣Cij=[0],同一層次將相同級別語義的關(guān)鍵詞密度和相加后除以個(gè)數(shù)
for all m do
i按照標(biāo)題、同段、不同段的順序取出各層級語義列表
for all n do
if語義級別為jthen
cij=其中a為該文本層次語義集合,vk為語義k的關(guān)鍵詞密度,n為a集合的個(gè)數(shù);
end if
end for
end for
5.更加公式計(jì)算得分:Score=P×(Cmn×WT)
6.return Score
輸出:Score
得分的高低進(jìn)行排列,輸出檢索網(wǎng)頁的重要程度,按得分?jǐn)?shù)值高低進(jìn)行排序。
為說明MMSS-Rank算法,以單獨(dú)一段的文本數(shù)據(jù)為例,計(jì)算過程如下:
標(biāo)題:抽檢嘉興市嘉利、五福奶糖存在多批次不合格
正文:近日,嘉興市工商行政管理局公布2019年4季度對海寧市流通環(huán)節(jié)銷售的部分奶糖產(chǎn)品進(jìn)行了質(zhì)量監(jiān)測抽檢。本次監(jiān)測主要對奶糖的衛(wèi)生指標(biāo)(如菌落總數(shù)、大腸菌群等)以及酸價(jià)、過氧化值、苯甲酸或山梨酸、蘇丹紅等項(xiàng)目進(jìn)行了檢測。監(jiān)測結(jié)果顯示,奶糖內(nèi)在質(zhì)量較好,個(gè)別產(chǎn)品存在甜蜜素、還原糖等指標(biāo)不符合國家有關(guān)標(biāo)準(zhǔn)要求的問題。此次抽查49 批次產(chǎn)品,其中2 批次不合格。晉江市嘉利食品有限公司生產(chǎn)的五福多彩軟飴,糖精鈉、甜蜜素不合格,海寧市嘉利食品廠生產(chǎn)的五福酥糖(裹皮型),還原糖不合格。
計(jì)算過程:
1.從文章中提取關(guān)鍵詞
keywordList:奶糖(4), 嘉興(2), 公布(1),海寧(2)
2.計(jì)算提取的關(guān)鍵詞分?jǐn)?shù)
keywordMap:奶糖(2*4/254=0.0315), 嘉興(2*2/254=0.01575), 公布(2*1/254=0.00787), 海寧(2*2/254=0.01575)
3.計(jì)算出標(biāo)題、同段和異段中語義的分?jǐn)?shù)
標(biāo)題:{"2":[{"density":"0.04725","content":"海寧奶糖"}]};
同段:{"2":[{"density":"0.02362","content":"嘉興公布"},{"density":"0.04725","content":"嘉興奶糖"}],"1":[{"density":"0.0315","content":"奶糖"},{"density":"0.0315","content":"奶糖"},{"density":"0.01575","content":"海寧"}]};異段:{};
4.計(jì)算文章語義關(guān)鍵詞密度矩陣
cmn=[ [0, 0, 0.04725, 0],[0, 0, 0.035435, 0],[0, 0, 0, 0]]
5.得出分?jǐn)?shù):score=[5, 3, 1]*(cmn*[[10][8][5][1]])=[5, 3, 1]* [ [0.23625][0.177157][0]]=1.7127
4.1.1 數(shù)據(jù)準(zhǔn)備
目前,針對國內(nèi)外還沒有關(guān)于食品安全事件的大規(guī)模數(shù)據(jù)作為公共測試集,因此,本文選擇中國食品報(bào)網(wǎng)、中國食品監(jiān)督網(wǎng)、食品安全快速檢測網(wǎng)、39健康網(wǎng)、中國食品科技網(wǎng)、中國質(zhì)量新聞網(wǎng)、浙江消費(fèi)維權(quán)網(wǎng)、第一食品網(wǎng)、山東美食網(wǎng)、FT中文網(wǎng)、四川新聞網(wǎng)、東方網(wǎng)、光明網(wǎng)(食品頻道)等58 家主流網(wǎng)站的食品版塊,從2009—2019年間的720 000 條相關(guān)報(bào)道數(shù)據(jù)中通過科學(xué)地抓取、去重和清洗得到的數(shù)據(jù)作為實(shí)驗(yàn)文本數(shù)據(jù)。再借助分詞技術(shù)對食品安全文本數(shù)據(jù)進(jìn)行分詞,通過對文本數(shù)據(jù)的語義分析、關(guān)鍵詞識別、結(jié)構(gòu)化分解、分層化標(biāo)注等預(yù)處理,進(jìn)一步得到不同文本數(shù)據(jù)的結(jié)構(gòu)化信息。其中語義分析工具使用了哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心研發(fā)的“語言技術(shù)平臺(tái)”,該平臺(tái)提供包括中文分詞、詞性標(biāo)注、命名實(shí)體識別、依存句法分析、語義角色標(biāo)注等豐富、高效、精準(zhǔn)的自然語言處理技術(shù)。少量食品安全事件特定的目標(biāo)詞識別和結(jié)構(gòu)工作是通過人工進(jìn)行標(biāo)注及矯正。
4.1.2 評價(jià)指標(biāo)
本文中MMSS-Rank算法的測試效果采用判別食品安全事件準(zhǔn)確率來評價(jià),具體做法為:從實(shí)驗(yàn)文本數(shù)據(jù)中隨機(jī)抽取N條數(shù)據(jù),通過人工判別是否為食品安全事件,標(biāo)記為labeli,i=1, 2,...,N,當(dāng)labeli=1時(shí)表示文本數(shù)據(jù)是食品安全事件,當(dāng)labeli=0時(shí)表示文本數(shù)據(jù)不是食品安全事件;再從標(biāo)注清楚的數(shù)據(jù)集中隨機(jī)選取N1條文本數(shù)據(jù)作為訓(xùn)練集,剩余N-N1條作為測試集。設(shè)定不同層、級和閾值參數(shù),按本文提出的語義模板相似度算法計(jì)算訓(xùn)練集中每一條文本數(shù)據(jù)的得分,將訓(xùn)練集中所有文本數(shù)據(jù)按分值由大到小排列,得到分值大于和等于閾值α的N2(N2≥N1)條文本數(shù)據(jù),并定義此時(shí)的判別準(zhǔn)確率P和召回率J。
在食品安全事件準(zhǔn)確率最優(yōu)的條件下,得到層、級和閾值權(quán)重參數(shù),在N2個(gè)文本數(shù)據(jù)中,得分大于和等于閾值α的文本中的確是食品安全事件的所占比例為P,P用于測試算法的判別準(zhǔn)確率。
在N個(gè)文本數(shù)據(jù)中,得分大于和等于閾值α的文本占全部文本數(shù)據(jù)的比例為J,J用于測試算法的召回率。
4.1.3 對比算法及參數(shù)設(shè)置
為了驗(yàn)證文本所提MMSS-Rank算法的有效性,基于標(biāo)準(zhǔn)測試數(shù)據(jù)集,用不同方法進(jìn)行性能評估,實(shí)驗(yàn)部分采用如下比較算法:1)傳統(tǒng)的機(jī)器學(xué)習(xí)方法支持向量機(jī)(support vector machine,v-SVM),通過訓(xùn)練和測試已有的數(shù)據(jù),得到較好的訓(xùn)練參數(shù)用于對新數(shù)據(jù)類別判別;2)基于主題的網(wǎng)頁排序算法T-rank。v-SVM采用LibSVM參數(shù),選擇程序包的默認(rèn)設(shè)置;基于主題Page-rank算法設(shè)置參數(shù)。MMSS-Rank算法有結(jié)構(gòu)層、語義模板和閾值權(quán)重,因此,設(shè)置不同參數(shù)來研究結(jié)構(gòu)層、語義模板和閾值權(quán)重系數(shù)的影響,見表4。
表4 MMSS-Rank權(quán)重算法參數(shù)設(shè)置Tale 4 MMSS-Rank parameters
為了說明本算法中不同層級權(quán)重對多層多級語義模板語義影響的差異,首先從第一級開始,依次逐層級權(quán)重取值0.1,其他層級權(quán)重全部取值為[1, 1, 1, 1],來說明改變層級單一權(quán)重對算法影響的情況,計(jì)算結(jié)果如圖2所示;然后將層級權(quán)重全部取值為[1, 1, 1, 1],來對比說明若僅考慮層級中一個(gè)因素取不同權(quán)重時(shí)對MMSS-Rank算法的影響,計(jì)算結(jié)果如圖3所示。
從圖2可以看出,在MMSS-Rank算法中僅改變層級中單一權(quán)重,或者層級權(quán)重相近時(shí),準(zhǔn)確率和召回率沒有顯著變化,說明對于MMSS-Rank算法若不考慮數(shù)據(jù)的文本位置信息和語義結(jié)構(gòu)特征,由于對食品安全事件缺少比較完整的描述,因此,對于數(shù)據(jù)挖掘的準(zhǔn)確率和召回率較低,說明對于MMSS-Rank語義分析算法而言,用不同權(quán)重系數(shù)反映層級間的重要程度是必要的。
圖2 改變層級單一權(quán)重的準(zhǔn)確率和召回率曲線Fig.2 Accuracy and recall rate curves determined by changing a single layer and level weight
圖3 單層和單級權(quán)重準(zhǔn)確率和召回率曲線Fig.3 Accuracy and recall rate curves of single layer and single level weights
從圖3A可以看出,將MMSS-Rank算法中的級權(quán)重相同時(shí),層權(quán)重越小準(zhǔn)確率上升越快,召回率下降越快;從圖3B可以看出,層權(quán)重相同時(shí),級權(quán)重越小準(zhǔn)確率上升越快,召回率下降越快。同時(shí),準(zhǔn)確率都隨著閾值的增加而增加,召回率隨閾值增加而減小。當(dāng)閾值足夠大時(shí),準(zhǔn)確率可以達(dá)到100%,召回率趨近于0。進(jìn)一步說明通過適當(dāng)層級權(quán)重可以反映數(shù)據(jù)結(jié)構(gòu)關(guān)系和語義特征,進(jìn)一步提升MMSS-Rank算法的精度。
為了更直觀說明不同層級權(quán)重系數(shù)對準(zhǔn)確率和召回率的影響,使用表4中已設(shè)定的參數(shù)對測試集進(jìn)行評分測試,計(jì)算結(jié)果如表5所示。取準(zhǔn)確率80%,當(dāng)層權(quán)重參數(shù)為[1, 0.5, 0.1]和級權(quán)重參數(shù)為[10, 3, 1, 0.5]時(shí),閾值經(jīng)計(jì)算可得0.092 555,此時(shí)召回率達(dá)到68.24%;將層級參數(shù)設(shè)置為[1 000, 100, 10]和[1 000, 100, 10, 1]時(shí),閾值取值較大且準(zhǔn)確率有所下降。
表5 不同準(zhǔn)確率下不同參數(shù)的召回率與閾值Table 5 Recall rates and threshold values of different parameters showing different accuracies
圖4 層和級權(quán)重不同時(shí)準(zhǔn)確率和召回率曲線Fig.4 Accuracy and recall rate curves for different layer and level weights
從圖4A~D可以看出,在MMSS-Rank算法中當(dāng)權(quán)重逐漸增大時(shí),層數(shù)降低,層數(shù)越小,準(zhǔn)確率和召回率均快速上升,這表明在MMSS-Rank算法中層權(quán)重的重要性高于級權(quán)系數(shù),尤其是在標(biāo)題結(jié)構(gòu)和食品安全事件數(shù)據(jù)的一級語義結(jié)構(gòu)基本可以描述食品安全事件數(shù)據(jù)的結(jié)構(gòu)關(guān)系和語義特征時(shí)。因此,層權(quán)重重要性高于級權(quán)重。
在MMSS-Rank算法中,顯著增加食品安全數(shù)據(jù)層權(quán)系數(shù)時(shí),準(zhǔn)確率和召回率變化情況如圖4E所示,MMSS-Rank算法不僅兼顧文本位置信息,還融入了語義結(jié)構(gòu)特征,因此能夠完全描述一個(gè)食品安全事件,較好地克服了僅使用文本關(guān)鍵字來表達(dá)的句子語義信息的限制。
本部分實(shí)驗(yàn)選擇v-SVM算法、T-rank算法對食品安全文本數(shù)據(jù)集進(jìn)行判別,并與本文提出的MMSS-Rank算法進(jìn)行性能比較,使用平均值作為算法對應(yīng)的準(zhǔn)確率,選擇從2007—2018年主流媒體報(bào)道中食品安全事件發(fā)生較多的3 種食品類型進(jìn)行對比實(shí)驗(yàn),得出v-SVM、T-rank和MMSS-Rank 3 種算法對食品安全數(shù)據(jù)判別準(zhǔn)確率,如表6所示。
表6 三類食品安全事件判別準(zhǔn)確率Table 6 Accuracy in discriminating FSI-related data
由表6可知,對于食品安全事件數(shù)據(jù),相比之下,傳統(tǒng)v-SVM方法的準(zhǔn)確率均遜于其他方法,說明傳統(tǒng)的分類學(xué)習(xí)方法處理文本數(shù)據(jù)時(shí),僅通過提取文本詞頻、句長等信息,無法全面獲取食品安全事件語義信息;基于主題的網(wǎng)頁排序算法T-rank雖然對食品安全事件主題內(nèi)容進(jìn)行分割,能夠在一定程度上避免v-SVM抽取方法的局限,但是由于食品安全事件具有時(shí)空特性,T-rank算法不考慮事件結(jié)構(gòu)信息,特別是忽略食品安全事件語義特征,因而準(zhǔn)確性不高。MMSS-Rank算法在充分考慮食品安全事件數(shù)據(jù)結(jié)構(gòu)信息的基礎(chǔ)上,又兼顧了食品安全事件發(fā)生地點(diǎn)、時(shí)間和環(huán)節(jié)等語義信息,通過與標(biāo)準(zhǔn)食品安全事件的語義模板進(jìn)行相似度比對,從而較好地實(shí)現(xiàn)文本數(shù)據(jù)語義分析;因此,MMSS-Rank算法在肉制品、乳及乳制品上判別準(zhǔn)確率明顯優(yōu)于其他兩種方法。
本文提出的MMSS-Rank算法不僅能夠高效提取不同食品安全事件的語義結(jié)構(gòu)信息,還通過計(jì)算不同事件與語義模板間相似度,實(shí)現(xiàn)食品安全事件排序。實(shí)驗(yàn)結(jié)果表明,MMSS-Rank算法對食品安全事件的判別具有較好的準(zhǔn)確性和高效性。較之于現(xiàn)有的相關(guān)方法,該算法的特色之處在于:1)從食品安全事件的食品種類、供應(yīng)鏈環(huán)節(jié)、風(fēng)險(xiǎn)因子、空間分布等特征,全面梳理食品安全事件的關(guān)鍵詞,構(gòu)建食品安全事件多層多級標(biāo)準(zhǔn)語義模板。2)將主流來源網(wǎng)站數(shù)據(jù)清洗后,算法分別從橫向和縱向提取食品安全數(shù)據(jù)的語義結(jié)構(gòu)信息,粒度更小。3)創(chuàng)新地融合食品安全數(shù)據(jù)的分層結(jié)構(gòu)信息和語義特征,實(shí)現(xiàn)在食品供應(yīng)鏈環(huán)節(jié)上,應(yīng)用大數(shù)據(jù)挖掘技術(shù)研究食品安全事件的演化規(guī)律。
利用MMSS-Rank算法開發(fā)的中國食品安全事件大數(shù)據(jù)分析平臺(tái),不僅可以分析食品安全風(fēng)險(xiǎn)產(chǎn)生的動(dòng)因和傳播方式,還可以基于信息收集、分析評估、預(yù)警預(yù)報(bào)、預(yù)案實(shí)施、效果評價(jià)等制定相應(yīng)的措施,探索覆蓋食品供應(yīng)鏈全程動(dòng)態(tài)安全預(yù)警系統(tǒng),以及研究中國食品安全事件的空間分布特點(diǎn)和變化趨勢。
在實(shí)驗(yàn)過程中,由于不同網(wǎng)站報(bào)道形式和內(nèi)容表述的差異,特別是結(jié)構(gòu)松散的食品安全事件文本數(shù)據(jù)、關(guān)鍵詞抽取、分詞、切詞等問題不準(zhǔn)確,直接影響了算法精度,這是本算法本身設(shè)計(jì)特點(diǎn)所決定的。對于未來的工作,可以從下面幾個(gè)方面考慮:1)結(jié)合食品安全事件特點(diǎn),需要尋找一種新的語義模板間相似度的計(jì)算方法。另外對于特殊食品安全數(shù)據(jù)和文本,如單句、單段或多關(guān)鍵詞交叉,尋找一種高效率、高準(zhǔn)確率的食品安全關(guān)鍵詞和句抽取方法至關(guān)重要。2)食品安全事件關(guān)鍵詞切詞、分詞方法也有待改進(jìn),本文事先將食品安全事件新聞報(bào)道中的關(guān)鍵事先設(shè)定好,但隨著新聞報(bào)道和事件的變化,關(guān)鍵詞會(huì)不斷變化,因此需要開發(fā)一種動(dòng)態(tài)的優(yōu)化機(jī)制,提升食品安全事件語義分析的準(zhǔn)確率。