国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)為安全生產(chǎn)保駕護航

2018-02-08 16:25張洪福
中國傳媒科技 2018年2期

文/張洪福

引言

所謂安全生產(chǎn),是指在生產(chǎn)經(jīng)營活動中,為了避免造成人員傷害和財產(chǎn)損失的事故而采取相應(yīng)的事故預(yù)防和控制措施,使生產(chǎn)過程在符合規(guī)定的條件下進行,以保證從業(yè)人員的人身安全與健康,設(shè)備和設(shè)施免受損壞,環(huán)境免遭破壞,保證生產(chǎn)經(jīng)營活動得以順利進行的相關(guān)活動。最近幾年,許多生產(chǎn)企業(yè)將大數(shù)據(jù)應(yīng)用到自身的經(jīng)營管理之中,重視大數(shù)據(jù)在安全生產(chǎn)中的應(yīng)用價值。

1.大數(shù)據(jù)對安全生產(chǎn)的影響

《中國安全生產(chǎn)報》2001年10月11日創(chuàng)刊,是國內(nèi)安全生產(chǎn)領(lǐng)域唯一綜合性報紙,是傳遞黨中央、國務(wù)院、國家安全生產(chǎn)監(jiān)督管理局、各行業(yè)主管部門、各地方政府對安全生產(chǎn)工作各個階段工作部署的重要媒介;是安全生產(chǎn)專業(yè)信息咨詢和交流的權(quán)威平臺和安全生產(chǎn)理論探尋、安全文化建設(shè)的主陣地;是各級安監(jiān)干部工作的良師益友。作為安全生產(chǎn)領(lǐng)域權(quán)威主流媒體有著深遠的影響力,能夠匯聚行業(yè)內(nèi)的各種數(shù)據(jù)資源,數(shù)據(jù)資源包括:各地記者站稿件、民眾投稿、專家約稿、企業(yè)安全生產(chǎn)數(shù)據(jù)、政府安全監(jiān)管數(shù)據(jù)、調(diào)查報告、安全生產(chǎn)相關(guān)法律知識、安全生產(chǎn)管理知識、安全生產(chǎn)技術(shù)等。作為大數(shù)據(jù)而言,除了內(nèi)部數(shù)據(jù)積累,還應(yīng)充分利用互聯(lián)網(wǎng)數(shù)據(jù),結(jié)合大數(shù)據(jù)手段對安全生產(chǎn)領(lǐng)域信息快速抓取和分析。完善生產(chǎn)中的數(shù)據(jù)與資料,從大數(shù)據(jù)中不斷探索其中規(guī)律。

同時,2015年4月2日,國務(wù)院辦公廳印發(fā)《國務(wù)院辦公廳關(guān)于加強安全生產(chǎn)監(jiān)管執(zhí)法的通知》,通知指出,要大力提升安全生產(chǎn)“大數(shù)據(jù)”利用能力,加強安全生產(chǎn)周期性、關(guān)聯(lián)性等特征分析,做到檢索查詢即時便捷、歸納分析系統(tǒng)科學(xué),實現(xiàn)來源可查、去向可追、責(zé)任可究、規(guī)律可循。中國安全生產(chǎn)報社發(fā)揮自身優(yōu)勢,利用大數(shù)據(jù)技術(shù)開展安全生產(chǎn)工作,應(yīng)用價值在多個方面都能夠有所體現(xiàn)。首先是對安全生產(chǎn)領(lǐng)域監(jiān)察的敏感性強,分析基礎(chǔ)數(shù)據(jù)可知哪些安全生產(chǎn)行業(yè)或某個安全生產(chǎn)行業(yè)哪個環(huán)節(jié)易發(fā)生安全問題。其次是有利于安全生產(chǎn)領(lǐng)域相關(guān)政策制定。中國安全生產(chǎn)報社擁有大量的數(shù)據(jù)支撐,對基礎(chǔ)數(shù)據(jù)內(nèi)容進行分析,便于對多因素影響下事態(tài)的發(fā)展以及在趨勢方式下制定最適宜的安全舉措。最后是有利于整個安全生產(chǎn)領(lǐng)域的管理推進和實施。中國安全生產(chǎn)報社經(jīng)過有效處理海量的基礎(chǔ)性數(shù)據(jù),對如何安全管理已有系統(tǒng)性的研究。

2.基于大數(shù)據(jù)助力安全生產(chǎn)

2.1 大數(shù)據(jù)積累:準確、全面地收集數(shù)據(jù)是大數(shù)據(jù)的基礎(chǔ)

首先要充分利用已有數(shù)據(jù)。包括:各地記者站稿件、民眾投稿、專家約稿、企業(yè)安全生產(chǎn)數(shù)據(jù)、政府安全監(jiān)管數(shù)據(jù)、調(diào)查報告、安全生產(chǎn)相關(guān)法律知識、安全生產(chǎn)管理知識、安全生產(chǎn)技術(shù)等。

其次是充分利用互聯(lián)網(wǎng)數(shù)據(jù)。隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)出一定的“異構(gòu)”特點。網(wǎng)絡(luò)信息仍以HTTP為網(wǎng)絡(luò)傳輸協(xié)議,以HTML為展示格式,但隨著互聯(lián)網(wǎng)社區(qū)化的發(fā)展和Web 2.0的崛起,網(wǎng)頁所蘊含的內(nèi)容發(fā)生了深刻的變化。原來以網(wǎng)站/網(wǎng)頁內(nèi)容為主導(dǎo)的互聯(lián)網(wǎng),逐漸演變?yōu)榫W(wǎng)站、論壇(社區(qū))、博客、微博等信息共存的局面。微信、論壇、博客、微博上蘊含的大量信息已經(jīng)成為互聯(lián)網(wǎng)上重要的信息組成部分。網(wǎng)民們可以在這些自媒體平臺隨時隨地發(fā)表他們所見所聞的安全生產(chǎn)事件或?qū)δ硞€安全生產(chǎn)事件的態(tài)度看法等。這些自媒體平臺互動性強,信息傳播快,儼然成為一個輿論放大器。而且對安全生產(chǎn)領(lǐng)域來說,論壇、微博、微信上的信息比普通網(wǎng)站上的信息具有更重要的使用價值。安全生產(chǎn)事故,如燃氣爆炸、坍塌事故、火災(zāi)、沉船、重大車禍等信息,都是通過論壇、微博、微信等渠道第一時間傳播的。另外,一些安全生產(chǎn)隱患,如煤氣泄漏、安全漏洞、火災(zāi)隱患等,網(wǎng)民可以通過互動的形式告知安監(jiān)總局、安全生產(chǎn)報社等單位,在事故發(fā)生之前及時處理,減少人民生命財產(chǎn)損失,具有重大意義。

安全生產(chǎn)大數(shù)據(jù)的要求是對互聯(lián)網(wǎng)上的有效信息進行采集和利用,但目前的數(shù)據(jù)采集技術(shù)主要是面向網(wǎng)站和網(wǎng)頁的收集和采集,不能有效解決論壇(社區(qū))、博客、微博、微博的采集和更新問題。對于安全生產(chǎn)大數(shù)據(jù)來說,最終建設(shè)的應(yīng)該是全面的信息收集機制,有效信息遍布于論壇、博客、微博、微信等載體上。針對安全生產(chǎn)行業(yè)特點和業(yè)務(wù)領(lǐng)域,選擇神華集團、中石油、中石化等同類企業(yè)或同行企業(yè)的安全生產(chǎn)事件進行素材的收集(如央國企新聞發(fā)言稿等),歷年全國各地發(fā)生的安全生產(chǎn)事故信息等。主要包括過往案例、對外宣傳稿、分析報告等,按照事故命名、發(fā)生時間、地點、程度級別、事故類型、傷亡人數(shù)、死亡人數(shù)等屬性特征進行分類,并可設(shè)定相關(guān)報道的媒體范圍,同時采集與事故相關(guān)的互聯(lián)網(wǎng)信息,形成安全生產(chǎn)大數(shù)據(jù)的數(shù)據(jù)支撐。

據(jù)國家安全生產(chǎn)監(jiān)督管理總局官網(wǎng)數(shù)據(jù)顯示,2017年1~7月,全國共發(fā)生各類生產(chǎn)安全事故27478起,死亡19783人。其中,較大事故377起,死亡1442人;重大事故17起,死亡225人,同比增加1起等。及時獲取這些信息,有利于相關(guān)部門了解事件態(tài)勢,盡早合理決策,避免不良影響擴大化。

2.2 自然語言處理:讓機器更懂人類,提高關(guān)聯(lián)性等特征分析

隨著人工智能的大熱,國內(nèi)各大企業(yè)開始紛紛布局人工智能領(lǐng)域,并打造出各種不同的智能終端,比如人工機器人、無人駕駛汽車、智能電視、智能冰箱……這些智能終端有一個共同的特點——不但能讀懂人類語言,還能與人類交流,同時,還能進一步完成人類所下達的指令。

如此神奇的技術(shù)是如何實現(xiàn)的呢?這要歸功于人工智能領(lǐng)域一項核心的處理技術(shù)——NLP。NLP(Natural Language Processing),即自然語言處理,它是研究人與計算機交互的語言問題的一門學(xué)科,也是人工智能一個重要的子領(lǐng)域。簡單來說,NLP是讓機器“理解”人們使用的自然語言結(jié)構(gòu)和意思,將自然語言翻譯為機器語言形式,并加工它(總結(jié)、句法分析等),再返回給用戶自然語言。它涉及很多內(nèi)容和技術(shù),如文本朗讀/語音合成、語音識別、中文自動分詞、詞性標注、句法分析、自然語言生成、文本分類、信息檢索、信息抽取、文字校對、問答系統(tǒng)、機器翻譯、自動摘要、文字蘊涵……

在人工智能發(fā)展之初,NLP技術(shù)就已經(jīng)顯示出巨大的魅力。1949年埃德蒙·伯克利(Edmund Berkeley)在他出版的《Giant Brains Or Machines That Think》一書中曾寫道:“最近出現(xiàn)許多消息,談?wù)摰闹黝}是奇怪的巨型機器處理信息,速度極快,技能很強……這種機器與大腦相似,由硬件和線纜組成,而不是血肉和神經(jīng),機器可以處理信息,可以計算、可以得出結(jié)論,可以選擇,還可以根據(jù)信息執(zhí)行合理操作。總之,這臺機器可以思考?!?/p>

作為人工智能核心技術(shù)之一,自然語言處理技術(shù)越發(fā)受到技術(shù)公司的青睞,在國務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中,自然語言處理技術(shù)被列為關(guān)鍵共性技術(shù)。

先進的技術(shù)需要與行業(yè)進行深度結(jié)合,才能實現(xiàn)更大的價值。自然語言處理技術(shù)可以實現(xiàn)對安全生產(chǎn)大數(shù)據(jù)的分析處理,建立符合行業(yè)特色的安全生產(chǎn)知識庫,包括安全生產(chǎn)案例庫、安全生產(chǎn)口徑庫、關(guān)鍵詞庫、媒體庫及敏感詞庫、專業(yè)領(lǐng)域知識庫等,形成知識的積累。

安全生產(chǎn)案例庫:首先,利用采集的行業(yè)數(shù)據(jù),經(jīng)過自然語言的解析和整理,自動從大規(guī)模行業(yè)語料中挖掘?qū)I(yè)術(shù)語和新詞,快速構(gòu)建行業(yè)詞典,構(gòu)建行業(yè)語料庫。同時,通過多個行業(yè)語料庫的采樣和綜合,構(gòu)建通用語料庫。語料預(yù)處理中對語料分塊,并進行分詞、命名實體識別,然后進行串頻統(tǒng)計、子串歸并操作,再分別通過橫向?qū)Ρ群涂v向遞進的方法進行行業(yè)術(shù)語和行業(yè)短語挖掘??蓪崿F(xiàn)數(shù)據(jù)內(nèi)容過濾,多語種識別和自動轉(zhuǎn)碼、自動分詞、自動分類、自動聚類、自動熱點發(fā)現(xiàn)、相似檢索、文章排重、自動摘要、重點信息抽取等功能。案例庫本著科學(xué)、實用的原則,對每個安全生產(chǎn)事件的特征都進行了全方位的剖析,既包括該事件的發(fā)展演變過程、網(wǎng)上民意演變過程圖表,也包括在事件過程的各個階段中網(wǎng)絡(luò)上各種不同觀點、看法的所占比重和典型觀點的摘編。可按照事故命名、發(fā)生時間、地點、程度級別、事故類型、傷亡人數(shù)、死亡人數(shù)等屬性特征進行分類,并可設(shè)定相關(guān)報道的媒體范圍。業(yè)務(wù)人員可通過安全生產(chǎn)案例庫瀏覽、查詢和下載案例報告,利用過往的應(yīng)對經(jīng)驗,并結(jié)合當(dāng)前實際情況,提高安全生產(chǎn)應(yīng)對處置能力。安全生產(chǎn)案例庫是長期研究、分析互聯(lián)網(wǎng)及行業(yè)數(shù)據(jù)積累下來的寶貴資料,對安全生產(chǎn)的宣傳、調(diào)研、理論、培訓(xùn)等有一定的參考和借鑒價值。

安全生產(chǎn)口徑庫:通過自然語言處理技術(shù),可為安全生產(chǎn)口徑庫提供技術(shù)支撐,收集并分類細分歷年全國發(fā)生的安全生產(chǎn)事故,采集相關(guān)的媒體報道,實現(xiàn)提取涉事人名、地名和機構(gòu)名稱的功能,同時可自動標識是否涉及國務(wù)院、安監(jiān)總局或各地安監(jiān)局,便于分析整理各級監(jiān)管機構(gòu)、涉事企業(yè)及其他相關(guān)部門的處理意見、回應(yīng)的時間節(jié)點、回應(yīng)內(nèi)容、處置方法等。可以及時、全面、準確地掌握各種信息和網(wǎng)絡(luò)動向,從浩瀚的數(shù)據(jù)宇宙中發(fā)掘事件苗頭、歸納輿論觀點傾向、掌握公眾態(tài)度情緒,并結(jié)合歷史類似事件進行趨勢預(yù)測和應(yīng)對建議。建立完善的地區(qū)、機構(gòu)、行業(yè)、社情民意的分類體系,便于進行信息共享、分析處理、信息快速查找,逐步形成圍繞安全生產(chǎn)的口徑知識庫。通過安全生產(chǎn)口徑庫的建設(shè),利于安全生產(chǎn)業(yè)務(wù)人員熟悉掌握政策、口徑、提升自身業(yè)務(wù)素質(zhì),也有利于加強新聞宣傳工作的組織規(guī)范性和整體協(xié)作效率,降低信息搜索成本,提高信息回應(yīng)的針對性、準確性、一致性和及時性。

2.3 智能語義檢索:做到檢索查詢及時便捷

以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,被稱為智能語義檢索。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機器翻譯技術(shù)等,因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征。這種允許網(wǎng)民采用自然語言進行信息檢索,將為他們提供更方便、更確切的搜索服務(wù)。

安全生產(chǎn)行業(yè)搜索利用智能語義檢索,能夠比通用搜索提供更多的行業(yè)相關(guān)查詢方式。行業(yè)搜索應(yīng)提供豐富的查詢手段,包括自動分類、普通檢索、組合檢索、拼音檢索、相關(guān)短語檢索等。智能語義檢索更加人性化,功能也更強,能夠滿足行業(yè)的特殊需求。在搜索應(yīng)用開發(fā)過程中,逐步選擇適合于行業(yè)應(yīng)用的查詢方式。

2.3.1 拼音檢索

拼音檢索的主要功能是提供全拼檢索、簡拼檢索、同音檢索等技術(shù),幫助用戶快速有效地檢索自己所需要的內(nèi)容。

基于串頻統(tǒng)計和上下文的注音技術(shù):在大量拼音語料基礎(chǔ)上,統(tǒng)計漢字串和拼音串的分布規(guī)律等大量有用信息,利用基于上下文的注音算法對多音漢字進行注音,保證了注音的準確性。

同音檢索技術(shù):支持同音檢索、全拼檢索和簡拼檢索,在豐富的拼音語料庫基礎(chǔ)上,對漢字串的分布頻率進行了統(tǒng)計,整理出高頻漢字串和拼音串的對應(yīng)表,在此基礎(chǔ)上,保證用戶輸入的拼音串對應(yīng)的一定是最可能的漢字串。

拼音輸入校正技術(shù):利用拼音詞典和相關(guān)算法實現(xiàn)輸入校正。

2.3.2 相關(guān)短語檢索

相關(guān)短語檢索的主要功能是,在檢索過程中,根據(jù)用戶輸入查詢,提供一組比較常用的相關(guān)查詢供用戶參考,向用戶提供高質(zhì)量的“查詢建議”,方便用戶使用搜索系統(tǒng)。例如,輸入“知識”, 提示“知識管理”“知識在線”“知識經(jīng)濟”等。

3.實現(xiàn)短語檢索的關(guān)鍵

一是相關(guān)短語匹配技術(shù)。如何定義并計算短語的相關(guān)性是個很有挑戰(zhàn)性的問題。相關(guān)短語匹配技術(shù)采用了語義詞典和短語語法結(jié)構(gòu)相結(jié)合的方法,計算短語之間的相關(guān)性,取得了滿意的效果。

二是相關(guān)短語詞典。相關(guān)短語詞典是相關(guān)短語檢索的基礎(chǔ),來源主要有兩部分:一部分是人工整理的短語相關(guān)知識;另一部分是通過數(shù)據(jù)挖掘技術(shù),從搜索引擎查詢?nèi)罩局蝎@取的相關(guān)短語。這樣既保證了詞典的規(guī)模,又保證了詞典的質(zhì)量。新華搜索前期的工作已經(jīng)形成了包含數(shù)十萬條詞條及其相關(guān)短語的短語詞典。

三是高頻查詢詞典。主要來源是在長期積累的檢索日志基礎(chǔ)上,整理并統(tǒng)計用戶在日常檢索中經(jīng)常使用的100多萬個查詢。如果用戶輸入的短語不包含在相關(guān)短語詞典中,則使用相關(guān)短語匹配技術(shù)從高頻查詢詞典中檢索相似短語。

四是人工整理和數(shù)據(jù)挖掘方法結(jié)合構(gòu)造相關(guān)短語詞典。相關(guān)短語詞典的規(guī)模達到百萬級詞條和它們的相關(guān)短語,其來源主要有兩部分:一部分是人工整理的短語相關(guān)知識;另一部分是通過數(shù)據(jù)挖掘技術(shù),從搜索引擎查詢?nèi)罩局蝎@取的相關(guān)短語。這樣既保證了詞典的規(guī)模,又保證了詞典的質(zhì)量。

如何定義并計算短語的相關(guān)性是個很有挑戰(zhàn)性的問題。 實驗證明了采用語義詞典和短語語法結(jié)構(gòu)相結(jié)合的方法,計算短語之間的相關(guān)性,取得了滿意的效果。

3.1 檢索結(jié)果排序

行業(yè)搜索的檢索結(jié)果排序方法是研究的一個重點。通用搜索引擎采用以鏈接分析為主要手段的排序手段,行業(yè)搜索的檢索結(jié)果排序需要綜合考慮網(wǎng)頁內(nèi)容的相關(guān)性(用戶查詢詞與網(wǎng)頁內(nèi)容的相關(guān)度)、網(wǎng)頁自身的重要性(鏈接分析)以及時效性。

3.2 內(nèi)容相關(guān)性:向量空間模型

傳統(tǒng)IR技術(shù)中判斷查詢條件與文檔的內(nèi)容相關(guān)性,最為通用的方法是采用向量空間模型(VSM)進行計算。

安全生產(chǎn)智能語義檢索將綜合運用相關(guān)性排序、網(wǎng)頁權(quán)重、時間權(quán)重等多種排序因素,獲得較優(yōu)的排序結(jié)果,具體排序過程主要基于以下與相關(guān)度相關(guān)的因素進行。

3.3 內(nèi)容相關(guān)度:基于傳統(tǒng)的IR排序算法

比如TF-IDF,VSM,計算查詢條件與網(wǎng)頁的內(nèi)容相關(guān)度。在網(wǎng)頁內(nèi)容方面,標題中的關(guān)鍵詞、黑體的關(guān)鍵詞以及標題中出現(xiàn)的關(guān)鍵詞、網(wǎng)頁外部鏈接的錨文本等,比網(wǎng)頁本身內(nèi)容具有更高的權(quán)重。

文檔權(quán)重:主要基于鏈接分析方法(如PageRank)計算文檔的權(quán)重。

時間權(quán)重:按照網(wǎng)頁發(fā)布時間(如果獲取不到發(fā)布時間則取收錄時間)計算時間權(quán)重。

結(jié)果排序算法的主要流程是,系統(tǒng)依據(jù)內(nèi)容相關(guān)性、文檔權(quán)重、時間權(quán)重,計算獲得排序結(jié)果。

以上大數(shù)據(jù)的基礎(chǔ)、技術(shù)和應(yīng)用為大數(shù)據(jù)在安全生產(chǎn)中的應(yīng)用提供了方向。安全生產(chǎn)基于大數(shù)據(jù)技術(shù)可以做到安全生產(chǎn)檢索查詢即時便捷、歸納分析系統(tǒng)科學(xué)。

通過對安全生產(chǎn)行業(yè)相關(guān)數(shù)據(jù)采集、自然語言處理、檢索,可以實現(xiàn)資源共享、內(nèi)容創(chuàng)新、信息增值及優(yōu)質(zhì)服務(wù);通過大數(shù)據(jù)技術(shù),逐步打造面向 “互聯(lián)網(wǎng)+”語境下的現(xiàn)代化信息系統(tǒng),能夠充分貫徹《國務(wù)院辦公廳關(guān)于加強安全生產(chǎn)監(jiān)管執(zhí)法的通知》的精神。中國安全生產(chǎn)報社將大數(shù)據(jù)技術(shù)與安全生產(chǎn)業(yè)務(wù)相結(jié)合,為安全生產(chǎn)領(lǐng)域今后的進一步改革和發(fā)展打下堅實的技術(shù)基礎(chǔ)。

南开区| 江门市| 搜索| 苗栗县| 习水县| 庄河市| 绥宁县| 宁武县| 黄山市| 新建县| 綦江县| 天祝| 栾城县| 海安县| 定陶县| 屏边| 财经| 太仓市| 方山县| 海兴县| 湖州市| 吉林市| 望都县| 会理县| 浠水县| 溧阳市| 中西区| 邵阳市| 彩票| 舞阳县| 莲花县| 旬阳县| 曲阜市| 福海县| 茶陵县| 礼泉县| 西宁市| 日喀则市| 环江| 水城县| 仁寿县|