李駿 張鴿 紀海婷 于翔
摘? 要:檢驗檢測機構傳統(tǒng)手工標準查新的方法,工作量大,效率低,且查新周期長,為提高工作效率,文章提出了一種基于Python的標準查新方法,并以實例描述其工作過程,實現(xiàn)了一種高效的標準查新方式。
關鍵詞:標準查新;大數(shù)據(jù);Python;網(wǎng)絡爬蟲
Abstract: In order to improve work efficiency, a new method of standard search based on Python is proposed in this paper, and its working process is described by an example. An efficient method of standard search is realized.
標準是檢驗檢測機構開展工作的主要依據(jù)之一,檢驗檢測工作需要標準的支持。執(zhí)行現(xiàn)行有效的標準才能保證檢驗檢測工作的準確性、有效性和公正性,而對標準的查新則有效保障了使用標準的現(xiàn)行有效性,降低了檢驗檢測過程中的風險。檢驗檢測機構查新員傳統(tǒng)的手工查新方法對查新人員的經(jīng)驗及技術有著較高要求,且查新時間周期長,工作量大。隨著大數(shù)據(jù)時代的發(fā)展,為減輕檢驗檢測機構標準查新的工作成本及負擔,本文運用Python程序?qū)崿F(xiàn)互聯(lián)網(wǎng)自動匹配搜索查詢,從而實現(xiàn)標準的自動查新,縮短標準查新周期,極大提高檢驗檢測機構標準查新的效率。
1 實施標準查新的必要性及常用方法
1.1 實施標準查新的必要性
1.1.1 資質(zhì)認定的要求
《檢驗檢測機構資質(zhì)認定能力評價? 檢驗檢測機構通用要求》(RB/T 214-2017)4.5.3款規(guī)定:“檢驗檢測機構應建立和保持控制其管理體系的內(nèi)部和外部文件的程序,明確文件的標識、批準、發(fā)布、變更和廢止,防止使用無效、作廢的文件?!盵1]
《檢驗檢測機構資質(zhì)認定評審準則》4.5.4款規(guī)定:“檢驗檢測機構應建立和保持控制其管理體系的內(nèi)部和外部文件的程序,包括法律法規(guī)、標準、規(guī)范性文件、檢驗檢測方法,以及通知、計劃、圖紙、圖表、軟件、規(guī)范、手冊、指導書。這些文件可承載在各種載體上,可是硬拷貝或是電子媒體,也可是數(shù)字的、模擬的、攝影的或書面的形式。應明確文件的批準、發(fā)布、變更,防止使用無效、作廢的文件。”[2]
1.1.2 標準化體系建設推動發(fā)展的要求
2015年12月,國務院辦公廳發(fā)布了《國家標準化體系建設發(fā)展規(guī)劃(2016-2020年)》,明確指出 :“完善標準制定程序。優(yōu)化標準審批流程,落實標準復審要求,縮短標準制定周期,加快標準更新速度。”[3]在這個大背景下,老標準的修訂和新標準的制定工作步伐大大加快,檢驗檢測機構使用標準更新周期明顯加快,為保證檢驗檢測機構工作的準確性、有效性和公正性,實施標準查新工作作用更為突出。
1.2 實施標準查新的常用方法
檢驗檢測機構標準查新的方法主要有委托專業(yè)機構查詢和自行手工網(wǎng)絡查詢兩種。
(1)委托專業(yè)機構查詢:檢驗檢測機構委托具有查新資質(zhì)的標準信息研究機構,對其使用的標準內(nèi)容的有效性進行審驗和確認,并最終出具標準查新報告。
(2)自行手工網(wǎng)絡查詢:檢驗檢測機構查新員手工以網(wǎng)絡查證的方式對其使用的標準內(nèi)容有效性進行查證,并根據(jù)查詢結(jié)果形成書面記錄。目前,標準查新的網(wǎng)絡資源主要有:國家標準化管理委員會網(wǎng)站(http://www.sac.gov.cn/)、中國標準化研究院網(wǎng)站(http://www.cnis.ac.cn/)、中國標準服務網(wǎng)(http://www.cssn.net.cn/)、國家標準全文公開系統(tǒng)(http://openstd.samr.gov.cn/)、中華人民共和國生態(tài)環(huán)境部-科技標準(http://bz.mee.gov.cn/)、水利部國際合作與科技司-標準查詢(http://gjkj.mwr.gov.cn/jsjd1/bzcx/)、中華人民共和國農(nóng)業(yè)部-農(nóng)業(yè)標準(http://jiuban.moa.gov.cn/zwllm/nybz/)、工標網(wǎng)(http://www.csres.com/)、標準認證與檢驗檢測公共服務平臺(https://www.scidcn.com/)、之江標準信息平臺(http://www.zjsis.com/)等等。
2 基于Python的標準查新方法
隨著信息產(chǎn)業(yè)的飛速發(fā)展,網(wǎng)絡信息規(guī)模急劇膨脹,大數(shù)據(jù)時代已然來臨,網(wǎng)絡已成為人們獲取信息的重要來源,檢驗檢測機構標準信息的來源也絕大部分來自于網(wǎng)絡。
網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛,網(wǎng)絡機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。[4]它可以通過網(wǎng)頁鏈接地址抓取網(wǎng)頁內(nèi)容,并根據(jù)用戶需求返回所需信息數(shù)據(jù),而不需要人工登錄瀏覽器查詢獲取信息。Python中的urllib、requests、urllib3、scrapy、lxml和BeautifulSoup4 等第三方庫被廣泛應用于爬蟲開發(fā)[5],因此,在大數(shù)據(jù)時代應用Python程序完全可實現(xiàn)對檢驗檢測機構標準的互聯(lián)網(wǎng)自動匹配查詢工作,實現(xiàn)標準查新工作的自動化,快捷更高效。
下面以之江標準信息平臺(http://www.zjsis.com/)為例,介紹Python程序標準查新實現(xiàn)的過程。
2.1 查新標準整理
工欲善其事,必先利其器。標準查新前,必須對正在使用的標準進行系統(tǒng)梳理,將需要查詢的標準進行整理,填入相應的excel模板,以備Python程序標準查新使用。相應的excel模板見圖1。
圖1中,第一列為關鍵字查詢,可以填入需查詢的相應標準名稱,如總磷的測定方法,可填入“鉬酸銨分光光度法”或者“總磷”;第二列為標準號查詢,如總磷的鉬酸銨分光光度法標準號為“GB/T 118393-1989”,可填入相應的標準號即可。兩列填寫一列即可。
2.2 查詢網(wǎng)頁分析、抓取
(1)打開之江標準信息平臺網(wǎng)頁,分析其API接口數(shù)據(jù),得到請求頭部信息,包括目標地址(GET)、主機域名(Host)、用戶代理(User-Agent)、Cookie信息(Cookie)等信息。(如圖2)
根據(jù)API接口分析結(jié)果,網(wǎng)頁內(nèi)容抓取的請求頭代碼如下(部分):
(2)導入上述已整理好的需標準查新的excel模板文件,實現(xiàn)相關標準網(wǎng)頁信息檢索及相關網(wǎng)頁內(nèi)容的抓取,網(wǎng)頁抓取過程界面見圖3。實現(xiàn)代碼如下(部分):
2.3 標準信息整理保存
對上述抓取到的網(wǎng)頁數(shù)據(jù),通過正則表達式,提取有用的信息,主要包括標準號、標準狀態(tài)(現(xiàn)行或作廢)、標準中文名稱、標準英文名稱、標準中標分類、標準ICS分類、標準分類標號、標準語種、標準頁數(shù)、標準發(fā)布日期、標準實施日期、標準作廢日期、被替代標注號、代替標準號、采用標準、引用標準、起草單位、歸口單位、標準范圍、標準查詢的網(wǎng)址等25項內(nèi)容。取得相應的查詢信息后,數(shù)據(jù)以excel文件類型進行保存。實現(xiàn)代碼如下(部分):
保存的excel文件可直接作為檢測檢測機構的標準查新報告。同時為方便檢驗檢測機構人員,查詢作廢的標準進行了標記處理,并提供了相應的替換標準號,提醒檢驗檢測機構人員及時對相應標準進行替換更新。標準信息查詢成果見圖4。
應用Python程序進行標準查新,可完全實現(xiàn)計算機自動查詢,檢驗檢測機構工作人員僅需整理好需查新的標準方法名稱或者標準號,且該方法查詢速度快,50條標準信息僅需3-5分鐘就能查詢完成,大大提高了標準查新的工作效率。
3 結(jié)束語
本文針對傳統(tǒng)人工標準查新工作,工作量大,查詢周期長等問題,利用Python的第三方爬蟲庫實現(xiàn)檢驗檢測機構標準查新,并通過實例描述了其工作流程及應用效果。通過實際應用,基于Python的標準查新方法,具有自動化、快捷、高效的特點,在檢驗檢測機構標準查新工作中能大大提高其工作效率。
參考文獻:
[1]中國國家認證認可監(jiān)督管理委員會. 檢驗檢測機構資質(zhì)認定能力評價 檢驗檢測機構通用要求:RB/T 214-2017[S].2018:5.
[2]中國國家認證認可監(jiān)督管理委員會. 國認實[2016]33號 關于印發(fā)《檢驗檢測機構資質(zhì)認定評審準則》及釋義和《檢驗檢測機構資質(zhì)認定評審員管理要求》的通知[S].2016.
[3]國務院辦公廳. 國辦發(fā)〔2015〕89號 關于印發(fā)國家標準化體系建設發(fā)展規(guī)劃(2016-2020年)的通知[S].2015.
[4]謝克武.大數(shù)據(jù)環(huán)境下基于Python的網(wǎng)絡爬蟲技術[J].電子制作,2017(9):44-45.
[5]胡松濤.Python 網(wǎng)絡爬蟲實戰(zhàn)[M].北京:清華大學出版社,2017.