国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大規(guī)模高并發(fā)場景下新一代警務搜索系統(tǒng)關鍵技術研究

2023-01-19 07:07:12崔濤于忠楊志清劉昱曉山東省青島市公安局
警察技術 2022年6期
關鍵詞:搜索引擎全文警務

崔濤 于忠 楊志清 劉昱曉 山東省青島市公安局

引言

從公安信息化的發(fā)展歷史看,圍繞治安防控、打擊破案、勤務指揮及行政執(zhí)法過程中對信息的搜索、查詢是公安應用信息化手段的主要方式[1],同時隨著4G、5G移動網絡及智能手機技術的發(fā)展,攜帶便捷的移動警務終端搭載的信息搜索查詢功能,更是成為了民警喜歡使用的警務信息化工具。

從實際的信息化發(fā)展情況看,搜索系統(tǒng)是信息檢索的核心工具[2],因此警務搜索系統(tǒng)的建設一直是全國各省市公安機關信息化建設的重點。但受限于技術的發(fā)展和數(shù)據處理能力,常規(guī)的搜索系統(tǒng)存在搜索結果不準確、搜索效率低、只能搜結構化數(shù)據等缺點,尚不足以有效支撐民警充分使用大數(shù)據,造成了很多民警不想用或者用不了的局面。同時,近年來數(shù)據量和業(yè)務量的高速發(fā)展,使得滿足大規(guī)模高并發(fā)場景的搜索需求日益旺盛,為此本文重點研究基于知識圖譜和語義識別技術的新一代警務搜索系統(tǒng),力圖可以保障海量數(shù)據下的高并發(fā)快速檢索,使得大數(shù)據成果可以充分賦能全體民警。

一、警務搜索系統(tǒng)演進

從使用模式上來說,警務搜索系統(tǒng)主要可以分為獨立信息檢索系統(tǒng)、信息綜合查詢系統(tǒng)、網站信息搜索系統(tǒng)和多媒體信息搜索系統(tǒng)。從技術角度看,警務搜索系統(tǒng)的發(fā)展歷程已經歷了兩代。

第一代搜索系統(tǒng)主要以單詞、分詞的形式進行檢索,如圖1所示,需手動進行數(shù)據關聯(lián),無任何聯(lián)想功能。

第二代搜索系統(tǒng)立足于技術的發(fā)展,能夠基于字符串匹配搜索,如圖2所示,查詢內容主要集中在證件和車牌等號碼、姓名、出生年份等少數(shù)字段,在實現(xiàn)邏輯上屬于單表類搜索,底層數(shù)據和查詢語句中的字符串要精確才能查出結果,無法進行跨表搜索。

隨著云計算、大數(shù)據、語義分析、知識圖譜等創(chuàng)新技術的成熟應用,以知識圖譜和語義搜索為核心特點的新一代智能搜索系統(tǒng)正逐步走入實戰(zhàn)。

二、大規(guī)模高并發(fā)場景對搜索系統(tǒng)的挑戰(zhàn)

從公安實戰(zhàn)業(yè)務場景看,搜索系統(tǒng)需要對匯聚的所有數(shù)據資源進行檢索和查詢,同時在結果呈現(xiàn)上需要展示的是經過收集、解析及處理過的數(shù)據資源。這就意味著滿足警務大數(shù)據場景的搜索系統(tǒng)將面臨如下挑戰(zhàn):

(1)PB級別數(shù)據資源搜索能力

近年來各地大數(shù)據建設成果顯著,筆者所在地市局經過多年的信息化發(fā)展,已經匯聚了以萬億為計算單位的大體量數(shù)據資源,且每天以千億條規(guī)模體量進行增加。如何實現(xiàn)對如此規(guī)模體量的數(shù)據資源進行快速搜索,是當前面臨的首要挑戰(zhàn)。

(2)高并發(fā)穩(wěn)定使用能力

筆者所在地市有超過一萬名的民警數(shù)量,作為高頻使用對象的搜索系統(tǒng)必須要有能夠支撐全市所有民警的高并發(fā)搜索能力,尤其在安保、疫情防控等關鍵任務保障期間,全市所有民警都會使用搜索系統(tǒng)進行業(yè)務的開展,這就對整個系統(tǒng)及相應支撐平臺的高并發(fā)能力提出了更高的要求。

(3)具備語義理解搜索能力

受限于業(yè)務的復雜性和多樣性,基層民警在案件偵破、治安防控及疫情流調等一系列警務實戰(zhàn)工作中,往往無法能夠精確搜索出目標,需要綜合各式信息進行綜合性、模糊式的搜索。

(4)具備跨模態(tài)式搜索能力

經過近幾年感知設備的大跨步建設,各地基本建成了海量的視頻監(jiān)控體系,積累了大量的視頻、圖片及結構化數(shù)據[3],這類數(shù)據資源對于公安業(yè)務有著非常重要的意義,但是無統(tǒng)一的平臺能夠實現(xiàn)對跨模態(tài)資源的統(tǒng)一查詢和搜索,迫切需要通過建設新型搜索系統(tǒng)實現(xiàn)多維度數(shù)據的價值發(fā)揮。

三、新一代警務搜索系統(tǒng)關鍵技術設計

基于上文的需求分析,筆者結合當前相關技術發(fā)展趨勢和所在地市局的實際情況,對該搜索系統(tǒng)的架構進行設計,系統(tǒng)主要包含數(shù)據接口服務、智搜應用服務、智搜引擎服務、全息檔案服務、語義搜索引擎、多模態(tài)搜索、全文搜索引擎等內容。其中,智搜應用服務是用戶進行查詢搜索的直接交互界面,通過調用智搜引擎服務實現(xiàn)對語義搜索和全文搜索;語義搜索引擎實現(xiàn)用戶通過自然語言方式進行搜索;全文搜索引擎實現(xiàn)對全局所有數(shù)據資源的每個字段都被索引并可被搜索;MaxCompute實現(xiàn)對搜索系統(tǒng)的底層大數(shù)據組件支撐。

區(qū)別于前兩代搜索系統(tǒng)的實現(xiàn)方式,新一代警務搜索系統(tǒng)的核心關鍵技術點包括交互式分析能力大數(shù)據組件、全文搜索引擎、語義搜索引擎、知識圖譜和多模態(tài)搜索五個方面內容,如圖3標色內容所示。

(一)查詢加速的交互式分析能力大數(shù)據組件

新一代搜索系統(tǒng)的大規(guī)模高并發(fā)要求需要依賴底層云計算大數(shù)據組件的強有力支撐。在設計中,筆者選擇MaxCompute作為系統(tǒng)底層核心的大數(shù)據支撐組件。全局多種數(shù)據源同步到大數(shù)據計算服務,在此基礎上進行全局所有數(shù)據資源的大規(guī)模和高并發(fā)計算分析,為搜索系統(tǒng)能夠從全局億萬級數(shù)據資源中進行查詢、分析,提供離線、實時的查詢計算支撐。從實際的運行結果分析,選擇的大數(shù)據組件能夠快速上手、服務穩(wěn)定、安全可靠,且能夠同時處理搜索系統(tǒng)涉及到的結構化數(shù)據和非結構數(shù)據計算要求。

針對搜索系統(tǒng)低延時、高并發(fā)要求的場景,通過使用MaxCompute高效低延遲的資源調度策略,如圖5所示,并且使用獨立執(zhí)行資源池,實現(xiàn)了秒級查詢響應計算能力。

針對搜索場景涉及到的對語義處理需求,使用MaxCompute對非結構化語音、自然語言文本進行語音識別、語義分析和數(shù)據處理,如圖6所示。

(二)基于Elastic Search引擎的全文搜索引擎

在全文搜索引擎方面,采用能夠處理PB級結構化或非結構化數(shù)據的Elastic Search引擎,構建了分布式、多用戶的全文搜索引擎能力,借助引擎強大的分布式實時分析檢索性能、實現(xiàn)ms級數(shù)據全文查詢時效性。在具體研究和實現(xiàn)的核心內容上,一是通過引擎構建索引庫,承接全局所有民警警務實戰(zhàn)過程中查詢流量;二是針對全局新增的數(shù)據資源,進行實時全增量同步,全量通過標準JDBC協(xié)議獲取數(shù)據,通過Binlog訂閱同步增量,如圖7所示;三是用戶在查詢過程中通過調用全文搜索引擎服務進行結果的生成。

在實際搜索系統(tǒng)使用過程中,全文搜索引擎能夠實現(xiàn)分布式的實時文件存儲和搜索,每個字段都被索引并可被搜索,整體上保障搜索穩(wěn)定、可靠、快速[4],滿足全局警務實戰(zhàn)需求。

(三)基于語義解析技術的語義搜索引擎

為充分提升搜索引擎的交互智能化,特設計語義搜索引擎(NLS)作為智能搜索的重要組成部分。該引擎可以提供對以自然語言形式表述的查詢語句進行語義分析、查詢語句轉化,最終提供查詢結果的能力。通過深度學習語義解析模型得到自然語言查詢中獨立、明確的語義信息,結合元數(shù)據知識圖譜在語義信息和目標數(shù)據之間建立關聯(lián)[5],完成查詢語句的生成,然后由查詢執(zhí)行模塊完成數(shù)據庫查詢,實現(xiàn)搜索結果的輸出。語義搜索引擎(NLS)功能包括語義解析模塊(QP)、元數(shù)據知識圖譜管理模塊(MKG)、查詢語句生成模塊(Analyzer)、查詢執(zhí)行模塊(Executor),如圖8所示。

語義解析模塊通過調用深度學習模型的在線服務,解析流程如圖9所示,提供對用戶輸入的自然語言查詢進行分詞、分段、命名實體識別、語義標注、意圖識別等功能。其輸出內容作為下一階段“查詢語句生成模塊(Analyzer)”的輸入。

(四)基于知識加工和推理的知識圖譜

知識圖譜在語義搜索引擎中不可或缺,它將查詢數(shù)據的元數(shù)據信息以及用戶查詢內容進行分類、抽象、依賴關系梳理,以不同類型節(jié)點的形式進行保存,在語義搜索中起到輔助解析、查詢生成重要作用,是連接用戶查詢Query和查詢數(shù)據之間的的橋梁。在研究和實現(xiàn)過程中,結合當前主流的技術體系,把知識圖譜按照搜索的業(yè)務邏輯分為三個流程內容,分別是圖譜應用、圖譜存儲&編輯以及圖譜生成。圖譜應用立足語義解析結果,通過查詢字段、取值及操作,實現(xiàn)對表的中間結果查詢,通過查詢適配器形成最終的查詢語言生成邏輯內容;圖譜存儲&編輯對圖譜應用的語義解析結果和知識圖譜內容進行存儲,同時按照圖譜生成器進行標準格式的存儲和展示,并進行實時的修改和反饋。圖譜生成立足圖譜生成器的存儲和展示內容進行元數(shù)據信息選擇、修改操作,詳細管理流程如圖10所示。

(五)多模態(tài)的智能搜索能力

基于自然語言理解和圖像識別,對人的屬性(含標簽)、行為、關系和體貌特征進行組合搜索。適用于沒有ID類信息,也沒有人員信息,僅有視頻監(jiān)控類信息,通過其體貌特征對人員身份進行快速落地。

在實際研究和建設過程中,通過使用文本Query對圖像內容屬性抽取檢索,包括語義解析模型升級和知識圖譜更新配置;對于識別不出人員ID的圖片,根據Reid對結果進行Grouping。語義解析模塊會判別搜索Query的搜索意圖,判斷需要對單主題域進行搜索,還是對多主題進行跨模態(tài)搜索,進而根據知識圖譜中虛擬實體->實體表的映射關系,生成針對不同主題域的SQL,召回搜索結果。詳細技術流程如圖11所示。

結合筆者所在地市局當前的信息化建設水平以及視頻監(jiān)控建設規(guī)模體量,目前已圍繞一線警務實戰(zhàn)過程中需求比較迫切的功能內容,初步實現(xiàn)了圍繞性別、著裝、體態(tài)等共計40多類的多模態(tài)搜索能力。

四、結語

警務搜索系統(tǒng)屬于智慧警務中必建且高頻的基礎應用軟件,支撐著各類數(shù)據資源系統(tǒng)對外的呈現(xiàn)。本文在搜索技術上開展了大膽的創(chuàng)新嘗試,以滿足大規(guī)模和高并發(fā)為核心需求,在交互式分析能力大數(shù)據組件、全文搜索引擎、語義搜索引擎、知識圖譜和多模態(tài)搜索這五個方面進行創(chuàng)新探索,架構了新一代警務搜索系統(tǒng),為某市公安局乃至全國公安機關進行大數(shù)據下的全警賦能提供了豐富的寶貴經驗。實戰(zhàn)驗證數(shù)據基本上反映了民警的搜索目標,滿足低門檻普適性需求。本文所研究之內容可以作為搜索技術在公安警務大數(shù)據建設中相關研究的理論基礎,也可以為大數(shù)據智能應用規(guī)劃設計提供一定的參考價值和工程意義。

猜你喜歡
搜索引擎全文警務
全文中文摘要
風機技術(2021年3期)2021-08-05 07:41:38
全文中文摘要
風機技術(2019年4期)2019-06-24 05:42:14
青年再造
南風窗(2017年9期)2017-05-04 21:04:27
HIV感染的警務預防與處置
網絡搜索引擎亟待規(guī)范
警務實戰(zhàn)訓練教學中開設
警用直升機的作用及在我國警務實戰(zhàn)中的應用
警察技術(2015年4期)2015-02-27 15:37:20
警務專用手機ZD-P1
警察技術(2015年1期)2015-02-27 15:35:46
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
凤庆县| 车险| 广东省| 乌拉特后旗| 河源市| 利津县| 弋阳县| 孝义市| 旺苍县| 象山县| 泾源县| 泸定县| 广昌县| 华池县| 五常市| 大冶市| 西安市| 张家口市| 长葛市| 南安市| 潢川县| 南召县| 奉化市| 陕西省| 宁南县| 丰县| 平罗县| 长宁县| 张家港市| 霍林郭勒市| 固原市| 新巴尔虎左旗| 睢宁县| 新密市| 宁河县| 化州市| 东乡| 开封市| 额尔古纳市| 滨海县| 交城县|