国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

實(shí)時(shí)流計(jì)算在保險(xiǎn)決策系統(tǒng)中的應(yīng)用*

2020-08-11 00:46:30陸智卿趙文洋
關(guān)鍵詞:決策分析流式決策

吳 鋒 陸智卿 趙文洋

(中國石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 青島 266580)

1 引言

實(shí)時(shí)和流計(jì)算是近期非常熱門的關(guān)鍵詞,隨著Spark等專為大數(shù)據(jù)[1]設(shè)計(jì)的開源引擎的出現(xiàn)和完善,實(shí)時(shí)流[2]計(jì)算在國內(nèi)外知名企業(yè)中的應(yīng)用呈現(xiàn)井噴爆發(fā)之態(tài)勢(shì)。實(shí)時(shí)流計(jì)算技術(shù)更是為金融保險(xiǎn)行業(yè)商業(yè)智能領(lǐng)域帶來新的契機(jī),采用實(shí)時(shí)流計(jì)算技術(shù)能夠解決決策系統(tǒng)信息滯后的痛點(diǎn),極大提高經(jīng)營決策效率和準(zhǔn)確度[3]。

2 研究現(xiàn)狀

實(shí)時(shí)流計(jì)算已在金融保險(xiǎn)行業(yè)廣泛應(yīng)用和實(shí)施,成為促進(jìn)企業(yè)經(jīng)營快速發(fā)展的必備技術(shù)[4]。而此技術(shù)對(duì)于數(shù)據(jù)加工環(huán)節(jié)的及時(shí)性,一般可以分為批處理模式和流式大數(shù)據(jù)模式,流式大數(shù)據(jù)模式也會(huì)被稱為大數(shù)據(jù)實(shí)時(shí)計(jì)算,技術(shù)體系方面主要還是以Hadoop作為主要生態(tài)系統(tǒng),技術(shù)推動(dòng)涌現(xiàn)出storm、spark等應(yīng)用于流計(jì)算的框架工具,其中以Spark作為主要的流計(jì)算處理框架,在世界范圍內(nèi)應(yīng)用最為廣泛[5~7]。

在金融保險(xiǎn)行業(yè)、電商、物流等多個(gè)行業(yè)中,為了提升對(duì)用戶的滿意度、以及公司經(jīng)營發(fā)展的需要,催生出的智能決策分析、決策管理駕駛倉等,都需要在數(shù)據(jù)加工環(huán)節(jié)有了不一樣的需求。為了實(shí)現(xiàn)業(yè)務(wù)目標(biāo),數(shù)據(jù)加工必須快速返回?cái)?shù)據(jù)結(jié)果,而傳統(tǒng)的決策加工技術(shù)一般都是批作業(yè)方式實(shí)施,數(shù)據(jù)要先經(jīng)過多個(gè)環(huán)節(jié)處理加工、存儲(chǔ)并返回結(jié)果,往往都有相當(dāng)?shù)臏笮裕ǔ6际荖+1天,特別是一旦業(yè)務(wù)數(shù)據(jù)量急劇膨脹時(shí),傳統(tǒng)的決策加工技術(shù)更是無法支撐其更高的業(yè)務(wù)目標(biāo)要求。

隨著保險(xiǎn)公司業(yè)務(wù)不斷的擴(kuò)大發(fā)展,其業(yè)務(wù)數(shù)據(jù)越來越龐大,而過去所使用的傳統(tǒng)決策系統(tǒng)已無法支撐其更高的要求,為此本文提出開展實(shí)時(shí)流式處理的技術(shù)在決策分析中的應(yīng)用研究,子課題便是在個(gè)險(xiǎn)作戰(zhàn)地圖的報(bào)表分析實(shí)現(xiàn)“個(gè)險(xiǎn)首年期交保費(fèi)”的實(shí)時(shí)流計(jì)算應(yīng)用,用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對(duì)該指標(biāo)數(shù)據(jù)的實(shí)時(shí)追蹤。

3 實(shí)時(shí)計(jì)算原理

3.1 決策分析

決策分析[8]通常包括數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算[9~10]和數(shù)據(jù)分析[11~12]等多個(gè)方面,以數(shù)據(jù)為基礎(chǔ),借助利用先進(jìn)的存儲(chǔ)、計(jì)算以及可視化等技術(shù),讓更多的數(shù)據(jù)用于業(yè)務(wù)經(jīng)營和管理決策。其具體內(nèi)容如圖1所示。

圖1 決策分析內(nèi)容詳解圖

3.2 實(shí)時(shí)流式計(jì)算

流計(jì)算[13]的應(yīng)用場(chǎng)景主要還是面向巨量數(shù)據(jù)時(shí),能夠秒級(jí)返回處理結(jié)果。流計(jì)算技術(shù)就是面向這一應(yīng)用場(chǎng)景的,能夠?qū)崟r(shí)處理計(jì)算并且實(shí)時(shí)落地?cái)?shù)據(jù)庫[14~15]。而 Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎,實(shí)時(shí)流式計(jì)算可以實(shí)現(xiàn)數(shù)據(jù)高速流轉(zhuǎn)[16]。

4 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

4.1 需求特征

具體的業(yè)務(wù)場(chǎng)景,是要實(shí)現(xiàn)一套掛圖作戰(zhàn)實(shí)時(shí)指標(biāo)等實(shí)時(shí)數(shù)據(jù)追蹤系統(tǒng),通過對(duì)其業(yè)務(wù)場(chǎng)景進(jìn)行需求分析,其需要實(shí)現(xiàn)實(shí)時(shí)的指標(biāo)加工計(jì)算和呈現(xiàn),而在指標(biāo)技工過程中,需要對(duì)大批量的歷史數(shù)據(jù)進(jìn)行一次性加工計(jì)算,以及實(shí)時(shí)能夠加工新的增量數(shù)據(jù),同時(shí)向地圖應(yīng)用能夠?qū)崟r(shí)呈現(xiàn)最終結(jié)果。實(shí)時(shí)增量數(shù)據(jù)主要源于核心業(yè)務(wù)處理系統(tǒng),客戶實(shí)時(shí)購買的業(yè)務(wù)保單,這部分實(shí)時(shí)進(jìn)單保費(fèi),具有數(shù)據(jù)量大,數(shù)據(jù)價(jià)值隨時(shí)間流逝而降低的特性,且數(shù)據(jù)價(jià)值密度低,很少需要精細(xì)查詢。歷史全量數(shù)據(jù)則為數(shù)據(jù)字典等,例如組織架構(gòu)代碼等,具有數(shù)據(jù)量小,修改不多的特征;統(tǒng)計(jì)結(jié)果數(shù)據(jù)為上述數(shù)據(jù)的復(fù)雜計(jì)算結(jié)果,例如掛圖作戰(zhàn)中的個(gè)險(xiǎn)首年期交保費(fèi),該指標(biāo)加工復(fù)雜,需配合實(shí)時(shí)進(jìn)單保費(fèi)、歷史存量數(shù)據(jù)并進(jìn)行復(fù)雜的多列聚合計(jì)算而成,而因?yàn)樵隽康倪M(jìn)單保費(fèi)一般數(shù)據(jù)相對(duì)較小,在應(yīng)用場(chǎng)景中需要實(shí)時(shí)的進(jìn)行呈現(xiàn),因此需要對(duì)其進(jìn)行快速且并發(fā)進(jìn)行加工計(jì)算。

4.2 實(shí)時(shí)決策分析中的指標(biāo)計(jì)算

實(shí)時(shí)流應(yīng)用在決策報(bào)表中,指標(biāo)加工計(jì)算是其重要的一環(huán)。而其加工指標(biāo)一般要求能夠在秒級(jí)能夠完成數(shù)據(jù)加工,對(duì)于大多實(shí)時(shí)流計(jì)算指標(biāo)而言,其最主要的加工口徑為

WE等于數(shù)據(jù)加工完畢時(shí)間-數(shù)據(jù)生成時(shí)間。

WX等于決策分析指標(biāo)可延遲的時(shí)間。

指標(biāo)數(shù)據(jù)加工需要在業(yè)務(wù)要求范圍內(nèi)實(shí)施,根據(jù)公式只有E遠(yuǎn)遠(yuǎn)高于1,其實(shí)時(shí)指標(biāo)加工計(jì)算的能力才能夠符合系統(tǒng)的要求。反之,如果無法實(shí)現(xiàn)實(shí)時(shí)加工計(jì)算,那么公式中的E將低于1。如果再加工的過程中,計(jì)算延遲嚴(yán)重,那么WE便會(huì)快速放大,最終整個(gè)業(yè)務(wù)場(chǎng)景實(shí)時(shí)流計(jì)算加工指標(biāo)將無法達(dá)成目標(biāo)。對(duì)于保險(xiǎn)行業(yè)的決策分析應(yīng)用,目前要求其WX為5min,且未來將逐步減少到1min。

4.3 設(shè)計(jì)原則

結(jié)合保險(xiǎn)公司的建立實(shí)時(shí)掛圖作戰(zhàn)決策系統(tǒng)的應(yīng)用場(chǎng)景,同時(shí)基于其系統(tǒng)中所要求實(shí)現(xiàn)的實(shí)時(shí)追蹤指標(biāo)的加工方式,將提出需要在設(shè)計(jì)過程中重點(diǎn)實(shí)現(xiàn)4條設(shè)計(jì)原則。

1)存量數(shù)據(jù)加工。一次性初始化實(shí)現(xiàn),存量數(shù)據(jù)加工因?yàn)樽兓?,?shù)據(jù)量大,為了保證加工計(jì)算的時(shí)效性,這部分?jǐn)?shù)據(jù)加工處理場(chǎng)景將不會(huì)用流計(jì)算的模式,將會(huì)采用一次性初始化加工抽取完成??紤]到后續(xù)內(nèi)存數(shù)據(jù)庫技術(shù)的逐步完善,未來把會(huì)將這部分?jǐn)?shù)據(jù)放在內(nèi)存中進(jìn)行計(jì)算,同樣可以大幅提升其加工效率,同時(shí)采用內(nèi)存和存儲(chǔ)的互相切換,能夠更加理想的提供計(jì)算查詢服務(wù)。

2)小數(shù)據(jù)量的增量流式計(jì)算服務(wù)能力。這部分需要要求實(shí)時(shí)性高,同時(shí)數(shù)據(jù)量較小,多為業(yè)務(wù)增量實(shí)時(shí)產(chǎn)生,對(duì)于這部分加工設(shè)計(jì),將會(huì)根據(jù)業(yè)務(wù)上的需要,在內(nèi)存中實(shí)時(shí)加工計(jì)算,不落地存儲(chǔ)的方式。

3)混合計(jì)算模式。由于實(shí)時(shí)掛圖作戰(zhàn)決策報(bào)表系統(tǒng)需要實(shí)時(shí)呈現(xiàn)指標(biāo)的動(dòng)態(tài)變化周期以及體現(xiàn)高速增長時(shí)效性,將對(duì)其指標(biāo)采取預(yù)先計(jì)算處理方式,在存量加工指標(biāo)的基礎(chǔ)上,實(shí)時(shí)疊加增量的部分,將結(jié)果預(yù)先計(jì)算好,根據(jù)決策系統(tǒng)的查詢報(bào)表?xiàng)l件存儲(chǔ)在Hadoop存儲(chǔ)中,這樣也能夠提供高并發(fā)查詢的指標(biāo)級(jí)服務(wù),最終體現(xiàn)實(shí)時(shí)監(jiān)控的周期性、時(shí)效性等特征,動(dòng)態(tài)變化。

4)預(yù)計(jì)算模式取代實(shí)時(shí)計(jì)算模式。由于實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)具有強(qiáng)烈的周期性特征及時(shí)效性特征,故將要計(jì)算的指標(biāo)均采用預(yù)先處理的模式,先計(jì)算好結(jié)果,存入到KV存儲(chǔ)引擎中,將用戶的查詢轉(zhuǎn)換為按照條件組成Rowkey的KV查詢模式,從而實(shí)現(xiàn)快速的高并發(fā)查詢Redis服務(wù)??紤]到高速并發(fā)以及容災(zāi)措施,將結(jié)果集指標(biāo)定期存儲(chǔ)在redis服務(wù)中,一旦出現(xiàn)加工不及時(shí)或者數(shù)據(jù)庫錯(cuò)誤時(shí),能夠?qū)崟r(shí)切換至redis查詢服務(wù)中,給用戶帶來系統(tǒng)更加穩(wěn)定的感受。

圖2 基于流處理的數(shù)據(jù)流程圖

因此,基于流處理的數(shù)據(jù)流程如圖2所示,通過該流程設(shè)計(jì),將計(jì)算與數(shù)據(jù)存儲(chǔ)分離,解決傳統(tǒng)架構(gòu)中計(jì)算與存儲(chǔ)混合對(duì)系統(tǒng)處理效率的影響。因此,一方面能夠解決傳統(tǒng)決策系統(tǒng)計(jì)算存在的問題,也能夠?qū)⒂?jì)算和存儲(chǔ)進(jìn)行分離、且混合處理。

4.4 技術(shù)架構(gòu)

為了支撐指標(biāo)的實(shí)時(shí)追蹤,在技術(shù)架構(gòu)上,將采用“職責(zé)分段”的思路,進(jìn)行了如下幾項(xiàng)設(shè)計(jì):

1)使用SharePlex監(jiān)控Oracel日志文件,捕獲數(shù)據(jù)庫操作消息,從而獲取業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的增、刪、改的增量數(shù)據(jù)。

2)使用Kafka記錄SharePlex的數(shù)據(jù)消息,負(fù)責(zé)消息隊(duì)列分發(fā)。將增量數(shù)據(jù)轉(zhuǎn)成消息往下游推送和處理加工。

3)使用Spark Streaming對(duì)數(shù)據(jù)進(jìn)行抽取、過濾。根據(jù)指標(biāo)的業(yè)務(wù)口徑,將消息增量數(shù)據(jù)加工成決策系統(tǒng)中的指標(biāo)數(shù)據(jù)。

4)使用Redis負(fù)責(zé)存儲(chǔ)、加工消息數(shù)據(jù)。將處理后指標(biāo)數(shù)據(jù)暫存在Redis內(nèi)存數(shù)據(jù)庫中。

5)封裝WebService服務(wù),對(duì)外提供數(shù)據(jù)查詢。封裝后的接口服務(wù),可以提供給任意決策分析應(yīng)用進(jìn)行調(diào)用,保證數(shù)據(jù)對(duì)外輸出的一致性。

通過以上技術(shù)架構(gòu)的設(shè)計(jì),具體的系統(tǒng)架構(gòu)圖如圖3所示,能夠提供可靠、準(zhǔn)確、穩(wěn)定、實(shí)時(shí)的保費(fèi)指標(biāo),這些設(shè)計(jì)使得決策分析系統(tǒng)的價(jià)值體現(xiàn)邁向了一個(gè)新的臺(tái)階。

5 結(jié)語

本文從保險(xiǎn)行業(yè)的特點(diǎn)以及其決策系統(tǒng)的時(shí)效性要求出發(fā),提出要建立一種新的流式計(jì)算基于混合計(jì)算、分離存儲(chǔ)過程的模式,極大地提升了報(bào)表的數(shù)據(jù)及時(shí)性,基本滿足更多業(yè)務(wù)追蹤上的應(yīng)用場(chǎng)景。技術(shù)框架上,采用的是Spark和kafka等開源軟件作為技術(shù)核心,具備一定的可擴(kuò)展性和先進(jìn)性,同時(shí)為了讓該技術(shù)方案具備一定的推廣性,提出了基于實(shí)時(shí)計(jì)算平臺(tái)的公共JAR包以及簡易SQL的模板支持,可以將該方案快速復(fù)制,具有開發(fā)周期短、可復(fù)用性高等特點(diǎn)。

圖3 系統(tǒng)架構(gòu)圖

在未來,將會(huì)進(jìn)一步對(duì)該技術(shù)架構(gòu)迭代改進(jìn),并針對(duì)保險(xiǎn)行業(yè)對(duì)于數(shù)據(jù)質(zhì)量要求高、重穩(wěn)定等特點(diǎn)進(jìn)行針對(duì)性優(yōu)化,使之能夠在更多的數(shù)據(jù)分析場(chǎng)景中快速推廣,能夠?yàn)楣緮?shù)據(jù)存儲(chǔ)、計(jì)算、分析的全價(jià)值鏈提供數(shù)據(jù)可視化平臺(tái),迎接更多的大數(shù)據(jù)挑戰(zhàn)。

猜你喜歡
決策分析流式決策
基于大數(shù)據(jù)應(yīng)用的智能公交決策分析平臺(tái)
為可持續(xù)決策提供依據(jù)
輻流式二沉池的結(jié)構(gòu)優(yōu)化研究
決策為什么失誤了
當(dāng)前軍事決策分析關(guān)注的幾個(gè)問題
微球測(cè)速聚類分析的流式液路穩(wěn)定性評(píng)估
自調(diào)流式噴管型ICD的設(shè)計(jì)與數(shù)值驗(yàn)證
流式在線直播視頻的采集
河南科技(2015年8期)2015-03-11 16:23:41
基于GIS的城市交通流模擬與決策分析
河南科技(2014年19期)2014-02-27 14:15:46
美國擴(kuò)大朝鮮戰(zhàn)爭的決策分析
軍事歷史(2003年6期)2003-08-21 06:47:18
郸城县| 石门县| 扎兰屯市| 清远市| 东乡族自治县| 青田县| 大港区| 威信县| 五河县| 和政县| 柳河县| 华蓥市| 如皋市| 大竹县| 秦皇岛市| 加查县| 岚皋县| 克东县| 富民县| 巴青县| 巧家县| 若尔盖县| 彰化县| 沁阳市| 吴川市| 崇左市| 隆昌县| 宝兴县| 广饶县| 田林县| 洛宁县| 高邑县| 凌云县| 砀山县| 汉中市| 弋阳县| 无极县| 五莲县| 昭觉县| 大兴区| 金寨县|