国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)分析服務(wù)平臺實踐

2015-03-16 11:10丁賢
電腦知識與技術(shù) 2015年1期
關(guān)鍵詞:易用性數(shù)據(jù)分析

丁賢

摘要:近年來,在傳統(tǒng)銀行業(yè)務(wù)增長乏力及互聯(lián)網(wǎng)金融沖擊等多重壓力下,中國銀行業(yè)積極向智能化轉(zhuǎn)型的趨勢日漸明顯。銀行業(yè)務(wù)服務(wù)理念也正逐漸從“服務(wù)為王”向“體驗為王”轉(zhuǎn)變。作為智能化轉(zhuǎn)型的一個重要環(huán)節(jié) , 大數(shù)據(jù)分析通過對海量數(shù)據(jù)的挖掘提煉出有價值的信息,從而幫助銀行做出有競爭性的決策。但是,數(shù)據(jù)分析的過程具有很強的專業(yè)性,對使用人員的技能要求較高。如何將專業(yè)性很強的數(shù)據(jù)分析和易用性結(jié)合,讓各級用戶都能分享到大數(shù)據(jù)建設(shè)的成果是一個業(yè)內(nèi)都在研究的課題。該文以”體驗好、操作易、可用性高和服務(wù)復(fù)用”的設(shè)計理念為切入點,結(jié)合雙數(shù)據(jù)源架構(gòu)設(shè)計、異步查詢框架、參數(shù)化界面配置和聯(lián)機構(gòu)件等技術(shù)手段的支撐,闡述了基于服務(wù)的數(shù)據(jù)分析平臺的構(gòu)建思路。

關(guān)鍵詞: 數(shù)據(jù)分析;易用性;基于服務(wù);可定制;大數(shù)據(jù)可視化

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)01-0001-04

The Practice of the Big Data Analysis Service Platform

DING Xian

(Software Development Center, Industrial Commercial Bank of China Ltd, Shanghai 201206,China)

Abstract: In recent years, under the multiple pressure of the weak growth in the traditional banking business and the Internet financial impact, the trend that the service of Chinese banking is actively updated to the intelligent level is increasingly obvious. The concept of the Banking service is gradually changing from "service is the god" to "the experience is the god" . As an important part of intelligent transformation, the analysis of large data can extract valuable information by mining among the massive data, which can help the bank to make competitive decisions. However, the process of the data analysis is very professional and requires higher skills. How to combine the highly professional data analysis and the ease of use in order to share the achievements of the large data construction among the users is a widely studied topic. This paper takes the design concept of " good experience , ease of operation, high availability and the resue of service" as the starting point, combining some key technical measures which include the design of dual data souce and the framework of the asynchronous query ,etc, parameterized interface configuration and the on-line component techniques, expounds the idea of constructing the service-based platform of the data analysis.

Key words: data analysis; usability; service-based; customization; large data visualization

大數(shù)據(jù)作為一種重要企業(yè)資產(chǎn),其重要性已深入人心。隨之涌現(xiàn)了大批挖掘平臺和工具,幫助業(yè)務(wù)部門挖掘大數(shù)據(jù)的潛在業(yè)務(wù)價值。由于數(shù)據(jù)挖掘工作本身有很強的專業(yè)性,對分析人員技能要求比較高,且存在重算法而輕交互的情況,一定程度上制約了大數(shù)據(jù)分析的推廣?!叭绾谓档褪褂瞄T檻,使更多業(yè)務(wù)人員都能分享到大數(shù)據(jù)建設(shè)成果并應(yīng)用到實際業(yè)務(wù)中”是大數(shù)據(jù)建設(shè)過程中所面臨的一個重要課題。

作為以上問題的一種解決對策,該文敘述了一個基于服務(wù)的數(shù)據(jù)分析平臺的構(gòu)建思路。以”易“為切入,結(jié)合”提升用戶體驗”、“整合資源”、“系統(tǒng)靈活可訂制”這3個主要著眼點展開平臺的設(shè)計和構(gòu)建工作,綜合運用了消息隊列、多級緩存、數(shù)據(jù)可視化、批量聯(lián)機和負(fù)載均衡等技術(shù)手段。

1 總體框架

整個框架根據(jù)數(shù)據(jù)的流轉(zhuǎn)進(jìn)行了分層,具體包括資源層、核心功能層,基礎(chǔ)服務(wù)層,服務(wù)構(gòu)件層和應(yīng)用領(lǐng)域?qū)樱ㄈ鐖D1所示)。

各層的定位和技術(shù)實現(xiàn)如下:

資源層:數(shù)據(jù)分析平臺的資源包括2大類,一類是數(shù)據(jù)資源,包括數(shù)據(jù)倉庫、hadoop等,平臺對于這類資源訪問的技術(shù)手段以“數(shù)據(jù)是否落地”為標(biāo)準(zhǔn)分為2種,1種是通過消息隊列的異步聯(lián)機查詢,另1種是通過下數(shù)加載的方式實現(xiàn)本地庫的訪問; 平臺訪問的另一類資源是系統(tǒng)資源,比如:SAS EG 等分析工具,對于該類資源的訪問采用門戶的方式進(jìn)行集成,提供入口鏈接或基于服務(wù)的調(diào)用方式進(jìn)行整合。

基礎(chǔ)服務(wù)層:作為平臺的服務(wù)基礎(chǔ),圍繞著“提高聯(lián)機響應(yīng)、簡化用戶操作、確保系統(tǒng)穩(wěn)定、降低維護成本和監(jiān)控”等設(shè)計原則,綜合運行了各類技術(shù)和算法為核心功能層提供保障。具體技術(shù)方式包括:基于雙數(shù)源的消息隊列、基于內(nèi)存混存和文件緩存的多級緩存、基于雙線程的預(yù)約定制功能、實現(xiàn)批量和聯(lián)機資源動態(tài)調(diào)優(yōu)的作業(yè)調(diào)度以及為減少維護成本而基于監(jiān)聽器的日志統(tǒng)計功能。

核心功能層:本層提供了與用戶存在交互的聯(lián)機功能。功能的設(shè)置貼近數(shù)據(jù)分析工作,以簡潔的操作為設(shè)計目標(biāo)。具體技術(shù)方面,包括跨hadoop&TD數(shù)據(jù)庫的向?qū)焦δ?、可靈活在線定制的模型、集成挖掘工具的分析工具集等。

服務(wù)構(gòu)件層:數(shù)據(jù)分析平臺對服務(wù)展現(xiàn)方式和服務(wù)提供方式也進(jìn)行了構(gòu)件化。具體技術(shù)包括:基于會話同步的界面嵌入、基于接口調(diào)用的異步查詢以及基于echarts的大數(shù)據(jù)可視化構(gòu)件應(yīng)用。

應(yīng)用領(lǐng)域?qū)樱悍治銎脚_的服務(wù)對象,可以是各業(yè)務(wù)領(lǐng)域的業(yè)務(wù)人員,也可以是相關(guān)業(yè)務(wù)領(lǐng)域的其它應(yīng)用。

2 技術(shù)實現(xiàn)

2.1 綜述

數(shù)據(jù)分析平臺力求將高深的大數(shù)據(jù)挖掘以一種更加簡潔的方式提供給廣大用戶并提供門戶式的訪問路徑,使更多基層用戶能分享到大數(shù)據(jù)建設(shè)的成果并應(yīng)用到工作中。圖2列出了本文的總體業(yè)務(wù)價值和技術(shù)體系,接下來將圍繞著“提升用戶體驗”、“整合資源”、”系統(tǒng)靈活可訂制”這3個方面深入進(jìn)行探討。

2.2提升數(shù)據(jù)分析用戶體驗方面的技術(shù)實現(xiàn)

2.2.1 基于OLAP+OLTP的雙數(shù)據(jù)源消息隊列設(shè)計助力數(shù)據(jù)分析

數(shù)據(jù)服務(wù)平臺是基于OLAP系統(tǒng)開展數(shù)據(jù)分析工作。相較OLTP系統(tǒng),OLAP的特點是存放海量數(shù)據(jù),但聯(lián)機響應(yīng)效率相對較慢。為了確保數(shù)據(jù)分析平臺有良好的用戶體驗,綜合OLAP+OLTP的特點,構(gòu)建了基于雙數(shù)據(jù)源的消息隊列處理機制。

該處理機制的核心思想是, 利用oracle數(shù)據(jù)庫聯(lián)機響應(yīng)能力強的特點,將模型管理、查詢隊列等涉及聯(lián)機交互的操作數(shù)據(jù)部署在oracle上,海量的業(yè)務(wù)數(shù)據(jù)仍保留在數(shù)據(jù)數(shù)據(jù)庫上。通過ETL調(diào)度+消息隊列的方式,將oracle的“快”數(shù)據(jù)以及數(shù)據(jù)倉庫的”海量“數(shù)據(jù)粘合起來。

具體流程是: 用戶通過前臺提交查詢請求,該查詢請求存放在oracle數(shù)據(jù)庫中;在ETL 調(diào)度服務(wù)器起服務(wù),每間隔一段時間(可參數(shù)配置)掃描oracle的隊列表,若發(fā)現(xiàn)待處理的請求,則根據(jù)優(yōu)先級和并發(fā)數(shù)抓取一定數(shù)量的請求進(jìn)行查詢;ETL服務(wù)器上查詢完成后,生成文件放到外置存儲,同時更新oracle上消息隊列表中的執(zhí)行狀態(tài),供前臺聯(lián)機訪問。

2.2.2 通過多級緩存設(shè)計提高數(shù)據(jù)分析采樣訪問效率

在數(shù)據(jù)分析的實際操作時,為確保樣本數(shù)據(jù)的代表性,采樣結(jié)果集往往非常大,如何對結(jié)果集進(jìn)行有效管理,提高類似查詢的效率也是平臺在建設(shè)過程中需要解決的問題。

為實現(xiàn)結(jié)果的復(fù)用,提高業(yè)務(wù)數(shù)據(jù)的訪問效率,數(shù)據(jù)分析平臺對緩存進(jìn)行了分層設(shè)計和實現(xiàn)。

根據(jù)使用特點,分為以下3個層次。

1) 本地緩存:定位為用于保存一些靜態(tài)的參數(shù),比如:字典類參數(shù)。在應(yīng)用服務(wù)器啟服務(wù)時讀取oracle參數(shù)表的數(shù)值加載到本地內(nèi)存中,供聯(lián)機訪問。

2) 分布式緩存:定位為存放一些動態(tài)變化且訪問頻次較高的數(shù)據(jù)。比如:用戶最關(guān)心的模型信息,考慮到該信息訪問頻繁且由于用戶可以實時部署模型存在動態(tài)變化的特點,為此在向數(shù)據(jù)庫新增模型數(shù)據(jù)的同時向分布式緩存中寫入模型信息,既提高了訪問效率同時也減輕了數(shù)據(jù)庫的壓力。

3) 文件緩存:定位用于保存每次模型的查詢結(jié)果。為提高查詢結(jié)果的復(fù)用性,數(shù)據(jù)分析平臺采用文本的方式保留查詢結(jié)果。后續(xù)再次查詢歷史結(jié)果則可直接訪問文件緩存即可,減少了再次查詢的開銷,提高了查詢效率。

2.2.3 通過大數(shù)據(jù)可視化技術(shù)直觀展現(xiàn)數(shù)據(jù)的內(nèi)在聯(lián)系

對于大數(shù)據(jù)分析而言,傳統(tǒng)的表格形式無法直觀的發(fā)現(xiàn)隱藏在復(fù)雜、多維數(shù)據(jù)后的規(guī)律,需要有一種直覺的、可交互的可視化環(huán)境來幫助深度挖掘數(shù)據(jù)價值。

大數(shù)據(jù)可視化的工作分為2個層面:靜態(tài)展示和交互性。

其中,靜態(tài)展示的實踐可按照以下3個場景有針對性的開展:

1) 將數(shù)值圖形化:當(dāng)1個指標(biāo)時,將數(shù)據(jù)的大小以圖形的方式表現(xiàn)

2) 指標(biāo)關(guān)系圖形化:當(dāng)存在多個指標(biāo)時,挖掘指標(biāo)之間的關(guān)系并將其圖形化,可提升圖表的可視化深度。

3) 按空間可視化:當(dāng)圖表數(shù)據(jù)存在地域信息并需要突出表現(xiàn)時,可用地圖將空間可視化。

2.3 系統(tǒng)靈活可定制方面的技術(shù)實現(xiàn)

2.3.1 基于”雙線程調(diào)度+用戶在線定制“的數(shù)據(jù)分析預(yù)約采樣功能

預(yù)約采樣功能提供給分析人員在將來某個時間點或某段時間內(nèi)周期性運行取數(shù)模型的功能。主要解決數(shù)據(jù)分析過程中2個業(yè)務(wù)問題:

1) 需定期獲取采樣數(shù)據(jù)的任務(wù),免除了用戶反復(fù)提交的重復(fù)勞動。

2) 充分利用計算資源空閑的特點,實現(xiàn)”晚上定時預(yù)約,白天看數(shù)”的工作模式,提高工作效率。

預(yù)約采樣功能的具體技術(shù)實現(xiàn)由3部分組成:基于雙線程的調(diào)度框架、 時間頻度表達(dá)式和預(yù)定義時間變量和解析。

2.3.1.1 雙線程調(diào)度框架

應(yīng)用服務(wù)器上啟動兩個線程ScheduleCheck和ScheduleScan。 其中,線程 ScheduleCheck屬于守護線程,負(fù)責(zé)監(jiān)控線程ScheduleScan是否處于活動狀態(tài),若發(fā)現(xiàn)未啟動則會通過new ScheduleScan().start() 自動啟動ScheduleScan線程。線程ScheduleScan是工作線程,作為定時任務(wù)掃描預(yù)約規(guī)則表,根據(jù)時間頻度表達(dá)式的計算,將達(dá)到執(zhí)行周期的查詢記錄添加到查詢隊列中。該工作線程的掃描頻度目前為10分鐘,通過配置文件靈活配置。

2.3.1.2 時間頻度表達(dá)式和解析

參照Quartz的Cron 表達(dá)式對頻度定義的格式,通過自定義程序進(jìn)行解析。

具體實現(xiàn)步驟如下:

①定義頻度格式:在預(yù)約功能使用到了以下表的6個域,粒度到分鐘

例如 每月15號的 10:15 AM 表示 0 15 10 15 * ?

②解析表達(dá)式,計算下次預(yù)約時間點:對于周期性運行的預(yù)約,將解析表達(dá)式后得到的頻度與最后一次運行時間結(jié)合計算出下次預(yù)約的具體時間點。

③對滿足時間窗口的預(yù)約觸發(fā)查詢:將前一步計算出的下次預(yù)約的具體時間點和當(dāng)前掃描時間進(jìn)行比較,若誤差在10分鐘以內(nèi),則認(rèn)為達(dá)到預(yù)約窗口(考慮到輪詢存在時間間隔),則將其對應(yīng)的預(yù)約的查詢?nèi)蝿?wù)添加到查詢隊列中并執(zhí)行。

2.3.1.3 預(yù)先定義時間變量和解析

為解決周期性執(zhí)行腳本中只是時間變量在變化的特點,預(yù)先定義了一批日期變量并應(yīng)用到模型腳本中。當(dāng)預(yù)約時間點到達(dá)并執(zhí)行時,系統(tǒng)解析腳本中的時間變量替換成實際的日期后完成查詢。例如:當(dāng)系統(tǒng)讀取到變量${TX_MONTH_END}時,系統(tǒng)用日期函數(shù)Calendar的getActualMaximum方法得到當(dāng)前月份的最大日期,拼接當(dāng)前年份和月份后組成當(dāng)前月末的時間格式(yyyy-MM-dd),之后用這個時間替換掉查詢腳本中的${TX_MONTH_END},然后執(zhí)行。

2.4 整合第三方數(shù)據(jù)分析資源的技術(shù)實現(xiàn)

分析工具集實現(xiàn)了對各類第三方分析工具的資源整合,以門戶的方式作為工具訪問的統(tǒng)一入口。

根據(jù)工具的特點不同,資源整合可分以下幾種:

1) 若工具本身是WEB應(yīng)用,則通過URL進(jìn)行調(diào)用。比如:配置聯(lián)接"location.href=http://IP:6401/AnalyticsPlatform/Status"來訪問SAS EM

2) 若工具本身是C/S軟件,則在頁面上通過windows的shell命令來調(diào)用客戶端

var fso = new ActiveXObject("Scripting.FileSystemObject");

...

if (fso.FileExists(egPath)) {

var objShell = new ActiveXObject("Wscript.Shell");

objShell.exec(egPath);}

3) 若涉及其他類型的異構(gòu)資源,則通過基于SOA的Webservice來進(jìn)行異構(gòu)系統(tǒng)的服務(wù)集成.具體方式是: 相關(guān)資源封裝為webserivce,通過UDDI進(jìn)行服務(wù)的發(fā)布(同步發(fā)布 WSDL web服務(wù)描述), 數(shù)據(jù)分析平臺通過http協(xié)議檢索WSDL獲取對應(yīng)的web service信息,然后通過SOAP協(xié)議進(jìn)行遠(yuǎn)程調(diào)用;將調(diào)用結(jié)果在數(shù)據(jù)分析平臺側(cè)進(jìn)行頁面整合,然后提供給用戶訪問.

3 結(jié)束語

數(shù)據(jù)分析平臺的業(yè)務(wù)價值是解決大數(shù)據(jù)分析過程中使用”易”的問題。數(shù)據(jù)分析平臺力求將高深的大數(shù)據(jù)挖掘以一種更加簡潔的方式提供給廣大用戶并提供門戶式的訪問路徑,使更多基層用戶能分享到我大數(shù)據(jù)的成果并應(yīng)用到工作中。走出一條有特色的大數(shù)據(jù)分析業(yè)務(wù)推廣之路:即因“使用易”到“受眾廣”,繼而到大數(shù)據(jù)分析“應(yīng)用深”的升華。

參考文獻(xiàn):

[1] 張良均,陳俊德,劉名軍,陳榮.數(shù)據(jù)挖掘:實用案例分析[M].北京:機械工業(yè)出版社,2013.

[2] 陳哲.數(shù)據(jù)分析:企業(yè)的賢內(nèi)助[M].北京:機械工業(yè)出版社,2013.

[3] 彭淵.大規(guī)模分布式系統(tǒng)架構(gòu)與設(shè)計實戰(zhàn)[M].北京:機械工業(yè)出版社,2014.

[4] IT架構(gòu)設(shè)計研究組.大數(shù)據(jù)時代的IT架構(gòu)設(shè)計[M].北京:電子工業(yè)出版社,2014.

[5] 陳康賢.大型分布式網(wǎng)站架構(gòu)設(shè)計與實踐[M].北京:電子工業(yè)出版社,2014.

[6] 李智慧.大型網(wǎng)站技術(shù)架構(gòu):核心原理與案例分析[M].北京:電子工業(yè)出版社,2013.

[7] 趙勇等.大數(shù)據(jù)革命——理論、模式與技術(shù)創(chuàng)新[M].北京:電子工業(yè)出版社,2014.

[8] 涂子沛.數(shù)據(jù)之巔:大數(shù)據(jù)革命,歷史、現(xiàn)實與未來[M].北京:中信出版社,2014.

猜你喜歡
易用性數(shù)據(jù)分析
政務(wù)軟件易用性評測探究
中國國際人才交流大會網(wǎng)站易用性評價調(diào)查問卷
身份認(rèn)同對網(wǎng)絡(luò)購物行為的影響
我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
新常態(tài)下集團公司內(nèi)部審計工作研究
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務(wù)優(yōu)化建議
移動應(yīng)用界面動效易用性研究
讀者消費俱樂部
同仁县| 武威市| 曲沃县| 会昌县| 三亚市| 凤山市| 浦城县| 崇信县| 禄劝| 山阴县| 松阳县| 沙洋县| 南安市| 密山市| 运城市| 漾濞| 兴业县| 鄢陵县| 东光县| 商洛市| 云阳县| 邳州市| 台江县| 吉林省| 乃东县| 星子县| 乐都县| 江西省| 普洱| 松阳县| 宜良县| 临西县| 阿拉善右旗| 云梦县| 惠水县| 江口县| 邛崃市| 鹤壁市| 栖霞市| 东丰县| 红桥区|