Isaac Sacolick
Dataops團隊將幫助我們充分利用數(shù)據(jù)。以下內(nèi)容為我們展示了人員、流程、技術(shù)和文化是如何整合在一起的。
你是否注意到大多數(shù)企業(yè)都在嘗試著利用自己的數(shù)據(jù)做更多的事情?
企業(yè)正在大力投資數(shù)據(jù)科學(xué)項目、自助式商業(yè)智能工具、人工智能項目等以提升由數(shù)據(jù)驅(qū)動的決策工作。其中,部分企業(yè)通過將數(shù)據(jù)可視化嵌入到Web和移動產(chǎn)品中,或者從傳感器(物聯(lián)網(wǎng))、可穿戴設(shè)備和第三方API收集新型數(shù)據(jù)的方式開發(fā)面向客戶的應(yīng)用程序。還有部分企業(yè)正在利用來自文檔、圖像、視頻和口語等非結(jié)構(gòu)化數(shù)據(jù)源的信息。
圍繞數(shù)據(jù)和分析的大部分工作都是從中獲取價值。這包括用于決策的儀表盤、報告和數(shù)據(jù)可視化,由數(shù)據(jù)科學(xué)家創(chuàng)建的用于預(yù)測結(jié)果的模型,或整合了數(shù)據(jù)、分析和模型的應(yīng)用程序。
基礎(chǔ)數(shù)據(jù)運營工作(即Dataops)需要在數(shù)據(jù)做好供人們分析和格式化寫入應(yīng)用程序以提供給最終用戶的準備工作之前完成。但是這些工作的價值往往會被低估。
Dataops包括匯集、處理、清理、存儲和管理數(shù)據(jù)的所有工作。為了描述數(shù)據(jù)集成、數(shù)據(jù)處理、ETL(提取、轉(zhuǎn)換和加載)、數(shù)據(jù)準備、數(shù)據(jù)質(zhì)量、主數(shù)據(jù)管理,數(shù)據(jù)屏蔽和測試數(shù)據(jù)管理等不同功能,我們使用了一些復(fù)雜的術(shù)語。
就像汽車并不僅僅是各個零部件的總和一樣,Dataops也是了如此。Dataops是數(shù)據(jù)管理實踐中一個相對較新的總稱,其目標是使數(shù)據(jù)用戶(包括管理人員、數(shù)據(jù)科學(xué)家、應(yīng)用程序)能夠成功地從數(shù)據(jù)中獲取業(yè)務(wù)價值。
Dataops如何與其他技術(shù)實踐協(xié)同工作
Dataops匯聚了眾多靈活工作方法的諸多特點,推動了數(shù)據(jù)處理指標和質(zhì)量的迭代改進。與此同時,它還具有devops的優(yōu)點,尤其是在自動化數(shù)據(jù)流方面,能夠更為頻繁地調(diào)整數(shù)據(jù)處理功能,在響應(yīng)數(shù)據(jù)運營事件時可縮短恢復(fù)時間。
Dataops甚至還發(fā)布了一個DataOps宣言,其中包含了20項原則,涵蓋了文化(不斷滿足客戶)、團隊動態(tài)(自發(fā)組織、每日互動)、技術(shù)實踐(創(chuàng)建一次性環(huán)境)和質(zhì)量(監(jiān)控質(zhì)量和性能)等眾多方面。
你可能想知道為什么需要這一術(shù)語。答案是它們簡化了語言并針對關(guān)鍵業(yè)務(wù)功能定義了角色,這樣有助于推動投資,調(diào)整團隊,圍繞業(yè)務(wù)目標確定優(yōu)先事項。更好地理解這一新術(shù)語的方法是圍繞人員、流程、技術(shù)和文化進行定義。
Dataops對人員的分類
在人員方面,有幾個與Dataops相關(guān)的角色:
客戶是所生成的數(shù)據(jù)、分析、應(yīng)用程序和機器學(xué)習(xí)的直接受益者。他們可以是實際的產(chǎn)品客戶,或使用服務(wù)的客戶,也可以是企業(yè)內(nèi)部的客戶,例如使用分析進行決策的高管和領(lǐng)導(dǎo)者,或者作為業(yè)務(wù)流程的一部分而使用數(shù)據(jù)的員工。
數(shù)據(jù)最終用戶包括數(shù)據(jù)科學(xué)家、儀表盤開發(fā)人員、報表編寫人員、應(yīng)用程序開發(fā)人員、公民數(shù)據(jù)科學(xué)家,或是使用數(shù)據(jù)并通過應(yīng)用程序、數(shù)據(jù)可視化、API等工具提供結(jié)果的人員。
直接從事數(shù)據(jù)運營的人員,包括數(shù)據(jù)庫工程師、數(shù)據(jù)工程師、管理數(shù)據(jù)流和數(shù)據(jù)庫工具的開發(fā)人員。
負責數(shù)據(jù)質(zhì)量、定義和鏈接的數(shù)據(jù)管理員。
企業(yè)所有者通常是數(shù)據(jù)服務(wù)的購買者,他們會圍繞采購、資金、創(chuàng)建策略和處理(數(shù)據(jù)供應(yīng)鏈)做出自己的決策。
定義數(shù)據(jù)流、開發(fā)和操作流程
Dataops有許多流程和規(guī)則,它們的成熟程度和投資在很大程度上依賴于業(yè)務(wù)需求的性質(zhì)、數(shù)據(jù)類型、數(shù)據(jù)復(fù)雜性、服務(wù)級別和合規(guī)性。
一方面,Dataops代表從源到傳遞的數(shù)據(jù)流。這是通過Dataops開發(fā)和操作流程管理的制造流程。數(shù)據(jù)流或數(shù)據(jù)管道的開發(fā)可以基于不同的數(shù)據(jù)集成技術(shù)、數(shù)據(jù)清理技術(shù)和數(shù)據(jù)管理平臺。這些流程不僅可以引入數(shù)據(jù),還可以為數(shù)據(jù)管理員提供工具,以管理數(shù)據(jù)質(zhì)量和數(shù)據(jù)規(guī)則中的例外情況,啟用數(shù)據(jù)志和其他的元數(shù)據(jù)功能,以及執(zhí)行數(shù)據(jù)歸檔和刪除程序。
Dataops的第二個方面是開發(fā)過程,通過該過程可以維護和增強數(shù)據(jù)流的各個方面。開發(fā)過程包括幾個階段:沙箱管理、開發(fā)、編排、測試、部署和監(jiān)控。其中,編排、測試和部署階段類似于devops CI/CD管道。
Dataops流程還涉及操作和管理基礎(chǔ)設(shè)施。與devops一樣,這項工作中的一部分與管理生產(chǎn)數(shù)據(jù)流,確??煽啃浴踩院托阅苊芮邢嚓P(guān)。由于數(shù)據(jù)科學(xué)工作流程具有很大的易變性,尤其是機器學(xué)習(xí),因此開發(fā)出可擴展性、高性能和數(shù)據(jù)科學(xué)環(huán)境以支持不同工作負載也更具挑戰(zhàn)性。
Dataops技術(shù)的前景
Dataops涵蓋了大量的數(shù)據(jù)編排、處理和管理功能,所以很多技術(shù)都適用這個術(shù)語。此外,由于許多企業(yè)正在投資大數(shù)據(jù)、數(shù)據(jù)科學(xué)和機器學(xué)習(xí),因此廠商在這一領(lǐng)域內(nèi)展開了激烈競爭。
亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)擁有普通的關(guān)系型數(shù)據(jù)庫、文檔存儲和鍵值數(shù)據(jù)庫等7種類型的數(shù)據(jù)庫。Azure也提供了多種類型的數(shù)據(jù)庫。
大量工具集都集成了數(shù)據(jù)并創(chuàng)建了數(shù)據(jù)流,包括數(shù)據(jù)集成和數(shù)據(jù)流。數(shù)據(jù)流中又存在數(shù)據(jù)質(zhì)量與主數(shù)據(jù)管理。
許多工具與Dataops的開發(fā)、數(shù)據(jù)科學(xué)和測試密切相關(guān)。雖然許多組織機構(gòu)使用的是Jupyter,但是數(shù)據(jù)科學(xué)工作存在其他選項。例如進行測試可以考慮Delphix和QuerySurge等工具。
Alteryx、Databricks、Dataiku和ai可提供端到端的分析和機器學(xué)習(xí)平臺。這些平臺融合了數(shù)據(jù)集、數(shù)據(jù)科學(xué)和devops功能。
其他工具可處理數(shù)據(jù)安全性、數(shù)據(jù)屏蔽和其他數(shù)據(jù)操作。
競爭正在推動數(shù)據(jù)庫文化
應(yīng)用程序開發(fā)團隊和運營團隊之間的矛盾催生了devops,前者為了加快流程不得不頻繁發(fā)布代碼,而后者為了確??煽啃?、性能和安全性會很自然地放慢速度。devops團隊很好地調(diào)和了這一矛盾,促進了對自動化,如CI/CD、自動化測試、基礎(chǔ)設(shè)施即代碼以及集中監(jiān)控的投資,幫助彌合了技術(shù)隔閡。
Dataops是另一個新生事物。數(shù)據(jù)科學(xué)家、儀表盤開發(fā)人員、數(shù)據(jù)工程師、數(shù)據(jù)庫開發(fā)人員以及其他工程師可共同致力于數(shù)據(jù)流和數(shù)據(jù)質(zhì)量。除了管理版本發(fā)布的速度以及基礎(chǔ)設(shè)施的性能、可靠性和安全性之外,Dataops團隊還可以提升數(shù)據(jù)、分析、機器學(xué)習(xí)模型和數(shù)據(jù)交付的競爭價值。
競爭價值取決于整體分析工作的可交付成果和Dataops 團隊解決復(fù)雜數(shù)據(jù)處理的方式。數(shù)據(jù)在數(shù)據(jù)流中的運行速度有多快?支持多少數(shù)據(jù)量和什么樣的質(zhì)量等級?團隊集成新數(shù)據(jù)源的速度有多快?數(shù)據(jù)庫平臺是否能夠支持不斷增長的各種數(shù)據(jù)建模需求?
這些只是Dataops 團隊必須解決的一些問題和性能指標。隨著越來越多的組織機構(gòu)通過數(shù)據(jù)和分析投資來獲取業(yè)務(wù)價值,這也對Dataops 實踐和文化提出了相應(yīng)的需求。
本文作者Isaac Sacolick為《推動數(shù)字化:通過技術(shù)實現(xiàn)業(yè)務(wù)轉(zhuǎn)型的領(lǐng)導(dǎo)者指南》一書的作者。該指南介紹了許多關(guān)于敏捷性、devops和數(shù)據(jù)科學(xué)的實踐,對成功的數(shù)字化轉(zhuǎn)型計劃具有重要的指導(dǎo)意義。
原文網(wǎng)址
https://www.infoworld.com/article/3403665/how-dataops-improves-data-analytics-and-machine-learning.html