DataOps 是什么呢?
DataOps 是技术实践、工作流、文化规范和架构模式的集合,可实现:
- 快速创新和实验以不断提高的速度为客户提供新的见解
- 极高的数据质量和极低的错误率
- 跨复杂的人员、技术和环境进行协作
- 清晰的测量、监控和结果的透明度
DataOps 试图解决什么问题?
DataOps 可以控制您的工作流程和流程,消除阻碍您的数据组织实现高水平生产力和质量的众多障碍。我们将提出新想法和部署完成的分析之间的时间称为“周期时间”。许多组织需要数月的周期时间来部署 20 行 SQL。冗长的循环时间使用户气馁和失望并阻碍创造力。
理想情况下,数据团队与他们的用户携手合作,就像一台运转良好的机器,提出新的想法建议,快速实施它们,并快速迭代以获得更高质量的模型和分析。不幸的是,我们的经验正好相反。数据团队经常被数据和分析错误打断。数据科学家花费 75% 的时间来处理数据和执行手动步骤。缓慢且容易出错的开发使数据团队成员和利益相关者感到失望和沮丧。分析 周期过长的原因有多种:
- 数据团队内部团队合作不佳
- 数据组织内各组之间缺乏协作
- 等待 IT 部署或配置系统资源
- 等待访问数据
- 缓慢谨慎 地移动 ,以免质量不佳
- 需要批准,例如来自影响审查委员会的批准
- 不灵活的 数据架构
- 工艺瓶颈
- 之前部署的技术债务
- 质量差导致计划外工作
DataOps 应遵循的18个原则?
持续满足您的客户:
我们的首要任务是通过从几分钟到几周的尽早的持续交付有价值的分析见解来满足客户。
价值工作分析:
数据分析性能的主要衡量标准是提供有洞察力的分析的程度,在强大的框架和系统之上整合准确的数据。
迎接改变:
我们欢迎不断变化的客户需求,事实上,我们拥抱它们以产生竞争优势。我们相信与客户沟通最高效、最有效、最敏捷的方法是面对面的交谈。
这是一项团队运动:
分析团队总是有各种各样的角色、技能、最喜欢的工具和头衔。多样化的背景和观点可以提高创新和生产力。
日常互动:
客户、分析团队和运营必须在整个项目中每天协同工作。
自组织:
我们相信最好的分析洞察力、算法、架构、需求和设计来自自组织团队。
减少英雄主义:
随着对分析洞察需求的速度和广度不断增加,我们认为分析团队应该努力减少英雄主义并创建可持续和可扩展的数据分析团队和流程。
反映:
分析团队应该通过定期自我反思客户、他们自己和运营统计数据提供的反馈来微调他们的运营绩效。
分析是代码:
分析团队使用各种单独的工具来访问、集成、建模和可视化数据。从根本上说,这些工具中的每一个都会生成代码和配置,这些代码和配置描述了对数据采取的操作以提供洞察力。
编排:
数据、工具、代码、环境和分析团队工作的自始至终编排是分析成功的关键驱动因素。
使其可重现:
需要可重现的结果,因此我们对所有内容进行版本控制:数据、低级硬件和软件配置,以及工具链中每个工具特定的代码和配置。
一次性环境:
我们认为,通过为分析团队成员提供易于创建、隔离、安全和一次性的技术环境来反映他们的生产环境,从而最大限度地降低他们进行实验的成本非常重要。
简单:
我们相信持续关注技术卓越和良好的设计可以提高敏捷性;同样,简单——最大化未完成工作量的艺术——也是必不可少的。
分析是制造:
分析管道类似于精益生产线。我们相信 DataOps 的一个基本概念是专注于过程思维,旨在在分析洞察力的制造中实现持续的效率。
质量至上:
分析管道应该建立在能够自动检测代码、配置和数据中的异常 (jidoka) 和安全问题的基础上,并应向操作员提供持续反馈以避免错误 (poka yoke)。
监控质量和性能:
我们的目标是持续监控性能、安全和质量措施,以检测意外变化并生成运营统计数据。
重用:
我们相信分析洞察制造效率的一个基本方面是避免个人或团队重复以前的工作。
改善循环时间:
我们应该努力最大限度地减少将客户需求转化为分析理念、在开发中创建、将其作为可重复的生产过程发布,最后重构和重用该产品的时间和精力。
翻译整理:马欢:DAMA China会员,DAMA数据管理专家,《DMBOK数据管理知识体系(第1&2版)》中文版主译者,项目管理师,系统分析师,架构师,PMP,CDMP Master。