大数据知识:数据管道的概念及工作原理

百家号 弱电小知识
ETL管道遵循指定的顺序。正如首字母缩略词所暗示的那样,它们在将数据加载和存储到数据库之前提取和转换数据。并非所有数据管道都必须遵守此时间表。云原生解决方案增加了ELT管道的使用。使用此管道,数据摄取首先发生,但在材料存储在云数据库系统中后执行转换。

数据管道被定义为通过多个连接的数据处理元素将一个或多个数据集从其源移动到目标位置的过程——其中一个元素的结果充当下一个元素的输入。本文详细介绍了它的含义、体系结构以及可以使用的各种工具。

什么是数据管道?

数据管道被定义为通过多个连接的数据处理元素将一个或多个数据集从其源移动到目标位置的过程——其中一个元素的结果充当下一个元素的输入。

数据管道是一种系统,用于从各种来源获取原始信息,然后将其传输到分析就绪文件存储,如数据湖或仓库。在数据通常存储在数据库中之前,它会经过数据处理。

这包括筛选、屏蔽和分组等数据转换,以确保数据的适当集成和标准化。当数据集用于关系数据库时,这一点尤为重要。这个数据库有一个预定的结构;因此,用新数据更新当前信息需要对齐,即链接数据行和类型。

数据管道的基本工作原理是什么?

顾名思义,数据管道充当数据科学计划和商业智能仪表板的管道。数据可以从多个来源获得,包括API、结构化查询语言(SQL)、NoSQL数据库、文件等,但通常不能立即使用。数据准备职责通常分配给数据分析师或数据库管理员,他们组织数据以满足企业应用程序的要求。

探索性调查和业务需求的结合通常决定了工作流所需的数据处理类型。内容经过适当过滤、合并和总结后,可以存储并提供。组织良好的数据管道构成了许多数据工作的基础,例如探索性数据分析、可视化和机器学习任务。

数据管道包含以下操作:

摄取数据:数据是从许多数据源收集的,包括各种数据格式(例如非结构化和结构化数据)。此类基本数据源通常被称为流数据中的发布者、生产者或发送者。虽然组织可能会选择仅在准备好分析数据时才提取数据,但最好的做法是事先将原始数据放置在基于云的数据仓库服务中。通过这种方式,如果需要修改数据处理活动,公司可以更新任何过去的数据。

转换数据:在此阶段,执行许多任务以将信息转换为预期数据存储库所需的格式。这些任务对重复的工作流(例如业务报告)使用自动化和监管,以确保不断清理和转换数据。例如,一个数据流可能到达一个嵌套的JSON文件,数据处理阶段将寻求从这个JSON中提取重要的字段进行分析。

存储数据:转换后的数据随后存储在数据仓库中,其他实体可以访问该数据仓库。流数据中的这种修改后的数据通常称为订阅者、消费者或接收者。

任何涉及频繁自动聚合、清理、转换和传播数据给后续数据消费者的功能或组织活动都需要数据管道。典型的数据用户包括:

监控和警报系统

管理仪表板和报告

商业智能(BI)工具

数据科学团队

许多数据管道还在高级数据细化和转换单元之间传输数据,其中神经网络模型和ML算法可以构建更复杂的数据转换和丰富。这包括分类、回归分析、分组以及开发复杂的指数和倾向评级。

数据管道和ETL一样吗?

ETL是一种特殊的数据管道。ETL代表提取、转换和加载。它是将信息从一个来源(如应用程序)传输到目标(通常是数据仓库)的过程。“提取”是指从源中检索数据;“转换”是指更改数据以将其加载到目标中,“加载”是指将信息输入到目标中。

一些术语,包括数据和ETL管道,可以在讨论中互换使用。但是,您应该将ETL管道视为数据管道的一个子集。三个显着特征定义了这两种管道。

ETL管道遵循指定的顺序。正如首字母缩略词所暗示的那样,它们在将数据加载和存储到数据库之前提取和转换数据。并非所有数据管道都必须遵守此时间表。云原生解决方案增加了ELT管道的使用。使用此管道,数据摄取首先发生,但在材料存储在云数据库系统中后执行转换。

ETL pipelines往往会标示批处理的使用;然而,如前所述,数据管道的范围更大。此外,它们可能包括流处理。

最后,虽然不太可能,但数据管道通常不需要像ETL管道那样执行数据转换。很少有数据管道不使用修改来增强数据分析。

请扫码关注数字化经济观察网
责编:莎莉
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200