设置 ETL 流程分为几个阶段:
Posted: Sun Jan 26, 2025 4:22 am
创建 ETL 流程
任务的定义
假设一个组织决定为其销售部门的员工开发奖金系统。在这种情况下,有必要研究销量和奖金的数据。数据工程师应承担以下任务:配置收集数据并将其发送到分析仓库的流程。因此,专家需要找出:
使用哪些系统来存储信息:CRM、数据库、文档。
如何设计目标表。最终的数据将存储在其中。您必须选择格式和列名称。
数据多久更新一次?您可以指定以下选项:每天一次、每小时一次或实时一次。
哪些信息需要更新。例如,在特定时间段内收到的数据。此外,您还可以更新已输入数据库的信息。
数据中可能出现哪些问题以及应该如何处理这些问题。例如,遗漏、异常、测试值、格式不正确。
系统如何通知业主有关问题。例如,如果一天内收到的信息比以前少三倍。
获取数据访问权限
假设销售信息存储在 1C 中,员工数据存储在 Google 电子表格中,奖金存储在数 rcs 数据库 据库中。每个列出的平台都有自己的访问要求。此外,某些负责人可能会提供信息访问权限。专家需要:
联系负责人并获得使用系统的许可和所需信息。
创建一个单独的帐户。自动 ETL 流程需要它才能发挥作用。这样,负责人就能知道谁在接收数据。
创建个人数据工程师帐户。这是执行快速数据检查和调试工作所必需的。通常,专家只能获得有限的访问权限。例如,工程师不会看到客户的个人信息。
提供对测试电路(测试数据)的访问。这是必要的,以便专家可以设置和测试 ETL 流程。
1 月 26 日前,GeekBrains 课程 提供 60% 折扣
只需 9 个月,您就可以找到收入为150,000 卢布的 工作
预订折扣
检查收到的信息
工程师必须了解完成任务需要哪些数据。因此,一些信息需要被过滤。例如,一家公司决定需要淘汰测试卖家帐户。另一种常见情况是奖金以戈比发放,但必须以卢布形式存入金库。
专家接收数据并进行研究。此后,他明白了在编写代码之前需要对信息进行处理。此阶段有时称为数据预处理。
任务的定义
假设一个组织决定为其销售部门的员工开发奖金系统。在这种情况下,有必要研究销量和奖金的数据。数据工程师应承担以下任务:配置收集数据并将其发送到分析仓库的流程。因此,专家需要找出:
使用哪些系统来存储信息:CRM、数据库、文档。
如何设计目标表。最终的数据将存储在其中。您必须选择格式和列名称。
数据多久更新一次?您可以指定以下选项:每天一次、每小时一次或实时一次。
哪些信息需要更新。例如,在特定时间段内收到的数据。此外,您还可以更新已输入数据库的信息。
数据中可能出现哪些问题以及应该如何处理这些问题。例如,遗漏、异常、测试值、格式不正确。
系统如何通知业主有关问题。例如,如果一天内收到的信息比以前少三倍。
获取数据访问权限
假设销售信息存储在 1C 中,员工数据存储在 Google 电子表格中,奖金存储在数 rcs 数据库 据库中。每个列出的平台都有自己的访问要求。此外,某些负责人可能会提供信息访问权限。专家需要:
联系负责人并获得使用系统的许可和所需信息。
创建一个单独的帐户。自动 ETL 流程需要它才能发挥作用。这样,负责人就能知道谁在接收数据。
创建个人数据工程师帐户。这是执行快速数据检查和调试工作所必需的。通常,专家只能获得有限的访问权限。例如,工程师不会看到客户的个人信息。
提供对测试电路(测试数据)的访问。这是必要的,以便专家可以设置和测试 ETL 流程。
1 月 26 日前,GeekBrains 课程 提供 60% 折扣
只需 9 个月,您就可以找到收入为150,000 卢布的 工作
预订折扣
检查收到的信息
工程师必须了解完成任务需要哪些数据。因此,一些信息需要被过滤。例如,一家公司决定需要淘汰测试卖家帐户。另一种常见情况是奖金以戈比发放,但必须以卢布形式存入金库。
专家接收数据并进行研究。此后,他明白了在编写代码之前需要对信息进行处理。此阶段有时称为数据预处理。