博客 > 从ETL到ELT:让分析更快、更稳、更智能

从ETL到ELT:让分析更快、更稳、更智能

 2021-04-28  SequoiaDB
image.png

前言


分布式数据库技术正在迅速发展,随着数据处理的实时性需求越来越高,公司在管理数据处理的过程中,开始从ETL方案,逐渐转向ELT方案

ETL(Extract-Transform-Load),是对数据进行抽取、转换、加载的一系列过程,数据从数据源移动到中间区域(Staging Area),然后再进入数据仓库,所有转换都在数据加载到仓库之前执行。


而ELT(Extract-Load-Transform),则提供了更现代化的替代方案,在该方案中,分析师在转换数据之前将数据加载到数据仓库中,从而支持更灵活、更敏捷的工作方式。


无论是ETL,还是ELT,都是把数据从数据源移动到数据仓库的过程。两种方案的根本区别,在于原始数据「转换」和「加载」的先后顺序,以及随后如何执行分析。


在本文中,我们将对两种方案之间的差异,以及ELT的优势展开讨论。


image.png

传统ETL


传统ETL步骤:

  • 抽取:按照时间戳、触发条件等方式,从数据源中抽取原始数据。在传统的ETL流程中,此数据被放入临时的中间区域(Staging Area)中。


  • 转换:原始数据经过必要的清洗和转换,才能进入数据仓库。如去重、纠错、数据标准统一、按业务规则运算等。


  • 加载:转换后的数据,加载到目的端的数据仓库中。


几十年来,ETL被普遍应用于数据分析领域。最初设计时,ETL通常与传统的关系型数据库一起使用,通过ETL工具来完成上述过程。使用这种方案的数据团队,必须在执行任何分析之前就对数据的所有用例进行预测,然后创建合理的转换规则。在此期间,分析人员通常会等待,直到转换完成,再进行加载入库。

这种模式下,「抽取」和「转换」过程通常由开发人员来完成,而分析人员对于转换过程的逻辑知之甚少,很难准确地理解数据含义,也无法帮助开发人员优化转换过程。同时,还可能导致不正确的分析结论产生。

image.png


image.png

新型ELT


ELT,是传统ETL的新型迭代架构,依托于云数据仓库极强的可扩展性和存算分离架构设计,充分利用数据仓库(或数据湖)优异的计算和存储能力,在数据加载完之后再进行数据转换。由于「转换」过程在数据仓库一侧进行,并且可以通过SQL完成,提供了更加灵活的转换模式,也使得分析人员更清楚地掌控转换规则和逻辑,从而提升分析作业效率。

image.png


image.png

ETL vs ELT


那么,在数据分析业务中采用ELT,将带来哪些优势呢?

  • 敏捷性:所有数据都存储在数据仓库中,随用随取。分析人员可按照实际需求灵活地建模,而不用在数据加载之前规划数据模型。


  • 简便性:数据仓库中的转换通常用SQL来实现,而SQL是整个数据团队(如数据工程师、数据科学家、数据分析师等)都能理解的语言。这使得整个团队都可以参与到数据的转换、分析。


  • 自助服务分析:原始数据都在数据仓库内部,因此可以使用BI工具,从聚合的统计信息中,向下钻取获得其原始数据。


  • 错误修正如果在转换中发现错误,仅需重新运行「转换」步骤来修正数据。而使用传统ETL,则需要重新运行全部「抽取-转换-加载」过程。


在传统数据仓库时代,因为高昂的资源成本(如计算和存储),企业只能把完成「转换」后的数据加载到数据仓库。随着基于云的新一代计算存储解决方案快速发展,云化的资源成本不断下降,传统ETL已经逐渐开始被替代。

但是,在一些特定的应用场景,传统ETL仍存在其使用价值,或者可以同ELT结合使用(ETLT):

  • 数据清理:在敏感数据进入仓库之前(如个人识别信息PII),将其脱敏,保证可以被用户公开访问。


  • 容量控制:在超大容量数据的场景,使用ETL流程,可以对数据进行一定过滤,避免不需要的数据格式进入数据仓库,进而引发性能或容量的问题。


  • 流式转换:大多数数据仓库不支持流式转换。因此,为了保证在海量数据场景下能够实现低延迟、低成本的流式转换,还需要借助传统ETL。


image.png

总结


ELT的优势在于,将所有原始数据从多个源移动至一个统一的存储库,并且可以随时地、无限制地访问所有数据。这使得数据分析更加灵活便利。数据分析人员和技术人员在处理数据时可以更加高效,因为不再需要额外开发复杂的ETL流程。

作为国内领先的数据库厂商,巨杉数据库即将在2021年春季发布会,正式发布「湖仓一体」架构下的数据融合平台SequoiaDB-DP。其原生多模的分布式架构,可以高效、稳定地存储多样化的原始数据,轻松实现数据「加载」。另一方面,深度优化Apache SparkSQL,提供极高性能的实时分析能力,让「转换」 更加高效。同时SequoiaDB-DP还提供丰富的生态对接,支持Tableau、HarryData、帆软等国内外知名分析工具,帮助分析人员快速获得数据分析报表和商业智能决策。

参考资料:https://dataform.co/blog/etl-vs-elt
参考作者:Josie Hall


准备开始体验 SequoiaDB 巨杉数据库?