博客 > 首次公开!赛迪顾问《湖仓一体技术研究报告》深入解读

首次公开!赛迪顾问《湖仓一体技术研究报告》深入解读

 2022-08-12  巨杉数据库、sequoiadb

分布式数据库技术,聚焦金融银行业,紧贴客户发展需求,从多模数据湖、实时数据湖发展到湖仓一体架构。湖仓一体技术借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放,正成为企业数字化转型过程中备受关注的焦点。


近日,巨杉数据库SequoiaDBv5.2产品发布会成功举办。发布会上,赛迪顾问软件与信息服务业研究专家出席,并对此前发布的《湖仓一体技术研究报告》进行了深入解读。

本次解读分享,结合湖仓一体技术的发展历程,对现阶段业界重点产品,典型案例,未来趋势等多方面内容进行了剖析,综合评判了湖仓一体技术的发展阶段及未来应用场景。


官网小杉树.png

发展历程



从数据管理架构的发展来看,湖仓一体技术的发展可分为三个阶段。第一阶段是上世纪80年代开始的“数据仓库”阶段,第二阶段是2011年伴随着大数据发展而产生的“数据湖”技术,第三阶段就是近年来开始的数据湖与数据仓库的融合趋势,业界称为“湖仓一体”。


数据管理架构的革新,是在企业需求的推动下进行的,新兴技术催生新的市场需求,从而导致数据管理架构相应调整。以湖仓一体为例,当下企业海量大数据场景下的实时处理,非结构化数据治理等需求,都是推动数据湖与数据仓库融合的重要动力。


eb79a39af898e4fc94e09230e312f8de.png


数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库产生的背景主要在于传统交易核心数据库脑容量不足,擅长事务型工作,但不擅长分析型工作,无法满足企业对于数据分析的发展需求。


从数据仓库架构图可以看出,数据仓库的主要功能,是将企业信息化管理系统中联机事务处理所积累的大量数据,通过数据仓库特有的信息存储架构,系统化分析整理,进而支持如决策支持系统、主管资讯系统的创建,帮助决策者快速有效的从大量数据中分析出有价值的信息,以利于后期决策拟定及对外在环境变化的快速回应,帮助其构建商业智能。


a13b33e35c3bb50baa48754df21284d5.png


在大数据时代数据量剧增背景下,催生了数据湖技术。数据湖是一个存储企业各种各样原始数据的大型仓库,可供数据存取、处理、分析以及传输,可看作一种大型数据存储库和处理引擎。相比于数据仓库而言,数据湖存储容量更大,数据类型更为丰富,增加了对半结构化数据和非结构化数据的支持,同时对所有数据进行集中式存储。并具有庞大的PB级数据存储规模以及计算能力,提供多元化数据信息交叉分析,及大容量高速度的数据管道。


05612223cc6351a1df671f6a52498e09.png


湖仓一体则是一种新型的开放式架构,打通了数据仓库和数据湖,并融合了两种架构的优势。其底层支持多种数据类型并存,且实现数据间的相互共享。上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析。湖仓一体使得数据入湖后可原地进行数据处理加工,避免数据多份冗余以及流动导致的算力、网络及成本开销,可作为超大型的数据存储资源池,实现对全量数据的实时处理。


01515b91f248a4b67132668ff8424c78.png

  

相比于数据湖,湖仓一体架构的主要功能是增强了实时业务处理以及非结构化数据的治理能力。湖仓一体的优势主要体现在四个方面,一是具备完善的数据管理能力,二是数据可实现及时追溯,三是支持丰富的计算引擎,四是更高的数据实时性。


官网小杉树.png

用户痛点



随着数字经济时代的快速发展,独立构建数据湖与数据仓库两套平台的架构设计,在某些场景已经无法满足客户需求,新兴技术发展、“数据沼泽”问题及数字化转型三大痛点,催生了湖仓一体技术的发展。


新兴技术发展主要指随着5G、大数据、人工智能、物联网等技术的飞速发展,数据量呈现出大规模、多样性的特点,为应对多变的业务诉求,政企客户对数据处理分析的实时性和融合性提出了更高的要求。


“数据沼泽”则是指随着企业逐渐发展壮大,数据量与业务量不断递增,处理数据的成本也在不断增加,但却无法有效利用数据资源来产生价值。而数据湖架构本身就缺少对数据监管、控制和必要的治理手段,导致运维成本不断增加,数据治理效率降低。长此以往,企业落入了“数据沼泽”的境地。


而数字化转型的核心要义,就是实现「释放全量数据价值」。随着企业数字化转型的深化,跨多业务、多数据类型的新型应用场景不断涌现,海量大数据场景下的实时处理、非结构化数据治理等需求,给企业数据基础设施带来了新的挑战。


企业不仅需要面向业务交易的信息化传统「交易核心」,同时更需要面向数据价值的「数据核心」。与传统「交易核心」往往仅针对特定业务系统解决其交易需求不同的是,「数据核心」需要汇聚从多个「交易核心」产生的实时交易流水数据,为全企业跨业务的多个系统提供高并发的实时对客全量数据查询及数据探索分析能力。


湖仓一体技术的出现,在实现了对数据湖与数据仓库技术融合,借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放的同时,也成为企业数字化转型过程中的关注焦点,为用户带来了新的意义价值。


19182a3466855ea36328c6fadba83839.png


  • 一是弥补原架构的不足。相比数据湖来说,湖仓一体架构能够支撑实时查询和实时分析场景,弥补了Hadoop技术对于数据实时处理能力的不足。而相比数据仓库来说,湖仓一体架构作为支持实时处理的统一数据底座,具备多引擎实时处理多类型数据的能力,避免了数据仓库无法分析非结构化数据的问题,以及不同平台间数据移动所带来的成本。


  • 二是能够降低企业成本,提高效率。湖仓一体架构能够降低数据流动带来的开发成本及计算存储开销,提升企业效率。


  • 三是助力企业数字化转型。在企业数字化转型的过程中,企业需要根据自身业务场景及发展诉求来设计系统架构,单一模式已然无法满足。而湖仓一体架构能够帮助企业构建起全新的数据融合平台,打破了数据湖与数据仓库割裂的体系,将数据湖的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。


  • 四是降低能耗,实现低碳节能。湖仓一体技术能够从基础架构上打通数据湖与数据仓库,提供实时查询以及实时分析能力,从而有效的降低了能耗。


官网小杉树.png

发展现状



现阶段,数据湖与数据仓库的融合发展主要有三个技术路径,根据不同路径的技术特性,可以满足不同场景下的客户需求。


  • 第一个是基于Hadoop体系的数据湖向数据仓库能力扩展,在数据湖中建数据仓库,通过引入数据仓库的分析功能,从数据湖直接进化到湖仓一体。


  • 第二个是基于自身云平台进行架构构建,主要是公有云厂商基于自身云平台或相关产品,通过自研技术打通数据湖与数据仓库,实现湖仓一体功能。


  • 第三个是以独立数据库厂商为代表的梯队,其以数据库技术为基础,自研分布式平台,从调度、计算到存储不依赖第三方平台,形成可以灵活在公有云、私有云、裸金属等场景独立部署的湖仓一体平台。这类的代表厂商如海外的Snowflake,Databricks及国内的巨杉数据库等。


f99e118b1b56e799ee0707a8dc8cb1f0.png


报告选取了业界比较主流的6个湖仓一体产品进行对比分析,包括海外厂商Snowflake、Databricks及亚马逊AWS智能湖仓,国内厂商巨杉数据库SequoiaDB、阿里云MaxCompute湖仓一体方案、华为云FusionInsight。


从设计初衷来看,各家产品虽然技术路线不同,或自研,或基于开源,或基于自身云平台的产品组合,但最终目的均一致是为了降低数据在不同平台间的流动,这样做的好处一方面是技术上可以降低客户的管理成本,另一方面在商业上也提升了客户粘性和操作体验。比如像亚马逊AWS、阿里云、华为云,会通过各类云上的工具打通不同产品或组件间的数据流通,而Snowflake、Databricks、巨杉数据库则会尽可能让同一平台上的数据具备更丰富的应用场景。


从特性上来看,各个厂商均强调了ACID事物一致性,因为在湖仓一体中,数据不再如同传统数据仓库中的离线分析数据,客户的业务数据将更实时的以数据流的方式写入。虽然湖仓一体不需要如同事务型数据库一样,拥有低延迟的在线交易能力,但是在数字化转型需求下,系统同样需要提供实时的数据查询分析能力,及保证在某一时间点上数据的准确性。


整体分析后不难看出,Snowflake从数据仓库逐步提供多元化的数据处理,其最新版本也进一步强化了数据实时服务能力。Databricks的优势在于对非结构化数据处理的AI机器学习及科学计算上,并持续扩展其数据仓库的分析能力。巨杉数据库以统一平台下跨结构化、半结构化、非结构化的多模数据处理能力为基础,重点提供高并发的实时对客查询,并持续扩展实时湖仓的分析能力。亚马逊AWS、阿里云、华为云则更注重于其基于自身云生态的技术能力整合,简化了云平台客户在数据处理上的复杂度。


在报告中,也对湖仓一体的典型应用案例进行了分析,具体内容可下载报告后进行阅读。


官网小杉树.png

未来趋势



分析来看,“湖仓一体”架构在数据管理中呈现出六大技术特性。


  • 一是支持分析多种数据类型,包括结构化、半结构化和非结构化数据。

  • 二是数据可治理,在保证数据完整性的同时,具有健全的治理和审计机制,能够避免数据沼泽现象。

  • 三是事务支持,企业数据往往要为业务系统提供并发的读取和写入,对事物ACID的支持,可确保数据并发访问的一致性、正确性。


  • 四是BI支持,能够支持直接在源数据上使用BI工具,加快分析效率,降低数据延迟。

  • 五是存算分离,使系统能够扩展到更大规模的并发能力和数据容量。

  • 六是开放型,采用开放、标准化的存储格式,并提供丰富的API支持。


  • 与此同时,随着湖仓一体技术的不断成熟,未来将在四大应用场景中发挥作用。


  • 场景一:服务于数据中台的实时数仓。由于数据中台要求其数据库在分析处理过程中,需强调事物一致性,并保持低延迟与提升实时处理能力,这些都是湖仓一体的典型技术特性。


  • 场景二:支撑微服务的数据融合底座。可有效解决扩展困难以及维护困难的问题。


  • 场景三:全量数据实时访问平台。在数字化转型过程中,对客实时查询,历史数据服务平台,或IoT物联网系统中,会产生实时处理海量数据的需求,湖仓一体的弹性扩展能力能够很好满足这一需求。


  • 场景四:进行非结构化数据处理,数字化转型中通过AI机器学习及比对分析,非结构化数据将包含更多元化的业务属性,为各类业务系统提供信息输入。湖仓一体能够有效提升非结构化数据的处理能力。


官网小杉树.png

赛迪建议



赛迪顾问认为,对用户来说,用户在选择数据管理架构时,应根据自身业务情况,来考虑未来发展需求。同时,专业化服务是当前数据管理市场的主要发展趋势,企业用户在选择供应商时应该重视厂商的专业化服务,实施,及交付能力。


对厂商来说,要重视研发投入,加快产品与新兴技术融合。企业应积极完善湖仓一体技术解决方案,同时加速将人工智能、云计算等新兴技术与现有产品结合,提升产品智能化,抢占未来市场领先地位。同时,也要持续提升自己的服务能力与质量。




准备开始体验 SequoiaDB 巨杉数据库?