博客 > 非结构化数据治理,盘活企业内容数据

非结构化数据治理,盘活企业内容数据

 2021-04-07  SequoiaDB

image.png


image.png

内容管理-CM(Content Management)


随着互联网技术的日新月异,内容数据逐渐在各行业的业务中占据更重要的地位。日常的业务过程中,需要处理的大量电子文档、图片、音频、视频等,都属于内容数据范畴。
 
例如,某银行的无人营业网点的远程业务办理中,要求用户上传身份证、签字页等扫描件,来核实用户身份。为其做后端支撑的影像管理平台,就属于典型的内容管理系统。基于该类平台,企业替代了业务处理中的纸质化传输,实现了海量非结构化内容数据的采集、加工、传递及服务的全生命周期的数据整合,大幅提升了生产效率。
 
内容管理系统,除了管理非结构化的内容数据(如图片、语音、视频等),还需要实现内容文件的元数据(如文件标签)的管理,才能为业务系统提供服务,如批次上传/下载、标签化、全文检索、生命周期管理、文件加工转存、断点续传等。
 
对内容数据进行收集、存储、管理和利用的整个过程,已经成为企业提高业务效率和提高盈利能力的有效方法。

image.png


image.png

需求的变革


在DT时代,随着互联网业务兴起,内容管理平台不再像过去一样,只提供对非结构化数据的存入、调阅。一直以来,内容管理平台作为数据存储空间的消耗大户,被视作IT资源的“沉没成本”。

 

如今,不但要面向客户,承担起多样化、高效率的查询服务,与其他重要系统交互,而且要面向管理,承担起辅助规范业务流程和集中风控,为生成分析报表、建立预警机制创造条件。因此,内容管理平台也被赋予了新的使命,结合非结构化数据治理及数据共享能力,将企业的“沉没成本”激活为“数据价值中心”。image.png

更高时效、高并发的访问

内容数据的访问性能要求,被提到了前所未有的高度。例如,业务中的各类文件采集,头像、指纹、声纹按监管要求进行原档留存,360客户画像生成过程中与非结构化数据进行高频比对及采样修正等场景,都需要对海量非结构化数据进行更高时效、高并发的访问。随着对接的业务系统越来越多,这种需求也越迫切。

 

盘活数据价值

数字化转型中,内容数据不再是静态的文件。对内容数据进行有效的集中整合、分类治理、标签化管理,再结合机器学习、AI算法对比分析后,内容数据将包含更多元化的业务属性,为各类业务系统提供丰富的信息输入,从而为企业盘活数据资产的潜在价值。

 

提升管理水平

数据的管理,从来都是「从业务中来,到业务中去」。以往很多内容数据由业务系统独立采集,多处于分散状态,无法集中共享。加上数据治理技术的欠缺,导致数据价值得不到充分释放。企业希望引入新技术,构建新一代内容管理系统,来打通各业务系统的共享通道,减少数据的跨系统传输,便于数据价值的增值利用。另外,通过更精细化的内容数据管理策略,如生命周期管理、版本管理、数据分层治理、租户管理等,来降低维护成本,提升数据质量。


image.png

传统数据存储架构的局限性


一直以来,企业内容管理系统以国外ECM软件为主流, 典型产品如IBM CM、Filenet、EMC Documentum及Opentext等,其底层均采用集中式数据存储架构。该架构无论从性能、扩展性,还是维护成本方面,遇到了严峻的挑战,已经无法适应新时代内容数据的管理需求。

 

架构复杂 & 成本高昂

传统内容管理解决方案的底层数据架构,有两套技术来支撑:一套关系型数据库(如DB2/Oracle等)实现元数据管理、标签化管理,一套文件存储(NAS或集中式阵列)来管理内容文件。技术架构的复杂性,导致管理难度较大。居高不下的软件、硬件维护成本,也让企业不堪重负。

 

并发性、扩展性局限

集中式数据存储架构,其性能和容量均存在明显瓶颈,更缺乏灵活的水平伸缩能力,无法满足爆炸性增长的业务需求和数据管理需求。

 

高可用、容灾能力不足

随着非结构化数据开始发挥更大的作用,内容管理平台的重要级别也被不断提升。在监管要求下,其高可用性、容灾能力要求越来越高。以往由两套技术(数据库+文件存储)实现的数据容灾,切换时间长,也无法实现绝对的数据一致,必然达不到更高等级的RTO/RPO要求。

 

因此,传统的内容数据存储架构,已经无法完全满足企业的业务发展需求,亟需升级换代。


业界提出了ECM+的概念,旨在为客户提供智能化、自动化、分布式、高性能的内容管理平台。以多模、高扩展、弹性伸缩的分布式技术为底座,帮助客户实现降低成本、提升效率、数据价值共享利用等目标。


image.png

SequoiaDB-CM内容管理数据库


巨杉SequoiaDB-CM分布式内容管理数据库,作为数据基础架构,已经广泛地被合作伙伴采用,为客户构建全类型内容数据的统一管理平台,例如影像平台、海量音视频管理、非结构化数据治理、双录系统、无纸化系统等。
 

目前,巨杉已经和众多合作伙伴一起,基于SequoiaDB-CM数据库底座,帮助超过100家企业客户,构建了分布式内容管理平台。如某银行客户,在系统建设完成后,已接入超过2000个全国营业网点的柜面业务影像数据,现已持续稳定运行超过5年。


image.png


基于100%自研的原生分布式架构

巨杉分布式内容管理数据库SequoiaDB-CM,基于100%自研的巨杉分布式数据库内核,采用独特的双引擎技术和存算分离的原生分布式架构,提供了灵活的部署模式,集成了内容服务的部分基础模块,以满足企业新业务场景下的内容管理需求。
 
引擎级多模 & 丰富的开发接口
提供引擎级多模能力,支持结构化、非结构化数据的统一存储和管理。同时提供了丰富的开发接口,兼容S3协议、PosixFS文件协议等非结构化数据引擎接口,100%兼容MySQL引擎,可帮助企业降低内容管理系统的开发难度,提升开发效率。
 
超大容量 & 在线弹性扩容
支持百PB级存储容量,支持超大容量的扩展能力(可扩容至4096台物理服务器),实现了弹性水平扩展,轻松应对企业数据量爆发式增长,可灵活适用于不同规模的企业,以及不同类型的内容数据应用场景。
 
高性能、低成本
保障企业全量内容数据持续在线,支持多策略分区管理及分域缓存,采用资源池化的存储引擎层,提升海量数据管理效率及处理性能,大幅降低硬件及运维成本,TCO只为传统ECM方案的1/3。
 
高可用、容灾
采用多副本技术,支持多种级别的容灾部署形态,如同城双中心、同城三中心、两地三中心及三地五中心等,根据实际业务及监管要求,最大程度提升系统的可用性和容灾级别,降低RTO、RPO。
 
数据管理
提供多项安全特性,支持如数据权限管理、对象数据版本控制、历史版本回溯等,进一步提升数据安全性。支持数据生命周期管理、冷热数据分层存储、基于负载管理的多租户特性,帮助企业提升数据治理水平。
 
SequoiaDB-CM内容管理数据库,致力于解决大中型企业在存储、管理海量非结构化数据时面临痛点与挑战,帮助客户实现降低成本、提升效率、提升用户体验的同时,提升数据治理水平,进一步盘活数据资产价值,为其他业务提供高价值的信息输入。
 
未来,巨杉将与合作伙伴紧密携手,为企业构建新一代内容管理平台,提供优质的产品、技术服务及生态支持,在数字化转型过程中,共同为客户提升数据价值。


image.png

csdn扫码图3.png


准备开始体验 SequoiaDB 巨杉数据库?