Greenplum大数据分析建制方案

兼顾使用效率与成本效益 以数据云湖架构支持不同特性的数据储存供相对应之应用使用

Greenplum大数据分析平台建制方案

大数据分析平台建议方案说明

♦ 为了保证前台交易系统的效能,需对其进行“数据瘦身”    

   - 前台交易系统仍然采用OLTP数据库,但仅保留最近12个月的数据 (视实际需求而定);     

   - 实时响应要求较高以及需要频繁变更的数据操作仍然放在OLTP数据库当中处理;      

   - 实时响应要求不高以及长期的历史数据下沉至后台的数据云湖架构;      

   - 半结构化的日志/文档,如无须进行实时分析,不再存放于OLTP数据库,集中存放于NAS存储 。

 

♦ 整合源数据 (包含:数据库、文档等),为业务分析构造底层数据仓库      

   - 以MPP分析型数据库Greenplum搭建数据云,用于存放较长时间的分析数据;     

   - 以Python定制开发的ETL数据处理系统,将源数据(数据库/文档)转存至数据云湖架构,为前台应用分析提供数据。

大数据分析平台系统架构

大数据分析平台之数据云架构说明(一)

♦ 利用ETL工具整合源数据 (包含:数据库、文档等),为业务分析构造底层数据仓库    

    - 规划两台ETL服务器,实现高可用HA架构,运行Python/Pentaho等定制开发的ETL数据处理系统;  

    - ETL单台服务器故障,不影响数据的持续抽取;

 

♦ ETL整合后的数据转储至由Greenplum集群搭建的大数据分析平台     

    - Greenplum集群由Master Server (2台,HA架构)以及Segment Server (4台,镜像架构)组成;    

    - Master Server负责接收、转发用户的请求以及结果集的汇总等工作;       

    - Segment Server负责数据的存储以及运算等工作;

大数据分析平台之数据云架构说明(二)

♦ 关于Greenplum集群高可用说明:

     - 两台Master node为HA架构(Active/Standby),无法同时提供连接服务,单台故障后可进行切换;     

     - 四台Segment node为镜像架构(如下图),除非同一个Segment实例的主和镜像都失效,否则最多可以有一半的主机失效并且集群将继续运行;

大数据分析平台之数据云架构说明(三)

♦ 关于Greenplum集群扩容说明:

   - Master node只能通过升级硬件配置进行扩容,满足更多的连接请求;      

   - Segment node可通过横向扩展增加节点数的方式进行 空间和性能 的扩容;      

   - Segment node节点扩容,建议最少单位为两台,硬件配置与当前Segment Node保持一致;      

   - Segment node节点扩容,可在线进行,无需额外安排停机时间;

通过经济的方案扩展到千万亿字节规模,支持从TB 到PB级规模的数据仓库,提供客户强大、可扩展的平台

不用担心数据增长或者开始的规模太小

在商用硬件上通过线性、经济的方式扩展

海量并行处理

支持海量数据存储和处理

可以比以往更快地获取查询结果

在数据增长的同时确保高性能分析

统一的分析处理功能

为数据仓库、市场、ELT 、文本挖掘、统计运算提供统一的平台

可以使用7SQL、
MapReduce等在所有层次上对任何数据进行并行分析和数据挖掘

Why Greenplum 全球最强大的数据仓库引擎

MPP(海量并行处理) +完全不共享体系

Greenplum高可用性

Greenplum在架构和数据平台上均进行高可用性设计,在单个节点或网络的失败/损坏情况下,系统仍能正常运行,数据完好无缺。

Greenplum动态在线扩容

系统永不停机

● Greenplum动态在线扩容技术,可以保证客户在扩容期间不宕机

● 不能动态在线扩容,高可用性无从谈起

● 宕机意味着利润的流失,客户需要可靠的IT环境

Greenplum并行加载和导出优势

业界最快并行加载速度>10TB/Hr

● 并行加载技术充分利用分布式计算和分布式存储的优势,保证发挥出每一块Disk的I/O资源

● 并行加载比串行加载,速度提高40-50倍以上,减少ETL窗口时间

● 增加Segment和ETL Server,并行加载速度呈线性增长

Greenplum – 其他功能特性

开方式设计,支持通用X86服务器

数据分区功能

外部表并行数据加载

并行备份、恢复

线性扩展

并行处理查询优化器

数据库内压缩功能,支持1/3~1/10数据库压缩

高并发支持

与第三方ETL和BI产品良好的兼容性

B/S方式数据库运行监控

良好的易用性