Greenplum大数据分析建制方案
大数据分析平台建议方案说明
♦ 为了保证前台交易系统的效能,需对其进行“数据瘦身”
- 前台交易系统仍然采用OLTP数据库,但仅保留最近12个月的数据 (视实际需求而定);
- 实时响应要求较高以及需要频繁变更的数据操作仍然放在OLTP数据库当中处理;
- 实时响应要求不高以及长期的历史数据下沉至后台的数据云湖架构;
- 半结构化的日志/文档,如无须进行实时分析,不再存放于OLTP数据库,集中存放于NAS存储 。
♦ 整合源数据 (包含:数据库、文档等),为业务分析构造底层数据仓库
- 以MPP分析型数据库Greenplum搭建数据云,用于存放较长时间的分析数据;
- 以Python定制开发的ETL数据处理系统,将源数据(数据库/文档)转存至数据云湖架构,为前台应用分析提供数据。
大数据分析平台之数据云架构说明(一)
♦ 利用ETL工具整合源数据 (包含:数据库、文档等),为业务分析构造底层数据仓库
- 规划两台ETL服务器,实现高可用HA架构,运行Python/Pentaho等定制开发的ETL数据处理系统;
- ETL单台服务器故障,不影响数据的持续抽取;
♦ ETL整合后的数据转储至由Greenplum集群搭建的大数据分析平台
- Greenplum集群由Master Server (2台,HA架构)以及Segment Server (4台,镜像架构)组成;
- Master Server负责接收、转发用户的请求以及结果集的汇总等工作;
- Segment Server负责数据的存储以及运算等工作;
大数据分析平台之数据云架构说明(三)
♦ 关于Greenplum集群扩容说明:
- Master node只能通过升级硬件配置进行扩容,满足更多的连接请求;
- Segment node可通过横向扩展增加节点数的方式进行 空间和性能 的扩容;
- Segment node节点扩容,建议最少单位为两台,硬件配置与当前Segment Node保持一致;
- Segment node节点扩容,可在线进行,无需额外安排停机时间;
Greenplum – 其他功能特性
开方式设计,支持通用X86服务器
数据分区功能
外部表并行数据加载
并行备份、恢复
线性扩展
并行处理查询优化器
数据库内压缩功能,支持1/3~1/10数据库压缩
高并发支持
与第三方ETL和BI产品良好的兼容性
B/S方式数据库运行监控
良好的易用性