大数据整合方案架构总结
发布时间:2022-10-31 12:50:07 所属栏目:大数据 来源:
导读: 本文着重于针对数据整合案例进行学习总结描述,选取部分数据ETL及平台应用中面临的问题及经验进行介绍,未对完整平台功能及流程进行展开描述。以下总结均来源于自身过往经验。特别的大数据架构,融合数据安全模块
|
本文着重于针对数据整合案例进行学习总结描述,选取部分数据ETL及平台应用中面临的问题及经验进行介绍,未对完整平台功能及流程进行展开描述。以下总结均来源于自身过往经验。特别的大数据架构,融合数据安全模块及DaaS服务建议进行简要描述。 需求分析 数据量:亿级数据格式:以RDBMS数据及log数据为例数据来源:RDBMS,服务器传输要求:以离线为例存储平台:基于Hadoop技术栈部署数据安全:按公司内部标准构建 方案架构 方案架构图 如图为融入数据安全管理及DaaS服务的整合架构图(南北向架构),其中黑色实线部分为大数据平台范围。 针对海量日志数据部署建议: 整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算效率,同时满足即时计算的需要,可以使用各种Ad-hoc Query来查询底层数据。 经验总结: 数据ETL: 数据倾斜处理:在数据计算过程中,计算逻辑根据业务逻辑编写,可能涉及大量聚合关联等操作。由于数据key计算时默认hash分配不均往往容易造成数据倾斜。解决方法尝试: 数据标准化:针对不同来源的数据,需要在统一标准下进行数据标准化处理。 数据存储平台: 数据安全 针对已部署平台所提供的安全能力进行介绍。 安全要求 针对内部平台安全要求,按照六大核心功能提供安全保障。 集群安全管理 需要提供用户友好的统一安全管理界面。身份认证 需要满足不同角色用户认证。授权管理 需要支持安全策略配置。边界安全 需要支持不同身份认证、不同程度授权的单点访问隔离。数据治理与审计 需要支持元数据管理,数据控制管理,数据生命周期管理,数据血缘操作,集中式审计等。数据保护 需要提供数据加密功能 安全模块 基于wire加密提供数据保护服务。其中RPC加密需要设置hadoop.rpc.protection=privacy,dfs.encryt.data.transfer=true,加密算法可通过dfs.encrypt.data.transfer.algorithm指定为“3des”(默认)或“rc4”,前者更安全,后者更快。HTTPS加密:用户通常使用浏览器或组件CLI与Hadoop交互,而应用程序使用REST api或Thrift。HTTP协议上的加密是通过跨Hadoop集群和对单个组件(如Ambari)的SSL支持实现的。JDBC:HiveServer2使用Java SASL协议的质量保护(QOP)设置实现加密。通过这种方式,可以对通过JDBC在HiveServer2和JDBC客户端之间移动的数据进行加密。 数据应用 针对大量数据,建议采用DaaS模式进行数据应用模式构建,为不同业务部门或数据使用者提供各自所需数据视图,且针对数据使用人员、管理或维护人员,提供统一数据接口,并支持多种数据存储介质的连接,使用户仅需要关注数据本身,减少配置和清洗整合数据的任务量,较好的满足用户友好需求。 目前已经引入到自主搭建的大数据平台,使用技术为dremio,实现根据不同用户需求返回各自权限内所需数据。目前存在配置较为复杂的问题待改进。 (编辑:财气旺网 - 海宁网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐

