537页15万字大数据治理体系、大数据可视化平台及应用方案

news2024/10/5 23:29:09

目录

第1章 前言

第2章 集团企业大数据现状分析

2.1、 基本现状

2.2、 总体现状

2.2.1、 行领导

2.2.2、 业务人员

2.3、 数据架构方面

2.3.1、 业务表现

2.3.2、 问题

2.4、 数据应用难题

2.4.1、 缺少统一的应用分析标准

2.4.1.1、 业务表现

2.4.1.2、 问题

2.4.2、 缺少统一的基础数据标准

2.4.2.1、 业务表现

2.4.2.2、 问题

2.4.3、 缺少反馈机制

2.4.3.1、 业务表现

2.4.3.2、 问题

2.5、 数据应用现状总结

第3章 集团企业大数据治理阶段目标

3.1、 数据平台逻辑架构

3.2、 数据平台部署架构

3.3、 建设目标

3.3.1、 建设大数据基础设施,完善全行数据体系架构

3.3.2、 开发大数据资源,支撑全行经营管理创新

3.3.3、 培养大数据人才队伍,建立大数据分析能力

3.4、 数据治理目标

3.4.1、 发现数据质量问题,推动大数据治理工作的开展,建立数据质量检核系统

3.4.2、 分析、梳理业务系统,推动数据标准的建立,统一全行口径

3.4.3、 建立数据仓库模型框架,优化集团数据架构,建设稳定、可扩展的数据仓库

3.5、 目标建设方法

3.5.1、 建设内容

3.5.2、 工作 阶段

3.5.2.1、 源系统分析阶段

3.5.2.1.1、 工作内容

3.5.2.1.2、 工作依据

3.5.2.1.3、 工作重点

3.5.2.2、 数据质量问题检查阶段

3.5.2.2.1、 工作内容

3.5.2.2.2、 工作依据

3.5.2.2.3、 工作重点

3.5.2.3、 数据质量问题分析阶段

3.5.2.3.1、 工作内容

3.5.2.3.2、 工作依据

3.5.2.3.3、 工作重点

3.6、 预期建设效益

3.6.1、 实现数据共享

3.6.2、 加强业务合作

3.6.3、 促进业务创新

3.6.4、 提升建设效率

3.6.5、 改善数据质量

第4章 集团企业大数据建设总体规划

4.1、 功能需求

4.1.1、 个人和企业画像

4.1.2、 实现精准营销

4.1.3、 为金融业提供风险管控

4.1.4、 运营优化

4.2、 集团企业大数据应用架构远景

4.2.1、 集团企业需要从“坐商”转型为“行商”

4.2.2、 客户下沉

4.2.3、 与“互联网金融”进行差异化竞争

4.3、 集团企业大数据平台应用架构

4.4、 集团企业大数据平台架构

4.5、 集团企业大数据支撑平台

4.5.1、 大数据虚拟化平台

4.5.1.1、 设计原则

4.5.1.2、 虚拟化平台设计

4.5.1.3、 硬件基础设施层

4.5.1.4、 虚拟化存储

4.5.1.5、 虚拟化计算

4.5.1.6、 平台管理

4.5.1.7、 数据存储系统设计

4.5.1.8、 高性能SAN存储系统

4.5.1.9、 存储方案优势

4.5.2、 大数据分析管理平台

4.6、 大数据分析处理平台

4.6.1、 分布式内存分析引擎

4.6.2、 数据挖掘引擎

4.6.3、 分布式实时在线数据处理引擎

4.6.4、 流处理引擎

4.6.5、 大数据分析支撑系统

4.6.6、 大数据分析节点群

4.6.7、 软硬件配置

4.6.8、 虚拟化平台关键特性

4.6.9、 虚拟化平台配置

4.7、 安全保障系统

4.7.1、 设计原则

4.7.2、 总体设计

4.7.3、 物理安全设计

4.7.4、 网络安全设计

4.7.4.1、 外网边界安全

4.7.4.2、 网络基础设施安全

4.7.5、 主机安全设计

4.7.6、 应用安全设计

4.7.7、 数据库安全设计

4.7.8、 安全制度与人员管理

4.7.9、 安全管理体系建设

4.7.10、 安全运维

4.7.11、 安全人员管理

4.7.12、 技术安全管理

4.7.13、 安全保障系统配置

4.8、 计算机网络系统

4.8.1、 设计原则

4.8.2、 系统设计

4.8.3、 计算机网络系统配置

4.9、 基础支撑软件

4.9.1、 地理信息软件

4.9.2、 操作系统软件

4.9.3、 数据库管理软件

4.9.4、 机房建设方案

4.9.5、 基础支撑系统软硬件配置

第5章 系统架构设计

5.1、 总体设计目标

5.2、 总体设计原则

5.3、 案例分析建议

5.3.1、 中国联通大数据平台

5.3.2、 项目概述

5.3.2.1、 项目实施情况

5.3.2.2、 项目成果

5.3.2.3、 项目意义

5.3.3、 恒丰集团企业大数据平台

1.1.1.1 项目概述

1.1.1.2 项目实施情况

1.1.1.3 项目成果

1.1.1.4 项目意义

5.3.4、 华通CDN运营商海量日志采集分析系统

5.3.5、 项目概述

5.3.5.1、 项目实施情况

5.3.5.2、 项目成果

5.3.5.3、 项目意义

5.3.6、 案例总结

5.4、 系统总体架构设计

5.4.1、 总体技术框架

5.4.2、 系统总体逻辑结构

5.4.3、 平台组件关系

5.4.4、 系统接口设计

5.4.5、 系统网络结构

第6章 系统功能设计

6.1、 概述

6.2、 平台管理功能

6.2.1、 多应用管理

6.2.2、 多租户管理

6.2.3、 统一运维监控

6.2.3.1、 Hadoop集群自动化部署

6.2.3.2、 Hadoop集群性能监控

6.2.3.3、 Hadoop集群资源管理

6.2.3.4、 图形界面方式多租户管理

6.2.3.5、 系统巡检信息收集

6.2.3.6、 系统性能跟踪

6.2.3.7、 与集团运维监控平台对接

6.2.4、 作业调度管理

6.3、 数据管理

6.3.1、 数据管理框架

6.3.1.1、 结构化数据管理框架

6.3.1.2、 半/非结构化数据管理框架

6.3.2、 数据采集

6.3.3、 数据交换

6.3.4、 数据存储与管理

6.3.4.1、 数据存储管理功能

6.3.4.2、 数据多温度管理

6.3.4.3、 生命周期管理

6.3.4.4、 多索引模式

6.3.4.5、 多数据副本管理

6.3.4.6、 数据平衡管理

6.3.4.7、 在线节点管理

6.3.4.8、 分区管理

6.3.4.9、 数据导入与导出

6.3.4.10、 多级数据存储

6.3.4.11、 多种数据类型支持

6.3.4.12、 多种文件格式支持

6.3.4.13、 数据自定义标签管理

6.3.4.14、 数据读写锁处理

6.3.4.15、 元数据备份

6.3.4.16、 表压缩

6.3.5、 数据加工清洗

6.3.6、 数据计算

6.3.6.1、 多计算框架支持

6.3.6.2、 并行计算与并行处理能力

6.3.6.3、 PL/SQL存储过程

6.3.6.4、 分布式事务支持

6.3.6.5、 ACID测试案例

6.3.7、 数据查询

6.3.7.1、 OLAP函数支持

6.3.7.2、 分布式 Cube

6.3.7.3、 SQL兼容性

6.3.7.4、 SQL功能

6.4、 数据管控

6.4.1、 主数据管理

6.4.2、 元数据管理技术

6.4.3、 数据质量

6.5、 数据ETL

6.6、 数据分析与挖掘

6.6.1、 数据分析流程

6.6.2、 R语言开发环境与接口

6.6.3、 并行化R算法支持

6.6.4、 可视化R软件包

6.6.5、 编程语言支持

6.6.6、 自然语言处理和文本挖掘

6.6.7、 实时分析

6.6.8、 分析管理

6.6.8.1、 需求管理

6.6.8.2、 过程管理

6.6.8.3、 成果管理

6.6.9、 分析支持

6.6.10、 指标维护

6.6.11、 分析流程固化

6.6.12、 分析结果发布

6.6.13、 环境支持

6.7、 数据展现

6.7.1、 交互式报表

6.7.2、 仪表盘

6.7.3、 即席查询

6.7.4、 内存分析

6.7.5、 移动分析

6.7.6、 电子地图支持

第7章 技术要求实现

7.1、 产品架构

7.1.1、 基础构建平台

7.1.2、 大数据平台组件功能介绍

7.1.2.1、 Transwarp Hadoop分布式文件系统

7.1.2.2、 Transwarp Inceptor内存分析交互引擎

7.1.2.3、 稳定的Spark计算框架

7.1.2.4、 支持Memory+SSD的混合存储架构

7.1.2.5、 完整SQL功能支持

7.1.2.6、 Transwarp Discover机器学习引擎

7.1.2.7、 并行化统计算法库

7.1.2.8、 机器学习并行算法库

7.1.2.9、 Transwarp Hyperbase列式存储数据库

7.1.2.10、 智能索引

7.1.2.11、 全局索引

7.1.2.12、 全文索引

7.1.2.13、 索引类型

7.1.2.14、 图数据库

7.1.2.15、 全文数据处理

7.1.2.16、 Transwarp Stream数据实时处理分析

7.1.2.17、 分布式消息队列

7.1.2.18、 流式计算引擎

7.1.2.19、 流式SQL执行

7.1.2.20、 流式机器学习

7.1.3、 系统分布式架构

7.2、 运行环境支持

7.2.1、 系统操作支持以及环境配置

7.2.2、 与第三方软件平台的兼容说明

7.3、 客户端支持

7.3.1、 客户端支持

7.3.2、 移动端支持

7.4、 数据支持

7.5、 集成实现

7.6、 运维实现

7.6.1、 运维目标

7.6.2、 运维服务内容

7.6.3、 运维服务流程

7.6.4、 运维服务制度规范

7.6.5、 应急服务响应措施

7.6.6、 平台监控兼容

7.6.7、 资源管理

7.6.8、 系统升级

7.6.9、 系统监控平台功能

7.6.9.1、 性能监控

7.6.9.2、 一键式收集

7.6.9.3、 系统资源监控图形化

7.6.9.4、 服务进程监控

7.6.9.5、 消息队列监控

7.6.9.6、 故障报警

7.6.9.7、 告警以及统巡检以及信息收集

7.7、 平台性能

7.7.1、 集群切换

7.7.1.1、 主集群异常及上层业务切换

7.7.1.2、 从集群异常及上层业务切换

7.7.2、 节点切换

7.7.3、 性能调优

7.7.3.1、 图形化性能监控

7.7.3.2、 图形化调优工具

7.7.3.3、 调优策略

7.7.4、 并行化高性能计算

7.7.5、 计算性能线性扩展

7.8、 平台扩展性

7.9、 可靠性和可用性

7.9.1、 单点故障消除

7.9.2、 容灾备份优化

7.9.2.1、 扩容、备份、恢复机制

7.9.2.2、 集群数据容灾优化

7.9.2.3、 数据完整性保障和方案

7.9.2.4、 主集群异常及上层业务切换

7.9.2.5、 从集群异常及上层业务切换

7.9.3、 系统容错性

7.10、 开放性和兼容性

7.10.1、 高度支持开源

7.10.1.1、 PMC-HaoyuanLi

7.10.1.2、 Committor-AndrewXia

7.10.1.3、 Committor-ShaneHuang

7.10.1.4、 Committor-ZhihongYu

7.10.1.5、 Committor-JasonDai

7.10.1.6、 Committor-WeiXue

7.10.2、 操作系统支持以及软件环境配置

7.10.3、 兼容性与集成能力

7.11、 安全性

7.11.1、 身份鉴别

7.11.2、 访问控制

7.11.3、 安全通讯

7.12、 核心产品优势

7.12.1、 高速运算、统计分析和精确查询

7.12.1.1、 Spark引擎结合分布式内存列存提供高性能计算

7.12.1.2、 多种索引支持与智能索引

7.12.2、 有效的资源利用

7.12.3、 高并发、低延迟性能优化

7.12.4、 计算资源有效管控

7.12.5、 API设计和开发工具支持

7.12.6、 友好的运维监控界面

7.12.7、 扩容、备份、恢复机制

7.12.8、 集群自动负载均衡

7.12.9、 计算能力扩展

7.13、 自主研发技术优势

7.13.1、 高稳定、高效的计算引擎Inceptor

7.13.2、 完整的SQL编译引擎

7.13.3、 高性能的SQL分析引擎

7.13.4、 SQL统计分析能力

7.13.5、 完整的CURD功能

7.13.6、 Hyperbase高效的检索能力

7.13.7、 基于Hyperbase和SQL引擎的高并发分布式事务

7.13.8、 Hyperbase非结构化数据的支持

7.13.9、 机器学习与数据挖掘

7.13.10、 Transwarp Stream

7.13.11、 内存/SSD/磁盘混合存储

7.13.12、 MR/Spark/流处理统一平台

7.13.13、 多租户支持能力

7.13.14、 多租户安全功能

7.13.15、 标准JDBC与ODBC接口

第8章 系统性能指标和测试结果说明

8.1、 性能测试报告

8.1.1、 测试目标

8.1.2、 测试内容

8.1.3、 测试环境

8.1.4、 测试过程和结果

8.2、 TPC-DS测试报告

8.2.1、 测试目标

8.2.2、 测试内容

8.2.3、 测试环境

8.2.4、 测试过程和结果

8.3、 量收迁移验证性测试报告

8.3.1、 测试目标

8.3.2、 测试内容

8.3.3、 测试环境

8.3.4、 串行执行情况

8.3.5、 并行执行情况

8.3.6、 生产表数据规模

8.3.7、 测试结果

8.4、 某集团企业性能测试报告

8.4.1、 测试目标

8.4.2、 测试内容

8.4.3、 测试环境

8.4.4、 测试过程和结果

第9章 系统配置方案

9.1、 硬件系统配置建议

9.1.1、 基础Hadoop平台集群配置规划

9.1.2、 数据仓库集群配置规划

9.1.3、 集群规模综述

9.1.4、 开发集群配置建议

9.1.5、 测试集群配置建议

9.2、 软件配置建议

9.3、 软硬件配置总表

9.4、 网络拓扑

第10章 系统测试

10.1、 系统测试方法

10.2、 系统测试阶段

10.3、 系统测试相关提交物

第11章 项目实施

11.1、 项目实施总体目标

11.2、 项目管理

11.3、 业务确认

11.4、 数据调研

11.5、 系统设计阶段

11.6、 集成部署阶段

11.7、 ETL过程设计

11.8、 ETL开发与测试

11.9、 系统开发阶段

11.10、 系统测试阶段

11.11、 系统上线及验收

11.12、 提交物

11.13、 系统的交接与知识转移c49bbdf56d0dc5bd4b5d216e158fb747.jpeg

文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/14432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

天天都在CRUD,你知道数据库如何工作的吗?

作为一个天天都在CRUD的程序员,你有没有想过,数据库是如何工作的? 今天,让我们从一个最最最简单的模型开始,揭开数据库神秘的一角。 对我们使用者而言,数据库就像是一个黑盒子,你可以往它里面…

神策 SCRM 正式发布,打通企业全域数据,聚焦私域精细化运营

随着企业微信能力的不断延展和客户接受度的持续提升,越来越多的企业开始基于企业微信生态搭建私域流量池,通过高粘性的专属服务和沟通提升客户满意度和转化效率。在企微私域运营过程中,他们发现: 管理难:客户分散在每位…

【Nginx】初识与环境准备

文章目录Nginx简介Nginx的优点及功能特性Nginx常用功能模块及组成Nginx系统环境准备Nginx安装方式介绍Nginx目录结构分析Nginx服务器启停命令方式一:Nginx服务的信号控制方式二:Nginx的命令行控制Nginx服务操作的问题Nginx配置成系统服务可能会出现的问题Nginx命令配置到系统环…

酷开科技 | 强势出圈,酷开系统一举突破媒介价值纵深

从起势到成熟,从无序到理性,从单一到多维,如今的OTT市场,早已是一个全新的舞台,不仅OTT的功能与服务承载更加丰富,产业的竞争维度也更加多元。踔厉奋发的OTT行业,在新的时代背景和产业环境下&am…

关于Python自动化的就业真相

作为近几年来特别受欢迎的编程语言之一,Python一直以来被众多行业内人士寄予厚望,今后有可能替代老牌霸主Java,成为新一代编程语言榜首。 为什么懂技术的人必学Python? 与其他语言相比,Python中的语言语法特别简单&a…

ABBYY FineReader PDF2023版本有什么新特点?

ABBYY FineReader PDF Windows版更加智能的 PDF 解决方案在数字化工作场所转换、编辑、共享和协作处理数字化工作场所中的 PDF 和扫描件。 在阅读某些扫描得到的PDF文档时,我经常因为它不可编辑而烦恼,直到我遇到了ABBYY。打开ABBYY FineReader PDF软件…

【MySQL进阶】深入理解B+树索引底层原理

【MySQL进阶】深入理解B树索引底层原理 文章目录【MySQL进阶】深入理解B树索引底层原理一、前言——没有索引的查找1、在一个页中的查找2、在很多页中查找3、总结二、索引1、一个简单的索引方案2、InnoDB中的索引方案3、B 树4、聚簇索引5、二级索引6、回表7、联合索引三、InnoD…

vivado跑完发邮件

前言 vivado 综合实现要跑好长时间,耍会儿手机不过分吧。然而我不想时不时抬头看有没有跑完,于是产生了该脚本 一. QQ邮箱配置 参考:https://blog.csdn.net/qq_40608730/article/details/104904398?spm1001.2014.3001.5502 (注…

c++11特性(2)

目录 1.新增了两个默认成员函数 2.新增了几个关键字 3.可变参数模板 1.新增了两个默认成员函数 a.移动构造函数 b.移动赋值运算符重载 默认生成的前提条件:没有实现析构函数,拷贝构造,拷贝赋值重载中的任意一个。 为什么要实现移动的版…

三菱PLC单轴运动控制

1、什么是运动控制 ​ 运动控制,也可叫做电力拖动控制;它是自动化的一个分支,其动力源大部分都基于电动机。 也就是说,运动控制其实是基于电动机,实现物体对于角位移、速度、转矩等物理量改变的控制。 这里面&#xf…

Linux开发工具(2)——vim

文章目录多模式编辑器——vimvim的基本操作命令模式(Normal mode)插入模式(Insert mode)底行模式(Last line mode)vim的基本配置原理配置sudoers文件多模式编辑器——vim vim是一种多模式编辑器&#xff0c…

MYSQL语法一:创建表和查看表的所有列和所有数据库等

前言:接下里,我们即将开启mysql的旅行之路。首先是它的基础知识 1.mysql的基本知识点 mysql是客户端加服务器的模式。 客户端给服务器发送的数据称为请求request 服务器给客户端返回的数据称为响应response 客户端和服务器可以在不同主机上,…

轻松学习jQuery事件和动画

✅作者简介:热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏:前端开发者…

计算机网络-网络层详细讲解(持续更新中)

网络层概述 网络层的主要任务是实现网络互连,进而实现数据包在各网络之间的传输。 要实现网络层主要任务,需要解决以下主要问题: 网络层向运输层提供怎样的服务(“可靠传输”还是“不可靠传输‘)网络层寻址问题路由…

小啊呜产品读书笔记001:《邱岳的产品手记-04》第07+08讲 关于需求变更

小啊呜产品读书笔记001:《邱岳的产品手记-04》第0708讲 关于需求变更一、今日阅读计划二、泛读&知识摘录1、07讲 关于需求变更(上):需求背后的需求2、08讲 关于需求变更(下):化变更于无形三…

【Pytorch with fastai】第 14 章 :ResNet

🔎大家好,我是Sonhhxg_柒,希望你看完之后,能对你有所帮助,不足请指正!共同学习交流🔎 📝个人主页-Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

自动化测试selenium在小公司的成功实践

前言 可能提到自动化测试selenium,大家都会想到用python语言来编写脚本。但我们选择了java语言,因为我相信大部分公司java程序员比python程序员多得多。而对于很多测试人员,并不能熟练使用编程语言,所以他们需要别人指导。与其使…

iOS 16.2 的7个惊人变化

看起来 iOS 16 正在不断扩展 你已经知道 iOS 16 和 iOS 16.1 有多么不可思议。所以我认为下一次更新已经没有多少了——iOS 16.2。 Apple 刚刚通过 iOS 16.2 Developer Beta 1 消除了这些信念。 Developer Beta 2 中还有 7 个变化。相信我,它们也很棒。 #1、锁定屏幕的药物…

qemu创建linux虚拟机(亲测有效,virt-manger方式)

1,网桥的搭建 Bridge方式原理 Bridge方式即虚拟网桥的网络连接方式,是客户机和子网里面的机器能够互相通信。可以使虚拟机成为网络中具有独立IP的主机。 桥接网络(也叫物理设备共享)被用作把一个物理设备复制到一台虚拟机。网桥多…

Chrome 扩展教程之如何使用 React 构建 Chrome 扩展(教程含源码)

创建自己的 Chrome 扩展程序比许多人想象的要容易。这很有趣。我们可以尽情发挥我们的创造力,根据需要修改每个网站。 在本文中,我将首先向您展示如何设置 Chrome 扩展程序。之后,我们将设置一个 React 应用程序并将其加载到任何网站上。 设置 在我们开始之前,让我们在我…