使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序

news2024/10/1 15:19:06

986c6759a5b4c3da2ac9087e00f88d87.gif

这是由 Toucan 的解决方案工程师 Django Bouchez与亚马逊云科技共同撰写的特约文章。

带有控制面板、报告和分析的商业智能(BI,Business Intelligence)仍是最受欢迎的数据和分析使用场景之一。它为业务分析师和经理提供企业的过去状态和当前状态的可视化,帮助领导者制定将影响企业未来发展的战略决策。但是,客户仍想通过更好的方式用他们的数据讲故事,从而提高其 BI 工具的采用率。

市场上的大多数 BI 工具都提供了一组详尽的自定义选项来构建数据可视化。这可能看起来是个好主意,但最终会给业务分析师带来负担,因为他们在撰写报告之前需要探索无限的可能性。分析师不是图形设计师,设计不当的数据可视化可能会隐藏它想传达的见解,甚至误导观看者。要从数据中获得更多价值,您应专注于构建用于讲述故事且受众易于理解的数据可视化。这正是引导式分析的作用所在。它不提供无限的自定义选项,而是通过强制实施设计最佳实践来有意地限制选择。引导式体验非常简单,这使业务分析师能够花更多的时间来生成实际见解,而无需担心如何呈现这些见解。

这篇文章阐明了引导式分析的概念,并向您说明了如何使用 Amazon Redshift Serverless 和亚马逊云科技合作伙伴 Toucan 来构建数据讲故事应用程序。Toucan 与 Redshift Serverless 原生集成,这使您能够在几分钟内部署可扩展的数据堆栈,而无需管理任何基础设施组件。

Amazon Redshift 是一项完全托管式云数据仓库服务,可让您分析大量结构化和半结构化数据。Amazon Redshift 可以从几 GB 大小的数据仓库扩展到 PB 级数据仓库,亚马逊云科技最近已宣布在全球范围内推出 Redshift Serverless,这使其成为以可扩展且经济高效的方式存储数据和运行临时分析的最佳选择之一。

利用 Redshift Serverless,您可以通过运行独立的 SQL 查询或使用数据可视化工具(例如 Amazon QuickSight、Toucan 或其他第三方选项)来获得数据见解,而无需管理数据仓库基础设施。

Toucan 是一个基于云的引导式分析平台,专门用于降低向业务用户提供数据见解的复杂性。为此,Toucan 在数据讲故事应用程序的每个阶段(包括数据连接、构建可视化以及在任意设备上分发)提供无代码的、全面的用户体验。

如果您很着急,想看看可以用此集成做什么,请查看亚马逊云科技和 Toucan 的诈骗者攻击可视化(https://louishourcade.github.io/aws-toucan-website/),其中 Redshift Serverless 和 Toucan 可以帮助您了解全球诈骗者攻击的演变。

解决方案概览

市场上推出了多种 BI 工具,每种工具都提供了一组日益增加的功能和自定义选项,以便能够在竞争中脱颖而出。自相矛盾的是,这似乎并没有提高企业内的 BI 工具采用率。利用更复杂的工具,数据拥有者会花时间构建精美的视觉效果,并倾向于在控制面板中添加尽可能多的信息,而不是向业务用户提供简单易懂的信息。

在这篇文章中,我们将从一名数据工程师的角度说明引导式分析的概念,该工程师需要通过数据可视化向业务用户传达故事。这名虚构的数据工程师必须创建控制面板来了解诈骗者攻击在过去 120 年中的演变情况。在 Redshift Serverless 中加载诈骗者攻击数据集后,我们将指导您使用 Toucan 撰写故事,以便更好地说明诈骗者攻击随着时间的推移的演变情况。借助 Toucan,您可以与 Redshift Serverless 中的数据集进行原生连接,使用无代码界面转换数据,构建讲故事视觉效果,然后发布它们以供业务用户使用。诈骗者攻击可视化示例(https://louishourcade.github.io/aws-toucan-website/)说明了按照这篇文章中的说明操作可实现的目标。

此外,我们还录制了一个视频教程(https://youtu.be/rIcUjUKkz20),说明如何将 Toucan 与 Redshift Serverless 连接并开始构建图表。

解决方案架构

下图描绘了我们的解决方案架构。

dac8ed1123396d740a4c28f586c41f39.png

我们使用 Amazon CloudFormation 堆栈在您的 Amazon 账户中部署所需的所有资源:

  • 联网组件– 这包括一个 VPC、三个公共子网、一个互联网网关和一个用于托管 Redshift Serverless 端点的安全组。在这篇文章中,我们使用公共子网来促进来自外部来源(例如 Toucan 实例)的数据访问。在这种情况下,Redshift Serverless 中的数据仍由可限制传入流量的安全组和数据库凭证提供保护。对于生产工作负载,建议将流量保留在 Amazon 网络中。为此,您可以在私有子网中设置 Redshift Serverless 端点,并通过 Amazon Marketplace 在您的 Amazon 账户中部署 Toucan。

  • Redshift Serverless 组件– 这包括 Redshift Serverless 命名空间和工作组。Redshift Serverless 工作区可供公开访问,以便于从 Toucan 实例进行连接。数据库名称和管理员用户名在部署 CloudFormation 堆栈时被定义为参数,而管理员密码是在 Amazon Secrets Manager 中创建的。在这篇文章中,我们使用数据库凭证连接到 Redshift Serverless,但 Toucan 还支持与 Amazon 凭证和 Amazon Identity and Access Management(IAM)配置文件连接。

  • 自定义资源 – CloudFormation 堆栈包含一个自定义资源,此资源是一个 Amazon Lambda 函数,在创建 CloudFormation 堆栈时,该函数自动将诈骗者攻击数据加载到 Redshift Serverless 数据库中。

  • IAM 角色和权限– 最后,CloudFormation 堆栈包括与前面提到的服务相关的所有 IAM 角色,以便与您账户中的其他 Amazon 资源进行交互。

在以下部分中,我们将提供在 Redshift Serverless 中将 Toucan 与数据连接的所有说明,并指导您构建数据讲故事应用程序。

示例数据集

在这篇文章中,我们使用一个自定义数据集,其中列出了从 1900 年开始的所有全球已知的诈骗者攻击事件。您无需自行导入数据;在部署 CloudFormation 堆栈时,我们使用 Amazon Redshift COPY 命令加载数据。COPY 命令是用于将数据加载到 Amazon Redshift 的最快、最可扩展的方法之一。有关更多信息,请参阅使用 COPY 命令加载数据。

该数据集包含 4900 条记录与下面的列:

  • 日期

  • 十年

  • 世纪

  • 类型

  • Zone_Type

  • 区域

  • 国家/地区

  • 活动

  • 性别

  • 年龄

  • 重大

  • 时间

  • 种类

  • href(包含上下文描述的 PDF 链接)

  • Case_Number

先决条件

对于此解决方案,您应该具备以下先决条件:

  • 一个 Amazon 账户。如果您还没有账户,请参阅注册 Amazon 中的说明。

  • 对此解决方案中使用的 Amazon 资源具有权限的 IAM 用户或角色。

  • Toucan 免费试用版,用于构建数据讲故事应用程序。

设置 Amazon 资源

您可以在已提供 Redshift Serverless 的任何区域启动 CloudFormation 堆栈。

1. 选择 Launch Stack(启动堆栈)以开始为这篇文章创建所需的 Amazon Website Service 资源:(https://console.aws.amazon.com/cloudformation/home?region=us-east-1#/stacks/new?stackName=aws-toucan&templateURL=https://aws-blogs-artifacts-public.s3.amazonaws.com/artifacts/BDB-2389/template.json)

272bbbb71934ec5fbe650d52f7ff789d.png

2. 在 Redshift Serverless 中指定数据库名称(默认为 dev)。

3. 指定管理员用户名(默认为 admin)。

您无需指定数据库管理员密码,因为它是由 CloudFormation 堆栈在 Secrets Manager 中创建的。此密钥的名称是 AWS-Toucan-Redshift-Password 。我们在后续步骤中将使用密钥值。

测试部署

部署 CloudFormation 堆栈需要花费几分钟的时间。完成部署后,您可以确认已创建资源。要访问您的数据,您需要获取 Redshift Serverless 数据库凭证。

1. 在 CloudFormation 堆栈的 Outputs(输出)选项卡上,记下 Secrets Manager 密钥的名称。

32d8f5b0dfd196ae37ce2421a757b625.png

2. 在 Secrets Manager 控制台上,导航到 Amazon Redshift 数据库密钥,并选择 Retrieve secret value(检索密钥值)以获取数据库管理员的用户名和密码。

4be59ab68db23fda52f10b1c0c3a9b29.png

3. 要确保您的 Redshift Serverless 数据库可用且包含诈骗者攻击数据集,请在 Amazon Redshift 控制台上打开 Redshift Serverless 工作组,然后选择 Query data(查询数据)来访问查询编辑器。

4. 另请注意 Redshift Serverless 端点,您需要将该端点连接到 Toucan。

5689692b91417f4df6a3e203c79d6eb1.png

5. 在 Amazon Redshift 查询编辑器中,运行以下 SQL 查询来查看诈骗者攻击数据:

SELECT * FROM "dev"."public"."shark_attacks";

左滑查看更多

c7b8515b326da86ad9e2d4380cfebffa.png

请注意,如果您在启动 CloudFormation 堆栈时更改默认值,则需要在 SQL 查询中更改数据库的名称。

您已在自己的 Amazon Website Service 账户中配置 Redshift Serverless,并且已上传诈骗者攻击数据集。现在是时候通过构建讲故事应用程序来使用这些数据了。

启动 Toucan 免费试用版

第一步是通过 Toucan 免费试用版访问 Toucan 平台。

填写表单并完成注册步骤。之后,您将在暂存模式下进入 Storytelling Studio。随意浏览已创建的内容。

04421a7cdfbd27fad557131218ea7dcd.png

将 Redshift Serverless 连接到 Toucan

要连接 Redshift Serverless 与 Toucan,请完成以下步骤:

1. 在 Toucan Storytelling Studio 的底部选择 Datastore(数据存储)。

2. 选择 Connectors(连接器)。

Toucan 通过 AnyConnect 与 Redshift Serverless 原生集成。

3. 搜索 Amazon Redshift 连接器,并用以下信息填写表单:

  • 名称 – Toucan 中的连接器的名称。

  • 主机 – 您的 Redshift Serverless 端点。

  • 端口 – 您的 Amazon Redshift 数据库的侦听端口(5439)。

  • 默认数据库 – 要连接到的数据库的名称(默认为 dev,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 身份验证方法 – 用于连接到 Redshift Serverless 的身份验证机制。在这种情况下,我们使用数据库凭证。

  • 用户 – 用于对 Redshift Serverless 进行身份验证的用户名(默认为 admin,除非在 CloudFormation 堆栈参数中进行了编辑)。

  • 密码 – 用于对 Redshift Serverless 进行身份验证的密码(您应从 Secrets Manager 中检索它;密钥的名称是 AWS-Toucan-Redshift-Password )。

da6448f315414a873ac7696ccc18dffe.png

创建实时查询

您现已连接到 Redshift Serverless。完成以下步骤以创建查询:

1. 在主页上,选择 Add tile(添加磁贴)以创建新的可视化。

bd6ccee564d704eac6334899dc5317e3.png

2. 选择 Live Connections(实时连接)选项卡,然后选择您在上一步中创建的 Amazon Redshift 连接器。

a189d334851ae38a64b8817bed16e98a.png

Toucan 试用版将指导您构建第一个实时查询,在该查询中,您可以使用 Toucan YouPrep 模块转换数据,而无需编写代码。

例如,如以下屏幕截图所示,您可以使用此无代码接口按活动计算重大诈骗者攻击次数的和,获取前五名,然后计算总计的百分比。

515a1af924b2d7ca2d2340122babf5e0.png

构建您的第一个图表

在数据准备就绪后,选择 Tile(磁贴)选项卡,并填写可帮助您构建图表的表单。

例如,您可以配置五项最危险活动的排行榜,并为超过 100 次攻击的活动添加突出显示效果。

选择 Save Changes(保存更改)以保存您的作品并返回主页。

7a94027d6fd92661c3c32acc52827066.png

发布和分享您的作品

在此阶段之前,您一直在 Staging 模式下工作。要让所有人都能看到您的作品,您需要将它发布到 Production 。

在主页的右下角,选择眼睛图标,从未来最终用户的角度预览您的作品。然后,您可以选择 Publish(发布)以使您的作品可供所有人查看。

e48e242f90f7fa46bc099e57d707d466.png

Toucan 还提供多个嵌入选项,使最终用户能够更轻松地访问您的图表(例如,使用手机和平板电脑)。

5d60b4bbce333ab1b98ba303ed9375a2.png

通过执行这些步骤,您已连接到 Redshift Serverless,使用 Toucan 无代码接口转换数据,并为业务最终用户构建了数据可视化。Toucan 试用版将在此过程的每个阶段为您提供指导,以帮助您入门。

Redshift Serverless 和 Toucan 引导式分析通过减少数据工程师的基础设施工作以及让业务最终用户更易于理解控制面板,为提高 BI 工具的采用率提供了一种有效的方法。这篇文章仅涵盖了 Redshift Serverless 和 Toucan 提供的功能的一小部分,因此,请随时探究 Amazon Redshift Serverless 文档和 Toucan 文档中的其他功能。

清理

这篇文章中通过 CloudFormation 模板部署的某些资源在使用时会产生费用。请务必在完成后移除这些资源并清理作品,以避免产生不必要的费用。

在 CloudFormation 控制台上,选择 Delete stack(删除堆栈)以删除所有资源。

总结

这篇文章向您说明了如何使用 Redshift Serverless 和 Toucan 设置端到端架构以实施引导式分析。

该解决方案受益于 Redshift Serverless 的可扩展性,使您能够以经济高效的方式存储、转换和公开数据,而无需管理任何基础设施。Redshift Serverless 与 Toucan 原生集成,后者是一款引导式分析工具,可供所有人在任意设备上使用。

引导式分析侧重于通过数据报告传达故事。通过对自定义选项设置有意图的约束,Toucan 使数据拥有者能够轻松构建有意义的控制面板,向最终用户传达清晰简洁的信息。它适用于您的内部和外部客户,以及无限数量的使用场景。

立即使用我们的 CloudFormation 模板和免费的 Toucan 试用版开始试用!

Original URL: 

https://aws.amazon.com/blogs/big-data/build-a-data-storytelling-application-with-amazon-redshift-serverless-and-toucan/

本篇作者

aa5b5f47171f0565b305df8d02e0332f.png

Louis Hourcade

亚马逊 Professional Services 团队数据科学家。他与各个行业的亚马逊客户合作,通过创新性技术帮助他们加快获得业务成果。业余时间,他喜欢跑步、攀爬巨石和冲浪(不太大的浪)。

f73320a017b264a9aacc9374af5771ec.png

Benjamin Menuet

亚马逊 Professional Services 数据架构师。他帮助客户开发大数据和分析解决方案,以加快实现业务成果。工作之余,Benjamin 是一名越野跑运动员,并且完成了一些很著名的比赛,例如 UTMB。

0f84167e09048b2c08510e7f048e8c7a.png

Xavier Naunay

亚马逊 Professional Services 数据架构师。他是亚马逊 ProServe 团队的成员,帮助企业客户使用亚马逊服务解决复杂的问题。闲暇时,他不是在旅行,就是在了解技术和其他文化。

d3630231abd6877d9bc7177fa7d3b4a8.png

Django Bouchez

Toucan 解决方案工程师。他与销售团队合作,提供有关技术和功能验证和证明方面的支持,还帮助研发部与亚马逊等云合作伙伴一起演示新功能。工作之余,Django 是一名家庭酿酒师,还练习水肺潜水和运动攀岩。

a63910f8c967ab341e23e3fe5e38fa86.gif

e046341fb4f3ba8442f61121616ecb77.gif

听说,点完下面4个按钮

就不会碰到bug了!

bbb3432a86c802eeb8ce650294253d4f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/905362.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

尝试自主打造一个有限状态机(一)

前言 我们都知道Unity有自带的有限状态机Animator,它的功能非常强大,为了探索它背后的原理,我开启了这个系列的文章,尝试通过自主打造一个有限状态机来理解Animator的工作原理,同时我会将这个状态机应用于实际&#xf…

unity 之 Input.GetMouseButtonDown 的使用

文章目录 Input.GetMouseButtonDown Input.GetMouseButtonDown 当涉及到处理鼠标输入的时候,Input.GetMouseButtonDown 是一个常用的函数。它可以用来检测鼠标按键是否在特定帧被按下。下面我会详细介绍这个函数,并举两个例子说明如何使用它。 函数签名…

美国陆军希望大数据技术能够帮助保护其云安全

随着陆军采用更大型的云服务,一位高级官员警告说,一些在私营部门有效的快速软件开发技巧和简单解决方案(例如开放代码库)如果没有额外的安全性,将无法为军队工作。 我们知道现代软件开发确实依赖于第三方库&#xff…

基于知识蒸馏的两阶段去雨、雪、雾算法调试记录

前言 该项目的介绍可以参考博主这篇博文:基于知识蒸馏的去雪、去雾、去雨算法 调试过程 该项目中inference.py可以直接使用,只要将student的权重文件放入即可,博主实验过其去噪后的结果,貌似是变清晰了一点。但train时的meta里的…

lnmp(docker)

1. 建立工作目录 [rootdocker ~]# mkdir /opt/nginx [rootdocker ~]# cd /opt/nginx [rootdocker nginx]# rz -E rz waiting to receive. #上传 nginx 安装包 nginx-1.12.0.tar.gz[rootdocker nginx]# rz -E rz waiting to receive. #上传 wordpress 服务包 wordpress-4.9.4-z…

使用shell脚本批量curl调用接口

文章目录 [toc] 1. 批量调用接口的方式1.1)方式一:业务代码 curl1.2)方式二 : shell curl 2.curl和wget的使用2.1)wget2.2) curl2.2.1) curl发送POST请求2.2.2) curl发送GET请求2.2.3) 参数有其他类型 3. shell脚本4. 从windows…

深度学习最强奠基作ResNet《Deep Residual Learning for Image Recognition》论文解读(上篇)

1、摘要 1.1 第一段 作者说深度神经网络是非常难以训练的,我们使用了一个残差学习框架的网络来使得训练非常深的网络比之前容易得很多。 把层作为一个残差学习函数相对于层输入的一个方法,而不是说跟之前一样的学习unreferenced functions 作者提供了…

【算法刷题之链表篇(1)】

目录 1.leetcode-82. 删除排序链表中的重复元素 II(1)题目描述(2)方法及思路(一次遍历)(3)代码实现 2.leetcode-19. 删除链表的倒数第 N 个结点(1)题目描述&a…

push github

一、生成密钥 打开git bash执行下面指令,Enter下一步Enter下一步..生成ssh key 密钥; ssh-keygen -t rsa 二、 复制公共密钥到git hub 登录github,在选项setting >> SSH and GPG key >> add new ssh添加刚才的公钥地址即可 验证…

大数据-玩转数据-Flink营销对账

一、说明 在电商网站中,订单的支付作为直接与营销收入挂钩的一环,在业务流程中非常重要。对于订单而言,为了正确控制业务流程,也为了增加用户的支付意愿,网站一般会设置一个支付失效时间,超过一段时间不支…

Codeforces Round 890 (Div. 2) E2. PermuTree (hard version) (主席树/树状数组/差分+前缀和)

题目 有一个初始为空的数组&#xff0c;你需要处理q(q<1e6)次操作&#xff0c;操作分四种&#xff1a; ① x&#xff0c;数组后面加一个新的数x ② - k&#xff0c;删掉数组最后面的k个值 ③ !&#xff0c;回滚最后一次变更&#xff08;只有①操作和②操作视为变更&…

Leetcode刷题之快乐数

题⽬描述&#xff1a; 算法原理: 为了⽅便叙述&#xff0c;将「对于⼀个正整数&#xff0c;每⼀次将该数替换为它每个位置上的数字的平⽅和」这⼀个 操作记为 x 操作&#xff1b; 我们做这道题可以参考环形链表:142. 环形链表 II - 力扣&#xff08;LeetCode&#xff09;…

在线HmacSHA224加密工具--在线获取哈希值又称摘要

具体请前往&#xff1a;在线计算HmacSha224工具

Internet Download Manager2023下载器最新中文版本功能

对于idm相信大家都不陌生&#xff0c;全称是Internet Download Manager。idm是一款非常经典、功能强大的Windows文件多线程下载加速软件&#xff0c;在电脑用户中口碑极好&#xff0c;被称为必装的HTTP下载神器。 1、idm既是下载器&#xff0c;也是加速器&#xff0c;可以提升…

next.js 创建 react ant design ts 项目

环境说明&#xff1a;next.js 官方文档要求node版本在16.8以上。笔者使用的 node版本是16.20.1&#xff0c;不要使用16.13.0&#xff0c;笔者在使用 node16.13.0环境时创建的 react 项目点击事件无效 next.js官网截图 next.js 官网&#xff1a;https://nextjs.org/ react 官网…

个人信息保护影响评估(PIA)怎么做?解发条件、实施步骤、操作指南

个人信息保护一直是人们关注的热点话题&#xff0c;互联网、人工智能、大数据等新兴技术的快速发展极大地增强了入侵个人信息的能力&#xff0c;对个人信息的随意收集、违法获取、过度使用、非法买卖、泄露等问题引起了全球各国的普遍关注。同时随着用户的个人信息保护意识的逐…

Flask模型部署教程?

如何使用Flask框架来部署机器学习模型&#xff1f;Flask是一个轻量级的Python Web框架&#xff0c;它非常适合用于将机器学习模型部署成实际应用。 什么是Flask&#xff1f; Flask是一个Python Web应用框架&#xff0c;它允许轻松地构建Web应用程序。它被广泛用于构建各种Web…

基于Java+SpringBoot+Vue的校企合作项目管理系统【源码+论文+演示视频+包运行成功】

博主介绍&#xff1a;✌擅长Java、微信小程序、Python、Android等&#xff0c;专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取源码联系&#x1f345; &#x1f447;&#x1f3fb; 精彩专栏推荐订阅&#x1f447;&#x1f3fb; 不然下次找不到哟 Java项目精品实战案…

代码随想录(八):贪心算法

文章目录 455.分发饼干376. 摆动序列53. 最大子数组和122. 买卖股票的最佳时机 II55. 跳跃游戏1005. K 次取反后最大化的数组和134. 加油站860. 柠檬水找零135. 分发糖果406. 根据身高重建队列 455.分发饼干 题目链接 C代码&#xff1a; class Solution { public:int findCo…

在Windows下安装PhantomJS和CasperJS及入门介绍(上)

近在使用Python爬取网页内容时&#xff0c;总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等&#xff0c;此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍。 一. 安装Phantomjs 下载地…