大数据开发治理--大数据AI公共数据集分析

news2024/12/4 16:47:59

本文以分析公共数据集的数据示例,为您展示如何使用DataWorks进行简单数据分析工作。本教程以申请免费资源为例为您展示详细操作步骤,您也可以使用付费资源,操作类似。

教程简介

阿里云DataWorks基于多种大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更多建模、集成、开发、治理等全链路的数据能力可前往官方文档进行查看。

我能学到什么

  • 熟悉DataWorks的基础操作界面,如登录控制台、创建数据源、进入子功能模块页面。

  • 学习如何在DataWorks进行简单的大数据分析操作,了解DataWorks的数据分析能力。

操作难度

所需时间

30分钟

使用的阿里云产品

  • DataWorks:一站式大数据开发与治理平台,创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。

  • MaxCompute:适用于数据分析场景的企业级SaaS模式云数据仓库,为海量数据提供丰富的计算和存储能力。

所需费用

  • DataWorks:

    • 产品版本:阿里云为您提供了免费的基础版DataWorks。

    • 增强分析:阿里云为您提供了免费的使用额度,超出额度后将收取相应费用。计费详情请参见增强分析计费说明。

  • MaxCompute:阿里云免费试用为您提供一定额度的免费MaxCompute资源包,您可使用该资源包免费试用本教程。如果您的操作超出了免费资源包的额度,则需收取相应的费用。计费详情请参见MaxCompute计费概述。

准备环境和资源

  1. 开通大数据开发治理平台DataWorks。

    1. 访问阿里云免费试用。单击页面右上方的登录/注册按钮,并根据页面提示完成账号登录(已有阿里云账号)、账号注册(尚无阿里云账号)或实名认证(根据试用产品要求完成个人实名认证或企业实名认证)。

    2. 成功登录后,即可进入申请免费试用DataWorks页面,单击大数据开发治理平台 DataWorks产品的立即试用

    3. 在弹出的购买试用DataWorks产品的面板上选择开通地域为华东2(上海),勾选服务协议后单击确认订单并支付

  2. 准备MaxCompute环境。

    • 本教程还需使用MaxCompute产品,您也可以在免费试用中申请免费额度的MaxCompute资源包进行本教程的操作,申请操作请前往申请免费试用MaxCompute页面,MaxCompute免费资源包的支持地域及免费额度介绍请参见MaxCompute新用户免费试用额度。

      【说明】:如果您此前已申请过MaxCompute的免费试用,可登录MaxCompute控制台后,查看华东2(上海)地域是否已开通,如果界面提示上海地域还未开通,您可单击欢迎界面的立即开通MaxCompute进行开通。

    • 如果您不符合免费使用MaxCompute规则,您可以开通按量计费版本的MaxCompute,计费详情请参见MaxCompute计费概述。

创建MaxCompute项目

  1. 登录MaxCompute控制台,在左上角选择地域,本教程使用的地域为华东2(上海)。单击左侧导航项目管理,在项目管理列表页面单击新建项目

  2. 在弹出的新建项目配置页面中配置项目信息,核心配置参数如表所示。

    参数

    说明

    项目名称

    自定义项目名称。本教程设置为doc_test_000

    说明

    项目名称需全局唯一,如果界面提示您项目名称已存在,您可根据提示修改项目名称。

    计算资源付费类型

    本教程选择:按量付费

    重要

    您通过免费试用选购的资源抵扣包仅可用于抵扣后付费资源消耗,本教程选择“按量付费”。

    默认Quota

    用于实现计算资源分配。本教程选择:默认后付费Quota

    单SQL消费限制

    本教程不设置。本参数为单SQL消费的最高阈值。单位:扫描量(GB)*复杂度。非必填项,当选择按量付费计费类型时建议设置,可以避免非预期的单SQL消费过高。同时也建议配置实时消费监控告警,多方位监控限制消费超出预期,详情请参见消费监控告警。

    数据类型

    MaxCompute数据类型包含1.0数据类型2.0数据类型Hive兼容类型。本教程选择:2.0数据类型

    是否加密

    指定创建的MaxCompute项目是否需要开启数据加密功能。更多数据加密信息,请参见存储加密。

    本教程选择:不加密

  3. 完成配置后单击确定,完成项目创建。

新增MaxCompute数据源

本教程使用的地域为华东2(上海)默认工作空间。

  1. 进入管理中心页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的更多 > 管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  2. 管理中心页面,单击左侧导航数据源 > 数据源列表后,在页面上单击新增数据源,然后在弹窗内选择MaxCompute数据源,配置MaxCompute数据源详情请参见创建MaxCompute数据源。

  3. 完成配置后单击完成创建,完成数据源的增加。

数据查询体验

本教程中使用阿里电商数据集(bigdata_public_dataset.commerce.commerce_ali_e_commerce)该数据集来源于天池阿里移动推荐算法挑战赛,拥有100万条脱敏后的行为数据(包括点击、购买、加购、喜欢)。

说明

DataWorks为您准备了丰富的数据集,可直接体验DataWorks的开发与分析能力,简单的SQL查询操作界面、轻松上手数据分析,还可以生成分析结果并分享给同事。

  1. 登录并进入DataWorks控制台,在左上角选择地域,本教程使用的地域为华东2(上海)

  2. 单击左侧导航栏的大数据体验 > 公共数据集,单击阿里电商数据集,进入阿里电商数据集详情页。

    image.png

  3. 单击右上角的开始分析,选择您需要体验的引擎类型。本教程使用的是MaxCompute

    image.png

  4. 在新打开的DataWorks SQL查询页面中,会创建一个新的SQL查询页面,并显示公共数据集的默认显示SQL。单击SQL查询文件右上角的

    image.png

    ,在弹框中设置工作空间及引擎信息。

  5. 完成设置后,您即可在SQL文件中进行数据查询命令开发,完成后可单击SQL查询文件操作栏中的运行按钮,运行成功后,在SQL文件下方会显示查询结果。

    本教程为您提供了一些查询示例SQL命令,您可参见下文的附录:数据查询SQL示例,进行数据查询分析。

    image.png

增强分析-创建卡片

  1. 单击查询结果区域左侧栏的

    image.png

    ,DataWorks会默认为您生成一个可视化的图表,将表格展现的SQL查询结果数据通过可视化的方式展现出来。

    说明

    首次操作时你需要先单击我要体验,并根据界面提示开启增强分析对应的功能。

    image.png

  2. 如系统默认生成的可视化图表,不符合您对于数据可视化的预期,您可单击图表右上方的

    image.png

    ,进入图表编辑页面。本教程以修改图表横纵坐标标题为例,为您示例编辑图表展示的操作。

    image.png

  3. 单击图表右上方的

    image.png

    ,即可将该结果持久化保存下来并分享。

    保存卡片后,您可以单击数据分析页面最左侧导航栏中的

    image.png

    ,查看当前已保存的所有卡片。

    image.png

增强分析-创建报告

数据分析结果保存在DataWorks-卡片中后,您可以通过增强分析-报告的功能,将卡片组织为有图表、有描述、有逻辑的分析报告,便于一键将分析报告分享给伙伴、同事。

  1. 单击数据分析页面左侧导航栏中的

    image.png

    ,进入报告页面。

  2. 单击右上角的创建报告,根据界面提示选择需要生成报告的数据分析结果卡片。

  3. 配置数据分析报告页面内容与主题风格,完成后单击右上角的创建,完成报告创建。

    image.png

  4. 返回报告列表页面后,您可以将鼠标悬浮到需要分享给其他人的报告上,单击右上角的分享按钮,根据界面提示即可获得分享链接。后续可将分享链接发送给分享对象。

    您可单击此处查看分析报告分享链接示例。

附录:数据查询SQL示例

  • 用户购物行为时间趋势

    SET odps.namespace.schema = TRUE;
    SELECT  CAST(SUBSTR(behavior_time,12) AS BIGINT) AS 时间段
            ,CASE   WHEN behavior_type = '1' THEN '商品页浏览'
                    WHEN behavior_type = '3' THEN '加入购物车'
                    WHEN behavior_type = '4' THEN '购买成功'
                    ELSE behavior_type
            END AS 用户操作
            ,COUNT(DISTINCT user_id) AS 用户数
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE   behavior_type IN ('1','3','4')
    GROUP BY 时间段
             ,用户操作
    order by 时间段 asc;
  • 不同时间段的页面访问次数

    SET odps.namespace.schema = true;
    set odps.task.sql.sqa.enable=false;
    SELECT  CASE    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 0
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 3 THEN '00点-03点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 4
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 7 THEN '04点-07点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 8
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 11 THEN '08点-11点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 12
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 15 THEN '12点-15点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 16
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 19 THEN '16点-19点'
                    WHEN CAST(SUBSTR(behavior_time,12) AS BIGINT) >= 20
                        AND CAST(SUBSTR(behavior_time,12) AS BIGINT) <= 23 THEN '20点-23点'
            END AS 时间段
            ,COUNT(1) AS 页面访问次数
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE   behavior_type = '1'
    GROUP BY 时间段
    ORDER BY 时间段 ASC
    LIMIT   100;
  • TOP10热销商品品类

    SET odps.namespace.schema = true;
    SELECT  item_category as 商品品类ID,COUNT(DISTINCT item_id) AS 商品数量
    FROM    bigdata_public_dataset.commerce.commerce_ali_e_commerce
    WHERE  behavior_type = '4'
    group by item_category
    order by 商品数量 desc
    limit 10;

清理

完成教程后,请及时清理测试数据和试用资源。

  • MaxCompute资源清理。

    本教程使用了MaxCompute计算引擎,在体验完成本教程后,如果后续您不再使用的话,请及时将MaxCompute资源释放,否则MaxCompute会继续计费。释放操作请参见资源释放。

  • DataWorks资源清理。

    本教程使用了免费的基础版DataWorks的SQL分析模块,基础版DataWorks的SQL分析任务运行结束后不会收取其他费用,如果您使用了DataWorks的其他功能模块,使用了DataWorks的资源组运行了其他周期任务,请及时将DataWorks周期任务暂停,避免造成资源组的浪费。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2253149.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ESP32-S3模组上跑通ES8388(13)

接前一篇文章&#xff1a;ESP32-S3模组上跑通ES8388&#xff08;12&#xff09; 二、利用ESP-ADF操作ES8388 2. 详细解析 上一回解析了es8388_init函数中的第6段代码&#xff0c;本回继续往下解析。为了便于理解和回顾&#xff0c;再次贴出es8388_init函数源码&#xff0c;在…

【Mac】安装Gradle

1、说明 Gradle 运行依赖 JVM&#xff0c;需要先安装JDK&#xff0c;Gradle 与 JDK的版本对应参见&#xff1a;Java Compatibility IDEA的版本也是有要求Gradle版本的&#xff0c;二者版本对应关系参见&#xff1a;Third-Party Software and Licenses 本次 Gradle 安装版本为…

根据YAML文件创建Conda环境

YAML&#xff08;全称为YAML Ain’t Markup Language&#xff09;是一种轻量级的标记语言。在Python中&#xff0c;YAML文件包含conda环境名和依赖&#xff0c;如图所示。 根据yaml文件创建Conda环境 1.切换路径 找到miniAnaconda或Anaconda&#xff0c;打开Anaconda Powersh…

【分组去重】.NET开源 ORM 框架 SqlSugar 系列

&#x1f4a5; .NET开源 ORM 框架 SqlSugar 系列 &#x1f389;&#x1f389;&#x1f389; 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列…

故障诊断 | Transformer-LSTM组合模型的故障诊断(Matlab)

效果一览 文章概述 故障诊断 | Transformer-LSTM组合模型的故障诊断(Matlab) 源码设计 %% 初始化 clear close all clc disp(此程序务必用2023b及其以上版本的MATLAB!否则会报错!) warning off %

亚马逊云(AWS)使用root用户登录

最近在AWS新开了服务器&#xff08;EC2&#xff09;&#xff0c;用于学习&#xff0c;遇到一个问题就是默认是用ec2-user用户登录&#xff0c;也需要密钥对。 既然是学习用的服务器&#xff0c;还是想直接用root登录&#xff0c;下面开始修改&#xff1a; 操作系统是&#xff1…

Android笔记【12】脚手架Scaffold和导航Navigation

一、前言 学习课程时&#xff0c;对于自己不懂的点的记录。 对于cy老师第二节课总结。 二、内容 1、PPT介绍scaffold 2、开始代码实操 先新建一个screen包&#xff0c;写一个Homescreen函数&#xff0c;包括四个页面。 再新建一个compenent包&#xff0c;写一个displayText…

HookVip4.0.3 | 可解锁各大应用会员

HookVip是一款可以解锁会员的模块工具&#xff0c;需要搭配相应框架结合使用。这款插件工具支持多种框架如LSPosed、LSPatch、太极、应用转生等&#xff0c;并且完全免费&#xff0c;占用内存小。支持的软件包括now要想、神奇脑波、塔罗牌占卜、爱剪辑、人人视频、咪萌桌面宠物…

猎板 PCB特殊工艺:铸就电子行业核心竞争力新高度

在当今竞争激烈且技术驱动的电子制造领域&#xff0c;印制电路板&#xff08;PCB&#xff09;作为电子产品的关键基石&#xff0c;其特殊工艺的发展水平直接影响着整个行业的创新步伐与产品品质。猎板 PCB 凭借在厚铜板、孔口铺铜、HDI 板、大尺寸板以及高频高速板等特殊工艺方…

【教学类-43-25】20241203 数独3宫格的所有可能-使用模版替换(12套样式,空1格-空8格,每套510张,共6120小图)

前期做数独惨宫格的所有排列&#xff0c;共有12套样式&#xff0c;空1格-空8格&#xff0c;每套510张&#xff0c;共6120小图&#xff09; 【教学类-43-24】20241127 数独3宫格的所有可能&#xff08;12套样式&#xff0c;空1格-空8格&#xff0c;每套510张&#xff0c;共6120…

Redis+Caffeine 多级缓存数据一致性解决方案

RedisCaffeine 多级缓存数据一致性解决方案 背景 之前写过一篇文章RedisCaffeine 实现两级缓存实战&#xff0c;文章提到了两级缓存RedisCaffeine可以解决缓存雪等问题也可以提高接口的性能&#xff0c;但是可能会出现缓存一致性问题。如果数据频繁的变更&#xff0c;可能会导…

echarts地图立体效果,echarts地图点击事件,echarts地图自定义自定义tooltip

一.地图立体效果 方法1:两层地图叠加 实现原理:geo数组中放入两个地图对象,通过修改zlevel属性以及top,left,right,bottom形成视觉差 配置项参考如下代码: geo: [{zlevel: 2,top: 96,map: map,itemStyle: {color: #091A51ee,opacity: 1,borderWidth: 2,borderColor: #16BAFA…

D87【python 接口自动化学习】- pytest基础用法

day87 pytest运行参数 -m -k 学习日期&#xff1a;20241203 学习目标&#xff1a;pytest基础用法 -- pytest运行参数-m -k 学习笔记&#xff1a; 常用运行参数 pytest运行参数-m -k pytest -m 执行特定的测试用例&#xff0c;markers最好使用英文 [pytest] testpaths./te…

总结拓展十七:特殊采购业务——委外业务

SAP中委外采购业务&#xff0c;又称供应商分包&#xff08;或外协、转包、、外包、托外等&#xff09;&#xff0c;是企业将部分生产任务委托给外部供应商/集团其他分子公司完成的一种特殊采购业务模式。 委外业务主要有2大类型&#xff0c;分别是标准委外&#xff08;委外采购…

ESP8266作为TCP客户端或者服务器使用

ESP8266模块&#xff0c;STA模式&#xff08;与手机搭建TCP通讯&#xff0c;EPS8266为服务端&#xff09;_esp8266作为station-CSDN博客 ESP8266模块&#xff0c;STA模式&#xff08;与电脑搭建TCP通讯&#xff0c;ESP8266 为客户端&#xff09;_esp8266 sta 连接tcp-CSDN博客…

ATTCK红队评估实战靶场(四)

靶机链接&#xff1a;http://vulnstack.qiyuanxuetang.net/vuln/detail/6/ 环境搭建 新建两张仅主机网卡&#xff0c;一张192.168.183.0网段&#xff08;内网网卡&#xff09;&#xff0c;一张192.168.157.0网段&#xff08;模拟外网网段&#xff09;&#xff0c;然后按照拓补…

C 语言 “神秘魔杖”—— 指针初相识,解锁编程魔法大门(一)

文章目录 一、概念1、取地址操作符&#xff08;&&#xff09;2、解引用操作符&#xff08;*&#xff09;3、指针变量1、 声明和初始化2、 用途 二、内存和地址三、指针变量类型的意义1、 指针变量类型的基本含义2、 举例说明不同类型指针变量的意义 四、const修饰指针1、co…

封装loding加载动画的请求

图片 /*** Loading 状态管理类*/ export class Loading {constructor(timer300) {this.value falsethis.timer timer}/*** 执行异步操作并自动管理 loading 状态* param {Promise|Function|any} target - Promise、函数或其他值* returns {Promise} - 返回请求结果*/async r…

人形机器人训练、机器臂远程操控、VR游戏交互、影视动画制作,一副手套全部解决!

广州虚拟动力基于自研技术推出了多节点mHand Pro动捕数据手套&#xff0c;其最大的特点就是功能集成与高精度捕捉&#xff0c;可以用于人形机器人训练、机器臂远程操控、VR游戏交互、影视动画制作等多种场景。 一、人形机器人训练 mHand Pro动捕数据手套双手共装配16个9轴惯性…

Nginx Web服务器管理、均衡负载、访问控制与跨域问题

Nginx Web 服务器的均衡负载、访问控制与跨域问题 Nginx 的配置 1. 安装Nginx 首先安装Nginx apt install nginx -ycaccpurgatory-v:~$ sudo apt install nginx [sudo] password for cacc: Reading package lists... Done Building dependency tree... Done Reading state i…