数据分析问答总结

news2024/9/24 18:28:08

一、SQL窗口函数

1.是什么

OLAP(Online Anallytical Processing联机分析处理),对数据库数据进行实时分析处理。

2.基本语法:

  • <窗口函数>OVER (PARTITION BY <用于分组的列名>

                   ORDER BY <用于排序的列名>)

注:

<窗口函数>都有哪些:

1.专用窗口函数:rank(相等的值排名相同,计数)、dense_rank(相等的值排名相同,不计数)、row_number(对相等的值不进行区分)、first_value(用于获取在分组内的第一个值)、last_value、lead(用于在查询结果集中访问当前行之后的行的数据)、lag(在查询结果集中访问当前行之前的行的数据)等

SELECT 
    order_id,
    customer_name,
    order_amount,
    order_amount - LAG(order_amount) OVER (ORDER BY order_id) AS previous_order_difference
FROM orders;

 2.聚合窗口函数:count, sum, avg, max, min等,除count,其他聚合函数忽略NULL。

  • PARTITION BY:类似于聚合函数中的GROUP BY子句,但是在窗口函数中,要写成PARTITION BY
  • ORDER BY:和普通查询语句中的ORDER BY没什么不同

3. 窗口函数和聚合函数的区别

1.用OVER关键字区分窗口函数和聚合函数。

2.聚合函数每组只返回一个值,窗口函数每组可返回多个值。

4.注意事项

1.原则上只能写在SELECT子句中,因为窗口函数是对WHERE或者GROUP BY子句处理后的结果进行操作。over()里的分组以及排序的执行,晚于where、group by、order by的执行。

2.常见主流数据库目前都支持窗口函数。

3.partition子句原则上可省略,但这就失去了窗口函数的意义。

5.为什么要用

group by分组汇总后改变了表的行数,一行只有一个类别。而partition by和rank函数不会减少原表中的行数。

窗口函数表示“范围”的意思,partition by分组后的结果。

二、A/B test

1. 原理

核心:假设检验。检验实验组和对照组的指标是否有显著性差异。

先做出假设,然后获取数据,最后根据数据来进行检验。

假设:

零假设:实验组 & 对照组:指标相同,无显著差异

备择假设:实验组 & 对照组: 指标不同,有显著差异

检验:根据指标的属性以及样本量的大小选择合适的检验方法。常用的检验方法有Z检验、t检验、卡方检验和F检验。

  • t检验:总体正态分布、总体方差未知或独立小样本平均数的显著性检验、平均数差异显著性检验。
  • Z检验:总体正态分布、总体方差已知或独立大样本平均数的显著性检验、平均数差异显著性检验。
  • 卡方检验:检验实验组是否服从理论分布(将对照组看成理论分布)。

2. 流程

1.确定实验目标

评价指标护栏指标

评价指标是驱动公司实现核心价值的指标,要具有可归因性、可测量性、敏感性和稳定性;

护栏指标也就是辅助指标。

评价指标重点关注一个目标,护栏指标可以选择多个作为辅助,避免达成一个目标造成别的利益的损失。

比如:要提升广告收入,我们在页面部分多插入一条或多条广告,虽然短期内是提高了收入,但是长期以来用户体验就会变差,造成用户反感继而流失。

2.设计实验:

  • 建立假设:建立零假设和备选假设,零假设一般是没有效果,备择假设是有效果。
  • 选取实验单位:有以下三种,常用用户粒度。

用户粒度:以一个用户的唯一标识来作为实验样本。好处是符合A/B实验的分桶单位唯一性,不会造成一个实验单位处于两个分桶,造成的数据不置信。

设备粒度:以一个设备标识为实验单位。相比用户粒度,如果一个用户有两个手机,那么也可能出现一个用户在两个分桶中的情况,所以会造成数据不置信。

行为粒度:以一次行为为实验单位,也就是用户某一次使用该功能,实验桶,下一次使用可能就被切换为基线桶,会造成大量的用户处于不同的分桶。不推荐。

  • 计算样本量:很重要

太小:实验结果不会可信

太大:影响面越大。负面影响,流量和资源的浪费。

  • 流量分配:分流(指直接将整体用户切割为几块,用户只能在一个实验中,不会相互影响。实验之间是互斥的)和分层(指将同一批用户,不停地随机后,处于不同的桶种。同一用户属于多个不同的实验,且相互之间不影响,企业中常用)
  • 计算试验周期

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/908071.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【LUBAN】【功能验证】至简投屏功能之Android有线连接方式测试

1、概述 至简投屏功能之Android有线连接方式支持至简自带应用至加的投屏功能和谷歌官方的Android auto功能。 支持的功能范围列举如下&#xff1a; 1、屏幕投屏&#xff08;支持自动旋转屏&#xff09;2、音视频播放&#xff08;抖音、百度地图等&#xff09;3、车机反控手机…

红日靶场(一)vulnstack1 渗透过程分析

文章目录 环境搭建信息收集PhpMyAdmin 后台 Getshellinto outfileMysql日志文件写入shell CS后渗透MSF后渗透知识补充nmap参数分类参数速查表 dirsearch 环境搭建 ip段设置 kali (coleak)&#xff1a;192.168.145.139 Windows 7 (stu1)&#xff1a;192.168.10.181、192.168.1…

报道|新鲜出炉!INFORMS公布六位新任期刊主编

推文作者&#xff1a;徐思坤 编者按 INFORMS旗下的六本期刊&#xff0c;Management Science、Operations Research、Service Science、Tutorials in OR、INFORMS Analytics Collection&#xff0c;以及Transportation Science的新任主编公布&#xff0c;并将于2024年1月1日正式…

linux自动压缩日志文件

目录 前言编写脚本配置计划任务 前言 大型项目日志量非常大&#xff0c;如果不采取特定措施&#xff0c;不到一个月200G的磁盘就会被占满&#xff0c;一种最简单的方法就是将日志文件压缩&#xff0c;使用 tar -cvzf xxx.tar.gz xxx 压缩&#xff0c;压缩后占用空间只有原来的…

Java中Map集合体系{HashMap,TreeMap,LindedHashMap}

Map概述 Map是双列集合&#xff0c;Map集合中的每一个元素是以keyvalue的形式存在的&#xff0c;一个keyvalue就称之为一个键值对&#xff0c;而且在Java中有一个类叫Entry类&#xff0c;Entry的对象用来表示键值对对象。 特点&#xff1a;键不能重复&#xff0c;值可以重复&…

安卓图形显示系统

Android图形显示系统 Android图形显示系统是Android比较重要的一个子系统&#xff0c;和很多其他子系统的关联紧密。 Android图形系统比较复杂&#xff0c;这里我们从整体上理一遍&#xff0c;细节留待后期再去深入。Android图形系统主要包括以下几个方面&#xff1a; - 渲染…

升级Qt后VS项目不能使用

错误场景&#xff1a; 如果你的QT卸载了装了新版,那么VS你原来设置的项目就不能跑了. 问题 升级Qt后&#xff36;&#xff33;项目不能使用 跟我一起开始挽救自己的项目 升级Qt后&#xff36;&#xff33;项目不能使用 假如你从5.14.6 升级到 Qt6.2并删除了原来的QT 你在VS里…

基础论文学习(3)——SwinTransformer

目前Transformer应用到图像领域的挑战&#xff1a; 图像分辨率高&#xff0c;像素点多&#xff0c;如果需要更多特征就必须构建很长的序列&#xff0c;但Transformer基于全局自注意力的计算导致计算量较大&#xff0c;能否用窗口分层的形式代替长序列&#xff0c;实现类似CNN感…

Php“牵手”淘宝商品详情页数据采集方法,淘宝API接口申请指南

淘宝天猫详情接口 API 是开放平台提供的一种 API 接口&#xff0c;它可以帮助开发者获取商品的详细信息&#xff0c;包括商品的标题、描述、图片等信息。在电商平台的开发中&#xff0c;详情接口API是非常常用的 API&#xff0c;因此本文将详细介绍详情接口 API 的使用。 一、…

C语言,Linux,静态库编写方法,makefile与shell脚本的关系。

静态库编写&#xff1a; 编写.o文件gcc -c(小写) seqlist.c(需要和头文件、main.c文件在同一文件目录下) libs.a->去掉lib与.a剩下的为库的名称‘s’。 -ls是指库名为s。 -L库的路径。 makefile文件编写&#xff1a; CFLAGS-Wall -O2 -g -I ./inc/ LDFLAGS-L./lib/ -l…

华为开源自研AI框架昇思MindSpore应用案例:PFLD实时人脸关键点检测算法

目录 一、环境准备1.进入ModelArts官网2.使用CodeLab体验Notebook实例 二、案例实现 人脸关键点检测是一个非常核心的算法业务&#xff0c;其在许多场景中都有应用。比如我们常用的换脸、换妆、人脸识别等2C APP中的功能&#xff0c;都需要先进行人脸关键点的检测&#xff0c;然…

Python随机密码生成。编写程序,在26个字母大小写和10个数字随机生成10个8位密码。

题目&#xff1a;随机密码生成。编写程序&#xff0c;在26个字母大小写和10个数字随机生成10个8位密码。 样例&#xff1a;类似AB12cdHi的十组8位密码。 代码&#xff1a; import random def passwords():a, b, c ord(a), ord(A), ord(1)r list(range(a , a 26)) list(ra…

Comparable和Comparator区别

Comparable和Comparator接口都是实现集合中元素的比较、排序的&#xff0c;众所周知&#xff0c;诸如Integer&#xff0c;double等基本数据类型&#xff0c;java可以对他们进行比较&#xff0c;而对于类的比较&#xff0c;需要人工定义比较用到的字段比较逻辑。总体来讲&#x…

电脑找不到vcruntime140.dll文件怎么解决?教你解决这个问题

​vcruntime140.dll是Microsoft Visual C 2015 Redistributable Package中的一个文件&#xff0c;它包含了运行C应用程序所需的运行时库。如果在计算机上找不到这个文件&#xff0c;可能会导致一些应用程序无法正常运行。本文将介绍如何修复vcruntime140.dll丢失的问题以及一些…

【计算机网络八股】计算机网络(一)

目录 计算机网络的各层协议及作用&#xff1f;TCP和UDP的区别&#xff1f;UDP 和 TCP 对应的应用场景是什么&#xff1f;详细介绍一下 TCP 的三次握手机制&#xff1f;为什么需要三次握手&#xff0c;而不是两次&#xff1f;为什么要三次握手&#xff0c;而不是四次&#xff1f…

鼠标拖拽盒子移动

目录 需求思路代码页面展示【补充】纯js实现 需求 浮动的盒子添加鼠标拖拽功能 思路 给需要拖动的盒子添加鼠标按下事件鼠标按下后获取鼠标点击位置与盒子边缘的距离给 document 添加鼠标移动事件鼠标移动过程中&#xff0c;将盒子的位置进行重新定位侦听 document 鼠标弹起&a…

线性代数的学习和整理7:各种特殊效果矩阵特例(草稿-----未完成)

目录 1 矩阵 1.1 1维的矩阵 1.2 2维的矩阵 1.3 没有3维的矩阵---3维的是3阶张量 2 方阵 3 单位矩阵 3.1 单位矩阵的定义 3.2 单位矩阵的特性 3.3 为什么单位矩阵I是 [1,0;0,1] 而不是[0,1;1,0] 或[1,1;1,1] 3.4 零矩阵 3.4 看下这个矩阵 [0,1;1,0] 3.5 看下这个矩阵…

很好的启用window10专业版系统自带的远程桌面

启用window10专业版系统自带的远程桌面 文章目录 启用window10专业版系统自带的远程桌面前言1.找到远程桌面的开关2. 找到“应用”项目3. 打开需要远程操作的电脑远程桌面功能 总结 前言 Windows操作系统作为应用最广泛的个人电脑操作系统&#xff0c;在我们身边几乎随处可见。…

微信占内存?教你一招,瞬间释放手机内存

想必大家都有遇到手机内存不足的问题&#xff0c;而微信作为一款功能强大的应用&#xff0c;需要在手机上存储大量的数据以保证其正常运行。 具体来说&#xff0c;微信存储了大量的聊天记录、图片、视频、音频等多媒体文件&#xff0c;还需要存储用户的账号信息、联系人列表、表…

vue3 清空/重置reactive

序&#xff1a; 1、适用场景&#xff1a;表单切换验证如下图。 我举个例子&#xff0c;如果下拉选银行卡&#xff0c;提交表单的时候所属银行是要必填验证&#xff0c;但是如果选支付宝&#xff0c;那所属银行就非必填了&#xff0c;然而很多时候from的rules是以props来传的&a…