【数据挖掘】如何修复时序分析缺少的日期

news2024/11/26 4:52:15

一、说明

        我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。

        我们将介绍:

  • 如何生成日期以填补数据中缺失的空白
  • 如何创建 TVF 和参数的使用
  • 如何呼叫 TVF
  • 我们将考虑扩展我们的日期生成器以获得更大的灵活性。
  • 最后,我将分享如何访问我的TVF,并向您介绍一个名为BigFunctions的开源项目。

二、简述

在某些情况下,数据为零的日期很重要,必须在数据集中显示/包含。例如:

  • 企业可以从识别零售中没有销售的天数中受益。这些日子受到假期或客户行为变化的影响。
  • 查找数据中缺失的日期有助于揭示由系统故障或不完整的数据捕获引起的异常或异常值,从而提高数据质量。显示缺少的日期是实现此目标的有用工具。

        这些缺失的日期可能会导致分析和可视化问题。因此,您需要一个解决方案来确保输出中存在所有日期,即使没有相应的数据也是如此。

        在本文结束时,您将拥有自己的 TVF,它可以生成这个......

        从一行代码开始吧!

三、缺失日期如何补救?

        请考虑以下方案:您运行了一个查询,该查询按日期提供过去四周的总调查响应结果。然后,您将结果导入 Google 表格,以快速可视化数据。

        上图没有突出显示任何缺失的数据;它看起来完全符合预期。即使您选择在 x 轴上显示所有日期,您也没有注意到 7 月中缺少的两天也是可以原谅的。

        上图是真实数据,并真实反应7月缺少两天的数据,因而数据较窄。从中可以看出,Google的数据填充是天衣无缝的感觉,问题是离开Google,我们自己是否依然能够处理好这种缺失问题?答案是:需要经过一番研究。

四、我们如何解决这个问题

         为了解决这个问题,我创建了我喜欢称之为日期轴的东西。 此日期/周/月列(无论需要什么时间段)都是与正在分析的数据集分开构建的。这可确保日期是独立的,并且不依赖于数据存在。

        创建日期轴相当简单,尽管如果您经常需要创建一个,则很麻烦。

        下面是一个简单的示例,它生成2023-6-16到 2023-6-19 日之间的日期。


WITH date_axis as (SELECT
  dates
FROM
  UNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)

SELECT
  dates
FROM
  date_axis

        generate_date_array函数是其中的关键部分,但正如函数名称所暗示的那样,输出以数组形式返回。因此,我们必须在下一步中取消嵌套(展平)此数组。

        日期轴存在于 CTE 中,因为我们需要将其视为一个单独的表,将我们的实际数据左连接到日期列表。

WITH date_axis as (SELECT
  dates
FROM
  UNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)

SELECT
  dates,
  responses as original_responses,
  ifnull(responses,0) as new_responses
FROM
  date_axis as axis
LEFT JOIN
  `spreadsheep-20220603.Case_Studies.survey_responses` as survey
  ON axis.dates = survey.date

        正如您在上面看到的,我们在survey_responses表中为 7 月 2 日和 1 日的值,因为这些日期不存在。使用日期轴,我们可以轻松发现这些并适当地处理它们,在这种情况下,值将替换为0。

        重新绘制更新的数据,我们现在捕捉到7月初缺乏回复的情况。

五、关于TVF的使用(table value Function)?

5.1 什么是TVF

        TVF 是表值函数的缩写,table value Function。与 UDF(用户定义函数)非常相似,它们允许您指定一系列任务,这些任务将在调用自定义函数时运行。

        两者之间的区别在于 UDF 为数据集中的每一行返回结果,而 TVF 返回整个表。

        您可能想知道,如果 CTE 方法完美地完成了这项工作,那有什么意义。好吧,在 TVF 中,我们可以扩展日期轴函数的功能和可重用性并简化我们的代码。

        有许多创造性和有用的方法来使用 TVF,在本文中,我们将使用一种方法来生成日期轴。

5.2 创建TVF

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
AS (
SELECT
  dates
FROM
  UNNEST(generate_date_array(start_date,end_date)) as dates
)

        创建 TVF 既好又容易;从“开始,然后是要在项目中保存 TVF 的位置。然后,您可以添加参数,我们在此示例中添加了两个参数。create or replace table function

        start_date DATE, end_date DATE

        如下所示,这两个参数替换了我们添加到 generate_date_array 函数的静态值。

        unnest(generate_date_array(start_date,end_date)) as dates

        创建 TVF 后,您可以像调用表一样调用新函数。请注意,我在 FROM 子句末尾添加了括号,以指定我希望 TVF 使用哪些值,其中 7 月 1 日作为开始日期,7 月 7 日作为结束日期。

SELECT 
  dates 
FROM 
  `spreadsheep-20220603.Case_Studies.generate_dates`("2023-07-01", "2023-07-07")

        我们现在可以更新原始查询以使用新的 TVF。

WITH date_axis as (
SELECT 
  dates 
FROM 
  `spreadsheep-20220603.Case_Studies.generate_dates`("2023-06-19", "2023-07-16")
)

SELECT
  dates,
  responses as original_responses,
  ifnull(responses,0) as new_responses
FROM
  date_axis as axis
LEFT JOIN
  `spreadsheep-20220603.Case_Studies.survey_responses` as survey
  ON axis.dates = survey.date

5.3 在TVF上扩展

        到目前为止,该函数非常有限,因为它只提供日期。如果我们想要一周的开始日期,一周从星期日开始,或者我们想要过去几年的季度开始和结束日期,该怎么办?

        虽然我们可以将该逻辑添加到调用 TVF 的 CTE 中,但让我们在 TVF 中处理它,以便在需要时它就在那里。

        我的最终版本增加了一些其他可能性,具体取决于您是否需要每周、每月或每季度的日期范围。

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
OPTIONS (description="Generate a table of dates") AS (
(
select
  date,
  format_date("%a", date) as day_of_week,
  date_trunc(date, week(monday)) as week_start_monday,
  date_trunc(date, week(monday)) + 6 as week_end_monday,
  date_trunc(date, week(sunday)) as week_start_sunday,
  date_trunc(date, week(sunday)) + 6 as week_end_sunday,
  date_trunc(date, month) as month_start,
  date_add(date_trunc(date, month), interval 1 month) - 1 as month_end,
  date_trunc(date, quarter) as quarter_start,
  date_add(date_trunc(date, quarter), interval 1 quarter) - 1 as quarter_end,
from unnest(
  generate_date_array(
    start_date,
    end_date
  )
) as date
)
);

        这为我们提供了在本文开头看到的输出,其中单个查询行可以生成数年的日期,以及它们的周、月和季度部分。

        作为奖励,我们创建的这个函数不会查询任何实际数据。这意味着它是完全免费的,而且速度快如闪电。

        即使生成从 1820 年到现在的日期也只需 1 秒。

SELECT * FROM `spreadsheep-20220603.Case_Studies.generate_dates`("1820-07-01","2023-07-15")

摄影:Benjamin Davies on Unsplash

5.4 访问BigFunctions

        为了节省一些时间,您不必在项目中创建此 TVF;您可以使用公共版本,该版本存在于 BigFunctions 开源项目中。

        要将 BigFunctions 添加到项目中,您可以使用资源管理器添加功能,然后“按名称为项目加星标”,如下所示。

        这些函数在每个区域中都可用,在每个数据集中,您可以在“例程”下找到generate_dates。试试下面的代码!

SELECT * FROM `bigfunctions.europe_west2.generate_dates`("2022-01-01", "2023-01-01");

        有关 BigFunctions 的更多详细信息可以在这里找到,其中充满了很棒的自定义函数,其中一些甚至使用 Python 来运行各种整洁的东西。如果您在日常角色中使用 BigQuery,请查看它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/778566.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Less知识点整理学习笔记

文章目录 1. Less介绍2. 安装2.1 部署node.js环境2.2 安装Less2.3 WebStorm配置Less 3. Less语法3.1 变量3.2 嵌套3.3 运算 1. Less介绍 Less是CSS预处理语言,可以使用变量、嵌套、运算等,便于维护项目CSS样式代码。 2. 安装 2.1 部署node.js环境 官…

Python爬虫学习笔记(十二)————scrapy案例

目录 1.yield 2.案例:当当网 3.案例:电影天堂 1.yield (1)带有 yield 的函数不再是一个普通函数,而是一个生成器generator,可用于迭代 (2) yield 是一个类似 return 的关键字&am…

《数据分析-JiMuReport07》JiMuReport报表开发-下拉框条数参数调整

JimuReport报表下拉框条数参数调整 {selectSearchPageSize:n} 1.下拉框条数限制 下拉框默认只显示10条记录,如果想要显示更多条数可以通过添加参数实现。 2.参数 selectSearchPageSize参数,设置参数大小 3.效果 可以看到设置的下拉框条数20条已经实现

细说小程序底部标签---【浅入深出系列006】

浅入深出系列总目录在000集 如何0元学微信小程序–【浅入深出系列000】 文章目录 本系列校训学习资源的选择 学习语法的前提底部标签的总概鹅厂的自定义标签官方说明: 先来了解app.json文件tabBar 位于app.json哪里 使用流程要注意的是:配套资源作业&a…

el-popover在原生table中,弹出多个以及内部取消按钮无效问题

问题&#xff1a;当el-popover和原生table同时使用的时候会失效&#xff08;不是el-table) <el-popover placement"bottom" width"500" trigger"click" :key"popover-${item.id}"></el-popover> 解决&#xff1a; :key…

虚拟数字人——NeRF实现实时对话数字人

前言 1.这是一个能实时对话的虚拟数字人demo,使用的是NeRF&#xff08;Neural Radiance Fields&#xff09;&#xff0c;训练方式可以看看我前面的博客。 2.文本转语音是用了VITS语音合成&#xff0c;项目git:https://github.com/jaywalnut310/vits . 3.语言模型是用了新开…

Jenkins从配置到实战(一) - 实现C/C++项目自动化编译

前言 本文章主要介绍了&#xff0c;如何去安装和部署Jenkins&#xff0c;并实现自动拉取项目代码&#xff0c;自动化编译流程。 网站 官网中文网站 下载安装 可以下载这个 安装jenkins前先安装java yum search java|grep jdkyum install java-1.8.0-openjdk 安装jenkins j…

NE555 PWM输出

NE555是一种集成电路&#xff08;IC&#xff09;&#xff0c;通常用于电子电路的各种目的&#xff0c;包括计时器、振荡器等等。 本文介绍搭建NE555电路输出PWM信号&#xff0c;电路如图下&#xff1a; 使用该电路可以输出PWM占空比≥50%波形&#xff0c;仿真波形如下图&#…

20230723在win10的命令行下显示文本文件的内容type

20230723在win10的命令行下显示文本文件的内容type 2023/7/23 20:35 百度搜索&#xff1a;WINDOWS 命令行 打开文本文件 windows命令行读取文件命令-WinFrom控件库|.net开源控件库... 2023年7月14日 linux下,可能会用到cat或都是more命令,windows下可以使用type或more命令 type…

VMware Fusion 14 Tech Preview - 适用于 Arm 的 Windows 11 上的全面 3D 加速

VMware Fusion 14 Tech Preview - 适用于 Arm 的 Windows 11 上的全面 3D 加速 VMware Fusion Tech Preview 2023 请访问原文链接&#xff1a;https://sysin.org/blog/vmware-fusion-14/&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;…

求解包含约束的最优化问题:罚函数法

文章目录 外点罚函数法内点罚函数法罚函数法 vs 拉格朗日乘子法 外点罚函数法 针对包含约束条件的最优化问题&#xff0c;此前介绍的拉格朗日乘子法和KKT条件已经提供一种有效的解决方案。但由于我是从智能优化算法入门运筹优化行业的&#xff0c;所以在遇到这类问题时&#x…

day35-Image Carousel(图片轮播图简易版)

50 天学习 50 个项目 - HTMLCSS and JavaScript day35-Image Carousel&#xff08;图片轮播图简易版&#xff09; 效果 index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport…

93、简述kafka架构设计

kafka架构设计 Consumer Group&#xff1a;消费者组&#xff0c;消费者组内每个消费者负责消费不同分区的数据&#xff0c;提高消费能力。逻辑上的一个订阅者。Topic: 可以理解为一个队列&#xff0c;Topic 将消息分类&#xff0c;生产者和消费者面向的是同一个 Topic。Partiti…

netty组件详解-中

接着之前的博客netty组件详解-上&#xff0c;我们继续深入到源码层面&#xff0c;来探究netty的各个组件和其设计思想&#xff1a; netty内置的通讯模式 我们在编写netty代码时&#xff0c;经常使用NioServerSocketChannel 作为通讯模式。 例如下面的简单netty客户端示例: pri…

Docker迁移默认的/var/lib/docker目录

安装完Docker后&#xff0c;默认存储路径在/var/lib/docker目录&#xff0c;如果服务器挂载的硬盘不是根目录的话&#xff0c;可能会造成资源不够用。这时候就需要迁移docker默认的目录。 1.停止docker服务 systemctl stop docker 复制 2.创建docker新目录 mkdir -p /data…

airtest-selenium 脚本爬取百度热搜标题

目录 1. 前言 2. 爬取标题的脚本 3. 命令行运行 Web 自动化脚本 1&#xff09;python 环境准备 2&#xff09;chrome 与 chromedriver 版本对应 3&#xff09;命令行运行 1. 前言 airtest-selenium是一个基于Python的UI自动化测试框架&#xff0c;它结合了airtest和sele…

【Redis】缓存问题小记

文章目录 1、缓存模型和思路1.1、缓存更新策略1.2、具体实现思路 2、缓存穿透问题2.1、方案分析2.2、缓存空对象实现思路2.3、小总结 3、缓存雪崩4、缓存击穿4.1、方案分析4.1.1、互斥锁4.1.2、逻辑过期4.1.3、方案对比 4.2、互斥锁实现思路4.3、逻辑过期实现思路 1、缓存模型和…

微服务——统一网关Getway

为什么需要网关&#xff1f; 网关的两种实现: 网关Getway——快速入门 步骤一 网关背身也是一个微服务&#xff0c;需要注册到nacos中去 步骤二 成功运行后 可以通过网关进行请求转发到对应服务。 流程如下&#xff1a; 路由断言工厂 网关路由可以配置的东西有如下。 spri…

RocketMQ分布式事务 -> 最终一致性实现

文章目录 前言事务消息场景代码示例订单服务事务日志表TransactionMQProducerOrderTransactionListener业务实现类调用总结 积分服务积分记录表消费者启动消费者监听器增加积分幂等性消费消费异常 前言 分布式事务的问题常在业务与面试中被提及, 近日摸鱼看到这篇文章, 阐述的…

Web前端开发概述(二)

&#x1f60a;Web前端开发概述&#xff08;二&#xff09; &#x1f47b;前言&#x1fa81;前端开发背景&#x1f50d;当下前端开发要求&#x1f526;Web前端开发技术&#x1f3ad;HTML&#x1f3ad;CSS&#x1f3ad;JavaScript&#x1f3ad;HTML DOM&#x1f3ad;BOM&#x1f…