优化查询性能:DolphinDB 时间类型数据比较规则详解

news2024/11/24 14:24:57

在数据库中,时间是一种常见的数据类型。在处理时间数据时,比较操作是非常常见的需求。然而,在不同的场景下,对时间类型数据进行比较时应用的规则不同。本文将从 DolphinDB 支持的时间类型开始,由浅入深分别介绍时间类型数据在不同场景下的比较规则。涵盖以下场景:

  • 时间类型的转换规则
  • 时间类型的比较规则
  • 时间类型的分区剪枝规则

1. 时间类型介绍

DolphinDB 支持的时间类型包括:TIME, MINUTE, SECOND, DATE, MONTH, DATEHOUR, DATETIME, TIMESTAMP, NANOTIME, NANOTIMESTAMP。以上数据类型可以按照包含的时间信息分成:

  • 日期型:仅包含日期信息,包括 DATE, MONTH
  • 时间型:仅包含时间信息,包括 MINUTE, SECOND, TIME, NANOTIME
  • 日期时间型:同时包含日期和时间信息,包括 DATEHOUR, DATETIME, TIMESTAMP, NANOTIMESTAMP

以下是每个时间类型格式说明和例子:

DolphinDB 的时间类型不包含时区信息,由用户来决定时间对下的时区。通过 localtime、 gmtime、convertT 函数可以转换时区信息,通过todaynow函数可以获取当前的系统时间。

获取当前的日期,可以使用today函数,函数会返回一个 DATE 类型的数据,表示当前的日期:

today()  // 2024.06.03

获取当前的时间,可以使用now函数,默认情况下,该函数返回的是 TIMESTAMP 类型,精确到毫秒;也可以指定参数nanoSecond=true,返回 NANOTIMESTAMP 类型,精确到纳秒。

now()  // 2024.06.03T09:29:38.390
now(true)  // 2024.06.03T09:31:17.318298137

2. 显式的时间类型转换

在 DolphinDB 中,可以使用数据类型转换函数或者cast函数进行数据类型转换。时间类型的转换规则可以总结成下表(横轴为目标数据类型,纵轴为源数据类型,√表示支持转换,x表示不支持转换。)。

日期型日期时间型时间型
日期型×
日期时间型
时间型××

时间类型的转换规则可概括为:

(1)相同分类中的时间类型可以相互转换。

同为日期型的 DATE 和 MONTH 可以互相转换;

date(2012.01M)   // 2012.01.01
month(2012.01.02)  // 2012.01M

同为时间型的 MINUTE、SECOND、TIME、NANOTIME 可以互相转换;

minute(23:30:00)  // 23:30m
minute(23:30:00.000)  // 23:30m
minute(23:30:00.000000000)  // 23:30m
second(23:30m)  // 23:30:00
second(23:30:00.001)  // 23:30:00
second(23:30:00.000000001)  // 23:30:00
time(23:31m)  // 23:31:00.000
time(23:30:01)  // 23:30:01.000
time(23:30:01.000000001)  // 23:30:01.000
nanotime(23:30m)  // 23:30:00.000000000
nanotime(23:30:31)  // 23:30:31.000000000
nanotime(23:30:31.001)  //23:30:31.001000000

同为日期时间型的 DATEHOUR、DATETIME、TIMESTAMP、NANOTIMESTAMP 可以互相转换。

datehour(2020.01.01 13:30:01)  // 2020.01.01T13
datehour(2020.01.01T13:30:01.001)  //  2020.01.01T13
datehour(2020.01.01T13:30:01.001002003)  // 2020.01.01T13
datetime(datehour(2020.01.01 13:00:01))  // 2020.01.01T13:00:00
datetime(2020.01.01T13:30:01.001)  // 2020.01.01T13:30:01
datetime(2020.01.01T13:30:01.001002003)  //  2020.01.01T13:30:01
timestamp(datehour(2020.01.01 13:00:01))  //  2020.01.01T13:00:00.000
timestamp(2020.01.01 13:00:01)  // 2020.01.01T13:00:01.000
timestamp(2020.01.01T13:30:01.001002003)  // 2020.01.01T13:30:01.001
nanotimestamp(datehour(2020.01.01 13:00:01))  //  2020.01.01T13:00:00.000000000
nanotimestamp(2020.01.01T13:30:01)  //  2020.01.01T13:30:01.000000000
nanotimestamp(2020.01.01T13:30:01.001)  // 2020.01.01T13:30:01.001000000

(2)日期型和日期时间型可以相互转换。

日期型转换为日期时间型,会自动补充时间为0点的信息。

datehour(2023.01.02)  // 2023.01.02T00
datetime(2023.01.02)  // 2023.01.02T00:00:00
timestamp(2023.01.02)  // 2023.01.02T00:00:00.000
nanotimestamp(2023.01.02)  // 2023.01.02T00:00:00.000000000
datehour(2023.01M)  // 2023.01.01T00
datetime(2023.01M)  // 2023.01.01T00:00:00
timestamp(2023.01M)  //  2023.01.01T00:00:00.000
nanotimestamp(2023.01M)  // 2023.01.01T00:00:00.000000000

日期时间型转换为日期型,会舍弃时间信息。

date(datehour(2020.01.01 13:00:01)) // 2020.01.01
date(2020.01.01 13:00:01)  // 2020.01.01
date(2020.01.01 13:00:01.001)  // 2020.01.01
date(2020.01.01 13:00:01.001002003)  // 2020.01.01
month(datehour(2020.01.01 13:00:01))  // 2020.01M
month(2020.01.01 13:00:01)  // 2020.01M
month(2020.01.01 13:00:01.001)  // 2020.01M
month(2020.01.01 13:00:01.001002003)  // 2020.01M

(3)日期时间型可以转换为时间型,但时间型不能转换为日期时间型。

日期时间型转换为时间型,会舍弃日期信息;

time(2020.01.01 13:00:01.001002003)  // 13:00:01.001
minute(2020.01.01 13:00:01)  // 13:00m

时间型转换为日期时间型,会抛出异常。

datetime(13:00:01)  // The function datetime does not support second data

(4)日期型和时间型不能相互转换。

month(13:00:01)  // The function month does not support second data
minute(2020.01.01)  // The function minute does not support date data

3. 常规的时间类型比较

在 DolphinDB 中,常规的时间类型比较通常用于数据量比较小的内存表和流表中,或者单纯的只比较两个时间的大小的向量中,例如:对流数据引擎得到的结果根据需要过滤相应时间段的数据。不同时间类型之间可以使用比较运算符(>, <, >=, <=, ==, !=),in 和 between 进行比较。

使用比较运算符对不同时间类型进行比较时,系统会按照第2章中的转换规则,尝试将时间粒度较粗的类型转换成时间粒度较细的类型,如果能够转换,就作比较;如果不能够转换,则抛出异常。例如,表达式2023.01.04T13:30:10.001 > 2023.01.04 执行时,会将2023.01.04转换成2023.01.04T00:00:00.000再进行比较,因此返回结果是true。

2023.01.04T13:30:10.001 > 2023.01.04   // true
2011.01.01T13:00:00 > 2011.01.02   // false
2023.01.04T13:30:10.001 == 2023.01.04   // false
2023.01.04 == 2023.01.04T00:00:00.000  //  true

需要注意的是,

  • MONTH 类型的数据比较特殊,虽然它可以和日期时间型以及同为日期型的 DATE 类型相互转换,但是它们之间不能进行比较。MONTH 只能和MONTH 类型进行比较。
  • 日期时间型虽然可以转换为时间型,但是它们之间不能比较。
  • 关系运算符 between 和其他比较运算符不同,只有运算符的左右两边的类型一致时,才可以比较。
2023.01.04T13:30:10.001 between 2023.01.04T13:30:10.003:2023.01.04T13:30:10.004   // false

运算符的左右两边的类型不一致时,会报错Temporal data comparison should have the same data type.

 2023.01.04 between 2023.01.04T13:30:10.003:2023.01.04T13:30:10.004
//  between(X, Y). Temporal data comparison should have the same data type.'

4. 时间类型的分区剪枝

在 DolphinDB 的应用实践中,时序数据的时间戳通常会作为分布式数据库的分区列,按照值或者范围分片存储。当查询语句的过滤条件包含分区列时,系统会进行分区剪枝,以减少扫描分区的数量,提升查询性能。了解时间类型的分区剪枝规则能够帮助我们写出高效的 SQL 语句。

在实际使用中,通常会对时间分区列直接进行过滤查询,或者对时间分区列进行显式类型转换后再进行过滤。这两种情况,DolphinDB 的分区剪枝规则略有不同。下面将分开阐述。

下文介绍中将频繁出现三个名称,在此先介绍它们的概念:

  • 分区方案类型database 函数的 partitionScheme 参数指定的数据类型。在这个例子中,分区方案的类型是 [2022.09.01,2022.09.02, 2022.09.03] 的类型,即 DATE 类型:
dbName = "dfs://time_comparison"
if(existsDatabase(dbName))
	dropDatabase(dbName)
db = database(dbName, VALUE, [2022.09.01,2022.09.02, 2022.09.03])
  • 分区列类型createPartitionedTable 函数的 partitionColumns 指定的列类型。在这个例子中,分区列的类型是表ttime列的类型,即 DATETIME 类型:
n = 6
t = table(n:n,[`time,`value],[DATETIME,DOUBLE])
t[`time] = [2022.09.01T00:00:00, 2022.09.01T12:00:00, 2022.09.02T00:00:00, 2022.09.02T12:00:00, 2022.09.03T00:00:00, 2022.09.03T12:00:00]
t[`value] = 1..6
pt = db.createPartitionedTable(t, `pt, `time).append!(t)
  • 过滤比较中的时间对象。在这个例子中,分布式表的分区列time和数据2022.09.01进行比较,2022.09.01则是过滤比较中的时间对象,是 DATE 类型的数据:
select * from pt where time == 2022.09.01
time                   value
-----------------------------------
2022.09.01T00:00:00    1.00000000
2022.09.01T12:00:00    2.00000000

4.1 对分区列直接过滤

在分布式查询中,当我们使用运算符 <, <=, =, ==, >, >=, in, between 对时间分区列和其他时间类型的数据进行比较时, 比较的规则和在内存表中相同,且系统会进行分区剪枝。但要注意,当分区方案是 DATEHOUR 和 DATETIME 类型时,不支持创建分区表。

下例中,时间列的类型为 DATETIME,按照该列对数据按天进行 VALUE 分区。

dbName = "dfs://time_comparison"
if(existsDatabase(dbName))
	dropDatabase(dbName)
	
db = database(dbName, VALUE, [2022.09.01,2022.09.02, 2022.09.03])
n = 6
t = table(n:n,[`time,`value],[DATETIME,DOUBLE])
t[`time] = [2022.09.01T00:00:00, 2022.09.01T12:00:00, 2022.09.02T00:00:00, 2022.09.02T12:00:00, 2022.09.03T00:00:00, 2022.09.03T12:00:00]
t[`value] = 1..6
pt = db.createPartitionedTable(t, `pt, `time).append!(t)

想要查询2022.09.01这一天的数据,可以直接用分区列和2022.09.01进行比较。即使2022.09.01的数据类型和分区列的数据类型不同,依然能够进行分区剪枝,只需扫描2022.09.01这个分区的数据即可。我们可以使用sqlDS 来查看分布式查询拆分子查询的情况。

sqlDS(<select * from pt where time == 2022.09.01>)

想要查询2022.09.01T00:00:00.000这一时刻的数据,也可以直接用分区列和该时刻进行比较,即使两者数据类型不同,依然能进行分区剪枝,只需扫描2022.09.01这个分区的数据即可。

sqlDS(<select * from pt where time == 2022.09.01T00:00:00.000>)

4.2 对分区列进行显式类型转换后过滤

对于显式类型转换的过滤条件中,形如convert_func(col) <operator> constant的表达式,其中convert_func是 date、month 等时间类型转换函数, col是分区列,operator是运算符,constant是比较的值,以下情况可以进行分区剪枝。

4.2.1 使用比较运算符

<operator>为比较运算符(<, <=, =, ==, >, >=)时,convert_func 返回的数据类型的精度小于等于constant 的精度,并且convert_func 返回的数据类型的精度小于等于分区列的精度,可以进行分区剪枝。

时间精度由低到高的排序为:MONTH < DATE < DATEHOUR < DATETIME < TIMESTAMP < NANOTIMESTAMP

这里以 VALUE 分区为例,分区方案的类型为 DATE,按照 DATE 进行分区创建分布式表:

dbName = "dfs://time_comparison"
if(existsDatabase(dbName))
	dropDatabase(dbName)
	
db = database(dbName, VALUE, [2022.09.01,2022.09.30,2022.10.01,2022.10.02,2022.10.31,2022.11.01,2022.11.02,2022.12.31,2023.01.01])
n = 10
t = table(n:n,[`time,`value],[DATE,DOUBLE])
t[`time] = take([2022.09.01,2022.09.30,2022.10.01,2022.10.02,2022.10.31,2022.11.01,2022.11.02,2022.12.31,2023.01.01],n)
t[`value] = rand(100.0,n)
pt = db.createPartitionedTable(t, `pt, `time).append!(t)

想要查询大于某个月的数据时,如果直接用分区列和 MONTH 类型的数据比较,是不支持的;这个时候可以通过month函数,将分区列的类型转换为 MONTH 类型来进行比较。

select * from pt where month(time) > 2022.10M
time          value
------------------------
2022.11.01  15.00570112
2022.11.02  66.54577804
2022.12.31  48.09958597
2023.01.01  50.57664175

因为运算符左右的类型一致,且 MONTH 类型的精度低于分区列 DATE 类型,系统会将小于2022.11M的分区都"剪枝"。

想要查询等于某一时刻的数据时,可以对分区列使用timestamp函数,和 TIMESTAMP 类型的数据进行比较,比如:

select * from pt where timestamp(time) = 2022.09.30T00:00:00.000
time          value
------------------------
2022.09.30  19.33508650

但这个时候由于转换函数的类型 TIMESTAMP 的精度高于分区列 DATE的精度,不满足分区剪枝的条件,虽然可以进行比较,但是不能进行分区剪枝。因此在这种情况下,推荐对分区列直接进行过滤的方式进行比较,效率会更高。

4.2.2 使用 between

<operator>为between时,convert_func返回的数据类型必须与constant相同,才能进行分区剪枝。

想要查询在某一连续的月的数据,直接将分区列和 MONTH 类型的数据进行比较,是不支持的:

select * from pt where time between month(2022.10M:2022.11M)
// between(X, Y). Temporal data comparison should have the same data type.'

可以对分区列使用month函数,和 MONTH 类型的数据进行比较:

select * from pt where month(time) between month(2022.10M:2022.11M)
time          value
------------------------
2022.10.01  24.45175347
2022.10.02  86.05015869
2022.10.31  78.28769609
2022.11.01  15.00570112
2022.11.02  66.54577804

运算符 between 的左右两边的类型一致,且 MONTH 类型的精度低于分区列 DATE 的精度,满足分区剪枝的条件,系统会从2022.10.01, 2022.10.02, 2022.10.31, 2022.11.01, 2022.11.02 这5个分区中过滤数据,其他的分区会被”剪枝“。

4.2.3 使用 in

<operator>为 in 时,convert_func 返回的数据类型必须与constant相同,并且constant列表中的连续片段的数量小于16,才能进行分区剪枝。

假设列表为 [2020.01.02, 2020.01.03, 2020.01.04, 2020.01.06, 2020.01.07, 2020.01.12],那么它包含3个连续片段 2020.01.02..2020.01.04,2020.01.06..2020.01.07,2020.01.12。

想要查询在某一不连续的月的数据,可以使用 month 函数,和 MONTH 类型的数据进行比较:

select * from pt where month(time) in [2022.09M, 2022.11M]
time          value
------------------------
2022.09.01  51.37807030
2022.09.01  50.86722047
2022.09.30  13.91816022
2022.11.01  76.58300183
2022.11.02  74.23354792

运算符 in 的左右两边类型一致,且 MONTH 类型的精度低于分区列 DATE 的精度,[2022.09M, 2022.11M] 是一个不连续的片段,但是片段的数据小于16,满足分区剪枝的条件,系统会从2022.09.01, 2022.09.30, 2022.11.01, 2022.11.02 这4个分区中过滤数据,其他的分区会被”剪枝“。

想要查询在某一连续时刻的数据,可以使用timestamp函数,和 TIMESTAMP 类型的数据进行比较:

select * from pt where timestamp(time) in timestamp(2022.10.31..2022.11.01)
time          value
------------------------
2022.10.31  78.28769609
2022.11.01  15.00570112

虽然运算符 in 的左右两边的类型一致,但因为 TIMESTAMP 的精度高于分区列 DATE 的精度,因此不能进行分区剪枝。

5. 小结

对时间类型进行比较的规则可以分为两类:涉及分区剪枝时的比较和不涉及分区剪枝时的比较。通常时间类型向量比较,内存表查询和分布式表查询中过滤条件为非分区列时的时间类型比较均不涉及分区剪枝。而分布式表查询中过滤条件为分区列时,时间类型比较会涉及分区剪枝。​在实际使用过程中,推荐使用支持分区剪枝的 where 条件来提升查询的效率。尤其针对数据量非常大的分区表进行查询时,分区剪枝能够节省大量时间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1821426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

鸿蒙轻内核A核源码分析系列六 MMU协处理器(2)

3、MMU汇编代码 在arch\arm\arm\include\arm.h文件中&#xff0c;封装了CP15协处理器相关的寄存器操作汇编函数。我们主要看下MMU相关的部分。 3.1 CP15 C2 TTBR转换表基地址寄存器 代码比较简单&#xff0c;结合下图&#xff0c;自行查看即可。该图来自《ARM Cortex-A9 Tec…

minIo ubuntu单节点部署

资源准备 minio二进制包 下载地址:https://dl.min.io/server/minio/release/linux-amd64/minio ubuntu-单节点部署 选择一台ubuntu18.04机器10.253.9.41、intel 或者 amd 64位处理器 上传minio到~目录 sudo cp minio /usr/local/bin/ sudo chmod x /usr/local/bin/minio 设…

python pip下载镜像

官网&#xff1a;python https://pypi.python.org/simple 阿里&#xff1a; pip install -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host mirrors.aliyun.com packagename 腾讯&#xff1a; pip install -i https://mirrors.cloud.tencent.com/pypi/simple --tr…

CC攻击的有效应对方案

随着互联网的发展&#xff0c;网络安全问题愈发突出。CC攻击&#xff08;Challenge Collapsar Attack&#xff09;&#xff0c;一种针对Web应用程序的分布式拒绝服务&#xff08;DDoS&#xff09;攻击方式&#xff0c;已经成为许多网络管理员和网站拥有者不得不面对的重大挑战。…

reGeorg隐秘隧道搭建

reGeorg隐秘隧道搭建 【实验目的】 通过学习reGeorg与Proxifier工具使用&#xff0c;实现外网攻击端连接内网主机远程桌面。 【知识点】 python、reGeorg、proxifier。 【实验原理】 在内网渗透中&#xff0c;由于防火墙的存在&#xff0c;导致无法对内网直接发起连接&#xff…

Java中List流式转换为Map的终极指南

哈喽&#xff0c;大家好&#xff0c;我是木头左&#xff01; 在Java编程中&#xff0c;经常需要将一个List对象转换为另一个Map对象。这可能是因为需要根据List中的元素的某些属性来创建一个新的键值对集合。在本文中&#xff0c;我将向您展示如何使用Java 中的流式API轻松地实…

机器学习:数据分布的漂移问题及应对方案

首先&#xff0c;让我们从一位高管告诉我的一个故事开始&#xff0c;很多读者可能对此感同身受。 大约两年前&#xff0c;他的公司聘请了一家咨询公司开发一个机器学习模型&#xff0c;帮助他们预测下周每种食品杂货需要多少&#xff0c;以便他们可以相应地补货。这家咨询公司…

【SQL边干边学系列】08高级问题-4

文章目录 前言回顾高级问题48.客户分组49.客户分组-修复null50.使用百分比的客户分组51.灵活的客户分组 答案48.客户分组49.客户分组-修复null50.使用百分比的客户分组51.灵活的客户分组 未完待续 前言 该系列教程&#xff0c;将会从实际问题出发&#xff0c;边干边学&#xff…

qmt量化交易策略小白学习笔记第29期【qmt编程之获取行业概念数据--如何下载板块分类信息及历史板块分类信息】

qmt编程之获取行业概念数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 感谢关注&#xff0c;咨询免费开通量化回测与获取实盘权限&#xff0c;欢迎和博主联系&#xff01; 获取行业概念数…

在typora中利用正则表达式,批量处理图片

一&#xff0c;png格式 在 Typora 中批量将 HTML 图片标签转换为简化的 Markdown 图片链接&#xff0c;且忽略 alt 和 style 属性&#xff0c;可以按照以下步骤操作&#xff1a; 打开 Typora 并加载你的文档。按下 Ctrl H&#xff08;在 Windows/Linux 上&#xff09;或 Cmd…

【NOI-题解】1389 - 数据分析1750 - 有0的数1457 - 子数整除1121 - “倒”数1962. 数值计算

文章目录 一、前言二、问题问题&#xff1a;1389 - 数据分析问题&#xff1a;1750 - 有0的数问题&#xff1a;1457 - 子数整除问题&#xff1a;1121 - “倒”数问题&#xff1a;1962. 数值计算 三、感谢 一、前言 本章节主要对循环中带余除法部分题目进行讲解&#xff0c;包括…

CV预测:快速使用LeNet-5卷积神经网络

AI预测相关目录 AI预测流程&#xff0c;包括ETL、算法策略、算法模型、模型评估、可视化等相关内容 最好有基础的python算法预测经验 EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transform…

2024年先进算法与人机交互国际会议(ICCHSE 2024)

2024 International Conference on Advanced Algorithms and Human Computer Interaction 【1】大会信息 会议简称&#xff1a;ICAAHIE 2024 大会时间&#xff1a;2024-07-19 大会地点&#xff1a;中国桂林 截稿时间&#xff1a;2024-07-05(以官网为准&#xff09; 审稿通知&a…

Ajax的应用

1. Ajax Ajax是Asynchronous Javascript And XML&#xff08;异步JavaScript和XML&#xff09;的缩写。 Ajax技术描述了使用脚本操纵HTTP和Web服务器进行数据交换&#xff0c;在页面不刷新的情况下&#xff0c;实现页面的局部更新。 重点&#xff1a; Ajax 是一种在无需重新加…

服务器再升级!64线程服务器震撼上线,全新渲染体验等你来解锁

秉承着 “科技赋能创意&#xff0c;连接创造价值”的使命&#xff0c; 经过精心的策划和筹备&#xff0c; 蓝海创意云 64线程服务器&#xff0c; 以全新的面貌&#xff0c;优惠的价格&#xff0c; 与大家见面了&#xff01; 诚邀您一起&#xff0c;解锁全新的渲染体验&am…

如何利用AI绘图,生成同一人物(最好为二次元)的不同动作和不同表情的图片?

Ai绘画有一个很现实的问题&#xff0c;要保证每次画出的都是同一个人物的话&#xff0c;很费劲。 Midjourney就不必说了&#xff0c;人物的高度一致性一直得不到很好的解决。而在Stable Diffusion&#xff08;SD&#xff09;中&#xff0c;常用办法是通过同一个Seed值&#xf…

Android低代码开发 - InputMenuPanelItem详解

我们知道MenuPanel是一个菜单面板容器&#xff0c;它里面可以放各式各样的菜单和菜单组。今天我们就来详细讲解输入菜单这个东西。 InputMenuPanelItem源码 package dora.widget.panel.menuimport android.content.Context import android.text.Editable import android.text…

KEYSIGHT N1000A 采样示波器 支持哪些类型的示波器模块?

N1000A Keysight 高性能宽带宽示波器&#xff0c;它支持多种类型的模块&#xff0c;这些模块可以根据用户的需求进行选择和配置&#xff0c;以执行精密的光学、电气和TDR/TDT/S参数分析。以下是一些支持的模块类型&#xff1a; 光通信模块&#xff1a;这些模块支持深入的收发信…

量化、剪枝、蒸馏,这些大模型黑话到底说了些啥?

扎克伯格说&#xff0c;Llama3-8B还是太大了&#xff0c;不适合放到手机中&#xff0c;有什么办法&#xff1f; 量化、剪枝、蒸馏&#xff0c;如果你经常关注大语言模型&#xff0c;一定会看到这几个词&#xff0c;单看这几个字&#xff0c;我们很难理解它们都干了些什么&…

【图书推荐】《Spark入门与大数据分析实战》

本书重点 广告点击实时大数据分析、电影影评大数据分析&#xff0c;这两个综合项目适合作为课题论文、毕业论文素材&#xff0c;值得收藏。 内容简介 本书基于Spark 3.3.1框架展开&#xff0c;系统介绍Spark生态系统各组件的操作&#xff0c;以及相应的大数据分析方法。 本…