MySQL字段的字符类型该如何选择?千万数据下varchar和char性能竟然相差30%?

news2025/1/16 8:54:07

MySQL字段的字符类型该如何选择?千万数据下varchar和char性能竟然相差30%?

前言

上篇文章MySQL字段的时间类型该如何选择?千万数据下性能提升10%~30%🚀我们讨论过时间类型的选择

本篇文章来讨论MySQL中字符类型的选择并来深入实践char与varchar类型的最佳使用场景

字符类型

我们最经常使用的字符串类型应该是char与varchar,它们作为本篇文章的主角,对于它们的描述我们放在后文详细介绍

文本字符串

当需要存储长文本时,可以使用文本类型

先来看看存储文本字符串的类型,从小到大依次为TINYTEXT、TEXT、MEDIUMTEXT、LONGTEXT

它们分别用于存储不同大小的文本,读取文本时(由于文本可能较大),因此是从磁盘中读取的

文本类型的查询会慢,但是可以存放的内容多

类型范围(单位字符)
TINYTEXT0到2^8-1(255B)
TEXT0到2^16-1(64KB)
MEDIUMTEXT0到2^24-1(16MB)
LONGTEXT0到2^32-1 (4GB)
字节串

当存储二进制数据流时,可以选择二进制类型

它们从小到大依次是:TINYBLOB、BLOB、MEDIUMBLOB、LONGBLOB

占用空间与范围 和 文本字符串类似

类型范围(单位字节)
TINYBLOB0到2^8-1(255B)
BLOB0到2^16-1(64KB)
MEDIUMBLOB0到2^24-1(16MB)
LONGBLOB0到2^32-1 (4GB)

char

char类型是固定长度的字符串

比如char(10) 就会占用10个字符的长度,当字段上存储的值不超过10个字符时,剩下的会用空格进行填充

因此存储的值最后有空字符串时,不能使用char,char会使用空格填充满,再读取时就不知道有多长的空格

insert into string_test (test_full_char,test_varchar) values ('caicai  ','caicai  ');

image.png

char类型的长度是固定的,char(N)中N设置的是字符长度,总共占用的空间还与字符集有关

比如使用utf8 字符占用空间为1-3B,那么字段设置char(10) ,占用空间范围在10-30B中

MySQL中的记录是存在于页中的,当字符串使用固定长度的char时,字段类型占用的空间会设置为最大值,方便修改操作可以在当前记录中进行修改(原地修改)(超出长度报错)

image.png

与磁盘IO的单位是页,记录越小页中存储的记录数量就可能越多,查询相同记录数量需要的IO次数就可能越少

由于记录中该类型的空间会先分配成最大值,长度会收到限制(最大不能超过255),使用时要设置成满足需求且尽量小的长度

varchar

varchar是可变长的字符串,一般用于不确定字符串长度的时候

存储varchar类型的值时,记录不仅需要记录真实存储的数据,还要记录可变长字段的长度

image.png

当varchar使用长度≤255时使用一个字节记录,长度超出255时使用二个字节记录

既然≤255只使用一个字节,那么是不是长度不超过255的情况都用varchar(255)呢?

最好不要这么使用,在innodb中可能没什么影响,但如果使用临时表(使用memory存储引擎),则会将varchar设置成最大值的char来使用

In-memory temporary tables are managed by the MEMORY storage engine, which uses fixed-length row format. VARCHAR and VARBINARY column values are padded to the maximum column length, in effect storing them as CHAR and BINARY columns.

当临时表中的varchar被分配成最大值的char,如果存储的字符串占用空间很少,则会出现浪费

同时可能导致查询相同数量的记录IO次数变多,因此尽量将varchar的长度控制在一个预估使用长度的范围中

varchar可变长长度最多使用2个字节,那是不是代表着长度最大为 2^16-1(65535)呢?

MySQL允许最大占用空间为65535,当字符集使用UTF8时,每个字符可能占用1-3 Byte,那么varchar最大长度也就只能是 65535/3 = 21845

当修改varchar类型的字符串时,并不一定能和char类型一样在原地修改

image.png

当记录所在的页已满,而修改的varchar字符串又变长时,会产生新的页并重建记录放到新的页中

image.png

varchar可以理解成char的空间换时间版本

对于写操作来说,char能够原地修改,而varchar有重建记录、页分裂的开销

对于读操作,char与varchar类型的性能要看具体场景,如果char冗余部分空间,那么查询相同记录数量可能会增加IO次数;如果使用空间紧凑,那么性能会优于varchar

搭建千万数据环境

为了更好的论证我们的观点,我们先搭建千万数据的环境进行实践

表结构

CREATE TABLE `string_test` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `test_full_char` char(40) DEFAULT NULL,
  `test_not_full_char` char(10) DEFAULT NULL,
  `test_short_varchar` varchar(10) DEFAULT NULL,
  `test_long_varchar` varchar(1000) DEFAULT NULL,
  `test_varchar` varchar(255) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8;

查看是否开启函数创建

#开启函数创建
set global log_bin_trust_function_creators=1;

#ON表示已开启
show variables like 'log_bin_trust%';

生成字符串函数

#分割符从;改为$$
delimiter $$
#函数名ran_string 需要一个参数int类型 返回类型varchar(255)
create function ran_string(n int) returns varchar(255)
begin
#声明变量chars_str默认'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
declare chars_str varchar(100) default 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ';
#声明变量return_str默认''
declare return_str varchar(255) default '';
#声明变量i默认0
declare i int default 0;
#循环条件 i<n
while i < n do
set return_str = concat(return_str,substring(chars_str,floor(1+rand()*52),1));
set i=i+1;
end while;
return return_str;
end $$

编写插入函数

#插入 从参数start开始 插入max_num条数据(未使用startc)
delimiter $$ 
create procedure insert_string_test(in start int(10),in max_num int(10))
begin
declare i int default start;
declare str varchar(255);
set autocommit = 0;
repeat
set i = i+1;
set str = ran_string(10);
#SQL 语句
insert into string_test(test_full_char,test_not_full_char,test_short_varchar,test_long_varchar,test_varchar) 
values (str,str,str,str,str);
until i=max_num
end repeat;
commit;
end $$

执行

#执行插入函数
delimiter ;
call insert_string_test(1,10000000);

生成索引

alter table string_test add index idx_test_full_char (test_full_char)
alter table string_test add index idx_test_not_full_char (test_not_full_char)
alter table string_test add index idx_test_varchar (test_varchar)
alter table string_test add index idx_test_short_varchar (test_short_varchar)
alter table string_test add index idx_test_long_varchar (test_long_varchar)

测试

char不同长度的测试

test_not_full_char char(10)

test_full_char char(40)

由于char是定长,设置的长度越小,每条记录占用空间就越少,查询相同数量就可能减少一定的IO开销

select SQL_NO_CACHE  test_not_full_char from string_test where test_not_full_char like 'aa%'
> OK
> 时间: 0.651s

select SQL_NO_CACHE test_full_char from string_test where test_full_char like 'aa%'
> OK
> 时间: 0.959s

因此char类型在满足需求时越小越好

varchar不同长度的测试

test_short_varchar varchar(10)

test_long_varchar varchar(1000)

test_varchar varchar(255)

varchar(1000)在记录可变长长度时会多使用一个字节

varchar类型的不同长度在测试中差不多,只有varchar(1000)会慢一点

select SQL_NO_CACHE test_short_varchar from string_test where test_short_varchar like 'aa%'
> OK
> 时间: 0.698s
select SQL_NO_CACHE test_long_varchar from string_test where test_long_varchar like 'aa%'
> OK
> 时间: 0.747s
select SQL_NO_CACHE test_varchar from string_test where test_varchar like 'aa%'
> OK
> 时间: 0.684s
char与varchar 的测试

test_not_full_char char(10)

test_short_varchar varchar(10)

相同长度的char与varchar性能差不多,char略好

select SQL_NO_CACHE  test_not_full_char from string_test where test_not_full_char like 'aa%'
> OK
> 时间: 0.628s
select SQL_NO_CACHE  test_short_varchar from string_test where test_short_varchar like 'aa%'
> OK
> 时间: 0.699s

当存储10长度,但char(40)长度设置太大时,性能会比varchar较慢,相差近30%

select SQL_NO_CACHE  test_full_char from string_test where test_full_char like 'zz%'
> OK
> 时间: 0.932s
select SQL_NO_CACHE  test_short_varchar from string_test where test_short_varchar like 'zz%'
> OK
> 时间: 0.667s
char与varchar频繁写测试

我们测试会修改聚簇(主键)索引和它们的二级索引,先将数据改为长度5的,再测试改成长度为10

@Resource
    private JdbcTemplate jdbcTemplate;

    @Test
    void updateCharAndVarcharTest(){
        //先将数据修改成5字符长度
        String charSqlPre = "update string_test set test_not_full_char = 'aaaaa' where id < 10000;";
        String varcharSqlPre = "update string_test set test_short_varchar  = 'aaaaa' where id < 10000;";
        jdbcTemplate.update(charSqlPre);
        jdbcTemplate.update(varcharSqlPre);


        String charSql = "update string_test set test_not_full_char = 'aaaaabbbbb' where id < 10000;";
        String varcharSql = "update string_test set test_short_varchar  = 'aaaaabbbbb' where id < 10000;";

        long start = System.currentTimeMillis();
        int updateVarchar = jdbcTemplate.update(varcharSql);
        //varchar:203ms,update:9,999
        System.out.println(MessageFormat.format("varchar:{0}ms,update:{1}", System.currentTimeMillis() - start,updateVarchar));

         start = System.currentTimeMillis();
        int updateChar = jdbcTemplate.update(charSql);
        //char:141ms,update:9,999
        System.out.println(MessageFormat.format("char:{0}ms,update:{1}", System.currentTimeMillis() - start,updateChar));
    }

在频繁写的场景下,char可以原地修改,而varchar需要重建记录或产生新的页,性能相差近30%

总结

需要存储文本字符时,可以选择TEXT相关的类型,读取时需要从磁盘中获取,但可以存储的空间多适合存储大文本

需要存储二进制流可以选择BLOB相关的类型

char是固定的字符串,varchar是可变长的字符串,它们占用的空间与选择使用的字符集和分配的长度有关

varchar长度255及以下会使用一个字节记录可变长长度,以上会使用两个字节记录可变长长度

char中未存满的值会用空格填充,因此字符吗末尾无法存储空格,而varchar不会填充末尾可以存储空格

当char与varchar长度相同时,char查询性能较好;但如果char未使用的空间太多,可能会导致查询不如varchar

char可以在原始记录进行修改,由于varchar是可变长的,当修改的值变长时,可能会重建记录和产生新的页存储,频繁写的场景下char性能大大优于varchar

char适合存储固定、频繁修改字符串,而varchar适合存储不确定长度、末尾需要存储空格的字符串

在设置长度时要尽量的小,如果是varchar尽量不超过255,可以少用一个字节记录可变长长度

最后(不要白嫖,一键三连求求拉~)

本篇文章被收入专栏 由点到线,由线到面,构建MySQL知识体系,感兴趣的同学可以持续关注喔

本篇文章笔记以及案例被收入 gitee-StudyJava、 github-StudyJava 感兴趣的同学可以stat下持续关注喔~

有什么问题可以在评论区交流,如果觉得菜菜写的不错,可以点赞、关注、收藏支持一下~

关注菜菜,分享更多干货,公众号:菜菜的后端私房菜

本文由博客一文多发平台 OpenWrite 发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1111481.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

DVWA-JavaScript Attacks

JavaScript Attacks JavaScript Attack即JS攻击&#xff0c;攻击者可以利用JavaScript实施攻击。 Low 等级 核心源码&#xff0c;用的是dom语法这是在前端使用的和后端无关&#xff0c;然后获取属性为phrase的值然后来个rot13和MD5双重加密在复制给token属性。 <script&…

成集云 | 成销云移动商城集成用友NC | 解决方案

方案产品介绍 成销云移动商城系统&#xff0c;支持商品管理、会员管理、营销活动、订单管理等多种模块功能&#xff0c;帮助企业解决时间、库存和服务方面的难题&#xff0c;助力企业实现数字化产业升级。 用友NC是用友NC产品的全新系列&#xff0c;是面向集团企业的世界级高…

09-Vue基础之实现注册页面

个人名片&#xff1a; &#x1f60a;作者简介&#xff1a;一名大二在校生 &#x1f921; 个人主页&#xff1a;坠入暮云间x &#x1f43c;座右铭&#xff1a;懒惰受到的惩罚不仅仅是自己的失败&#xff0c;还有别人的成功。 &#x1f385;**学习目标: 坚持每一次的学习打卡 文章…

企业IT资产设备折旧残值如何计算

环境&#xff1a; 企业/公司 IT资产 问题描述&#xff1a; 企业IT设备折旧残值如何计算&#xff1f; 解决方案&#xff1a; 1.按三年折旧 净值原值-月折旧额折旧月份 &#xff0c; 月折旧额原值(1-3%)/36 折旧月份ROUND(E2*(1-3%)/36,2) 2.净值E2-F2*G2

实测文心一言4.0,真的比GPT-4毫不逊色吗?

10月17日&#xff0c;李彦宏在百度世界2023上表示。当天&#xff0c;李彦宏以《手把手教你做AI原生应用》为主题发表演讲&#xff0c;发布文心大模型4.0版本。 今天&#xff0c;咱们就开门见山啊。这一回要测一测&#xff0c;昨天才发布的文心一言大模型 4.0。 之所以要测它&…

腾讯待办宣布关停,哪款待办事项提醒APP好?

如果你之前一直使用微信中的“腾讯待办”小程序来记录待办事项并设置定时提醒&#xff0c;那么你就会发现腾讯待办在2023年10月16日通过其官方微信公众号、小程序发布了业务关停公告&#xff0c;将于2023年12月20日全面停止运营并下架&#xff0c;并且有导出数据的提示。 腾讯…

Systemverilog断言介绍(四)

3.3 SEQUENCES, PROPERTIES, AND CONCURRENT ASSERTIONS 3.3.1 SEQUENCE SYNTAX AND EXAMPLES 一个序列是在一段时间内发生的一组值的规范。构建序列所使用的基本操作是延迟规范器&#xff0c;形式为##n&#xff08;表示特定数量的时钟&#xff09;或##[a:b]&#xff08;表示…

【AIGC核心技术剖析】用于高效 3D 内容创建生成(从单视图图像生成高质量的纹理网格)

3D 内容创建的最新进展主要利用通过分数蒸馏抽样 &#xff08;SDS&#xff09; 生成的基于优化的 3D 生成。尽管已经显示出有希望的结果&#xff0c;但这些方法通常存在每个样本优化缓慢的问题&#xff0c;限制了它们的实际应用。在本文中&#xff0c;我们提出了DreamGaussian&…

【AIGC核心技术剖析】改进视频修复的传播和变压器(动态滤除环境中的物体)

基于流的传播和时空变压器是视频修复&#xff08;VI&#xff09;中的两种主流机制。尽管这些组件有效&#xff0c;但它们仍然受到一些影响其性能的限制。以前基于传播的方法在图像域或特征域中单独执行。与学习隔离的全局图像传播可能会由于光流不准确而导致空间错位。此外&…

JS加密/解密那些必须知道的事儿

一直以来&#xff0c;字符串的编码问题对于新手程序员来说&#xff0c;或者平常不太涉猎这方面的程序员来说&#xff0c;是犹如灵异学一样的存在。经常会遇到莫名其妙的编码问题&#xff0c;导致的各种的无法理解的错误。 ​ 今天&#xff0c;本问就来介绍一下作者所知晓的一切…

京东API商品详情页,商品列表数据,商品评论数据采集

作为国内最大的电商平台之一&#xff0c;京东数据采集具有多个维度。 有人需要采集商品信息&#xff0c;包括品类、品牌、产品名、价格、销量等字段&#xff0c;以了解商品销售状况、热门商品属性&#xff0c;进行市场扩大和重要决策&#xff1b; 京东数据采集的方法 既然京…

面试 4

1、作用域 w3scholl中定义&#xff1a;作用域指的是您有权访问的变量集合。 作用域是指在程序中定义变量的区域&#xff0c;该位置决定了变量的生命周期。通俗理解&#xff0c;作用域就是变量与函数的可访问范围&#xff0c;即作用域控制着变量和函数的可见性和生命周期。 在…

【C++】特殊类的设计(只在堆、栈创建对象,单例对象)

&#x1f30f;博客主页&#xff1a; 主页 &#x1f516;系列专栏&#xff1a; C ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ &#x1f60d;期待与大家一起进步&#xff01; 文章目录 一、请设计一个类&#xff0c;只能在堆上创建对象二、 请设计一个类&#xff0c;只能…

Golang interface 多态/类型断言

基本介绍 变量(实例)具有多种形态。面向对象的第三大特征&#xff0c;在Go语言&#xff0c;多态特征是通过接口实现的&#xff08;接口能够体现多态的特征&#xff09;。可以按照统一的接口来调用不同的实现。这时接口变量就呈现不同的形态。 在前面的Usb接口案例&#xff0c;u…

【01】LVGL-CodeBlock模拟器安装 | LVGL工程下载 | PC端模拟LVGL步骤

LVGL模拟器 1.LVGL模拟器介绍2.Windows环境搭建CodeBlock及获取LVGL工程3.PC端模拟LVGL4.总结 1.LVGL模拟器介绍 LVGL模拟器&#xff1a;使用PC端软件模拟LVGL运行&#xff0c;而不需要任何嵌入式硬件。优点&#xff1a;便于学习、跨平台协同开发 2.Windows环境搭建CodeBlock及…

【每日一题】—— B. Arrays Sum (Grakn Forces 2020)

&#x1f30f;博客主页&#xff1a;PH_modest的博客主页 &#x1f6a9;当前专栏&#xff1a;每日一题 &#x1f48c;其他专栏&#xff1a; &#x1f534; 每日反刍 &#x1f7e1; C跬步积累 &#x1f7e2; C语言跬步积累 &#x1f308;座右铭&#xff1a;广积粮&#xff0c;缓称…

GO 语言的方法??

GO 中的方法是什么&#xff1f; 前面我们有分享到 GO 语言的函数&#xff0c;他是一等公民&#xff0c;那么 GO 语言中的方法和函数有什么区别呢&#xff1f; GO 语言中的方法实际上和函数是类似的&#xff0c;只不过在函数的基础上多了一个参数&#xff0c;这个参数在 GO 语…

深度学习(12)之模型训练[训练集、验证集、过拟合、欠拟合]

模型训练[训练集、验证集、过拟合、欠拟合] 在不断补充训练数据集的过程中&#xff0c;发现纯粹增加数据集并不会使得模型效果单向地变好&#xff0c;如果是多目标检测模型的话&#xff0c;常会出现精度变低的现象本文想总结在模型训练时的一些注意事项&#xff0c;比如训练集…

云务器迁移(腾讯云>华为云)

自己平时除了写些bug外还喜欢玩玩服务器&#xff0c;这不前几年买了一个域名&#xff0c;当时服务器买的是阿里云的&#xff0c;想着域名备案挺麻烦的就一直用着&#xff0c;只是在服务器到期后会重新购买其他运营商的&#xff08;关键是续不起&#x1f92b;&#xff09; 这不最…

华为eNSP配置专题-VRRP的配置

文章目录 华为eNSP配置专题-VRRP的配置0、参考文档1、前置环境1.1、宿主机1.2、eNSP模拟器 2、基本环境搭建2.1、基本终端构成和连接 2.VRRP的配置2.1、PC1的配置2.2、接入交换机acsw的配置2.3、核心交换机coresw1的配置2.4、核心交换机coresw2的配置2.5、配置VRRP2.6、配置出口…