最近在做数据导入,发现客户数据很多都带特殊符号,然后数据库就会提示 “java.sql.SQLException: Incorrect string value: ‘\xF0\x9F\x8C\xB8\xEF\xBC…’ for column ‘name’ at row 1”,看了一下数据库对应字段字符集是 utf8mb3 的,换成 utf8mb4 就好了,但是查看了一下其它表格,发现所有字段都是 utf8mb3 格式的,一个个的替换显然不现实。
直接上SQL (注意“sakura_task”换成自己的数据库名称)
首先我们可以把数据库字符集调整成 utf8mb4 (特别注意:生产环境谨慎操作,修改字符集会导致锁表!!!)
ALTER DATABASE sakura_task CHARACTER SET = utf8mb4 COLLATE = utf8mb4_unicode_ci;
接着我们把所有表的字符集也调整成 utf8mb4
SELECT CONCAT('ALTER TABLE ', TABLE_NAME, ' CONVERT TO CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;')
FROM INFORMATION_SCHEMA.TABLES
WHERE TABLE_SCHEMA = 'sakura_task'
AND TABLE_TYPE = 'BASE TABLE';
注意上面那个是个查询语句,是为了生成我们需要修改的表的 SQL 语句,执行后是下面这样的
我们 Ctrl A 全部复制出来放到上面执行一下 (特别注意:生产环境谨慎操作,修改字符集会导致锁表!!!)
最后我们把表格里面所有列的字符集也调整为 utf8mb4
SELECT CONCAT('ALTER TABLE ', TABLE_NAME, ' MODIFY ', COLUMN_NAME, ' ', COLUMN_TYPE, ' CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci;')
FROM INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_SCHEMA = 'sakura_task'
AND COLLATION_NAME LIKE 'utf8%';
同样的这里也是一个查询 SQL,我们还需要把查询结果复制出来执行
我们 Ctrl A 全部复制出来放到上面执行一下 (特别注意:生产环境谨慎操作,修改字符集会导致锁表!!!)
执行完后我们还可以检查一下是不是所有表都调整好了
SELECT TABLE_NAME, COLUMN_NAME, CHARACTER_SET_NAME, COLLATION_NAME
FROM INFORMATION_SCHEMA.COLUMNS
WHERE TABLE_SCHEMA = 'sakura_task'
AND CHARACTER_SET_NAME != 'utf8mb4';
返回空的就是所有的都调整了
下面再来看下 utf8mb4 和 utf8mb3 的区别
utf8mb4 和 utf8mb3 都是 MySQL 中的字符集,主要用于存储 UTF-8 编码的文本数据。它们之间的主要区别在于支持的字符范围和编码方式:
字符集支持的范围
utf8mb3:是 MySQL 的早期版本中所使用的 UTF-8 实现。utf8mb3 实际上只支持最多 3 个字节的 UTF-8 编码字符,这意味着它只能表示基本多语言平面(Basic Multilingual Plane,BMP)中的字符,这些字符的 Unicode 编码范围是 U+0000 至 U+FFFF。
utf8mb4:utf8mb4 是 MySQL 后来引入的 UTF-8 实现,支持 4 个字节的 UTF-8 编码字符。utf8mb4 不仅支持 BMP 中的字符,还能表示补充平面(Supplementary Planes)中的字符,这些字符的 Unicode 编码范围是 U+010000 至 U+10FFFF。
字符集支持的字符
utf8mb3:不支持某些特殊字符,比如 Emoji 表情、部分罕见的汉字和历史字符,因为这些字符的 Unicode 编码超出了 3 个字节的范围。
utf8mb4:支持所有 Unicode 字符,包括 Emoji 表情、一些罕见的汉字、历史文字符号等。
存储需求
utf8mb3:因为每个字符最多使用 3 个字节,所以它的存储空间相对较小,但它不能存储所有的 Unicode 字符。
utf8mb4:每个字符最多使用 4 个字节来存储,虽然存储需求增加,但能支持更广泛的字符集。
兼容性
utf8mb4 向后兼容 utf8mb3,即已经在 utf8mb3 中存储的内容可以无缝转移到 utf8mb4 中,并且不会丢失数据。
推荐使用
由于现代应用程序越来越多地使用 Emoji 和其他特殊字符,因此推荐使用 utf8mb4 作为 MySQL 数据库的字符集。这样可以确保兼容性和全面的字符支持。
总结来说,utf8mb4 是 utf8mb3 的扩展,能够支持更多字符,包括 Emoji 等常见字符,因此在新开发的系统中通常推荐使用 utf8mb4。