pg编码相关问题梳理

news2025/1/15 23:35:35

Lightdb/PG 编码相关问题梳理

之前在通过SQL文件导入数据时,报:ERROR: invalid byte sequence for encoding "EUC_CN"错误。然后就梳理了一下编码相关问题,这边记录一下。涉及到如下两种类型的报错:

  • ERROR: invalid byte sequence for encoding “EUC_CN”
  • ERROR: character with byte sequence 0xad 0xe5 in encoding “GBK” has no equivalent in encoding “UTF8”

在使用Lightdb 过程中会涉及到多处的编码设置。具体如下:

  • 终端工具(如:xshell)的编码,一般与服务器设置一致
  • 服务器编码(locale, LANG)
  • LightDB 客户端编码 client_encoding
  • LightDB 服务端编码 server_encoding

下面分两种情况进行讨论,一种是通过ltsql/psql 交互式执行SQL, 一种是通过-f 选项执行SQL文件

一. 前期准备

create database test_c template template0 encoding 'EUC_CN' LC_CTYPE 'zh_CN' LC_COLLATE 'zh_CN';
\c test_c

二. ltsql/psql 设置client_encoding 原理

ltsql/psql 设置client_encoding 主要考虑以下几个方面:

  • PGCLIENTENCODING 环境变量, 本文不考虑, 认为没有设置(设置了,即设置为PGCLIENTENCODING值)
  • 是否不是终端,通过pset.notty= (!isatty(fileno(stdin)) || !isatty(fileno(stdout))); 判断,标记,只有当输入输出都不是终端时,才会标记为非终端模式。

交互式执行SQL命令, 必然是终端, 然后会设置client_encoding 为 auto((pset.notty || lt_getenv("PGCLIENTENCODING")) ? NULL : "auto";) , 最终在建立连接时, 对于auto会从locale获取编码设置(conn->client_encoding_initial = strdup(pg_encoding_to_char(pg_get_encoding_from_locale(NULL, true))), 即根据服务器编码来设置client_encoding。

非交互式的执行SQL脚本,则会更复杂一点, 在下面进行说明。

如果客户端不设置client_encoding (非终端模式), 则服务端会把client_encoding 设置为server_encoding.

三. SQL命令

  • 当client_encoding与终端工具编码不一致时, 会报 ERROR: invalid byte sequence for encoding "EUC_CN",

    • 终端编码为unicode(UTF8), 服务端编码也为UTF8, client_encoding 初始值为UTF8, 下面通过set 命令修改客户端编码(也可以通过修改服务端编码,然后重连)

      chuhx@postgres=# show client_en%;
            name       | setting |                description                
      -----------------+---------+-------------------------------------------
       client_encoding | UTF8    | Sets the client's character set encoding.
      (1 row)
      
      
      chuhx@postgres=# set client_encoding= EUC_CN;  # gbk2312
      SET
      chuhx@postgres=# show client_en%;
            name       | setting |                description                
      -----------------+---------+-------------------------------------------
       client_encoding | EUC_CN  | Sets the client's character set encoding.
      (1 row)
      chuhx@postgres=# show server_en%;
            name       | setting |                    description                    
       
      -----------------+---------+---------------------------------------------------
      -
       server_encoding | UTF8    | Sets the server (database) character set encoding.
      (1 row)
      chuhx@postgres=# insert into test values('是打算');
      ERROR:  invalid byte sequence for encoding "EUC_CN": 0xe6 0x98
      
      这个报错是由于输入文本为UTF8(终端编码), 但client_encoding 为EUC_CN(gbk2312), 导致不能用EUC_CN编码正确解析输入的文本导致。
      
    • 修改终端编码 gbk2312, 修改后就不会报错。
      ssh encoding

      chuhx@postgres=# insert into test values('是打算');
      INSERT 0 1
      
  • 当client_encoding与终端工具编码不一致时,也可能会报ERROR: character with byte sequence 0xad 0xe5 in encoding "GBK" has no equivalent in encoding "UTF8"

    • 比如client_encoding 为gbk, server_encoding 为utf8, 终端编码为utf8, 此时会有如下报错:

      chuhx@postgres=# insert into test values('中国');
      ERROR:  character with byte sequence 0xad 0xe5 in encoding "GBK" has no equivalent in encoding "UTF8"
      
    • 修改终端编码为 gbk 即可成功插入, 这是因为原先插入的是’中国‘(utf8编码)按gbk 进行了解析。但没有解析出错(没有检测到)。在转换为utf8 时报错。

      chuhx@postgres=# insert into test values('中国');
      INSERT 0 1
      
  • client_encoding 与server_encoding 不一致,可能出现如下报错:character with byte sequence 0xe7 0x99 0xbc in encoding "UTF8" has no equivalent in encoding "EUC_CN", 这是由于’發‘ 不能用EUC_CN 编码表示,需要修改lightdb 服务端编码。

    chuhx@test_c=# insert into test values('發');
    ERROR:  character with byte sequence 0xe7 0x99 0xbc in encoding "UTF8" has no equivalent in encoding "EUC_CN"
    chuhx@test_c=# 
    

四. SQL文件

在通过 -f/-c 非交互方式执行SQL时, 满足了!isatty(fileno(stdin)), 如果对结果重定向到文件,则满足了 !isatty(fileno(stdout))); 此时,表示ltsql执行在非终端模式下,不会设置client_encoding, 当客户端不设置client_encoding时, 服务端会把client_encoding 设置为与server_encoding 一致。具体见如下:

[chuhx@test-host ~/citus]$ ltsql -p5432 -d test_c -c 'show %encoding;'   
      name       | setting |                    description                    
 
-----------------+---------+---------------------------------------------------
-
 client_encoding | UTF8    | Sets the client's character set encoding.
 server_encoding | EUC_CN  | Sets the server (database) character set encoding.
(2 rows)

重定向后, 非终端模式, client_encoding 与server_encoding 一致
[chuhx@test-host ~/citus]$ ltsql -p5432 -d test_c -c 'show %encoding;' > 1.txt
[chuhx@test-host ~/citus]$ cat 1.txt 
      name       | setting |                    description                     
-----------------+---------+----------------------------------------------------
 client_encoding | EUC_CN  | Sets the client's character set encoding.
 server_encoding | EUC_CN  | Sets the server (database) character set encoding.
(2 rows)

[chuhx@test-host ~/citus]$ 

用-o 指定输出文件, 会根据服务端编码设置client_encoding。
[chuhx@test-host ~/citus]$ ltsql -p5432 -d test_c -c 'show %encoding;' -o 1.txt 
[chuhx@test-host ~/citus]$ cat 1.txt 
      name       | setting |                    description                     
-----------------+---------+----------------------------------------------------
 client_encoding | UTF8    | Sets the client's character set encoding.
 server_encoding | EUC_CN  | Sets the server (database) character set encoding.
(2 rows)

五. 附录(gdb 跟踪)

r -p5432 -d test_c -f test.sql -o 1.txt 只有输入不是终端
pset.notty false

Breakpoint 3, PQconnectdbParams (keywords=0x6bc180, values=0x6bc1d0, expand_dbname=1) at fe-connect.c:651
651		PGconn	   *conn = PQconnectStartParams(keywords, values, expand_dbname);
(gdb) p keywords[6]
$60 = 0x48f9ed "client_encoding"
(gdb) p values[6]
$61 = 0x48fa0e "auto"
(gdb) c
Continuing.

Breakpoint 5, connectOptions2 (conn=0x6bc220) at fe-connect.c:1091
1091		conn->whichhost = 0;
(gdb) p conn->client_encoding
$62 = 0
(gdb) p conn->client_encoding_initial
$63 = 0x6c6470 "auto"
(gdb) c
Continuing.

Breakpoint 6, connectOptions2 (conn=0x6bc220) at fe-connect.c:1457
1457		if (conn->client_encoding_initial &&
(gdb) n
1458			strcmp(conn->client_encoding_initial, "auto") == 0)
(gdb) 
1457		if (conn->client_encoding_initial &&
(gdb) 
1460			free(conn->client_encoding_initial);
(gdb) 
1461			conn->client_encoding_initial = strdup(pg_encoding_to_char(pg_get_encoding_from_locale(NULL, true)));
(gdb) 
1462			if (!conn->client_encoding_initial)
(gdb) 
1469		if (conn->target_session_attrs)
(gdb) p conn->client_encoding_initial
$64 = 0x6c6470 "UTF8"

r -p5432 -d test_c -f test.sql > 1.txt 输入输出都不是终端
pset.notty true

Breakpoint 3, PQconnectdbParams (keywords=0x6bbf40, values=0x6bbf90, expand_dbname=1) at fe-connect.c:651
651		PGconn	   *conn = PQconnectStartParams(keywords, values, expand_dbname);
(gdb) p keywords[6]
$66 = 0x48f9ed "client_encoding"
(gdb) p values[6]
$67 = 0x0
(gdb) c
Continuing.

Breakpoint 5, connectOptions2 (conn=0x6bbfe0) at fe-connect.c:1091
1091		conn->whichhost = 0;
(gdb) p conn->client_encoding
$68 = 0
(gdb) p conn->client_encoding_initial
$69 = 0x0
(gdb) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/443866.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

电脑如何还原系统?这样做可以快速解决!

案例:我的电脑系统出问题了,怎么还原? 【我的电脑用了好几年了,最近它的系统出现了一些问题,我想还原电脑系统。有没有知道电脑系统如何还原?蹲一个简单的解决方法!】 随着电脑使用时间的增加…

面试华为,花了2个月才上岸,真的难呀····

花2个月时间面试一家公司,你们觉得值吗? 背景介绍 美本计算机专业,代码能力一般,之前有过两段实习以及一个学校项目经历。第一份实习是大二暑期在深圳的一家互联网公司做前端开发,第二份实习由于大三暑假回国的时间比…

Linux中的git命令行

Linux中的git命令行 目录 Linux中的git命令行引入1、Linux下的git工具起源2、gitee的使用.gitignore.git 3、git三板斧3.1 git add3.2 git commit3.3 git push 4、git操作4.1 查看提交日志4.2 查看状态4.3 远端同步4.4 删除文件4.5 修改文件名 引入 当多个开发者同时参与同一个…

(一)Jhipster的基本介绍及入门安装

目录 1、为什么要使用 Jhipster ? 2、安装配置 3、安装Jhipster 4、基本使用 5、介绍一下JDL Studio 6、启动 Jhipster 搭建项目 1、为什么要使用 Jhipster ? JHipster是一个开发平台,可以快速生成、开发和部署现代Web应用程序和微服务…

分享几个自动化测试的练手项目

学习自动化测试最难的是没有合适的项目练习。 测试本身既要讲究科学,又有艺术成分,单单学几个 api 的调用很难应付工作中具体的问题。 你得知道什么场景下需要添加显性等待,什么时候元素定位需要写得更加优雅,为什么需要断言这个…

CANoe使用记录(四):CANoe Graphics图形窗口

目录 1、概述 2、Graphics图形窗口 2.1、打开测量窗口(回放Log) 2.2、输出Log 2.3、添加解析DBC文件 2.4、窗口排列 2.5、添加Graphics窗口 2.6、 信号栏选择 2.7、添加信号 2.8、波形样式 2.9、单Y轴测量尺 2.10、多Y轴测量尺 2.11、数据隐…

10行Python代码,助你整理杂乱无章的文件

朋友们好,今天是周五,又到了快放假的时间,激不激动?高不高兴?但是我还是要继续分享 Python 小工具给大家,嘻嘻~~ 今天的小程序,可以一键完成文件整理,一起来看看吧! 按…

API 接口主流协议有哪些? 如何创建不同协议?

API 接口协议繁多,不同的协议有着不同的使用场景。70% 互联网应用开发者日常仅会接触到最通用的 HTTP 协议,相信大家希望了解更多其他协议的信息。我们今天会给大家介绍各种 API 接口主流协议和他们之间的关系。 1、API 接口主流协议有哪些? 接口协议分…

java环境安装 以jdk1.8 tomcat8为例

1、选择相应版本下载 官网地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 2、下载后一直点击下一步就好了ps:路径不喜欢安装在C盘的可以选择其他盘符,但是一定要自己找的到安装路径。 3、选择路径安装jdk1.8 4、…

Java基础(十六):String的常用API

Java基础系列文章 Java基础(一):语言概述 Java基础(二):原码、反码、补码及进制之间的运算 Java基础(三):数据类型与进制 Java基础(四):逻辑运算符和位运算符 Java基础(五):流程控制语句 Java基础(六)&#xff1…

Serilog介绍

SerilogSerilogSerilog是.net 下的新兴的日志框架,本文这里简单的介绍一下它的用法。 首先安装Nuget包: Install-Package SerilogInstall-Package Serilog.Sinks.Console 其中包Serilog是Log核心库,Serilog.Sinks.Console是Log的控制台输出…

云安全问题及其解决方案

随着云计算技术的快速发展,云计算已经成为了企业和个人的首选。云计算在提高了企业的效率和降低了成本的同时,也带来了一系列的安全问题。本篇博客将深入讨论云安全问题,并提出相应的解决方案,以帮助企业和个人更好地保护自己的云…

【C++学习笔记】对象的特性

深拷贝与浅拷贝 浅拷贝:简单的赋值拷贝操作 深拷贝:在堆区重新申请空间,进行拷贝 利用编译器提供的拷贝构造函数,会做浅拷贝操作;会导致堆区的内存重复释放 ![[Pasted image 20221216213144.png]] 解决方法&#xff…

Qt/QML编程学习之心得:跨平台(一)

Qt作为Cross-platform的一种开发语言,在GUI界面设计上俘获了大批开发者。 Qt很年轻但是也不年轻,看下它创作公司的历史就知道了: › 1994: Troll Tech. First public release in 1995 › 2008: Nokia acquires Troll Tech › 2012: Digia buys Qt from Nokia › 01.05.2016:…

有反爬机制就爬不了吗?那是你还不知道反反爬,道高一尺魔高一丈啊

文章目录 一、从用户请求的Headers反爬虫二、基于用户行为反爬虫(1)方法1(2)方法2 三、动态页面的反爬虫四.总结 不知道你们在用爬虫爬数据的时候是否有发现,越来越多的网站都有自己的反爬机制,抓取数据已经…

Cloud Storage .NET Crack

Cloud Storage .NET Crack 现在包括对Microsoft SharePoint Online的支持。 用于与流行的云存储库集成的存储组件。 云存储使您可以轻松地从任何受支持的平台或开发技术集成基于云的文件存储。这些易于使用的组件可用于与流行的云存储提供商集成,如Amazon S3、Googl…

ESP32使用ESP-NOW协议实现一对多通信和MAC地址存储

目录 介绍ESP-NOW 协议概述在 ESP32 上配置 ESP-NOW使用 ESP-NOW 进行一对多通信在 ESP32 上存储发件人的 MAC 地址代码结论 介绍 ESP32 是一款功能强大的 Wi-Fi 和蓝牙双模模块,可用于使用 ESP-NOW 协议实现低功耗、高效率的一对多通信。本文将介绍如何使用ESP-NO…

【数据分析实战】基于python对酒店预订需求进行分析

文章目录 📚引言📖数据加载以及基本观察📑缺失值观察及处理🔖缺失值观察以及可视化🔖缺失值处理 📖用户数据探索📑什么时间预定酒店将会更经济实惠?📑哪个月份的酒店预订…

centos8 mysql 主从复制

♥️作者:小刘在C站 ♥️个人主页:小刘主页 ♥️每天分享云计算网络运维课堂笔记,努力不一定有收获,但一定会有收获加油!一起努力,共赴美好人生! ♥️夕阳下,是最美的绽放,树高千尺,落叶归根人生不易,人间真情 目录 Linux centos8

机器学习入门实例-MNIST手写数据集-多分分类错误分析多标签分类多输出分类

多分类 随机梯度下降、随机森林和朴素贝叶斯都可以处理多分类问题,而logistic回归、支持向量机是严格的二分类分类器,但是可以用一些方法将多个二分类分类器组合在一起完成多分类任务。 1. OvR(one-versus-the-rest、one-versus-all&#x…