GaussDB(DWS)字符串处理函数返回错误结果集排查

举报
-CHEN111- 发表于 2023/05/04 17:34:22 2023/05/04
【摘要】 在使用字符串处理函数时,有时会出现非预期结果的场景。在排除使用问题后,应该从encoding和数据本身开始排查。

直接从案例出发。

(一)案例背景

客户执行instr查空格下标,子查询中查询结果与将子查询的结果粘出来单独执行结果集不一致。

SELECT instr((SELECT a FROM t1), ' ') xxxxx; 
SELECT a FROM t1; 的结果是a -> SELECT instr(a, ' ');

假设当前select a from t1;通过数据库连接客户端查询后显示结果集为“测试测 试 测试”

SELECT instr((SELECT a FROM t1), ' '); --结果为6
SELECT instr('测试测 试 测试', ' '); --结果为4

(二)问题排查

从上述结果集中可以看出,如果把SELECT a FROM t1;的结果集单独复制出来,则其结果4为预期结果,而当SELECT a FROM t1;作为子查询进行instr处理时,结果为6是不符合预期的。
排查主要从encoding和子查询结果集入手

1. 先判断encoding

不同的编码类型下,字符串处理也不相同。

  • UTF8是按字符算个数
  • SQL_ASCII是按字节算个数

对于“测试测 试 测试”而言,按字符个数计算,SELECT instr('测试测 试 测试', ' ')的结果应为4;按字节个数计算,一个汉字占3个字节,SELECT instr('测试测 试 测试', ' ')的结果应为10。

查看当前库编放码类型

SHOW server_encoding;

结果为UTF8,故预期结果应该为4,但是SELECT instr((SELECT a FROM t1), ' ');结果却为6。

此时开始怀疑是否是客户端查询导致字符串结果集显示错误

2. 子查询结果集排查

通过编解码拿到字符串结果集的十六进制

SELECT encode(a, 'hex') AS res FROM t1;
                   res
------------------------------------------
 e6b58be8af95e6b58b0d0ae8af9520e6b58be8af95
(1 row)

在本地解码后结果集为

SELECT  convert_from(decode('e6b58be8af95e6b58b0d0ae8af9520e6b58be8af95','hex'),'utf8');
 convert_from
--------------
 测试测\r    +
 试 测试

可以看出,字符串结果集中,‘测试测’后并非空格,而是’\r +’。

3. 解决方案

将’\r +'按照编解码的形式替换空格

SELECT instr((SELECT a FROM t1), convert_from(decode('0d0a','hex'),'utf8'));

此时结果为4,为客户预期结果。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。