当前位置: 首页 > news >正文

Redis数据迁移过程,使用jedis客户端发送命令,需要注意string和byte类型的命令,如果使用的转换字符编码不一致,会导致丢数据

1.了解String与byte之间存在的字符编码映射规则(java为例)

string与byte来回转换,需要指定一样字符编码规则

详细原因请参考:关于Java中bytes到String的转换-阿里云开发者社区 

简单来说

(1)string和byte转换之间需要指定字符编码参数Charset.defaultCharset(),默认不指定的情况下,使用的是utf-8编码,所以一般情况下相互转换使用的都是同一种编码utf-8,byte和string之间的来回转换不会出现错误。如以下代码示例:

public static void main(String[] args) {byte[] original2 = new byte[] {(byte) 0xef, (byte) 0x8f, (byte) 0xff};byte[] transformed2 =new String(original2, Charset.defaultCharset()).getBytes(Charset.defaultCharset());System.out.println(Arrays.toString(original2));System.out.println(Arrays.toString(transformed2));System.out.println(Arrays.equals(original2, transformed2));}

(2)指定的字符编码不一致,导致string和byte转换出现错误的场景

  • 转换过程,指定的字符编码不一致

    string转byte时,指定了使用GBK字符编码,byte转回string字符时,使用了默认的utf-8。

  • 跨机器的代码转换

    在A机器上,string转byte时,使用的默认字符编码与系统一致是GBK字符编码。

    把byte数据发送给B机器处理,byte转string时,使用的默认字符编码与系统一致是utf-8字符编码

参考utf-8编码规范

https://www.unicode.org/versions/Unicode13.0.0/ch03.pdf 

2.redis的使用场景

数据处理经过

现在有个命令需要处理:set a b

处理过程是,通过jedis客户端发送string或者byte数据到redis,redis底层只存byte格式的数据。

具体流程

(1)使用jedis存string ==》默认使用utf-8转byte存储 ==》默认读取使用utf-8解码读取

(2)使用jedis存string ==》指定字符编码,把string转byte存储 ==》指定字符编码,从byte转string后读取数据

(3)使用任意字符编码把string转byte后,使用jedis存byte ==》与编码无关直接存储 ==》与编码无关直接读取

jedis指定编码规则的源码位置:redis.clients.jedis.Client#set(java.lang.String, java.lang.String)

public void set(String key, String value) {this.set(SafeEncoder.encode(key), SafeEncoder.encode(value));}看看encode的方法,默认指定了UTF-8public static byte[] encode(String str) {try {if (str == null) {throw new JedisDataException("value sent to redis cannot be null");} else {return str.getBytes("UTF-8");}} catch (UnsupportedEncodingException var2) {throw new JedisException(var2);}}

字符编码丢失的问题

参考上面的具体流程可知,底层redis的存储不考虑字符编码,只存最终的byte格式数据。

使用jedis客户端的过程,可以指定string转换byte时使用的字符编码,比如utf-8、gbk等等,但是使用的什么字符编码,这个不会随着数据本身存储到redis底层。可以理解在这个过程中,使用的字符编码规则是什么丢失了。

总结:只从底层的数据byte本身,无法知道用户使用的什么字符编码把string转换成byte,然后存进来的。所以在对redis底层的数据,做数据迁移的过程中,最好不要存在改动原始byte数据的动作。比如你如果使用了new string(byte)数据,那就默认使用了utf-8的编码对它进行了转换,可能导致数据转换错误。

http://www.lryc.cn/news/58994.html

相关文章:

  • 第六章 IA-32指令类型
  • 基于BenchmarkSQL的Oracle数据库tpcc性能测试
  • Dapr和Rainbond集成,实现云原生BaaS和模块化微服务开发
  • 全国青少年信息素养大赛2023年python·选做题模拟五卷
  • itop-3568开发板驱动学习笔记(18)tasklet 机制
  • 全国青少年电子信息智能创新大赛(复赛)python·模拟二卷
  • 对标ChatGPT的开源中文方案
  • 9.Java面向对象----封装
  • 【react 全家桶】组合组件
  • VUE_学习笔记
  • 【分布式事务AT模式 SpringCloud集成Seata框架】分布式事务框架Seata详细讲解
  • 系统集成项目管理工程师软考第三章习题(每天更新)
  • FIFO的工作原理及其设计
  • 「UG/NX」Block UI 通过浏览器选择文件File Selection with Browse
  • 面试官:如何搭建Prometheus和Grafana对业务指标进行监控?
  • SQL Server 创建登录账号、创建用户名并为数据库赋予db_owner权限
  • 离散数学_第二章:基本结构:集合、函数、序列、求和和矩阵(1)
  • ChatGPT想干掉开发人员,做梦去吧
  • 尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-MapReduce】
  • Linux信号sigaction / signal
  • 坦克大战第一阶段代码
  • 博客系统前端实现
  • ChatGPT技术原理、研究框架,应用实践及发展趋势(附166份报告)
  • 【屏幕自适应页面适配问题】CSS的@media,为了适应1440×900的屏幕,使用@media解决问题
  • 一篇文章理解堆栈溢出
  • 优化模型验证关键代码27:多旅行商问题的变体-多起点单目的地问题和多汉密尔顿路径问题
  • 快速搭建第一个SpringCloud程序
  • 【离散数学】图论
  • 代码随想录算法训练营第三十七天-贪心算法6| 738.单调递增的数字 968.监控二叉树 总结
  • 【Linux】线程中的互斥锁、条件变量、信号量(数据安全问题、生产消费模型、阻塞队列和环形队列的实现)