当前位置: 首页 > news >正文

对中文乱码的理解,遇到乱码该怎么办。

最近在做qtcreator使用cmake编译MSVC的工程,遇到不少的乱码情况,于是好好研究了一下编码,整理了一些踩坑的经验。

一、中文乱码的来源

目前常见到的中文编码其实就两种,UTF8和GBK。

我们遇到的绝大多数乱码,就是系统使用中文时,这两种编码被解析成了另一种。

在nodepad++中做个实验如下:

比如一个UTF8编码的“你好”,使用GBK格式编码后显示如下:

一个GBK格式的“你好”,使用UTF8编码后显示如下:

在cmd终端和powershell中基本也是同样的效果:

二、对乱码问题的分析

当遇到乱码情况时,从乱码内容就可以看出一些端倪。

首先要知道,GBK主要针对中文编码,所以即使胡乱编码,大概率还是编成了一堆汉字,就像上文的“浣犲ソ”。

然后,UTF8是万国码,预留了很多空闲编码位置,所以乱编码的时候,就很容易编成了未定义的字符。

所以,现在当你看到一堆乱码,就可以分析了:

1、当这堆乱码是一堆混乱的中文,那大概率是原本是UTF8格式的内容,然后被编码成了GBK。

2、当这堆乱码是一堆看不懂的符号时,大概率是原本是GBK格式的内容,然后被编码成了UTF8。

对于简单的情况,基本知道原因就知道如何解决了。

另外,像常见的“锟斤拷”就是UTF8被编码成了GBK。

三、对乱码的排查

乱码的来源五花八门,我这里只能说一个通用的排查方法。

从字符的源头出来,到终点,去了解中间每一步有可能涉及到编码的工具的编码处理格式。

比如,我通过windows终端的 type 命令显示了一个文件,结果是乱码。那么这中间可能涉及到编码的就有三个东西:原文-type-终端输出流。只需要依次检查这三个对中文的编码格式是否一致。例如,检查原文的时候,先用notepad++打开,看看原文编码方式。然后查一下type这个命令有没有处理文件编码,有的话是怎么处理的,怎么调整。最后看一下我使用的终端cmd、ps等默认是用什么编码,怎么修改。把这三个编码统一,乱码问题就迎刃而解了。

又比如,我使用了qtcreator打开一个使用基于msvc编译的cmake工程,结果编译时,输出端乱码了。这中间可能就涉及到,msvc编译输出内容-cmake处理-qtcreator终端输出。不过最后排查出来cmake对流程没有影响,是qtcreator有个控制终端是用UTF8选项勾错了,这里也贴一下。

http://www.lryc.cn/news/513457.html

相关文章:

  • 《机器学习》从入门到实战——逻辑回归
  • svn不能添加.a文件
  • 23.Java 时间日期扩展(新时间日期、新时间日期格式化与解析、时间戳、计算时间日期差、时间矫正器、时区)
  • C语言渗透和好网站
  • mysql系列7—Innodb的redolog
  • 静态时序分析:线负载模型的选择机制
  • git 中 工作目录 和 暂存区 的区别理解
  • C++ 变量:深入理解与应用
  • http报头解析
  • 数据库的概念和操作
  • 《XML Schema 字符串数据类型》
  • idea 开发Gradle 项目
  • Keepalived + LVS 搭建高可用负载均衡及支持 Websocket 长连接
  • 产品经理2025年展望
  • 【信息系统项目管理师】第14章:项目沟通管理过程详解
  • 串口DMA接收数据基本思路
  • 数据结构复习 (二叉查找树,高度平衡树AVL)
  • FreeSWITCH 简单图形化界面39 - Windows安装FreeSWITCH For IPPBX(WSL环境)
  • uniapp - 小程序实现摄像头拍照 + 水印绘制 + 反转摄像头 + 拍之前显示时间+地点 + 图片上传到阿里云服务器
  • Qt天气预报系统设计界面布局第四部分左边
  • VS无法找到低版本的.net,vs2022创建不了.net6的项目
  • C++软件设计模式之解释器模式
  • 小程序发版后,用户使用时,强制更新为最新版本
  • 如何使用AI工具cursor(内置ChatGPT 4o+claude-3.5)
  • 说说缓存使用的具体场景都有哪些?缓存和数据库一致性问题该如何解决?缓存使用常见问题有哪些?
  • 2025-01-01 NO2. XRHands 介绍
  • Java开发-后端请求成功,前端显示失败
  • 未来20年在大语言模型相关研究方向--大语言模型的优化与改进
  • [react] 纯组件优化子
  • 美观强大的文件保险库Chibisafe