当前位置: 首页 > news >正文

c++分辨读取的文件编码格式是utf-8还是GB2312

直接上代码,有一部分是GPT直接生成的:

#include <QCoreApplication>
#include <QFile>
#include <QTextCodec>
#include <QDebug>// 判断是否为UTF-8编码
bool isUtf8(const QByteArray &data) {int i = 0;while (i < data.size()) {if ((data[i] & 0x80) == 0) { // 0xxxxxxxi++;continue;}if ((data[i] & 0xE0) == 0xC0) { // 110xxxxx 10xxxxxxif (i + 1 >= data.size() || (data[i + 1] & 0xC0) != 0x80)return false;i += 2;continue;}if ((data[i] & 0xF0) == 0xE0) { // 1110xxxx 10xxxxxx 10xxxxxxif (i + 2 >= data.size() || (data[i + 1] & 0xC0) != 0x80 || (data[i + 2] & 0xC0) != 0x80)return false;i += 3;continue;}if ((data[i] & 0xF8) == 0xF0) { // 11110xxx 10xxxxxx 10xxxxxx 10xxxxxxif (i + 3 >= data.size() || (data[i + 1] & 0xC0) != 0x80 || (data[i + 2] & 0xC0) != 0x80 || (data[i + 3] & 0xC0) != 0x80)return false;i += 4;continue;}return false;}return true;
}// 判断是否为GB2312编码
bool isGb2312(const QByteArray &data) {QTextCodec *codec = QTextCodec::codecForName("GB2312");if (!codec)return false;QString decodedString = codec->toUnicode(data);QByteArray encodedData = codec->fromUnicode(decodedString);return data == encodedData;
}// 检测文件编码
QString detectEncoding(const QString &filePath) {QFile file(filePath);if (!file.open(QIODevice::ReadOnly)) {qWarning() << "Failed to open file:" << filePath;return "Unknown";}QByteArray data = file.readAll();if (isUtf8(data)) {return "UTF-8";} else if (isGb2312(data)) {return "GB2312";} else {return "Unknown";}
}int main(int argc, char *argv[]) {QCoreApplication a(argc, argv);QString filePath = "path/to/your/file.txt";QString encoding = detectEncoding(filePath);qDebug() << "File encoding:" << encoding;return a.exec();
}

代码解释

  1. isUtf8函数:通过检查字节模式来判断数据是否符合UTF-8编码的格式。
  2. isGb2312函数:使用Qt的QTextCodec来尝试将数据解码为GB2312,再编码回原始数据进行比较。如果一致,说明数据是GB2312编码。
  3. detectEncoding函数:读取文件内容,并使用isUtf8isGb2312函数来判断文件的编码格式。
  4. main函数:创建Qt应用程序实例,调用detectEncoding函数并输出文件的编码格式。

注意事项

  • 这种方法并不是百分百准确,因为某些字节序列在不同编码下可能都是合法的。因此,检测结果仅供参考。
  • 复杂的字符编码检测通常需要更复杂的算法或使用专门的库,如ICU(International Components for Unicode)。
  • 对于大文件,可以只读取文件的前几KB进行检测,以提高性能。
http://www.lryc.cn/news/371732.html

相关文章:

  • MS721仪表总线(M-Bus)从站收发电路
  • 用Python代码锁定Excel单元格以及行和列
  • 在Lua解释器中注册自定义函数库
  • UKP3D用户定制图框的思路
  • 事务并发问题 与 事务隔离级别
  • 云原生Kubernetes系列项目实战-k8s集群+高可用负载均衡层+防火墙
  • MFC为什么说文档在数据的保存和给用户提供数据之间划分了清晰的界限?
  • SAS:PROC SQL和ANSI标准
  • 使用mysql_config_editor可以为特定的MySQL服务器或客户端程序设置登录路径
  • gridview的模板按钮如何判断用户点击的是哪一行
  • 虚拟化 之三 详解 jailhouse(ARM 平台)的构建过程、配置及使用
  • 数据安全:Web3时代的隐私保护新标准
  • STM32串口不定长接收空闲中断
  • Ubuntu 设置开机启动脚本
  • C# Task 包含 await ConfigureAwait CancellationTokenSource
  • Python数据分析与建模库-02科学计算库Numpy01-05合集
  • 【前端项目笔记】1 登录与登出功能实现
  • 是字符串定义以及在C语言中字符串是如何表示的
  • 辽宁普通测径仪升级智能测径仪后都有哪些改进?
  • 【微信小程序】事件分类以及阻止事件冒泡
  • 踩坑!被node-sass折磨的一天
  • App UI 风格打造独特体验
  • 【学习笔记8】阅读StyleID论文源码
  • wordpress旅游网站模板
  • vs2019 c++20规范 STL 库中头文件 <atomic> 源码注释及探讨几个知识点
  • Flink任务如何跑起来之 2.算子 StreamOperator
  • 学习笔记——路由网络基础——路由优先级(preference)
  • 数据预处理——调整方差、标准化、归一化(Matlab、python)
  • opencv_特征检测和描述
  • CID引流电商下的3C产品选品策略深度解析