当前位置: 首页 > news >正文

使用大语言模型(LLM)修正小段乱码(Mojibake)为正常文本

Python方案

在上一篇文章ftfy:修正小段乱码(Mojibake)为正常文本的Python库中,我介绍了ftfy这个库。但随着持续的开发,我发现它仍然有一些解决不了的转换。如下:

>>> ftfy.fix_text('自监督 6 自由度位姿估计的伪关键点 RKHS å¦ä¹')
'自监督 6 自由度位姿估计的伪关键点 RKHS å\xad¦ä¹'
>>> ftfy.is_bad(_)
True

可以看到后面的结果并没有转换成功,而且 ftfy.is_bad() 也返回 True,非常爽快地承认了这一点。

大语言模型(LLM)方案

而当使用 chatGPT 来解决时,简单的提示语足以解决问题:

你是一位熟悉各种语言的机器编码,如Utf8,ascii,等等,的专家,你一眼就能看出一句乱码的文字实质上是哪一种编码错误导致的,当我发给你一串乱码,修正以下乱码:自监督 6 自由度位姿估计的伪关键点 RKHS å­¦ä¹

输出:

修正后的文本应该是:自监督6自由度位姿估计的伪关键点RKHS学习修正过程是通过分析该文本的语言特征,结合常见编码格式和编码转换规则来判断该文本所使用的编码格式,然后进行对应的编码转换,将乱码转换为可读的字符。例如,上述文本可能是以UTF-8编码格式进行存储,但在读取和显示时使用了ISO-8859-1或其他不兼容的编码方式,导致了乱码的问题。

这就很妥贴。接下来只要优化一下提示词,让 LLM 返回 JSON 对象,就可以很方便地进行下一步处理了。

http://www.lryc.cn/news/438851.html

相关文章:

  • C++ 访问限定符
  • 几种mfc140u.dll常见错误情况,以及mfc140u.dll文件修复的方法
  • [产品管理-21]:NPDP新产品开发 - 19 - 产品设计与开发工具 - 详细设计与规格定义
  • powershell@文件大小排序@文件夹磁盘占用分析
  • 详解c++多态---上
  • emWin5的图片半透明之旅
  • 【RabbitMQ 项目】项目概述
  • 【VSCode】VSCode Background 背景插件辅助窗口程序
  • gdb 前端:kdbg 安装使用
  • UDP_SOCKET编程实现
  • 【网络】高级IO——阻塞IO和非阻塞IO的实现
  • ASPICE培训:打造卓越的汽车软件开发能力
  • 基于Python的人工智能应用案例系列(2):分类
  • 演示:基于WPF自绘的中国省份、城市、区县矢量地图
  • 同时拥有独显和核显,怎么让应用程序选择使用哪个GPU?
  • C++八股文之面向对象篇
  • 点云深度学习系列:Sam2Point——基于提示的点云分割
  • mysql学习教程,从入门到精通,TOP 和MySQL LIMIT 子句(15)
  • 备战软考Day02-数据结构与算法
  • COMP 6714-Info Retrieval and Web Search笔记week1
  • C++在Linux实现多线程和多进程的TCP服务器和客户端通信
  • 音视频开发常见的开源项目汇总
  • Java操控Redis (面经之 使用Redis)
  • 【计网】从零开始使用UDP进行socket编程 --- 服务端业务实现
  • 正式发售!《黑神话:悟空》背后的技术力量——UE5与实时云渲染
  • qt-creator-10.0.2之后版本的jom.exe编译速度慢下来了
  • 2024CSP-J初赛全真模拟卷选择题篇(原创,难度偏简单)
  • 【Android 13源码分析】WindowContainer窗口层级-4-Layer树
  • C# 开发教程-中级教程
  • 【C++】c++的继承