当前位置: 首页 > news >正文

CRLF、UTF-8这些编辑器右下角的选项的意思

经常使用编辑器的小伙伴应该经常能看到右下角会有这么两个选项,下图是VScode中的示例,那么这两个到底是啥作用呢?
在这里插入图片描述

目录

  • 字符编码
    • ASCII 字符集
    • GBK 字符集
    • Unicode 字符集
    • UTF-8 编码
  • 换行

字符编码

此部分参考博文
在计算机中,所有数据都是以二进制数的形式存储的,字符 char 也不例外。通过建立一套“字符集”,规定每个字符和二进制数之间的一一对应关系,这样计算机就可以通过查表完成二进制数到字符的转换。

ASCII 字符集

使用 7 位二进制数(一个字节的低 7 位)表示一个字符,最多能够表示 128 个不同的字符。ASCII 码包括英文字母的大小写、数字 0 ~ 9、一些标点符号,以及一些控制字符(如换行符和制表符)。(无中文字符)

GBK 字符集

GBK 字符集是在 GB2312 的基础上扩展得到的,它共收录了 21886 个汉字。在 GBK 的编码方案中,ASCII 字符使用一个字节表示,汉字使用两个字节表示

Unicode 字符集

Unicode 的中文名称为“统一码”,理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中,提供一种通用的字符集来处理和显示各种语言文字,减少因为编码标准不同而产生的乱码问题。在庞大的 Unicode 字符集中,常用的字符占用 2 字节,有些生僻的字符占用 3 字节甚至 4 字节。
当多种长度的 Unicode 码点同时出现在一个文本中时,系统如何解析字符?例如给定一个长度为 2 字节的编码,系统如何确认它是一个 2 字节的字符还是两个 1 字节的字符?对于以上问题,一种直接的解决方案是将所有字符存储为等长的编码。如下图所示,“Hello”中的每个字符占用 1 字节,“算法”中的每个字符占用 2 字节。我们可以通过==高位填 0 ==将“Hello 算法”中的所有字符都编码为 2 字节长度。这样系统就可以每隔 2 字节解析一个字符,恢复这个短语的内容了。
在这里插入图片描述

UTF-8 编码

UTF-8 已成为国际上使用最广泛的 Unicode 编码方法。它是一种可变长度的编码,使用 1 到 4 字节来表示一个字符,根据字符的复杂性而变。ASCII 字符只需 1 字节,拉丁字母和希腊字母需要 2 字节,常用的中文字符需要 3 字节,其他的一些生僻字符需要 4 字节。UTF-8 的编码规则并不复杂,分为以下两种情况。

  • 对于长度为 1 字节的字符,将最高位设置为 0,其余 7 位设置为 Unicode 码点。值得注意的是,ASCII 字符在 Unicode 字符集中占据了前 128 个码点。也就是说,UTF-8 编码可以向下兼容 ASCII 码。
  • 对于长度为 n(n>1)字节的字符,将首个字节的高n位都设置为 1,第 n+1位设置为0;从第二个字节开始,将每个字节的高 2 位都设置为10(校验符);其余所有位用于填充字符的 Unicode 码点。
    在这里插入图片描述

除了 UTF-8 之外,常见的编码方式还包括以下两种。

  • UTF-16 编码:使用 2 或 4 字节来表示一个字符。所有的 ASCII 字符和常用的非英文字符,都用 2 字节表示;少数字符需要用到 4 字节表示。对于 2 字节的字符,UTF-16 编码与 Unicode 码点相等。
  • UTF-32 编码:每个字符都使用 4 字节。这意味着 UTF-32 比 UTF-8 和 UTF-16 更占用空间,特别是对于 ASCII 字符占比较高的文本。

从存储空间占用的角度看,使用 UTF-8 表示英文字符非常高效,因为它仅需 1 字节;使用 UTF-16 编码某些非英文字符(例如中文)会更加高效,因为它仅需 2 字节,而 UTF-8 可能需要 3 字节。
从兼容性的角度看,UTF-8 的通用性最佳,许多工具和库优先支持 UTF-8

换行

CRLF (Carriage Return Line Feed):回车换行符,由CR字符后跟LF字符组成,即\r\n\r是回车符,\n是换行符。在Windows操作系统以及基于DOS的系统中使用CRLF作为行结束符。CRLF的作用是先执行回车操作(回到行首),再执行换行操作(移动到下一行),从而在文本数据流中创建一个新行。各个系统的换行标志:

  • windows 用 \r\n
  • linux/unix 用 \n
  • Mac OS 用 \r

在不同操作系统下时,需注意这个行尾序列,也就是换行符的表示。
❗️❗️❗️从linux随便取一个有多行内容的文件到windows,用记事本打开,在linux下换行的内容会不换行,如果有N行,会变成一行显示,原因是linux取下来的文件只有\n,但没有\r

http://www.lryc.cn/news/469195.html

相关文章:

  • 【C++干货篇】——类和对象的魅力(四)
  • 基于java的诊所管理系统源码,SaaS门诊信息系统,二次开发的不二选择
  • O2OA如何实现文件跨服务器的备份
  • 语音提示器-WT3000A离在线TTS方案-打破语种限制/AI对话多功能支持
  • 使用HAL库的STM32工程,实现DMA传输USART发送接收数据
  • 常用排序算法总结
  • [项目详解][boost搜索引擎#2] 建立index | 安装分词工具cppjieba | 实现倒排索引
  • R语言编程
  • Mysql主主互备配置
  • 如何预防数据打架?数据仓库如何保持指标数据一致性开发指南(持续更新)
  • 我谈Canny算子
  • 算法的学习笔记—平衡二叉树(牛客JZ79)
  • SSM学习day01 JS基础语法
  • kubeadm快速自动化部署k8s集群
  • 解决JAVA使用@JsonProperty序列化出现字段重复问题(大写开头的字段重复序列化)
  • 分布式理论基础
  • Java应用程序的测试覆盖率之设计与实现(二)-- jacoco agent
  • 【机器学习】13. 决策树
  • 《a16z : 2024 年加密货币现状报告》解析
  • Laravel 使用Simple QrCode 生成PNG遇到问题
  • 一站式学习 Shell 脚本语法与编程技巧,踏出自动化的第一步
  • 批处理操作的优化
  • 机器视觉运动控制一体机在DELTA并联机械手视觉上下料应用
  • RHCE-web篇
  • Java - 人工智能;SpringAI
  • MFC开发,给对话框添加定时器
  • LED灯珠:技术、类型与选择指南
  • C语言二刷
  • C++模块化程序设计举例
  • 毕业设计选题:基于Python的招聘信息爬取和可视化平台