当前位置: 首页 > news >正文

Java IO流(五)(字符集基础知识简介)

  • 字符集
  1. 计算机的存储规则(英文字符)

  1. 常见字符集介绍

a.GB2312字符集:1980年发布,1981年5月1日实施的简体中文汉字编码国家标准。收录7445个图形字符,其中包括6763个简体汉字

b.BIG5字符集:台湾地区繁体中文标准字符集,共收录13053个中文字,1984年实施。

c.GBK字符集:2000年3月17日发布,收录21003个汉字。

包含国家标准GB13000-1中的全部中日韩汉字,和BIG5编码中的所有汉字。windows系统默认使用的就是GBK,系统显示:ANSI。

d.Unicode字符集:国际标准字符集,它将世界各种语言的每个字符定义一个唯一的编码,以满足跨语言、跨平台的文本信息转换。

  1. 计算机的存储规则(GBK中文字符)

规则1:汉字两个字节存储

规则2:高位字节二进制一定以1开头,转成十进制之后是一个负数。

  1. 字符集小结

1.在计算机中,任意数据都是以二进制的形式来存储的

2.计算机中最小的存储单元是一个字节

3.ASCI字符集中,一个英文占一个字节

4.简体中文版Windows,默认使用GBK字符集

5.GBK字符集完全兼容ASCI字符集

一个英文占一个字节,二进制第一位是0

一个中文占两个字节,二进制高位字节的第一位是1

  1. Unicode字符集

Unicode:万国码

研发方:统一码联盟  (也叫Unicode组织)

总部位置:美国加州

研发时间:1990年

发布时间:1994年发布1.0版本,期间不断添加新的文字,最新的版本是2022年9月13日发布的15.0版本。

联盟组成:世界各地主要的电脑制造商、软件开发商、数据库开发商、政府部门、研究机构、国际机构、及个人组成

  1. UTF-16编码规则:用2~4个字节保存

Unicode Transfer Format

  1. UTF-32编码规则:固定使用四个字节保存
  2. UTF-8编码规则:用1~4个字节保存

在UTF-8编码下,英文使用1个字节保存,中文使用3个字节保存。

注意UTF-8并不是字符集,而是Unicode的一种编码方式。

Unicode字符集的UTF-8编码格式

一个英文占一个字节,二进制第一位是0,转成十进制是正数

一个中文占三个字节,二进制第一位是1,第一个字节转成十进制是负数。

  1. Java中编码的方法

String类中的方法

说明

public byte[] getBytes()

使用默认方式进行编码

public byte[] getBytes(String charsetName)

使用指定方式进行编码

  1. Java中解码的方法

String类中的方法

说明

String(byte[] bytes)

使用默认方式进行解码

String(byte[] bytes, String charsetName)

使用指定方式进行解码

代码如下:

import java.io.UnsupportedEncodingException;
import java.util.Arrays;public class CharsetDemo1 {public static void main(String[] args) throws UnsupportedEncodingException {// 1.编码String str = "你好啊~";// 使用默认字符集编码byte[] bytesDefault = str.getBytes();System.out.println(Arrays.toString(bytesDefault));// [-28, -67, -96, -27, -91, -67, -27, -107, -118, 126]// 使用GBK字符集编码byte[] bytesGBK = str.getBytes("GBK");System.out.println(Arrays.toString(bytesGBK));// [-60, -29, -70, -61, -80, -95, 126]// 2.解码String str2 = new String(bytesDefault); // 使用默认编码方式解码System.out.println(str2); // 你好啊~String str3 = new String(bytesDefault, "GBK");System.out.println(str3); // 浣犲ソ鍟妦}
}

http://www.lryc.cn/news/256981.html

相关文章:

  • 周周爱学习之Redis重点总结
  • 免费的SEO外链发布工具,提升排名的利器
  • 腾讯字节常考的linux命令
  • JAVA后端自学技能实操合集
  • C++ 关联容器
  • ES6之函数新增的扩展
  • postgresql安装部署(docker版本)
  • 【Python/Java/C++三种语言】20天拿下华为OD笔试之【位运算】2023B-出错的或电路【欧弟算法】全网注释最详细分类最全的华为OD真题
  • vscode 编译运行c++ 记录
  • 错题总结(四)
  • ORACLE使用Mybatis-plus批量插入
  • vue,uniapp的pdf等文件在线预览
  • SpringBoot 项目 Jar 包加密,防止反编译
  • DockerFile中途执行出错的解决办法
  • Word插件-好用的插件-一键设置字体--大珩助手
  • 【MODBUS】Modbus主站云端服务器和边缘设备部署区别
  • hbuiler中使用npm安装datav
  • 贾佳亚团队新作LLaMA-VID,2token让大模型学会看好莱坞大片
  • 【数据结构】手撕排序
  • 运维05:自动化
  • OpenCL学习笔记(一)开发环境搭建(win10+vs2019)
  • 寻找两个正序数组的中位数
  • 探索低代码的潜力、挑战与未来展望
  • unity 2d 入门 飞翔小鸟 小鸟碰撞 及死亡(九)
  • 实时最优控制(Real-Time Optimal Control)工具
  • (env: Windows,mp,1.06.2308310; lib: 3.2.4) uniapp微信小程序
  • go-zero开发入门-API服务开发示例
  • NVIDIA Jetson NX ubuntu20.04删除多余版本冲突的Boost库
  • 【蜗牛到家】获南明电子信息产业引导基金战略投资
  • 基于ubuntu nc指令实现远程传输文件到嵌入式设备中