当前位置: 首页 > news >正文

用正则处理Unicode 编码的文本

Unicode(中文:万国码、国际码、统一码、单一码)是计算机科学领域里的一项业界标准。它对世界上大部分的文字进行了整理、编码。Unicode 使计算机呈现和处理文字变得简单。

现在的 Unicode 字符分为 17 组编排,每组为一个平面(Plane),而每个平面拥有 65536(即 2 的 16 次方)个码值(Code Point)。然而,目前 Unicode 只用了少数平面,我们用到的绝大多数字符都属于第 0 号平面,即 BMP 平面。除了 BMP 平面之外,其它的平面都被称为补充平面。

 Unicode 标准也在不断发展和完善。目前,使用 4 个字节的编码表示一个字符,就可以表示出全世界所有的字符。nicode 相当于规定了字符对应的码值,这个码值得编码成字节的形式去传输和存储。最常见的编码方式是 UTF-8。

Unicode 和 UTF-8 的转换规则:

在正则中常用的有三种,分别是按功能划分的 Unicode Categories(有的也叫 Unicode Property),比如标点符号,数字符号;按连续区间划分的 Unicode Blocks,比如只是中日韩字符;按书写系统划分的 Unicode Scripts,比如汉语中文字符。

 此文章为8月Day25学习笔记,内容来源于极客时间《正则表达式入门课》,推荐该课程。

http://www.lryc.cn/news/139667.html

相关文章:

  • 【分布式技术专题】「OSS中间件系列」从0到1的介绍一下开源对象存储MinIO技术架构
  • 生成式人工智能的潜在有害影响与未来之路(三)
  • 【2023钉钉杯复赛】A题 智能手机用户监测数据分析 Python代码分析
  • Django(5)-视图函数和模板渲染
  • Windows下 MySql通过拷贝data目录迁移数据库的方法
  • RabbitMQ---订阅模型-Fanout
  • nginx 中新增url请求参数
  • [系统] 电脑突然变卡 / 电脑突然** / 各种突发情况解决思路
  • 改进YOLO系列:8.添加SimAM注意力机制
  • Go与Rust的对比与分析
  • SpingMVC拦截器-异常处理的思路,用户体验不好的地方
  • 【C++设计模式】用动画片《少年骇客》(Ben10)来解释策略模式
  • 软件测试及数据分析处理实训室建设方案
  • 切换Debian的crontab的nano编辑器
  • Spring Cloud Alibaba-Sentinel--服务容错
  • Stable Diffusion 系列教程 | 如何获得更高清优质的AI绘画
  • 食品饮料制造行业如何实现数字化转型和工业4.0
  • UE学习记录03----UE5.2 使用MVVM示例
  • 代码审计-审计工具介绍-DAST+SAST+IAST项目
  • 网络安全应急响应预案培训
  • STM32F4X 定时器中断
  • MongoDB +Dataframe+excel透视表
  • PostgreSQL日期相关
  • C++编程法则365天一天一条(8)const_cast去除cv限定
  • 某网站DES加密逆向分析实战
  • 面向对象的理解
  • java ssl加密发送邮件
  • SpringBoot-yml配置文件的使用与优势
  • Layer Normalization(层规范化)
  • redisson参数配置