当前位置: 首页 > news >正文

C# string转unicode字符

在 C# 中,将字符串转换为 Unicode 字符(即每个字符的 Unicode 码点)可以通过遍历字符串中的每个字符并获取其 Unicode 值来实现。Unicode 值是一个整数,表示字符在 Unicode 标准中的唯一编号。

以下是实现方法:


1. 获取字符串中每个字符的 Unicode 值

使用 char 类型的隐式转换或 Convert.ToInt32 方法可以获取字符的 Unicode 值。

示例代码:
using System;class Program
{static void Main(){string input = "Hello 你好";foreach (char c in input){int unicodeValue = c; // 隐式转换为 Unicode 值Console.WriteLine($"字符: {c}, Unicode 值: {unicodeValue}");}}
}
输出:
字符: H, Unicode 值: 72
字符: e, Unicode 值: 101
字符: l, Unicode 值: 108
字符: l, Unicode 值: 108
字符: o, Unicode 值: 111
字符:  , Unicode 值: 32
字符: 你, Unicode 值: 20320
字符: 好, Unicode 值: 22909

2. 将 Unicode 值格式化为 \u 转义字符

如果需要将 Unicode 值格式化为 \u 开头的转义字符(例如 \u0041 表示字符 A),可以使用 ToString("X4") 将 Unicode 值转换为 4 位十六进制字符串。

示例代码:
using System;class Program
{static void Main(){string input = "Hello 你好";foreach (char c in input){int unicodeValue = c;string unicodeEscape = $"\\u{unicodeValue:X4}"; // 格式化为 \uHHHHConsole.WriteLine($"字符: {c}, Unicode 转义字符: {unicodeEscape}");}}
}
输出:
字符: H, Unicode 转义字符: \u0048
字符: e, Unicode 转义字符: \u0065
字符: l, Unicode 转义字符: \u006C
字符: l, Unicode 转义字符: \u006C
字符: o, Unicode 转义字符: \u006F
字符:  , Unicode 转义字符: \u0020
字符: 你, Unicode 转义字符: \u4F60
字符: 好, Unicode 转义字符: \u597D

3. 将字符串整体转换为 Unicode 转义字符

如果需要将整个字符串转换为 Unicode 转义字符格式,可以遍历字符串并拼接结果。

示例代码:
using System;
using System.Text;class Program
{static void Main(){string input = "Hello 你好";StringBuilder unicodeBuilder = new StringBuilder();foreach (char c in input){int unicodeValue = c;unicodeBuilder.Append($"\\u{unicodeValue:X4}");}string unicodeString = unicodeBuilder.ToString();Console.WriteLine(unicodeString); // 输出: \u0048\u0065\u006C\u006C\u006F\u0020\u4F60\u597D}
}

4. 处理 Surrogate Pair(代理对)

对于某些 Unicode 字符(如表情符号或某些特殊字符),它们可能由两个 char 值(称为代理对)表示。需要使用 char.IsSurrogatePairchar.ConvertToUtf32 来处理。

示例代码:
using System;
using System.Text;class Program
{static void Main(){string input = "Hello 😊 你好";StringBuilder unicodeBuilder = new StringBuilder();for (int i = 0; i < input.Length; i++){if (char.IsSurrogatePair(input, i)){// 处理代理对int codePoint = char.ConvertToUtf32(input, i);unicodeBuilder.Append($"\\U{codePoint:X8}"); // 使用 \U 表示 8 位十六进制i++; // 跳过下一个 char}else{// 处理普通字符int unicodeValue = input[i];unicodeBuilder.Append($"\\u{unicodeValue:X4}");}}string unicodeString = unicodeBuilder.ToString();Console.WriteLine(unicodeString); // 输出: \u0048\u0065\u006C\u006C\u006F\u0020\U0001F60A\u0020\u4F60\u597D}
}

5. 总结

  • 使用 char 的隐式转换或 Convert.ToInt32 获取字符的 Unicode 值。
  • 使用 ToString("X4") 将 Unicode 值格式化为 \uHHHH 转义字符。
  • 对于代理对字符,使用 char.ConvertToUtf32\UHHHHHHHH 格式。
  • 遍历字符串并拼接结果,可以将整个字符串转换为 Unicode 转义字符格式。

通过这些方法,你可以在 C# 中轻松地将字符串转换为 Unicode 字符或转义字符格式。

http://www.lryc.cn/news/542859.html

相关文章:

  • HITCON2017SSRFME-学习复盘
  • 【Http和Https区别】
  • 2025数学建模竞赛汇总,错过再等一年
  • 基于SSM的《计算机网络》题库管理系统(源码+lw+部署文档+讲解),源码可白嫖!
  • ReentrantLock 用法与源码剖析笔记
  • 矩阵的 正定(Positive Definite)与负定(Negative Definite):从Fisher信息矩阵看“曲率”的秘密
  • 被裁20240927 --- WSL-Ubuntu20.04安装cuda、cuDNN、tensorRT
  • uniapp写的h5跳转小程序
  • [SWPUCTF 2022 新生赛]ez_rce
  • 递归、搜索与回溯算法 —— 名词解析
  • 【docker】docker swarm lock和unlock的区别,以及旧节点重启的隐患
  • Grafana使用日志5--如何重置Grafana密码
  • ELK搭建初入
  • JVM 高级面试题及答案整理,最新面试题
  • 第9章:LangChain结构化输出-示例5(基于大模型如何精确匹配POJO的字段)
  • ref和reactive的区别 Vue3
  • 基于MATLAB的OFDM通信系统仿真设计
  • 地铁站内导航系统:基于蓝牙Beacon与AR技术的动态路径规划技术深度剖析
  • JS复习练习题目、完整nodejs项目以及Commons、Es
  • Linux:理解O(1)调度算法的设计精髓
  • [C++][cmake]使用C++部署yolov12目标检测的tensorrt模型支持图片视频推理windows测试通过
  • Uppy - 免费开源、功能强大的新一代 web 文件上传组件,支持集成到 Vue 项目
  • 【游戏——BFS+分层图】
  • SSL 证书是 SSL 协议实现安全通信的必要组成部分
  • Spring 源码硬核解析系列专题(七):Spring Boot 与 Spring Cloud 的微服务源码解析
  • 嵌入式开发:傅里叶变换(5):STM32和Matlab联调验证FFT
  • C# 根据Ollama+DeepSeekR1开发本地AI辅助办公助手
  • 洛谷 P8705:[蓝桥杯 2020 省 B1] 填空题之“试题 E :矩阵” ← 卡特兰数
  • 我的AI工具箱Tauri版-FluxCharacterGeneration参考图像生成人像手办(Flux 版)
  • DeepSeek开源周Day2:DeepEP - 专为 MoE 模型设计的超高效 GPU 通信库