当前位置: 首页 > news >正文

N1 one-hot编码

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊# 前言

前言

onehot编码在机器学习比较常见,例如推荐系统中类别变量的处理等。

onehot 编码简介

One-hot编码(one-hot encoding)是一种常见的数据预处理方法,用于将分类数据转换为可以输入机器学习算法的格式。具体来说,它将分类数据转换为一个二进制向量,其中只有一个位置的值为1,其余位置的值为0。这种编码方式特别适用于处理离散的分类变量,避免了分类变量之间可能出现的顺序关系误解。

一、One-hot编码的工作原理

假设有一个分类变量,它有 ( N ) 个不同的类别。我们可以用一个长度为 ( N ) 的向量来表示这个变量,每个类别对应向量中的一个位置。对于给定的类别,这个位置的值设为1,其余位置的值设为0。

示例

假设有一个分类变量“颜色”,它有三种可能的取值:红色、绿色和蓝色。我们可以用以下方式进行one-hot编码:

  1. 红色(Red)
  2. 绿色(Green)
  3. 蓝色(Blue)
颜色One-hot 编码
红色[1, 0, 0]
绿色[0, 1, 0]
蓝色[0, 0, 1]

在这种表示法中,每种颜色被转换成一个二进制向量,其中只有一个元素为1,其余元素为0。

二、使用one-hot编码的原因

  1. 避免错误的序列关系:有时分类变量被编码为整数(例如红色=1,绿色=2,蓝色=3),这会导致算法错误地认为这些类别之间存在顺序关系。one-hot编码可以消除这种误解。

  2. 兼容性:许多机器学习算法需要数值输入,one-hot编码将分类变量转换为数值形式,使得这些算法可以直接处理。

  3. 增强模型性能:对于某些模型(例如线性模型),one-hot编码可以提高模型的性能,因为它能更好地捕捉到分类变量之间的独立性。

三、应用场景

one-hot编码广泛应用于各种机器学习和深度学习任务中,特别是在处理离散分类数据时。例如:

  • 自然语言处理(NLP):将单词或字符编码为one-hot向量,以便输入到神经网络中。
  • 推荐系统:将用户或物品的分类特征(如性别、类别等)编码为one-hot向量,以便进行用户行为预测。
  • 图像处理:在图像分类任务中,将图像标签编码为one-hot向量,以便用于损失计算。

四、注意事项

维度问题:如果分类变量的取值种类很多,one-hot编码会导致生成的向量非常稀疏且维度过高,这可能会影响计算效率和内存使用。
适用性:对于高基数(high cardinality)的分类变量,可能需要考虑其他编码方式来替代one-hot编码。

示例

下面这段话使用onehot编码:

比较直观的编码方式是采用上面提到的字典序列。例如,对于一个有三个类别的问题,可以用1、2和3分别表示这三个类别。但是,这种编码方式存在一个问题,就是模型可能会错误地认为不同类别之间存在一些顺序或距离关系,而实际上这些关系可能是不存在的或者不具有实际意义的。为了避免这种问题,引入了one-hot编码(也称独热编码)。one-hot编码的基本思想是将每个类别映射到一个向量,其中只有一个元素的值为1,其余元素的值为0。这样,每个类别之间就是相互独立的,不存在顺序或距离关系。例如,对于三个类别的情况,可以使用如下的one-hot编码:

这里使用numpy库完成

import numpy as np# 读取文本内容
with open('任务文件.txt', 'r', encoding='utf-8') as file:text = file.read()# 创建字符映射
unique_chars = sorted(set(text))
char_to_index = {char: idx for idx, char in enumerate(unique_chars)}
index_to_char = {idx: char for idx, char in enumerate(unique_chars)}# 打印字符映射
print("字符到索引的映射:")
for char, idx in char_to_index.items():print(f"'{char}': {idx}")# 生成one-hot向量
def one_hot_encode(text, char_to_index):one_hot_encoded = np.zeros((len(text), len(char_to_index)), dtype=int)for i, char in enumerate(text):one_hot_encoded[i, char_to_index[char]] = 1return one_hot_encoded# 对文本进行one-hot编码
encoded_text = one_hot_encode(text, char_to_index)# 打印结果
print("One-hot编码结果:")
for i, one_hot_vector in enumerate(encoded_text):print(f"字符 '{text[i]}' 的one-hot编码:{one_hot_vector}")

结果如下:

One-hot编码结果:
字符 '比' 的one-hot编码:[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0]

总结

one-hot编码是一种简单而有效的分类变量处理方法,广泛应用于机器学习和数据处理领域。它能有效地避免序列误解,使分类变量能够以数值形式输入到各种算法中。

http://www.lryc.cn/news/357655.html

相关文章:

  • 数据库基础+增删查改初阶
  • 大模型日报2024-05-29
  • 如何摆脱打工人任人宰割的命运
  • “图片在哪”、“我是temunx”、“变成思维导图用xmindparser”gpt给出文本变字典
  • 【LeetCode】【5】最长回文子串
  • 主播们直播时的美颜是如何实现的?集成第三方美颜SDK方案详解
  • Leetcode - 131双周赛
  • 【CSharp】判断目录以及文件是否存在
  • kali基本扫描工具(自带)
  • 与MySQL的初相遇
  • 详解Spring IoCDI(一)
  • Android 14 - 绘制体系 - 概览
  • 【RAG论文】文档树:如何提升长上下文、非连续文档、跨文档主题时的检索效果
  • 【前端每日基础】day27——小程序开发
  • 【C语言】指针速览
  • Java基础学习:深入解析Java中的位运算符
  • 9.Redis之list类型
  • Git 的安装和使用
  • 大模型时代的具身智能系列专题(五)
  • 基于springboot+vue的社区医院管理服务系统
  • 车载电子电器架构 —— 智能座舱标准化意义
  • Compose在xml中使用滑动冲突处理
  • 微信网页版登录插件v1.1.1
  • 华为实训课笔记 2024
  • HTML静态网页成品作业(HTML+CSS)——宠物狗介绍网页(3个页面)
  • 网络模型-路由策略
  • 【MySQL精通之路】InnoDB(7)-锁和事务模型
  • 深度学习创新点不大但有效果,可以发论文吗?
  • 【ARM Cache 系列文章 7.1 – ARMv8/v9 MMU 页表配置详细介绍 02 】
  • Mysql搭建主从同步,docker方式(一主一从)